MLX(Machine Learning eXchange)的核心概念是「Apple 為 Apple Silicon 設計的數值運算 framework」,2023 年由 Apple 釋出。它提供 Python API、自動排程 CPU / GPU / Neural Engine、利用統一記憶體架構避免在不同記憶體層之間搬資料。

概念位置

MLX 屬於基底設施層、跟 PyTorch、JAX、NumPy 並列、是「跑神經網路用的底層數值庫」。它本身不是推論伺服器、不是模型、也不是加速技巧;上層工具站在 MLX 這塊地基上做封裝。

通用世界Apple 世界
PyTorch / JAXMLX
CUDAMetal(MLX 在 GPU 上經 Metal)
NumPymlx.core
Transformersmlx-lmmlx-community

可觀察訊號與例子

直接用 MLX 跑模型:

1pip install mlx-lm
2mlx_lm.generate --model mlx-community/Llama-3.2-3B-Instruct-4bit --prompt "hi"

這段命令會載入 MLX format 權重、用 MLX framework 在 Apple Silicon 上跑推論。需要再 wrap 成 HTTP server 才能讓 IDE 連、mlx_lm.server 是輕量選擇、oMLX 是建在 MLX 之上的完整推論伺服器。

設計責任

寫 code 場景的多數使用者透過 Ollama(用 llama.cpp 當引擎、跟 MLX 無關)、體驗已足夠。直接用 MLX 適合三種情境:想跑 Apple 釋出的 MLX format 模型、想用 MLX 寫研究 code、想試 MLX backend 的推論伺服器(oMLX)。看到「Ollama 用 MLX 加速」這類說法時、回到本卡確認 Ollama 內部 backend 是 llama.cpp 而非 MLX。