MLX
MLX
MLX(Machine Learning eXchange)的核心概念是「Apple 為 Apple Silicon 設計的數值運算 framework」,2023 年由 Apple 釋出。它提供 Python API、自動排程 CPU / GPU / Neural Engine、利用統一記憶體架構避免在不同記憶體層之間搬資料。
概念位置
MLX 屬於基底設施層、跟 PyTorch、JAX、NumPy 並列、是「跑神經網路用的底層數值庫」。它本身不是推論伺服器、不是模型、也不是加速技巧;上層工具站在 MLX 這塊地基上做封裝。
| 通用世界 | Apple 世界 |
|---|---|
| PyTorch / JAX | MLX |
| CUDA | Metal(MLX 在 GPU 上經 Metal) |
| NumPy | mlx.core |
| Transformers | mlx-lm、mlx-community |
可觀察訊號與例子
直接用 MLX 跑模型:
1pip install mlx-lm
2mlx_lm.generate --model mlx-community/Llama-3.2-3B-Instruct-4bit --prompt "hi"這段命令會載入 MLX format 權重、用 MLX framework 在 Apple Silicon 上跑推論。需要再 wrap 成 HTTP server 才能讓 IDE 連、mlx_lm.server 是輕量選擇、oMLX 是建在 MLX 之上的完整推論伺服器。
設計責任
寫 code 場景的多數使用者透過 Ollama(用 llama.cpp 當引擎、跟 MLX 無關)、體驗已足夠。直接用 MLX 適合三種情境:想跑 Apple 釋出的 MLX format 模型、想用 MLX 寫研究 code、想試 MLX backend 的推論伺服器(oMLX)。看到「Ollama 用 MLX 加速」這類說法時、回到本卡確認 Ollama 內部 backend 是 llama.cpp 而非 MLX。