Inference Server

2026-05-11

Inference Server（推論伺服器）的核心概念是「常駐在機器上、載入模型權重、接收 API 請求、跑推論、回傳生成內容的 process」。本地 LLM 三層架構中、推論伺服器位於介面層（CLI / IDE / Web UI）與模型層（權重檔）之間。

概念位置

推論伺服器封裝模型載入、量化、KV cache 管理、speculative decoding 等推論細節、對外提供 HTTP API。多數本地推論伺服器同時提供 OpenAI 相容 API 與自家原生 API。

2026 年 5 月主流本地推論伺服器：

伺服器	預設 port	內部引擎	適合誰
Ollama	11434	llama.cpp	多數使用者的預設
LM Studio	1234	llama.cpp + GUI	GUI 派、探索新模型
llama.cpp	8080	自己	進階使用者、特殊量化
oMLX	8000	MLX	長 context coding agent

並存可行：port 不同就不衝突、Continue.dev 等介面層可以同時設多個 model、各指向不同伺服器。

選擇推論伺服器看三件事：是否提供 OpenAI 相容 API（影響能接哪些介面層）、模型格式支援（GGUF、MLX format）、加速技巧支援（MTP 等）。寫 code 場景的多數使用者用 Ollama 已足夠；其他選擇是針對特定需求的特化路徑。