Inference Server(推論伺服器)的核心概念是「常駐在機器上、載入模型權重、接收 API 請求、跑推論、回傳生成內容的 process」。本地 LLM 三層架構中、推論伺服器位於介面層(CLI / IDE / Web UI)與模型層(權重檔)之間。

概念位置

推論伺服器封裝模型載入、量化KV cache 管理、speculative decoding 等推論細節、對外提供 HTTP API。多數本地推論伺服器同時提供 OpenAI 相容 API 與自家原生 API。

可觀察訊號與例子

2026 年 5 月主流本地推論伺服器:

伺服器預設 port內部引擎適合誰
Ollama11434llama.cpp多數使用者的預設
LM Studio1234llama.cpp + GUIGUI 派、探索新模型
llama.cpp8080自己進階使用者、特殊量化
oMLX8000MLX長 context coding agent

並存可行:port 不同就不衝突、Continue.dev 等介面層可以同時設多個 model、各指向不同伺服器。

設計責任

選擇推論伺服器看三件事:是否提供 OpenAI 相容 API(影響能接哪些介面層)、模型格式支援(GGUF、MLX format)、加速技巧支援(MTP 等)。寫 code 場景的多數使用者用 Ollama 已足夠;其他選擇是針對特定需求的特化路徑。