Three-Layer Architecture

2026-05-14

Three-layer architecture（三層架構）的核心概念是「把本地 LLM 系統拆成介面層、inference server 層、模型層」。這個分層讓讀者能判斷一個工具是在處理使用者互動、模型 serving，還是權重本身。

概念位置

三層責任分工如下：

1介面層：CLI / IDE plugin / Web UI，負責接收任務與顯示結果
2伺服器層：inference server，負責載入模型、提供 API、跑推論
3模型層：權重檔與 tokenizer，負責提供可被執行的神經網路參數

它跟 OpenAI 相容 API 的關係是：API 是介面層跟伺服器層之間的標準接縫；跟 inference server 的關係是：伺服器層是三層中的中介。

可觀察訊號與例子

看到 Continue.dev、Open WebUI、aider，通常是在介面層；看到 Ollama、LM Studio server、llama.cpp server、vLLM，通常是在伺服器層；看到 GGUF、Safetensors、MLX 權重，通常是在模型層。LM Studio 這類 all-in-one 工具會跨層，但仍可拆成 UI 與 server 兩種責任。

設計責任

排錯或換工具時，先問「問題出在哪一層」。連不上 localhost 是伺服器或網路問題；回答品質差多半是模型或 prompt 問題；IDE 操作不順是介面層問題。完整推導見 0.2 三層架構。

#llm #knowledge-cards #architecture #local-llm