0.6 判讀本地 LLM 資訊的五個框架

2026-05-11

本地 LLM 的核心特性之一是「資訊更新得很快」。新模型 2 ~ 3 個月一個世代、推論伺服器幾週一個版本、社群文章每天大量產出。同樣一件事在不同來源講法可能差很遠：有的精準、有的混淆層級、有的引用過時資訊、有的拿單一情境當普遍能力。學會用一致的框架評估每則資訊、是本地 LLM 使用者最值得培養的能力。

本章把前面五章的概念整理成五個判讀框架。每個框架對應一類常見資訊問題、給讀者一組可重複套用的提問清單。讀完後你會建立一個反射：看到 LLM 相關內容時、自動跑過這些框架、確認資訊夠不夠扎實再吸收。

本章目標

讀完本章後，你應該能：

看到「N 倍加速」「能跑 X 大小模型」這類量化宣稱時、知道要追問哪些變數。
看到「X 工具支援 Y 功能」時、知道怎麼確認時間點與版本。
把工具放回三層架構、辨識「framework vs 伺服器 vs 模型」的混淆。
區分「載得進記憶體」跟「實際好用」是兩件事。
把「隱私」從「位置」改成「資料流」來思考。

框架一：追溯版本與時間點

本地 LLM 工具的功能支援會隨版本變化。同一句「X 工具支援 Y 功能」可能 2025 年成立、2026 年版本改了、或反過來。判讀任一則「支援 / 整合 / 加入」的宣稱、第一步是確認版本與時間點。

這個框架解什麼問題

社群文章常省略版本資訊。「llama.cpp 加入 Gemma 4 MTP」這類句子若沒附上日期或版本號、就有三種可能：上游確實已合入、是某個 fork（從主 repo 分支出去的獨立版本）加的 patch（補丁修改）、或是社群討論的願景。三種狀態下「該怎麼用」的答案完全不同。

怎麼套用

看到「X 工具支援 / 整合 / 加入 Y」時、按順序問：

版本與日期：在哪個版本加入？發布日期是？
支援程度：是 GA（一般可用）、beta、實驗性、還是 fork 上的 patch？
官方確認：是否在 release notes / changelog / 官方文件提到？

確認來源的最快路徑：

工具	看哪裡確認版本支援狀態
Ollama	`github.com/ollama/ollama/releases`
llama.cpp	`github.com/ggerganov/llama.cpp/releases`
LM Studio	應用程式內 About 頁、官網 changelog
MLX	`github.com/ml-explore/mlx/releases`

實際情境

2026 年 5 月的具體狀態：Ollama v0.23.1（2026/5/7 釋出）一鍵支援 Gemma 4 MTP；llama.cpp 上游的 speculative decoding 框架仍 beta、Gemma 4 官方 drafter 整合是 feature request。同一個功能在兩個工具的狀態差很多、發表時間決定誰領先。

這個案例的啟示是「Ollama 用 llama.cpp 當底層」這件事、跟「新功能必定先在 llama.cpp 出現」是兩件事。Ollama 維護自己的 fork 加 patch、有時搶先支援上游還沒接受的功能。看資訊時要明確區分。

框架二：量化宣稱的三個變數

任何「N 倍加速」「快 X%」「達到 Y 分」的數字、都至少受三個變數影響：任務類型、比較基準、執行硬體。三個變數沒給齊時、跨情境比較會失準、把數字搬到自己場景常常對不上。

這個框架解什麼問題

「MTP 加速 3 倍」這個句子省略了「在 coding 任務上、跟沒開 MTP 比、用 M4 Max 跑」這三個前提。同樣的 MTP 在創意寫作上加速可能只有 1.5 倍、在 M2 Pro 上絕對數字小很多。讀者拿到「3 倍」這個數字、放到自己的場景常常對不上。

怎麼套用

看到量化宣稱時、回到下面三個維度確認：

變數	該問什麼
任務類型	coding？對話？數學？翻譯？不同任務的加速幅度差很多
比較基準	跟「沒開該功能」比、還是跟「另一個工具」比？
執行硬體	M4 Max？M2 Pro？Mac Studio？硬體規格影響絕對數字

實際情境

MTP 的官方數據是「coding 任務 2 ~ 3 倍加速、其他任務 1.5 ~ 2 倍」。社群文章可能引用成「40% 加速」、這個數字若沒附上前提、無法判斷代表什麼任務或什麼硬體。回到 Google 官方技術報告比對、能還原原始三變數。

SWE-bench 的「77.2 分」也一樣：是 SWE-bench Verified（OpenAI 篩選過的子集）、還是 SWE-bench Lite 或 Full？變體間分數差很多、混為一談會誤判模型強弱。

自己驗證的最穩做法

公開 benchmark 是參考、不是結論。挑你日常工作流的 5 ~ 10 個真實任務當私人 benchmark、跑本地模型看通過率。這個方法繞過所有變數爭議、給你能用在自己場景的數字。

框架三：工具放回三層架構

LLM 生態的工具屬於介面層、推論伺服器層、模型層。各層之間用標準介面（OpenAI 相容 API、GGUF 等）連接、各自可獨立替換。判讀工具相關資訊時、先確認它屬於哪一層、再評估宣稱。

這個框架解什麼問題

工具名稱常被當成跨層通用詞。「Ollama 很快」「MLX 比 llama.cpp 強」「oMLX 是 Ollama 的 MLX 版」這類句子各自混淆了不同層：Ollama 是推論伺服器、MLX 是 framework、llama.cpp 同時是 library 跟 server、oMLX 是另一個推論伺服器。混淆層級的句子讀起來像在比較、實際上比較的對象不在同一層。

怎麼套用

看到工具被比較或描述時、按下表分類：

工具	屬於哪一層	比較對象應該是
Continue.dev	介面層	Cursor、aider、Open WebUI
Ollama	推論伺服器	LM Studio、llama-server、oMLX
llama.cpp	library + 推論伺服器	MLX、PyTorch（library 層）；llama-server 跟其他 server 比
MLX	framework / library	PyTorch、JAX
Gemma 4 / Qwen3	模型	其他模型
OpenAI 相容 API	跨層標準介面	（是介面、不是工具）

實際情境

「Ollama 用 MLX 加速」這個句子若按本框架追問：Ollama 內部用 llama.cpp（library 層）當推論引擎、用 Metal backend 接 Apple Silicon 的 GPU。它跟 MLX 是平行的選擇、不是包含關係。要用 MLX 當 backend 要選 oMLX 或自己用 Python 把 mlx-lm 包成 server。「Ollama 用 MLX」混淆了 framework 層與 server 層。

「oMLX 比 Ollama 強」這類句子也要拆：oMLX 主要創新是 paged SSD KV cache、解的是長 context 場景的 TTFT 痛點。對短 prompt 場景、Ollama 跟 oMLX 速度差不多；對長 context 場景、oMLX 有針對性優勢。直接說「強」會丟失情境。

框架四：載得進 vs 實際好用

「能載入記憶體」跟「實際好用」是兩件事。看到「Mac 跑得起 X 模型」的截圖時、要追問體感速度與資源佔用、而非只看「啟動成功」。

這個框架解什麼問題

把模型載入記憶體（模型權重 + KV cache + 系統保留）只是第一步。實際使用要看：生字速度體感如何、首字延遲多久、整台 Mac 其他工作是否變慢、長時間用會不會降頻。一張截圖只證明「載入成功」、跟「能日常用」是不同層次的問題。

怎麼套用

看到「我在 Mac 上跑 X 模型」的報告時、按下表追問：

指標	體感分界
生字速度	< 10 tok/s 卡頓、20 ~ 40 tok/s 流暢、> 40 即時
TTFT（首字延遲）	> 10 秒打斷思路、< 3 秒接近順暢
整台 Mac 響應	切 tab / 開 app / 滑滑鼠是否順暢
記憶體 swap	Activity Monitor 看 Memory Pressure 是否變紅
風扇與降頻	長時間用是否風扇狂轉、體感變熱

實際情境

16GB Mac「跑得起」31B 模型的截圖、實際多半是：模型剛載入時看起來能用、但系統正在 swap、生字速度掉到 1 ~ 2 tok/s、其他 app 全部變慢、整台 Mac 像泡在糖漿裡。這個狀態下「跑起來」的結論成立、「日常使用」的結論不成立。

換更激進量化（Q3）來塞更大模型也踩同樣的陷阱。Q3 70B 在 24GB Mac 上勉強載入、但 coding 任務表現常輸給同硬體的 Q5 14B 模型；衰減的判讀訊號是「同任務通過率比未量化版本低 30% 以上」「hallucination 明顯上升（編造 API、忽略 prompt 約束）」、出現這些訊號就回頭重新評估量化等級。

判讀「我跑得起來」這類報告時、把上表五個指標都問一遍、才能還原真實體感。

框架五：隱私是資料流、不是位置

本地推論伺服器把 prompt 留在自己機器上、是隱私光譜的起點、不是終點。完整評估隱私要追資料流：prompt 從你按下 Enter 開始、經過哪些 process、儲存在哪、最終會不會以任何形式離開機器。

這個框架解什麼問題

「跑在本地、所以絕對私密」這個結論預設「位置」是隱私的唯一變數、但實際隱私風險來自整條資料流。同樣是「本地 LLM」、不同配置的隱私邊界可以差很多。

怎麼套用

把你的 LLM 使用環境畫成資料流圖、列出 prompt 經過的每個節點：

 1你打字
 2  ↓
 3IDE / 介面層工具（Continue.dev、Cursor、Open WebUI）
 4  ↓ 經過 OpenAI 相容 API
 5本地推論伺服器（Ollama 等）
 6  ↓
 7模型權重 + KV cache 在記憶體
 8  ↓
 9回應顯示在 IDE
10  ↓
11（可能）對話紀錄存到 SQLite / 雲端同步 / 第三方 telemetry

每個節點問一次：

節點	該問什麼
IDE 介面層	有沒有 telemetry？是否同時送雲端服務？
推論伺服器配置	`OLLAMA_HOST` 是 `127.0.0.1` 還是 `0.0.0.0`？
對話紀錄保存	存到本機 SQLite？同步到 Notion / iCloud？
介面 plugin	有沒有第三方 plugin 把 prompt 送到別處？
網路設定	是否有區網其他裝置能存取本地伺服器？

實際情境

寫 NDA 客戶 code 時、即使用 Ollama 跑本地 LLM、若同時開著「自動同步 VS Code 設定到雲端」「Open WebUI 對話歷史備份到 iCloud」、prompt 仍可能間接外洩。Cursor 等 IDE 預設可能送 telemetry（含 prompt 片段）給自家服務；用 Cursor 接本地 Ollama 跟用 Continue.dev 接本地 Ollama 的隱私邊界不同。

把 OLLAMA_HOST=0.0.0.0 開出去（讓區網其他機器連）也常被忽略。家用網路風險低、公共 Wi-Fi 在沒設防火牆規則的情況下、本地 LLM 等同暴露給整個網段。預設值是 127.0.0.1、改動前先確認場景。

雲端 LLM 也提供 zero-retention 與「不訓練」選項（企業方案、API 預設等），多數合規場景能滿足。本地的隱私優勢在「物理上資料留在機器」、雲端的隱私保證來自合約與技術控制；兩條路在隱私光譜上各占一段、按實際需求挑。

把五個框架當反射

下表把五個框架壓成一張快速查表、看新資訊時對照：

看到這類內容	先跑哪個框架
「N 倍加速」「快 X%」	框架二（任務、基準、硬體三變數）
「達到 / 接近 GPT-X」	框架二 + 框架四（變數 + 真實體感）
「X 工具支援 Y 功能」	框架一（版本與日期）
「A 比 B 強」	框架三（兩者是不是同一層）
「我跑得起 X 模型」	框架四（生字速度、TTFT、整機體感）
「本地絕對私密」	框架五（資料流每個節點）
「換 model 就能做 Y」	框架三（Y 是不是同一個架構家族？Transformer 還是 Diffusion）
「量化越激進記憶體越省」	框架四（量化後品質還夠嗎）

五個框架彼此互補、不互斥。一則複雜資訊常需要同時跑兩三個框架才能完整評估。例如「16GB Mac 跑 70B Q3 模型很順、達到 GPT-4 等級」這句話、要同時跑框架二（達到 GPT-4 是什麼任務上的測試？）、框架四（生字速度多少？整台 Mac 還能用嗎？）、框架三（70B Q3 跟 GPT-4 不在同一層、有點混）。三個框架都跑過、就能還原原始宣稱的真實價值。

框架的邊界：何時可以省略

五個框架是預設掃描清單、但不是每個情境都要五個一起跑。下表是「該框架不適用」的判讀：

框架	何時可以省略
一、追溯版本時間點	物理上限類數字（記憶體頻寬、bus 寬度）— 不隨版本變化
二、量化宣稱三變數	物理常數或寫死的硬體規格（如 M4 Max 頻寬 546 GB/s）— 是硬體事實、非宣稱
三、工具放回三層	純應用層討論（如 prompt engineering、agent 設計）— 跟分層架構正交
四、載得進 vs 好用	純概念說明 / 教學文（不涉及實際跑模型）— 沒有「好用」維度要評估
五、隱私資料流	完全離線的設備（air-gapped Mac）— 資料流退化為單一節點

判讀原則：框架不適用於「該維度根本不存在」的情境。寧可多跑一個框架、覆蓋率優先 — 跑了發現不適用比漏掉某維度風險小。

框架是工具、不是教條

跑這些框架的目的是「拿到能用在自己場景的判讀」、不是「找出每篇文章的錯」。多數作者寫東西時省略前提、是為了文章流暢、未必是有意誤導。把框架當成補完前提的工具：看到不完整的句子、自己補上「在什麼任務、什麼硬體、什麼版本」的脈絡、就能還原作者想表達的事。

對自己也用同一套標準。寫筆記、發推文、回答同事問題時、附上版本與硬體脈絡、能讓資訊更耐保存、半年後自己回看也仍能讀懂。

下一步

下一步：模組一本地 LLM 服務的安裝與應用、把概念落地到實際安裝、整合 VS Code、選模型、做期望管理。

#llm #foundations #judgment