Knowledge Cards on Tarragon

BNF 的限制是它描述語法，不描述語意。它能表示「括號必須成對」「欄位順序合法」，但不能直接表示「日期必須晚於今天」「使用者必須有權限讀這筆資料」這類外部約束。

設計責任

BNF 適合拿來讀懂 grammar-constrained sampling 的規則形狀。實作時要確認你使用的引擎支援的是標準 BNF、EBNF、GBNF，還是自家 dialect；不同 dialect 的 optional、repeat、token escaping 寫法會不同。下一步路由是 Grammar 與 Lark Grammar。

Capability Spectrum

Thu, 14 May 2026 00:00:00 +0000

Capability spectrum（能力光譜）的核心概念是「LLM 能力通常是連續程度，不是支援 / 不支援的二元開關」。同樣宣稱支援 function calling、reasoning、coding、structured output 的模型，可能在簡單案例都成功，但在長 context、多工具、巢狀 schema、模糊需求或反例情境下出現巨大差距。

概念位置

能力光譜是評估與選型用語，用來替代 binary checklist。它把能力拆成範圍、穩定性、成本與失敗模式：模型能做什麼、在多寬的分佈上穩定、錯的時候怎麼錯、需要多少 prompt / validator / retry 才可用。

1宣稱支援 → happy path 可用
2基礎可用 → 常見變體可用
3生產可用 → edge cases、錯誤路徑、壓力情境仍可控

可觀察訊號與例子

維度	Deterministic 軟體	Fuzzy 軟體
資料形狀	結構化（JSON、DB row）	半結構化 / 非結構化
邏輯來源	人類寫死規則	模型推論、依 prompt + context 浮動
行為一致性	同 input → 同 output	同 input → 分佈
分解原則	按職責 / 模組	按角色 / agent
測試方式	unit test、覆蓋率	eval、judge、distribution metric
實驗成本	高	低（改 prompt 即可）

典型 LLM 應用的混合：

1User input
2 ↓ Fuzzy（LLM 理解意圖）
3 ↓ Deterministic（DB / API / policy）
4 ↓ Fuzzy（LLM 寫回應）
5 ↓ Deterministic（發送 / 寫入）

設計責任

讀 LLM 應用設計文章或開始設計 production AI 系統時、這個 framing 決定每個 step 的工具選擇。實作判讀：

哪段該 deterministic / 哪段該 fuzzy：規則可窮舉、失敗代價高、需要解釋、需要 byte-exact 重現的 → deterministic；自由文字輸入、生成有風格的輸出、邊界模糊的 → fuzzy。
典範用錯的反模式：deterministic 需求硬用 fuzzy（用 LLM 算稅金）、fuzzy 需求硬用 deterministic（regex 解析自由文字）、邊界混（prompt 內塞算術 / code 內塞意圖分類）。
Fuzzy 邊界的四種 guardrail：schema validation、output validator、action gating、distribution monitoring。混用、不同 risk class 分擔不同層。
跟 HITL 的關係：HITL 是 deterministic guardrail 的一種——把人類判斷當 deterministic check 包 fuzzy LLM 行為。
失敗的歸因分層：壞掉時要問「是 prompt / model / context / tool / 還是 deterministic glue 的 bug」。deterministic 軟體歸因單一、fuzzy 軟體要分這幾層查。

完整典範討論見 0.8 Deterministic vs Fuzzy Engineering。

DSL（Domain-Specific Language）

Thu, 14 May 2026 00:00:00 +0000

DSL（Domain-Specific Language）的核心概念是「為特定領域設計的小語言」。它不像通用程式語言要解所有問題，而是把某個領域的可用操作、資料形狀與限制收斂成小而可解析的語法，讓人類、LLM 與程式都能用同一種中介表示溝通。

概念位置

在 LLM 應用裡，DSL 常出現在自然語言與程式執行之間。模型把使用者意圖轉成 DSL，應用再 parse、validate、authorize、execute；這比直接讓模型輸出任意程式碼更容易控管，也比純自然語言更容易自動化。

1使用者：「找出高優先、尚未處理的 billing ticket」
2 ↓
3LLM 輸出 DSL：ticket.where(category="billing", priority="high", status!="done")
4 ↓
5parser / validator / executor

可觀察訊號與例子

看到「特定 query language」「workflow mini-language」「policy expression」「filter expression」「tool command language」就是 DSL 候選。例子包括搜尋篩選語法、監控告警規則、資料轉換 pipeline、客服工單查詢、CI workflow 條件式。

DSL 的風險是語法看起來可控，但語意與權限仍然危險。模型生成的 DSL 要經過 parser 確認語法、validator 確認欄位與型別、authorization 確認可操作範圍、dry run 或 preview 確認副作用；不能因為輸出不是通用程式碼就直接執行。

設計責任

DSL 適合操作集合固定、需要高可控性、且自然語言到執行之間需要審計紀錄的場景。設計時先定義最小語法、失敗路由與不可表示狀態；需要讓 LLM 穩定產生 DSL 時，用 grammar 或 JSON Schema 約束輸出。下一步路由是 Structured Output 與 Sampling Constraint。

Few-shot prompting

Thu, 14 May 2026 00:00:00 +0000

Few-shot prompting 的核心概念是「在 prompt 內塞幾個 input-output 範例、讓模型透過範例對齊任務」。Zero-shot 是不給範例直接給任務、few-shot 是給 1-N 個範例、模型從範例推任務分佈。屬於 in-context learning 的最常見形態、是「對齊任務」這件事的 prompt 層解法、跟 fine-tune 是兩個 endpoint。

概念位置

Zero-shot vs few-shot 對照：

 1Zero-shot：
 2 Classify the tone as positive/negative/neutral.
 3 Review: "Fine, but I expected more."
 4 → 模型自己判斷「中性」邊界
 5
 6Few-shot：
 7 Classify the tone as positive/negative/neutral.
 8 Examples:
 9 "Exceeded my expectations" → positive
10 "OK, but I wish more features" → negative
11 "Service was adequate" → neutral
12 Review: "Fine, but I expected more."
13 → 模型按範例對齊、更傾向 negative

Few-shot 跟 fine-tune 對照：

維度	Few-shot in prompt	Fine-tune
Iteration	分鐘級、改 prompt 即可	天級、要 retrain
範例容量	受 context window 限制（10–50）	可以幾千幾萬、整個 dataset 都行
Cost	每次 inference 多付 token	一次性訓練 cost、之後 inference 不變
模型遷移	跨模型即時換、prompt 直接搬	綁特定 base model、換模型要 retrain

設計責任

讀 prompt engineering 文章或寫 production prompt 看到「few-shot」「in-context examples」就是這個機制。實作判讀：

適用任務有「我的標準跟模型預設不同」：分類邊界、抽取格式、tone alignment、structured output 形狀。
失效在範例選不好：cherry-picked 不代表 distribution、cover 不到 edge case、範例彼此衝突。
跟 chain-of-thought 可疊（few-shot CoT 是經典組合）、跟 fine-tune 是 endpoint 取捨。
何時轉 fine-tune：範例多到撐爆 context window 又每天都用、才考慮。預設先 few-shot iterate。
Retrieval-augmented prompting：把寫死的 few-shot 換成從範例庫即時 retrieve、屬於 RAG 概念延伸。

完整 prompt 技術 landscape 見 4.0 Prompt 技術光譜。

Frozen baseline

Thu, 14 May 2026 00:00:00 +0000

Frozen baseline 的核心概念是「把某個特定 prompt + 特定 model 跑 production 一段時間後 freeze、每次新版本都跟它比、定期 refresh 並標明時點」。Eval 系統的標準作法、讓行為漂移可見、避免「永遠跟上一版比、長期累積漂移看不見」的常見失敗。

概念位置

跟其他 eval 概念對照：

概念	角色
Eval set	測試 input 的集合
Frozen baseline	固定的「對照組」prompt + model 版本
Regression set	Failed case 進來、防止改 prompt 又壞同樣 case
Production trace	實際 traffic、抽樣補進 eval set / baseline

工作流：

1Day 1：定義 eval set + 初始 prompt + model
2 ↓ 跑 production 一段時間（如 2 週）
3Day 14：把當下 prompt + model freeze 成 baseline-v1
4 ↓
5新版本 prompt / model 都跟 baseline-v1 比
6 ↓ 定期（如每季）refresh
7Day 90：baseline-v2、標明 refresh 時點

設計責任

讀 eval / production AI 文章看到「frozen baseline」「baseline drift」「regression set」就是這個機制。實作判讀：

為什麼必要：每次 A/B 都跟「最新版本」比、長期累積漂移完全不可見、「整體變好了沒」無從回答。Frozen baseline 是漂移的錨點。
何時 freeze：production 跑穩、user 滿意度可接受時 freeze。太早 freeze 鎖到不夠好的版本、太晚 freeze 鎖不到。
何時 refresh：定期（每季 / 每半年）、或當 baseline 明顯 obsolete（如 model 升級、產品大改版）。Refresh 後標明時點、舊版本仍可保留當歷史對照。
跟 frozen baseline 一起的還有：regression set（failed case 永遠進、防 fix 一個壞一個）、production trace 抽樣補進 eval set（讓 eval set 不脫節）。
失敗模式：baseline 跟 production 分佈差太遠（baseline 用 lab case、production 是 wild input）、跑出來分數沒參考價值。緩解：baseline 的 eval set 用 production trace 抽樣建。

完整 eval 系統設計見 4.13 Eval 設計座標系。

Goal Drift

Thu, 14 May 2026 00:00:00 +0000

Goal drift（目標漂移）的核心概念是「agent loop 把子目標誤當成整體目標」。它常讓模型完成局部步驟後宣告任務完成，實際上還漏掉測試、驗證、提交、回報或其他原始要求。

概念位置

Goal drift 是 agent loop 的 termination 失敗。它跟 context drift 的差異是：context drift 是上下文逐步偏移，goal drift 是完成條件被錯誤替換。

可觀察訊號與例子

原任務是「實作、測試、commit」，agent 實作完就回答「已完成」，這是 goal drift。另一個訊號是 agent 每步都在完成一個合理子任務，但沒有維護整體 checklist。

設計責任

緩解方式是把完成條件外部化：test pass、檔案存在、PR 開啟、commit hash 產生、人工批准。不要只靠模型自評完成；高風險任務要用 checklist 與 deterministic gate。

Grammar

Thu, 14 May 2026 00:00:00 +0000

Grammar（語法規則）的核心概念是「用形式化規則描述哪些字串是合法輸出」。在 LLM structured output 裡，grammar 是 parser / decoder 可以執行的規則集合，用來判斷 JSON、SQL、DSL、表達式或自訂格式是否符合預期形狀——此處的 grammar 指形式語法，而非英文文法。

概念位置

Grammar 位在格式定義層，常被 constrained decoding 編譯成 token mask。它跟 schema 的差異在表達方式：schema 常描述資料結構與欄位限制，grammar 描述字串如何從符號規則生成；JSON Schema 適合物件欄位，grammar 適合自訂語言、查詢語法、括號結構與特定文字格式。

1grammar 規則 → parser / decoder 編譯
2 ↓
3每個生成位置算出合法 token
4 ↓
5不合法 token 被 mask 掉

可觀察訊號與例子

時機	介入點	適合任務
Pre-act	Action 執行前確認	不可逆 / 高代價（DB write、deploy）
Mid-stream	Agent 過程中遇不確定主動問	路徑分歧、需要 domain judgment
Post-hoc	結果交付後 user 申訴 / 校正	評分類、低代價、user 數量大

跟其他相關概念對照：

概念	跟 HITL 的關係
Agent 自主度分層	Full auto / checkpoint / step-by-step / plan-first → 對應 HITL 時機
Tool 副作用範圍	等級 1-2 不需 HITL、等級 4-5 強制 HITL
Guardrail	Schema / validator / monitoring 是自動 guardrail、HITL 是人類 guardrail

設計責任

讀 AI 應用設計或 agent paper 看到「HITL」「human-in-the-loop」「approval flow」「appeal」就是這個機制。實作判讀：

位置由 risk 跟 validator 能力決定：risk 高 + validator 弱、HITL 頻率高；risk 低 + validator 強、HITL 頻率低。
三時機可組合：pre-act 擋高代價、mid-stream 處理 agent 不確定性、post-hoc 收回饋。三者各擋不同 risk class、不互斥。
避免橡皮圖章化的四條件：分級不同 risk 走不同 gate、approval UI 強制 show diff、reject 有明確 fallback、approval 訊號回饋進系統。任一不滿足、HITL 退化成形式。
跟 jagged frontier 的關係：frontier 外的任務該強制 HITL、不交給 user 自由心證。
跟 fuzzy engineering 典範的關係：HITL 是 fuzzy 行為的 deterministic guardrail 一種、不是預設要有、看 risk 跟自動 validator 能力決定。

完整 HITL 拓樸設計見 4.5 人機協作拓樸。

HyDE（Hypothetical Document Embeddings）

Thu, 14 May 2026 00:00:00 +0000

HyDE（Hypothetical Document Embeddings、Gao et al. 2022）是 RAG retrieval 階段的 query 端增強技術。核心觀察：query 跟 document 在 embedding 空間的距離往往比 document 跟 document 之間更遠——這是典型 query-document gap。HyDE 的做法是先用 LLM 對 query 生成「假設的答案文件」、對假文件做 embedding 拿去 retrieve、而不是直接 embed 原 query。

概念位置

HyDE 三步：

 1User query
 2 ↓
 3[Step 1] LLM 生成 hypothetical document
 4 (可能 hallucinate、事實正確性不重要)
 5 ↓
 6[Step 2] Embed 假文件
 7 ↓
 8[Step 3] 用假文件 embedding 去 vector DB retrieve 真文件
 9 ↓
10真實 top-k chunks → 主 LLM 回答

為什麼比直接 embed query 好：假文件的 phrasing、長度、結構都更接近真文件的分佈、embedding 距離更可靠。重點是假文件當 embedding 的代理、不是當答案——hallucinate 出錯誤事實 OK、但語意 / 領域要落對。

設計責任

讀 RAG paper 或工具看到「HyDE」「hypothetical document」「query-side augmentation」就是這個機制。實作判讀：

適用 phrasing 落差顯著的場景：問句 vs 陳述、口語 vs 正式、抽象 vs 技術詞彙。HyDE 原論文跨多領域都有提升、不限技術 / 學術。
失效在假文件偏離主題：LLM hallucinate 到別領域、retrieve 拿到完全不相關的東西。緩解：生成多個假文件取平均 embedding、或用 query + 假文件兩個 embedding 合併 retrieve。
Cost：每 query 多一個 LLM call（生假文件）、latency 加 500ms-1s，屬於明顯的 retrieval cost。對 latency 敏感場景考慮 query rewriting 等較輕量的替代。
跟 hybrid search 互補：HyDE 解語意 phrasing 落差、hybrid 解語意 / 字面互補、可以同時用。

讀 AI 應用設計文章看到「jagged frontier」「AI capability boundary」「falling asleep at the wheel」就是這個 framing。設計判讀：

不要用人類直覺難易推測 AI 能力：試跑、看結果、不要預判。
「全自動」是 over-trust 假設：frontier 鋸齒、總有些子任務落 frontier 外、需要人介入或 tool 補。設計時假設「有部分子任務 AI 會失敗」、不是「都會成功」。
失敗在 frontier 外加 prompt iteration 通常無效：那是模型能力邊界問題、不是 prompt 問題。對應 prompt 技術光譜的 systematic vs random error 診斷。
Falling asleep at the wheel：BCG 研究觀察到的人類行為——傾向不分辨任務是否在 frontier 內、對 AI 結果一律低度審查。緩解：對團隊 / user 明確標 frontier、frontier 外任務強制人類審查（HITL）、抽樣審查偵測 frontier 漂移。

完整人機協作 framing 見 4.5 人機協作拓樸。

Lark Grammar

Thu, 14 May 2026 00:00:00 +0000

Lark grammar 的核心概念是「Lark parser 使用的一種 EBNF-like 語法描述格式」。在 LLM structured output 文件中看到 lark grammar，通常是在說某個工具用 Lark 風格規則描述合法輸出，再把規則交給 parser 或 constrained decoding engine。

概念位置

Lark 是 Python 生態的 parsing toolkit，Lark grammar 是它的規則語言。它比傳統 BNF 更接近實作格式，常見元素包含 rule、terminal、literal、repeat、optional、ignore whitespace 與 start rule。

1start: query
2query: FIELD OP VALUE
3FIELD: "status" | "owner"
4OP: "=" | "!="
5VALUE: ESCAPED_STRING
6%import common.ESCAPED_STRING
7%ignore " "

這段規則描述一個很小的查詢語言，只允許固定欄位、固定運算子與 quoted string。

可觀察訊號與例子

維度	Multi-call workflow	Multi-agent system
控制流	主程式編排	Agent 自決
角色	Step 是函數、無「身份」	每個 agent 有 role / 工具集
Context	主程式傳 context	Agent 自帶 memory
重用	Step 是函數、容易 import	Agent 跨系統重用透過協議
失敗歸屬	Step 失敗、主程式接	Agent 失敗可能 cascading

三種主流拓樸：

拓樸	結構	適用
Flat	All-to-all、無 orchestrator	2-4 個 agent、動態協商
Hierarchical	Orchestrator + specialists	多專業 agent、單一對外介面
Agent-as-tool	Agent 互通像 tool call（如 MCP）	跨組織重用、標準協議

設計責任

讀 agent framework / paper 看到「multi-agent」「orchestrator」「agent-as-tool」就是這層設計。實作判讀：

「先 multi-call、不夠再 multi-agent」：multi-agent 是「特定問題的解法」、不是「更高級的設計」。判讀訊號：role 顯著差異 / 跨產品重用 / 真正平行 / 動態協作 / 團隊熟悉度——四條件全滿足才走 multi-agent。
Specialization gain vs orchestration overhead：拆細帶來單一責任、獨立優化、重用、平行；代價是 context 重複傳遞、latency 累積、debug 困難、責任歸屬模糊。
特有失敗模式：循環依賴、責任歸屬模糊、context 重複傳遞、orchestrator 單點瓶頸、agent 互相 hallucinate。每類有對應 guardrail（call stack 監測、trace 全紀錄、shared context、deterministic dispatch rule、schema validation）。
跟 MCP 的關係：MCP 的 tool primitive 視角下、agent-as-tool 可包成 MCP server 暴露、跨組織重用走這條路。

處理 query-document gap 時先判斷落差類型：同義詞、口語 vs 正式、問句 vs 陳述、跨語言、domain jargon 或識別碼。輕量修法是 query rewriting；形態落差明顯時可用 HyDE；精確 keyword 與語意都重要時用 hybrid search；仍然 top-k 不準時再加 reranker。

Reflection / Self-critique

Thu, 14 May 2026 00:00:00 +0000

Reflection（self-critique）的核心概念是「模型先生成一個草版、再對自己的草版 critique、再修改」。屬於推理引導類的 prompting 技術、也是 workflow pattern 的基本模式之一。跟 chain-of-thought 不同：CoT 是「過程要 explicit」、reflection 是「先寫一版再批評再改」、有明確的兩階段。

概念位置

Reflection 三步：

1[Generate] 模型生成 v1
2 ↓
3[Critique] 模型（或 critic LLM）對 v1 給回饋
4 ↓
5[Refine] 模型按回饋生成 v2
6 ↓
7(可選 loop)

跟其他模式對照：

模式	結構	主要解的問題
CoT	Think step by step、單次生成	隱式推理變 explicit
Reflection	Generate → critique → refine	一次生成不夠好、需要二次審視
Multi-step	Retrieve / decide / retrieve again	資訊不足、要動態補資料

設計責任

讀 prompt engineering / agent paper 看到「reflection」「self-critique」「self-refine」「critic」就是這個機制。實作判讀：

適用模型有能力辨識「自己寫的不夠好」、critique 跟 generator 不會共用同樣 blind spot。
失敗在 systematic error：critique 跟 generator 是同個模型、訓練分佈中的盲點不會因為「再想一次」消失。判讀訊號：critique 每次給很像的建議、或修完還是同一類錯——換 critic 用不同 base model、或加外部驗證（test、lint、schema）取代 LLM critique。
失敗在低能力模型：critic 能力不足、產不出有用建議、徒增 cost / latency。
失敗在無限循環：沒有客觀停止訊號、reflection 一直跑、cost 爆掉。緩解：step cap + 外部 metric（test pass、schema valid）。
失敗在過度修正：每次 reflection 都改一點、累積結果變糟（過度 fitting critic 意見）。緩解：保留 baseline、reflection 結果要跟 baseline 比、不一定採用。

設計 retrieval source 時要同時回答四件事：資料來源是否可信、資料是否新鮮、查詢者是否有權限、LLM 回答是否能追溯。高風險來源要保留 source metadata、ingestion timestamp、tenant boundary 與引用標籤；否則 retrieval 命中正確內容，也可能把不該看的資料送進 prompt。

Sampling Constraint

Thu, 14 May 2026 00:00:00 +0000

Sampling constraint（sampling 約束）的核心概念是「在模型選下一個 token 時，限制哪些 token 可以被選到」。模型 forward pass 產生每個 token 的 logit，sampling 約束在取樣前調整候選集合或機率，讓輸出符合格式、選項或安全邊界。

概念位置

Sampling 約束屬於推論階段，不修改模型權重，也不等於模型真的理解規則。常見控制手段有 temperature、top-p / top-k、logit bias、grammar mask、JSON mode 與 constrained decoding；其中 grammar mask 是 structured output 最關鍵的一類。

1prompt → model forward pass → logits
2 ↓
3sampling constraint：調整候選 token / logit / 機率
4 ↓
5sample next token → append → 下一輪

可觀察訊號與例子

看到「低 temperature 讓答案更穩」「top-p 過濾長尾 token」「logit bias 禁止某個 token」「grammar mask 只允許合法 JSON token」就是 sampling 約束。例子是 enum 分類：如果合法答案只有 billing、technical、other，推論伺服器可以在輸出欄位值的位置只允許這幾組 token 的路徑。

Sampling 約束的風險是把模型逼到錯誤但合法的輸出。當 grammar 太窄、enum 缺少 unknown、schema 沒有容納例外狀態時，模型可能輸出看似可解析但語意不可信的值；這時要加 fallback、confidence 或人工覆核路由。

設計責任

Sampling 約束適合處理格式合法性與候選空間控制，不適合單獨承擔事實正確性。設計時先問三件事：合法 token 集合能否完整表示業務狀態、約束失敗時要 retry 還是回退、下游 validator 如何分辨「格式合法但語意可疑」。下一步路由是 Structured Output 與 Top-K / Top-P / Min-P Sampling。

Structured Output

Thu, 14 May 2026 00:00:00 +0000

Structured output 的核心概念是「讓 LLM 輸出符合可機器解析的固定形狀」。它解的是應用層 parser 能不能穩定消費模型輸出的問題：輸出要能被 JSON parser、schema validator、dispatcher、workflow engine 確定性處理，而不是靠人類讀自然語言再猜意圖。

概念位置

Structured output 位在推論與應用交界，常見實作包含 JSON mode、JSON Schema、grammar 約束、constrained decoding 與 logit mask。它跟 function calling 的差異在責任層：function calling 是模型訓練出的工具呼叫能力，structured output 是推論時讓輸出形狀穩定的約束。

1模型能力：知道是否該呼叫工具、該填什麼參數
2推論約束：輸出必須符合 JSON / schema / grammar
3應用消費：parser 解析、validator 檢查、dispatcher 執行

可觀察訊號與例子

看到「固定輸出 JSON」「把結果分類成 enum」「回傳符合 schema 的物件」「讓 parser 不再處理自由文字」就是 structured output 場景。例子是客服工單分類：模型輸出 {"category":"billing","priority":"high"}，後端可以直接依欄位路由，而不是從一段自然語言裡抽關鍵字。

Structured output 的成功訊號是合法率、schema 對位率與下游解析失敗率。JSON 合法率只代表文字可被 parser 讀，schema 對位率才代表欄位、型別、enum、required 都符合應用契約；兩者分開看，才能分辨是語法錯、schema 錯，還是模型語意判斷錯。

設計責任

Structured output 適合「下游要自動執行」的輸出：tool 參數、分類、抽取、workflow 狀態、查詢條件。它的邊界是語意品質：grammar 可以保證格式合法，但不能保證模型填的值正確。下一步路由是：需要理解 token mask 機制讀 Constrained Decoding；需要判斷它跟工具呼叫的分工讀 Function Calling；需要完整應用層組合讀 4.6 應用層協議。

Three-Layer Architecture

Thu, 14 May 2026 00:00:00 +0000

Three-layer architecture（三層架構）的核心概念是「把本地 LLM 系統拆成介面層、inference server 層、模型層」。這個分層讓讀者能判斷一個工具是在處理使用者互動、模型 serving，還是權重本身。

概念位置

三層責任分工如下：

1介面層：CLI / IDE plugin / Web UI，負責接收任務與顯示結果
2伺服器層：inference server，負責載入模型、提供 API、跑推論
3模型層：權重檔與 tokenizer，負責提供可被執行的神經網路參數

Coverage 是訓練資料分佈的問題，常在 SFT、偏好資料、tool-use data、domain fine-tune 裡出現。它跟 prompt 範例不同：few-shot 範例只存在於當次 context，training examples 會透過訓練更新模型權重，影響模型「自然」傾向怎麼回答。

1訓練資料有覆蓋 → 模型自然輸出穩定
2訓練資料缺口大 → 靠 prompt / structured output / validator 兜底

可觀察訊號與例子

11. Drafter 一次生 K 個候選 token（如 K=5）
22. Target model 對「prefix + 這 K 個 token」並行驗證
33. 從前往後：
4 - drafter token i 跟 target 第 i 個位置 sampling 一致 → 接受
5 - 第一個不一致 → 接受到此為止、用 target 的 token 取代第一個不一致
64. 若全 K 個都接受、target 再 sample 一個 bonus token

Acceptance rate 影響：

場景	Acceptance rate	實際加速
Drafter 跟 target 高度同分佈	0.8 ~ 0.95	接近 K 倍上限
Drafter / target 一般搭配	0.5 ~ 0.7	約 1.5 ~ 2× 加速
Drafter 訓練分佈差很多	0.2 ~ 0.4	接近 1×（甚至更慢）
Drafter / target tokenizer 不一致	不能用	概念不成立

影響 acceptance rate 的因素

Drafter / target 同 family：同訓練分佈、acceptance rate 高（如 Gemma 4 31B + Gemma 4 E4B）
任務難度：簡單任務（boilerplate、常見 pattern）drafter 容易猜對；困難任務（reasoning、罕見領域）acceptance rate 降
Sampling temperature：高 temperature 兩邊 sample 分佈都拉平、隨機性增加、acceptance rate 降；T=0（greedy）acceptance rate 最高
K 設太大：drafter 越往後預測、累積誤差越大、後半段 token acceptance rate 急降；K 通常設 3-5 為甜蜜點

設計責任

讀 speculative decoding 設定 / model card 看到「draft acceptance」「acceptance length」就是這指標。寫 code 場景的判讀：

挑 drafter 看 family + 大小：drafter 跟 target 同 family（如 Gemma 4 31B + Gemma 4 E4B、Qwen3-30B + Qwen3-1.5B）是 acceptance rate 最高的組合
llama-bench 量實際加速比理論 K 倍重要：理論加速 = K × acceptance rate、實測才知道 drafter 在自己工作流的真實表現
太低的 acceptance rate 是訊號：< 0.3 通常表示 drafter / target 不匹配、值得換 drafter；< 0.5 表示甜蜜點以下、可調 K 或 sampling 設定
MTP（Multi-Token Prediction）：把 drafter 改成 target 內建多預測 head、acceptance rate 通常更高（因為 head 跟 target 完全同分佈）

Activation Function

Tue, 12 May 2026 00:00:00 +0000

Activation function（激活函數）的核心概念是「在 linear layer（矩陣乘法）之間插入的非線性函數」。沒有 activation function、整個多層神經網路會塌縮成單一個線性變換、表達能力跟單層 linear 一樣弱。activation function 讓深度網路真的「深」起來。

概念位置

LLM 中 activation function 主要出現在 FFN 內、夾在兩個矩陣乘法之間：

1FFN: input → W_up (linear) → activation → W_down (linear) → output
2 ↑
3 這裡是 activation function

主流 LLM 用的 activation function 演化：

Activation	公式（簡化）	出現在
ReLU	`max(0, x)`	早期 Transformer（如 BERT）
GELU	`x · Φ(x)`（Φ 是 Gaussian CDF）	GPT-2 / 3、BERT 後期
SwiGLU	`Swish(xW) ⊙ (xV)`	Llama、Gemma、Qwen 等主流
GeGLU	`GELU(xW) ⊙ (xV)`	部分 Google 系列模型

SwiGLU / GeGLU 是「gated」變體、用兩條線性投影相乘、表達能力比單一 activation 強、是現代 LLM 主流。

設計責任

讀 paper / model card 看到 SwiGLU、ReLU、GELU 等詞、知道它們是 FFN 內部的選擇、影響模型表達能力跟訓練穩定性、不影響「模型怎麼用 / 怎麼 inference」這類使用者面議題。寫 code 場景的判讀：模型用什麼 activation 由模型作者決定、使用者通常不用調；但若要 fine-tune 或自己訓模型、activation 選擇是設計決策之一。

Active Parameter

Tue, 12 May 2026 00:00:00 +0000

Active parameter 的核心概念是「MoE 模型每生成一個 token 實際參與 forward pass 的參數量」。跟模型總參數量是兩個獨立指標：總參數影響記憶體需求（要全部載入）、active parameter 影響推論速度上限（每 token 走的計算量）。Dense 模型的 active parameter 等於總參數；MoE 模型的 active parameter 通常只有總參數的 10% ~ 20%。

概念位置

模型命名中的 active parameter 線索：

命名範例	解讀
`Qwen3-30B-A3B`	30B 總參數、A3B 表示 active 約 3B
`Mixtral-8x7B`	8 個 7B expert、每 token top-2 啟用 ≈ 14B active（含 shared）
`Llama-3.3-70B`	Dense、active = total = 70B
`DeepSeek-V3`	671B 總參數、active 約 37B（依官方文件）

模型在不同維度的影響：

維度	受影響因素
記憶體需求	總參數 × 每權重 bytes
生字速度上限	active parameter × 每 token 讀取量 / memory bandwidth
模型能力（社群常見回報）	較強相關於總參數、但 active parameter 是底線

事實查核註：active parameter 跟模型能力的關係是社群常見回報、不是嚴格定理；具體模型在 coding / reasoning / 對話等任務的表現依訓練資料、RLHF、prompt 風格變化、需以 SWE-bench 等公開 benchmark 跟自己工作流校準。

設計責任

理解 active parameter 後可以解釋兩個現象：為什麼 30B MoE 跟 30B Dense 在同硬體下生字速度差很多（前者每 token 只走 3B active）、為什麼 MoE 模型能力對應的「等價 Dense 大小」不是簡單線性（社群常見回報接近總參數的 60% ~ 80% 等價 Dense 能力、但 case-by-case）。

選 MoE 模型時、active parameter 是速度判讀軸、總參數是記憶體判讀軸、能力判讀靠自己工作流的 benchmark；不要直接拿「30B」跟 Dense 30B 作能力對等。

Adam / AdamW

Tue, 12 May 2026 00:00:00 +0000

Adam（Adaptive Moment Estimation、Kingma & Ba, 2014）的核心概念是「對每個參數維護兩個 EMA（gradient 的一階矩 = 平均、二階矩 = 變異）、用這兩個值自適應地縮放每個參數的更新步長」。AdamW（Loshchilov & Hutter, 2017）是 Adam 加上「decoupled weight decay」的修正版、是現代 LLM 訓練的標準 optimizer。

概念位置

Adam 更新規則（簡化）：

1m_t = β₁ × m_{t-1} + (1 - β₁) × g_t ← gradient 的 EMA（一階矩、方向）
2v_t = β₂ × v_{t-1} + (1 - β₂) × g_t² ← gradient² 的 EMA（二階矩、變動率）
3W -= lr × m_t / (sqrt(v_t) + ε)
4 └──────┬──────┘
5 每個參數獨立縮放
6 經常變動的方向減小步長、穩定方向加大

跟其他 optimizer 對比：

對比	SGD	SGD + Momentum	Adam	AdamW
每參數自適應	否	否	是	是
記憶體開銷	1× W（就 gradient）	2× W	3× W	3× W
Hyperparameter	lr	lr + μ	lr + β₁、β₂	lr + β₁、β₂ + weight_decay
LLM 訓練主流	否	否	早期	現在主流

關鍵：AdamW 對 weight decay 跟 lr 解耦、修正了 Adam 在「lr × weight_decay」交互上的 bug、是 GPT、Llama、Gemma 等系列訓練的標配。

設計責任

讀 LLM training paper / config 看到 optimizer: AdamW、betas: [0.9, 0.95]、weight_decay: 0.1 等就是這個 optimizer 的標準設定。記憶體佔用 = 模型權重 × 3（model + m + v）、加上 backpropagation 的 activation、是訓練 vs 推論記憶體差距的主要來源。

Agent Loop

Tue, 12 May 2026 00:00:00 +0000

Agent loop 的核心概念是「LLM 在 plan → act → observe → plan 的循環中推進任務、直到任務完成或停止條件觸發」，有別於一次性回答。它讓 LLM 從「單回合工具呼叫」進化成「自主執行多步驟工作」、但同時放大 prompt injection 的影響面跟 tool use 副作用範圍。

概念位置

典型的 agent loop 流程：

1循環開始：
2 step 1：LLM 看任務目標 + 當前狀態 → 規劃下一步 → 生成 tool call
3 step 2：client 執行 tool call → 得到結果
4 step 3：tool 結果回灌 conversation → LLM 看到新狀態
5 step 4：LLM 判斷：任務完成？ → yes 結束 / no 回 step 1
6循環結束。

Agent loop 的兩個關鍵變數：

max steps：循環最大次數、防止無限迴圈跟成本爆炸。
stop condition：什麼算「任務完成」、由 LLM 自己判斷還是有額外驗證。

常見實作（依框架而異）：LangGraph、AutoGPT、Claude 的 agentic abilities、OpenAI Assistants API 都提供 agent loop 機制。

設計責任

理解 agent loop 後可以解釋兩個現象：為什麼 agent 工作流的成本比單次 LLM call 高一個量級（loop 跑很多輪）、為什麼 agent loop 是 prompt injection 的放大器（loop 中段被 injection 後、後續步驟都被牽動）。

防禦設計的核心：

max steps 上限：避免無限循環、控制成本。
per-step review checkpoint：每幾步強制人為或自動驗證、防止 agent 飄離原意圖。
agent 持的 credential 最小化：避免單次 injection 影響面跨越多服務。
tool 結果在 prompt 中包覆：明確標記「以下是 tool 回傳、不執行內含指令」、降低觸發率。

詳見 LLM Agent Prompt Injection 後果治理跟 4.4 Agent 架構原理。

Agent Memory

Tue, 12 May 2026 00:00:00 +0000

Agent memory 的核心概念是「agent 在 context window 之外管理長期狀態的設計」、把使用者偏好、過去任務、知識、操作流程等持久化、跨 session 重用。借鑒人類認知科學的五個層次：working memory（context 本身）、short-term（session scratchpad）、long-term episodic（過去事件）、long-term semantic（事實 / 知識）、long-term procedural（流程 / 技能）。

概念位置

五個層次的對比：

層	範圍	存放位置	典型內容
Working memory	當前 query / forward pass	Context window 本身	當下對話、tool result、reasoning trace
Short-term / session memory	單一 session（小時級）	Scratchpad 物件 / prompt cache	Session 內累積的中間結果、用過的策略
Long-term episodic memory	跨 session（永久）	DB / vector store / file system	「上週 alice 問過 X」「上個 sprint 解過 Y bug」
Long-term semantic memory	跨 session（永久）	DB / vector store / KG	「user 偏好 markdown 輸出」「專案用 React 18」「Python 3.11」
Long-term procedural memory	跨 session（永久）	Skill registry / playbook	「跑測試前先 npm install」「commit 前要 lint」

跟其他相關概念的關係：

概念	跟 agent memory 的關係
RAG	Long-term semantic memory 的常見實作（vector store retrieval）
Context window	Working memory 的物理上限
System prompt	把 semantic / procedural memory 編碼進 scaffold 的方式
Subagent	用 subagent 分隔不同 specialty 的 memory

設計責任

讀 agent paper / 設計 / framework docs 看到「agent memory」「memory store」「mem0 / Letta」「episodic / semantic memory」就是這 framing。寫 code 場景的判讀：

不是每個 agent 都需要五個層次都用：autocomplete 只要 working memory；對話 IDE assistant 多用 working + session；長期 coding agent 才需要 long-term
Long-term memory 的兩條實作路線：(a) retrieval-on-demand（vector store + similarity search、見 RAG）、(b) injection-on-startup（把關鍵 memory 編進 system prompt、適合小量穩定的 procedural）
失敗模式：memory drift（舊 memory 過時但仍被 retrieve）、PII 寫入（user 不知情下被存）、context 污染（不相關 memory 被 inject 進 working）、跟 hallucination 互相 boost
跟 4.19 agent memory 章節的關係：本卡是分類定義、章節是工程實務（寫入時機、retrieval 設計、失敗模式緩解）

Attention

Tue, 12 May 2026 00:00:00 +0000

Attention 的核心概念是「Transformer 中讓每個 token 對其他 token 加權平均、產生 context-aware 表示」的計算機制。具體運作是用 Query（Q）、Key（K）、Value（V）三組向量算 attention score、再用 softmax 把 score 變成權重、最後加權平均 V。這個機制是 KV cache 概念的源頭、也是 context window 上限的計算瓶頸。

概念位置

Attention 在 Transformer block 中的位置：

1Transformer block：
2 ├── Layer Norm
3 ├── Attention（本卡聚焦）
4 │ ├── Q · K^T → attention score
5 │ ├── softmax → weight
6 │ └── weight · V → output
7 ├── Layer Norm
8 └── FFN 層（或 MoE）

簡化的計算公式：

1attention(Q, K, V) = softmax(Q · K^T / √d) · V

Attention 的常見變體（影響 KV cache 體積跟推論性能）：

變體	描述
MHA（Multi-Head Attention）	原始 Transformer 設計、每 head 獨立 Q / K / V
GQA（Grouped-Query Attention）	head group 共用 K / V、KV cache 體積減小、推論較快
MLA（Multi-head Latent Attention）	DeepSeek 提出、KV cache 壓縮更激進
Flash Attention	演算法層的優化實作、跟變體獨立

設計責任

理解 attention 後可以解釋三個現象：為什麼 LLM 推論的記憶體用量隨 context 長度線性增加（KV cache 是 attention 暫存）、為什麼 KV cache 量化對品質影響有不對稱性（K 用於 score 比較、V 用於加權平均、誤差累積方式不同）、為什麼不同 attention 變體在同等模型大小下推論速度差異明顯（KV cache 體積跟卡間頻寬需求不同）。

工程實務上、Attention 是 LLM 推論性能跟記憶體需求的最大來源、量化策略、context 上限、併發數設計都圍繞 attention 跟 KV cache 展開。

Backpropagation

Tue, 12 May 2026 00:00:00 +0000

Backpropagation（反向傳播）的核心概念是「從輸出端的 loss 開始、用 chain rule 一層層往輸入端遞推、算出每個權重的 gradient」。它是訓練神經網路的核心演算法、沒有它就無法在合理時間內訓練深度模型。

概念位置

Backpropagation 是訓練 loop 的中段、夾在 forward pass 跟權重更新之間：

1[forward pass]：input → layer1 → layer2 → ... → output → loss
2 ↓
3[backpropagation]：把 loss 對最後一層權重的偏微分算出來
4 ←─ chain rule ─ 再往前傳播一層、算前一層的 gradient
5 ←─ chain rule ─ ...一路傳回輸入層
6 ↓
7[optimizer step]：每個權重 w 用對應的 gradient 更新

關鍵特性：

計算成本 ≈ forward pass 的 2~3 倍：每個 layer 都要存 forward 階段的中間值（activation）、反向時拿來算 gradient。所以訓練比推論貴一個量級。
記憶體佔用 = forward 階段 activation 的累計：這是訓練比推論吃 VRAM 的主因、不是「權重變大」、是「activation 要存著」。
數值穩定性敏感：long chain 的 chain rule 容易導致 gradient 爆炸或消失、見 gradient 卡。

設計責任

推論階段完全不用 backpropagation。理解這點能解釋幾個現象：為什麼同樣模型訓練要 8 卡 H100 一週、推論單卡就跑得動（差幾十倍的計算與記憶體需求）；為什麼 LoRA / QLoRA 等 parameter-efficient fine-tuning 能大幅降低訓練成本（凍住大部分權重、只對少數 LoRA 矩陣做 backpropagation）；為什麼 inference framework（llama.cpp、vLLM）跟 training framework（PyTorch、JAX）的設計重點完全不同。

Batching

Tue, 12 May 2026 00:00:00 +0000

Batching 的核心概念是「多個 request 在同一個 forward pass 內一起跑、攤平 model weights 從記憶體讀到處理器的成本」。是 production LLM inference 的核心優化——跟 memory bandwidth 瓶頸對接：讀一次 model weights、能 process N 個 request、單 request 的 effective throughput 上升 N 倍。

概念位置

Batching 介於 inference engine 內部、跟 KV cache 一起決定一個 GPU / Apple Silicon 能服務多少並發 user。但 batching 不是 free——靜態 batching 要等湊滿才跑、延遲首字延遲；連續 batching 平衡 throughput + latency 但實作複雜。Single-user 場景常無 batching（local Mac 跑 Ollama 即此情境）、production multi-tenant 必有 batching。

可觀察訊號與例子

策略	機制	適合場景
No batching	每 request 獨立 forward pass	Single-user、極低 latency 要求
Static batching	等湊滿 N 個 request 才跑	高 throughput 批次處理（embedding pipeline、文件 ingest）
Continuous batching	新 request 動態加入正在跑的 batch	vLLM / TGI / SGLang 等 production inference 主流
In-flight batching	不同 sequence 在不同 step 同時推	NVIDIA Triton + TensorRT-LLM 等深度優化

實務觀察：production LLM 服務 throughput 在 batch size 4-32 之間有明顯提升、超過 GPU memory 上限後反而下降（KV cache 跟 model weight 競爭記憶體）。

設計責任

選 batching 策略看兩維度：

應用 latency tolerance：
- 互動式 UI（chatbot、IDE 補完）→ continuous batching、低 latency 優先
- 批次處理（夜間 summarization）→ static batching、throughput 優先
硬體 KV cache 上限：
- GPU memory - model weights = batchable 容量
- 預估 max batch size = available_memory / per_user_kv_cache

Embedding 服務通常 batch 16-128 都 OK（embedding 是純 forward pass、無 KV cache 累積）；chat / generation 服務 batch size 受 KV cache 嚴格限制。

詳細跟 production 部署 capacity planning 的對接見 4.9 Production 資源評估；跟 autoregressive 推論的單 token 瓶頸對應的優化討論見 3.2 attention 機制。

Beam Search

Tue, 12 May 2026 00:00:00 +0000

Beam search 的核心概念是「每步同時保留 K 條最有機率的候選 sequence（beam width = K）、最終挑一條總機率最高的當輸出」。相比 greedy decoding 只保一條、beam search 能探索更多可能、避免「貪心一時、累積失誤」；但對話 / coding 場景常出現副作用、是 top-p sampling 取代它的原因。

概念位置

Beam search 跟其他 decoding 策略的對比：

策略	機制	適合場景	LLM 常見性
Greedy	每步選機率最大的 token	確定性任務、debugging	高
Beam search (K)	維護 K 條候選、最後挑總機率最高的	機器翻譯、summarization、有「正確答案」的任務	中（傳統 NLP 主流）
Top-k / top-p / min-p	從機率分佈隨機取樣（限制候選範圍）	對話、寫作、coding、創意輸出	高（LLM 主流）

Beam search 的算法直覺：

1beam_width = 3
2Step 1：從機率分佈挑前 3 個 token、得到 3 條 partial sequence
3Step 2：每條 partial 各自展開所有可能下個 token、組合機率排序、保留前 3
4Step 3：重複 Step 2、直到所有 beam 都遇到 EOS 或達到 max_length
5Final：選總 log-probability 最高的 beam 當輸出

Beam search 在 LLM chat / coding 場景的副作用：

輸出偏 boilerplate：K 個 beam 容易收斂到同樣的高頻開頭（「Sure!」「That’s a great question」）、各 beam 平均化掉原本該有的多樣性。
缺乏隨機性：給同 prompt 永遠生同輸出、缺乏寫作 / 創意任務需要的變化。
計算貴：K 倍記憶體 + K 倍 forward pass。

設計責任

讀 inference framework 看到 num_beams: 1 預設值就是用 greedy/sampling、num_beams: 5 才會開 beam search。寫 code 場景的判讀：日常用 top-p sampling 為主、需要確定性測試用 greedy、需要「在多個候選中挑最好的」用 best-of-N（每個獨立 sample、再選 reward 最高）而非 beam search。Beam search 在現代 LLM chat 場景已經少用、但在 translation / structured output 等「有正確答案」場景仍見。

Bind Address

Tue, 12 May 2026 00:00:00 +0000

Bind address 的核心概念是「伺服器啟動時決定『監聽哪個網路介面上的請求』」。同一個 port 在不同 bind address 下、能接受的請求來源完全不同；對本地 LLM 推論伺服器（Ollama / llama-server / LM Studio）來說、bind address 是決定誰能連到模型的最直接設定。

概念位置

三層典型 bind address 的暴露範圍：

bind address	接受來源	個人 dev 場景的常見用途
`127.0.0.1` / `localhost`	只本機 process	VS Code 連本機 server、最安全預設
具體 LAN IP（如 `192.168.x.x`）	同網段設備	想分享給家裡桌機 / 筆電
`0.0.0.0`	所有網路介面	容器化 / 想接受 LAN + WAN（風險高）

關鍵差異：

127.0.0.1 只接 loopback、無論其他網路介面狀態都不接外部請求。
0.0.0.0 在所有介面上監聽、若機器有 public IP 或在公開 Wi-Fi、就會被網路上其他人連到。
具體 LAN IP 是中間地帶、限定來源到該介面的網段。

檢查當前 bind 狀態的指令：

1# macOS / Linux
2lsof -i -P -n | grep LISTEN | grep <port>
3
4# Linux
5ss -lntp | grep <port>
6
7# 或
8netstat -an | grep LISTEN | grep <port>

看到 127.0.0.1:<port> 是 loopback、*:<port> 或 0.0.0.0:<port> 是所有介面。

設計責任

理解 bind address 後可以解釋兩個現象：為什麼預設安全的伺服器都 bind 到 127.0.0.1（避免不小心暴露）、為什麼 Docker -p 8080:8080 預設 bind 到 0.0.0.0（容器化的便利性、但對個人 dev 是潛在暴露點）。

設計本地推論伺服器時、預設 loopback、想分享 LAN 時 bind 到具體 LAN IP（不要直接 0.0.0.0）、要對外時加 reverse proxy + auth + TLS。詳見 6.1 推論伺服器的綁定與暴露範圍跟 7.3 入口治理與伺服器防護。

BPE（Byte-Pair Encoding）

Tue, 12 May 2026 00:00:00 +0000

BPE（Byte-Pair Encoding、Sennrich et al., 2015 引入 NLP）的核心概念是「從字元開始、反覆找『出現頻率最高的字元對』把它合併成新 token、直到達到目標詞彙表大小」。是 GPT、Llama、Mistral 等主流 LLM 的 tokenization 演算法、能在「字元」跟「整詞」之間找平衡。

概念位置

BPE 訓練 tokenizer 的流程（簡化）：

1Step 0：vocab = 所有單一字元（256 個 byte / Unicode 字符）
2
3迭代：
4 Step 1：掃描 corpus、統計所有相鄰 token 對的出現頻率
5 Step 2：找出現最多的字元對（如 "l" + "o" 一起出現 1M 次）
6 Step 3：把它當新 token 加進 vocab、把 corpus 裡所有這個對換成新 token
7 Step 4：回到 Step 1、直到 vocab 達到目標大小（如 50K、128K、256K）

實際 token 化的結果：

文字	BPE token 化結果	理由
`Hello`	`["Hello"]`	高頻單字、整詞當一個 token
`Hellobot`	`["Hello", "bot"]`	罕見組合、拆成已知 token
`Antidisestab...`	`["Anti", "dis", "establish", ...]`	罕見長詞、拆成 sub-word
`你好`	`["你", "好"]` 或 `["你好"]`	視 tokenizer 訓練 corpus 的中文比例

BPE 的變體：

Byte-level BPE：把每個 byte 當基底（256 個）、所以任何 Unicode / 二進制都能 tokenize、不會有 unknown token。GPT-2 開始的標準。
SentencePiece BPE：跟 SentencePiece 框架結合、處理多語言更靈活。

設計責任

讀 model card 看到 tokenizer: BPE 就是這個演算法。BPE 對英文友好（高頻單詞整個一 token）、中文 / 日韓較不友好（單字符常被當獨立 token）；這就是為什麼同一段中文翻譯成英文後、英文 token 數常常更少、雲端 LLM 用中文 API 比英文貴。但越新的模型（Gemma 4、Qwen3 等）vocab 越大（256K+）、對中文友善度提升中。

Catastrophic Forgetting

Tue, 12 May 2026 00:00:00 +0000

Catastrophic forgetting（災難遺忘）的核心概念是「Fine-tune 模型時、新訓練資料的 gradient 更新破壞了模型原本學到的能力」。在 LLM fine-tuning 場景特別常見：在自己 domain 資料上 fine-tune、結果模型在原 benchmark / 通用任務上分數大幅下降。

概念位置

Catastrophic forgetting 在 LLM fine-tuning 的典型表現：

 1Before fine-tune（base instruct model）：
 2  HumanEval: 75
 3  MMLU: 70
 4  自己 domain 任務 hit rate: 40%
 5
 6After fine-tune（在自己 domain 資料上跑 SFT、3 epochs）：
 7  HumanEval: 55  ← 下降 20 點
 8  MMLU: 50       ← 下降 20 點
 9  自己 domain 任務 hit rate: 70%  ← 提升 30 點
10
11→ 自己 domain 強了、但通用能力崩了

成因：

Gradient 在新資料上對 base 權重做大更新：原本 base 的權重對通用任務有用、被覆蓋掉
資料分佈差距大：自己 domain 跟 pretrain corpus 分佈差距大、學新的 = 忘舊的
訓練 epoch 太多：模型 over-fit 到新資料、舊能力衰退更嚴重
Learning rate 太高：每步更新幅度大、舊權重變化快

緩解策略

策略	機制	適用情境
LoRA / QLoRA	凍住 base 權重、只訓 adapter、舊能力完全保留	多數 fine-tune 場景的 default
資料 mixing	訓練 batch 內 mix 通用資料 + domain 資料、避免分佈完全偏移	跟 LoRA 結合使用
Lower learning rate	用較小 lr（如 5e-6 vs 1e-5）、減慢更新	全參數 fine-tune 必選
Fewer epochs	訓 1-2 epoch 就停、不過度擬合	同上
Regularization（KL constraint）	Loss 加「不能偏離 base 太遠」的約束	RLHF / DPO 已內建
EWC（Elastic Weight Consolidation）	對重要權重加更強懲罰、防止它們被改	研究用、實務罕見

主流 fine-tuning 配置（避免 catastrophic forgetting）：

1方法：QLoRA fine-tune
2參數：
3  - rank: 16-64（看資料量）
4  - alpha: 32（typical）
5  - lr: 1e-4 ~ 5e-4（LoRA 適合較大 lr）
6  - epochs: 1-3（不過度訓）
7  - 資料：80% in-domain + 20% 通用 instruction data（保留通用能力）

設計責任

讀 fine-tune paper / 報告看到「forgetting」「retention」「regression」就是這現象。寫 code 場景的判讀：

Fine-tune 前先建 baseline benchmark：把 base model 在通用 benchmark + 自己 domain 都跑一遍、fine-tune 後對比看 regression
用 LoRA / QLoRA 是 default：除非有特殊理由要 full fine-tune、不然優先 LoRA
不要把通用 chat 能力 fine-tune 掉：如果 fine-tune 後模型不會聊天、只會答自己 domain 問題、就是 forgetting 過頭
Iterative fine-tune 風險疊加：在 fine-tuned 模型上再 fine-tune（如 SFT → DPO）、forgetting 風險加倍、要小心評估
Reasoning 能力特別容易 forget：reasoning 是後期訓練的、fine-tune 一輪 SFT 容易破壞、reasoning model 不建議再 fine-tune

Causal Mask

Tue, 12 May 2026 00:00:00 +0000

Causal mask（因果遮罩）的核心概念是「在 self-attention 計算時、把 token i 看 token j (j > i) 的 attention 分數設成 -∞、softmax 後機率為 0」。直覺：LLM 是 autoregressive 的、生成 token N 時不能看到 N+1 以後（後面還沒生）、causal mask 強制這個約束、是 decoder-only Transformer 的標誌。

概念位置

Causal mask 在 attention 計算中的位置：

 1score = Q @ K^T / sqrt(d) ← shape (seq_len, seq_len)、每對 token 一個分數
 2score = score + causal_mask ← 加上 mask
 3attention = softmax(score) @ V
 4
 5causal_mask 長這樣（lower triangular、上三角全是 -∞）：
 6 K_0 K_1 K_2 K_3
 7Q_0 [ 0 -∞ -∞ -∞ ] ← token 0 只能看自己
 8Q_1 [ 0 0 -∞ -∞ ] ← token 1 能看 0~1
 9Q_2 [ 0 0 0 -∞ ]
10Q_3 [ 0 0 0 0 ]

關鍵特性：

訓練時並行有效：所有 token 同時跑 forward pass、causal mask 確保每個 token 只看到該看的範圍。沒 mask 就會「偷看未來」、訓出 cheating 模型。
推論時自動成立：自回歸生成本來就是一個一個生、後面不存在、mask 是隱式的。
跟 KV cache 結合：推論時 cache 只存「過去」的 K/V、causal mask 自然滿足。

跟其他 attention 變體的關係：

架構	是否用 causal mask
Decoder-only LLM（GPT / Llama / Gemma）	用、是標配
Encoder-only（BERT）	不用、可以看雙向 context
Encoder-decoder（T5）	Decoder 部分用、Encoder 部分不用

設計責任

讀 paper / model card 看到「causal」「decoder-only」「auto-regressive」這幾組詞、就是這個機制。實務上、寫 code 場景的所有主流 LLM 都用 causal mask、所以這個概念是隱式 default、不會主動暴露給使用者；但理解它能解釋為什麼 LLM 是「接龍」、為什麼 bidirectional context 在 LLM 裡不存在（要 bidirectional 要用 encoder 架構）。

Chain-of-Thought（CoT）

Tue, 12 May 2026 00:00:00 +0000

Chain-of-Thought（CoT、思維鏈、Wei et al., 2022）的核心概念是「讓 LLM 先輸出一連串中間推理步驟、再給最終答案」、不是直接從問題跳到結論。CoT 是 reasoning model 的基礎機制；prompting 形式（few-shot 提示）跟訓練形式（reasoning RLHF / RL）兩條路都圍繞它演化。

概念位置

CoT 的兩種觸發方式：

1直接回答：
2 Q: 23 × 47 = ?
3 A: 1081
4
5Chain-of-Thought：
6 Q: 23 × 47 = ?
7 A: 先算 20 × 47 = 940、再算 3 × 47 = 141、加起來 940 + 141 = 1081。
8 答案：1081

CoT 在 LLM 演化中的兩個階段：

階段	觸發方式	代表模型 / 技術
Prompting CoT	Few-shot 提示「請逐步思考」或「let’s think step by step」	GPT-3、PaLM、早期 instruct 模型
Training CoT	訓練資料含大量 reasoning trace、模型學會「自然」用 CoT	GPT-4、Claude 3.5、Gemini Pro
Reasoning RL	RL 階段獎勵「正確答案的長 reasoning trace」、模型學會用更長 CoT	DeepSeek-R1、o1 / o3、Qwen-QwQ、Claude 3.7 Sonnet thinking

第三階段的特性：模型自己決定「該想多久」（test-time compute 動態擴展）、推理 trace 可達數千 token、最終答案才是少數 token。

設計責任

讀 prompt engineering / paper 看到「CoT」「step by step」「reasoning trace」「thinking」等就是這個機制。寫 code 場景的判讀：

複雜推理任務開 CoT 通常有幫助（math、debug、algorithm design）— 即使是 instruct model 也能透過 prompting 觸發
簡單任務 CoT 浪費 token（autocomplete、單行查詢、純查表）
Reasoning model 的 CoT 是內建行為、不需要用 prompt 觸發、但 reasoning trace 會消耗大量 token（推論時間、context、API 成本都翻倍）
本地跑 reasoning model：DeepSeek-R1 distill 系列、Qwen-QwQ 等可本地跑、但需要較大 context window 容納 reasoning trace

Chunking

Tue, 12 May 2026 00:00:00 +0000

Chunking 的核心概念是「把長文件切成可被 retrieval 系統獨立檢索的片段」。是 RAG 系統的關鍵設計決策——chunk 太小、retrieval 拿到的 fragment 缺脈絡；太大、retrieval 精確度低且浪費 context window。「resolution vs context loss」是無法兩全的設計取捨。

概念位置

Chunking 介於 corpus 跟 embedding model 之間、決定 embedding 的單位。同一份 corpus 不同 chunking 策略產出不同 index、retrieval 行為完全不同。Chunk 邊界也決定 retrieval 命中後給 LLM 的 context 邊界——chunk 邊界穿過語意單位、會把連貫資訊切散。

可觀察訊號與例子

Chunk 大小	典型 token 數	適合場景
細粒度	100-300	精確問答（單句答案）
中粒度	400-800	一般 RAG 主流
粗粒度	1500-3000	摘要任務、需要長段脈絡

切法策略：

固定 token 數：簡單但易切過句子 / 段落中間。
段落感知：用空白行切、保留段落完整。
語意 chunking：用 LLM / embedding 找語意邊界。
結構化文件：按 heading / section 切（markdown、code）。

跨 chunk 重複（overlap）：相鄰 chunk 留 10-20% 重疊、避免邊界訊號丟失。

設計責任

Chunking 之前要回答四個問題：

任務類型：問答 / 摘要 / 探索性搜尋？決定 chunk 大小 baseline。
文件結構：純文字 / markdown / code？決定切割 strategy。
語言混合：中文跟英文 token 比例不同、char-based heuristic 可能不準。
Embedding model 能力：太短 / 太長 chunk 都會降低 embedding 品質。

寫 code 場景的實作範例見 RAG demo hands-on 的 slice_markdown function、設計取捨展開見 4.1 RAG 原理的「Chunking 的本質取捨」段。

Client-Side LLM / Embedding

Tue, 12 May 2026 00:00:00 +0000

Client-side LLM / embedding 的核心概念是「模型權重下載到使用者瀏覽器、用 WebGPU 或 WebAssembly 直接在 browser 內推論、不經過任何 server」。代表 runtime：WebLLM（MLC AI、用 WebGPU）、wllama（llama.cpp 的 WebAssembly port）、@xenova/transformers（瀏覽器版 transformers）。是「靜態網站做 RAG」、「離線可用 LLM 應用」這類場景的關鍵基底。

概念位置

跟其他 LLM deployment 形態的對比：

形態	模型權重位置	推論執行位置	隱私	適合
雲端 LLM API	雲端伺服器	雲端	視 vendor 政策	高品質、production
本地推論伺服器	本機磁碟	本機 process	完全本地	寫 code、個人 dev
Client-side LLM	使用者 browser cache	使用者 browser	完全本地（不經 server）	靜態網站、demo、離線

主流 client-side runtime（2026/5）：

Runtime	機制	模型支援	典型體積
`@xenova/transformers`	WASM、ONNX 格式	sentence-transformers、小型 LLM、CLIP、embedding	< 100 MB / 模型
WebLLM（MLC）	WebGPU、自家 MLC compiled	Llama / Qwen / Gemma / Phi 等 1-13B	1-8 GB / 模型
wllama	WASM、llama.cpp 編譯版	GGUF Q4 等量化模型、< 4B 為主	0.5-4 GB / 模型
`transformers.js`	WASM、跟 `@xenova/transformers` 同源	同上	同上

設計責任

讀靜態網站 / 前端 RAG / 離線 LLM 教學看到「WebGPU LLM」「browser-side embedding」「offline LLM」就是這 paradigm。寫 code 場景的判讀：

首訪載入慢：browser 第一次要下載模型權重（embedding 模型 ~50MB、LLM 1-5GB）、首訪體驗差；後續訪問 cache 起來、變快
WebGPU 支援度：2026/5 仍非所有 browser / 裝置都穩定支援、Safari iOS 較弱；fallback 到 WASM 但速度降一個量級
模型完整性沒簽章：使用者下載到的模型權重沒類似 GGUF model card 的官方驗證、要靠 CDN + HTTPS 信任、不像本地 Ollama 有 hash 比對
適合「embedding + 小 LLM」、不適合「30B reasoning」：browser 記憶體跟 WebGPU 算力都遠不如本地 Ollama、選 < 4B 模型較實際
跟資安的關係：client-side 不需要 server API key、隱私強；但模型分發鏈（CDN → browser）成為新的供應鏈面、見 4.16 靜態 RAG deployment 的資安段

CLIP

Tue, 12 May 2026 00:00:00 +0000

CLIP（Contrastive Language-Image Pre-training、Radford et al., 2021）的核心概念是「用 4 億組 (image, caption) 對、訓 image encoder 跟 text encoder、讓對應圖文的 embedding 在共享空間靠近」。CLIP 本身不是 VLM、但它的 image encoder 成為現代幾乎所有 VLM 的 vision encoder 起點。

概念位置

CLIP 的訓練架構（簡化）：

 14 億組 (image, caption) 從網路爬：
 2  (photo of cat, "a fluffy orange cat sitting")
 3  (screenshot of code, "Python error: NameError x undefined")
 4  ...
 5
 6訓練：
 7  image → Image encoder（ViT-L/14）→ image_embedding
 8  caption → Text encoder（Transformer）→ text_embedding
 9
10  正向對（matching image-caption）：embedding 應該相似
11  負向對（同 batch 內其他不匹配）：embedding 應該遠
12
13  [Contrastive learning](/llm/knowledge-cards/contrastive-learning/) loss

訓完後得到：

共享 embedding 空間：圖跟文字 embedding 都在 768/1024 維空間、相似度比較有意義
Zero-shot classification 能力：給一張圖、給 100 個文字標籤、看哪個 embedding 最接近 → 不用 fine-tune 就能分類
Image search / 多模態 retrieval：text 跟 image 互查、是 multimodal RAG 基底

對 VLM 的影響：

1CLIP 訓出來後：
2  image encoder 已經學會「把圖片變成有意義的 embedding」
3
4VLM 訓練時：
5  - 直接拿 CLIP 的 image encoder 當 vision encoder（凍住或一起 fine-tune）
6  - 接上 LLM、用 image-text 任務資料訓 alignment
7  - 不用從頭訓 vision encoder、省下大量 compute

跟 SigLIP 的關係：SigLIP（Zhai et al., 2023）是 Google 提出的 CLIP 變體、用 sigmoid loss 取代原本 InfoNCE、訓練更穩、品質略佳；Gemma 3 / Idefics 等用 SigLIP 而非原 CLIP。

設計責任

讀 VLM paper / model card 看到「CLIP backbone」「SigLIP encoder」「OpenCLIP weights」就是這 family。寫 code 場景的判讀：

CLIP 本身不是 VLM：CLIP 只有 image-text 相似度、不能生文字回答；VLM 是「CLIP 的 image encoder + LLM + alignment training」
不同 CLIP 變體影響 VLM 能力：CLIP ViT-L/14 是經典、SigLIP / DFN（Apple）等變體在某些任務更強
Multimodal RAG 直接用 CLIP：純 image-text retrieval（如「找跟這張圖相似的 doc」）不需要完整 VLM、CLIP-like 模型就夠
CLIP 用於 zero-shot 分類仍實用：給定固定的 class label set（如「截圖 / 設計稿 / 程式碼 / 文件」）、CLIP 能直接 zero-shot 分類、不需要訓 specific classifier

Constrained Decoding

Tue, 12 May 2026 00:00:00 +0000

Constrained decoding（受限解碼）的核心概念是「推論時用 grammar 動態算出每個位置的合法 token mask、把不合法 token 的 logit 設成 -∞、softmax 後機率為 0」。是 structured output（JSON mode / function calling 的合法性保證）背後的 sampling 機制。代表實作：XGrammar、outlines、lm-format-enforcer、guidance、SGLang。

概念位置

跟既有 sampling 概念的層次：

1模型 forward pass → logits（每個 vocab token 一個分數）
2 ↓ apply temperature
3 ↓ apply grammar mask（constrained decoding） ← 本卡聚焦
4 - 算出當下位置的合法 token 集合
5 - 不合法 token 的 logit 設 -∞
6 ↓ softmax → 機率分佈
7 ↓ sampling（greedy / top-p / top-k）
8 ↓ next token

主要 grammar 類型：

Grammar 類型	描述	用例
JSON Schema	標準 JSON schema 定義合法 JSON 結構	Function calling、structured output
Regex	Regular expression	受限文字格式（如 phone number、email）
CFG（Context-Free Grammar）	BNF 等 grammar 描述合法語法	Code generation、DSL、SQL
Choice list	一組固定字串選項	Classification、enum 輸出

主流實作對比：

實作	機制	推論伺服器整合
XGrammar	Pre-compile grammar → token mask cache、極快	vLLM / SGLang / TensorRT-LLM 預設
outlines	Python lib、JSON schema / regex / CFG	用 Transformers / vLLM
lm-format-enforcer	Lazy compile、適合動態 grammar	Hugging Face Transformers
guidance	Microsoft 系、API 較高階	自家 server
llama.cpp grammar	Built-in GBNF（GGML BNF）	llama.cpp 內建

設計責任

讀 sampling / structured output / function calling 進階文件看到「constrained decoding」「grammar mask」「JSON schema enforcement」就是這 framing。寫 code 場景的判讀：

何時值得用：需要 100% 合法 JSON / 特定格式、function calling spec 嚴格、structured output 不可有解析錯誤
不該用的情況：自由 / 創意輸出（會限制模型表達）、grammar 太嚴讓模型「該說的話說不出來」（如 enum 不含「unknown」、模型強制選錯）
跟 function calling 的關係：function calling 是「模型訓練 + structured output」、constrained decoding 是 sampling 層的工程實作、可獨立組合
加速 vs 拖慢：常見誤解是 grammar 拖慢 — 實測 XGrammar 等 pre-compiled 實作反而加速生成（跳過 boilerplate token 直接生關鍵 token、節省 forward pass）
跟 3.10 constrained decoding 章節的關係：本卡是定義、章節是內部機制（token mask 計算、CFG 編譯、性能取捨）

Context Budget

Tue, 12 May 2026 00:00:00 +0000

Context budget 的核心概念是「把 context window 視為有限資源、明確規劃 system prompt / tool schema / history / file content / reasoning trace / tool result 各佔多少」。coding agent 的最大失敗模式是「context 用爆 → 模型開始遺忘關鍵指令 → 行為飄」、預算化是 harness 設計的核心責任。

概念位置

典型 coding agent 的 context 構成（以 200K 模型為例）：

 1[1. System prompt + tool schema]：     固定 ~10K-30K
 2   - agent 角色、輸出規則、tool 列表 + spec、subagent 路由
 3   - 經常用 prompt cache 加速、見 [prompt cache 卡]
 4
 5[2. 工作歷史 / conversation history]：  動態 0-60K
 6   - 過去回合的 user query + assistant answer + tool calls
 7   - 越長越貴、harness 要決定何時 summarize / trim
 8
 9[3. 當前任務 file context]：           動態 0-100K
10   - 開啟的檔案、grep 結果、@-mention 帶入的內容
11
12[4. Reasoning trace（若 reasoning model）]：  動態 1K-10K / step
13   - ... 段、每次推論都會佔 context
14
15[5. Tool result]：                    動態 0-50K
16   - file read 結果、bash output、test result
17
18[6. Margin / safety buffer]：         保留 20-30K
19   - 防止 generation 階段碰到 context limit

主流 coding agent 的 25% 規則（context engineering 慣例）：

規則	直覺
Scaffold 部分（1+2） ≤ 25%	留 75% 給「當下任務」、避免 lost-in-the-middle 把指令吃掉
File content ≤ 50%	不全載入大檔、用 grep / chunked read 替代
Margin ≥ 10%	Generation 階段才不會被 context limit 截斷
Reasoning trace 配長 context	Reasoning model 至少配 64K context、見 reasoning-model 卡

設計責任

讀 coding agent 設計 / harness paper 看到「context budget」「context engineering」「token budgeting」就是這 framing。寫 code 場景的判讀：

超出 budget 的訊號：模型開始忽略 system prompt、回答跟前文重複、tool call 重複過去步驟、reasoning trace 截斷
節省 budget 的策略：用 prompt cache 把 system + tool schema 攤平、grep 取代全檔讀、tool result 限長度（如 head -100）、定期 summarize history
跟 lost-in-the-middle 的關係：context 用越多、中段內容 recall 越差、所以「能用 20K 解就別用 100K」、不是「能塞 200K 就塞滿」
不同 task 不同 budget：autocomplete 任務 budget 小（系統 prompt + 最近 50 行 code 就夠）；refactor 任務 budget 大（多檔案）；agent loop 任務 budget 動態（每步可能 grow）

Contrastive Learning

Tue, 12 May 2026 00:00:00 +0000

Contrastive learning（對比學習）的核心概念是「訓練模型讓相關樣本的 embedding 在向量空間中靠近、無關樣本遠離」。是現代 embedding model 的標準訓練 paradigm、跟 LLM pretrain 的 next-token prediction 完全不同的訓練目標。

概念位置

Contrastive learning 的核心訓練形態：

 1正向對（positive pair）：
 2 (query, relevant_doc) — 應該在 embedding 空間靠近
 3 例：("Python how to read file", "Python file reading tutorial...")
 4
 5負向對（negative pair）：
 6 (query, irrelevant_doc) — 應該在 embedding 空間遠離
 7 例：("Python how to read file", "CSS flexbox guide...")
 8
 9Loss（簡化的 InfoNCE loss）：
10 pull positive pair 靠近
11 push negative pair 遠離（多個 negative samples 對比）

主流形式：

形式	Loss 設計	代表模型
Triplet loss	(anchor, positive, negative)、要求 anchor-positive 距離 < anchor-negative	早期 sentence-BERT
InfoNCE / NCE	Cross-entropy over batch、把 batch 內其他樣本當 hard negative	OpenAI ada-002、bge 系列
MultipleNegativesRankingLoss	上述變體、用 batch 內隨機其他樣本當 negative	Sentence-Transformers 主流

關鍵特性：

資料量需求大：contrastive learning 需要億級的正向對才能訓出好 embedding；資料來源是 query-doc click log、StackExchange QA pair、CC-paraphrase 等
Hard negative mining 是品質關鍵：隨機選 negative 容易（從 batch 取就行）、找「看似相關但實際無關」的 hard negative 更挑戰、是 embedding quality 提升的關鍵
不能直接拿 pretrained LLM 用：LLM 的 hidden state 不是「為 retrieval 優化」的、要再 fine-tune 一輪 contrastive learning 才能當 embedding model

設計責任

讀 embedding model paper / 訓練 code 看到「InfoNCE」「triplet」「hard negatives」「mining strategy」就是這 paradigm。寫 code 場景的判讀：

挑 embedding model 看訓練資料 domain：通用 retrieval（如 bge-large、nomic-embed）vs code-specific（如 jina-embeddings-v2-code、CodeT5+）、訓練資料分佈影響大
不能拿任意 LLM 抽 hidden state 當 embedding：如「Llama 的 last hidden state 當 embedding」這類做法在 retrieval 上通常顯著輸給專門 contrastive-trained embedding model
Fine-tune embedding model 通常用 LoRA + contrastive loss：在自己 domain 資料上 fine-tune、提升 in-domain retrieval；標準 pipeline 是 sentence-transformers + LoRA

Cross-Entropy

Tue, 12 May 2026 00:00:00 +0000

Cross-entropy（交叉熵）的核心概念是「衡量兩個機率分佈的距離」。LLM 預訓練的標準 loss function 是 cross-entropy：對每個 token、把模型預測的 vocab 機率分佈跟「真實答案是 one-hot 分佈」做 cross-entropy、加總。

概念位置

Cross-entropy 在 next-token prediction 訓練裡的具體計算：

1模型預測：p = softmax(logits) ← shape: (vocab_size,)
2真實答案：y = one-hot(true_token) ← shape: (vocab_size,)、只有真實 token 那位是 1
3
4cross-entropy = -sum(y_i × log(p_i))
5 = -log(p_true_token) ← 因為 y 是 one-hot、只剩這項

所以實作上 cross-entropy 就退化成「真實 token 預測機率的負對數」、機率越接近 1、loss 越接近 0；機率越接近 0、loss 越接近 ∞。

跟相關概念的關係：

概念	跟 cross-entropy 的關係
Perplexity	`perplexity = exp(cross-entropy)`、cross-entropy 的指數形式、人類直覺較好讀
KL divergence	Cross-entropy = entropy(真實) + KL(真實 ‖ 預測)、訓練時 entropy 是常數、所以 minimize cross-entropy 等於 minimize KL
Softmax	Cross-entropy 通常吃 softmax 的輸出當「預測機率」

設計責任

讀 LLM 訓練 / paper 時看到「training loss」幾乎都是 cross-entropy。實務判讀：cross-entropy 直接代表「模型對真實 token 的預測機率有多差」、loss = 2 大致對應「真實 token 被預測機率 ≈ 0.135」（exp(-2)）。模型在 pretrain 階段 cross-entropy 從約 11（純隨機）降到約 2-3（成熟模型）、SFT 階段再略降。

Dot Product

Tue, 12 May 2026 00:00:00 +0000

Dot product（內積、inner product）的核心概念是「兩個向量對應位置相乘再加總」：a · b = a₁b₁ + a₂b₂ + ... + aₙbₙ。幾何意義是「a 在 b 方向上的投影長度 × b 的長度」。Dot product 是 LLM 中最頻繁出現的運算之一：attention 的核心是 dot product、cosine similarity 的本體也是 dot product。

概念位置

Dot product 在 LLM 中的核心應用：

應用	公式 / 機制	角色
Attention score	`Q · K^T`	算「該 token 跟其他 token 的相關性」
Cosine similarity	`dot(a, b) / (norm(a) × norm(b))`	RAG / semantic search
L2-normalized similarity	normalize 後直接用 `a · b`	Vector database 高效檢索
Logits → token 機率	output_projection 本質是「最後 hidden state · token embedding」	算每個 vocab token 的「匹配度」

幾何直覺：

1兩個向量方向接近時：dot product 大（正值大）
2兩個向量垂直時： dot product = 0
3兩個向量方向相反時：dot product 大負值
4
5a · b = |a| × |b| × cos(θ)
6 ↑
7 θ 是兩向量夾角

LLM 推論性能上、dot product 是「matrix multiplication 的基本單元」、整個 forward pass 可以看成大量 dot product 的批次運算；這是為什麼 GPU / Apple Silicon Neural Engine 都針對 dot product 做硬體優化。

設計責任

讀 attention / RAG 相關內容看到「inner product」「dot product」「QK^T」就是這個運算。寫 code 場景的判讀：用 vector database 時、選 distance metric 看：cosine 適合未 normalized 的 embedding、dot product 適合 L2-normalized 的 embedding（兩者結果同、後者較快）；attention 的 KV cache 量化（K=Q8 / V=Q4）對品質的不對稱影響、根本原因是 K 用於 dot product（誤差累積快）、V 用於加權平均（誤差被平均化）。

DPO（Direct Preference Optimization）

Tue, 12 May 2026 00:00:00 +0000

DPO（Direct Preference Optimization、直接偏好最佳化）的核心概念是「用人類偏好資料直接 fine-tune LLM、不訓 reward model、不用 RL」。Rafailov et al. (2023) 提出、用數學變形把 RLHF 的「reward model + PPO」兩階段合併成單一個 supervised loss、訓練流程大幅簡化。

概念位置

DPO vs RLHF 的對比：

維度	RLHF	DPO
需要 reward model	是	否
訓練步驟	收偏好 → 訓 RM → PPO	收偏好 → 直接 DPO loss fine-tune
訓練穩定性	PPO 對 hyperparameter 敏感、容易不穩	像 supervised learning、相對穩
記憶體	三個模型同時運作（policy / RM / reference）	兩個（policy / reference frozen）
KL 約束	顯式加 β × KL term	內嵌在 loss 公式裡、不用顯式
流行度（2026）	商業大廠（OpenAI / Anthropic）	開源社群（Llama / Qwen / Gemma 系列許多用 DPO）

DPO 的 loss 形式（簡化）：

1loss = -log σ( β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)) )
2                └─ 偏好 response 在 policy 跟 ref 的 ratio ─┘
3                                                            └─ 拒絕 response 的同樣 ratio ─┘

直覺：讓 policy 對偏好 response 的機率增加（相對 ref）、對拒絕 response 的機率降低（相對 ref）。

設計責任

讀開源 LLM 的 paper / model card 看到「DPO-tuned」「preference fine-tuning」就是這個流程。實務上 DPO 訓練成本只是 RLHF 的一小部分、許多 fine-tune 平台（如 Hugging Face TRL）內建支援。後續還有 IPO、KTO、ORPO 等變體、都是「直接用偏好 fine-tune、不訓 reward」這條路線的進一步演化。

Embedding Layer

Tue, 12 May 2026 00:00:00 +0000

Embedding layer（嵌入層）的核心概念是「Transformer 第一層的查表結構：把整數 token ID 對應到一個可訓練向量（embedding）」。本質上是 vocab_size × hidden_dim 的權重矩陣、每個 token ID 取對應 row 當該 token 的向量表示。後續所有 Transformer block 都對這些向量做運算。

概念位置

Embedding layer 在 forward pass 的位置：

1input："Hello world"
2 ↓ tokenizer
3token IDs: [9906, 1917] ← 整數序列
4 ↓ embedding layer（vocab × hidden 查表）
5embeddings: [[0.1, -0.3, ...], [0.5, 0.2, ...]] ← 向量序列、(seq_len, hidden_dim)
6 ↓ Transformer block × N
7 ↓ output projection
8logits

跟 embedding model 的差別：

概念	用途	是否獨立訓練 / 部署
Embedding layer（本卡）	LLM 內部第一層、把 token ID 轉向量	否、是 LLM 的一部分
Embedding model	獨立模型、把整段文字轉向量、用於 RAG / 相似度	是、獨立模型

兩者「都產出向量」、但層級跟用途完全不同：embedding layer 是 LLM 內部結構（per-token、給模型 forward pass 用）、embedding model 是外部工具（per-text、給檢索系統用）。

Embedding layer 的大小：

Gemma 4 31B：vocab=256K、hidden=5120、embedding matrix ≈ 256K × 5120 = 1.3B 參數
Llama 3 8B：vocab=128K、hidden=4096、embedding matrix ≈ 0.5B 參數

通常跟 output projection（hidden → vocab）相同大小、有些模型 tied（共用權重）、有些 untied。

設計責任

讀模型架構圖看到「token embedding」「embed_tokens」就是這一層。實務意涵：模型大小有非小比例來自 embedding（vocab 越大、embedding 越大）；換 tokenizer 等於整個 embedding 重訓、是 fine-tune 時通常不動的部分。

Entropy

Tue, 12 May 2026 00:00:00 +0000

Entropy（熵）的核心概念是「衡量一個機率分佈的不確定性」。Shannon entropy 公式：H(P) = -sum(P(x) × log P(x))。直覺：分佈越「平」、entropy 越大（任何結果都可能）；分佈越「尖」、entropy 越小（結果很確定）。Entropy 是 cross-entropy、KL divergence、資訊壓縮等概念的基底。

概念位置

Entropy 跟 LLM 相關概念的關係：

1Entropy(P) = -sum P log P ← 一個分佈自身的不確定性
2Cross-entropy(P, Q) = -sum P log Q ← 用分佈 Q 編碼 P 的成本
3KL(P ‖ Q) = Cross-entropy(P, Q) - Entropy(P) ← 兩個分佈的差距

Entropy 在 LLM 中的具體意義：

場景	Entropy 大	Entropy 小
模型 next-token 預測分佈	「不確定下個字、可能 N 種選項」	「強烈傾向某幾個 token」
Sampling temperature 高	Entropy 高、輸出多樣	Entropy 低、輸出確定
訓練未收斂	分佈接近 uniform、entropy 接近 log(vocab)	分佈集中、entropy 降低

範例：vocab = 128K、uniform 分佈的 entropy = log(128K) ≈ 11.76（接近 12）；成熟模型在文本上的平均 entropy 約 2-3。

設計責任

Entropy 本身在 LLM 訓練 / 推論很少直接出現、但理解它能解釋一些現象：perplexity = exp(cross-entropy) 是模型平均不確定性的指數形式；temperature 控制 sampling entropy（高 T → 高 entropy → 多樣輸出）；某些評估方法（如 entropy-based uncertainty estimation）會看模型輸出分佈的 entropy 來判讀「模型有多確定」。

FFN（Feed-Forward Network）

Tue, 12 May 2026 00:00:00 +0000

FFN（Feed-Forward Network、前饋網路）的核心概念是「Transformer block 中 attention 後面的兩層 linear + activation function 結構」。FFN 是 LLM 中參數量最大的元件、典型 Transformer block 裡 FFN 約佔 2/3 參數、attention 約佔 1/3。

概念位置

標準 FFN 的計算：

1input（hidden_dim）
2 ↓ W_up（linear、hidden_dim → intermediate_dim、通常放大 4x）
3intermediate vector
4 ↓ activation function（ReLU / GELU / SwiGLU）
5 ↓ W_down（linear、intermediate_dim → hidden_dim）
6output（hidden_dim）

Intermediate dim 通常是 hidden dim 的 4 倍（例如 hidden=4096、intermediate=16384）、所以 FFN 的參數量是 hidden × intermediate × 2 ≈ 8 × hidden²、遠大於 attention 的 4 × hidden²（Q/K/V/O 四個 hidden × hidden 矩陣）。

FFN 變體：

變體	結構特性	出現在
標準 FFN	兩個 linear + 一個 activation	早期 Transformer、BERT、GPT-2
SwiGLU FFN	三個 linear（gate + up + down）+ Swish	Llama、Gemma、Qwen 主流
MoE FFN	多個「expert」FFN、每個 token 只啟用幾個	MoE 模型

設計責任

理解 FFN 是參數大頭、能解釋幾件事：MoE 為什麼是「把 FFN 換成多個專家、只啟用部分」（因為 FFN 是最值得稀疏化的部分）、MoE CPU offload 為什麼是「把 expert FFN 卸到 RAM」（FFN 大、卸下來省 VRAM）、為什麼模型大小用「參數量」算（FFN 主導）。LoRA fine-tuning 時、通常選擇對 attention 的 Q/V 投影做 LoRA、不對 FFN 動、因為 FFN 太大、LoRA 收益相對小。

Flash Attention

Tue, 12 May 2026 00:00:00 +0000

Flash Attention 的核心概念是「重新組織 Attention 計算的順序、把中間結果留在 GPU 高速 cache、減少對 GPU memory 的讀寫往返」。它不改變 attention 的數學定義（輸出跟原始實作在浮點誤差範圍內一致）、但實作層面對長 context 推論吞吐有明顯提升、且是部分 KV cache 量化組合在 llama.cpp 上的必要前置。

概念位置

Flash Attention 在推論架構中的角色：

1推論時的 attention 計算：
2 ├── 原始實作：Q · K^T 整個算完、寫進 memory、再讀出來做 softmax、再算 · V
3 │ └── 多次 memory 讀寫、長 context 下 IO 成為瓶頸
4 └── Flash Attention：用 tiling 把計算切塊、中間結果留在 SRAM / register
5 └── 減少 memory 讀寫、長 context 加速明顯

跟 attention 變體的關係：

Flash Attention 是實作層的優化、跟 MHA / GQA / MLA 等架構層變體是兩個獨立維度。
不同變體都能搭配 Flash Attention 的實作技巧。

在 llama.cpp 中的旗標：

1llama-server -fa # 啟用 flash attention
2# 或
3llama-server --flash-attn

事實查核註：Flash Attention 的版本演進快（Flash Attention 1 / 2 / 3）、不同推論引擎的支援度依版本變化。具體限制（如「V cache Q4 量化要 -fa 才能啟用」）依 llama.cpp 版本變動、引用前以 llama-server --help 跟 release notes 為準。

設計責任

理解 Flash Attention 後可以解釋兩個現象：為什麼啟用 -fa 後長 context 推論速度提升明顯（IO bound 變 compute bound）、為什麼部分 KV cache 量化組合（如 V=Q4_0）在 llama.cpp 上需要 flash attention 才能跑（實作層面的耦合）。

工程實務上、啟用 flash attention 通常沒副作用（數學上等價、品質不變）、是 PC 場景長 context 推論的預設啟用旗標。詳見 5.2 KV cache 量化策略的 flash attention 段落。

Floating Point（FP32 / FP16 / BF16）

Tue, 12 May 2026 00:00:00 +0000

Floating point（浮點數）的核心概念是「用「符號位 + 指數位 + 尾數位」表示實數的二進制格式」。LLM 訓練跟推論用的精度（fp32 / bf16 / fp16）就是不同的位元分配方案。理解這些差異能解釋為什麼 bf16 是訓練主流、為什麼量化對品質的影響不是「越多 bit 越好」這麼簡單。

概念位置

主流浮點格式的位元分配：

格式	總 bit	符號位	指數位	尾數位	動態範圍	精度（有效位數）
FP32	32	1	8	23	±10^38	7 位
FP16	16	1	5	10	±65504（容易 overflow）	4 位
BF16	16	1	8	7	±10^38（同 fp32）	3 位
FP8 (E4M3 / E5M2)	8	1	4 / 5	3 / 2	視變體	1-2 位

關鍵 trade-off：

FP16 精度好、範圍窄：尾數多、表達小範圍內細節準；但指數少、容易 overflow（gradient 爆炸時）/ underflow（gradient 接近 0 時）。
BF16 範圍跟 fp32 一樣大、精度差：指數位跟 fp32 同（8 位）、訓練時的 dynamic range 跟 fp32 接近、不會 overflow；但尾數少、精度差。實測對訓練影響小、所以是現代 LLM 訓練主流。
FP8 是新興格式：H100 / B200 等新 GPU 原生支援、訓練 / 推論都能加速、但精度損失需要 careful loss scaling。

LLM 工作流的精度選擇：

場景	主流精度
Pre-training（大模型）	BF16 + 部分 FP32（如 optimizer state）
Fine-tuning	BF16 + 可選 FP8 / Q4（QLoRA）
推論（雲端 high-end）	FP16 / BF16
推論（消費級本機）	Q4_K_M 等量化、見 quantization

設計責任

讀 paper / config 看到 mixed_precision: bf16、torch_dtype: bfloat16 就是 BF16 訓練。寫 code 場景的判讀：本機跑 GGUF Q4_K_M 模型、內部運算的 activation 仍是 fp16 / bf16、只有權重儲存是 4-bit；KV cache 預設也是 fp16、量化 KV cache 是進階優化（K=Q8 / V=Q4）。

Forward Pass

Tue, 12 May 2026 00:00:00 +0000

Forward pass（前向傳播）的核心概念是「input 從第一層算到最後一層、得到 output 的單向計算流程」。LLM 推論時生成一個 token、就是跑一次 forward pass；訓練時、每個 batch 也都先跑 forward pass 算出 loss、再跑 backpropagation 算 gradient。

概念位置

LLM 一次 forward pass 的大略流程：

 1input token IDs
 2 ↓ embedding layer：整數 → 向量
 3sequence of vectors
 4 ↓ Transformer block 1（attention + FFN）
 5 ↓ Transformer block 2
 6 ↓ ...
 7 ↓ Transformer block N
 8final hidden state
 9 ↓ output projection（hidden → vocab）
10logits（每個 vocab token 一個分數）
11 ↓ softmax（推論時）
12probability distribution → 挑下一個 token

跟相關概念的對比：

概念	跟 forward pass 的關係
Prefill	Prompt 階段的「一次性 forward pass」、所有 prompt token 並行
Decode 階段	每生一個 token 跑一次 forward pass、序列化、慢
Speculative decoding	一次 forward pass 同時驗證多個猜測 token
Backpropagation	訓練時 forward pass 的反向延伸、推論不需要

設計責任

理解 forward pass 後可以判讀 LLM 的記憶體與速度：每次 forward pass 都要把整份模型權重從記憶體讀到處理器一次、所以 memory bandwidth 是推論瓶頸；KV cache 的存在是為了避免每次 forward pass 重算前面 token 的 K/V；MTP / speculative decoding 都是「一次 forward pass 攤平多個 token 成本」的優化路徑。

GPU Compute Backend

Tue, 12 May 2026 00:00:00 +0000

GPU compute backend 的核心概念是「推論軟體（如 llama.cpp、PyTorch）跟 GPU 之間的計算 API 抽象層」。不同廠商 GPU 對應不同 backend、同一推論軟體通常要為每個 backend 編譯獨立 build。選對 backend 直接影響 GPU 算力能否被有效利用。

概念位置

各家 GPU 對應的常見 backend（2026 年 5 月狀態、依社群實踐變化）：

Backend	主要 GPU 廠商	平台支援	llama.cpp 生態成熟度
CUDA	NVIDIA	Windows / Linux	最成熟、社群預設
ROCm	AMD	Linux 主、Windows 演進中	中、依 GPU 型號變化
Vulkan	跨廠商通用	Windows / Linux	中、通用 fallback
Metal	Apple Silicon	macOS	成熟（屬模組一範圍）
SYCL	Intel ARC	Windows / Linux	相對年輕
DirectML	多廠商（DirectX）	Windows	較少用於 LLM
OpenVINO	Intel	多平台	偏 Intel 生態

選 backend 的判讀依硬體跟平台：NVIDIA GPU 用 CUDA、AMD on Linux 優先 ROCm、AMD on Windows 多用 Vulkan、Intel ARC 用 Vulkan 或 SYCL、Apple Silicon 用 Metal。

事實查核註：上表的「llama.cpp 生態成熟度」是社群常見回報、不是經本卡系統實測的 benchmark；各 backend 的支援度跟 throughput 依推論軟體版本快速演進、引用前以對應 backend 的官方文件跟 llama.cpp release notes 為準。

設計責任

理解 GPU compute backend 後可以解釋三個現象：為什麼下載 llama.cpp release 要選 CUDA / ROCm / Vulkan 版本（每個 build 對應一種 backend）、為什麼同樣硬體 throughput 差很多（backend 不對或 fallback 到 CPU）、為什麼非 NVIDIA GPU 跑 LLM 經驗較少（CUDA 生態太成熟、其他 backend 仍在演進）。

選 PC GPU 跑本地 LLM 時、backend 成熟度是「工具鏈支援度」軸、跟硬體規格軸獨立、選卡時兩軸都要考慮。詳見 5.6 GPU 廠商差異。

Gradient

Tue, 12 May 2026 00:00:00 +0000

Gradient（梯度）的核心概念是「loss function 對每個權重的偏微分組成的向量」。每個分量回答「這個權重往正方向動一單位、loss 會變多少」、整個 gradient 向量指向「loss 上升最快的方向」、所以訓練時往反方向走、就是讓 loss 下降最快的方向。

概念位置

Gradient 連接「loss」跟「該怎麼更新權重」兩件事、是 backpropagation 算出來的東西、也是 SGD / Adam 等 optimizer 消費的輸入：

1[forward pass] → 算出 loss
2 ↓
3[backpropagation] → 算出 gradient（每個權重一個值）
4 ↓
5[optimizer] → 用 gradient 更新權重：w_new = w_old - lr × gradient

Gradient 在 LLM 訓練中的兩個常見問題：

問題	訊號	處理
Gradient 爆炸	loss 突然變 NaN、梯度 norm > 1000	Gradient clipping（截斷 norm 上限）、降 learning rate
Gradient 消失	深層權重幾乎不更新、loss 停在某 plateau	Residual connection、Layer normalization、改 activation function

設計責任

推論階段（拿訓練好的模型生 token）不需要算 gradient、只有 forward pass；gradient 只在訓練 / fine-tuning 階段出現。所以本地跑 LLM 寫 code 的場景不會碰到 gradient、但讀懂訓練流程、理解「為什麼 SFT / RLHF 需要 GPU、推論不一定要」這類判讀就要先理解 gradient 的角色。

Gradient Explosion / Vanishing

Tue, 12 May 2026 00:00:00 +0000

Gradient explosion（爆炸）跟 gradient vanishing（消失）的核心概念是「深層網路的 backpropagation 透過 chain rule 一層層相乘、若每層 gradient > 1、累乘到輸入層會指數爆炸；若每層 gradient < 1、累乘到輸入層會衰減到接近 0」。兩者是深層網路訓不起來的典型病因、現代 Transformer 用 residual connection + layer normalization 解決。

概念位置

兩種失敗模式的訊號跟處理：

模式	訊號	主要成因	處理
Gradient explosion	loss 突然變 NaN、gradient norm > 1000+	Learning rate 太大、初始化不當、loss 函數有奇點	Gradient clipping（截斷 norm 上限、如 1.0）、降低 lr、檢查資料 outliers
Gradient vanishing	深層權重幾乎不更新、loss 卡 plateau	層數深、activation 飽和區（sigmoid、tanh）、缺 skip connection	Residual connection + layer norm + 換 activation（ReLU / GELU / SwiGLU）

數學直覺（簡化）：

1深 N 層的 chain rule：
2∂loss/∂W_input = ∂loss/∂out × ∂out/∂h_N × ∂h_N/∂h_{N-1} × ... × ∂h_1/∂W_input
3 └──────────── N 個 factor 連乘 ──────────────┘
4
5若每個 factor ≈ 0.5、N=100：累乘 ≈ 0.5^100 ≈ 0 → vanishing
6若每個 factor ≈ 1.5、N=100：累乘 ≈ 1.5^100 ≈ 4e17 → explosion

Residual connection 讓 gradient 有「捷徑」可走、不全靠 chain rule 一層層乘、是深層 Transformer 訓得起來的核心結構之一。

設計責任

讀訓練 log 看到 loss: nan、grad_norm: inf 就是 explosion；看到 loss 平穩、幾個 epoch 都不降就是可能的 vanishing。寫 code 場景幾乎不會碰到（推論不算 gradient）、但自己 fine-tune 時要會判讀。LLM 用的 SwiGLU / GELU 都是 saturation 較不嚴重的 activation、加上 residual + pre-norm、現代 Transformer 訓 100+ 層相對穩定。

Hallucination

Tue, 12 May 2026 00:00:00 +0000

Hallucination 的核心概念是「LLM 生成的內容語法、語氣、結構看起來合理、但內容上是事實錯誤、引用不存在的來源、虛構不存在的 entity」。這是 LLM 基於統計分布生成的固有特性；以目前的研究跟工程實踐、靠「更大模型」或「更好對齊」很難徹底消除、可控的做法是用工程手段降低觸發率跟下游偵測。

概念位置

Hallucination 的常見形態：

形態	例子	風險
虛構引用	引用不存在的論文 / API / 函式名稱	使用者照抄、出錯
虛構 entity	虛構不存在的公司 / 人名 / 地址	寫入文件、產生誤導
數值幻覺	給看似精確但實際錯誤的數字	商業 / 工程決策被誤導
因果幻覺	編造看似合理但不存在的因果關係	推理鏈不可信
法律 / 醫療幻覺	虛構不存在的法條 / 治療方案	高風險領域、可能造成實際傷害

降低 / 偵測 hallucination 的常見手段（依場景變化）：

RAG：把真實內容檢索後注入 prompt、模型基於真實內容生成。
temperature 降低：採樣較保守、減少創造性但也減少幻覺。
citation 要求：prompt 要求列出引用、後續可驗證。
下游驗證：對輸出做事實檢查（如 code 跑 compiler、引用查實際資料庫）。
明確的「不知道就說不知道」instruction：降低過度自信、但不能消除。

事實查核註：Hallucination 的研究跟降低技術仍在快速演進、不同模型、不同任務類型的 hallucination rate 變化大、引用前以最新研究跟具體 model card 為準。Stanford TruthfulQA 等 benchmark 是常見參考。

設計責任

理解 hallucination 後可以解釋兩個現象：為什麼 LLM 給的「具體事實」（人名 / 數字 / 引用）特別要驗證（生成機制本身就會虛構）、為什麼 LLM 寫的 code 看似合理但 import 不存在的 package（hallucinate 出 library API）。

production 場景下、hallucination 影響合規（生成包含真人 PII 的虛構內容仍是 PII 處理）、UX（使用者照抄誤導內容）、安全（生成假 URL 引發釣魚）；應對策略不是「擋住 hallucination」、是「降低觸發率 + 下游驗證 + 適當的 disclaimer」。詳見 LLM Log 與 PII 治理。

Homebrew

Tue, 12 May 2026 00:00:00 +0000

Homebrew 的核心概念是「macOS 的社群套件管理器、用 brew install 一行裝完 CLI 工具或 GUI 程式」。對本地 LLM 場景的角色是「Ollama、llama.cpp 等命令列工具的標準安裝入口」、把編譯、依賴管理、PATH 設定、二進位放置位置都自動化。

概念位置

Homebrew 在 macOS 跟使用者要安裝的工具之間、扮演「公開 registry + 本地套件管理」的角色。它維護一份名為「formula」的 Ruby 腳本清單、每個 formula 描述某個工具怎麼下載、編譯、安裝。執行 brew install ollama 時、Homebrew 找到 ollama formula、下載對應 bottle（預編譯二進位）、放到 /opt/homebrew/（Apple Silicon）或 /usr/local/（Intel Mac）、再把可執行檔 symlink 到 /opt/homebrew/bin/。新機從零的完整安裝順序（含第一次裝 Homebrew、PATH 設定與晶片前綴差異）見 macOS 新機基礎建設。

brew services 是 Homebrew 附帶的服務管理子命令、把指令封裝成 macOS 原生的 launchd service、處理「開機自動啟動 / 停止 / 重啟」需求。

可觀察訊號與例子

日常會碰到的 brew 指令：

指令	用途
`brew install <pkg>`	安裝套件
`brew upgrade <pkg>`	升級單一套件
`brew services start`	把套件註冊成 launchd service、立刻啟動
`brew services list`	列出目前由 brew 管理的常駐服務
`which <bin>`	確認可執行檔在 PATH 上的實際路徑
`brew --prefix`	查 Homebrew 的安裝根目錄

Apple Silicon Mac 上的關鍵路徑是 /opt/homebrew/、子資料夾各有角色：bin/（可執行檔）、var/log/（服務 log）、Cellar/（套件實際內容）、opt/（版本無關的 symlink）。看到「/opt/homebrew/var/log/ollama.log」時、就是 brew 管理的 Ollama 服務 log 位置。

設計責任

用 brew 安裝 vs 用官方 .dmg / .pkg 的取捨：CLI 工具（ollama、llama.cpp、git 等）走 brew、好處是統一升級路徑；GUI 應用（LM Studio、Docker Desktop 等）多半改下載官方安裝包、因為 brew cask 不一定即時跟上版本。第一次裝 Homebrew 自己用官方 install script（在 brew.sh）、之後其他工具都從 brew 走。

Hybrid Search

Tue, 12 May 2026 00:00:00 +0000

Hybrid search 的核心概念是「同時跑字面 retrieval（BM25 / tf-idf）跟語意 retrieval（embedding similarity）、用 Reciprocal Rank Fusion 等方法合併結果」。補單一路線的盲點：BM25 抓不到語意相似（同義詞 / 不同表述）、embedding 抓不到精確 keyword（術語 / 識別碼 / 罕見 entity）。是 production RAG 的標配。

概念位置

兩條 retrieval 路線的盲點：

場景	BM25（字面）	Embedding（語意）
Query / doc 共用 keyword	強	強
Query 用同義詞、doc 用另一字	找不到	命中
Query 用通俗、doc 用 jargon	找不到	命中
精確 keyword（如 product code、UUID、API 名）	命中	可能漂掉
罕見 entity（人名 / 地名）	命中	弱（embedding model 不熟）
Embedding model 不熟的 domain	命中	表現崩

主流合併方法：

Reciprocal Rank Fusion（RRF）

最常用、簡單：

 1對每個 doc：
 2 score = sum_over_retrievers(1 / (k + rank_i))
 3
 4k 是常數（典型 60）、rank 是該 retriever 給 doc 的排名
 5
 6example：
 7 doc X 在 BM25 排名 3、在 embedding 排名 1
 8 RRF score = 1/(60+3) + 1/(60+1) = 0.0159 + 0.0164 = 0.0323
 9
10按 RRF score 排序、取 top-K

優點：不需要 normalize 不同 retriever 的分數、簡單可靠缺點：不能 fine-tune 兩條路線的權重

Weighted score fusion

對每條路線的 score 加權平均：

1score = α × BM25_score_normalized + (1-α) × embedding_score_normalized

優點：可以調 α 偏 BM25 或 embedding 缺點：要 normalize 兩個 score scale、調 α 是 hyper-parameter

設計責任

讀 RAG production / retrieval framework 看到「hybrid search」「BM25 + dense」「RRF」就是這 framing。寫 code 場景的判讀：

何時值得加 hybrid：embedding-only retrieval 漏精確 keyword / 識別碼、BM25-only 漏語意相似、混合補完
何時不需要：純語意任務（embedding 已準）、純 keyword 任務（BM25 已準）、極小語料
跟 reranker 的組合：hybrid retrieve top-50（BM25 top-25 + embedding top-25、RRF 合併）→ reranker rerank → LLM top-5
主流實作：Elasticsearch / OpenSearch 內建、Weaviate / Qdrant / Pinecone 都支援、Postgres 用 pg_search + pgvector
跟 4.1 RAG 章節的關係：本卡是定義、章節是 retrieval pipeline 設計含 hybrid 段

Image Token

Tue, 12 May 2026 00:00:00 +0000

Image token（圖片 token）的核心概念是「VLM 把圖片過 vision encoder 後、產出的向量序列、在 Transformer 內跟 text token 同質處理」。理解這個概念能解釋為什麼「一張圖 = 幾百到幾千 token」、為什麼塞圖會吃掉 context budget、為什麼 VLM 推論比純文字 LLM 慢。

概念位置

從圖到 image token 的轉換：

1Input image: 1024×1024 RGB
2 ↓ Patchify（切 14×14 patch、得 ~5000 個 patch）
3 ↓ Vision encoder（ViT 處理每個 patch、產 768/1024 維向量）
4 ↓ Optional: 2D position embedding
5 ↓ Optional: pooling / merging（減少 token 數）
6Image tokens: ~500-2500 個（依模型設計）
7 ↓ Projection（vision_dim → LLM hidden_dim、配合 LLM 內部維度）
8 ↓ 跟 text token 串成單一 sequence
9 ↓ Transformer 跟一般 token 一樣處理

主流 VLM 的單張圖 token 用量（粗略、依模型 / 解析度而變）：

模型	預設輸入解析度	單張圖約用 token	Context 影響
GPT-4o vision	動態（最高 2048×768）	~85 - 1000+	高解析度模式消耗大
Claude 3 vision	動態	~1000-1600	一張圖 ≈ 1.5K text token
Qwen2.5-VL	動態、可調 min/max	~500 - 4000	設定 `min_pixels` 控制下限
Llama 3.2 Vision	固定（560×560）	~1600	多張圖直接乘
Gemma 3 Vision	動態	~256 - 2000	多語 / 多解析度

事實查核註：上述 token 數量級依模型版本、推論配置（如「low / high detail」模式）變化、引用前以對應 model card 跟 API 文件為準。

設計責任

讀 VLM API / 推論 log 看到「image tokens used: 1247」「visual tokens: 580」就是這指標。寫 code 場景的判讀：

多張截圖 = context 吃緊：一張 1500 token、丟 10 張就 15K、加上 prompt 跟回答、long context 模型才能 handle
同張圖、解析度模式影響成本：許多 API 提供 low / auto / high detail 模式、low detail 約 1/10 token；OCR 需要高解析、不細節辨識可選 low
本地 VLM 推論 prefill 慢：image token 多、prefill 階段（TTFT）對應變長、第一個字出來要等較久
API 計費通常 image token 跟 text token 同價：算成本看實際用了多少 image token、不要假設「一張圖 = 一個 token」
Image token 是消耗品、不是參數：跟模型內部權重不同、純粹是「這次 forward pass 的 input」

KL Divergence

Tue, 12 May 2026 00:00:00 +0000

KL divergence（Kullback-Leibler divergence、KL 散度）的核心概念是「衡量兩個機率分佈 P 跟 Q 的差距」：KL(P ‖ Q) = sum(P(x) × log(P(x) / Q(x)))。它不對稱（KL(P ‖ Q) ≠ KL(Q ‖ P)）、所以不算「距離」、是「散度」。在 LLM 訓練中是 alignment 階段防止模型「為了 reward 偏離太遠」的關鍵約束。

概念位置

KL divergence 在 LLM 中的兩個主要角色：

跟 cross-entropy 的關係：
```
1cross-entropy(P, Q) = entropy(P) + KL(P ‖ Q)
```
訓練時 P（真實分佈）固定、entropy(P) 是常數、所以「minimize cross-entropy」等於「minimize KL」。
RLHF / DPO 的「KL 約束」：

alignment 階段不能只 maximize reward、否則模型會「為了 reward 把語言能力毀掉」。所以加 KL 約束：
```
1objective = E[reward] - β × KL(π_new ‖ π_ref)
2 └─ 不讓新模型偏離 ref（通常是 SFT 後的 base）太遠 ─┘
```
β 控制「reward 追求」vs「不偏離原始模型」的平衡。

跟相關概念的對比：

指標	對稱？	主要用途
Cross-entropy	否	訓練 loss、衡量預測機率分佈跟真實分佈
KL divergence	否	Alignment 訓練的偏離約束
JS divergence	是	兩個分佈的對稱差距、研究比較多

設計責任

讀 alignment paper 看到 β、KL penalty、KL coefficient 等詞、知道這些是控制「模型在追 reward 時偏離 base 多遠的容忍度」。β 太小、模型容易 reward hacking（找 reward 高但實質爛的輸出）；β 太大、模型動不了、reward 升不上去。DPO 把 KL 約束內嵌進 loss、不像 RLHF 需要顯式 KL term、是 DPO 比 RLHF 簡單的原因之一。

launchd Service

Tue, 12 May 2026 00:00:00 +0000

launchd Service 的核心概念是「macOS 用來管理常駐 process 生命週期的原生機制」。launchd 本身是 macOS 啟動後的第一個 process（PID 1）、由它負責拉起其他系統服務跟使用者註冊的背景任務。本地 LLM 場景中、Ollama 等推論伺服器透過 launchd 設定成「開機自動啟動、登入時自動拉起」、就不需要每次重開機都手動跑 ollama serve。

概念位置

launchd service 用一份 plist（property list、XML 格式設定檔）描述「要跑哪個程式、何時啟動、出問題時要不要重啟、log 寫到哪裡」。plist 放在三個位置之一、決定服務的觸發範圍：

路徑	角色	何時觸發
`~/Library/LaunchAgents/`	使用者 agent	該使用者登入時
`/Library/LaunchAgents/`	全機所有使用者 agent	任何使用者登入時
`/Library/LaunchDaemons/`	系統 daemon、需 root	macOS 開機時、不需登入

Homebrew 的 brew services 子命令是 launchd 的 wrapper、產生 plist 並放進 ~/Library/LaunchAgents/、避免使用者直接手寫 XML。Apple Silicon Mac 上產生的檔名形式是 homebrew.mxcl.<service>.plist。

可觀察訊號與例子

執行 brew services start ollama 後可以驗證實際發生的事：

1# 看 plist 內容
2cat ~/Library/LaunchAgents/homebrew.mxcl.ollama.plist
3
4# 用 launchctl 看服務狀態
5launchctl list | grep ollama
6
7# 看服務 log（Apple Silicon）
8tail -f /opt/homebrew/var/log/ollama.log

plist 內常見的鍵：ProgramArguments（要跑哪個指令）、RunAtLoad（開機就啟動）、KeepAlive（crash 後自動拉回）、StandardOutPath / StandardErrorPath（log 路徑）。出問題時先看 log 路徑指向的檔案、能直接看到 service 的 stdout / stderr。

服務管理常用指令：

1brew services list # 列出所有由 brew 管理的服務
2brew services start ollama # 啟動 + 註冊自動啟動
3brew services stop ollama # 停掉服務、保留 plist
4brew services restart ollama # 升級套件後重啟

直接用系統的 launchctl 也行、但語意較底層、實務上有 brew 包裝就用 brew。

設計責任

選擇「launchd service」vs「前景手動跑 ollama serve」的判讀：日常用機建議用 launchd service、好處是重開機自動拉起、出問題的 log 有固定位置可看；只在偶爾用本地 LLM 的場景、保持手動跑反而省記憶體（沒在用就停掉）。升級套件後記得 brew services restart、否則跑的還是舊版二進位。

Layer Normalization

Tue, 12 May 2026 00:00:00 +0000

Layer normalization（LayerNorm）的核心概念是「對單一 token 的 hidden state 向量做正規化」——把該向量的 mean 移到 0、std 縮到 1、再用兩個可學參數做仿射變換。它是 Transformer 穩定深層訓練的關鍵元件、跟 batch normalization 的差別是「正規化軸不同」、LayerNorm 對單個 sample 內部做、不依賴 batch 統計。

概念位置

LayerNorm 在 Transformer block 內的位置（現代主流是 pre-norm）：

1Transformer block（pre-norm 配置）：
2 x
3 ↓ LayerNorm
4 ↓ Self-Attention
5 ↓ + 跟 x 做 residual connection
6 ↓ LayerNorm
7 ↓ FFN
8 ↓ + 跟前一步輸出做 residual connection

主流變體比較：

變體	計算	出現在
LayerNorm	`(x - mean) / std × γ + β`	早期 Transformer（GPT-2、BERT）
RMSNorm	`x / rms(x) × γ`（不減 mean、不加 β）	Llama、Gemma、Qwen 等主流

RMSNorm 比 LayerNorm 簡單、實測訓練穩定性接近、推論更快（少算 mean 跟加 β）、所以現代 LLM 多用 RMSNorm。讀 paper 看到「RMSNorm」就是 LayerNorm 的這個簡化變體。

Pre-norm vs post-norm：

Pre-norm（LayerNorm 在 attention / FFN 之前）：深度模型訓練較穩、現代主流。
Post-norm（LayerNorm 在 residual add 之後）：原始 Transformer paper 的設計、深層訓練不穩定。

設計責任

理解 LayerNorm 後可以判讀「深層 LLM 為什麼訓得起來」的部分答案：residual connection + LayerNorm 是讓梯度能穩定流過幾十層 Transformer 的兩根支柱。讀 model card 看到「RMSNorm」「pre-norm」等詞、知道對應的設計選擇跟訓練穩定性意涵。

Learning Rate

Tue, 12 May 2026 00:00:00 +0000

Learning rate（學習率、lr、α、η）的核心概念是「gradient 每步更新權重時、被乘上的純量縮放因子」。更新公式 W_new = W_old - lr × gradient 裡的 lr 就是它。是訓練最敏感的單一 hyperparameter — 太大會 diverge（loss 飛走）、太小會訓得超慢或卡 local minimum。

概念位置

LLM 訓練 learning rate 的常見模式：

階段	典型 lr	理由
Pre-training	1e-4 ~ 3e-4	訓 trillion token、需要溫和的 lr 避免 diverge
SFT	1e-5 ~ 5e-5	base model 已收斂、用小 lr 微調避免 overshoot
RLHF / DPO	1e-7 ~ 1e-6	又比 SFT 更小、避免破壞 SFT 學到的對話能力
LoRA fine-tune	1e-4 ~ 5e-4	只訓小 adapter、可用較大 lr

Learning rate schedule（lr 隨訓練步數調整）的主流模式：

Warmup：訓練最初幾百 ~ 幾千 step、lr 從 0 線性升到目標值。避免初期 gradient 大、模型瞬間 diverge。
Cosine decay：warmup 後、lr 用 cosine 函數從目標值降到接近 0。訓練後期細調。
WSD（Warmup-Stable-Decay）：近期變體、中間維持高 lr 更久。

設計責任

讀 training config 看到 learning_rate、lr_scheduler_type: cosine、warmup_steps: 1000 等就是這組設定。Fine-tune 時 lr 設太大、模型會「忘記」pre-training 學到的能力（catastrophic forgetting）；太小則訓不進新資料、loss 不降。實務除錯：fine-tune 時 loss 第一個 epoch 就 NaN、十之八九是 lr 太大；loss 完全不降、十之八九是 lr 太小或 gradient 沒流到要訓的權重。

LLM Benchmarks（MMLU / HumanEval / SWE-bench 等）

Tue, 12 May 2026 00:00:00 +0000

LLM benchmarks 的核心概念是「用標準化任務集合衡量 LLM 各維度能力的評估工具」。不同 benchmark 衡量不同維度（知識、reasoning、code、對話、math 等）、選錯 benchmark 看模型會誤判。本卡列主流 benchmark 跟它們的覆蓋面、失效情境。

概念位置

主流 LLM benchmark 一覽：

Benchmark	衡量維度	任務形式	失效情境
MMLU	通用知識（57 學科多選題）	4 選 1 選擇題	訓練資料污染（題目可能在 pretrain corpus）
GSM8K	小學數學 word problem	文字 + 數字、需 reasoning	飽和（前沿模型 95%+）
MATH	高中 / 競賽數學	自由作答	訓練污染、reasoning model 表現遠超 instruct
HumanEval	Python function 補完	寫一個 function 通過 unit test	飽和、僅覆蓋初級 coding
MBPP	Python coding 任務	同上、規模較大	同 HumanEval
SWE-bench	真實 GitHub issue 修復	給 repo + issue、生 patch、跑 test	仍是 LLM 主要 coding 差距、不易飽和
MT-Bench	多輪對話品質	80 題 prompt、LLM-as-judge 評分	LLM-as-judge bias、judge 模型本身能力影響評分
Chatbot Arena	開放對話偏好（眾人投票）	A/B 對戰、Elo 排名	文化偏好、prompt 設計影響
HELM	多 dimension comprehensive	22 scenarios × 多 metrics	計算昂貴、不易追蹤每代新模型
AlpacaEval	指令跟隨能力	LLM-as-judge 對比 GPT-4	Judge bias、易被「verbose」攻擊
RULER	Long context 真實任務	Multi-needle、aggregation、reasoning	較新、覆蓋仍在演化

事實查核註：各 benchmark 的飽和狀態、前沿模型 score 持續變動、上述為 2026/5 主流觀察。引用前以 Papers with Code 或 HuggingFace Open LLM Leaderboard 當前狀態為準。

Benchmark 的常見陷阱

訓練資料污染（Contamination）：benchmark 題目本身在 pretrain corpus 出現過、模型「記得」答案、看似強實際是 memorization
飽和（Saturation）：前沿模型 score 接近上限、無法區分模型品質差距（HumanEval 80%→95% 看似進步、實際 5% 多半是 lucky 而非實質提升）
LLM-as-judge bias：用 LLM（如 GPT-4）評其他 LLM、judge 的偏好（如「冗長 = 好」）會 bias 評分
Single-task overfitting：模型廠商針對 benchmark 特別 fine-tune、benchmark 高分但通用能力沒提升
Prompt sensitivity：同個 benchmark 用不同 prompt format、score 差幾個百分點

設計責任

讀 model card / paper 看到 benchmark 數字、判讀框架：

看 multiple benchmarks、不只一個：如挑 coding 模型、看 HumanEval + MBPP + SWE-bench、不只看 HumanEval
跟自己任務對齊的 benchmark 才重要：你做 RAG 應用、看 retrieval benchmark；你做 chat、看 MT-Bench / Arena
看「相對」、不只看「絕對」：「Model A 在 MMLU 比 Model B 高 2%」可能 noise；「A 比 B 高 10%」更可信
In-house benchmark 是最後檢驗：自己的真實工作流案例 > 任何公開 benchmark

LLM Tracing

Tue, 12 May 2026 00:00:00 +0000

LLM tracing 的核心概念是「把 LLM 應用的每次 LLM call / tool call / memory op / handoff 編成結構化 span、串成 trace、可在 observability 平台查詢」。對應的標準是 OpenTelemetry GenAI semantic conventions（2025 stabilizing 中）。代表平台：LangSmith、Phoenix、Braintrust、Langfuse、Datadog APM、Logfire。是 production LLM 應用 debug / cost / latency 監控的事實標準、補 traditional logging 抓不到的「為什麼 agent 跑這條路」。

概念位置

跟 traditional logging 的對比：

維度	Traditional logging	LLM tracing
結構	字串 line、靠 grep	結構化 span、parent-child 樹
關聯性	弱（要靠 request-id 串）	強（trace-id + span 父子關係內建）
屬性	自由 key-value	標準化（OTel GenAI semconv）：model / temperature / token usage / cost
查詢	grep / log aggregator	Trace explorer + filter + 視覺化
LLM 特有 attr	沒有	system prompt / tool calls / token / reasoning

主流 OTel GenAI span 類型：

Span 類型	內容
`gen_ai.client.operation`	一次完整 LLM API call
`gen_ai.tool.execution`	一次 tool 執行
`gen_ai.agent`	Agent loop 一個 iteration
`gen_ai.embeddings`	Embedding call
`gen_ai.memory.read/write`	Memory 操作

每個 span 標準屬性：gen_ai.system（vendor）、gen_ai.request.model、gen_ai.usage.input_tokens / output_tokens、gen_ai.request.temperature 等。

設計責任

讀 LLM observability docs / OTel spec 看到「span」「trace」「OTel GenAI semconv」就是這 framing。寫 code 場景的判讀：

何時值得加 tracing：超過個人 demo、有實際使用者 / production 流量、開始遇到「為什麼 agent 跑這條路」debug 問題
不該自己寫 logging：用 OTel GenAI semconv 標準化、未來可換 backend（LangSmith → Phoenix → 自架）
Trace 不只 debug、也是 eval 來源：production trace 餵回 LLM-as-judge 做品質評估
跟 4.20 LLM tracing 章節的關係：本卡是定義、章節是工程實務（attribute 設計、cost monitoring、failure debug 流程）

LLM-as-Judge

Tue, 12 May 2026 00:00:00 +0000

LLM-as-Judge 的核心概念是「用一個 LLM（judge）對另一個 LLM（test subject）的輸出做品質評估」。給 judge 一個 rubric（評分標準）跟 (input, output) pair、judge 輸出分數或 pairwise 偏好。是 production LLM eval 的主流方法（500-5000× 比 human eval 便宜、80%+ 跟人類同意度）、但有 bias 要處理（position / verbosity / self-preference）。

概念位置

跟其他 eval 路徑的對比：

Eval 路徑	成本	速度	適合
Standard benchmark（MMLU / SWE-bench 等）	中	慢（一次 run 數小時）	通用能力比較
Human eval	極高（每筆 $1-10）	慢	黃金標準、final QA
LLM-as-Judge（本卡）	低（每筆 $0.001-0.01）	快	Production loop eval、自己應用 in-house
Rule-based / regex	極低	即時	明確 binary（如格式對不對）

主要 use case：

In-house benchmark：自己工作流的真實案例、自寫 rubric、judge 評
Production trace eval：用 LLM tracing 蒐集的 production trace、定期 judge 跑、抓品質回歸
A/B test：兩個 prompt / model 變體、judge 做 pairwise 比較
Synthetic data quality：用大模型生 fine-tune 資料、judge 過濾低品質

設計責任

讀 eval framework / production AI app 看到「LLM as judge」「pairwise eval」「LLM evaluator」就是這 framing。寫 code 場景的判讀：

Judge 模型選擇：強模型當 judge（GPT-5 / Claude 4 / Gemini 旗艦）、reasoning model 更穩；judge 跟被測同家可能有 self-preference bias
三大 bias 緩解：
- Position bias：A/B pairwise 換位置跑 2 次取一致 vote
- Verbosity bias：rubric 加「冗長不加分」明確指示、或長度 normalize
- Self-preference bias：用 3 個不同 judge model 取多數
跟 4.21 LLM-as-judge 章節的關係：本卡是定義、章節是工程實務（rubric design、bias 緩解、calibration、trace 串接）
不是萬靈丹：高 stake 任務（醫療、法律、安全）仍需 human eval；judge 的天花板 = judge 模型本身的能力

Logit

Tue, 12 May 2026 00:00:00 +0000

Logit 的核心概念是「softmax 之前的原始分數」。LLM 每次 forward pass 的最後一步、會輸出長度為 vocab size 的實數向量（例如 vocab size = 128K、輸出就是 128K 個浮點數）、這個向量就是 logits。Logit 可正可負、無上下界、要經過 softmax 才變成機率分佈。

概念位置

Logit 在 LLM 輸出 pipeline 的位置：

1最後一層 Transformer 輸出 hidden state
2 ↓ output projection（linear layer）
3logits（shape: vocab_size、實數、可正可負）
4 ↓ logit warping / masking（可選、用於控制輸出）
5 ↓ /temperature
6 ↓ softmax
7probability distribution
8 ↓ sampling（greedy / top-k / top-p）
9next token

操作 logit 的常見技巧：

技巧	做法	用途
Temperature	logit / T	控制輸出隨機度、T 越大越平
Logit bias	對特定 token 的 logit 加 / 減 offset	強制 / 抑制特定 token（如禁用特定詞）
Grammar masking	把不合法 token 的 logit 設成 -∞	Structured output、確保輸出符合 grammar
Repetition penalty	對最近出現過的 token logit 扣分	避免重複、改善生成多樣性

設計責任

理解 logit 後可以判讀 sampling 階段的控制粒度：所有「不重訓模型、影響輸出」的技巧（temperature、structured output、constrained generation、logit bias）本質上都是「在 softmax 前後動 logit」、不是動模型權重。這也是為什麼同一個模型用不同 sampling 設定能產生差很多的輸出。

LoRA

Tue, 12 May 2026 00:00:00 +0000

LoRA（Low-Rank Adaptation、低秩適配）的核心概念是「凍住原模型所有權重、在指定 layer 旁邊掛兩個小矩陣 A、B（rank 很低、如 r=8）、只訓 A、B」。Hu et al. (2021) 提出、是現在 fine-tuning 的主流選擇、大幅降低訓練成本與記憶體需求。

概念位置

LoRA 的數學形式：

1原 layer 輸出：y = W × x （W 凍住）
2加 LoRA 後： y = W × x + B × A × x
3 └──┬──┘
4 LoRA update（rank r）
5 A shape: (r, hidden_dim)
6 B shape: (hidden_dim, r)

關鍵特性：

維度	完整 fine-tuning	LoRA fine-tuning（r=16）
可訓練參數	全部（如 7B、70B）	~0.1% ~ 1%（只 A、B）
GPU 記憶體	高（要存所有 gradient）	大幅降低
Adapter 檔案大小	跟原模型同大	幾 MB ~ 幾百 MB
訓練成本	全模型 backprop	只算 A、B 的 gradient
部署	載入新模型	載入原模型 + adapter、推論時合併
多任務切換	載入不同模型	切換 adapter 即可（同個底）

QLoRA（Dettmers et al., 2023）進一步把原模型量化到 4-bit、LoRA 訓在量化模型上、消費級 GPU 也能 fine-tune 大模型。

設計責任

讀 fine-tuning 教學 / Hugging Face PEFT 看到 LoRA、QLoRA 是現在主流。寫 code 場景的判讀：LoRA 適合「在現有模型上加領域知識 / 風格」（如教模型用特定 codebase 慣例）、不適合「教模型新世界知識」（仍要 pre-training 級資料）；adapter 形式讓「多客戶 / 多風格」場景可以共用 base model、只切換 adapter、節省 GPU 記憶體。

Loss Function

Tue, 12 May 2026 00:00:00 +0000

Loss function（損失函數、目的函數）的核心概念是「把模型預測跟正確答案的差距、壓成一個純量數值」。訓練的整個目標就是「最小化這個數值」、所有 gradient / backpropagation / optimizer step 都在做這件事。

概念位置

LLM 各訓練階段用不同的 loss function：

階段	主要 loss	衡量的東西
Pre-training	Cross-entropy（next-token prediction）	模型預測的下個 token 機率跟真實答案的距離
SFT	Cross-entropy（同上、但 only on assistant response）	模型回答跟人類示範回答的距離
Reward model	Pairwise ranking loss	「人類偏好 A 大於 B」這個訊號的擬合度
RLHF / DPO	KL-constrained reward loss / DPO loss	reward 高 + 不偏離 base 模型太遠

評估時用的指標（perplexity、accuracy、BLEU 等）跟訓練 loss 是不同概念：loss 是「訓練要 minimize 的東西」、指標是「給人看模型好不好的數字」、兩者不一定一致（loss 降但指標不一定升、反之亦然）。

設計責任

選 loss function 等於選「訓練要把模型推往哪個方向」。Cross-entropy 推「機率分佈接近真實 token」、reward model 推「人類偏好高的回應」、DPO 推「偏好回應 vs 拒絕回應的對比」— 每種 loss 對應的模型行為不同。讀 paper 看到「我們用 X loss」、要回問「這 loss 把模型推往哪個方向」、才能判斷模型訓練出來的特性是否符合預期。

Lost in the Middle

Tue, 12 May 2026 00:00:00 +0000

Lost in the middle（中段遺失、Liu et al., 2023）的核心概念是「LLM 對 long context 中段內容的 attention / recall 顯著低於開頭與結尾」。實測：把答案放在 10K context 的開頭或結尾、模型 recall 準確率 80%+；放在中段 4000-6000 token 位置、recall 掉到 50% 甚至更低。是 long context 使用上最常見的失敗模式。

概念位置

Long context 的 effective context 跟 claimed context 落差來自三個現象：

現象	描述	嚴重度
Lost in the middle	中段內容 attention 顯著低、recall 掉	普遍、最頻繁
Context degradation	接近 context 上限時、整體品質緩降	接近上限才明顯
Needle in haystack	抓單一事實的能力（vs lost-in-the-middle 抓整段邏輯）	兩條軸、不完全重疊

 1Recall accuracy vs 答案位置（典型 10K context）：
 2
 3100% |█ █
 4 |██ ██
 5 80% |███ ███
 6 |███ ███
 7 60% |███ ____ ███
 8 |███ ___/ \___ ███
 9 40% |███ _/ \_ ███
10 |█████─/ \───── ███
11 |
12 0 2K 4K 6K 8K 10K
13 開頭 結尾

成因：

Attention weight 分佈不均勻：訓練資料中、句首 / 段首通常含關鍵資訊、模型學會偏重句首；長 context 的中段在訓練資料中相對稀疏、attention 沒學好
Positional encoding 設計：RoPE / ALiBi 等對長距離 attention 的衰減模式、中段 token 跟 query 距離通常較大、attention 弱
訓練 context 長度的影響：模型若訓練在 8K context、推論時用 128K（用 RoPE scaling 延伸）、中段表現比訓練範圍內差更多

設計責任

讀 long-context paper / benchmark 看到「lost-in-the-middle」「U-shape recall」就是這現象。寫 code 場景的判讀：

把關鍵資訊放開頭或結尾：system prompt 在開頭、最新指示在結尾（剛好是模型 attention 最強的兩處）
長 context 不是「塞越多越好」：超過 effective context（典型 8-16K）後、邊際效用急降
RAG 比 long context 仍有價值：把相關片段 retrieve 出來放 prompt 開頭、比把整份文件塞進 100K context 效果更穩定
驗證自己模型的 effective context：用 needle-in-haystack 或自製測試、看模型在 8K / 16K / 32K 表現掉到哪
Reasoning model 的 thinking trace 不會遇到這事故嗎？ — 仍會遇到、但 reasoning 過程會主動重新引用前文、部分緩解；不過 thinking trace 本身會擠壓 context budget、可能反而觸發 degradation

Matrix Multiplication

Tue, 12 May 2026 00:00:00 +0000

Matrix multiplication（矩陣乘法、matmul、@）的核心概念是「左矩陣的每個 row 跟右矩陣的每個 column 做 dot product、結果填進新矩陣」。對 A (m × k) 跟 B (k × n)、結果 C (m × n)、其中 C[i][j] = A 第 i row · B 第 j column。Matmul 是 LLM 推論最頻繁的運算、整個 forward pass 可以看成幾百次 matmul 串起來。

概念位置

LLM 中 matmul 出現的關鍵位置：

位置	形狀（簡化）	角色
Embedding lookup	`(seq_len, vocab) @ (vocab, hidden)` ≡ 查表	Token ID → embedding
Q/K/V 投影	`(seq_len, hidden) @ (hidden, hidden)`	Self-attention 第一步
Attention score	`(seq_len, head_dim) @ (head_dim, seq_len)`	Q · K^T、O(n²)、long context 痛點
Attention output	`(seq_len, seq_len) @ (seq_len, head_dim)`	attention weight · V
FFN up	`(seq_len, hidden) @ (hidden, 4×hidden)`	FFN 升維、參數大頭
FFN down	`(seq_len, 4×hidden) @ (4×hidden, hidden)`	FFN 降維
Output projection	`(seq_len, hidden) @ (hidden, vocab)`	Hidden → logits

關鍵尺寸規則：左矩陣 column 數 = 右矩陣 row 數、即 (m × k) @ (k × n) = (m × n)。Dimension mismatch 是訓練 / 推論最常見的 PyTorch 報錯之一。

為什麼 matmul 是 memory bandwidth bound

LLM 推論每生一個 token、要把整份模型權重從記憶體讀到處理器一次（每個權重在當輪 forward pass 的某個 matmul 都用得到）；現代 GPU / Apple Silicon 的算力遠超頻寬、所以「讀權重要多久」變主要瓶頸。這就是為什麼：

31B 模型 Q4_K_M 約 18GB、M4 Max 頻寬 546 GB/s、理論上限 ≈ 30 tok/s
量化加速主要是「權重變小、每秒能讀過更多次完整模型」
Batching / speculative decoding 加速主要是「一次讀權重、攤平到多個 token」

設計責任

讀 paper / model card 看到模型參數量、可以反推總 matmul 工作量；看到 inference benchmark 看到 tok/s、可以用「模型大小 / memory bandwidth」算理論上限對照。寫 code 場景無需直接寫 matmul、但理解這個運算的成本結構、能看懂量化 / batching / speculative decoding 等加速技巧為什麼有效。

Mixture of Experts (MoE)

Tue, 12 May 2026 00:00:00 +0000

MoE（Mixture of Experts）的核心概念是「把 transformer block 內的 FFN 層拆成多個專家網路、router 為每個 token 動態挑選少數啟用」。結果是模型總參數可以擴張到很大、但每個 token 實際計算量保持在「active parameter」這個較小的數目；同硬體下 MoE 模型常比同總參數的 Dense 模型跑得快、且能力強於同 active parameter 的 Dense 模型。

概念位置

MoE 在 transformer 架構中的位置：

1transformer block：
2 ├── attention 層（所有 token 共用）
3 ├── layer norm
4 └── FFN 層
5 ├── Dense 架構：所有 token 走同一組 FFN
6 └── MoE 架構：FFN 拆成多個 expert、router 挑選 top-k 個啟用

主流 MoE 模型的設計選擇（依模型而異）：

expert 數量：通常 8 ~ 256 個
每 token 啟用 expert 數：通常 1 ~ 2 個（top-k routing）
shared expert：部分模型保留少數所有 token 共用的 expert
total / active parameter 比：常見 5x ~ 10x（如 Qwen3-30B-A3B：30B total / 3B active）

事實查核註：MoE 架構的具體實作（router 演算法、load balancing loss、expert 並行策略等）依模型快速演進、引用前以該模型的技術報告或 paper 為準。

代表性 MoE 模型（依公開資訊）：Mixtral 8x7B、DeepSeek V3、Qwen3-30B-A3B、Llama 4 Scout 等。

設計責任

理解 MoE 後可以解釋三個現象：為什麼 MoE 模型的「30B 總參數」跟「3B active parameter」是兩個獨立指標（前者影響記憶體需求、後者影響速度）、為什麼 MoE 適合 CPU 卸載（不活躍的 expert 可以留在系統 RAM）、為什麼 MoE 在多 GPU 場景的並行策略跟 Dense 模型不同（expert 可以分到不同卡）。

選 MoE 模型 vs Dense 模型、需考慮：MoE 對 RAM 容量要求較高（要放所有 expert 權重）、對 GPU 算力要求較低（每 token 走 active parameter）；Dense 對 VRAM 容量要求較低（可全載中型模型）、對 GPU 算力要求較高。詳見 5.1 MoE 模型與 CPU 卸載策略跟 5.5 PC 場景的模型選型優先順序。

Model Card

Tue, 12 May 2026 00:00:00 +0000

Model card 的核心概念是「模型發布時附帶的 metadata 文件、列出模型的來源、訓練資料、預期用途、能力上限、已知限制跟授權條款」。Hugging Face 上每個 model repo 的 README.md 就是 model card；它是個人 dev 跟 production 場景下判讀「該不該用這個模型」的最主要資訊來源。

概念位置

典型的 model card 包含哪些區段（依平台跟模型而異）：

區段	內容	對應的判讀
基本資訊	模型名稱、參數量、架構、發布者	確認是哪個 organization 發布
Training data	訓練語料的來源、規模、語言分布	評估模型在自己語言 / 任務的適配性
Intended use	預期用途、適合的應用場景	判讀模型是否符合自己工作流
Out-of-scope use	不適合的用途、已知不擅長的任務	避免誤用
Bias、ethical considerations	已知偏見、敏感議題的回應傾向	production 場景的合規評估
Benchmark	在公開 benchmark 上的分數	跟其他模型對比
License	模型權重的使用授權	商用前必看
Quantization 版本	該 repo 提供哪些量化版本	選對應 GGUF 版本

事實查核註：Hugging Face 推動 Model Card 規範跟 Model Card Toolkit、但實際填寫品質依 organization 變化、部分 repo 的 model card 內容很簡略、不能 100% 依賴。引用前以該 repo 當前內容為準。

設計責任

理解 model card 後可以解釋兩個現象：為什麼選模型不能只看名字（同個 base model 的不同 fine-tune 版本能力差很多）、為什麼商用前要看 license（Llama Community License、Apache 2.0、MIT 等差異大）。

實務上選模型時、model card 是第一閱讀對象、其他資訊（社群評測、benchmark leaderboard）作為交叉驗證；引用模型時應該明確記下「base model + fine-tune 變體 + 量化版本」三層。詳見 6.0 模型供應鏈與信任邊界跟 LLM Deployment 供應鏈完整性。

Model Tag

Tue, 12 May 2026 00:00:00 +0000

Model Tag 的核心概念是「推論伺服器用來定位特定模型版本的字串 key」。同一個模型家族（例如 Gemma 4）會被切出十幾個 tag、每個 tag 對應不同的參數量、訓練變體與量化等級、使用者用 tag 在 CLI 或 API 中指定要載入哪一份權重。

概念位置

Model tag 是介面層跟推論伺服器之間的識別碼、形式由各個伺服器各自定義。Ollama 用 family:size-variant-quantization 的單行字串、LM Studio 用 Hugging Face 完整檔名、llama.cpp 直接用 .gguf 檔路徑。同一份模型權重在不同伺服器有不同 tag 字串、但指向的底層GGUF權重可以是同一份。

可觀察訊號與例子

Ollama 的 tag 結構：

範例	拆解
`gemma4:e4b`	Gemma 4、E4B（edge dense）、預設量化
`gemma4:31b-instruct-q5_K_M`	Gemma 4、31B、instruct-tuned、Q5_K_M 量化
`gemma4:31b-coding-mtp-bf16`	Gemma 4、31B、coding 特化、含 MTP drafter
`qwen3-coder:30b`	Qwen3-Coder、30B 參數、預設量化
`llama3.3:70b-instruct-q4_K_M`	Llama 3.3、70B、instruct、Q4_K_M

四個欄位裡、size 直接決定記憶體佔用、variant（instruct / coding / base）決定模型適合的任務型態、quantization 影響品質跟記憶體取捨。Tag 中省略某些欄位時、伺服器用該欄位的預設值（通常是「常用組合」）。

設計責任

選 tag 時要看三件事：先看 size 確認模型塞得進記憶體（對照硬體記憶體預算）、再看 variant 確認用途匹配（寫 code 要選 instruct / coding 變體、避免 base model 的隨機接龍行為）、最後看 quantization 決定品質 / 記憶體甜蜜點。完整可用 tag 在各伺服器的 model registry（Ollama 在 ollama.com/library、LM Studio 在 Discover 分頁）。

MoE CPU 卸載

Tue, 12 May 2026 00:00:00 +0000

MoE CPU 卸載的核心概念是「Mixture-of-Experts 模型每個 token 只啟用少數專家、把不活躍的專家權重留在系統 RAM、用到再走 PCIe 拉回 GPU」。它讓 16GB VRAM 卡能載入 30B / 70B 等級的 MoE 模型、是獨立 GPU 場景相對統一記憶體場景多出的工程選項。

概念位置

MoE 卸載屬於「推論時的權重位置管理」、跟量化屬於「權重精度壓縮」是兩個獨立維度、可以疊加（如 30B MoE Q4 + 卸載部分層、模型精度跟記憶體位置同時被處理）。它跟 KV cache 量化是 PC 場景常一起使用的兩個工具：卸載騰出 VRAM、KV cache 量化讓騰出的 VRAM 拿去開大 context window。

在 llama.cpp 中、對應的旗標是 --n-cpu-moe 、把 N 層的 MoE 專家權重保留在 CPU 記憶體。例如 --n-cpu-moe 30 表示 30 層的專家層留 RAM、其餘走 GPU。

可觀察訊號與例子

以 Qwen3-30B-A3B Q4_K_M（模型體積 10 GB 級、active parameter 約 3B 等級）為例、不同卸載策略下記憶體分布與生字速度的相對方向（具體數值依驅動、CUDA backend、模型版本、PCIe 版本變化、本表用於說明趨勢、不是嚴格 benchmark）：

配置	卸載策略	VRAM 佔用方向	RAM 佔用方向	生字速度方向（同卡比較）
全載 VRAM	`--n-cpu-moe 0`	接近 VRAM 上限	系統正常	上限取決於 VRAM 頻寬
中度卸載	`--n-cpu-moe ~20`	顯著下降	上升至 10 GB 級	較全載小幅下降
重度卸載	`--n-cpu-moe ~30`	大幅下降	上升較多	較全載明顯下降
極限卸載	`--n-cpu-moe ~40`	接近最低	上升最多	較全載大幅下降

事實查核註：上表是趨勢示意、不是經本文系統實測的數值。實際數值依顯卡型號、PCIe 版本、CUDA backend、GGUF 量化版本、-ngl 設定、context 長度與 batch size 變化、建議用 llama-bench 或實際工作流校準。

社群常見的觀察是：MoE 卸載對生字速度的衰減幅度、相對於「Dense 模型把同樣比例的層卸載到 CPU」較小、原因是 MoE 每 token 只啟用少數專家、PCIe 上的權重傳輸量也較少；具體幅度依模型架構（active parameter 比例、專家數）變化。

設計責任

理解 MoE 卸載後、可以解釋三個 PC 場景的現象：16GB VRAM 卡能載入 30B 級 MoE 模型（透過部分卸載而非全載 VRAM）、PC 場景 64GB RAM 相對 32GB 在 MoE 卸載空間上明顯更寬裕（可卸載更多層）、Mac 統一記憶體場景較少需要「卸載」這個概念（VRAM 跟 RAM 共用、不需要在兩個區域之間搬資料）。

設定 PC 推論伺服器時、卸載層數通常跟 KV cache 量化、context 長度、併發數一起調：先估算想開的 context 長度、扣掉 KV cache 體積算出 VRAM 餘量、再選卸載層數讓模型剛好放得進。詳見 5.0 VRAM + RAM 分層預算。

MTEB

Tue, 12 May 2026 00:00:00 +0000

MTEB（Massive Text Embedding Benchmark、Muennighoff et al., 2022）的核心概念是「評估 embedding model 跨多種任務通用能力的標準 benchmark」。覆蓋 8 大類任務（classification、clustering、pair classification、reranking、retrieval、STS、summarization、bitext mining）、56 個 dataset、112 種語言。是現在挑選 embedding model 最常用的 leaderboard。

概念位置

MTEB 的 8 大任務類別：

類別	任務本質	衡量
Classification	用 embedding 做下游分類（如情感分析）	分類 accuracy
Clustering	把相似 doc 聚到一起	V-measure、NMI
Pair classification	判斷兩段文字「相關 / 不相關」	F1、AP
Reranking	對 retrieval 結果用 embedding 重新排序	mAP、MRR
Retrieval	給 query、從大量 corpus 找相關 doc	nDCG@10、Recall@k
STS（Semantic Textual Similarity）	預測句對相似度（連續分數）	Spearman correlation
Summarization	embedding-based summary quality	Correlation with human rating
Bitext mining	跨語言找翻譯對	F1

對寫 code / RAG 場景最相關：Retrieval、Reranking 兩類（粗體）。其他類別反映通用能力、但不直接影響 RAG 應用品質。

主流 embedding model 在 MTEB Retrieval 的代表性能（2026/5 估計、會持續變動）：

模型	模型大小	MTEB Retrieval avg	適合場景
BAAI/bge-large-en-v1.5	~335M	~55	開源通用、英文 retrieval 主力
nomic-embed-text-v1.5	~137M	~52	開源、小巧、Ollama 內建
jina-embeddings-v3	~570M	~58	開源、多語、code 友善
mxbai-embed-large-v1	~335M	~55	開源通用
OpenAI text-embedding-3-large	API only	~64	雲端旗艦
voyage-3	API only	~62	雲端、Anthropic 推薦

事實查核註：MTEB 數字依模型版本、評估配置變動、上述為 2026/5 大致排名、引用前以 MTEB Leaderboard 當前狀態為準。

設計責任

讀 embedding model 比較看到「MTEB score」就是這 benchmark。寫 code / RAG 場景的判讀：

看 Retrieval 子分數、不是 overall：MTEB overall 含 8 類、跟 RAG 場景關係最大的是 Retrieval 子分；通用 retrieval 分數高、reranking 分數高、就值得試
跟自己 domain 對齊：MTEB 多為通用語料、自己 domain（如 code、medical、legal）可能跟 MTEB 落差大；in-domain benchmark 比 MTEB 更重要
大小 / 速度 / 品質 trade-off：bge-large（335M）vs nomic-embed（137M）、後者跑得快、適合本地 RAG；前者品質略高、適合雲端或 latency 不敏感場景
MTEB 高分不代表「適合你」：高分模型可能是 instruction-tuned embedding（query 需要加特定前綴）、用法跟簡單模型不同、要看 model card

Multi-Head Attention

Tue, 12 May 2026 00:00:00 +0000

Multi-Head Attention（MHA、多頭注意力）的核心概念是「把 self-attention 的 Q/K/V 投影切成多個獨立的 head、各自算 attention、最後再 concat 起來」。直覺：每個 head 可以學會關注不同類型的關係（語法 / 語意 / 位置 / 共指 etc.）、比單一 attention 表達能力強。

概念位置

MHA 的計算結構：

1輸入 hidden state（dim = 4096）
2 ↓ 投影成 Q/K/V、每個切成 h 個 head（如 h=32、每個 head 128 維）
3Head 1：Q_1、K_1、V_1 → attention_1（128 維）
4Head 2：Q_2、K_2、V_2 → attention_2
5...
6Head h：Q_h、K_h、V_h → attention_h
7 ↓ concat 所有 head 輸出（h × 128 = 4096）
8 ↓ output projection（4096 → 4096）
9最終輸出

多頭變體：MHA → GQA → MLA 是 KV cache 體積壓縮的演化方向。

變體	Q head 數	K/V head 數	KV cache 體積	出現在
MHA（Multi-Head Attention）	h	h	100%（基準）	原始 Transformer、GPT-3、Llama 1
MQA（Multi-Query Attention）	h	1（所有 head 共用）	1/h	PaLM、Falcon
GQA（Grouped-Query Attention）	h	h/g（每 g 個 Q head 共用一組 K/V）	1/g	Llama 2 / 3、Mistral、Gemma
MLA（Multi-head Latent Attention）	h	用 latent 壓縮再展開	更激進壓縮	DeepSeek-V2 / V3

設計責任

讀 model card 看到 num_attention_heads: 32、num_key_value_heads: 8 等就是 MHA / GQA 設定（Q=32、K/V=8 表示 GQA、g=4）。寫 code 場景的意涵：GQA / MLA 的 KV cache 體積小、長 context / 高併發場景更友善、是現代 LLM 大量採用的設計。

Multimodal Fusion

Tue, 12 May 2026 00:00:00 +0000

Multimodal fusion（多模態融合）的核心概念是「VLM 把 vision encoder 產出的 image token 跟 text token 結合進 LLM 的設計方式」。三條主流路線：early fusion（image token 跟 text token 串成同 sequence）、cross-attention（separate stream、attention 跨流）、native multimodal（單一網路統一處理）。

概念位置

三種 fusion 方式的對比：

1. Early Fusion（最主流）

1image → vision encoder → image tokens ─┐
2                                       ├→ concat 成單一 sequence → 同 LLM Transformer 處理
3text → tokenizer → text tokens ────────┘

特性：image token 跟 text token 在同一個 token sequence、共用 LLM 的 attention / FFN
代表：LLaVA、Qwen2-VL、Llama 3.2 Vision、Pixtral、GPT-4V 多數變體
優點：實作簡單、可重用 LLM 的 weight、訓練資料效率高
缺點：image token 佔 context、長對話 / 多圖時 context budget 吃緊

2. Cross-Attention（Flamingo-style）

1image → vision encoder → image features ─┐
2                                          │ Cross-attention 層
3text → tokenizer → tokens → LLM Transformer ──┤  插在每幾層 Transformer 之間
4                                          │ Image features 不進 LLM 主流
5output ←─────────────────────────────────┘

特性：image features 不變成 LLM 的 token、透過額外的 cross-attention 層注入
代表：Flamingo（DeepMind）、Idefics（Hugging Face）、部分 video LLM
優點：text token sequence 不會被 image 撐大、長文字 + 多圖比較友善
缺點：架構複雜、訓練難、推論伺服器支援度差

3. Native Multimodal（unified token space）

1image → patchify → discrete image tokens（如 VQ-VAE 編碼）
2text → tokenizer → text tokens
3
4兩者共用 vocab、同一個 Transformer 從頭訓
5（沒有「分開的 vision encoder」、modality 在 vocab level 統一）

特性：架構上「圖跟文字是同一種東西」、共用 vocab
代表：Chameleon（Meta 研究）、未來 trend
優點：理論最 clean、跨模態 generation 自然（生圖 + 生文都同個模型）
缺點：訓練極貴、目前研究階段為主、實用 VLM 仍以 early fusion 為主流

主流選擇對比

路線	佔比（2026/5）	對 coding 場景的影響
Early fusion	~85%	Image token 佔 context、要算清楚 context budget
Cross-attention	~10%	推論伺服器支援度差、本地跑選項少
Native multimodal	< 5%	研究階段、現在不適合 production / 本地工作流

設計責任

讀 VLM paper / blog 看到「early fusion」「LLaVA-style」「Flamingo-style」「cross-attention adapter」就是這分類。寫 code 場景的判讀：

本地跑 VLM 多半是 early fusion：選 Qwen2.5-VL / Llama 3.2 Vision / Gemma 3 Vision 都是這條路線、推論伺服器（llama.cpp、Ollama、LM Studio）都支援
Cross-attention 模型本地跑可能撞牆：推論伺服器對 Idefics 等 cross-attention 模型支援度差、不一定能跑 GGUF
理解 fusion 影響 token 估算：early fusion 下「image token = 真的進 context」、cross-attention 下不算進 context window 主流
未來 trend 是 unified：但現在做 production / 本地工作流不必等、用 early fusion 主流模型即可

Needle in a Haystack

Tue, 12 May 2026 00:00:00 +0000

Needle in a Haystack（NIH、大海撈針、Greg Kamradt 2023）的核心概念是「把一個明確事實（needle）插入長度可變的 context（haystack）的不同位置、測試 LLM 能否在問問題時準確 recall 該事實」。是評估 long context 模型實用性的標準 benchmark 之一、跟 lost-in-the-middle 對應但側重不同。

概念位置

NIH 測試的典型流程：

 11. 準備 haystack：一份長文（如 Paul Graham essays、技術文件）
 22. 在指定位置（如 50% 處）插入 needle：
 3   「The best thing to do in San Francisco is eat a sandwich at Dolores Park.」
 43. Prompt 模型：「What is the best thing to do in San Francisco?」
 54. 看模型能否抓出 needle 內容
 6
 7Variables：
 8- Context 總長度（1K、4K、16K、64K、128K、1M）
 9- Needle 插入位置（0%、10%、25%、50%、75%、90%、100%）
10
11每個 (length, position) 組合測 N 次、得到 accuracy heatmap

跟 lost-in-the-middle 的對比：

維度	Lost in the middle	Needle in haystack
衡量的能力	對中段內容的整體 attention	抓單一事實的 recall
任務	抓整段邏輯、做推論	純 retrieve、不需推論
難度	高（需理解整段語意）	較低（明確 keyword 匹配）
模型表現	中段顯著差	通常各位置都接近 100%（強模型）
判讀意義	反映「實用 effective context」	反映「lower bound effective context」

 1典型 NIH heatmap（GPT-4 128K 之類）：
 2
 3100% |████ ████████████████████████████ ████
 4 80% |████ ████████████████████████████ ████
 5 60% |
 6 40% |
 7 20% |
 8   0 +----+----+----+----+----+----+----+
 9     0%   25%   50%   75%   100%（needle 位置）
10     ↑                                  ↑
11     開頭強                             結尾強
12
13NIH heatmap 通常全綠（強模型）、但實用任務（reasoning over long context）就會出現中段塌陷

設計責任

讀 long context 模型 release notes 看到「needle in a haystack: 100%」「pass NIH up to 128K」等聲稱、要區分：

NIH 100% 不代表「能用 128K context」：NIH 只測單一事實 retrieve、實際 reasoning over long context 仍可能崩
真實任務 benchmark：LongBench、RULER 等是更貼近實用的 long context evaluation、會暴露 lost-in-the-middle 等問題
本地跑 long context 模型：先用 NIH 驗證 baseline、再用 RULER / 自己工作流 case 測 effective context
判讀「我的模型實際能用幾 K」：NIH pass 的長度是上限、實用 effective context 通常是 NIH pass 長度的 1/2 到 1/4

NVLink

Tue, 12 May 2026 00:00:00 +0000

NVLink 的核心概念是「NVIDIA 自家的 GPU 之間高速互連介面、頻寬高於 PCIe、適合多卡 tensor parallel 場景」。資料中心級 GPU（如 A100 / H100 / H200）普遍支援、消費級 RTX 30 系列部分支援（如 3090）、RTX 40 / 50 系列普遍移除 NVLink、消費級多卡通常只能走 PCIe。

概念位置

NVLink 在多卡推論場景的角色：

tensor parallel：把一個 transformer 層的 weight 切到多張卡、每 token 計算時需要卡間同步、卡間頻寬影響直接。
pipeline parallel：把不同層分到不同卡、卡間需要傳 activation、頻寬要求中等。
資料分發：把不同 request 分到不同卡（data parallel）、卡間流量低、PCIe 也夠。

頻寬對照（廠商標稱、依世代變化）：

介面	卡間頻寬（標稱）
PCIe 4.0 x16	約 32 GB/s 單向
PCIe 5.0 x16	約 64 GB/s 單向
NVLink（H100）	約 900 GB/s 雙向、依世代
NVLink（A100）	約 600 GB/s 雙向

NVLink 比 PCIe 高一個量級、是資料中心多卡推論的關鍵；消費級 RTX 場景多卡通常只能走 PCIe、縮放效益相對受限。

事實查核註：NVLink 各世代的頻寬數字依 NVIDIA 官方規格、不同 GPU 跟世代有差異；NVLink 在哪些消費級 / 工作站 / 資料中心 GPU 可用、依時段跟廠商策略變化、引用前以 NVIDIA 官方產品頁跟對應 GPU 的 datasheet 為準。

設計責任

理解 NVLink 後可以解釋兩個現象：為什麼資料中心多卡 LLM 推論能線性 scale（NVLink 頻寬足以做 tensor parallel）、為什麼消費級雙卡 RTX 推論縮放比通常低於線性（沒 NVLink、走 PCIe x4 / x8、卡間頻寬限制）。

選消費級 GPU 跑本地 LLM 時、NVLink 不是常見選項；多卡升級的判讀應該基於「能否容忍縮放比低於線性」、而不是預期 NVLink 等級的卡間頻寬。詳見 5.6 GPU 廠商差異。

OWASP LLM Top 10

Tue, 12 May 2026 00:00:00 +0000

OWASP LLM Top 10 的核心概念是「Open Worldwide Application Security Project 發布的 LLM 應用最常見 10 大資安風險清單」。2023 首發、2025 更新版是業界跟企業安全溝通的共同詞彙、是 production LLM 應用做 threat modeling 跟合規溝通的標準入口。

概念位置

2025 版的 10 項（簡述）：

編號	名稱	簡述
LLM01	Prompt Injection	把惡意指令藏進 LLM 會讀到的內容、間接影響模型行為
LLM02	Sensitive Information Disclosure	LLM 輸出洩漏訓練資料 / system prompt / PII
LLM03	Supply Chain	模型 / 訓練資料 / 工具 / dependency 供應鏈攻擊
LLM04	Data and Model Poisoning	訓練資料污染、模型行為被植入後門
LLM05	Improper Output Handling	LLM 輸出未驗證直接執行（XSS / SQLi / RCE）
LLM06	Excessive Agency	Agent 工具權限過大、副作用不可控
LLM07	System Prompt Leakage	System prompt 被使用者誘導露出
LLM08	Vector and Embedding Weaknesses	Vector DB / embedding pipeline 的攻擊面
LLM09	Misinformation	Hallucination / 過度信任 LLM 輸出
LLM10	Unbounded Consumption	Resource exhaustion / cost runaway（DoS / 燒錢）

跟模組六的 mapping

OWASP	模組六章節	補充
LLM01 Prompt Injection	6.3 IDE 場景 prompt injection	直接對應
LLM02 Sensitive Disclosure	6.4 跨雲端資料邊界	加 4.16 靜態 RAG 資安
LLM03 Supply Chain	6.0 模型供應鏈	直接對應
LLM04 Data/Model Poisoning	部分（限本地 dev、production 訓練屬 backend/07）	M6 cover 模型來源信任、不 cover 訓練毒化
LLM05 Improper Output	6.2 tool use 權限	直接對應
LLM06 Excessive Agency	6.2 + 4.4 agent 架構	跨原理 + 安全
LLM07 System Prompt Leakage	部分（4.17 coding agent harness）	M6 沒專章、屬 scaffold 設計
LLM08 Vector / Embedding	部分（4.1 RAG + 4.16 靜態 RAG 資安）	跨原理 + 應用
LLM09 Misinformation	hallucination 卡 + 4.21 LLM-as-judge	跨卡 + 應用
LLM10 Unbounded Consumption	部分（4.18 prompt caching + 4.16 靜態 RAG 資安 abuse）	M6 沒專章、屬 abuse 緩解

設計責任

讀企業 LLM 安全 / 合規文件 / vendor security audit 看到「OWASP LLM Top 10」就是這 framing。寫 code 場景的判讀：

跟企業溝通必備：安全 team / vendor audit 都用 OWASP 編號、能 map 自己應用到 LLM01-LLM10 就能 align 對話
不是 production 才需要看：個人 dev 也適用大部分（LLM01 prompt injection、LLM03 supply chain、LLM06 excessive agency 對個人都直接相關）
跟 6.6 OWASP 對照章節的關係：本卡是定義 + mapping、章節是詳細 mapping + 個人 dev 場景的對應 control

PCIe

Tue, 12 May 2026 00:00:00 +0000

PCIe（PCI Express）的核心概念是「PC 上 GPU 跟主機板（CPU + 系統 RAM）之間的高速序列匯流排」。獨立 GPU 場景下、模型權重從 SSD / 系統 RAM 走 PCIe 進 VRAM、之後推論主要在 GPU 內部完成；但 MoE CPU 卸載啟用時、每 token 都需要從系統 RAM 走 PCIe 拉部分權重、PCIe 頻寬開始影響推論吞吐。

概念位置

PCIe 在本地 LLM 推論的兩個階段角色不同：

模型載入階段：模型權重從 SSD → 系統 RAM → 走 PCIe → VRAM。PCIe 是常見瓶頸、影響「啟動時間」、不影響推論。
推論階段：
- 全載 VRAM 場景：權重已在 VRAM、推論時 PCIe 流量很少。
- MoE 卸載場景：每 token 從系統 RAM 拉專家權重經 PCIe、PCIe 頻寬成為次要瓶頸。

PCIe 版本跟頻寬（廠商標稱、單向）：

版本	x16 單向標稱頻寬
PCIe 4.0 x16	約 32 GB/s
PCIe 5.0 x16	約 64 GB/s
PCIe 6.0 x16	約 128 GB/s

實際傳輸吞吐受驅動、檔案系統、量化格式影響、通常低於規格上限。

事實查核註：PCIe 各版本的標稱頻寬數字以 PCI-SIG 官方規格為主、實際可達吞吐依硬體配置變化、引用前以對應版本的官方規格文件為準。

消費級主機板的 PCIe lane 分配常見「一條 x16 + 一條 x4」、加第二張 GPU 時、第二張的有效頻寬可能只有 x4、影響多卡縮放效益。詳見 5.3 llama.cpp 在 PC 上的多卡 tensor split 段落。

設計責任

理解 PCIe 後可以解釋三個現象：為什麼模型載入要等幾秒到十幾秒（PCIe 是橋）、為什麼單卡 + MoE 卸載通常不卡 PCIe（每 token 拉的權重量小於 PCIe 頻寬）、為什麼雙卡縮放比沒有直接翻倍（PCIe lane 跟主機板配置）。

選 PC 配置時、PCIe 版本影響模型載入體感、但對單人推論的生字速度通常影響小。多卡升級前要看主機板的 PCIe lane 分配。

Perplexity

Tue, 12 May 2026 00:00:00 +0000

Perplexity（困惑度）的核心概念是「cross-entropy 的指數形式」：perplexity = exp(cross-entropy)。直覺意義是「模型在每個位置平均覺得下個 token 有多少種候選」。perplexity = 1 表示模型完美預測；perplexity = vocab_size 表示模型純猜（vocab 上的 uniform 分佈）。

概念位置

Perplexity 跟 cross-entropy 的關係：

指標	公式 / 定義	人類直覺
Cross-entropy	`-mean(log p_true)`、底通常是 e	loss 數字、訓練拿來最佳化
Perplexity	`exp(cross-entropy)`	「平均看到幾種候選」、好讀

換算範例（base e）：

Cross-entropy	Perplexity	意義（極粗略直覺）
11	~60K	純隨機（vocab ≈ 128K 時）
5	~148	早期訓練
3	~20	中等訓練模型
2	~7.4	接近現代成熟 LLM 在文本上的表現
0	1	完美預測（不可能達到）

Perplexity 主要用於：

預訓練評估：在 held-out 語料上算 perplexity、衡量基礎建模能力。
量化品質衡量：fp16 vs Q4 vs Q3 模型的 perplexity 差異、看量化造成多少品質損失。
領域 benchmark：在特定領域語料（code、math、医學文獻）上算 perplexity、評估模型對該領域的熟悉度。

設計責任

Perplexity 是 base model 評估標準、但對 instruction-tuned / chat 模型用處有限（chat 模型輸出風格已偏離 raw text、perplexity 不一定降）。對寫 code 場景的判讀：看到 paper 報 perplexity 是評估 pretrain 品質的訊號、實際聊天 / coding 能力要看 SWE-bench、MMLU、HumanEval 等任務式 benchmark。

Port 與 Localhost

Tue, 12 May 2026 00:00:00 +0000

Port 與 Localhost 的核心概念是「網路 server 暴露在哪個地址、聽哪個 port、讓誰能連進來」。本地 LLM 場景中、Ollama 預設聽 127.0.0.1:11434、Continue.dev 等介面層透過這個地址呼叫 OpenAI 相容 API；理解 listen address 跟 port 的角色、才能判讀「為什麼 port 撞 / 為什麼 LAN 上另一台連不到 / 暴露到 internet 安全嗎」。

概念位置

完整的 server 入口由兩個欄位定義：

欄位	角色	範例值
Listen address	接受哪些網路介面送進來的封包	`127.0.0.1` / `0.0.0.0` / `192.168.x`
Port	OS 用來區分「同一台機器上哪個 server」	`11434` / `1234` / `8080`

Port 是 16 bit 數字（0 ~ 65535）、其中 0 ~ 1023 是 well-known port（HTTP 80、HTTPS 443 等、需 root 權限才能 bind）、1024 ~ 65535 是 user port、本地 LLM 工具都用這個區間（Ollama 11434、LM Studio 1234、llama.cpp 8080）。同一個 port 在同一個 listen address 上同時只能被一個 process 持有、要兩個 Ollama 並存就要其中一個換 port。

三個常見 listen address 的語意：

地址	等同名稱	接受誰的連線
`127.0.0.1`	`localhost`	只接受本機 process、外部裝置連不到
`0.0.0.0`	所有介面	接受任何網路介面送進來的封包、包含 LAN / VPN / public
`192.168.x`	特定 LAN 介面	只接受該 LAN 介面送進來的封包

可觀察訊號與例子

驗證 server 真的在聽預期地址：

1# macOS 下查誰佔了 11434
2lsof -i :11434
3# COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
4# ollama  1234 mac  6u IPv4 0xabcd      0t0 TCP localhost:11434 (LISTEN)

TCP localhost:11434 (LISTEN) 表示這個 process 只接 localhost 進來的封包。改 listen address 把 Ollama 暴露到 LAN：

1OLLAMA_HOST=0.0.0.0:11434 ollama serve
2# lsof 之後會看到 TCP *:11434 (LISTEN)、星號表示所有介面

curl 用不同 host 名稱呼叫同一個 server：

1curl http://localhost:11434/api/version    # 走 loopback、最快
2curl http://127.0.0.1:11434/api/version    # 跟上面等價
3curl http://<本機 LAN IP>:11434/api/version # 若 listen 在 0.0.0.0、會通；只 listen localhost 會 connection refused

「為什麼桌機跑 Ollama、筆電連不到」的最常見原因就是 Ollama 沒改 listen address、預設只接受 loopback。

設計責任

選 listen address 是信任邊界決定：

127.0.0.1（預設）：機器本身就是信任邊界、外部進不來、最安全
0.0.0.0 在家用 / 信任 LAN：把 server 暴露給同網路裝置、便於多裝置共用、風險可接受
0.0.0.0 在公共 Wi-Fi / 對 internet：等於對所有路過裝置開放、Ollama 沒有內建 auth、需要 SSH tunnel 或 reverse proxy + auth 才安全

Port 衝突的處理順序：用 lsof 確認佔用方身分 → 若是舊版自己 kill、若是別的服務改自己的 port → 同步更新 IDE plugin 的 apiBase。完整資料流判讀見 0.7 隱私資料流。

Pre-training

Tue, 12 May 2026 00:00:00 +0000

Pre-training（預訓練）的核心概念是「在大量未標註文字上、用 next-token prediction 當目標訓練一個語言模型」。產出的權重稱為 base model、是後續 SFT / RLHF 的起點。Pre-training 是 LLM 三階段訓練流程中最貴、最耗時、最決定模型上限的階段。

概念位置

Pre-training 在 LLM 訓練 pipeline 的位置：

1[網路文字 / 書籍 / code / 論文]（trillion token 級）
2 ↓ Pre-training（next-token prediction、cross-entropy loss）
3[Base model]：會接龍但不會對話
4 ↓ SFT（指令-回答對資料）
5[Instruction-tuned model]：會跟指令走
6 ↓ RLHF / DPO（人類偏好資料）
7[Aligned model]：對話風格 / 安全性對齊

Pre-training 的特性：

維度	典型數字（2026 年主流大模型）
資料量	數兆 token（Common Crawl、RefinedWeb、The Pile、Stack 等）
GPU 用量	數百到數萬張 H100 / B200、並行訓練
訓練時間	數週到數月
成本級別	數百萬到數億美元
Loss	Cross-entropy on next-token
結果	「會接龍」的 base model、可用 perplexity 評估

設計責任

理解 pre-training 後可以判讀幾件事：模型的「世界知識」絕大部分在 pre-training 時就決定了、SFT / RLHF 只是「教模型怎麼用這些知識回答」、不會大幅增加新知識；模型 cutoff date 就是 pre-training 資料的截止；想做新領域知識引入、RAG 比繼續 fine-tune 划算（pre-training 太貴、且 fine-tune 容易讓既有能力退化）。

Prefix Cache

Tue, 12 May 2026 00:00:00 +0000

Prefix Cache 的核心概念是「當多個請求共用相同的前綴 prompt（如同一 system prompt、同一 few-shot 範例）、把該前綴的 KV cache 算一次、後續請求共用、省下重複 prefill 算力」。是 production LLM 服務的常見優化、能大幅降低 latency 跟成本；但在多租戶場景下、跨租戶共用 prefix cache 是直接的隱私洩漏面。

概念位置

Prefix Cache 在推論流程中的角色：

1傳統推論：
2 Request A：system prompt + user A → 完整 prefill → 生成
3 Request B：system prompt + user B → 完整 prefill → 生成
4 ↑ 重複算 system prompt
5
6開啟 Prefix Cache：
7 Request A：system prompt + user A → prefill 整段、cache 共用 prefix
8 Request B：system prompt + user B → 重用 cache 的 system prefix + 只 prefill user B → 生成
9 ↑ 省下 system prompt 的 prefill 算力

效益對應的場景：

場景	效益
同 system prompt、不同 user message	prefill 算力大幅省
同 few-shot 例子、不同 query	prefill 算力大幅省
長 RAG context 共用、不同問題	prefill 算力大幅省
完全獨立的請求（無共用前綴）	無效益

主流推論引擎的支援度（依版本變化）：vLLM、SGLang、llama.cpp 等都有 prefix cache 機制、命名各異。

事實查核註：prefix cache 的命名、設定方式、tenant 隔離預設行為依推論引擎跟版本差異大、引用前以對應引擎的官方文件為準（如 vLLM Automatic Prefix Caching、SGLang RadixAttention 等）。

設計責任

理解 prefix cache 後可以解釋兩個現象：為什麼 production LLM 服務的 latency 在啟用 prefix cache 後大幅下降（system prompt 不再每次重算）、為什麼 prefix cache 在多租戶場景是隱私風險（A 租戶的 prefix 可能被 B 看到、見 llm-multi-tenant-isolation）。

production 設計時、prefix cache 應該按 tenant 分桶、同 tenant 內可共用、跨 tenant 必須隔離。隔離邊界對齊 tenant-boundary 卡片的設計。

Prompt Cache

Tue, 12 May 2026 00:00:00 +0000

Prompt cache 的核心概念是「LLM 服務端 / 推論伺服器把重複出現的 prompt prefix（如 system prompt + tool schema）的 KV cache 暫存起來、後續 query 跳過該 prefix 的 prefill 階段」。Anthropic / OpenAI / Bedrock / Gemini 都提供、最高 90% cost 折扣 + 13-31% TTFT 改善、是 coding agent / long-context 應用的核心 cost / latency 槓桿。

概念位置

跟既有 cache 概念的層次：

Cache 層	範圍	機制
KV cache	單一 conversation 的同一次推論	過去 token 的 K/V 暫存、autoregressive 才省重算
Prefix cache	多 request 共用 prefix（同 server 同 model）	跨 request 共用 KV cache、production 推論伺服器特性
Prompt cache（本卡）	跨 request 跨時間、雲端 LLM API 服務端	服務端把 prefix 的 KV cache 持久化、有 TTL

Prompt cache 的「保留範圍」跟「定價」是商業 LLM 的 product feature：

服務	Cache TTL	Write cost	Read cost	觸發方式
Anthropic（cache_control）	5min 預設、1h ext	1.25× 原價	0.1× 原價（90% 折扣）	明確 cache_control breakpoint
OpenAI	自動（隱式）	同原價	0.5× 原價（50% 折扣）	自動偵測重複 prefix（> 1024 token）
Bedrock（Anthropic）	5min	同 Anthropic	同上	同 Anthropic
Gemini	自動 + explicit	視方案	視方案	implicit + context caching API

事實查核註：定價跟 TTL 隨時間更新、引用前以對應 vendor 當前文件為準。

設計責任

讀 LLM API docs / coding agent 設計 / cost optimization blog 看到「prompt cache」「context caching」「cache_control」就是這機制。寫 code 場景的判讀：

誰最值得開：coding agent（system prompt + tool schema 經常 > 10K token、每 turn 重用）、long-context RAG（檢索 chunks 重用）、long conversation（history 累積）
設計原則：把不變的內容（system prompt、tool schema、固定文件）放 prefix；變動的（user query、最新 file content）放後面
常見 anti-pattern：在 prefix 插入 timestamp / user-id / request-id → 每次 prefix 不同 → cache 從不命中、付 1.25× write cost 沒得回本
5 分鐘 TTL 的意涵：query 之間間隔 > 5 分鐘、cache 已 expire、要 1h ext TTL 才能撐長對話
跟 context budget 的關係：cache 攤平 scaffold 部分的 cost、所以可以放寬「scaffold ≤ 25%」的成本顧慮、focus 在「不超 context limit」即可

Prompt Injection

Tue, 12 May 2026 00:00:00 +0000

Prompt injection 的核心概念是「攻擊者把惡意指令藏進 LLM 會讀到的內容（檔案、網頁、issue、tool 回傳）、誘導 LLM 忽略原本的 system prompt、改執行攻擊者意圖的動作」。OWASP LLM Top 10 把它列為 LLM01、是 LLM application 安全的頭號威脅。

概念位置

Prompt injection 的兩種主要形態：

形態	描述	個人 dev 場景的觸發路徑
Direct injection	使用者自己 prompt 內含惡意指令	較少發生、主要是測試場景
Indirect injection	LLM 讀到的別人內容含惡意指令	主要威脅形態

Indirect injection 的常見入口：

檔案內容：codebase 中的 README、依賴的 package README、PDF / Word 文件
Web 內容：tool 抓的網頁、社群留言、PR 描述
tool 回傳結果：DB 查詢結果、API response、其他 service 回傳
使用者貼上內容：從外部複製貼上、帶進惡意 prompt
agent 自我循環中累積：sub-agent 回傳、長 agent loop 中前段 injection 影響後段

事實查核註：prompt injection 的攻擊形態跟研究進展快速演進、本卡描述參考 OWASP LLM Top 10 LLM01 跟 Greshake et al. 的「Indirect Prompt Injection」論文、引用前以對應的最新版本為準。

實際造成影響的不是 injection 本身、是 LLM 輸出後的下游動作：

1injection → LLM 輸出 → 下游動作（這裡才是真正攻擊面）
2 ├── 使用者照建議貼到 shell 跑
3 ├── tool use 自動執行
4 ├── 寫進 commit / 文件
5 └── 觸發下一個 agent

設計責任

理解 prompt injection 後可以解釋兩個現象：為什麼「擋住 injection」對 production LLM application 是不切實際的目標（外部內容會持續引入）、為什麼防禦重點應該放在「下游動作的可逆性 + review checkpoint」（injection 不可完全擋住、但後果可以收斂）。

防禦設計的層次：

降低觸發率：明確標記 untrusted 內容、強化模型對齊（vendor 端責任）。
限制能力上限：tool use 白名單、副作用可逆性、agent loop 步數限制。
後果可控：人為 review checkpoint、自動偵測異常（見 LLM Service 偵測訊號覆蓋）。

詳見 6.3 IDE 場景的 prompt injection 跟 LLM Agent Prompt Injection 後果治理。

QLoRA

Tue, 12 May 2026 00:00:00 +0000

QLoRA（Quantized LoRA、Dettmers et al., 2023）的核心概念是「把 base model 量化到 4-bit（凍住）+ 用 LoRA 訓兩個小矩陣」。讓消費級 GPU（24GB VRAM）就能 fine-tune 30B-70B 模型、是現代 local fine-tuning 主流。

概念位置

QLoRA vs full fine-tuning vs LoRA 的記憶體需求對比（70B 模型）：

方法	Base model 精度	訓練記憶體	適合硬體
Full fine-tuning	BF16	~280 GB	多卡 H100
LoRA	BF16	~150 GB	多卡 A100 / H100
QLoRA	4-bit (NF4)	~40 GB	單張 A100 80GB / 雙 24GB GPU
QLoRA on 7B	4-bit	~6-8 GB	消費級 16GB+ GPU
QLoRA on 30-32B	4-bit	~20-24 GB	消費級 24GB+ GPU（5090）

QLoRA 的核心創新（簡化）：

4-bit NormalFloat（NF4）量化：base model 用 4-bit 表示、精度損失低於原 INT4
Double quantization：量化常數本身也量化、再省一點記憶體
Paged optimizer：optimizer state 跑 CPU offload、避免訓練 spike OOM
LoRA on 4-bit base：LoRA 訓的 A、B 矩陣仍是 BF16、只有 base 是 4-bit、推論時 dequantize → 加 LoRA → forward

設計責任

讀 fine-tuning 教學 / Hugging Face PEFT 文件看到「QLoRA」「bnb-4bit」就是這方法。寫 code 場景的判讀：

想 fine-tune 大模型在消費級硬體：QLoRA 是 default 選擇（不用 QLoRA、就只能訓 < 7B）
記憶體預算估算：QLoRA 訓 N B 模型約需 0.6 × N GB VRAM（30B → ~18GB、70B → ~42GB）
品質 vs full fine-tune 差距：QLoRA 後合併權重的模型、實測跟 full fine-tune 接近（差距 < 2-3%）、對多數場景可接受
跟 LoRA 卡片區分：純 LoRA 是「base 不量化、訓 LoRA」、QLoRA 是「base 量化 4-bit、訓 LoRA」；QLoRA 是 LoRA 的延伸、不是替代
推論時的選擇：QLoRA fine-tuned 模型可以「base 仍 4-bit + 載入 LoRA adapter」推論、記憶體用量低；也可以 merge 後用 GGUF Q4_K_M、跟 base 原相同

Reasoning Model

Tue, 12 May 2026 00:00:00 +0000

Reasoning model 的核心概念是「透過後訓練（多半是 RL）讓模型自然在回答前產出長 chain-of-thought reasoning trace 的 LLM 變體」。代表是 OpenAI o1 / o3、DeepSeek-R1、Qwen-QwQ、Claude 3.7 Sonnet thinking 等。Reasoning model 是 2024-2026 LLM 的最大 paradigm shift、把 test-time compute 變成可訓練、可 scale 的維度。

概念位置

Reasoning model 跟一般 instruction-tuned model 的差異：

維度	Instruction-tuned model（如 Gemma 4 instruct）	Reasoning model（如 DeepSeek-R1）
訓練後階段	SFT + RLHF / DPO	SFT + RLHF + reasoning RL
推論行為	直接答（或短 CoT）	先生 reasoning trace（數百到數千 token）再答
適合任務	對話、寫作、簡單 coding、查詢	math、debug、algorithm、複雜 reasoning
Token 消耗	直接生答案 token	reasoning trace 通常 5-50× 於最終答案
推論成本	1×	5-20×（依任務難度）
Context 需求	一般	較大（要容納 reasoning trace）

主流 reasoning model 比較（2026/5）：

模型	開源 / 商業	推理 trace 格式	本地跑可行性
OpenAI o1 / o3	商業 API	對使用者隱藏	不可
DeepSeek-R1（full）	開源	`<think>...</think>` 標記	671B 太大、本地不實際
DeepSeek-R1 distill	開源	同上	7B / 14B / 32B distill 可在 24-48GB Mac 跑
Qwen-QwQ	開源	純文字 reasoning（無特殊 token）	32B 可在 64GB+ Mac 跑
Claude 3.7 Sonnet thinking	商業 API	extended thinking field	不可
Gemini 2.5 Flash thinking	商業 API	thinking field	不可

設計責任

讀 model card / paper 看到「reasoning」「thinking」「test-time compute」「R1-style」就是這個 family。寫 code 場景的判讀：

本地用 distill 版本是合理起點：DeepSeek-R1-Distill-Qwen-32B、QwQ-32B 等是「正常 32B 模型 + reasoning 後訓練」的產物、跑得起來
適合的任務：debug 複雜 bug、算 algorithm complexity、設計 multi-step refactor、解 leetcode hard
不適合的任務：autocomplete（reasoning trace 拉長 TTFT、體感變慢）、簡單 docstring 補完、純文字翻譯
混用策略：日常用 instruction-tuned model（如 Gemma 4 31B、Qwen3-Coder）+ 複雜任務切到本地 reasoning model（如 QwQ-32B）+ 真正困難任務切雲端 o1 / R1 full
記憶體預算：reasoning model 本身大小跟對應 instruct model 相當、但要預留更大 KV cache 給長 reasoning trace（context 通常開 32K+）

Refusal Rate

Tue, 12 May 2026 00:00:00 +0000

Refusal rate 的核心概念是「LLM 拒絕回答 prompt 的比例」。LLM 在訓練階段（特別是 RLHF）會學到「對特定類型的請求說『我不能幫忙這個』」、production 服務通常會監控這個比例作為對齊強度跟異常行為偵測的訊號之一。

概念位置

Refusal 行為的典型形態：

形態	例子
安全相關拒絕	“Sorry, I can’t help with that request.”
政策相關拒絕	“I’m not able to discuss specific medical advice.”
能力相關拒絕	“I don’t have real-time data access.”
模糊拒絕（soft refusal）	“That’s an interesting question, but…”

Refusal rate 作為偵測訊號的兩個方向：

率突然下降：可能是對齊被繞過、prompt injection 攻擊在進行、或新版本模型對齊變弱。
率突然上升：可能是訓練資料或對齊政策變嚴、影響使用者體驗、或 vendor 端政策調整。

實作上、偵測 refusal 通常用簡單 pattern matching（看是否含 “I can’t” / “I’m not able” / “Sorry” 等）或更精確的 classifier；具體實作依偵測平台設計。

事實查核註：refusal rate 的標準化測量方式、跟「對齊強度」的對應關係仍在研究演進、不同 vendor 跟 model 的 baseline 差異大、引用前以對應模型的 model card 跟最新研究為準。

設計責任

理解 refusal rate 後可以解釋兩個現象：為什麼 production LLM 服務監控 refusal rate（變化是異常訊號）、為什麼開源模型的 refusal rate 通常低於商業旗艦（前者 safety RLHF 投入較少）。

production 設計時、refusal rate 是 content 層偵測訊號之一、需配合 tool call 序列、token usage、prompt pattern 等其他訊號才能形成完整偵測覆蓋。詳見 LLM Service 偵測訊號覆蓋。

Reranker

Tue, 12 May 2026 00:00:00 +0000

Reranker 的核心概念是「對 retrieval 第一階段拿到的 top-K（如 50）結果、用 cross-encoder 模型重新評分、排出 top-N（如 5）給 LLM」。是 RAG 第二階段、補 bi-encoder（embedding model）對 query-document gap 的細粒度匹配不足、品質提升明顯（recall@5 通常 +10-30%）但成本 / latency 增加。

概念位置

Bi-encoder vs cross-encoder 的差別：

1Bi-encoder（embedding model、retrieval 第一階段）：
2 query → embedding A
3 document → embedding B（pre-compute、存 vector DB）
4 score = cosine(A, B)
5 → 快、可 pre-compute、適合海量 retrieval
6
7Cross-encoder（reranker、retrieval 第二階段）：
8 (query, document) 一起進模型 → 直接輸出 relevance score
9 → 慢（每對都要 forward pass）、不可 pre-compute、適合 top-K rerank

主流 reranker：

Reranker	類型	適合場景
Cohere Rerank 3	SaaS API	Production 高品質、多語
Jina Reranker v2	開源	開源、多語
BGE Reranker（bge-reranker-v2-m3）	開源	開源中文友善
Voyage rerank-2	SaaS API	跟 voyage embedding 配對
ColBERT v2	Late interaction	介於 bi 跟 cross encoder

設計責任

讀 RAG / production retrieval docs 看到「reranker」「cross-encoder」「rerank stage」就是這 framing。寫 code 場景的判讀：

何時值得加 reranker：retrieval 結果有「相關但不精確」問題、top-K hit rate 高但 top-5 hit rate 低、有 latency / cost budget
何時不需要：小語料（< 1000 docs、retrieval 已準）、明確 keyword 任務（BM25 已準）、latency 敏感（< 100ms TTFT）
Pipeline 設計：bi-encoder retrieve top-50 → reranker rerank → 給 LLM top-5；50/5 是常見起點、看實測調
跟 hybrid search 結合：BM25 + embedding hybrid retrieve top-50 → reranker rerank → LLM、是 production RAG 標配
跟 4.1 RAG 章節的關係：本卡是定義、章節是 retrieval pipeline 設計（含 reranker / hybrid 段）

Residual Connection

Tue, 12 May 2026 00:00:00 +0000

Residual connection（殘差連接、skip connection）的核心概念是「把 layer 的輸入直接加到輸出上」、形式是 output = layer(x) + x。這個簡單加法解決了深層網路的訓練退化問題：沒有 residual、模型加深會反而變差（不是過擬合、是 gradient 在反向傳播中衰減太多）；有 residual、訓練幾十甚至上百層都穩。

概念位置

Residual connection 在 Transformer block 中出現兩次：

 1Transformer block：
 2 x
 3 ├──────────────┐ ← skip connection（保留原始 x）
 4 ↓ │
 5 LayerNorm │
 6 ↓ │
 7 Self-Attention │
 8 ↓ │
 9 +←─────────────┘ ← residual add：attention output + x
10 │
11 ├──────────────┐ ← skip connection（保留 attention 後的值）
12 ↓ │
13 LayerNorm │
14 ↓ │
15 FFN │
16 ↓ │
17 +←─────────────┘ ← residual add：FFN output + previous
18 ↓
19 進入下一個 block

關鍵性質：

Gradient 可以走捷徑：Backpropagation 時、gradient 能透過 skip connection 直接傳回淺層、避免 chain rule 累積衰減。
Layer 學「殘差」而不是「完整轉換」：每層學「該怎麼微調輸入」、不用學「從零生成輸出」、優化更容易。
跟 LayerNorm 配對：兩者一起是深層 Transformer 訓得起來的基礎。

設計責任

理解 residual connection 後可以判讀 Transformer 能堆幾十層的根本原因（不是因為 attention、是因為 residual + LayerNorm 讓深層仍可訓練）；也能看懂 ResNet、ViT 等其他用 residual 架構的設計。LLM 推論時 residual 不算 bottleneck、但在訓練 / fine-tune 時、residual 是 gradient flow 健康度的關鍵。

RLHF

Tue, 12 May 2026 00:00:00 +0000

RLHF（Reinforcement Learning from Human Feedback、人類反饋強化學習）的核心概念是「讓人類比較兩個模型回答的好壞、訓一個 reward model 學會這個偏好、再用 RL 把 LLM 推往 reward model 給高分的方向」。RLHF 是 LLM 對話品質飛躍的關鍵（從 GPT-3 base 到 ChatGPT 的差別主要是 RLHF）。

概念位置

RLHF 在訓練流程的位置與步驟：

 1[SFT 後的模型]
 2 ↓
 3Step 1：收集人類偏好
 4 對同個 prompt 讓模型生 A、B 兩個 response、人類標「我較喜歡 A」
 5 ↓
 6Step 2：訓 reward model
 7 輸入 (prompt, response)、輸出一個分數
 8 目標：人類偏好的 response 分數高
 9 ↓
10Step 3：用 PPO 等 RL 演算法 fine-tune LLM
11 讓模型輸出讓 reward model 給高分的 response
12 加 [KL constraint](/llm/knowledge-cards/kl-divergence/)：不能偏離 SFT model 太遠
13 ↓
14[Aligned model]：回答更貼近人類偏好

關鍵特性與挑戰：

三個模型同時運作：policy（LLM）、reward model、reference model（SFT 後 frozen 那份）、訓練時記憶體吃緊。
Reward hacking：模型可能找到 reward model 的弱點、生成「reward 高但實質爛」的輸出（如冗長 boilerplate）。
訓練不穩：PPO 對 hyperparameter 敏感、需要小心調 β（KL 約束強度）、learning rate 等。

設計責任

RLHF 是 ChatGPT / Claude / Gemini 等商業 LLM 對話品質的核心。讀 model card 看到「RLHF-tuned」「helpfulness fine-tuning」就是這個階段。DPO 是 2023 年後出現的簡化替代方案、跳過 reward model、直接用偏好資料 fine-tune、訓練流程簡單很多、是現代許多開源模型的主流選擇。

RoPE（Rotary Position Embedding）

Tue, 12 May 2026 00:00:00 +0000

RoPE（Rotary Position Embedding、旋轉位置編碼、Su et al., 2021）的核心概念是「把 token 在序列中的位置資訊用旋轉矩陣直接旋轉進 Q 跟 K 向量裡、不是用加法疊加另一個 embedding」。RoPE 是 Llama、Gemma、Qwen、Mistral 等現代 LLM 的標配、相對早期的 absolute / learned positional embedding 有更好的長 context 推廣性。

概念位置

位置編碼的演化路線：

方法	機制	主要問題
Absolute（原 Transformer）	用 sin/cos 函數產生固定 position embedding、加到 token embedding	訓練長度外推性差
Learned absolute（GPT-2）	每個位置學一個可訓練向量、加到 token embedding	超過訓練長度完全沒對應 embedding
Relative	attention 算分數時加上「相對位置」的 bias	實作複雜、跟 KV cache 兼容性差
RoPE	用旋轉矩陣把位置旋轉進 Q/K（不動 V）	主流、長 context 推廣性好（配 scaling）

RoPE 的核心數學（簡化）：

1傳統：token at position m 的 Q 是 Q_m = x_m @ W_Q
2RoPE：Q_m = R(m) × (x_m @ W_Q) ← R(m) 是依位置 m 決定的旋轉矩陣
3
4attention score = Q_m @ K_n^T
5 = R(m) × q × (R(n) × k)^T
6 = q × R(m - n) × k^T ← 只依賴相對位置 (m-n)！

關鍵性質：RoPE 算出的 attention score 只依賴相對位置、所以推廣到比訓練長度更長的 context 時有自然的數學基礎、配合 RoPE scaling（YaRN、NTK-aware、Position Interpolation）就能把 8K 訓練的模型擴展到 128K / 1M context。

設計責任

讀 model card 看到 rope_theta: 10000、rope_scaling: {type: yarn, factor: 8} 等就是 RoPE 配置。寫 code 場景的意涵：long context 模型（如 Llama 3 128K）的推廣能力主要靠 RoPE + scaling、不是直接訓練 128K 全長；但聲稱 context 跟「實用 context」仍有差距、長 context 上模型表現會逐步衰減。

Sandbox

Tue, 12 May 2026 00:00:00 +0000

Sandbox 的核心概念是「把程式跑在權限受限的隔離環境、限制檔案存取、網路連線、系統呼叫的範圍」。在 LLM 場景下、sandbox 用來控制 tool use 跟 MCP server 的副作用範圍：即使 LLM 被 prompt injection 誘導跑惡意 tool、sandbox 能限制最壞情況的影響面。

概念位置

常見的 sandbox 技術光譜（依隔離強度跟工程成本）：

技術	隔離強度	工程成本	LLM 場景的典型用途
不同 OS user	中（檔案權限）	低	個人 dev 跑 MCP server
Docker container	中高	中	跑第三方 MCP server、隔離 LLM agent
VM / Firecracker / gVisor	高	中高	production 多租戶 LLM agent
chroot / namespace	中	中	限定 filesystem 視角
seccomp / AppArmor / SELinux	高（syscall 層）	高	細粒度限制 syscall
Web Worker / V8 isolate	中（JavaScript 層）	中	LLM 跑 user-provided JavaScript

Sandbox 在 LLM 場景的常見配置：

個人 dev：用獨立 OS user 跑 MCP server、限制檔案存取到 workspace；或用 Docker。
production agent：每個 user / session 一個 ephemeral container、跑完就 destroy。
code execution tool：把 LLM 生成的 code 丟進 sandbox 跑（如 OpenAI Code Interpreter、Anthropic Claude Code Tool）。

設計責任

理解 sandbox 後可以解釋兩個現象：為什麼跑第三方 MCP server 前 sandbox 是基本配置（MCP 是可執行程式碼、權限上限是「跑該 server 的 user 的權限」）、為什麼 production 場景的 code execution tool 必定在 ephemeral sandbox 內跑（避免長期 state 跟跨 user 殘留）。

設計 LLM application 時、sandbox 跟 tool use 的白名單是兩個獨立的防護層、建議都做：白名單擋已知範圍、sandbox 擋未預期的副作用。詳見 6.2 tool use 與 MCP server 的權限模型。

Scaffold vs Harness

Tue, 12 May 2026 00:00:00 +0000

Scaffold 跟 harness 的核心概念是「把 coding agent 拆成『建構時靜態結構』跟『runtime 動態邏輯』兩層」。Scaffold 是建構時就決定的：system prompt 模板、tool schema 註冊、subagent 拓樸；harness 是 runtime 動態運作：tool dispatch、context budget 管理、safety / 中斷、handoff。Claude Code、Cursor、Aider、Codex 這類 coding agent 的內部設計都遵循這個分層。

概念位置

兩層的職責劃分：

 1Scaffold（建構時、static）：
 2  ├── System prompt 模板（角色、約束、輸出格式）
 3  ├── Tool schema 註冊（read_file / write_file / run_bash 等的 spec）
 4  ├── Subagent 拓樸（main agent + 子 agent 的調用關係）
 5  ├── Skill / playbook 註冊
 6  └── 安全 policy（什麼可寫、什麼要 confirm）
 7
 8   ↓ 編譯 / 載入
 9
10Harness（runtime、dynamic）：
11  ├── Tool dispatch（接 LLM tool call、執行、回 result）
12  ├── Context budget 管理（剪裁歷史、塞新內容、不超 25% 規則）
13  ├── Safety / 中斷（confirm UI、permission boundary、可逆性檢查）
14  ├── Error recovery（tool failed → retry / fallback / escalate）
15  └── Telemetry（trace / metrics / cost）

跟既有概念的關係：

概念	跟 scaffold / harness 的關係
System prompt	Scaffold 的核心元件、定義 agent 角色
Tool use	Scaffold 註冊 tool spec、Harness 在 runtime dispatch
Agent loop	Harness 的核心 loop（perceive / reason / act / observe / terminate）
Function calling	Tool spec 的具體 protocol

設計責任

讀 coding agent paper / blog 看到「scaffold」「harness」「context engineering」就是這 framing。寫 code 場景的判讀：

看新 coding agent 時、分兩層拆解：scaffold（system prompt、tool list、subagent 結構）是「設計做了什麼」、harness（context 怎麼裁、tool 怎麼 dispatch、安全怎麼擋）是「runtime 怎麼跑」
修改 / 客製 agent 時、看你動的是哪層：改 system prompt = 動 scaffold；改 tool 執行邏輯 = 動 harness
跟 4.17 coding-agent harness 的關係：本卡是定義、4.12 是 coding 場景的工程實務（context budget、scaffold 模式、harness pattern）

Self-Attention

Tue, 12 May 2026 00:00:00 +0000

Self-attention 的核心概念是「Query / Key / Value 三組向量都從同一個 sequence 投影出來的 attention」。對比下、cross-attention 的 Q 來自一個 sequence、K/V 來自另一個 sequence（如 encoder-decoder 的 decoder 看 encoder）。LLM（decoder-only）每層都是 self-attention、self-attention 是 Transformer 「讓每個 token 看到序列其他 token」的機制本身。

概念位置

Self-attention 的計算步驟：

 1輸入 sequence: x_1, x_2, ..., x_n（每個是向量）
 2
 3對每個 token i：
 4 Q_i = x_i × W_Q ← Query：「我要找什麼樣的資訊」
 5 K_i = x_i × W_K ← Key：「我提供什麼樣的資訊」
 6 V_i = x_i × W_V ← Value：「我的實際內容」
 7
 8attention(Q_i, K, V) = softmax(Q_i · K^T / √d) · V
 9 └─ Q 跟所有 K 算分數、決定權重 ─┘
10 └─ 加權平均所有 V ─┘

關鍵特性：

Q / K / V 來源相同：跟 cross-attention 區分；都從同一個輸入 sequence 投影。
每個 token 都跟所有 token 算一次：複雜度 O(n²)、是 long context 痛點根源。
Causal mask 在 self-attention 內生效：LLM 的 decoder-only self-attention 加 causal mask、token i 只能看 1~i、不能看 i+1 以後（不能偷看未來）。

設計責任

理解 self-attention 後可以判讀幾件 LLM 設計事：KV cache 為什麼有效（自回歸生成時、過去 token 的 K/V 不變、存下來下次直接用）；MHA / GQA / MLA 等變體在動什麼（共享 / 壓縮 K/V 投影、不動 Q）；為什麼長 context 推論慢（self-attention 的 O(n²) 計算）。

SentencePiece

Tue, 12 May 2026 00:00:00 +0000

SentencePiece（Kudo & Richardson, 2018）的核心概念是「Google 開源的 tokenization 框架、把『空白也當一個字元』處理、原生支援 BPE 跟 unigram 兩種演算法」。Llama、Gemma、Mistral、T5 等模型用 SentencePiece 作為 tokenizer 實作；它的 multilingual 友善度跟「不依賴語言預處理」是被選擇的主因。

概念位置

SentencePiece 跟其他 tokenization 路線的對比：

框架 / 路線	機制	處理多語言 / 空白	出現在
WordPiece	類似 BPE、Google 早期方案	需語言預處理（如英文 lowercase）	BERT、DistilBERT
SentencePiece BPE	BPE 演算法、空白當特殊字符 `▁` 處理	統一處理、不需語言預設	Llama、Gemma、Mistral
SentencePiece Unigram	機率模型、選一組讓 corpus likelihood 最大的子詞	同上、機率視角	T5、XLNet、ALBERT
tiktoken（OpenAI）	Byte-level BPE	統一處理	GPT-3.5、GPT-4、GPT-5

關鍵特性：

▁ 表示空白：SentencePiece 把空白編碼成 ▁（Unicode U+2581）、所以「Hello world」會被 tokenize 成 ["Hello", "▁world"]、保留空白資訊在 token 內。
不依賴語言預處理：傳統 NLP 要先做 lowercasing、word segmentation；SentencePiece 直接從 raw bytes 開始學、跨語言通用。
原生 multilingual：訓練 corpus 包含多語言時、tokenizer 自動學會跨語言的子詞單元、不需要為每種語言設定不同 tokenizer。

設計責任

讀 model card / repo 看到 tokenizer.model 檔案（不是 tokenizer.json 或 vocab.txt）就是 SentencePiece 用的 protobuf 格式。寫 code 場景的意涵：SentencePiece tokenizer 在中文 / 多語言任務上比 WordPiece 友好；換 tokenizer 等於整個 embedding layer 失效、所以 fine-tune 時不會動 tokenizer。

SFT（Supervised Fine-Tuning）

Tue, 12 May 2026 00:00:00 +0000

SFT（Supervised Fine-Tuning、指令微調）的核心概念是「在 base model 上、用人類示範的『指令-回答』成對資料做監督式 fine-tune、讓模型從『接龍』變成『跟指令走』」。SFT 是 pre-training 跟 alignment（RLHF / DPO）之間的橋。

概念位置

SFT 在訓練 pipeline 的位置與資料形態：

1資料格式（典型）：
2 {"instruction": "寫一個 Python fibonacci",
3 "response": "def fib(n): ..."}
4
5訓練：
6 把 instruction + response 連起來、跑跟 pre-training 一樣的 next-token prediction
7 但 loss 只算 response token 上的 cross-entropy（instruction 部分不算）

SFT 後同一個模型行為大改：

問同樣問題「寫一個 Python fibonacci」	Base model（pre-training 後）	Instruction-tuned model（SFT 後）
行為	純文字接龍：「寫一個 Python fibonacci。寫一個 JavaScript fibonacci。寫一個 Rust…」	直接給出 fibonacci 函式實作

關鍵特性：

資料量遠小於 pre-training：幾萬到幾百萬筆指令-回答對、相對 pre-training 的兆級 token 是小數字。
訓練成本相對低：通常幾百到幾千 GPU-hour、可在單機完成。
容易過擬合 / 災難遺忘：SFT 資料太少 / 太特化時、模型可能丟掉 pre-training 學到的能力、見 LoRA 的設計動機。

設計責任

讀 model card 看到「instruct」「chat」「-it」「sft」等 suffix、就是經過 SFT 的版本。寫 code 場景用的模型幾乎都是 SFT 後的（base model 對話能力差、實用度低）。Coding-tuned 模型（如 Qwen3-Coder）是 SFT 階段大量加入 code 對話資料的特化版本、跟通用 instruct 模型在 code 任務上有可觀差距。

SGD

Tue, 12 May 2026 00:00:00 +0000

SGD（Stochastic Gradient Descent、隨機梯度下降）的核心概念是「每次只用一小批資料（mini-batch）算 gradient、更新權重」。對比的是 vanilla gradient descent（用全部資料算一次 gradient）：full-batch 在 trillion-token 級資料下完全不可行、SGD 用 mini-batch 把記憶體跟計算成本拉到可行範圍。

概念位置

SGD 的更新公式：

1W_new = W_old - learning_rate × gradient_of_loss_on_minibatch

跟其他 optimizer 的對比：

Optimizer	更新規則	特性
SGD	`W -= lr × g`	簡單、慢、容易卡 local minimum
SGD + Momentum	加速度項：`v = μv + g; W -= lr × v`	衝過 saddle point、收斂較穩
Adam / AdamW	對每個參數自適應 lr、用 gradient 的 EMA 跟二階矩	對 lr 較不敏感、LLM 訓練主流

LLM 訓練幾乎都用 Adam / AdamW、不是純 SGD。但 SGD 仍出現在：

小模型 / 簡單任務：fine-tune 小 vision 模型、SGD + momentum 仍是合理選擇。
理論分析 / 教學：SGD 是最簡單的 optimizer、用來解釋 gradient descent 概念。
某些 fine-tuning 場景：LoRA 或 SFT 偶爾用 SGD（避免 Adam 改變 base model 太多）。

設計責任

讀 paper / training script 看到 optimizer 選擇、SGD 是基線、其他 optimizer 通常是「對 SGD 的改進」。寫 code 場景的判讀：訓練自己的小模型可以從 SGD + momentum 開始；fine-tune 大 LLM 沒理由不用 AdamW。

Shell 背景 Process

Tue, 12 May 2026 00:00:00 +0000

Shell 背景 Process 的核心概念是「terminal 啟動的程式何時跟 shell 綁定、何時可以脫離、被 shell 用什麼方式管理」。本地 LLM 場景中、ollama serve 這類常駐 server 需要持續跑、放前景會把 terminal 卡住、放背景才能繼續打其他指令、或關掉 terminal 後讓服務改交給 launchd service 接手。

概念位置

Shell（zsh / bash）執行一個程式時、預設讓程式佔住 terminal、stdin / stdout / stderr 直接連到使用者眼前的視窗、稱為前景 process。指令尾巴加 & 改成背景 process、shell 立刻拿回 prompt 控制權、程式繼續跑但不佔住 terminal。背景 process 仍綁在當前 shell session、關掉 terminal 視窗時通常會被 SIGHUP 終止；要完全脫離 shell 生命週期、得改用 launchd service 或 nohup / disown 等機制。

可觀察訊號與例子

shell 控制 process 的關鍵操作：

動作	指令 / 按鍵	效果
前景跑	`ollama serve`	terminal 被卡住、看到 process stdout
背景跑	`ollama serve &`	拿回 prompt、程式仍在跑
中止前景 process	`Ctrl+C`	送 SIGINT、多數程式收到後優雅退出
暫停前景 process	`Ctrl+Z`	送 SIGTSTP、process 進 stopped 狀態
列出當前 shell jobs	`jobs`	看 shell 管理的背景 / 暫停 job
把 job 拉回前景	`fg %1`	1 號 job 變前景
把暫停 job 改背景	`bg %1`	1 號 job 改背景繼續跑

排錯常用的兩個工具（兩者跟 shell job 不直接相關、是 macOS 系統工具）：

指令	用途
`lsof -i :11434`	找出哪個 process 在聽 11434 port
`pkill -f "ollama serve"`	用 pattern 匹配 process 命令列、送 SIGTERM 終止
`ps aux \| grep ollama`	列出所有跟 ollama 有關的 process

對 macOS 新手最常遇到的兩個事故：一個是「前景跑 server 後不知道怎麼脫身」、解法是 Ctrl+Z 暫停 + bg 改背景、或下次改用 & 啟動；另一個是「pkill 沒指定夠精確的 pattern、誤殺其他 process」、解法是先用 ps aux 加 grep 確認 PID 再 kill。

設計責任

選前景 vs 背景的判讀：debug 場景前景跑、能直接看到 log；日常使用改 launchd service 跑、跟 shell session 完全脫鉤。& 適合「terminal 開著就讓它跑、關掉也沒關係」的臨時場景、不適合需要長期穩定的服務。排錯時養成「先 lsof 找誰佔資源、再 ps 確認身分、最後才 kill」的順序、避免誤殺。

Softmax

Tue, 12 May 2026 00:00:00 +0000

Softmax 的核心概念是「把一串實數轉成機率分佈」。公式是 softmax(x_i) = exp(x_i) / sum(exp(x_j))、輸出總和為 1、每個值 ∈ [0, 1]。它是 LLM 兩個關鍵環節的常駐元件：attention 的權重計算、跟 sampling 階段把 logit 轉成「下個 token 的機率分佈」。

概念位置

LLM 中 softmax 出現的兩個位置：

1位置 1：Attention 內部
2 Q · K^T → 一堆 score
3 softmax(scores) → attention weight（總和 1）
4 weight · V → output
5
6位置 2：每次 token 生成的最後一步
7 最後一層 hidden → logit（每個 vocab token 一個實數分數）
8 softmax(logits / temperature) → 機率分佈
9 從這個分佈 sample 出下一個 token

兩個位置的關鍵差異：

位置	softmax 的作用	影響
Attention	把 attention score 正規化成「該關注多少」	影響模型怎麼整合 context 資訊
Sampling 端	把 logit 變機率、配合 temperature 調分佈陡度	影響輸出的多樣性 / 確定性

Temperature 在 sampling 端跟 softmax 結合：softmax(logits / T)、T 越小分佈越尖（接近 greedy）、T 越大分佈越平（接近隨機）。

設計責任

理解 softmax 後可以判讀幾件事：temperature 為什麼影響輸出多樣性（改的是 softmax 前的縮放）、為什麼 logit bias / logit warping 等技巧能控制輸出（直接動 softmax 的輸入）、為什麼 structured output 的 grammar-constrained sampling 是「把不合法 token 的機率歸零」（在 softmax 後或前做 masking）。

Special Tokens

Tue, 12 May 2026 00:00:00 +0000

Special tokens（特殊 token）的核心概念是「在 vocab 中保留給控制 / 邊界 / 結構用途的 token」、不是正常字面意義的詞。常見如 <bos>（begin of sequence）、<eos>（end of sequence）、<pad>（padding）、<|user|>、<|assistant|>、<|tool_call|> 等。

概念位置

LLM 中 special tokens 的常見類型：

Token	用途	範例
`<bos>` / `<s>`	序列開頭	Llama、Mistral
`<eos>` / `</s>`	序列結尾、模型輸出這個就停	所有 LLM
`<pad>`	把 batch 內不同長度 sequence 填齊	訓練 / batched 推論時用
`<unk>`	遇到 vocab 外的 token（byte-level BPE 已不需要）	早期 tokenizer
`<\|user\|>` / `<\|assistant\|>`	Chat template 角色標記	Llama 3 chat、Qwen chat
`<\|im_start\|>` / `<\|im_end\|>`	ChatML 格式的對話邊界	OpenAI、Qwen 系列
`<\|tool_call\|>` / `<\|tool_response\|>`	Tool use / function calling 訊號	Llama 3.1+ 等支援 tool use 的模型
`<think>` / `</think>`	Chain-of-thought 標記	DeepSeek-R1、O1 風格模型

關鍵特性：

訓練時用特殊 token ID 標記：模型透過大量範例學會「看到 <\|user\|> 後面是使用者輸入、看到 <\|assistant\|> 後面要生成回答」。
Chat template 把這些組合起來：把使用者輸入 + 系統 prompt + 對話歷史依特定格式插入這些 token、組成模型訓練時看過的格式。
<eos> 的 sampling 行為：模型輸出 <eos> 後、推論伺服器停止生成、所以「為什麼回答突然停了」很多時候就是模型決定發 EOS。

設計責任

讀 tokenizer config（tokenizer_config.json）看到 bos_token、eos_token、chat_template 等就是這組設定。寫 code 場景的判讀：用 Continue.dev / Ollama 時、伺服器會自動套用模型的 chat template、把使用者輸入轉成正確的 special tokens 格式；自己寫 inference code 時、要呼叫 tokenizer.apply_chat_template() 避免格式錯亂導致模型輸出爛。

Subagent

Tue, 12 May 2026 00:00:00 +0000

Subagent 的核心概念是「把 coding agent 切成多個專責子 agent、每個有獨立 context window 跟 system prompt、由 main agent 透過 handoff 機制調度」。代表設計：Claude Code 的 Task agent、OpenAI Agents SDK 的 handoff、Anthropic multi-agent research。是「context budget 不夠 + 任務跨多個 specialty」場景的工程選擇。

概念位置

Single agent vs subagent 架構的對比：

 1Single agent（無 subagent）：
 2 Main agent context：
 3 [system prompt + tool schema + 跨所有 specialty 的 history + 所有 file content]
 4 ↓ 容易爆 context、specialty 互相干擾
 5
 6Subagent 架構：
 7 Main agent context（路由 + 高階決策）：
 8 [main system prompt + handoff tool spec + 高階任務歷史]
 9 ↓ 路由到 subagent
10
11 Subagent A context（如「跑測試」專家）：
12 [test-runner system prompt + 測試 tool + 測試相關 file]
13
14 Subagent B context（如「寫 docs」專家）：
15 [docs system prompt + 寫 docs tool + 相關 docs 檔案]

主要好處：

Context budget 隔離：每個 subagent 只看自己 specialty 相關 context、不被別的 specialty 污染
System prompt 專門化：寫 docs 的 system prompt 跟跑測試的 system prompt 不同、各自最佳化
Specialty 路由：main agent 只決定「這個任務該交給哪個 subagent」、不直接做 specialty 工作

主要挑戰：

Handoff 設計：main agent 要怎麼選 subagent、怎麼傳 context、怎麼接 result
跨 subagent 共享狀態：codebase 知識、history、要避免重複 work
失敗模式：subagent 之間互相 deadlock、main agent 失去 high-level view、subagent 邊界劃錯

設計責任

讀 multi-agent / subagent paper / coding agent docs 看到「subagent」「handoff」「Task tool」「specialist agent」就是這 framing。寫 code 場景的判讀：

何時用 subagent：單一 agent context 不夠用、specialty 邊界清楚（如 search / coding / testing / documentation）、main agent 的 system prompt 已太長
何時不用：任務簡單、specialty 邊界模糊（強行拆會增加 handoff overhead）、本地小模型（handoff 機制對小模型不穩）
跟 agent loop 的關係：每個 subagent 內部仍是 agent loop（perceive / reason / act / observe / terminate）、只是 loop 範圍縮窄
跟 scaffold vs harness 的關係：subagent 註冊在 scaffold（建構時）、handoff 在 harness（runtime）執行

System Prompt

Tue, 12 May 2026 00:00:00 +0000

System prompt 的核心概念是「LLM application 中、由開發者預設、放在每次 conversation 最前面、不直接顯示給使用者的指令層」。常見用途包括設定模型角色（如「你是 senior Python engineer」）、規範輸出格式（如「always return JSON」）、加入 safety guideline。Chat-based LLM API（OpenAI、Anthropic 等）通常有專門的 role: "system" message type。

概念位置

LLM API call 的訊息結構：

1messages = [
2 {role: "system", content: "你是專業 code reviewer..."}, ← system prompt
3 {role: "user", content: "請 review 這段 code: ..."},
4 {role: "assistant", content: "..."}, ← 模型回答
5 {role: "user", content: "..."}, ← 後續對話
6 ...
7]

System prompt 在 application 設計中的角色：

用途	例子
角色定義	“你是 senior Python engineer、專長 async / typing”
輸出格式約束	“always return JSON with keys: title, body, tags”
行為規範	“若不確定、明確說『我不知道』、不要編造”
工具使用指引	“When user asks about weather, call get_weather tool”
安全約束	“Do not generate executable shell commands”
上下文注入	“Current date: 2026-05-12; User language: zh-TW”

事實查核註：不同 LLM vendor 對 system prompt 的處理機制不同（如部分模型把 system 跟 user 視為相同優先級、部分模型有特殊訓練讓 system 較高優先）、具體行為以該模型的官方文件為準。

設計責任

理解 system prompt 後可以解釋兩個現象：為什麼同一個模型在不同 LLM 應用中的「個性」差很多（system prompt 不同）、為什麼 prompt injection 的主要目標是繞過 system prompt 的約束（攻擊者想讓模型不照原本指令走）。

實務上、設計 LLM application 時、system prompt 是行為約束的第一層、但不是唯一防線（容易被 injection 繞過）；critical 行為應該在 application 層（如 tool call 的權限白名單、輸出驗證）加第二層防護。詳見 6.3 IDE 場景的 prompt injection。

Tensor

Tue, 12 May 2026 00:00:00 +0000

Tensor（張量）的核心概念是「N 維陣列」。Scalar 是 0D tensor、vector 是 1D、matrix 是 2D、再往上加維度就是 3D、4D。PyTorch、MLX、JAX、TensorFlow 等所有深度學習 framework 的核心型別都叫 Tensor、所有 LLM 內部運算（matrix multiplication、softmax、layer norm 等）都對 tensor 做。

概念位置

LLM 中常見的 tensor 維度：

維度	shape	意義	出現在
1D	`(vocab_size,)`	一個 token 位置的 logit 向量	Output layer 輸出
2D	`(seq_len, hidden_dim)`	一個 sequence 的 hidden state	每個 Transformer block 內部
3D	`(batch_size, seq_len, hidden_dim)`	一個 batch 的多個 sequence	Batched 推論 / 訓練
4D	`(batch_size, num_heads, seq_len, head_dim)`	Multi-head attention 的並行結構	Self-attention 內部
5D+	`(batch, heads, seq, head_dim, ...)`	罕見、特殊架構	MoE expert dispatch、特殊 attention

關鍵運算：

Reshape：改 shape 但不變資料總量、如 (batch, seq, hidden) → (batch * seq, hidden)。
Transpose / permute：交換維度順序、attention 計算前後常用。
Broadcasting：不同 shape 的 tensor 自動擴展配對、如 (seq, hidden) + (hidden,)。
Indexing / slicing：抽出子 tensor、如 tensor[:, -1, :] 取最後一個 token 的 hidden。

設計責任

讀 PyTorch / MLX 推論 / 訓練 code 看到 torch.Tensor、mx.array、tf.Tensor 等就是這個型別、所有 LLM 運算都建在它上面。寫 code 場景的判讀：報錯訊息看到 shape mismatch / size of dimension X 通常是 tensor 維度配錯；KV cache 內部存的就是 4D tensor (num_layers, 2, batch, num_kv_heads, seq, head_dim) 之類的結構、量化 KV cache 就是改這個 tensor 的 dtype。

Test-Time Compute

Tue, 12 May 2026 00:00:00 +0000

Test-time compute（推論時計算）的核心概念是「在推論階段花更多計算量、換取更高品質的答案」、不是只在訓練時投入算力。是 2024-2026 LLM 的 paradigm shift：GPT-3 → GPT-4 主要靠「更大模型 + 更多訓練資料」；o1 / DeepSeek-R1 → 主要靠「同模型、推論時想更久」。

概念位置

LLM 算力分配的兩條軸：

 1Training compute（訓練算力）：
 2 pre-training 大量 GPU-hour → 模型參數
 3 一次性投入、後續推論不變
 4 → GPT-3 → 4 的主要 paradigm
 5
 6Test-time compute（推論算力）：
 7 每次推論時、視任務難度動態增加算力
 8 難題想 30 秒（生 5000 token reasoning trace）
 9 簡單問題 1 秒結束（直接答）
10 → o1 / R1 / Claude thinking 的新 paradigm

Test-time compute 的常見實作形式：

形式	機制	代表
Chain-of-thought 內建	模型訓練成「自然」用長 reasoning trace、直接生 thinking + answer	o1、DeepSeek-R1、Qwen-QwQ、Claude thinking
Best-of-N sampling	同 prompt 跑 N 次、reward model 選最好的	OpenAI early experiments、verifier-based
Tree search	結構化探索多條 reasoning path	AlphaCode、tree of thoughts
Self-consistency	多次 sample reasoning、投票選最常見答案	早期 CoT prompting 技巧
Tool use + verification	模型呼叫 calculator / interpreter 驗證自己	Coding agent、math 解題 agent

DeepSeek-R1 paper 顯示「reasoning trace 長度跟 benchmark 表現正相關、可透過 RL 拉長」— 把 test-time compute 變成可訓練、可 scale 的維度。

設計責任

讀 paper / benchmark 看到「pass@1 vs pass@10」「budget tokens」「thinking time」等就跟 test-time compute 相關。寫 code 場景的判讀：

Reasoning model 算成本翻倍：同一個 prompt、reasoning model 生 5000 token thinking + 500 token answer、傳統 model 直接生 500 token answer、推論成本差 ~10 倍
本地跑 reasoning model 的痛點：需要長 context window 容納 thinking trace、生成時間長
適用任務挑選：複雜 reasoning（math、debug、long horizon planning）值得花 test-time compute；簡單任務（autocomplete、查詢）不值得
混用策略：日常用 instruct model、困難任務切到 reasoning model、是個人 dev 常見模式

Tool Use

Tue, 12 May 2026 00:00:00 +0000

Tool use 的核心概念是「LLM 不只生成文字、還能透過結構化呼叫外部工具來執行讀檔、查資料庫、發 API request、跑程式等動作」。它擴展 LLM 從「對話模型」變成「能影響真實世界的 agent」。實作上常見透過 function calling 或 MCP 協定。

概念位置

Tool use 的典型流程：

11. 開發者定義 tools（每個 tool 含 name、description、parameters schema）
22. LLM 收到 user message 跟 tools 清單
33. LLM 決定要呼叫哪個 tool、生成結構化 tool call（JSON）
44. LLM client（不是模型本身）執行 tool call、得到結果
55. tool 結果回灌進 conversation、模型基於結果繼續生成或再呼叫

關鍵特性：

模型本身不執行 tool：模型只生成 tool call JSON、實際執行由 client 或 MCP server 完成。
權限由 OS / user / sandbox 決定：模型再「同意」執行 rm -rf /、實際能不能跑取決於跑 tool 的 process 權限。
副作用範圍跟 tool 設計強相關：tool 寫得越通用（如 run_shell）、攻擊面越大；tool 寫得越窄（如 read_workspace_file）、攻擊面越小。

Tool use 跟 function calling、MCP 的關係：

層次	角色
Tool use（概念）	廣義概念、LLM 能呼叫工具
Function calling	OpenAI 提出的 API 規範、用 JSON schema 定義 function
MCP	Anthropic 推動的開放協議、定義 LLM client 跟 tool server 之間的通訊格式

設計責任

理解 tool use 後可以解釋三個現象：為什麼 LLM 「能跑 shell」其實是 client 跑、不是模型跑（職責切分）、為什麼 tool spec 設計直接影響攻擊面（spec 越鬆、injection 後果越大）、為什麼 agent loop 比單次 tool call 危險（多步 tool use 中 injection 累積）。

設計 tool 跟 MCP server 時、權限白名單 + 副作用可逆性 + confirm 機制是基本配置；production 場景見 LLM Agent Prompt Injection 後果治理跟 6.2 tool use 與 MCP server 的權限模型。

Top-K / Top-P / Min-P Sampling

Tue, 12 May 2026 00:00:00 +0000

Top-K、Top-P（nucleus sampling）、Min-P 的核心概念是「從 softmax 出來的機率分佈中、先過濾掉低機率 token、再從剩餘候選隨機取樣」。三者是 LLM 對話 / 寫 code 場景的主流 sampling 策略、跟 greedy 對比保留隨機多樣性、跟 beam search 對比計算成本低。

概念位置

三種策略的篩選方式：

策略	機制	直覺
Top-K	只保留機率前 K 個 token、其餘設 0	固定候選數量、簡單
Top-P	把 token 依機率排序、保留「累積機率達到 P」的最小集合	動態候選數量、適應分佈尖銳度
Min-P	只保留機率 ≥ (P × max_probability) 的 token	相對閾值、避免低品質 token

範例（vocab 前 10 個 token 的機率）：

1token: A B C D E F G H I J
2prob: 0.45 0.30 0.12 0.05 0.03 0.02 0.01 0.01 0.005 0.005
3
4Top-K=3：保留 A、B、C（前 3 個）
5Top-P=0.9：累積機率達 0.9、保留 A、B、C、D（0.45+0.30+0.12+0.05 = 0.92）
6Min-P=0.1：max=0.45、閾值=0.045、保留 A、B、C、D（≥ 0.045）

三者實務上常組合使用（如 top_k=40, top_p=0.9, temperature=0.7）、各自處理不同形狀的分佈。

參數情境	適合策略
分佈非常尖（模型很確定）	Top-P / Min-P 動態縮小、Top-K 可能太大
分佈平（模型不確定）	Top-K 限制最大候選、避免取到極低品質 token
寫 code / 嚴謹任務	低 temperature (0.2 ~ 0.5) + 較緊的 Top-P (0.8 ~ 0.9)
創意 / 多樣寫作	高 temperature (0.7 ~ 1.0) + 寬鬆的 Top-P (0.95+)

設計責任

讀 inference config / Continue.dev 設定看到 top_k、top_p、min_p、temperature 就是這組參數。寫 code 場景的判讀：嚴謹任務（code generation、structured output）用低 temperature + 緊 Top-P 取「最可能對的少數 token」；創意 / 對話用高 temperature + 寬 Top-P 取多樣性。Min-P 是 2023 後流行的新策略、實務上比 Top-P 更穩、避免「分佈很尖時 Top-P 仍納入長尾低品質 token」的問題。

Vector Database

Tue, 12 May 2026 00:00:00 +0000

Vector Database 的核心概念是「為高維向量設計的儲存系統 + 近似最近鄰 (Approximate Nearest Neighbor, ANN) 檢索引擎」。是 RAG 系統從 prototype 跨到 production 的關鍵元件——當 embedding index 大到記憶體裝不下、或並發 query 量超過單機處理能力、就要從 pickle / in-memory 升級到 vector DB。

概念位置

Vector DB 跟傳統 SQL / NoSQL database 並列、但專精「向量相似度搜尋」這個操作。它不取代傳統 DB——通常 LLM 應用是兩者並用：傳統 DB 存結構化資料（user / metadata）、vector DB 存 embedding + chunk text。實作上、近期主流是「向量加進去現有 DB」（如 Postgres 的 pgvector extension）或「專用服務」（如 Pinecone、Weaviate、Qdrant）。

可觀察訊號與例子

主流選擇分類：

類別	例子	適合
Hosted SaaS	Pinecone、Weaviate Cloud、Qdrant Cloud	不想 maintain、流量大
Self-host service	Weaviate、Qdrant、Milvus	內部部署、控制 cost
Embedded library	FAISS、HNSWLib、Annoy	嵌進應用、單機規模
DB extension	pgvector、SQLite + vec	已有 SQL DB、加 vector 能力

關鍵 ANN 演算法：

HNSW（Hierarchical Navigable Small World）：主流、sublinear 查詢、犧牲少許精度
IVF（Inverted File Index）：分組索引、適合超大規模
Flat（exhaustive search）：精確但 O(n)、小資料集 OK

scale 對照（基於 4.9 production 跟 RAG/MCP resources 章節）：

Corpus 規模	適合
< 10K chunks	Python pickle / in-memory list（本 blog demo）
10K-100K	FAISS / embedded library
100K-10M	Self-host vector DB
> 10M	Hosted SaaS 或分散式 cluster

設計責任

選 vector DB 之前回答四個問題：

Corpus 規模：決定 hosted vs self-host 取捨。
Update 頻率：每天一次（適合 batch rebuild）vs 即時（要 incremental update 支援）。
Latency 目標：< 50ms 要 in-memory HNSW、可接受 200ms 用 disk-based。
Hybrid search 需求：純向量 vs 向量 + filter（如「embedding 相似 + tag = code」），影響 schema 設計。

衍生產物管理上、vector DB 屬於 external 類別——index content 不進 git、用 manifest（如 schema definition + ingest script + version tag）描述。Build pipeline 從 source corpus 自動 rebuild。

不適合 vector DB 的情境：knowledge 高度結構化（直接 SQL）、corpus 小（pickle 就好）、單次 retrieval（off-line 跑、不開 server）。

Storage 升級判讀（什麼規模該從 in-memory 升級到 vector DB）、index 生命週期、dependency 約束的工程分析見 4.22 RAG storage 工程。

Vector Norm

Tue, 12 May 2026 00:00:00 +0000

Vector norm（向量範數）的核心概念是「衡量向量「大小」的純量值」。最常用的 L2 norm（歐式長度）= 把每個分量平方加總再開根號；但 L1、L∞ 等其他 norm 也在不同場景出現。Norm 在 LLM 中支撐 cosine similarity、layer normalization、gradient clipping 等核心機制。

概念位置

主流 norm 的定義與用途：

Norm	定義	LLM 中的用途
L1（Manhattan）	`sum(	v_i	)`	L1 regularization、稀疏化
L2（Euclidean）	`sqrt(sum(v_i²))`	預設「向量長度」、cosine similarity 的分母
L∞（max）	`max(	v_i	)`	Gradient clipping by max value、某些 attention scaling

L2 norm 在 LLM 中的關鍵應用：

Cosine similarity：cos(a, b) = (a · b) / (||a||₂ × ||b||₂)、衡量兩個向量的方向相似度、是 RAG / semantic search 的核心指標。
Embedding model 正規化：通常把 embedding 正規化到 L2 norm = 1、之後 cosine similarity 退化成單純內積（dot product）、計算更快。
Gradient clipping：訓練時若 gradient 的 L2 norm 超過閾值（如 1.0）、整體縮放回去、避免 explosion。
Layer normalization：RMSNorm 用 L2 norm（root mean square）做正規化。

設計責任

讀 RAG / embedding 教學看到「normalize embeddings」「cosine similarity」就是 L2 相關運算。寫 code 場景的判讀：用 vector database 時、若 embedding 已 L2-normalized、距離指標選 dot product 比 cosine 快（結果相同）；訓練 / fine-tune 自己 model 時、gradient_clip: 1.0 是常見預設、防止 gradient 偶發爆炸。

Vision Encoder

Tue, 12 May 2026 00:00:00 +0000

Vision encoder（視覺編碼器）的核心概念是「VLM 內部把圖片轉成向量序列的模組」。主流做法是「把圖片切成 patch、每個 patch 過 ViT（Vision Transformer）變一個向量」、再進入 LLM 的 Transformer 層。Vision encoder 通常用 CLIP 預訓練的權重起始、再跟 LLM 一起 fine-tune。

概念位置

Vision encoder 在 VLM 中的位置：

1Input image（如 1024×1024 RGB）
2 ↓ 切 patch（如 14×14 patch、每張圖 ~5000 個 patch）
3 ↓ Vision encoder（ViT 或 CLIP image encoder）
4Image feature vectors（每個 patch 對應一個 768/1024 維向量）
5 ↓ Projection layer（vision dim → LLM hidden dim）
6[Image tokens](/llm/knowledge-cards/image-token/)（變成 LLM 可吃的「視覺 token」）
7 ↓
8跟 text token 混合 → Transformer → output token

主流 vision encoder 設計：

設計	機制	代表 VLM
CLIP ViT-L/14（或變體）	OpenAI CLIP 的 image encoder 直接用	LLaVA-1.5、Qwen2-VL、Pixtral
SigLIP	Google 的 sigmoid-loss CLIP 變體、訓得更穩	Gemma 3 Vision、Idefics2
自訓 / 多解析度 ViT	從頭訓、支援動態解析度（不固定 224×224）	Qwen2.5-VL、GPT-4V
Native multimodal（單一網路）	圖跟文字共用 Transformer、不分開 encoder	Chameleon（Meta 研究）

Vision encoder 的關鍵設計取捨：

解析度：固定（224×224 / 336×336）vs 動態（依輸入圖大小）
參數量：vision encoder 0.3B-1B 是主流；太小辨識能力差、太大拖累整體推論速度
Pretrain 來源：用 CLIP / SigLIP 預訓練的權重起始、加上 multimodal fine-tune；少數從頭訓
跟 LLM 結合方式：見 multimodal fusion 卡

設計責任

讀 VLM model card 看到「vision tower」「ViT backbone」「image encoder」就是這部分。寫 code 場景的判讀：

解析度影響細節辨識：低解析度（224）對「截圖中的小字 / 細邊框」可能模糊、看不清；高解析度（1024+）能看清楚但 token 用量大
Token 用量估算：一張 1024×1024 圖經過 vision encoder 後、產出 ~500-2500 image tokens（依設計）、相當於一段中等長度的文字 prompt
動態解析度模型更實用：Qwen2.5-VL / GPT-4V 等支援動態解析度、不會把高清截圖縮成 224 失去細節
Vision encoder 不能單獨 fine-tune：通常跟 LLM 一起訓、單獨換 vision encoder 會破壞 alignment

VLM（Vision-Language Model）

Tue, 12 May 2026 00:00:00 +0000

VLM（Vision-Language Model、視覺語言模型）的核心概念是「同時接受圖片 + 文字輸入、產生文字輸出的 LLM 變體」。內部結構是「vision encoder 把圖片轉成 image token、跟文字 token 一起進 Transformer」。寫 code 場景的 VLM 用途：看截圖 debug、看 mockup 寫前端 code、看 architecture 白板照片寫文件。

概念位置

VLM 跟純文字 LLM 的差異：

1純文字 LLM：
2  text → tokenizer → token IDs → embedding → Transformer → output token
3
4VLM：
5  text → tokenizer → text token IDs ─┐
6                                     ├→ 統一 token sequence → Transformer → output token
7  image → vision encoder → image tokens ─┘

主流 VLM family（2026/5）：

Family	商業 / 開源	本地可跑	Coding 場景強項
GPT-4o / GPT-5 vision	商業 API	不可	截圖理解、OCR、UI 推理
Claude 3.7 / 4 Sonnet vision	商業 API	不可	截圖 debug、code from mockup
Gemini 2.5 Pro vision	商業 API	不可	長視訊 / 多張圖
Qwen2.5-VL / Qwen3-VL	開源	7B / 32B / 72B 可本地	中英 OCR、UI 元素辨識
Llama 3.2 Vision	開源	11B / 90B	通用 vision、英文場景
Gemma 3 Vision	開源	4B / 12B / 27B	多語、輕量本地
LLaVA / InternVL / Pixtral	開源	7B-34B	研究 / 特定 use case

事實查核註：主流 VLM family、本地可跑狀態、coding 場景強項在 2026/5 是估計、依模型更新跟推論伺服器支援度持續變化、引用前以對應 model card 跟 Hugging Face leaderboard 為準。

設計責任

讀 model card 看到「vision」「VL」「multimodal」「-VL」「visual」就是 VLM。寫 code 場景的判讀：

任務適合用 vision 才用：純文字描述夠清楚就別塞圖、image token 多、context 跟推論成本上升
本地跑 VLM 比純文字 LLM 吃資源：vision encoder 通常 0.3-1B 參數、image 處理階段算力需求大、TTFT 變長
OCR-heavy 任務不一定要 VLM：純 OCR（識別截圖中文字）用專門 OCR 工具（Tesseract / PaddleOCR）可能更穩、VLM 強項在「理解圖 + 推理」
影片不是免費：「VLM 看影片」本質是抽 frames 變多張圖、token 用量爆炸、效益看任務

Vocabulary Size

Tue, 12 May 2026 00:00:00 +0000

Vocabulary size（詞彙表大小）的核心概念是「tokenizer 詞彙表中 token 的總數」。是模型訓練時就決定的 hyperparameter、後續不能改。Vocabulary size 影響 embedding layer 大小、單一文字對應的 token 數、多語言處理品質。

概念位置

主流 LLM 的 vocab size 演化：

模型	Vocab size	設計考量
GPT-2	50,257	早期 byte-level BPE、英文為主
Llama 1 / 2	32,000	緊湊、英文 + 部分多語言
Llama 3	128,256	大幅擴張、改善多語言（特別是非拉丁語系）
Gemma 4	256,000	進一步擴大、強化多語言 + code tokenization
Qwen3	151,936	中文 + 多語言友善
DeepSeek-V3	129,280	中英 + code、跟 Llama 3 同量級

Vocabulary size 的取捨：

Vocab 小（如 32K）	Vocab 大（如 256K）
Embedding 矩陣小、模型參數少	Embedding 矩陣大、模型參數多
罕見字 / 多語言被拆很細、token 數多	高頻多語言整詞當一 token、token 數少
推論計算每步輸出 softmax 較快	每步 softmax 較慢（vocab × hidden 矩陣大）
API 計費 token 數量較多	API 計費 token 數量較少

範例：同段中文「你好、世界」、Llama 1 (vocab 32K) 約 6 token、Gemma 4 (vocab 256K) 約 2-3 token、差距不小。

設計責任

讀 model card 看到 vocab_size 就是這個值。寫 code 場景的判讀：跑同個 prompt、不同模型實際處理的 token 數差很多、影響 context window 利用率跟雲端 API 計費；換 tokenizer = 換 vocab = 整個 embedding layer 失效、所以 fine-tune 通常不動 tokenizer、想增加新語言的最簡單方式是 extend embedding（加新 row 不動既有 row、再 fine-tune）。

VRAM

Tue, 12 May 2026 00:00:00 +0000

VRAM（Video RAM）的核心概念是「顯卡晶片上的高速記憶體、跟系統主機板上的 RAM 是物理上獨立的兩塊預算」。獨立 GPU 場景下、模型權重要載入 VRAM 才能用 GPU 高速計算；VRAM 容量直接決定能跑多大模型。跟 Apple Silicon 的統一記憶體不同、PC 上 VRAM 跟系統 RAM 兩塊預算要分開規劃。

概念位置

VRAM 同時影響「能載入什麼」跟「跑多快」兩個維度：

容量（GB）：決定能放多少模型權重 + KV cache + 推論中間結果。容量不夠則跑不起來、需透過 MoE CPU 卸載把部分權重放系統 RAM。
頻寬（GB/s）：影響每 token 生成速度上限、見 memory bandwidth 卡片。

常見消費級 GPU 的 VRAM 規格（廠商標稱、依世代與型號變化）：

GPU	VRAM 容量	VRAM 類型
RTX 5060 / 4060	8GB	GDDR6/7
RTX 5060 Ti / 4060 Ti	16GB	GDDR6/7
RTX 5070 Ti / 4070 Ti	16GB	GDDR6/7
RTX 4090	24GB	GDDR6X
RTX 5090	32GB	GDDR7

VRAM 容量是選 GPU 跑本地 LLM 的第一決策軸、頻寬是第二決策軸。同容量下、頻寬接近 2 倍的卡（如 5070 Ti 對 5060 Ti）生字速度差異明顯。

事實查核註：上表是 2026 年 5 月主流消費級 NVIDIA GPU 規格的數量級對照、實際 VRAM 容量、頻寬、GDDR 版本依特定型號、廠商 / SKU、製造時間變化、引用前以 NVIDIA 官方規格頁為準。

設計責任

理解 VRAM 後可以解釋三個現象：為什麼同樣 16GB 容量、不同卡的生字速度差很多（頻寬不同）；為什麼 MoE 模型在 16GB VRAM 上跑得了 30B 級模型（透過卸載）；為什麼 PCIe 頻寬在 PC 場景影響 MoE 卸載的速度（系統 RAM 跟 VRAM 之間的橋）。

選 PC 規劃本地 LLM 時、VRAM 容量決定能跑的模型上限、VRAM 頻寬決定生字速度上限、系統 RAM 容量決定 MoE 卸載空間。詳見 5.0 VRAM + RAM 分層預算。

Autoregressive

Mon, 11 May 2026 00:00:00 +0000

Diffusion 模型一次處理整張圖、用「去噪 N 步」的方式生成；跟 Transformer 的「一個 token 接一個 token」生成方式根本不同。記憶體需求、硬體最適規格、生態系都是平行宇宙。

可觀察訊號與例子

Diffusion 跟 Transformer 工具鏈完全不通用：

維度	Transformer LLM	Diffusion
主流模型	Gemma 4、Qwen3、Llama 3.3、GPT-5	Stable Diffusion、Flux、SDXL
推論伺服器	Ollama、LM Studio、llama.cpp、oMLX	ComfyUI、Draw Things、AUTOMATIC1111、Diffusers
推論時間	每秒幾十 tok（autoregressive）	整張圖 15 ~ 60 秒（一次到位）
硬體最適	記憶體大、頻寬高	GPU 算力高、VRAM 頻寬高
Prompt 風格	instruction 形式	descriptive + negative prompt
量化技術	GGUF、MLX	各家不同、Diffusers 為主

設計責任

聽到「換 model 就能產圖」的說法時、回到本卡確認：產圖是另一個領域、要切換到 Diffusion 工具鏈、而非在 Ollama 上下載產圖模型。寫 code 工作流跟產圖工作流分開學、避免兩邊半生不熟。對 Mac 使用者來說、Draw Things（macOS 原生 app）是產圖入門的最低門檻路徑。

Drafter Model

Mon, 11 May 2026 00:00:00 +0000

Drafter Model 的核心概念是「speculative decoding 中用來快速預測未來幾個 token 的小模型」。它跑得比 target model 快很多倍、每次跑一個 forward pass 猜 N 個 token、再交給 target model 並行驗證。

概念位置

Drafter 與 target 形成一對：drafter 快但較不準、target 慢但準確、兩者組合得到「跑得快的近似 target」。drafter 在記憶體中跟 target 一起載入、佔額外記憶體。Gemma 4 31B + 官方 drafter 的記憶體佔用約「target 18GB + drafter 1GB」、需要 32GB+ Mac 才順暢。

可觀察訊號與例子

匹配的 drafter / target 對：

Target	Drafter	來源
Gemma 4 31B	Gemma 4 E4B	Google 官方釋出
Llama 3.3 70B	Llama 3.2 1B	社群配對
Qwen3-Coder 30B	（尚未有官方）	Alibaba 還未釋出 drafter

關鍵限制：drafter 與 target 必須用相同 tokenizer。Gemma 系列只能配 Gemma 系列、Llama 系列只能配 Llama 系列、跨家族沒有相容性。LM Studio 的 UI 在挑 drafter 時會自動過濾相容候選。

設計責任

寫 code 場景的多數使用者透過預先打包的 model tag（如 Ollama 的 MTP 版本）取得 drafter、不用自己配對。想用其他模型的 speculative decoding 時、要確認社群是否有匹配的 drafter；找不到的情況下、預設用沒 speculative decoding 的版本是合理選擇、加速收益跟「找 drafter、自己配置」的成本比起來通常不划算。

Embedding Model

Mon, 11 May 2026 00:00:00 +0000

Embedding Model 的核心概念是「把文字轉成固定維度向量、讓相似內容在向量空間中靠近」。Continue.dev 等工具用 embedding model 把 codebase 索引成向量資料庫、再用語意相似度搜尋相關片段。

概念位置

Embedding model 跟 chat model 是兩種不同的模型、有各自的權重檔。Chat model 用於對話與生成、embedding model 用於 retrieval。同一個推論伺服器（如 Ollama）可以同時載入兩種模型、為不同用途服務。

可觀察訊號與例子

寫 code 場景常用的 embedding 模型：

模型	大小	用途
`nomic-embed-text`	274MB	英文為主、Continue.dev 預設
`mxbai-embed-large`	670MB	較強的英文 embedding
`bge-m3`	1.2GB	多語言（含中文）embedding

向量維度通常 384 ~ 1024、不同模型不同；切換 embedding 模型要重建索引、向量空間互不相容。

設計責任

Continue.dev 的 @codebase 命令依賴 embedding 模型；要先 ollama pull nomic-embed-text 並在 config.json 設 embeddingsProvider。Embedding 模型對 codebase 搜尋品質有影響、但邊際效益遠小於 chat model；先用預設 nomic-embed-text、需求出現再換更大模型。

Function Calling

Mon, 11 May 2026 00:00:00 +0000

Agent 是應用層的工作流模式、建立在 tool use、function calling、structured output、autoregressive 生成之上。Agent loop 五步骨架（感知 → 推理 → 行動 → 觀察 → 判斷終止）是所有 agent framework 的共通結構、不論具體實作。本地 LLM 受 tool use 訓練不足、長 context prefill 痛點（見 TTFT、prefill）、規劃能力弱等限制、跑 agent 現階段失敗率高於雲端旗艦。

可觀察訊號與例子

寫 code 場景的代表 agent：aider、Cline、Cursor Agent。判讀 agent 失敗訊號分三類：context drift（累積偏離原目標）、目標漂移（子目標完成就停、原任務沒完成）、tool 結果誤判（tool 回 error 模型 hallucinate「成功」繼續推）。

設計責任

決定該用 agent 還是 single-call、看任務是否有明確子步驟 + 客觀驗證訊號（test 通過、file 寫入）。模糊探索性任務不適合 agent。Agent 跑高風險任務時、人類審查粒度應該配合工具的副作用範圍——可逆任務全自動、不可逆任務 step-by-step approval。詳細展開見 4.4 Agent 架構原理。

MCP（Model Context Protocol）

Mon, 11 May 2026 00:00:00 +0000

MCP（Model Context Protocol、2024 年由 Anthropic 提出）的核心概念是「LLM application 跟外部 tool server 之間的標準化協議」。它解的是 LLM application 生態的 N×M 整合問題：N 個 application 接 M 個 tool、不標準化要寫 N×M 個 adapter；MCP 把這個成本拆成 N+M（application 端跟 server 端各實作協議一次）。

概念位置

MCP 在架構協議層、跟 function calling（模型能力層）、structured output（sampling 約束層）正交。它跟模型怎麼呼叫工具無關、只管「工具怎麼被暴露給 application」。複用 OpenAI 相容 API 的標準化模式：定義最小可用標準、讓生態繞著標準長、所有 player 受益。

可觀察訊號與例子

MCP 涵蓋 server 該提供什麼：tool 註冊、tool schema、tool 呼叫協議、resource 暴露、prompt template 共享。2026/5 主要 LLM application（Claude Desktop、Cursor 等）支援 MCP；社群維護的 MCP server 數量快速增長（檔案系統、Git、Slack、各種 API 等）；本地推論伺服器（Ollama、LM Studio）仍以 OpenAI 相容 API 為主、MCP 接入較慢。

設計責任

需不需要用 MCP 看應用規模：小型 in-process 應用（直接 Python function）用 function calling + 簡單 dispatcher 就夠、不需 MCP。要跨 application 共用 tool、或想接入既有 MCP server 生態（如標準化的 git / filesystem tools）才需要 MCP。詳細展開見 4.6 應用層協議。

Memory Bandwidth

Mon, 11 May 2026 00:00:00 +0000

Memory Bandwidth（記憶體頻寬）的核心概念是「每秒能從記憶體讀寫多少 bytes」。對 LLM 推論而言、它是「真正的瓶頸」、決定 tokens per second 的理論上限；CPU / GPU 算力反而很少成為瓶頸。

概念位置

Autoregressive 模型每生一個 token 都要把整個模型權重從記憶體讀到處理器一次。模型多大、頻寬多快、決定每秒能讀過幾次完整權重、也就決定每秒生幾個 token。

可觀察訊號與例子

各代 Apple Silicon 的記憶體頻寬：

晶片	頻寬
M2 / M3	100 GB/s
M2 Pro	200 GB/s
M4 Max	546 GB/s
M2 / M3 Ultra	800+ GB/s
H100（雲端）	3,300 GB/s

理論上限算式：頻寬 / 模型大小 = 最大 tok/s。M4 Max 跑 Q4 量化的 31B 模型（約 18GB）、理論上限約 546 / 18 ≈ 30 tok/s。實際值會比理論低 30 ~ 50%（KV cache 讀寫、attention 中間結果等開銷）。

H100 頻寬是 M4 Max 的 6 倍、這就是雲端旗艦速度比本地快這麼多的根本原因。

設計責任

評估「換更快 Mac 能加速多少」要看頻寬而不是 CPU 核心數。M2 升 M4 Max 對 LLM 推論的速度收益主要來自頻寬升級（200 → 546 GB/s）、約 2.7 倍。看到「N 倍加速」報導時、把頻寬與模型大小代進公式對一下、能識破不合理的數字。

MLX

Mon, 11 May 2026 00:00:00 +0000

MLX（Machine Learning eXchange）的核心概念是「Apple 為 Apple Silicon 設計的數值運算 framework」，2023 年由 Apple 釋出。它提供 Python API、自動排程 CPU / GPU / Neural Engine、利用統一記憶體架構避免在不同記憶體層之間搬資料。

概念位置

MLX 屬於基底設施層、跟 PyTorch、JAX、NumPy 並列、是「跑神經網路用的底層數值庫」。它本身不是推論伺服器、不是模型、也不是加速技巧；上層工具站在 MLX 這塊地基上做封裝。

通用世界	Apple 世界
PyTorch / JAX	MLX
CUDA	Metal（MLX 在 GPU 上經 Metal）
NumPy	`mlx.core`
Transformers	`mlx-lm`、`mlx-community`

可觀察訊號與例子

直接用 MLX 跑模型：

1pip install mlx-lm
2mlx_lm.generate --model mlx-community/Llama-3.2-3B-Instruct-4bit --prompt "hi"

這段命令會載入 MLX format 權重、用 MLX framework 在 Apple Silicon 上跑推論。需要再 wrap 成 HTTP server 才能讓 IDE 連、mlx_lm.server 是輕量選擇、oMLX 是建在 MLX 之上的完整推論伺服器。

設計責任

寫 code 場景的多數使用者透過 Ollama（用 llama.cpp 當引擎、跟 MLX 無關）、體驗已足夠。直接用 MLX 適合三種情境：想跑 Apple 釋出的 MLX format 模型、想用 MLX 寫研究 code、想試 MLX backend 的推論伺服器（oMLX）。看到「Ollama 用 MLX 加速」這類說法時、回到本卡確認 Ollama 內部 backend 是 llama.cpp 而非 MLX。

Multi-Token Prediction (MTP)

Mon, 11 May 2026 00:00:00 +0000

Multi-Token Prediction（MTP）的核心概念是「speculative decoding 的工程化實作」，特指 Google 為 Gemma 4 釋出的官方版本。它包含預訓練好的 drafter、target 模型整合、以及優化過的推論流程。

概念位置

MTP 屬於模型推論優化層、跟 autoregressive 基底並列。它是技巧、不是模型架構、也不是 framework；任何推論伺服器都可以選擇實作或忽略 MTP、模型可以選擇有沒有官方 drafter。三件事彼此獨立。

可觀察訊號與例子

2026 年 5 月 MTP 在各推論伺服器的支援狀態：

伺服器	Gemma 4 MTP 支援
Ollama	v0.23.1（2026/5/7）一鍵支援
LM Studio	支援、需手動配置 draft model
llama.cpp	speculative decoding 框架在 beta、Gemma 4 官方 drafter 整合仍是 feature request
oMLX	支援

啟用 MTP 的速度收益主要在寫 code 場景。Google 官方數據 coding 任務 2 ~ 3 倍加速；純文字寫作、創意任務的加速幅度約 1.5 ~ 2 倍、因為 pattern 預測度較低。

設計責任

寫 code 場景的多數使用者透過 Ollama 一行啟用 MTP：ollama run gemma4:31b-coding-mtp-bf16。看到「N 倍加速」報導時要追問來源與任務：官方 Google 數據是 2 ~ 3 倍；「40%」這類數字常常來源不明、可能是社群文章作者的估算。判讀加速幅度時、回到本卡與 speculative decoding 的官方來源比對。

OpenAI 相容 API

Mon, 11 May 2026 00:00:00 +0000

OpenAI 相容 API 的核心概念是「實作 OpenAI 在 2023 年定義的 POST /v1/chat/completions 介面、讓介面層工具不改一行 code 就能切換本地與雲端」。它是事實標準、後來幾乎所有本地推論伺服器都實作這份規格。

概念位置

OpenAI 相容 API 是介面層與伺服器層之間的標準介面。它承諾 API 形狀（request / response schema、streaming 格式、錯誤碼）一致；對「模型能力」「效能特性」「進階參數」等不承諾等價。本地 Gemma 4 跟雲端 GPT-5 都能用同一套 API 呼叫、但回答品質天差地遠。

可觀察訊號與例子

最小可用請求：

1curl http://localhost:11434/v1/chat/completions \
2 -H "Content-Type: application/json" \
3 -d '{
4 "model": "gemma4:31b-coding-mtp-bf16",
5 "messages": [{"role": "user", "content": "Hello"}],
6 "stream": false
7 }'

切換本地與雲端只改三個欄位：

欄位	雲端 OpenAI	本地 Ollama
API base	`https://api.openai.com/v1`	`http://localhost:11434/v1`
API key	`sk-xxxxxxx`	任意字串、本地多半略過驗證
Model name	`gpt-5`	本地 model tag

進階功能參差不齊：response_format、tool_choice、reasoning effort 等在本地伺服器的支援度視模型而定；雲端有的功能、本地未必能用。

設計責任

寫程式接 LLM 時、把 OpenAI 相容當預設選擇。多家 SDK（OpenAI Python SDK、Vercel AI SDK 等）都支援設定 base_url、改 endpoint 就能接本地。寫 IDE plugin 或 CLI 工具時、優先支援這份 API、能同時跟雲端、Ollama、LM Studio、llama.cpp、oMLX 對接。

Prefill

Mon, 11 May 2026 00:00:00 +0000

Prefill 的核心概念是「LLM 首次處理 prompt 時、把整段輸入跑過模型一次的計算階段」。Prefill 階段會為 prompt 中每個 token 算出 attention 中間結果並存進 KV cache，之後生成新 token 時可以直接讀 cache。

概念位置

Prefill 是 TTFT 的主要構成部分。Prefill 結束後系統進入 decode 階段、開始一個一個生 token。兩階段的瓶頸不同：prefill 是「算力 bound」（並行處理整段 prompt）、decode 是「記憶體頻寬 bound」。

可觀察訊號與例子

短 prompt（500 tokens）：prefill 通常 < 1 秒、感覺不到。

中等 prompt（4K tokens）：M4 Max 跑 31B 模型約 3 ~ 8 秒、開始有感。

長 prompt（10K+ tokens）：本地 prefill 拉到 30 ~ 90 秒、是 coding agent 場景最痛的點。

雲端旗艦 prefill 速度快得多，因為 H100 / TPU 的算力遠高於 Apple Silicon，且常用大批次平行 prefill。

設計責任

判讀「為何本地 LLM 在塞長 context 時這麼慢」要追到 prefill 階段。緩解方法有三條：縮短 prompt（移除不必要 context）、用支援 prefix cache 的伺服器（如 oMLX 的 paged SSD KV cache 可重用之前 prefill 過的結果）、切到雲端旗艦（資料中心 prefill 算力遠高於 Mac）。

Quantization

Mon, 11 May 2026 00:00:00 +0000

Quantization（量化）的核心概念是「把模型權重從高精度（如 16-bit float）改用較低精度（如 4-bit integer）表示」。權重數量不變，但每個權重佔的 bytes 變少；模型總大小變小、每秒能讀過的權重變多，生字速度直接變快。

概念位置

量化是讓 LLM 跑在 consumer 等級硬體上的關鍵技術。沒有量化、Apple Silicon Mac 跑不動 30B+ 模型，因為原始 bf16 權重會超出記憶體預算。量化方法主要分兩類：GGUF 系統用的 K-quants（Q4_K_M、Q5_K_M 等）、以及 MLX 等系統用的 4-bit / 8-bit 量化。

可觀察訊號與例子

常見量化等級的取捨：

量化	每權重 bits	相對 bf16 大小	品質衰減	適合場景
bf16 / F16	16	1x	無（基準）	開發、評估、大記憶體機器
Q8	8	0.5x	幾乎察覺不到	32GB+ Mac、品質敏感任務
Q5_K_M	5.5	0.34x	輕微	24GB Mac、日常使用
Q4_K_M	4.5	0.28x	可察覺、實用	多數場景的甜蜜點
Q3	3	0.19x	明顯、code 任務開始崩	較大模型強塞較小機器時備用

「_K_M」的 K 指 K-quants（較新的量化方法）、M 指 mixed-medium（不同層用不同量化）。Q3 70B 模型在 coding 任務上常輸給 Q5 14B 模型；模型大小跟模型實用品質是兩件事。

設計責任

選量化等級時看三個維度：記憶體預算（量化後是否塞得進）、體感速度（量化越激進、tok/s 越高）、品質容忍度（過低量化會明顯衰減）。寫 code 場景的甜蜜點通常是 Q4_K_M；想再換更激進量化前、先用同等記憶體預算下的較小模型 Q5 對比，常會發現後者品質更好。

RAG

Mon, 11 May 2026 00:00:00 +0000

32GB Mac 跑 Q4 量化的 Gemma 4 31B 模型順暢（佔 18GB）、同等價位 PC（16GB VRAM 等級）跑不動同一模型、要降到 14B Q4 才行。70B 模型在 64GB Mac 上可行、PC 需要兩張 24GB VRAM GPU 配 NVLink、成本高得多。

設計責任

買 Mac 跑本地 LLM 時、把記憶體當第一順位考量、超過 CPU 規格與儲存空間。32GB 是寫 code 場景的甜蜜點（跑得起 Gemma 4 31B MTP）、48 ~ 64GB 進階配置（跑得起 70B 或同時跑兩個模型）、96GB+ 對寫 code 場景多半過度配置。MLX 等 framework 利用 UMA 的方式跟 Metal backend 略有差異、但對使用者都透明、選伺服器時無需考量 UMA 細節。