Reasoning on Tarragon

Chain-of-Thought（CoT）

Tue, 12 May 2026 00:00:00 +0000

Chain-of-Thought（CoT、思維鏈、Wei et al., 2022）的核心概念是「讓 LLM 先輸出一連串中間推理步驟、再給最終答案」、不是直接從問題跳到結論。CoT 是 reasoning model 的基礎機制；prompting 形式（few-shot 提示）跟訓練形式（reasoning RLHF / RL）兩條路都圍繞它演化。

概念位置

CoT 的兩種觸發方式：

1直接回答：
2 Q: 23 × 47 = ?
3 A: 1081
4
5Chain-of-Thought：
6 Q: 23 × 47 = ?
7 A: 先算 20 × 47 = 940、再算 3 × 47 = 141、加起來 940 + 141 = 1081。
8 答案：1081

CoT 在 LLM 演化中的兩個階段：

階段	觸發方式	代表模型 / 技術
Prompting CoT	Few-shot 提示「請逐步思考」或「let’s think step by step」	GPT-3、PaLM、早期 instruct 模型
Training CoT	訓練資料含大量 reasoning trace、模型學會「自然」用 CoT	GPT-4、Claude 3.5、Gemini Pro
Reasoning RL	RL 階段獎勵「正確答案的長 reasoning trace」、模型學會用更長 CoT	DeepSeek-R1、o1 / o3、Qwen-QwQ、Claude 3.7 Sonnet thinking

第三階段的特性：模型自己決定「該想多久」（test-time compute 動態擴展）、推理 trace 可達數千 token、最終答案才是少數 token。

設計責任

讀 prompt engineering / paper 看到「CoT」「step by step」「reasoning trace」「thinking」等就是這個機制。寫 code 場景的判讀：

複雜推理任務開 CoT 通常有幫助（math、debug、algorithm design）— 即使是 instruct model 也能透過 prompting 觸發
簡單任務 CoT 浪費 token（autocomplete、單行查詢、純查表）
Reasoning model 的 CoT 是內建行為、不需要用 prompt 觸發、但 reasoning trace 會消耗大量 token（推論時間、context、API 成本都翻倍）
本地跑 reasoning model：DeepSeek-R1 distill 系列、Qwen-QwQ 等可本地跑、但需要較大 context window 容納 reasoning trace

Reasoning Model

Tue, 12 May 2026 00:00:00 +0000

Reasoning model 的核心概念是「透過後訓練（多半是 RL）讓模型自然在回答前產出長 chain-of-thought reasoning trace 的 LLM 變體」。代表是 OpenAI o1 / o3、DeepSeek-R1、Qwen-QwQ、Claude 3.7 Sonnet thinking 等。Reasoning model 是 2024-2026 LLM 的最大 paradigm shift、把 test-time compute 變成可訓練、可 scale 的維度。

概念位置

Reasoning model 跟一般 instruction-tuned model 的差異：

維度	Instruction-tuned model（如 Gemma 4 instruct）	Reasoning model（如 DeepSeek-R1）
訓練後階段	SFT + RLHF / DPO	SFT + RLHF + reasoning RL
推論行為	直接答（或短 CoT）	先生 reasoning trace（數百到數千 token）再答
適合任務	對話、寫作、簡單 coding、查詢	math、debug、algorithm、複雜 reasoning
Token 消耗	直接生答案 token	reasoning trace 通常 5-50× 於最終答案
推論成本	1×	5-20×（依任務難度）
Context 需求	一般	較大（要容納 reasoning trace）

主流 reasoning model 比較（2026/5）：

模型	開源 / 商業	推理 trace 格式	本地跑可行性
OpenAI o1 / o3	商業 API	對使用者隱藏	不可
DeepSeek-R1（full）	開源	`<think>...</think>` 標記	671B 太大、本地不實際
DeepSeek-R1 distill	開源	同上	7B / 14B / 32B distill 可在 24-48GB Mac 跑
Qwen-QwQ	開源	純文字 reasoning（無特殊 token）	32B 可在 64GB+ Mac 跑
Claude 3.7 Sonnet thinking	商業 API	extended thinking field	不可
Gemini 2.5 Flash thinking	商業 API	thinking field	不可

設計責任

讀 model card / paper 看到「reasoning」「thinking」「test-time compute」「R1-style」就是這個 family。寫 code 場景的判讀：

本地用 distill 版本是合理起點：DeepSeek-R1-Distill-Qwen-32B、QwQ-32B 等是「正常 32B 模型 + reasoning 後訓練」的產物、跑得起來
適合的任務：debug 複雜 bug、算 algorithm complexity、設計 multi-step refactor、解 leetcode hard
不適合的任務：autocomplete（reasoning trace 拉長 TTFT、體感變慢）、簡單 docstring 補完、純文字翻譯
混用策略：日常用 instruction-tuned model（如 Gemma 4 31B、Qwen3-Coder）+ 複雜任務切到本地 reasoning model（如 QwQ-32B）+ 真正困難任務切雲端 o1 / R1 full
記憶體預算：reasoning model 本身大小跟對應 instruct model 相當、但要預留更大 KV cache 給長 reasoning trace（context 通常開 32K+）

Test-Time Compute

Tue, 12 May 2026 00:00:00 +0000

Test-time compute（推論時計算）的核心概念是「在推論階段花更多計算量、換取更高品質的答案」、不是只在訓練時投入算力。是 2024-2026 LLM 的 paradigm shift：GPT-3 → GPT-4 主要靠「更大模型 + 更多訓練資料」；o1 / DeepSeek-R1 → 主要靠「同模型、推論時想更久」。

概念位置

LLM 算力分配的兩條軸：

 1Training compute（訓練算力）：
 2 pre-training 大量 GPU-hour → 模型參數
 3 一次性投入、後續推論不變
 4 → GPT-3 → 4 的主要 paradigm
 5
 6Test-time compute（推論算力）：
 7 每次推論時、視任務難度動態增加算力
 8 難題想 30 秒（生 5000 token reasoning trace）
 9 簡單問題 1 秒結束（直接答）
10 → o1 / R1 / Claude thinking 的新 paradigm

Test-time compute 的常見實作形式：

形式	機制	代表
Chain-of-thought 內建	模型訓練成「自然」用長 reasoning trace、直接生 thinking + answer	o1、DeepSeek-R1、Qwen-QwQ、Claude thinking
Best-of-N sampling	同 prompt 跑 N 次、reward model 選最好的	OpenAI early experiments、verifier-based
Tree search	結構化探索多條 reasoning path	AlphaCode、tree of thoughts
Self-consistency	多次 sample reasoning、投票選最常見答案	早期 CoT prompting 技巧
Tool use + verification	模型呼叫 calculator / interpreter 驗證自己	Coding agent、math 解題 agent

DeepSeek-R1 paper 顯示「reasoning trace 長度跟 benchmark 表現正相關、可透過 RL 拉長」— 把 test-time compute 變成可訓練、可 scale 的維度。

設計責任

讀 paper / benchmark 看到「pass@1 vs pass@10」「budget tokens」「thinking time」等就跟 test-time compute 相關。寫 code 場景的判讀：

Reasoning model 算成本翻倍：同一個 prompt、reasoning model 生 5000 token thinking + 500 token answer、傳統 model 直接生 500 token answer、推論成本差 ~10 倍
本地跑 reasoning model 的痛點：需要長 context window 容納 thinking trace、生成時間長
適用任務挑選：複雜 reasoning（math、debug、long horizon planning）值得花 test-time compute；簡單任務（autocomplete、查詢）不值得
混用策略：日常用 instruct model、困難任務切到 reasoning model、是個人 dev 常見模式

3.8 Reasoning models：test-time compute paradigm

Tue, 12 May 2026 00:00:00 +0000

Reasoning model 把「LLM 該想多久」從固定的 forward pass 數變成可訓練、可在推論時動態擴展的維度。OpenAI o1（2024 年底）跟 DeepSeek-R1（2025 年初）是這條路線的兩個里程碑、後續 Qwen-QwQ、Claude thinking、Gemini thinking 等都跟上。本章把 reasoning model 的訓練原理、推論行為、本地可跑選項、適用 / 不適用任務拆成可操作的判讀。

本章不重複 chain-of-thought 跟 test-time compute 卡片的定義、聚焦「reasoning model 怎麼運作、怎麼跟本地工作流結合」。

本章目標

讀完本章後、你應該能：

解釋「reasoning model」相對 instruct model 的訓練差異。
看到 ... 標記或「extended thinking」field 時、知道是 reasoning trace、怎麼解讀。
判斷一個任務該用 reasoning model 還是 instruct model。
對自己的硬體預算估算「能不能本地跑 reasoning model」、選哪個。

Paradigm shift：從 scaling pretrain 到 scaling test-time

LLM 能力提升的兩條歷史路徑：

12020-2023 時期：scale pretrain compute
2  GPT-3 → GPT-4：模型大 5-10×、訓練 compute 大 50-100×
3  策略：更多參數 + 更多訓練 token = 更好的 base model
4
52024-2026 時期：scale test-time compute
6  GPT-4 → o1：模型大小接近、但推論時花 5-50× 算力
7  策略：base model 不變、訓練「推理能力」+ 推論時動態擴展 reasoning trace

兩條路線不對立、是疊加：reasoning model 本身仍跑在大 base model 上、reasoning RL 是再加一層後訓練。Cost trade-off 對比的 framing 跟對使用者錢包的影響、見 test-time compute 卡片。本章接下來聚焦「reasoning model 的訓練流程」跟「本地選型」、不重複 paradigm 層的對比。

關鍵理解：reasoning model 不是「更聰明的 GPT-4」、是「同等聰明 base model + 學會把算力花在 reasoning 上」。底層 base model 依然是 Transformer、所有前面章節（attention、FFN、sampling）原理不變。

Reasoning model 的訓練流程

DeepSeek-R1 是第一個公開細節的開源 reasoning model、其 paper 揭示的訓練流程具有代表性：

 1Stage 1: Cold-start SFT
 2  用幾千份「高品質 long reasoning trace」資料 fine-tune base model
 3  目標：讓模型學會「該怎麼想」的 format
 4
 5Stage 2: Reasoning-focused RL
 6  Reward：最終答案正確（math / code / logic 等可機械驗證的任務）
 7  Policy：把 reasoning trace 越拉越長、越能正確、reward 越高
 8  約束：保留語言流暢度（不能 reasoning trace 變成亂碼）
 9  → 模型自發學會「困難問題想更久」
10
11Stage 3: SFT on reasoning + non-reasoning data
12  把 reasoning RL 學到的能力跟一般 instruct 能力 mix
13  避免「只會 reasoning、不會聊天」
14
15Stage 4: Final RLHF / DPO（可選）
16  跟 instruct model 同樣的 alignment 階段、refine helpfulness

關鍵特性：

Stage 2 的 reward 機械可驗證：math 答案、code unit test、logic 答案 — 不需要 human preference、所以可大量擴展訓練資料
Reasoning trace 是「emerge」出來的：訓練不直接告訴模型「該怎麼想」、只給「答案對不對」、模型自己摸索出最佳 reasoning strategy
跨任務 transfer 有限：reasoning model 在訓練分佈內任務（math、coding）強、跨到開放域對話、提升較小

DeepSeek-R1 distill 系列是另一條路：用 R1 full 模型產生 reasoning trace、再 SFT 一個小 base model（如 Qwen2.5-32B）— 讓較小模型也有 reasoning 能力、但跳過昂貴的 RL 階段。

Reasoning trace 的格式

主流 reasoning model 在推論時輸出 reasoning trace 的格式：

 1DeepSeek-R1 / Qwen-QwQ：用特殊 token 標記
 2  
 3  讓我先列出已知條件...先試 case 1...結果矛盾、改試 case 2...
 4  
 5  最終答案：X
 6
 7OpenAI o1：對使用者隱藏
 8  API 只回最終答案、但計費 reasoning token
 9  使用者看不到 reasoning trace 內容
10
11Claude 3.7 thinking：extended thinking field
12  API response 含 `extended_thinking` 跟 `text` 兩個 field
13  IDE / chat 介面通常折疊顯示 thinking 內容

實作層的關鍵考量：

Tokenizer 對 reasoning token 的處理：等特殊 token 在 vocab 中被保留、tokenizer 識別後不切碎
Context budget 分配：reasoning trace 通常 1000-10000 token、要預留 context window 容量
Streaming 行為：reasoning trace streaming 時、使用者看到「模型在想」、TTFT 變短但「first useful output」變長
Stop sequence：sampling 階段或對應結束 token 是 reasoning trace 的 terminator

本地可跑的 reasoning model

2026/5 時、本地寫 code 工作流可考慮的 reasoning model：

模型	大小	Q4 量化後記憶體	適合硬體	reasoning trace 平均 token
DeepSeek-R1-Distill-Qwen-7B	7B	~4 GB	16GB+ Mac / 16GB+ VRAM	500-2000
DeepSeek-R1-Distill-Qwen-14B	14B	~8 GB	24GB+ Mac / 16GB+ VRAM	1000-3000
DeepSeek-R1-Distill-Qwen-32B	32B	~18 GB	32GB+ Mac / 24GB+ VRAM	1500-5000
QwQ-32B	32B	~18 GB	32GB+ Mac / 24GB+ VRAM	2000-8000
DeepSeek-R1（full）	671B（MoE）	~140 GB	不實際本地跑	5000-30000

事實查核註：模型大小、量化體積、reasoning trace 長度是 2026/5 主流版本的常見數量級；具體數字隨量化等級、context 配置、任務類型而變、引用前以對應 model card 跟自己 llama-bench 跑為準。

選型判讀（個人 dev 場景）：

24GB Mac（M4 Pro）：可跑 14B distill、或 32B distill Q4 緊張、context 開小
32GB Mac（M4 Pro 升級）：跑 32B distill 舒服、context 32K+ 可開
48GB+ Mac（M4 Max）：跑 32B distill 寬鬆、可考慮 QwQ-32B 配 64K context
16GB+ VRAM PC：跑 14B distill；32B distill 屬 dense 架構（不是 MoE）、要用 dense CPU offload（部分層放 RAM、靠 PCIe 走、tok/s 受 PCIe 頻寬限制）、跟 MoE CPU offload 是不同的戰術
24GB+ VRAM PC（5090）：跑 32B distill 寬鬆

適合 reasoning model 的任務

Reasoning model 的優勢任務有明確 pattern：

任務類型	為什麼適合	案例
複雜 algorithm design	需要多步推理 + 探索多個解法	Leetcode hard、設計 sliding window 解法
棘手 debug	需要排除多種可能、追蹤跨檔案邏輯	「為什麼這個 race condition 偶爾出現」
Math / 量化分析	機械可驗證、模型訓練分佈內	估算系統 capacity、複雜利率計算
Multi-step refactor 規劃	需要看到整體影響、分階段	「把這個 service 拆成 3 個 microservice 的步驟」
系統設計取捨	多 dimension 比較、需要展開論證	「DB 該選 Postgres 還是 Cassandra」
解 obscure error	需要 reason about 多個可能根因	「kernel panic 訊息 X 可能來源」

不適合用 reasoning model 的任務（用 instruct model 即可）：

任務類型	為什麼不適合	改用
Autocomplete	reasoning trace 拉長 TTFT、體感變慢	Instruct 小模型（如 Qwen3-Coder-7B）
簡單 docstring / comment	過度推理、浪費 token	Instruct model
純翻譯 / 風格改寫	不需要 reasoning	Instruct model
高頻短查詢	每次 reasoning overhead 累積	Instruct model + KV cache
已知答案的查表	reasoning 反而引入錯誤	Instruct model
探索性 brainstorming	不需要「正確答案」、reasoning 反而限制創意	Instruct model + 高 temperature

判讀反射：先問「這任務有沒有客觀正確答案 + 是否需要多步推理」、兩者都 yes 才用 reasoning model。

Reasoning model + tool use

Reasoning model 跟 tool use 結合是 2026 新趨勢、典型形態：

1模型在 reasoning trace 中發現「需要驗證一個事實」
2  ↓
3呼叫 tool（calculator / web search / code interpreter）
4  ↓
5拿到結果、繼續 reasoning
6  ↓
7最終答案

代表場景：

Coding agent + reasoning：reasoning 階段規劃 refactor 步驟、tool use 階段執行 file edit、reasoning 階段檢查結果
Math / data analysis：reasoning 階段拆問題、code interpreter 跑 calculation、reasoning 階段解讀
Web 研究：reasoning 階段列出該查的事實、web search、reasoning 階段彙整

挑戰：

Reasoning trace + tool result 都進 context：context 用量爆炸快、需要 long context 模型（見 4.11 Long context engineering）
Tool use 訓練跟 reasoning 訓練是兩件事：本地 distill 模型 tool use 能力 = 對應 base model 的 tool use 能力、不一定強
Error recovery：reasoning 階段假設錯了、tool 回 error、模型要會 backtrack（agent loop 失敗模式）

實務上、本地 reasoning + agent 是「值得試、但仍處早期」階段；雲端 R1 / o3 / Claude thinking + Claude Code / Cursor 是現階段更穩的組合。

跟 instruct model 共存的混用策略

寫 code 場景的合理混用配置：

 1Default model（Continue.dev primary）：instruct model
 2  Qwen3-Coder-30B-Instruct / Gemma 4 31B Instruct
 3  日常 autocomplete、解釋、簡單 refactor
 4
 5Reasoning model（Continue.dev secondary、手動切）：local reasoning
 6  DeepSeek-R1-Distill-Qwen-32B / QwQ-32B
 7  困難 bug、algorithm、複雜 refactor 規劃
 8
 9Cloud fallback（手動切）：雲端旗艦
10  Claude 3.7 Sonnet thinking / GPT-5 / o3
11  本地 reasoning 卡住、或極困難任務

Continue.dev 的 multi-model config 可同時設多個、UI 下拉切換、不用重啟 server。安全 / 隱私面：reasoning trace 可能含敏感推理過程、跨雲端 / 本地邊界判讀同 6.4。

何時過時 / 何時不過時

不會過時的部分：

Test-time compute 作為一個獨立 scaling 維度的概念
Reasoning trace 結構（pre-answer reasoning + answer）
「適合 reasoning vs instruct」的判讀框架
「機械可驗證的 reward + RL」是 reasoning training 的核心
Reasoning model + tool use 的設計取捨

會變的部分：

具體 reasoning model（R1 → R2 → …、o1 → o3 → …、會持續迭代）
Reasoning trace 的具體格式（、extended thinking field、未來可能標準化）
本地可跑的模型選項（distill 系列會持續更新）
Reasoning 跟 agent 結合的最佳實踐（仍在演化）
是否會出現 reasoning paradigm 的下一個替代（如 neurosymbolic、multi-agent reasoning）

新 reasoning model 出來時、回到本章的 framing：訓練流程是否同 R1 pattern、reasoning trace 怎麼產出、本地能否跑、適用任務是否同樣 pattern — 多數新模型仍會 fit 進這個框架。

下一章：3.9 Speculative decoding 內部、看另一個推論時加速的技術細節。

LLM 寫 code 工程實務指南：從心智模型到應用架構

Tue, 12 May 2026 00:00:00 +0000

本指南的核心目標是把「LLM 在寫 code 工作流的完整工程地圖」拆成可決策、可實作、可期望管理的工程問題。範圍覆蓋四條讀者旅程：(1) 在自己機器跑本地 LLM 寫 code 的最短可行路徑（Mac 或 PC）、(2) 想懂 LLM 內部運作機制（數學 + 理論基礎）、(3) 想做 LLM 應用開發（RAG / agent / tool use / VLM / benchmarking / 靜態 deployment）、(4) 關心 LLM 工作流的安全議題（本地 dev 視角 + 靜態網站視角）。網路上的 LLM 文章常把推論框架、加速技巧、應用模式、安全議題混為一談；本指南先把這些名詞放回正確的層級、再回答各層的具體取捨。

本指南預設讀者已經會用過雲端 LLM（ChatGPT、Claude）、熟悉終端機操作、想以工程視角理解 LLM。寫 code 場景是主要使用例、但模組二 / 三 / 四 / 六多數章節跨場景通用：想懂 reasoning model / RAG / embedding model 內部、即使不裝本地 LLM 也能讀。硬體前提分兩條路線：Apple Silicon Mac（M1 ~ M4、統一記憶體）走模組一；Windows / Linux + 獨立 GPU（NVIDIA / AMD、獨立 VRAM + 系統 RAM）走模組五。文章不販賣 LLM 焦慮、也不誇大本地能取代雲端的程度；它的責任是給每條讀者旅程的最短可行路徑、並標出每個階段的取捨。

模組零（心智模型）是所有讀者旅程的共同前置。模組一跟模組五是「裝本地 LLM」的兩條硬體路線、依平台選一條；想懂底層走模組二跟模組三（跟硬體無關、含 reasoning model / speculative decoding 等推論細節）；想看 LLM 作為系統元件走模組四（12 章涵蓋 RAG、tool use、agent、應用層協議、workflow、production resource、long context、embedding model、benchmarking、vision、靜態 deployment）；本地工作流跑穩想看安全議題走模組六（個人 dev 視角的供應鏈、伺服器綁定、tool use 權限、prompt injection、跨雲端邊界、production routing）。

教材邊界

類型	放在本指南	不放在本指南
心智模型	本地 vs 雲端的差異、為何 LLM 生字慢、三層架構（介面 / 伺服器 / 模型）、OpenAI 相容 API	雲端 GPU 租用、AGI 預測
術語澄清	MLX、MTP、oMLX、speculative decoding、量化、KV cache、TTFT、MoE CPU 卸載	post-training fine-tuning 細節
Mac 硬體現實	記憶體預算與模型大小、量化選擇、首字延遲、風扇與功耗	雲端 GPU 租用、資料中心訓練
PC 硬體現實	VRAM + RAM 分層預算、MoE 專家層 CPU 卸載、KV cache 量化、PCIe 頻寬限制	多卡 NVLink、資料中心級分散式推論
本地推論伺服器	Ollama、LM Studio、llama.cpp（Mac + PC 通用）	vLLM、TGI、Triton 等資料中心級 inference server
編輯器整合	Continue.dev + VS Code、Cursor 對應關係	JetBrains 全套整合、Vim / Emacs 進階 plugin
模型挑選	coding 場景的模型優先順序、量化等級對體感影響	benchmark 跑分方法論的完整推導
期望管理	本地 LLM 的擅長領域與分工、混用雲端的時機	LLM 通用能力評估、AGI 預測
數學基礎	線性代數、機率與資訊論、最佳化、數值精度在 LLM 中的角色	完整數學證明、測度論等屬於數學系範圍的主題
理論基礎	神經網路、embedding、attention、Transformer、訓練流程、sampling、tokenization、跨語言原理	多模態擴展、最新研究細節交給 Stanford CS25
應用層原理	RAG、Tool use、Agent 架構、應用層協議、Workflow 編排、Production resource、Artifact 管理	具體 framework 教學（LangChain / LlamaIndex）、prompt engineering
進階理論	Reasoning models（o1 / R1 / QwQ 風格）、Speculative decoding 內部（drafter / MTP / EAGLE）	完整 paper 推導、最新研究 frontier
進階應用	Long context engineering、Embedding model 內部、Benchmarking、Vision in coding、靜態 / serverless RAG deployment	完整 LangChain / LlamaIndex 教學
Fine-tuning	原理（LoRA / QLoRA / catastrophic forgetting）+ 本機 hands-on	完整資料工程、large-scale distributed fine-tune
隱私 / 安全	隱私資料流、本地 dev 安全模組（供應鏈 / 伺服器綁定 / tool use / prompt injection / 跨雲端邊界 / production routing）、靜態網站 RAG 資安、排錯方法論	企業合規逐條檢核、SOC 2 / HIPAA 流程
進一步學習	數學公開課推薦、LLM 理論公開課推薦	（交給推薦的課程跟書籍）

學習路線

本指南分成七個模組加一組前置卡片（111 張）。讀者依目的選讀、不需要從頭到尾全讀：

想用 Apple Silicon Mac 裝本地 LLM 寫 code：讀模組零 + 模組一（最短路徑）
想用 Windows / Linux + 獨立 GPU 裝：讀模組零 + 模組五
想懂 LLM 內部原理：模組二（數學） + 模組三（理論、含 reasoning models / speculative decoding）— 跟硬體無關
想做 LLM 應用開發（含 RAG / agent / VLM / 靜態 deployment）：模組四（12 章、跨工具世代不變的原理）— 跟硬體無關
想懂本地工作流的安全議題：模組一 / 五跑穩後接模組六（個人 dev 視角）
想選 RAG 的 storage 方案（pickle / vector DB / hosted SaaS）：直接看 4.22 RAG storage 工程
想在靜態網站加 RAG / 智能搜尋：直接看 4.16 靜態 / serverless RAG deployment
想在本機 fine-tune 模型：模組三 3.4 訓練流程原理 → 本機 QLoRA hands-on
想跟最新進展接軌：讀完模組後進推薦的公開課程跟 paper（模組二 2.4 + 模組三 3.10）

前置知識卡片

用原子化卡片整理 token、自回歸、KV cache、量化、speculative decoding、MTP、MLX、推論伺服器、OpenAI 相容 API、memory bandwidth、統一記憶體、TTFT、prefill、context window、Transformer、Diffusion 等核心概念。章節文章專注情境推導、術語背景交由卡片維持一致。

模組零：基礎知識與心智模型

整理本地 vs 雲端 LLM 的差異、自回歸架構與記憶體頻寬瓶頸、介面 / 伺服器 / 模型三層心智模型、OpenAI 相容 API 為何重要、MLX / MTP / oMLX 三個容易搞混的術語、Apple Silicon Mac 記憶體與模型大小的對應關係、判讀本地 LLM 資訊的五個框架。

模組一：本地 LLM 服務的安裝與應用

整理 Ollama、LM Studio、llama.cpp 三個主流推論伺服器的現況差異與安裝路徑、用 Continue.dev 把本地 LLM 接到 VS Code 的完整步驟、寫 code 場景下模型選型的優先順序、本地模型的期望管理、想進一步玩 coding agent、Web UI、產圖時的延伸方向。

模組二：LLM 的數學基礎

整理 LLM 推論背後的數學工具：線性代數（向量、矩陣、空間）、機率與資訊論（softmax、cross-entropy、KL、perplexity）、微積分與最佳化（gradient、SGD / Adam）、數值精度（fp32 / bf16 / Q4 / Q8 的取捨）。每章末尾接到公開課推薦。

模組三：LLM 的理論基礎

整理 LLM 內部運作機制、共 11 章：神經網路基礎、embedding 空間、attention 機制、Transformer 架構、訓練流程（pre-train → SFT → RLHF / DPO）、sampling 策略、tokenization 算法、跨語言場景原理、Reasoning models（o1 / R1 / QwQ 等 test-time compute paradigm）、Speculative decoding 內部（drafter / MTP / EAGLE）。每章末尾接到公開課推薦（Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI）。

模組四：LLM 應用層原理

整理 LLM 作為系統元件的設計原理、共 12 章：RAG、tool use、agent 架構、應用層協議、workflow 編排模式、Production resource planning、衍生產物管理、Long context engineering、Embedding model 內部、Benchmarking 方法論、Vision in coding workflow（本地 VLM 接 IDE）、靜態 / serverless RAG deployment（沒 backend 場景）。本模組刻意只寫跨工具世代不變的原理、避開 LangChain / LlamaIndex 等具體 framework 教學。

模組五：Windows / Linux + 獨立 GPU

整理消費級 PC（Windows / Linux + NVIDIA / AMD 獨立 GPU）跑本地 LLM 的硬體判讀模型與工程選項：VRAM + RAM 分層預算、MoE 模型的 CPU 卸載策略（--n-cpu-moe）、KV cache 量化（K=Q8 / V=Q4）跟 context 長度的權衡、llama.cpp 在 PC 上的調參空間。本模組跟模組一是平行的硬體路線、共用模組零的心智模型跟卡片。

模組六：本地 LLM 的安全與權限

整理個人 dev 在自己機器上跑本地 LLM 的安全議題：模型供應鏈與信任邊界、推論伺服器的綁定與暴露範圍、tool use 與 MCP server 的權限模型、IDE 場景的 prompt injection、跨雲端 / 本地的資料邊界、跨進 production 的 routing 中樞。framing 是個人 dev 視角、不是 enterprise 資安管理；production / 多租戶 LLM 服務的特殊資安議題見 Backend 模組七資安與資料保護的 LLM 相關章節。

模組之間怎麼配合

模組	角度	跟其他模組的關係
模組零	操作層心智模型	是模組一跟模組五的共同前置
模組一	工具層、Mac 實際安裝	用模組零的詞彙、跟模組三的理論互補
模組二	數學工具	提供模組三需要的數學詞彙、跟硬體平台無關
模組三	理論機制	用模組二的工具拼出完整 LLM、跟硬體平台無關
模組四	應用層原理	用前面模組建的詞彙、看 LLM 作為系統元件
模組五	工具層、PC 獨立 GPU	跟模組一平行、用模組零的詞彙、處理 VRAM 場景
模組六	安全層、個人 dev 視角	在模組一 / 五的工作流上加安全判讀、cross-link backend/07 通用資安卡片

模組二跟模組三可並讀。閱讀模組三遇到陌生數學詞時跳回模組二補完、再回模組三繼續。模組四在前面模組之上、但讀者熟悉 LLM 應用詞彙也可直接從這裡讀起。模組一跟模組五依硬體選一條主路線、共用模組零的心智模型與 knowledge-cards。模組六在模組一 / 五跑穩後接、處理「跑起來後該注意什麼」。

適合的讀者

背景	適合程度	建議起點
用過 ChatGPT / Claude、沒碰過本地模型	直接適合	模組零從頭讀
裝過 Ollama 但被網路上的術語混淆	直接適合	MLX / MTP / oMLX 區分 + 判讀框架
想知道 24GB / 32GB Mac 該選哪個模型	直接適合	硬體記憶體預算 + 模型選型
想用本地 LLM 完全取代 Claude / GPT-5	部分適合	期望管理先看完再決定
想懂 LLM 內部運作機制	直接適合	模組三理論基礎從頭讀（含 reasoning models / speculative decoding）
想懂背後的數學	直接適合	模組二數學基礎從頭讀
想懂 o1 / DeepSeek-R1 等 reasoning model 怎麼運作	直接適合	3.8 Reasoning models 從頭讀
想做 LLM 應用開發（RAG / agent / tool use）	直接適合	模組四從 4.0 RAG 依序讀
想在自家 Hugo / Astro 等靜態網站加 RAG	直接適合	4.16 靜態 / serverless RAG deployment（含資安取捨）
想用 VLM 看截圖 / 設計稿輔助寫 code	直接適合	4.15 Vision in coding workflow
想評估 LLM benchmark 數字、做 in-house eval	直接適合	4.14 Benchmarking 方法論
想在本機 fine-tune 模型懂自家 codebase 慣例	直接適合	3.4 訓練流程原理 + QLoRA hands-on
想做 large-scale fine-tune / 從頭訓練	部分適合	讀完模組三後進入推薦的公開課程跟 Stanford CS336
用 Windows / Linux + NVIDIA / AMD 獨立 GPU 跑本地 LLM	直接適合	模組零建心智模型 + 模組五處理 VRAM 預算、MoE 卸載、KV cache 量化
想知道本地 LLM 跑起來後的安全議題	直接適合	模組六個人 dev 視角的安全與權限
想把 LLM 部署成 production 服務、處理服務化資安	部分適合	個人視角見模組六；production 場景見 Backend 模組七資安的 LLM 相關章節
想在資料中心級 GPU（H100 / H200 / B200）部署	部分適合	心智模型跟 knowledge-cards 通用；vLLM / TGI / Triton 等資料中心 inference server 另尋專門教材
想跑 Stable Diffusion / Midjourney 等產圖	跟主題不同	產圖是 Diffusion 架構、見 Diffusion 卡片、另尋 ComfyUI / Draw Things 教材

用語約定

本指南使用的關鍵術語在第一次出現時都附原文。為避免歧義，下列詞彙在本指南內固定指涉：

本地 LLM：跑在使用者自己機器（Mac 或 PC）上的大型語言模型推論、prompt 留在本機。
推論伺服器（inference server）：負責載入模型權重、處理 prompt、產生 token 的常駐程式、例如 Ollama、LM Studio 內建 server、llama.cpp server。
介面層：使用者實際打字互動的工具、例如 VS Code + Continue.dev、CLI、Web UI。介面層透過 API 跟推論伺服器溝通。
模型（model）：權重檔本身、例如 gemma4:31b、qwen3-coder:30b。模型可以在不同推論伺服器之間共用、前提是格式相容。
量化（quantization）：把模型權重從高精度（如 bf16）壓成低精度（如 Q4）以減少記憶體佔用、代價是少許品質下降。

不在本指南內的主題

本指南不討論：

Speech / audio LLM：跟核心文字 LLM 是不同方向、本指南不涵蓋。Vision（VLM）原本不放、但因 coding 工作流的 vision use case 進入主流、補上 4.15 Vision in coding workflow；video LLM 仍不放。
資料中心訓練的工程細節：data parallelism、ZeRO、tensor parallelism 等屬於專門課程的範圍。
向量資料庫的 vendor 比較（Pinecone vs Weaviate vs Chroma 等）：vendor 格局半年一變、不適合寫入教材。RAG 的 storage 工程原理（升級判讀、index 生命週期、dependency 約束）見 4.22 RAG storage 工程。
Kubernetes / 資料中心級分散式推論：跟個人機器本地 LLM 方向不同、需另尋專門教材。
多卡 NVLink、tensor parallelism：消費級 PC 場景通常單卡、本指南不涵蓋多卡分散式推論。

若讀完本指南後想往這些方向走：

想做 RAG 應用：先把 Ollama + Continue.dev 跑穩、再讀模組四 4.1 RAG 原理建立設計取捨判讀、或模組三 3.8 推薦的 DeepLearning.AI short courses。
想跑 coding agent：先讀 4.4 Agent 架構原理建立判讀、再看 1.6 延伸方向了解 aider、Cline 等工具的定位差異。
想跑產圖模型：Diffusion 跟 Transformer 是不同架構、請另尋 ComfyUI / Draw Things / Diffusers 教材。
想自己訓練 / fine-tune：讀完模組三、進入 Karpathy zero-to-hero、Stanford CS336、Hugging Face NLP Course 等推薦資源。

文件版本：v0.7.0 最後更新：2026-05-12 系列狀態：七個模組 + 125 張知識卡片。模組零（9 章）/ 一（10 章 + hands-on、含 QLoRA + judge harness）/ 二（5 章）/ 三（12 章、含 reasoning / speculative / constrained decoding）/ 四（17 章、含 long context / embedding / benchmarking / VLM / 靜態 deployment / coding agent harness / prompt caching / agent memory / tracing / LLM-as-judge）/ 五（7 章）/ 六（7 章、含 OWASP 對照）。