Inference on Tarragon

Acceptance Rate

Tue, 12 May 2026 00:00:00 +0000

Acceptance rate（接受率）的核心概念是「在 speculative decoding 中、drafter 提出的 token 序列被 target model 驗證後接受的比例」。Acceptance rate 直接決定 speculative decoding 的實際加速倍率：高 acceptance rate（如 0.8）能拉出接近理論上限的加速；低 acceptance rate（如 0.3）可能反而比純 target model 慢。

概念位置

Speculative decoding 一個 step 的流程：

11. Drafter 一次生 K 個候選 token（如 K=5）
22. Target model 對「prefix + 這 K 個 token」並行驗證
33. 從前往後：
4 - drafter token i 跟 target 第 i 個位置 sampling 一致 → 接受
5 - 第一個不一致 → 接受到此為止、用 target 的 token 取代第一個不一致
64. 若全 K 個都接受、target 再 sample 一個 bonus token

Acceptance rate 影響：

場景	Acceptance rate	實際加速
Drafter 跟 target 高度同分佈	0.8 ~ 0.95	接近 K 倍上限
Drafter / target 一般搭配	0.5 ~ 0.7	約 1.5 ~ 2× 加速
Drafter 訓練分佈差很多	0.2 ~ 0.4	接近 1×（甚至更慢）
Drafter / target tokenizer 不一致	不能用	概念不成立

影響 acceptance rate 的因素

Drafter / target 同 family：同訓練分佈、acceptance rate 高（如 Gemma 4 31B + Gemma 4 E4B）
任務難度：簡單任務（boilerplate、常見 pattern）drafter 容易猜對；困難任務（reasoning、罕見領域）acceptance rate 降
Sampling temperature：高 temperature 兩邊 sample 分佈都拉平、隨機性增加、acceptance rate 降；T=0（greedy）acceptance rate 最高
K 設太大：drafter 越往後預測、累積誤差越大、後半段 token acceptance rate 急降；K 通常設 3-5 為甜蜜點

設計責任

讀 speculative decoding 設定 / model card 看到「draft acceptance」「acceptance length」就是這指標。寫 code 場景的判讀：

挑 drafter 看 family + 大小：drafter 跟 target 同 family（如 Gemma 4 31B + Gemma 4 E4B、Qwen3-30B + Qwen3-1.5B）是 acceptance rate 最高的組合
llama-bench 量實際加速比理論 K 倍重要：理論加速 = K × acceptance rate、實測才知道 drafter 在自己工作流的真實表現
太低的 acceptance rate 是訊號：< 0.3 通常表示 drafter / target 不匹配、值得換 drafter；< 0.5 表示甜蜜點以下、可調 K 或 sampling 設定
MTP（Multi-Token Prediction）：把 drafter 改成 target 內建多預測 head、acceptance rate 通常更高（因為 head 跟 target 完全同分佈）

Forward Pass

Tue, 12 May 2026 00:00:00 +0000

Forward pass（前向傳播）的核心概念是「input 從第一層算到最後一層、得到 output 的單向計算流程」。LLM 推論時生成一個 token、就是跑一次 forward pass；訓練時、每個 batch 也都先跑 forward pass 算出 loss、再跑 backpropagation 算 gradient。

概念位置

LLM 一次 forward pass 的大略流程：

 1input token IDs
 2 ↓ embedding layer：整數 → 向量
 3sequence of vectors
 4 ↓ Transformer block 1（attention + FFN）
 5 ↓ Transformer block 2
 6 ↓ ...
 7 ↓ Transformer block N
 8final hidden state
 9 ↓ output projection（hidden → vocab）
10logits（每個 vocab token 一個分數）
11 ↓ softmax（推論時）
12probability distribution → 挑下一個 token

跟相關概念的對比：

概念	跟 forward pass 的關係
Prefill	Prompt 階段的「一次性 forward pass」、所有 prompt token 並行
Decode 階段	每生一個 token 跑一次 forward pass、序列化、慢
Speculative decoding	一次 forward pass 同時驗證多個猜測 token
Backpropagation	訓練時 forward pass 的反向延伸、推論不需要

設計責任

理解 forward pass 後可以判讀 LLM 的記憶體與速度：每次 forward pass 都要把整份模型權重從記憶體讀到處理器一次、所以 memory bandwidth 是推論瓶頸；KV cache 的存在是為了避免每次 forward pass 重算前面 token 的 K/V；MTP / speculative decoding 都是「一次 forward pass 攤平多個 token 成本」的優化路徑。

Test-Time Compute

Tue, 12 May 2026 00:00:00 +0000

Test-time compute（推論時計算）的核心概念是「在推論階段花更多計算量、換取更高品質的答案」、不是只在訓練時投入算力。是 2024-2026 LLM 的 paradigm shift：GPT-3 → GPT-4 主要靠「更大模型 + 更多訓練資料」；o1 / DeepSeek-R1 → 主要靠「同模型、推論時想更久」。

概念位置

LLM 算力分配的兩條軸：

 1Training compute（訓練算力）：
 2 pre-training 大量 GPU-hour → 模型參數
 3 一次性投入、後續推論不變
 4 → GPT-3 → 4 的主要 paradigm
 5
 6Test-time compute（推論算力）：
 7 每次推論時、視任務難度動態增加算力
 8 難題想 30 秒（生 5000 token reasoning trace）
 9 簡單問題 1 秒結束（直接答）
10 → o1 / R1 / Claude thinking 的新 paradigm

Test-time compute 的常見實作形式：

形式	機制	代表
Chain-of-thought 內建	模型訓練成「自然」用長 reasoning trace、直接生 thinking + answer	o1、DeepSeek-R1、Qwen-QwQ、Claude thinking
Best-of-N sampling	同 prompt 跑 N 次、reward model 選最好的	OpenAI early experiments、verifier-based
Tree search	結構化探索多條 reasoning path	AlphaCode、tree of thoughts
Self-consistency	多次 sample reasoning、投票選最常見答案	早期 CoT prompting 技巧
Tool use + verification	模型呼叫 calculator / interpreter 驗證自己	Coding agent、math 解題 agent

DeepSeek-R1 paper 顯示「reasoning trace 長度跟 benchmark 表現正相關、可透過 RL 拉長」— 把 test-time compute 變成可訓練、可 scale 的維度。

設計責任

讀 paper / benchmark 看到「pass@1 vs pass@10」「budget tokens」「thinking time」等就跟 test-time compute 相關。寫 code 場景的判讀：

Reasoning model 算成本翻倍：同一個 prompt、reasoning model 生 5000 token thinking + 500 token answer、傳統 model 直接生 500 token answer、推論成本差 ~10 倍
本地跑 reasoning model 的痛點：需要長 context window 容納 thinking trace、生成時間長
適用任務挑選：複雜 reasoning（math、debug、long horizon planning）值得花 test-time compute；簡單任務（autocomplete、查詢）不值得
混用策略：日常用 instruct model、困難任務切到 reasoning model、是個人 dev 常見模式

LLM 寫 code 工程實務指南：從心智模型到應用架構

Tue, 12 May 2026 00:00:00 +0000

本指南的核心目標是把「LLM 在寫 code 工作流的完整工程地圖」拆成可決策、可實作、可期望管理的工程問題。範圍覆蓋四條讀者旅程：(1) 在自己機器跑本地 LLM 寫 code 的最短可行路徑（Mac 或 PC）、(2) 想懂 LLM 內部運作機制（數學 + 理論基礎）、(3) 想做 LLM 應用開發（RAG / agent / tool use / VLM / benchmarking / 靜態 deployment）、(4) 關心 LLM 工作流的安全議題（本地 dev 視角 + 靜態網站視角）。網路上的 LLM 文章常把推論框架、加速技巧、應用模式、安全議題混為一談；本指南先把這些名詞放回正確的層級、再回答各層的具體取捨。

本指南預設讀者已經會用過雲端 LLM（ChatGPT、Claude）、熟悉終端機操作、想以工程視角理解 LLM。寫 code 場景是主要使用例、但模組二 / 三 / 四 / 六多數章節跨場景通用：想懂 reasoning model / RAG / embedding model 內部、即使不裝本地 LLM 也能讀。硬體前提分兩條路線：Apple Silicon Mac（M1 ~ M4、統一記憶體）走模組一；Windows / Linux + 獨立 GPU（NVIDIA / AMD、獨立 VRAM + 系統 RAM）走模組五。文章不販賣 LLM 焦慮、也不誇大本地能取代雲端的程度；它的責任是給每條讀者旅程的最短可行路徑、並標出每個階段的取捨。

模組零（心智模型）是所有讀者旅程的共同前置。模組一跟模組五是「裝本地 LLM」的兩條硬體路線、依平台選一條；想懂底層走模組二跟模組三（跟硬體無關、含 reasoning model / speculative decoding 等推論細節）；想看 LLM 作為系統元件走模組四（12 章涵蓋 RAG、tool use、agent、應用層協議、workflow、production resource、long context、embedding model、benchmarking、vision、靜態 deployment）；本地工作流跑穩想看安全議題走模組六（個人 dev 視角的供應鏈、伺服器綁定、tool use 權限、prompt injection、跨雲端邊界、production routing）。

教材邊界

類型	放在本指南	不放在本指南
心智模型	本地 vs 雲端的差異、為何 LLM 生字慢、三層架構（介面 / 伺服器 / 模型）、OpenAI 相容 API	雲端 GPU 租用、AGI 預測
術語澄清	MLX、MTP、oMLX、speculative decoding、量化、KV cache、TTFT、MoE CPU 卸載	post-training fine-tuning 細節
Mac 硬體現實	記憶體預算與模型大小、量化選擇、首字延遲、風扇與功耗	雲端 GPU 租用、資料中心訓練
PC 硬體現實	VRAM + RAM 分層預算、MoE 專家層 CPU 卸載、KV cache 量化、PCIe 頻寬限制	多卡 NVLink、資料中心級分散式推論
本地推論伺服器	Ollama、LM Studio、llama.cpp（Mac + PC 通用）	vLLM、TGI、Triton 等資料中心級 inference server
編輯器整合	Continue.dev + VS Code、Cursor 對應關係	JetBrains 全套整合、Vim / Emacs 進階 plugin
模型挑選	coding 場景的模型優先順序、量化等級對體感影響	benchmark 跑分方法論的完整推導
期望管理	本地 LLM 的擅長領域與分工、混用雲端的時機	LLM 通用能力評估、AGI 預測
數學基礎	線性代數、機率與資訊論、最佳化、數值精度在 LLM 中的角色	完整數學證明、測度論等屬於數學系範圍的主題
理論基礎	神經網路、embedding、attention、Transformer、訓練流程、sampling、tokenization、跨語言原理	多模態擴展、最新研究細節交給 Stanford CS25
應用層原理	RAG、Tool use、Agent 架構、應用層協議、Workflow 編排、Production resource、Artifact 管理	具體 framework 教學（LangChain / LlamaIndex）、prompt engineering
進階理論	Reasoning models（o1 / R1 / QwQ 風格）、Speculative decoding 內部（drafter / MTP / EAGLE）	完整 paper 推導、最新研究 frontier
進階應用	Long context engineering、Embedding model 內部、Benchmarking、Vision in coding、靜態 / serverless RAG deployment	完整 LangChain / LlamaIndex 教學
Fine-tuning	原理（LoRA / QLoRA / catastrophic forgetting）+ 本機 hands-on	完整資料工程、large-scale distributed fine-tune
隱私 / 安全	隱私資料流、本地 dev 安全模組（供應鏈 / 伺服器綁定 / tool use / prompt injection / 跨雲端邊界 / production routing）、靜態網站 RAG 資安、排錯方法論	企業合規逐條檢核、SOC 2 / HIPAA 流程
進一步學習	數學公開課推薦、LLM 理論公開課推薦	（交給推薦的課程跟書籍）

學習路線

本指南分成七個模組加一組前置卡片（111 張）。讀者依目的選讀、不需要從頭到尾全讀：

想用 Apple Silicon Mac 裝本地 LLM 寫 code：讀模組零 + 模組一（最短路徑）
想用 Windows / Linux + 獨立 GPU 裝：讀模組零 + 模組五
想懂 LLM 內部原理：模組二（數學） + 模組三（理論、含 reasoning models / speculative decoding）— 跟硬體無關
想做 LLM 應用開發（含 RAG / agent / VLM / 靜態 deployment）：模組四（12 章、跨工具世代不變的原理）— 跟硬體無關
想懂本地工作流的安全議題：模組一 / 五跑穩後接模組六（個人 dev 視角）
想選 RAG 的 storage 方案（pickle / vector DB / hosted SaaS）：直接看 4.22 RAG storage 工程
想在靜態網站加 RAG / 智能搜尋：直接看 4.16 靜態 / serverless RAG deployment
想在本機 fine-tune 模型：模組三 3.4 訓練流程原理 → 本機 QLoRA hands-on
想跟最新進展接軌：讀完模組後進推薦的公開課程跟 paper（模組二 2.4 + 模組三 3.10）

前置知識卡片

用原子化卡片整理 token、自回歸、KV cache、量化、speculative decoding、MTP、MLX、推論伺服器、OpenAI 相容 API、memory bandwidth、統一記憶體、TTFT、prefill、context window、Transformer、Diffusion 等核心概念。章節文章專注情境推導、術語背景交由卡片維持一致。

模組零：基礎知識與心智模型

整理本地 vs 雲端 LLM 的差異、自回歸架構與記憶體頻寬瓶頸、介面 / 伺服器 / 模型三層心智模型、OpenAI 相容 API 為何重要、MLX / MTP / oMLX 三個容易搞混的術語、Apple Silicon Mac 記憶體與模型大小的對應關係、判讀本地 LLM 資訊的五個框架。

模組一：本地 LLM 服務的安裝與應用

整理 Ollama、LM Studio、llama.cpp 三個主流推論伺服器的現況差異與安裝路徑、用 Continue.dev 把本地 LLM 接到 VS Code 的完整步驟、寫 code 場景下模型選型的優先順序、本地模型的期望管理、想進一步玩 coding agent、Web UI、產圖時的延伸方向。

模組二：LLM 的數學基礎

整理 LLM 推論背後的數學工具：線性代數（向量、矩陣、空間）、機率與資訊論（softmax、cross-entropy、KL、perplexity）、微積分與最佳化（gradient、SGD / Adam）、數值精度（fp32 / bf16 / Q4 / Q8 的取捨）。每章末尾接到公開課推薦。

模組三：LLM 的理論基礎

整理 LLM 內部運作機制、共 11 章：神經網路基礎、embedding 空間、attention 機制、Transformer 架構、訓練流程（pre-train → SFT → RLHF / DPO）、sampling 策略、tokenization 算法、跨語言場景原理、Reasoning models（o1 / R1 / QwQ 等 test-time compute paradigm）、Speculative decoding 內部（drafter / MTP / EAGLE）。每章末尾接到公開課推薦（Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI）。

模組四：LLM 應用層原理

整理 LLM 作為系統元件的設計原理、共 12 章：RAG、tool use、agent 架構、應用層協議、workflow 編排模式、Production resource planning、衍生產物管理、Long context engineering、Embedding model 內部、Benchmarking 方法論、Vision in coding workflow（本地 VLM 接 IDE）、靜態 / serverless RAG deployment（沒 backend 場景）。本模組刻意只寫跨工具世代不變的原理、避開 LangChain / LlamaIndex 等具體 framework 教學。

模組五：Windows / Linux + 獨立 GPU

整理消費級 PC（Windows / Linux + NVIDIA / AMD 獨立 GPU）跑本地 LLM 的硬體判讀模型與工程選項：VRAM + RAM 分層預算、MoE 模型的 CPU 卸載策略（--n-cpu-moe）、KV cache 量化（K=Q8 / V=Q4）跟 context 長度的權衡、llama.cpp 在 PC 上的調參空間。本模組跟模組一是平行的硬體路線、共用模組零的心智模型跟卡片。

模組六：本地 LLM 的安全與權限

整理個人 dev 在自己機器上跑本地 LLM 的安全議題：模型供應鏈與信任邊界、推論伺服器的綁定與暴露範圍、tool use 與 MCP server 的權限模型、IDE 場景的 prompt injection、跨雲端 / 本地的資料邊界、跨進 production 的 routing 中樞。framing 是個人 dev 視角、不是 enterprise 資安管理；production / 多租戶 LLM 服務的特殊資安議題見 Backend 模組七資安與資料保護的 LLM 相關章節。

模組之間怎麼配合

模組	角度	跟其他模組的關係
模組零	操作層心智模型	是模組一跟模組五的共同前置
模組一	工具層、Mac 實際安裝	用模組零的詞彙、跟模組三的理論互補
模組二	數學工具	提供模組三需要的數學詞彙、跟硬體平台無關
模組三	理論機制	用模組二的工具拼出完整 LLM、跟硬體平台無關
模組四	應用層原理	用前面模組建的詞彙、看 LLM 作為系統元件
模組五	工具層、PC 獨立 GPU	跟模組一平行、用模組零的詞彙、處理 VRAM 場景
模組六	安全層、個人 dev 視角	在模組一 / 五的工作流上加安全判讀、cross-link backend/07 通用資安卡片

模組二跟模組三可並讀。閱讀模組三遇到陌生數學詞時跳回模組二補完、再回模組三繼續。模組四在前面模組之上、但讀者熟悉 LLM 應用詞彙也可直接從這裡讀起。模組一跟模組五依硬體選一條主路線、共用模組零的心智模型與 knowledge-cards。模組六在模組一 / 五跑穩後接、處理「跑起來後該注意什麼」。

適合的讀者

背景	適合程度	建議起點
用過 ChatGPT / Claude、沒碰過本地模型	直接適合	模組零從頭讀
裝過 Ollama 但被網路上的術語混淆	直接適合	MLX / MTP / oMLX 區分 + 判讀框架
想知道 24GB / 32GB Mac 該選哪個模型	直接適合	硬體記憶體預算 + 模型選型
想用本地 LLM 完全取代 Claude / GPT-5	部分適合	期望管理先看完再決定
想懂 LLM 內部運作機制	直接適合	模組三理論基礎從頭讀（含 reasoning models / speculative decoding）
想懂背後的數學	直接適合	模組二數學基礎從頭讀
想懂 o1 / DeepSeek-R1 等 reasoning model 怎麼運作	直接適合	3.8 Reasoning models 從頭讀
想做 LLM 應用開發（RAG / agent / tool use）	直接適合	模組四從 4.0 RAG 依序讀
想在自家 Hugo / Astro 等靜態網站加 RAG	直接適合	4.16 靜態 / serverless RAG deployment（含資安取捨）
想用 VLM 看截圖 / 設計稿輔助寫 code	直接適合	4.15 Vision in coding workflow
想評估 LLM benchmark 數字、做 in-house eval	直接適合	4.14 Benchmarking 方法論
想在本機 fine-tune 模型懂自家 codebase 慣例	直接適合	3.4 訓練流程原理 + QLoRA hands-on
想做 large-scale fine-tune / 從頭訓練	部分適合	讀完模組三後進入推薦的公開課程跟 Stanford CS336
用 Windows / Linux + NVIDIA / AMD 獨立 GPU 跑本地 LLM	直接適合	模組零建心智模型 + 模組五處理 VRAM 預算、MoE 卸載、KV cache 量化
想知道本地 LLM 跑起來後的安全議題	直接適合	模組六個人 dev 視角的安全與權限
想把 LLM 部署成 production 服務、處理服務化資安	部分適合	個人視角見模組六；production 場景見 Backend 模組七資安的 LLM 相關章節
想在資料中心級 GPU（H100 / H200 / B200）部署	部分適合	心智模型跟 knowledge-cards 通用；vLLM / TGI / Triton 等資料中心 inference server 另尋專門教材
想跑 Stable Diffusion / Midjourney 等產圖	跟主題不同	產圖是 Diffusion 架構、見 Diffusion 卡片、另尋 ComfyUI / Draw Things 教材

用語約定

本指南使用的關鍵術語在第一次出現時都附原文。為避免歧義，下列詞彙在本指南內固定指涉：

本地 LLM：跑在使用者自己機器（Mac 或 PC）上的大型語言模型推論、prompt 留在本機。
推論伺服器（inference server）：負責載入模型權重、處理 prompt、產生 token 的常駐程式、例如 Ollama、LM Studio 內建 server、llama.cpp server。
介面層：使用者實際打字互動的工具、例如 VS Code + Continue.dev、CLI、Web UI。介面層透過 API 跟推論伺服器溝通。
模型（model）：權重檔本身、例如 gemma4:31b、qwen3-coder:30b。模型可以在不同推論伺服器之間共用、前提是格式相容。
量化（quantization）：把模型權重從高精度（如 bf16）壓成低精度（如 Q4）以減少記憶體佔用、代價是少許品質下降。

不在本指南內的主題

本指南不討論：

Speech / audio LLM：跟核心文字 LLM 是不同方向、本指南不涵蓋。Vision（VLM）原本不放、但因 coding 工作流的 vision use case 進入主流、補上 4.15 Vision in coding workflow；video LLM 仍不放。
資料中心訓練的工程細節：data parallelism、ZeRO、tensor parallelism 等屬於專門課程的範圍。
向量資料庫的 vendor 比較（Pinecone vs Weaviate vs Chroma 等）：vendor 格局半年一變、不適合寫入教材。RAG 的 storage 工程原理（升級判讀、index 生命週期、dependency 約束）見 4.22 RAG storage 工程。
Kubernetes / 資料中心級分散式推論：跟個人機器本地 LLM 方向不同、需另尋專門教材。
多卡 NVLink、tensor parallelism：消費級 PC 場景通常單卡、本指南不涵蓋多卡分散式推論。

若讀完本指南後想往這些方向走：

想做 RAG 應用：先把 Ollama + Continue.dev 跑穩、再讀模組四 4.1 RAG 原理建立設計取捨判讀、或模組三 3.8 推薦的 DeepLearning.AI short courses。
想跑 coding agent：先讀 4.4 Agent 架構原理建立判讀、再看 1.6 延伸方向了解 aider、Cline 等工具的定位差異。
想跑產圖模型：Diffusion 跟 Transformer 是不同架構、請另尋 ComfyUI / Draw Things / Diffusers 教材。
想自己訓練 / fine-tune：讀完模組三、進入 Karpathy zero-to-hero、Stanford CS336、Hugging Face NLP Course 等推薦資源。

文件版本：v0.7.0 最後更新：2026-05-12 系列狀態：七個模組 + 125 張知識卡片。模組零（9 章）/ 一（10 章 + hands-on、含 QLoRA + judge harness）/ 二（5 章）/ 三（12 章、含 reasoning / speculative / constrained decoding）/ 四（17 章、含 long context / embedding / benchmarking / VLM / 靜態 deployment / coding agent harness / prompt caching / agent memory / tracing / LLM-as-judge）/ 五（7 章）/ 六（7 章、含 OWASP 對照）。