Hands-On on Tarragon

Case Study：customer support agent 從 task decomposition 到 eval

Thu, 14 May 2026 00:00:00 +0000

本案例的責任是把模組四前面所有原理章節串成一個端到端的設計過程、示範遇到實際 LLM 應用任務時、設計反射動作的順序。每段都標出引用哪章原理、讓讀者看到 principle 章節怎麼落到具體工作。

用作走查的任務：PM 交派「做一個 customer support agent、能處理用戶查詢、必要時自動完成操作（如改地址）。」本案例聚焦「改地址」這個高頻 query type 走完整流程。

本案例的設計反射

整個流程分七階段：

觀察人類工作流：訪談、決定 task decomposition
典範定位：哪段該 deterministic、哪段該 fuzzy
工作流設計：每個 step 選對應的 LLM / tool / RAG / HITL 形態
協議跟自主度決定：是 single agent / multi-call / multi-agent
Trace instrumentation：哪些資訊要記
Eval 設計：先選座標、再選工具
Iteration loop：error analysis → 修哪一層 → 看 metric 收斂

初次設計 LLM 應用時最常省略階段 1、2、5、6、直接跳到階段 3 開始寫 prompt——這條路會走進「prompt 改了 20 版、無法判讀有沒有變好」的迭代無收斂。本案例強調的是設計反射動作的順序、不是寫 prompt 技巧。

階段 1：觀察人類工作流

PM 給的任務描述是「處理用戶查詢」、但「查詢」涵蓋的範圍可能很大。第一個反射動作是坐在客服旁邊觀察兩天、不是打開 IDE。

實際做的事：

統計收到的 query 類型分佈（退款 / 改地址 / 查詢訂單狀態 / 抱怨 / 開放問題各佔多少）。
看每類 query 的 human resolution 流程（哪幾步、要查哪些系統、要遵守哪些 policy）。
看哪幾類 query 是 high volume + low complexity（最值得自動化）、哪幾類是 low volume + high complexity（自動化 ROI 差）。
記下 human 在哪些 step 卡住、哪些 step 反覆需要查同樣資料。

訪談結束、你得到一張 task decomposition map。本案例假設聚焦在「用戶請求改地址」這個高頻 query type：

1User: 「我搬家了、訂單編號 #12345、新地址是 ___」
2   ↓
31. 解析意圖 + 抽取訊息（訂單編號、新地址）
42. 查訂單狀態（已出貨？未出貨？已送達？）
53. 查 policy（這個訂單狀態 + user tier 能不能改地址？）
64. 若可：執行改地址（呼叫物流 / 庫存 API）
75. 若不可：解釋為什麼、給替代方案
86. 草擬回覆 email、發出

引用原理：這個 decomposition 本身對應 0.8 fuzzy engineering（deterministic-vs-fuzzy 卡）的「先分解任務、再判讀每段該 deterministic 還是 fuzzy」。

階段 2：典範定位

對每個 step 做典範定位（deterministic / fuzzy）：

Step	典範	為什麼
1. 解析意圖 + 抽取訊息	Fuzzy	自由文字 input、需要 LLM 理解
2. 查訂單狀態	Deterministic	結構化 query（給 order_id、回 status）
3. 查 policy	Deterministic	規則可窮舉、policy as code
4. 執行改地址	Deterministic	API call、有 schema 跟錯誤碼
5. 解釋 / 給替代方案	Fuzzy	要寫人話、要 tailored to 情境
6. 草擬 email + 發出	Fuzzy（草擬）+ Deterministic（發送）	寫 email 是 fuzzy、發 API call 是 deterministic

判讀的重點是邊界各歸各位：規則跟政策走 code、人話跟意圖解析走 LLM。

Policy check 寫成 code（如「user tier + 訂單狀態 → 能否改地址」是 deterministic 規則）。對應反例：把規則塞進 prompt 讓 LLM 判斷、會偶爾跳過規則或誤判 tier。
「能不能做」這類 yes/no 走規則。對應反例：用 LLM 算判斷、debug 困難且非確定性。
「Helpful 的回覆」走 LLM 寫。對應反例：在 code 內 hard-code 模板、變成僵化的客服機器人腔。

最容易混的邊界在 step 6：「草擬 email」是 fuzzy（要寫人話、tailor to 情境）、「發送 email」是 deterministic（呼叫 API、處理錯誤碼）。把這兩件事拆開、草擬可以 retry / 改 prompt 不影響發送邏輯、發送有結構化 error 不被 LLM hallucinate 蓋過。Step 4「執行改地址」也類似：tool call 本身 deterministic、但是否該 call 的判讀回到 step 3 的 policy check。

引用原理：0.8 fuzzy engineering 的「哪段該 deterministic / 哪段該 fuzzy」決策框架、特別是反模式「邊界用錯」段。

階段 3：工作流設計

對每個 step 選對應的工具：

Step	設計選擇
1. 解析意圖 + 抽取訊息	Vanilla LLM call + structured output（output 強制 JSON schema：intent / order_id / new_address）
2. 查訂單狀態	Tool call → 內部 order API
3. 查 policy	Tool call → policy engine（純 deterministic、不過 LLM）
4. 執行改地址	Tool call → logistics API、寫操作前要 pre-act HITL（高風險 + 不可逆）
5. 解釋 / 給替代方案	LLM call + few-shot（從 case 庫 retrieve「類似情境怎麼解釋」、配 RAG）
6. 草擬 email + 發出	LLM call 寫 email + structured output 含 subject/body、發送透過 email API

兩個容易選錯的 step 展開：

Step 1 為何要 structured output、不是純 prompt 解析：抽取結果要餵 step 2-4 的 deterministic tool、order_id 抽錯就整個流程斷。純 prompt 描述「請輸出 JSON」是弱保證、structured output / constrained decoding 是強保證（見 3.10 constrained decoding 內部）。Trade-off：強格式可能犧牲表達彈性、但這個 step 不需要彈性、要的是可靠。

Step 5 為何配 RAG 而非純 few-shot：客服 case 涵蓋多種情境（訂單已出貨 / 已送達 / VIP / 一般 user / 不同國家 policy）、固定 few-shot 範例 cover 不全。RAG 從歷史 case 庫即時 retrieve 最相似的解釋範例、屬於 4.0 prompt 技術光譜 context 軸的 retrieval-augmented prompting。

引用原理：

Step 1 的 structured output → 4.6 應用層協議
Step 2-4 的 tool 設計 → 4.3 tool use
Step 4 的 pre-act HITL → 4.5 人機協作拓樸 pre-act 段。對比講座 Workera appeal 是 post-hoc、本案例選 pre-act 是因為改地址不可逆 + 物流影響大、必須在執行前審
Step 5 的 RAG → 4.1 RAG 原理 + 4.0 prompt 技術光譜 context 軸

階段 4：協議跟自主度決定

這個工作流的控制流是線性的（1→2→3→4→5→6）、有條件分支（step 3 結果決定走 4 還是 5）、但每步順序固定。判讀：

該用什麼結構：

不適用 Multi-agent：步驟順序固定、角色差異不大、orchestration overhead 純增。
不適用 Single agent loop（model 自決下一步）：本案例假設 single-turn / 短多 turn、步驟順序明確、不需要 agent 自決。若 user 互動多輪 + turn 數不固定（如 user 中途補資訊、改主意、追問）、可考慮 agent loop。
採用 Multi-call pipeline + router：寫成 deterministic pipeline、step 3 後有 router 分流。

引用原理：

4.8 multi-agent 拓樸的「先 multi-call、不夠再 multi-agent」反射
4.7 workflow patterns 的 pipeline + router 模式
4.4 agent 架構的「先 single-call、不夠再 agent」反射

自主度：

Step 1（parse）、5（解釋）、6（草擬 email）：full auto。
Step 2、3（查訂單、查 policy）：full auto（read-only）。
Step 4（執行改地址）：pre-act HITL（高風險 + 不可逆）、有 diff show、user 可以 reject。
Step 6（發 email）：可選 pre-act HITL（看公司風格、保守版要審 email、激進版自動發）。

階段 5：Trace Instrumentation

工作流上線前、先設計要記哪些資訊。Eval 跟 debug 都靠 trace、沒 trace 後面什麼都做不了。

每個 step 要記：

欄位	為什麼
Input（完整）	Debug 時要重現
Output（完整）	比對預期、做 regression set
Latency	找 bottleneck
Token cost	算成本
Step name + version	追蹤是哪個版本的 prompt / tool
Decision branch	Step 3 的 router 走哪邊
Error（若有）	結構化 error、不是 string

整段 trace 要綁同一個 conversation_id、可以後面 join 起來看完整流程。

引用原理：4.20 LLM tracing。

階段 6：Eval 設計

先選座標、再選工具。對本案例的每個 eval 需求、用 4.13 三軸座標定位。下面列的 threshold 數字（95%、80%、≥4 等）是 illustrative、實際數字隨產品 baseline、user 容忍度、業務代價而定、不是通用標準。

Eval 1：Step 1 抽取準不準

三軸：Objective（有 ground truth）+ Component（測單 step）+ Quantitative（accuracy）。
工具：寫 100 個有標註的 query、跑 step 1、看 extraction accuracy（order_id 對 + new_address 對的比例）。
Threshold：< 95% 不上線。

Eval 2：Step 2-4 tool call 行為正確

三軸：Objective + Component + Quantitative。
工具：mock API、給 step 2-4 各 50 個 case、看 tool call 參數對不對、返回值處理對不對。
Threshold：100%（這是 deterministic 行為、不該有錯）。

Eval 3：Step 5 解釋品質

三軸：Subjective（沒有單一正解）+ Component + Quantitative。
工具：LLM-as-judge with rubric（clarity / helpfulness / tone）、scale 1-5、aggregate average。
Threshold：average ≥ 4、no 1-2 比例 < 5%。

Eval 4：Step 6 email 品質

三軸：Subjective + Component + Quantitative + 加 Qualitative human review。
工具：LLM judge 給分 + 每週抽 20 封 human review、看是否有 hallucinate 承諾、是否符合公司 tone。
Threshold：judge 平均 ≥ 4、human review 沒有 critical issue。

Eval 5：E2E success rate

三軸：Objective + End-to-end + Quantitative。
工具：跑 200 個 representative case、看「完整完成 + user 沒申訴」的比例。
Threshold：≥ 85% baseline、降到 < 80% alert。

Eval 6：User 滿意度

三軸：Subjective + End-to-end + Quantitative。
工具：每次互動結束顯示 thumbs up/down + optional 留言、追蹤 weekly。
Threshold：thumbs up rate > 80%、appeal rate < 5%。

Eval 7：Failure mode pattern（持續做）

三軸：Objective / Subjective + End-to-end + Qualitative。
工具：每週讀 50 個 sampled traces + 100% 讀 failure / appeal traces、找 emerging pattern。
產出：bug ticket、prompt 修改 hypothesis、policy 補強 hypothesis。

引用原理：

三軸座標 → 4.13 eval design framework
LLM judge rubric → 4.21 LLM-as-Judge
Trace 接 eval → 4.20 LLM tracing

階段 7：Iteration Loop

上線後、不是「等出問題」、是持續 iteration。典型 iteration cycle：

 1Production trace + eval result
 2   ↓
 3[Error analysis：找 emerging pattern]
 4   ↓
 5   Hypothesis：哪一層有問題？
 6   ├── Prompt 層 → 改 prompt → A/B test → 看 eval 收斂
 7   ├── Tool 層   → 改 tool / schema → 跑 component eval → 收斂
 8   ├── RAG 層    → 改 chunking / query rewriting → 跑 [retrieval recall](/llm/knowledge-cards/retrieval-recall/) → 收斂
 9   ├── Policy 層 → 改 deterministic rule → 跑 step 3 component eval → 收斂
10   └── Model 層  → 換 model → 跑全 eval set → 收斂
11   ↓
12[改動進 production]
13   ↓
14[Frozen baseline 留著、新版本跟它比、漂移看得見]

判讀「該改哪一層」的反射：

失敗訊號	該改的層
Step 1 抽錯訊息	Prompt / structured output schema
Tool call 參數錯	Prompt 內 tool description / few-shot
Tool 跑掛	Tool 實作（不是 LLM 問題）
RAG retrieve 不到相關案例	Chunking / embedding / query rewriting
Policy judgment 錯	Deterministic rule（不是 LLM 問題）
Email tone 不對	Prompt（role / few-shot）
Email hallucinate 承諾	Output validator（不只是 prompt）
整體 latency 太高	找 trace bottleneck、可能要 cache / 並行

引用原理：

Prompt 跟 model 層的失敗診斷 → 4.0 prompt 技術光譜 systematic vs random error
整體 fuzzy / deterministic 邊界判讀 → 0.8

五個容易遺漏的設計反射

實務上常常省略這五個反射動作、走進無收斂迭代：

反射一：先觀察、再開 IDE

階段 1 的價值是把 task decomposition 跟真實人類工作流對齊。沒這層對齊、寫出來的 prompt 跟 tool 拆法跟 reality 偏離、三天後重做。階段 1 的兩天比階段 3 的兩週值得。對應反例：「我先寫個 prompt 試試」、跳過觀察直接寫 code。

反射二：Policy 寫成 code、LLM 只解析意圖

判斷類規則（user tier、訂單狀態、可否操作）走 deterministic code、LLM 只負責「user 想做什麼」這層意圖抽取。這條邊界讓 debug 容易、規則更新不用 prompt iteration。對應反例：「LLM、請判斷這個訂單能不能改地址、規則如下：…」——把判斷塞進 prompt、debug 困難、規則漂移無從追蹤。對應 0.8 的「邊界用錯」反模式。

反射三：Trace 是 day-1 設計

從第一天就把 input / output / latency / token / step name / decision branch / error 進 trace、綁同一個 conversation_id。Eval 跟 debug 都靠 trace、沒 trace 後面什麼都做不了。對應反例：「先讓系統跑起來、之後再加 trace」——出 bug 時 debug 從零開始、production trace 不可回溯。

反射四：Deterministic 行為用 deterministic check

有 ground truth 的行為（抽取對不對、API 參數對不對、JSON schema 合不合）用 Python 函數驗證、判斷成本低、精度高。LLM judge 留給沒 ground truth 的 subjective 行為。對應反例：用 LLM judge 測「step 1 抽取對不對」——cost 翻倍、精度反而不如 deterministic check。對應 4.13 軸誤選一。

反射五：保留 frozen baseline

Frozen baseline 是把某個特定 prompt + 特定 model 跑 production 一段時間後 freeze 起來、每次新版本都跟它比、漂移看得見。對應反例：每次只跟「上一版」比、半年後累積漂移完全不可見、「整體變好了沒」無從回答。

跟其他章節的對應總表

本案例每階段引用的原理章節彙整：

階段	引用章節
1. 觀察人類工作流	0.8 fuzzy engineering
2. 典範定位	0.8 fuzzy engineering
3. 工作流設計（prompt / tool / RAG / HITL）	4.0、4.1、4.3、4.5
4. 結構決定（multi-call vs agent vs multi-agent）	4.4、4.7、4.8
5. Trace instrumentation	4.20 LLM tracing
6. Eval 設計	4.13 eval framework、4.14、4.21
7. Iteration loop	4.0 prompt 光譜 systematic vs random error 段

下一步

返回：模組四首頁、或回到 hands-on 索引。

Hands-on：安裝 ComfyUI + SDXL base

Tue, 12 May 2026 00:00:00 +0000

本篇紀錄裝 ComfyUI 跟 Stable Diffusion XL base 模型、在 Apple Silicon Mac 上跑通最小 text-to-image 流程。ComfyUI 是 2026 年 Apple Silicon 跑 Diffusion 最主流的選擇——節點式工作流（拖拉節點連線、像 visual programming、每個節點負責一段運算）、跨平台、Python 環境、容易客製化。Draw Things（Mac 原生 GUI）更簡單、但 ComfyUI 接 workflow 跟 custom node 的能力強很多。

驗證日期：2026-05-12 ComfyUI：main branch、shallow clone 示範模型：Stable Diffusion XL base 1.0（6.5 GB、stabilityai/stable-diffusion-xl-base-1.0） Python：3.14（venv 隔離、不污染系統）

前置設定

項目	檢查指令	預期
Git	`which git`	`/usr/bin/git` 或 brew 版
Python 3.10+	`python3 --version`	3.10 ~ 3.14 都可、本 demo 用 3.14
磁碟空間	`df -h ~`	至少 15 GB（runtime 3 GB + SDXL 6.5 GB + cache）
統一記憶體	`system_profiler SPHardwareDataType \| grep Memory`	至少 16 GB、推薦 32 GB+

ComfyUI 在 Apple Silicon 跑 Diffusion 用 MPS（Metal Performance Shaders）backend、不需要 NVIDIA CUDA。但跑 SDXL 至少要 12 GB 統一記憶體留給 model + activation、16 GB Mac 跟其他 app 一起會吃緊。

Clone ComfyUI

放在 ~/Projects/ 下、跟其他 dev project 同層：

1cd ~/Projects
2git clone --depth 1 https://github.com/comfyanonymous/ComfyUI.git
3cd ComfyUI

--depth 1 只拉最新 commit、不拉全部歷史、省幾百 MB。要追歷史 / submit PR 才需要 full clone。

ComfyUI 目錄結構（核心部分）：

 1ComfyUI/
 2├── main.py              # 啟動 entry point
 3├── server.py            # HTTP server
 4├── nodes.py             # 內建節點實作
 5├── custom_nodes/        # 第三方 / 客製節點放這
 6├── models/
 7│   ├── checkpoints/     # SD / SDXL 主 model 檔放這
 8│   ├── loras/           # LoRA 微調權重
 9│   ├── vae/             # VAE 模型
10│   ├── controlnet/      # ControlNet 模型
11│   └── ...
12├── output/              # 生成的圖
13├── input/               # 拖進 ComfyUI 的圖片
14└── requirements.txt

建 venv + 裝 dependencies

ComfyUI requirements 含 PyTorch、numpy、PIL、safetensors、einops 等、套件多、版本敏感。用 venv 隔離：

1cd ~/Projects/ComfyUI
2python3 -m venv venv
3source venv/bin/activate
4python --version  # 確認在 venv 內
5pip install --upgrade pip

裝 dependencies：

1pip install -r requirements.txt

實測時間：10-15 分鐘（torch + 各種 dep）、首次跑會編譯部分 C extension。完成後預期看到：

1Successfully installed Mako-... MarkupSafe-... Pillow-... PyOpenGL-... ...
2  torch-... torchvision-... torchaudio-... ...
3  safetensors-... transformers-... ...

驗證 PyTorch + MPS：

1python -c "import torch; print('torch:', torch.__version__, 'mps:', torch.backends.mps.is_available())"
2# torch: 2.x.x mps: True

mps: True 表示 Apple Silicon GPU 加速可用。

下載 SDXL base 模型

SDXL base 約 6.5 GB、是 Stable Diffusion XL 的基礎 model。從 Hugging Face 拉到 ComfyUI 的 models/checkpoints/：

1mkdir -p ~/Projects/ComfyUI/models/checkpoints
2cd ~/Projects/ComfyUI/models/checkpoints
3
4# -L 跟 redirect、--continue-at - 支援中斷後重續、避免 6.5 GB 重下
5curl -L --continue-at - -o sd_xl_base_1.0.safetensors \
6  "https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors?download=true"

下載時間視網速、10-30 分鐘 broadband 都正常。網路中斷時重跑同一個指令、--continue-at - 會從中斷處續傳、不用重下 6.5 GB。完成後：

1ls -lh sd_xl_base_1.0.safetensors
2# 6.5 GB

可選的進階模型：

Model	大小	用途
SDXL base 1.0	6.5 GB	基礎、本 demo 用
SDXL refiner 1.0	6.1 GB	跟 base 配對、提升細節
SD 1.5	4.0 GB	較小、生態最成熟（很多 LoRA）
Flux.1 schnell	12 GB	2024+ 最強開源 SD 級
Flux.1 dev	24 GB	Flux 完整版、品質最佳

SDXL 6.5 GB 是「能驗證 + 不過大」的甜蜜點。再小可以選 SD 1.5（4 GB）、跑 Flux 要 24 GB 磁碟 + 16 GB+ 統一記憶體。

啟動 ComfyUI Server

1cd ~/Projects/ComfyUI
2source venv/bin/activate
3python main.py

預期輸出：

1[Prompt Server] Starting ComfyUI...
2Total VRAM 32768 MB, total RAM 32768 MB
3pytorch version: 2.x.x
4Set vram state to: SHARED
5Device: mps
6Using sub quadratic attention for cross-attention
7...
8Starting server
9To see the GUI go to: http://127.0.0.1:8188

Apple Silicon 統一記憶體被 PyTorch 報成 VRAM 是預期、不是 bug：mps backend 把整個統一記憶體當成「GPU 可見記憶體」、所以 32GB Mac 顯示 Total VRAM 32768 MB。實際使用上 ComfyUI、其他 app 跟系統共用同一塊。

關鍵驗證：

Device: mps → Apple Silicon GPU 啟用
Starting server + http://127.0.0.1:8188 → server 跑了

開瀏覽器到 http://127.0.0.1:8188、看到節點式 UI 就成功。第一次開啟會載入預設 workflow（一個簡單 text-to-image）。

要對外暴露（讓 LAN 內其他機器連）：

1python main.py --listen 0.0.0.0 --port 8188

跟 0.7 隱私資料流提的一樣、0.0.0.0 等於暴露給整個區網、家用 OK 公共網路要小心。

跑第一張圖

ComfyUI 預設 workflow 是 text-to-image：

CheckpointLoader 節點：選 sd_xl_base_1.0.safetensors。
CLIPTextEncode（Prompt）節點：輸入 prompt、例如 a photograph of a cat sitting on a wooden chair, natural lighting。
CLIPTextEncode（Negative）節點：輸入 negative prompt、例如 blurry, low quality, artifacts。
EmptyLatentImage 節點：設定 1024×1024（SDXL 最佳尺寸）。
KSampler 節點：steps=20、cfg=7、sampler=euler 或 dpmpp_2m。
VAEDecode 節點：把 latent 轉成 RGB image。
SaveImage 節點：存到 output/。

點右側 panel 的 Queue Prompt、開始生成。

實測時間（M4 Pro 32GB、SDXL base、1024×1024、MPS backend）：

Steps	第一張（含 model 載入）	後續同 model	備註
15	約 100-110 秒	約 30-40 秒	本驗證實測 106s（含載入）
20	約 130-150 秒	約 40-60 秒	ComfyUI 預設值
30	約 200 秒	約 80 秒	品質更高、邊際效益小

16GB Mac 跑 SDXL：每張 60-180 秒、可能會降頻。

生成完成後在 output/ 看到 PNG 檔（如 comfyui-test_00001_.png）。

用 REST API 直接生成（不開瀏覽器）

GUI 適合互動探索、自動化要走 REST API。完整 script 在 scripts/comfyui-test/generate.py、實際驗證指令：

1cd ~/Projects/blog
2python3 scripts/comfyui-test/generate.py --steps 15

腳本流程：

 1def build_workflow(prompt_text, neg_text, steps):
 2    return {
 3        "3": {"inputs": {"seed": 42, "steps": steps, "cfg": 7.0, "sampler_name": "euler",
 4                         "scheduler": "normal", "denoise": 1.0,
 5                         "model": ["4", 0], "positive": ["6", 0],
 6                         "negative": ["7", 0], "latent_image": ["5", 0]},
 7              "class_type": "KSampler"},
 8        "4": {"inputs": {"ckpt_name": "sd_xl_base_1.0.safetensors"},
 9              "class_type": "CheckpointLoaderSimple"},
10        "5": {"inputs": {"width": 1024, "height": 1024, "batch_size": 1},
11              "class_type": "EmptyLatentImage"},
12        "6": {"inputs": {"text": prompt_text, "clip": ["4", 1]},
13              "class_type": "CLIPTextEncode"},
14        "7": {"inputs": {"text": neg_text, "clip": ["4", 1]},
15              "class_type": "CLIPTextEncode"},
16        "8": {"inputs": {"samples": ["3", 0], "vae": ["4", 2]},
17              "class_type": "VAEDecode"},
18        "9": {"inputs": {"filename_prefix": "comfyui-test", "images": ["8", 0]},
19              "class_type": "SaveImage"},
20    }

workflow JSON 結構解釋：

每個 key（“3”、“4”、…）是節點 ID。任意整數字串、只要在 workflow 內唯一即可。
class_type：節點類型（KSampler、CheckpointLoaderSimple、CLIPTextEncode 等）、ComfyUI 內建。
inputs：節點參數。標量值（如 1024、"euler"）直接寫；連到別的節點輸出用 [node_id, output_index] 形式。
["4", 0] 表示「節點 4 的第 0 個 output」。CheckpointLoaderSimple 有三個 output：model（0）、clip（1）、vae（2）、所以 ["4", 0] 是 model、["4", 1] 是 clip、["4", 2] 是 vae。

每個節點做什麼：

4 CheckpointLoaderSimple：載 SDXL safetensors、輸出 model / clip / vae 三個東西。是整條 graph 的根。
5 EmptyLatentImage：建一張 1024×1024 的空白 latent tensor（不是 RGB 圖、是 4-channel latent space tensor）。SDXL 的「畫布」。
6 CLIPTextEncode (positive)：把 prompt 文字用 CLIP text encoder 轉成 conditioning vector。
7 CLIPTextEncode (negative)：同上、但是 negative prompt（要 avoid 的特徵）。
3 KSampler：核心 denoising loop。15-30 個 step、把 latent 從噪聲變成跟 conditioning 對齊的 latent。
8 VAEDecode：把 latent 用 VAE 解碼成 RGB 圖（1024×1024×3）。
9 SaveImage：寫 PNG 到 output/ 目錄、檔名 prefix comfyui-test。

為什麼 graph 結構這樣：

為什麼 model / clip / vae 從同一個 checkpoint 拿：SDXL 設計上三個元件互相 train、必須同源。從不同 checkpoint 拿會造成生成品質崩。
為什麼 EmptyLatentImage 不直接接 KSampler、要設 batch_size：保留 batch 維度、未來要 batch generation（一次生 4 張）改 batch_size: 4 就好、其他節點不用改。
為什麼 sampler 用 euler、scheduler 用 normal：最簡單的組合、SDXL base 上品質可預測。其他選項（dpmpp_2m、karras scheduler 等）品質可能更好但效果各模型不同。
為什麼 cfg=7.0：classifier-free guidance scale。SDXL 的標準預設、太低（< 3）模型忽略 prompt、太高（> 12）過 saturated。
為什麼 seed=42：固定 seed 讓結果可重現。每次跑同 prompt 同 seed 同 model 結果完全一樣——是調 prompt / 比較 model 的必要條件。

 1def main():
 2    workflow = build_workflow(args.prompt, args.neg, args.steps)
 3    client_id = str(uuid.uuid4())
 4    resp = http_post_json("/prompt", {"prompt": workflow, "client_id": client_id})
 5    prompt_id = resp["prompt_id"]
 6
 7    while True:
 8        time.sleep(2)
 9        history = http_get_json(f"/history/{prompt_id}")
10        if prompt_id in history:
11            outputs = history[prompt_id].get("outputs", {})
12            break
13
14    img = outputs["9"]["images"][0]
15    qs = urllib.parse.urlencode({"filename": img["filename"], "type": "output"})
16    blob = http_get_bytes(f"/view?{qs}")
17    Path(args.out).write_bytes(blob)

每段做什麼：

client_id = str(uuid.uuid4())：每個 client 識別碼。ComfyUI 用 client_id 把 progress events 路由給正確 WebSocket subscriber。本 demo 用 polling、client_id 隨意產生即可。
POST /prompt：送 workflow + client_id、server 回 prompt_id（這次 job 的 UUID）。Server 把 workflow 丟進 internal queue、立刻 return、不會等 generation。
while True: time.sleep(2); GET /history/{prompt_id}：polling 等 job 完成。完成的 job 才會出現在 /history 裡（執行中 / queued 都不算）。
if prompt_id in history：完成判讀——history 內出現該 prompt_id 表示 generation 結束。
outputs["9"]["images"][0]：節點 9 (SaveImage) 的輸出、含 filename、subfolder、type 等資訊。
/view?filename=...&type=output：拿生成的 PNG bytes。type=output 是 ComfyUI 的內部 dir 標記（區分 output / input / temp）。

為什麼這樣設計：

為什麼 polling 而不是 WebSocket：WebSocket 要 subscribe events、處理 connection lifecycle、邏輯複雜。Polling 兩行解決、對教學 demo 夠用。Production 自動化系統建議用 WebSocket、知道每個 progress event。
為什麼 time.sleep(2)：太短（< 1s）對 server 造成不必要 polling；太長（> 5s）感知延遲明顯。2 秒是 demo 友善平衡。
為什麼用 prompt_id 而不是 client_id 查 history：一個 client 可能送多個 job、prompt_id 唯一識別 job。client_id 主要用 WebSocket 訂閱、不是 history query 主鍵。
為什麼 Path(args.out).write_bytes(blob)：PNG 是 binary、用 write_bytes 直接寫；改用 open(...).write() 的 text mode 會在編碼轉換時破壞檔案內容。

實測：M4 Pro 32GB、prompt 「a photograph of an orange cat sitting on a wooden chair, soft natural lighting, detailed fur」、15 steps、cfg=7、euler+normal sampler、seed=42 → 106 秒生成 1024×1024 PNG、1.65 MB。

ComfyUI 的 REST API 形狀（無 OpenAI 相容層）

ComfyUI 沒提供 OpenAI 相容 API、它的 API 是自己的 REST + WebSocket：

POST /prompt：丟一個 workflow JSON、回傳 job id。
GET /history/{prompt_id}：查看生成結果。
GET /view?filename=X：拿生成的圖。
WebSocket：訂閱 job progress events。

API 形狀跟 Diffusion 任務匹配、跟 LLM 的 /chat/completions 完全不同——這正是 4.1 RAG 章節提到「Diffusion 跟 Transformer 工具鏈互不通用」的具體展現。Ollama / LM Studio 對接 Continue.dev 的 OpenAI 相容路徑、跟 ComfyUI 接 SDXL 是完全平行的兩條路。

常用 Custom Nodes

ComfyUI 的核心功能來自 custom nodes、社群維護。最常用：

Custom Node	功能
ComfyUI-Manager	管理其他 custom node、安裝 / 更新
ComfyUI-Impact-Pack	物件偵測、masking、inpainting
ComfyUI-AnimateDiff	影片動畫生成
ComfyUI-ControlNet-Aux	ControlNet preprocessor
ComfyUI-IPAdapter-plus	圖像 reference embedding

安裝方式（透過 ComfyUI-Manager）：

1cd ~/Projects/ComfyUI/custom_nodes
2git clone https://github.com/ltdrdata/ComfyUI-Manager.git
3# 重啟 ComfyUI、UI 多一個 Manager 按鈕、之後用 Manager 裝其他 node

常見坑

Python 版本太新、torch 沒 wheel

PyTorch 對最新 Python（3.13、3.14）的 wheel 發布有 lag、可能 pip install -r requirements.txt 跑 build from source 慢 + 失敗。退到 Python 3.11 / 3.12：

1brew install python@3.11
2python3.11 -m venv venv
3source venv/bin/activate
4pip install -r requirements.txt

`mps: False`、跑在 CPU 上

確認 PyTorch 是 Apple Silicon 版本（不是 x86_64 emulation）：

1python -c "import platform; print(platform.machine())"
2# arm64 ← 正確；x86_64 ← 走 Rosetta、要重裝

如果是 x86_64、表示 venv 用了 Intel Python。重建 venv：

1deactivate
2rm -rf venv
3arch -arm64 python3 -m venv venv

記憶體不夠、推論時 crash

SDXL 在 16 GB Mac 上吃緊、可能 swap 或 crash。緩解：

1# 降解析度
2python main.py --normalvram   # 預設、~12 GB
3python main.py --lowvram      # 較省、~8 GB、慢
4python main.py --novram       # 極省、~4 GB、極慢、實用上界

或換 SD 1.5（4 GB checkpoint）、記憶體需求 < SDXL 的一半。

Workflow JSON 載入失敗

ComfyUI workflow 是 JSON 描述節點 + 連線。如果是別人分享的 workflow、可能用了你沒裝的 custom node。錯誤訊息會列出缺哪些 node、用 ComfyUI-Manager 補裝。

Port 8188 被佔

1lsof -i :8188
2python main.py --port 8189  # 改 port

跟 LLM stack 並存

ComfyUI 用 port 8188、跟 Ollama (11434) / LM Studio (1234) 完全不撞、可同時跑。實務配置：

服務	Port	用途
Ollama	11434	寫 code、對話
ComfyUI	8188	產圖
LM Studio	1234	探索新 LLM
Open WebUI	3000	ChatGPT 風格瀏覽器介面

各服務獨立、不干擾、可以一台 Mac 跑全部（看記憶體預算）。

何時這篇會過時

ComfyUI 主分支 API 短期內穩定（大量社群依賴）。
SDXL base 1.0 不會消失、但會被新版本（SDXL 1.1、Flux 等）取代——「下載 .safetensors 放 models/checkpoints/」流程不變。
MPS backend 持續優化、效能會提升、但介面不變。
Python 版本相容性會持續演化、pip install -r requirements.txt 偶爾要降版 Python。

讀的時候若 pip install 失敗、看 ComfyUI GitHub issues 跟 PyTorch release notes 對應的 Python 版本。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、跨服務的 lifecycle / 記憶體管理見 Resource management、ComfyUI 跟 Ollama 同台跑的記憶體預算規劃見 0.5 Apple Silicon 記憶體預算。

Case Study：Blog 語意搜尋從 pickle 到 production

Wed, 01 Jul 2026 00:00:00 +0000

本案例記錄一個技術 blog（2,738 篇 markdown、24,216 chunks）的語意搜尋工具從 demo 到 production 的完整過程。每段標出對應 4.22 RAG storage 工程的哪個判讀步驟，讓讀者看到原理章的框架怎麼落到具體決策。

實測日期：2026-07-01 環境：macOS Apple Silicon、Ollama 0.7.x、nomic-embed-text（768 維） Corpus：content/ 全量 2,738 個 markdown 檔、24,216 chunks 前置 demo：rag-demo（pickle、463 chunks）

讀法建議

本案例用 Go 重寫了 RAG storage 層，Go 實作細節佔不少篇幅。依你的背景選讀法：

Python 開發者、想選自己專案的 storage 方案：先跳到「通用可複製流程」（語言無關的五步驟）→「四方案 benchmark」→「二次選型評估」（結論/理由/前提三層框架），這三段跨語言可遷移。Go 實作段（架構、效能優化）可 skim。
Go 開發者、想做類似工具：從頭讀，每段都跟你相關。
只想看選型框架、不管實作：直接跳「二次選型評估」。

從 demo 到 production 的重寫動機

rag-demo 用 Python pickle 跑通了 RAG 概念驗證：71 篇 → 463 chunks → pickle 儲存 → cosine retrieval → Ollama 生成。概念層完全正確（4.1 的 retrieval + augmentation 骨架），但作為這個 blog 的日常工具有三個專案特有的限制：

工具鏈語言不同：blog 的核心工具是 Go（lint / fmt / cards），加 Python dependency 讓其他維護者 clone 後多一步環境設定。Python 專案不會有這個問題 — pickle 綁 Python 對 Python 專案是優點而非缺點。
只索引部分 corpus：rag-demo 只跑 content/llm/（71 篇），blog 全量有 2,738 篇、24 個 section。
Demo 定位：ingest.py / query.py 是教學程式碼，不是維護工具（沒有 status、沒有 section filter）。

這是一次完整重寫、不是漸進升級 — rag-demo 的 Python 程式碼不會被修改或遷移，而是用 Go 重新實作相同的 RAG pipeline（chunk → embed → store → search）、保留相同的概念架構。rag-demo 作為教學 demo 繼續存在。

升級目標：一個跟 mdtools 同級的 Go CLI 工具，能對全量 content 做語意搜尋，其他維護者 clone 後 go build 即可用。完整原始碼在 scripts/blogsearch/。

選型過程（對應 4.22 演化階梯 + 工程約束）

第一軸：規模判讀

全量 content 產生 24,216 chunks（原本估計 ~1,500）。按 4.22 判讀樹，24K 落在「10K-100K → HNSW 或 brute-force」區間。預估 vs 實際的 16 倍落差揭露一個教訓：估計 chunk 數不能用篇數乘以常數，要看每篇的實際長度跟 chunking 策略。

第二軸：工程約束（本專案特有）

以下四個 constraint 反映這個 blog 專案的偏好、不是通用判準。換一組 constraint 會篩出完全不同的方案 — Python 專案不會有「Go 單 binary」constraint、已有 Docker 的團隊不會排斥外部 server。讀者套用時應先列出自己專案的 constraint、不是照搬這張表。

Constraint	砍掉什麼
Go 單 binary	Python-only 方案（pickle / FAISS）
不要 CGo	sqlite-vec（需要 `mattn/go-sqlite3`）
不要外部 server	Qdrant / Weaviate / Pinecone
Ollama 原生	OpenAI / Cohere embedding（多一個 API key）

剩餘選項：Go + flat file + brute-force。

第三軸：延遲容忍

CLI 工具、每天用幾次、不是 API server。< 500ms 可接受。

結論：選階段二（flat file），brute-force cosine。

實作架構

 1scripts/blogsearch/
 2├── main.go                     # CLI: ingest / query / status
 3├── cmd/
 4│   ├── ingest.go               # walk content/ → chunk → embed → store
 5│   ├── query.go                # load → embed query → cosine top-K → lazy load text
 6│   └── status.go               # index stats
 7└── internal/
 8    ├── chunk/chunk.go           # paragraph-aware markdown chunking
 9    ├── embed/embed.go           # Ollama HTTP API wrapper
10    ├── search/search.go         # brute-force cosine similarity
11    └── store/store.go           # 三檔案 binary store

日常使用

1# 語意搜尋
2./bin/blogsearch query "retry 策略"
3
4# 只搜特定 section
5./bin/blogsearch query -section backend "connection pool 設定"
6
7# 查 index 狀態
8./bin/blogsearch status

Storage 格式（三檔案分離）

1.blogsearch/
2├── vectors.bin    # float32 binary（70.9 MB）— bulk read + unsafe.Slice 零拷貝
3├── meta.json      # compact metadata 不含 text（7.3 MB）
4└── texts.bin      # length-prefixed chunk text（19.2 MB）— top-K 才 lazy load

分離 text 的設計理由：query 時只需要 vectors + metadata 做 cosine search（78 MB），top-K 結果才從 texts.bin 按 offset 讀取 5 筆 text。省掉 19 MB 的 JSON 解析。

效能優化歷程

初版：9.5 秒

初版用逐 4-byte Read 載入 vectors.bin（17.5M 次 f.Read(buf)），加上 27MB 的 index.json（含所有 chunk text）一次 JSON 解析。

優化版：0.34 秒（28x）

三項改動：

改動	從	到	效果
vectors.bin 讀法	逐 4-byte Read	`os.ReadFile` + `unsafe.Slice`	I/O call 17.5M → 1
metadata 格式	含 text（27 MB）	不含 text（7.3 MB）	JSON parse 快 4x
text 載入	全量	top-K lazy load（只讀 5 筆）	省 19 MB 讀取

瓶頸分析：0.34 秒裡、embedding API call（Ollama）約 77ms、file I/O + JSON parse 約 200ms、cosine 計算約 50ms。cosine 計算只佔 15%。

通用可複製流程（抽掉 Go/blog）

本案例的 Go 實作細節（unsafe.Slice、os.ReadFile）是語言特定的、但背後的流程步驟跨語言通用：

Walk corpus：遞迴掃描目標目錄的所有文件（markdown / code / 任意文字）
Chunk：段落感知分割、soft token cap、保留語意邊界（原理見 4.1 Chunking）
Embed：對每個 chunk 呼叫 embedding API（本地 Ollama 或 cloud API），得到固定維度向量
Store：向量 + metadata + text 分離存檔（binary vectors / compact JSON / lazy-load text）
Search：embed query → brute-force cosine → top-K → lazy load text for display

Python 實作同流程只是把第 4 步的 binary 檔換成 pickle / FAISS index / SQLite DB、第 5 步的 cosine 換成 numpy / FAISS / sqlite-vec query。Node.js / Rust 同理。

關鍵優化原則也跨語言：「分離向量與文字、query 時只載入向量、top-K 才載入文字」讓 I/O 量從 ~98MB 降到 ~78MB、JSON parse 從 27MB 降到 7MB。這個原則用什麼語言實作都有效。

四方案同 corpus Benchmark

用同一個 corpus（24,216 chunks、768 維、nomic-embed-text）比較四種 storage 方案。Benchmark 腳本在 scripts/blogsearch-bench/bench.py。

前置依賴

Benchmark 腳本讀 Go 工具產生的 index（.blogsearch/ 下的 vectors.bin + meta.json）。完整指令鏈：

1cd scripts/blogsearch && go build -o ../../bin/blogsearch .   # build Go 工具
2ollama serve &                                                  # 啟動 Ollama
3ollama pull nomic-embed-text                                    # pull embedding model
4./bin/blogsearch ingest -content content -out .blogsearch       # 建 index（~4 分鐘）
5uv run --with sqlite-vec --with faiss-cpu --with numpy \
6  scripts/blogsearch-bench/bench.py --index .blogsearch         # 跑 benchmark

若無 Go 環境，可用自己的 Python embedding 腳本產生相同格式的 vectors.bin（little-endian float32、n × dim 連續排列）+ meta.json（{"dim": 768, "count": n, "metas": [...]}），benchmark 腳本只讀這兩個檔案、不依賴 Go binary 本身。Corpus 格式無硬性要求，任何目錄下的 .md 檔案都可索引。

方法論

Embedding：四方案共用同一組 embedding（從 Go index 載入），排除 embedding model 差異
Query：同一句 query（“RAG storage 選型”），跑 5 次取 median
Ingest 時間：只計 storage 操作（不含 embedding），Go 方案含 embedding 不可分離故標 —
環境：macOS Apple Silicon、Python 3.12、Go 1.25

結果

方案	Ingest（純 storage）	Query（median）	Index 大小
Go + flat file	—	151ms	97.4 MB
Python sqlite-vec	2.9s	19ms	75.3 MB
Python FAISS flat	40ms	1.8ms	in-memory
Python FAISS HNSW	23.3s	0.5ms	in-memory

三個關鍵發現

延遲瓶頸在 I/O 和實作、不在演算法。Go flat file 的 151ms 裡、cosine 計算約 50ms、file I/O 約 100ms。FAISS flat 用 numpy BLAS 做同樣的 brute-force cosine、純計算 1.8ms — 計算層差約 28 倍（Go pure loop vs BLAS 向量化指令），加上 I/O 後端到端差 84 倍。

HNSW 的 query 加速在此規模 ROI 低。FAISS HNSW query 0.5ms vs flat 1.8ms、每次省 1.3ms。但 HNSW build 要 23.3s。每天查 100 次、要 179 天才回本 build 成本（23.3s ÷ 0.13s/天）。4.22 的判讀結論（「此規模 brute-force 夠用」）被數據驗證。

sqlite-vec 的 19ms 是「DB overhead 換功能」。比 FAISS flat 慢 10 倍、但多了 SQL metadata filter、transaction 保護、disk persistence。對「需要 filter 但不想維運 server」的場景有意義。

讀數據的注意事項

Go 151ms 含 file I/O（每次 query 重載 78MB）；如果做 daemon mode（常駐、載入一次），query 會降到 ~50ms（純 cosine + overhead）
FAISS 數字是 in-memory baseline（index 已載入），不含 index 檔案的載入時間
sqlite-vec 數字含 disk I/O（每次 query 從 SQLite 讀取），是 persistent storage 的真實代價
四方案都不含 Ollama embedding call 時間（~77ms），實際端到端延遲要加上

二次選型評估：同結論、理由鏈翻轉

Benchmark 數據出來後，80 倍效能差距讓原始選型（Go + flat file）受到質疑：「是否該換 Python + FAISS 或 sqlite-vec？」重新用 WRAP 框架評估，結論相同（維持 Go），但理由鏈完全不同。

第一次選型的理由（事前）

「Go 工具鏈統一（mdtools 是 Go）+ 單 binary 分發（clone 後 go build 即可）。」

實測推翻的前提

原始假設	實測
Corpus ~1,500 chunks	24,216 chunks（16 倍）
Brute-force < 10ms	Go 151ms（I/O 瓶頸、不是計算）
語言效能差異不大	Go pure cosine vs numpy BLAS 差 80 倍
「工具鏈統一」很重要	mdtools（pre-commit、延遲敏感）跟 blogsearch（手動 CLI、每天幾次）使用模式不同，強制統一語言是用「同一棟建築」邏輯要求「不同用途房間用同一種建材」

第一次的理由鏈幾乎全數被推翻。如果只看理由，應該換方案。

第二次選型的理由（事後）

重新評估時加入三個第一次沒有的變數：

端到端延遲 vs in-memory benchmark。84 倍是端到端的數字（Go 151ms 含 I/O vs FAISS 1.8ms in-memory）。但 FAISS 從 disk 載入 index 也要 ~100-200ms，端到端差距縮小到 2 倍。sqlite-vec 是唯一不需要全量載入的方案（disk-based HNSW、端到端 19ms），差距從「84 倍」變成「8 倍」。

使用頻率決定 ROI。CLI 工具、每天 ~10 次手動 query。每次省 130ms（151 vs 19），一天省 1.3 秒。重寫投入 2-3 小時，回本時間 ≈ 19 年。注意這個計算對頻率極敏感：每天 100 次（如被整合進 MCP server 當 agent 工具）回本縮短到 1.9 年、每天 1000 次則 69 天。上方 HNSW ROI 也用每天 100 次計算 — 兩處頻率假設不同是因為比較對象不同（HNSW build 成本 vs 語言重寫成本），但讀者套到自己場景時應先確定自己的查詢頻率。

Ingest 瓶頸在 Ollama API、跟語言無關。~4 分鐘的 ingest 裡、embedding API call 佔 95% 以上。換 Python 不會改善 ingest 速度。

維持的理由是「痛點不存在」

維持 Go 的理由是改善的絕對收益太小、投入回不了本 — 151ms 對 CLI 使用模式不構成痛點，與「Go 好」或「工具鏈統一」無關。

這個翻轉的教學意義

正確的結論配錯誤的理由是脆弱的。第一次 WRAP 的結論（選 Go）在當時是對的，但理由鏈（工具鏈統一、< 10ms）被實測推翻後，如果不重新建立正確的理由鏈，下次環境變動（比如 blogsearch 從 CLI 變成 API server）就會用已失效的理由做出錯誤判斷。

判讀工具選型時，要區分三層：

結論：選什麼方案
理由：為什麼選（可能被推翻）
前提：理由依賴的假設（規模、使用模式、效能數字）

前提變了、理由就要重建，即使結論沒變。寫進決策紀錄時，三層都要記 — 只記結論的話，下次重新評估時沒有判讀基礎。

區分「正當理由重建」跟「動機性推理」（先有結論再找理由）的判準：新理由是否在看到數據之前也能成立？本例的「130ms 對 CLI 不痛」在實測前也成立（CLI 使用模式本來就低頻），所以是正當重建。如果新理由只能在看到特定數字之後才講得通（如「151ms 剛好在 200ms 閾值內」——但閾值是事後設的），就是 post-hoc rationalization。

觸發換方案的訊號

訊號	門檻	動作
Query 延遲不可接受	> 500ms	先加 mmap（最小改動）
使用模式改變	從 CLI 變 API server	換 Python sqlite-vec
查詢頻率跳增	被整合進 MCP server / agent 工具	評估 daemon mode 或換 sqlite-vec
Corpus 規模跳增	> 50K chunks	重跑 benchmark
需要原生 metadata filter	code filter 維護成本過高	換 Python sqlite-vec

Embedding model 選型（對應 4.12 constraint 優先序）

選 nomic-embed-text 的理由鏈：

Ollama 原生支援：ollama pull 一行、不需要額外 Python library 或 API key
體積小：274 MB、跟 chat model 共用記憶體不打架
已有驗證基線：rag-demo 用同一個模型跑過 463 chunks、retrieval 命中率確認可用
768 維 sweet spot：24K chunks × 768 dim × 4 bytes = 70.9 MB，brute-force 可行

未來如果 CJK retrieval 品質不夠（目前可用但未做系統性評估），multilingual-e5-large 或 bge-m3 是備選。換模型只需改 embed.go 的 Model 變數 + 重新 blogsearch ingest（4.22 的「四層可替換」設計）。

CJK 混合 Chunking 觀察

Blog 內容是繁體中文 + 英文術語混合。Chunking 策略沿用 rag-demo 的 paragraph-aware split（空白行切段、soft token cap 400）。

Token 估算用 len(s) / 2 的 heuristic（CJK 字元多算一次）。不精確但 chunking 只需要粗略估算。跟 tokenizer 精確計算的差異在 ±20%、對 chunking 品質影響小於 chunk 邊界選擇的影響。

實際觀察：24,216 chunks 的 retrieval 品質在語意搜尋場景（「哪些文章跟 retry 有關」「RAG storage 選型」）表現良好。keyword 精確搜尋場景（「找 RFC 7807」）表現較弱 — 這是 embedding-only retrieval 的已知限制（見 4.1 的語意 vs 字面相似度對比），未來可加 BM25 做 hybrid search。

跟其他章節的對應

本案例的段落	對應原理章節
選型過程	4.22 演化階梯 + 工程約束
二次選型評估	4.22 同 corpus 實測比較
Embedding 選型	4.12 實務選型 constraint 優先序
Chunking	4.1 Chunking 策略對比
Benchmark 方法論	4.14 Benchmarking 方法論
Storage 格式設計	4.10 衍生產物管理
Retrieval 品質	4.1 Retrieval 失敗根因

Hands-on：安裝 whisper.cpp 做語音轉文字

Tue, 12 May 2026 00:00:00 +0000

本篇紀錄在 Apple Silicon Mac 上裝 whisper.cpp 並驗證英文語音轉文字。選 whisper.cpp 而非 openai-whisper（Python 版）的理由：

純 C++ 實作、Metal backend 直接吃 Apple Silicon GPU。
Homebrew bottle、brew install 一行裝完、不需要 Python 環境跟 torch wheel。
Binary 名稱是 whisper-cli、CLI-first、整合到 shell pipeline 容易。

驗證日期：2026-05-12 whisper-cpp 版本：1.8.4 示範模型：ggml-tiny.en.bin（78 MB、英文專用、最小可用）實測：7 秒音訊 484ms 轉錄、用 Metal GPU 加速

前置設定

項目	檢查指令	預期
Homebrew	`brew --version`	4.x
ffmpeg	`which ffmpeg`	`/opt/homebrew/bin/ffmpeg`（沒有：`brew install ffmpeg`）
磁碟空間	`df -h ~`	至少 200 MB（whisper-cli + 1 個 small model）

ffmpeg 是必要的——whisper-cli 接受多種音訊格式、但實際內部會先轉成 16kHz mono WAV、ffmpeg 是這個轉換的依賴。

安裝 whisper-cpp

1brew install whisper-cpp

Homebrew 會裝：

whisper-cli binary 到 /opt/homebrew/bin/
ggml 共用 lib 到 /opt/homebrew/Cellar/ggml/
BLAS / Metal backend 自動配對 Apple Silicon

驗證 binary 可用：

1which whisper-cli
2# /opt/homebrew/bin/whisper-cli
3
4whisper-cli --help 2>&1 | head -5

第一次跑會看到 Metal 初始化訊息：

1ggml_metal_library_init: using embedded metal library
2ggml_metal_library_init: loaded in 6.883 sec

第一次 Metal lib 載入慢（~7 秒）、後續會 cache、變很快。

下載 Model

whisper-cpp 跟 OpenAI 原版分離管理 model file、要自己下載 GGML 格式：

1mkdir -p ~/.whisper-models
2cd ~/.whisper-models
3curl -L -o ggml-tiny.en.bin \
4  "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.en.bin"

可用 model 比較（大小越大、品質越好、速度越慢）：

Model	大小	適合場景
`ggml-tiny.en.bin`	78 MB	英文、最小驗證、品質可接受
`ggml-base.en.bin`	148 MB	英文、常用入門
`ggml-small.en.bin`	488 MB	英文、daily use 甜蜜點
`ggml-medium.en.bin`	1.5 GB	英文、品質敏感
`ggml-small.bin`	488 MB	多語言（含中文）
`ggml-large-v3.bin`	3.1 GB	多語言、最佳品質、跑得最慢

選 tiny.en 是因為只驗證安裝路徑、實際日常用要 small.en 起跳。

驗證下載：

1ls -lh ~/.whisper-models/
2# 應該看到 78 MB 的 ggml-tiny.en.bin

跑第一次轉錄

需要一段測試音訊。可以用 macOS 內建 say 生成、再用 ffmpeg 轉成 whisper.cpp 需要的格式（16kHz mono WAV）：

1cd /tmp
2say -o sample.aiff -v Samantha "Hello world. This is a test of the whisper transcription system. It should produce accurate text from this short audio clip."
3ffmpeg -loglevel error -y -i sample.aiff -ar 16000 -ac 1 sample.wav

-ar 16000 -ac 1 是 whisper.cpp 的標準輸入規格（16 kHz、單聲道、16-bit PCM）。Whisper 模型訓練時用這個 sample rate、輸入不符會降低準確度。

轉錄：

1whisper-cli -m ~/.whisper-models/ggml-tiny.en.bin -f /tmp/sample.wav

預期輸出（含時間軸）：

1[00:00:00.000 --> 00:00:03.980]   Hello World, this is a test of the whisper transcription system.
2[00:00:03.980 --> 00:00:06.980]   It should produce accurate text from this short audio clip.
3
4whisper_print_timings:     load time =    39.88 ms
5whisper_print_timings:   encode time =   220.01 ms
6whisper_print_timings:    total time =   484.08 ms

關鍵觀察：

484ms 處理 7 秒音訊、約 14x 即時速度。
轉錄結果跟原文一致（除了 world 大寫變 World）。
含時間軸（time stamps）、可以做 subtitle / 字幕對齊。

要拿不含時間軸的純文字：

1whisper-cli -m ~/.whisper-models/ggml-tiny.en.bin -f /tmp/sample.wav -nt
2# -nt 是 --no-timestamps

常用選項

選項	作用
`-l zh`	指定語言（中文）；多語言 model 用、單語 model 用不到
`-otxt`	同時輸出 .txt 檔（純文字、無時間軸）
`-osrt`	同時輸出 .srt 字幕檔
`-ovtt`	同時輸出 .vtt 字幕檔
`-of OUT`	設定輸出檔名 prefix
`-t N`	用 N 個 thread（預設用 CPU 核心數）
`-pp`	print progress（顯示處理進度條、跑長音訊時開）

實務常用組合：

 1# 字幕生成
 2whisper-cli -m ~/.whisper-models/ggml-small.en.bin \
 3  -f input.wav \
 4  -osrt \
 5  -of output_subtitle
 6
 7# 中文轉錄
 8whisper-cli -m ~/.whisper-models/ggml-small.bin \
 9  -f speech.wav \
10  -l zh

跟其他工具串接

Whisper-cli 的 stdout 是純文字、容易串 pipeline：

 1# 轉錄結果直接餵給 LLM 摘要
 2whisper-cli -m ~/.whisper-models/ggml-small.en.bin -f meeting.wav -nt \
 3  | curl -s http://localhost:11434/v1/chat/completions \
 4    -H "Content-Type: application/json" \
 5    -d @- < 6{
 7  "model": "gemma3:1b",
 8  "messages": [
 9    {"role": "system", "content": "Summarize the meeting transcript in 5 bullet points."},
10    {"role": "user", "content": "$(cat)"}
11  ]
12}
13EOF

這個 pipeline 串接到 Ollama 完成「語音 → 文字 → 摘要」流程、整條本地、無雲端 API。

常見坑

「audio file not found / format error」

確認 ffmpeg 已轉成 16kHz mono：

1ffprobe input.wav 2>&1 | grep -E "Stream|Audio"
2# 應該看到：Audio: pcm_s16le, 16000 Hz, mono

不是這個規格就用 ffmpeg 轉：

1ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Model 載入慢

第一次 Metal lib 初始化要 ~7 秒、是 macOS Metal compiler 在 cache shader。後續快很多。

如果每次都慢、看是否 Metal cache 路徑（~/Library/Caches/...）有權限問題。

中文 / 多語言準確度差

確認 model 不是 .en 後綴：.en model 只訓練英文、餵中文會 hallucinate。中文要用 ggml-small.bin、ggml-medium.bin、ggml-large-v3.bin（沒 .en）。

Output 拼錯字

Whisper tiny / base model 對非母音清晰、噪音多、口音重的音訊準確度差。換 small 或 medium 通常解決。

完整 round-trip 驗證

驗證 Whisper + Piper TTS 完整迴圈：

1# Piper 生成 WAV
2echo "Hello world test." | piper -m ~/.piper-voices/en_US-lessac-low.onnx -f /tmp/out.wav
3
4# Whisper 轉回文字
5whisper-cli -m ~/.whisper-models/ggml-tiny.en.bin -f /tmp/out.wav -nt
6# 應該回：Hello world test.

兩個都跑得起來表示整條 STT / TTS pipeline 工作。沒裝 Piper 的場景：用任何 16kHz 單聲道 WAV 都能驗證（macOS 內建 say -o sample.aiff + ffmpeg 轉檔、或從 Hugging Face 拉個 sample 音訊）、不一定要用 Piper。

跟其他章節的關係：完整 hands-on 系列見 Hands-on 章節索引、本地 LLM 加 speech 在隱私 / 資料流上的位置見 0.7 隱私資料流原理、排錯走三層方法論見 1.7 排錯方法論。

何時這篇會過時

brew install whisper-cpp 安裝方式短期內不會變。
GGML model 路徑（Hugging Face ggerganov/whisper.cpp）穩定、是 maintainer 官方 repo。
模型版本會更新（large-v3 → large-v4 等）、但「下載 GGML、用 whisper-cli 餵 WAV」流程不變。
Metal backend 自動啟用、不需配置——Apple Silicon GPU 演化會持續增進效能但不影響介面。

讀的時候若 brew 跑失敗、查 whisper.cpp GitHub release notes；模型新版本看 Hugging Face ggerganov/whisper.cpp repo 列表。

Hands-on：安裝 Piper TTS 做文字轉語音

Tue, 12 May 2026 00:00:00 +0000

本篇紀錄裝 Piper TTS 並用它合成英文語音、再用 Whisper 轉回文字做 round-trip 驗證。選 Piper 而非雲端 TTS（OpenAI / ElevenLabs）的理由：

完全本地、隱私邊界乾淨。
ONNX runtime、Apple Silicon 跑得動、不依賴 GPU。
模型小（low quality ~17-65 MB、medium ~50 MB、high ~125 MB）、適合 minimal 驗證。
CLI-first、stdin 餵文字、stdout 或檔案輸出 WAV、容易串 pipeline。

驗證日期：2026-05-12 Piper 版本：透過 pip 安裝 示範 voice：en_US-lessac-low.onnx（63 MB、英文女聲、low quality）實測：4 秒文字合成 < 1 秒、品質夠日常用

前置設定

項目	檢查指令	預期
Python	`python3 --version`	3.11+
pip	`pip3 --version`	25+
磁碟空間	`df -h ~`	至少 200 MB（Piper + 一個 voice）

Piper 跟 Whisper 一樣分離 binary 跟 model：先裝 runtime、再下載 voice。

安裝 Piper

piper-tts 沒有 Homebrew formula、用 pip 裝：

1pip3 install piper-tts --break-system-packages

PEP 668 是 macOS / Homebrew Python 的 external-management 機制、保護系統 Python 不被 pip 安裝污染；--break-system-packages 是 bypass flag、跳過該檢查直接裝。比較乾淨的做法是用 venv：

1python3 -m venv ~/.piper-venv
2source ~/.piper-venv/bin/activate
3pip install piper-tts

但裝完 PATH 要指到 venv 的 piper、稍麻煩。本 demo 用 --break-system-packages 簡化。實際生產建議用 venv 或 pipx。

驗證 binary 在 PATH：

1which piper
2# /opt/homebrew/bin/piper（若 pip3 來自 Homebrew Python）
3# 或 ~/Library/Python/3.x/bin/piper（若 pip3 來自系統 Python）
4
5piper --help | head -10

which piper 找不到時、檢查兩個 bin 目錄哪邊有檔案、把該目錄加進 PATH。

下載 Voice Model

Piper 用 ONNX 格式的 voice model、每個 voice 是一對 .onnx（model 權重）+ .onnx.json（metadata、含採樣率、phoneme map）。

從 Hugging Face rhasspy/piper-voices repo 拉：

1mkdir -p ~/.piper-voices
2cd ~/.piper-voices
3
4# 英文女聲、low quality（小、快）
5curl -L -o en_US-lessac-low.onnx \
6  "https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/en/en_US/lessac/low/en_US-lessac-low.onnx"
7curl -L -o en_US-lessac-low.onnx.json \
8  "https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/en/en_US/lessac/low/en_US-lessac-low.onnx.json"

可用 voice quality 等級：

Quality	大小	用途
`low`	17-65 MB	快、品質粗糙、適合 prototype
`medium`	50-100 MB	平衡、日常用
`high`	100-200 MB	品質佳、合成略慢
`x_low`	< 20 MB	極小、品質明顯差、適合受限環境

語言 / 地區覆蓋（部分）：

Locale	Voice 範例
`en_US`	lessac、ryan、amy、libritts
`en_GB`	alan、cori、jenny
`zh_CN`	huayan（北京話）
`ja_JP`（社群）	較少
`de_DE` / `fr_FR` / `es_ES` 等	各有多個

完整清單在 rhasspy/piper-voices 的 VOICES.md。

驗證下載：

1ls -lh ~/.piper-voices/
2# en_US-lessac-low.onnx       63M
3# en_US-lessac-low.onnx.json  4.9K

跑第一次合成

1echo "Hello from Piper TTS, this is a synthesized voice test." \
2  | piper -m ~/.piper-voices/en_US-lessac-low.onnx -f /tmp/piper-out.wav

說明：

文字從 stdin 進、是 Piper 的標準輸入方式。
-m：voice model .onnx path。Piper 自動找同目錄的 .onnx.json。
-f：output WAV path。不指定的話直接寫 stdout（可以 pipe 到 aplay / afplay 即時播放）。

預期輸出：

1ls -lh /tmp/piper-out.wav
2# 128 KB

驗證 WAV 規格：

1file /tmp/piper-out.wav
2# RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 16000 Hz
3
4ffprobe -loglevel error -show_format /tmp/piper-out.wav | grep duration
5# duration=3.984000

16-bit PCM、16 kHz mono——跟 Whisper 期望的輸入規格一致、可以直接 round-trip。

播放確認：

1afplay /tmp/piper-out.wav

常用選項

選項	作用
`-m MODEL`	voice model `.onnx` 路徑（必填）
`-c CONFIG`	metadata json 路徑（預設自動找同名 `.onnx.json`）
`-i FILE`	輸入文字檔（替代 stdin）
`-f OUTPUT`	輸出 WAV 路徑
`-d DIR`	輸出目錄（多句時自動分檔）
`--length-scale FACTOR`	速度調整（< 1 加速、> 1 減速、預設 1.0）
`--volume FACTOR`	音量調整（0.0-1.0）
`-s SPEAKER`	多 speaker model 選 speaker（如 libritts）
`--cuda`	用 CUDA（Apple Silicon 用不到、留 default）

典型應用：

 1# 從文字檔合成
 2piper -m ~/.piper-voices/en_US-lessac-low.onnx \
 3  -i article.txt \
 4  -f narration.wav
 5
 6# 多句子分檔
 7piper -m ~/.piper-voices/en_US-lessac-medium.onnx \
 8  -i script.txt \
 9  -d ~/audio-output/ \
10  --output-dir-naming text
11
12# 慢速朗讀（學習用）
13piper -m ~/.piper-voices/en_US-lessac-low.onnx \
14  --length-scale 1.4 \
15  -f slow.wav <<< "Slowly read this sentence."

Round-Trip 驗證

確認 TTS + STT 整條串得起來：

1# 1. Piper TTS：文字 → WAV
2echo "The quick brown fox jumps over the lazy dog." \
3  | piper -m ~/.piper-voices/en_US-lessac-low.onnx -f /tmp/test.wav
4
5# 2. Whisper STT：WAV → 文字
6whisper-cli -m ~/.whisper-models/ggml-tiny.en.bin -f /tmp/test.wav -nt

預期 Whisper 回應接近原文字（可能大小寫 / 標點稍變）。Round-trip 成功表示：

Piper 輸出格式（16kHz mono WAV）符合 Whisper 輸入需求。
兩個模型對英文的訓練分佈相容。

跟 LLM 串接：「LLM 說話」的 minimal pipeline

 1# 1. LLM 生成回答
 2ANSWER=$(curl -s http://localhost:11434/v1/chat/completions \
 3  -H "Content-Type: application/json" \
 4  -d '{
 5    "model": "gemma3:1b",
 6    "messages": [{"role":"user","content":"Tell me a one-sentence joke."}],
 7    "stream": false
 8  }' | python3 -c "import json,sys; print(json.load(sys.stdin)['choices'][0]['message']['content'])")
 9
10# 2. Piper 把回答念出來
11echo "$ANSWER" | piper -m ~/.piper-voices/en_US-lessac-low.onnx -f /tmp/llm-says.wav
12
13# 3. 播放
14afplay /tmp/llm-says.wav

三行 shell 完成「Local LLM 講笑話」整條 pipeline、無雲端、無 GPU。

常見坑

中文 / 多語言

en_US-lessac-low 是英文 voice、餵中文會發音怪。中文要下載 zh_CN-huayan-*：

1curl -L -o ~/.piper-voices/zh_CN-huayan-medium.onnx \
2  "https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx"
3curl -L -o ~/.piper-voices/zh_CN-huayan-medium.onnx.json \
4  "https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx.json"
5
6echo "你好，這是 Piper TTS 的中文測試。" \
7  | piper -m ~/.piper-voices/zh_CN-huayan-medium.onnx -f /tmp/zh-out.wav

zh_CN 預設是北京話腔調。

`--break-system-packages` 警告

macOS 系統 Python 3.13+ 預設禁止 pip 直接裝。安全做法用 venv 或 pipx；不想搞 venv 就用 --break-system-packages flag（會跳警告但能裝）。長期建議遷到 venv、避免污染系統 Python。

Voice quality 不夠

low quality 的 voice 適合驗證 / prototype、實際用 medium 或 high。低品質 voice 在長段文字會聽起來機械、自然度差。

Sample rate mismatch

Voice metadata（.onnx.json 內 sample_rate）決定輸出 sample rate、不同 voice 可能不同（多數 22050 或 16000）。Whisper 期望 16000、若 Piper 輸出 22050、可能需要 ffmpeg 降採樣：

1ffmpeg -i piper-out.wav -ar 16000 piper-out-16k.wav

en_US-lessac-low 本來就是 16k、沒這問題。

何時這篇會過時

pip install piper-tts 安裝方式可能演化（轉純 binary release？）、但 ONNX model + CLI invocation 形式應該穩定。
Voice model 格式（ONNX）是 web 通用標準、未來增加 quality / locale、現有 voice 不會被 deprecate。
Hugging Face rhasspy/piper-voices repo 是 maintainer 官方、不會消失。

讀的時候若 pip install 失敗、查 piper GitHub 最新 install 路徑；voice 列表看 piper-voices repo。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、語音 round-trip 對接見 Whisper STT、跨服務 lifecycle 與記憶體管理見 Resource management。

Hands-on：用 blog content 當 corpus 跑 RAG

Tue, 12 May 2026 00:00:00 +0000

本篇把 4.1 RAG 原理的概念落到一個能跑的最小實作：用本 blog 的 content/llm/ 當 corpus、Ollama 的 nomic-embed-text 做 embedding、gemma3:1b 做生成、兩個 Python 檔案完成 ingest + query 整條鏈。實作刻意保持 minimal、為的是把每一段都看清楚、跟原理對應。

驗證日期：2026-05-12 環境：macOS、Ollama 0.23.2、nomic-embed-text、gemma3:1b Corpus：本 blog 的 content/llm/、71 個 markdown 檔結果：22 秒索引 463 個 chunk、retrieval 命中率好、generation 受 1B 模型能力限制——剛好示範「retrieval 跟 generation 各自會失敗」的兩段式失敗模式

前置設定

項目	來源 / 指令
Ollama 跑著	見 Ollama 安裝
Embedding 模型	`ollama pull nomic-embed-text`（274 MB、768 維）
Chat 模型	`ollama pull gemma3:1b`（815 MB）。能力弱但夠驗證流程；上 31B 級才能拿到「真正能用」的 answer 品質
Python	3.11+（標準 lib `urllib` / `pickle` 即可、不需要外部依賴）

驗證 embedding API 可用

1curl -s http://localhost:11434/api/embeddings \
2  -d '{"model":"nomic-embed-text","prompt":"hello world"}' \
3  | python3 -c "import json,sys; r=json.load(sys.stdin); print('dim:', len(r['embedding']))"

逐項說明：

curl -s：-s 是 silent 模式、不顯示下載進度條（不然會混進 stdout、後面 python parse 會炸）。
http://localhost:11434/api/embeddings：用 Ollama 原生 embedding endpoint。也有 /v1/embeddings（OpenAI 相容）、但原生回應結構較簡（直接 {"embedding": [...]}、不是 OpenAI 那種 {"data": [{"embedding": [...]}]} 巢狀）。本 demo 用原生、parse 更直接。
-d '{"model":"...","prompt":"..."}'：JSON payload。model 是 Ollama tag、prompt 是要 embed 的文字。
python3 -c "..."：stdin 接 curl 輸出、parse JSON、印 embedding 長度。
為什麼測 dim: 768：nomic-embed-text 模型架構決定 embedding 維度是 768。每次 embed 任何文字都會回固定 768 維向量、是 retrieval 的基本資料形狀。看到 dim: 768 表示：API 通了、模型載入了、輸出形狀對。

設計取捨

實作前先對齊 4.1 RAG 原理提的設計取捨、決定每段怎麼做：

取捨點	本 demo 的選擇	Trade-off
Chunking 粒度	段落感知 + 軟 token cap（~400 token）	簡單、保留段落邊界；不做語意 chunking
Embedding 模型	`nomic-embed-text`（768 維）	主流、Ollama 內建、英文為主；中文混合場景仍可運作
向量儲存	Python pickle 檔	463 chunks 用 in-memory 完全夠；何時該換見 4.22 RAG storage 工程
Retrieval	Cosine similarity、top-K	無 hybrid、無 re-ranker；夠驗證、品質受 embedding 限制
Generation	`gemma3:1b` 純 Ollama OpenAI 相容 API	1B 模型能力弱、會編造；用來示範 retrieval 跟 generation 兩段分離

這些選擇都對應到 4.0 章節的「會變的部分」清單——可預期半年後 embedding 模型有新選擇、chunking 有更好策略、re-ranker 變主流。但骨架（retrieval + augmentation 兩段式）不變。

Ingest：把 corpus 變索引

完整檔案：scripts/rag-demo/ingest.py（本 repo 下）。三段 function：切 chunk、embed、走訪 + 持久化。

1. `slice_markdown`：段落感知的 chunk 切割

 1def slice_markdown(text: str, soft_token_cap: int = 400) -> list[str]:
 2    paragraphs = [p.strip() for p in re.split(r"\n\s*\n", text) if p.strip()]
 3    chunks = []
 4    buf, buf_len = [], 0
 5    for p in paragraphs:
 6        plen = len(p) / 2  # char-count / 2 ≈ token (CJK + English heuristic)
 7        if buf and buf_len + plen > soft_token_cap:
 8            chunks.append("\n\n".join(buf))
 9            buf, buf_len = [], 0
10        buf.append(p)
11        buf_len += plen
12    if buf:
13        chunks.append("\n\n".join(buf))
14    return chunks

每段做什麼：

re.split(r"\n\s*\n", text)：用「空白行」當分隔符切段落。\n\s*\n 比 \n\n 寬一點、允許中間有 whitespace（空白、tab）。Markdown 段落的標準分隔是空白行、這個 regex 捕捉所有段落邊界。
[p.strip() for ... if p.strip()]：每段去除前後空白、過濾掉純空段落。
buf, buf_len = [], 0：累積一個正在構建的 chunk。buf 是段落 list、buf_len 是該 chunk 的 token 累計估算。
plen = len(p) / 2：估算這段的 token 數。
if buf and buf_len + plen > soft_token_cap：「greedy pack」邏輯——如果加上這段就會超過 cap、把目前 buffer flush 成一個 chunk、再開新 buffer 裝這段。
if buf: chunks.append(...)：迴圈結束後、最後一個 buffer 還沒 flush、補上。

為什麼這樣設計：

為什麼 paragraph-aware、不是固定 token cap：4.1 RAG 原理提的 chunking 設計取捨——固定 token cap 容易切過句子或段落中間、語意被截斷。Paragraph-aware 切在自然邊界、保留段落內語意完整。
為什麼 soft token cap（軟限制）而不是硬切：硬切會把一個 800-token 段落切成兩半；軟切讓「目前 chunk + 下一段超過 cap」時 flush 目前 chunk、下一段獨立成新 chunk（即使超過 cap 也保留段落完整）。代價：個別 chunk 可能超過 cap、retrieval 拿到的塊較大、但內容完整。
為什麼 len(p) / 2 估 token：英文約 4 字元 / token、中文約 1.5 字元 / token、混合平均 / 2 在兩種場景都合理。要精確用 tokenizer（如 tiktoken）、但 demo 不需要——這個 heuristic 在 ±20% 內、夠用來做 chunking 決策。
為什麼 \n\n.join(buf)`：flush 成 chunk 時、段落間保留空白行分隔、讀者看到 chunk 仍是合法 markdown 結構、不是平鋪文字。

2. `embed`：呼叫 Ollama embedding API

1def embed(text: str) -> list[float]:
2    payload = json.dumps({"model": "nomic-embed-text", "prompt": text}).encode()
3    req = urllib.request.Request(
4        "http://localhost:11434/api/embeddings",
5        data=payload,
6        headers={"Content-Type": "application/json"},
7    )
8    with urllib.request.urlopen(req, timeout=60) as resp:
9        return json.loads(resp.read())["embedding"]

每行做什麼：

payload = json.dumps(...).encode()：把 dict 轉成 JSON 字串、再 encode 成 bytes。HTTP body 必須是 bytes、不能直接傳 str。
urllib.request.Request(...)：建立 HTTP request 物件。沒寫 method 預設是 GET、但有 data 參數會自動變 POST。
headers={"Content-Type": "application/json"}：告訴 server payload 是 JSON。少了這個、Ollama 可能 parse 不出 body。
urlopen(req, timeout=60)：發送 request、timeout=60 是 socket-level timeout（連線 + 讀取總共最多 60 秒）。
json.loads(resp.read())["embedding"]：讀回應 body、parse JSON、取 embedding 欄位（768 維 list of float）。

為什麼這樣設計：

為什麼用 stdlib urllib 而不是 requests：完全沒有外部 dependency、urllib 是 Python stdlib 內建。requests 較友善但要 pip install、本 demo 想 minimal。
為什麼 timeout=60：embed 一段文字通常 < 200ms、60 秒夠 buffer 意外（首次 model 載入記憶體可能 5-10 秒）。設無限會在 Ollama 掛掉時整個 script hang。
為什麼 /api/embeddings、不是 /v1/embeddings：兩者都可。原生 endpoint 回應結構平、parse 直接（r["embedding"]）；OpenAI 相容回應較巢狀（r["data"][0]["embedding"]）。對 demo、寫法簡單較重要。

3. 走訪 + 持久化

 1md_files = sorted(args.content_root.rglob("*.md"))
 2records = []
 3for md in md_files:
 4    text = md.read_text(encoding="utf-8")
 5    text = re.sub(r"^---\n.*?\n---\n", "", text, count=1, flags=re.DOTALL)  # 去掉 frontmatter
 6    chunks = slice_markdown(text)
 7    for j, chunk in enumerate(chunks):
 8        vec = embed(chunk)
 9        records.append({
10            "source": str(md.relative_to(args.content_root.parent)),
11            "chunk_index": j,
12            "text": chunk,
13            "embedding": vec,
14        })
15with open("scripts/rag-demo/index.pkl", "wb") as f:
16    pickle.dump(records, f)

每段做什麼：

args.content_root.rglob("*.md")：recursive glob、回 Path iterator、找出 content_root 下所有 .md 檔（含子目錄）。
sorted(...)：排序、讓每次 ingest 順序穩定（git diff 比較友善、retrieval 結果可重現）。
text.read_text(encoding="utf-8")：讀檔、明確指定 UTF-8（中文 markdown 必要、否則 macOS / Linux 預設可能不一致）。
re.sub(r"^---\n.*?\n---\n", "", text, count=1, flags=re.DOTALL)：去掉 Hugo frontmatter。
- ^---\n：開頭 ---\n。
- .*?：non-greedy match、配到下一個 --- 就停。
- \n---\n：closing fence。
- count=1：只 strip 第一個（檔案中可能有其他 --- 是水平分隔線、不要誤殺）。
- flags=re.DOTALL：讓 . 也匹配換行符（預設 . 不匹配 \n、規 frontmatter 跨行就吃不到）。
records.append({...})：每個 chunk 一個 record、含 source path、chunk index、原文、embedding。
md.relative_to(args.content_root.parent)：把絕對 path 變成 llm/00-foundations/xxx.md 形式、retrieval 顯示時短、跨機器可移植。
pickle.dump(records, f)：把整個 records list 序列化到 binary 檔。

為什麼這樣設計：

為什麼要 strip frontmatter：Frontmatter 是 title、date、tags 等 metadata、不是文章正文。embed 進去會稀釋向量語意（讓「date」「2026-05-11」等 keyword 影響相似度計算）。Strip 後 embedding 只 capture 內容語意。
為什麼 records 是 list of dict 而不是 numpy array：兩個原因。(1) 每個 record 含 source / chunk_index / text / embedding 四種異質欄位、numpy 處理不直接。(2) 463 chunks 規模、純 Python list 跑 cosine 也只是毫秒級、不需要 vectorize。十萬 chunk 以上才考慮 numpy array + batched dot product。
為什麼 pickle 而不是 JSON：embedding 是 768-float list、JSON 序列化會把每個 float 變成 ASCII 字串（每個 ~20 bytes）、檔案大很多、parse 也慢。Pickle 是 binary format、保留原本資料結構、檔案小、loader 快。代價：pickle 有 Python 版本相依、跨語言不能讀——但本 demo 索引只給自家 query.py / mcp_server.py 用、可接受。
為什麼存 text 跟 embedding、不只 embedding：retrieval 要回 chunk 原文給 LLM 看、不能只有 source path（不然每次 query 還要再讀檔）。這裡的 corpus 檔案就是 retrieval source；Pickle 多存原文成本低（~100 byte / chunk）、查詢時方便很多。

跑 ingest

1cd ~/Projects/blog
2python3 scripts/rag-demo/ingest.py

cd ~/Projects/blog：切到 repo 根、讓相對路徑 content/llm 對得到 corpus、scripts/rag-demo/index.pkl 對得到 output 位置。
python3 scripts/rag-demo/ingest.py：跑 ingest script、預設讀 content/llm/、寫 scripts/rag-demo/index.pkl。

實測輸出：

1Found 71 markdown files under content/llm
2  [10/71] 86 chunks in 4.5s
3  [20/71] 181 chunks in 8.6s
4  ...
5  [70/71] 461 chunks in 22.2s
6Wrote 463 records to scripts/rag-demo/index.pkl (22.3s)

463 chunks、22 秒、平均 ~21 chunks/sec。瓶頸是 sequential API call、用 async / batch 能快 5-10 倍、但這個量級不值得。

Query：retrieval + augmentation + generation

完整檔案：scripts/rag-demo/query.py。三段。

1. Cosine similarity + top-K retrieval

 1def cosine(a, b):
 2    dot = sum(x * y for x, y in zip(a, b))
 3    na = math.sqrt(sum(x * x for x in a))
 4    nb = math.sqrt(sum(y * y for y in b))
 5    return dot / (na * nb) if na and nb else 0.0
 6
 7def retrieve(records, query_vec, top_k):
 8    scored = [(cosine(query_vec, r["embedding"]), r) for r in records]
 9    scored.sort(key=lambda x: x[0], reverse=True)
10    return scored[:top_k]

每行做什麼：

dot = sum(x * y for x, y in zip(a, b))：兩個向量的內積（dot product）。zip(a, b) 把兩個 list 對位配對、generator expression 算每對相乘、sum 加起來。
na = math.sqrt(sum(x * x for x in a))：a 的 L2 norm（歐氏範數）—— sqrt(x1² + x2² + ... + xn²)。
nb = math.sqrt(sum(y * y for y in b))：b 的 L2 norm。
return dot / (na * nb) if na and nb else 0.0：cosine = dot / (||a|| × ||b||)。三元運算子防 zero division——若任一向量是零向量、na 或 nb 為 0、回 0.0 而不是 crash。
scored = [(cosine(query_vec, r["embedding"]), r) for r in records]：對每個 record 算相似度、組成 (score, record) tuple 的 list。
scored.sort(key=lambda x: x[0], reverse=True)：按 score 從大到小排序。key=lambda x: x[0] 取 tuple 第一個元素（score）當排序 key。
return scored[:top_k]：取前 K 個。

為什麼這樣設計：

為什麼 cosine 而不是純 dot product：純 dot product 受向量長度影響——長向量自動拿高分、跟「相似度」無關。Cosine 把向量正規化到單位長度、純看方向、是「語意相似」的標準衡量。語意相似 embedding 應該方向相近、長度差異不重要。
為什麼用 math.sqrt 而不是 **0.5：兩者數學等價、但 math.sqrt 用 C-level 實作、CPython 中比 Python 級 **0.5 快幾倍。對 463 chunks 影響不大、但 production scale 會放大差異——習慣寫 math.sqrt 的好。
為什麼 if na and nb else 0.0：防禦性程式設計。理論上 embedding 不會是零向量（模型架構保證有非零權重）、但邊界情況（空輸入、API 出錯回 placeholder）可能出現、避免 ZeroDivisionError 整個 query 失敗。回 0.0 表示「無法判斷相似度」、retrieval 排序時自然排到最後。
為什麼 sort 全部、不用 heap：463 records、Python sort 是 O(n log n)、毫秒級。heapq.nlargest(top_k, ...) 是 O(n log k)、在 k=4、n=463 上實測幾乎沒差。十萬 record 以上才看到顯著差別。
為什麼用 list of tuple、不用 numpy：跟 ingest 同樣的理由——小規模不需要 vectorize、純 Python 清楚。

2. 建 augmented prompt

 1context_blocks = []
 2for score, r in retrieved:
 3    context_blocks.append(
 4        f"[來源：{r['source']}#chunk{r['chunk_index']} 相似度：{score:.3f}]\n{r['text']}"
 5    )
 6
 7system = (
 8    "你是一個技術文件問答助手。"
 9    "依下方 context 內容回答問題、不要編造 context 外的事實。"
10    "若 context 不足以回答、明確說『資料不足』。"
11    "回答末尾列出引用的來源 path。"
12)
13user = "## Context\n\n" + "\n\n---\n\n".join(context_blocks) + f"\n\n## Question\n\n{question}"
14
15messages = [
16    {"role": "system", "content": system},
17    {"role": "user", "content": user},
18]

每行做什麼：

f"[來源：{...} 相似度：{score:.3f}]\n{r['text']}"：每個 retrieved chunk 加 header 標明出處跟相似度、再接原文。:.3f 是 score 格式化到三位小數。
"\n\n---\n\n".join(context_blocks)：用 --- 水平分隔線分隔各 chunk、視覺上清楚。
{"role": "system", "content": system}：system message 給 LLM 設定角色 + 約束。
{"role": "user", "content": user}：user message 含 context 跟 question、是 LLM 實際讀的內容。

為什麼這樣設計：

為什麼 system prompt 約束四件事（角色、忠於 context、資料不足時明說、引用來源）：
- 角色：「技術文件問答助手」框定模型行為、減少 off-topic 回應。
- 忠於 context：對抗 RAG 最常見的失敗模式——LLM 看到 context 但用自己訓練的 knowledge 補完、結果跟 corpus 不一致。明確要求 follow context 能降低（雖然不能完全消除、見實測 1）。
- 資料不足時明說：避免 LLM「硬要回答」造成 hallucination。對 weak model 這條 follow 度差、但對 large model 有效。
- 引用來源：traceability。讀者能回查 corpus、驗證模型答案。
為什麼 ## Context / ## Question 結構：用 markdown heading 結構幫助 LLM 區分「我要讀什麼」「我要回答什麼」。比平鋪文字穩定（即使對小模型）。
為什麼把 retrieved chunks 全塞 user message、不分開：MCP / function calling 的更現代做法是把 retrieved 結果做成 tool response、模型主動 call retrieval tool。本 demo 不引入 tool use、直接塞 prompt 較單純——能說明 RAG 核心（augmentation）不必牽扯 tool use。

3. 呼叫 chat completions

1def chat(messages, model):
2    payload = json.dumps({"model": model, "messages": messages, "stream": False}).encode()
3    req = urllib.request.Request(
4        "http://localhost:11434/v1/chat/completions",
5        data=payload,
6        headers={"Content-Type": "application/json"},
7    )
8    with urllib.request.urlopen(req, timeout=180) as resp:
9        return json.loads(resp.read())["choices"][0]["message"]["content"]

每行做什麼：

json.dumps({"model": ..., "messages": ..., "stream": False}).encode()：構造 OpenAI 相容 chat completions request body。stream: False 讓 server 等生成完再一次回、不要 SSE 串流。
/v1/chat/completions：OpenAI 相容 endpoint、跟雲端 OpenAI 完全同樣 schema。
timeout=180：3 分鐘、給長 context + 慢模型空間。
["choices"][0]["message"]["content"]：parse OpenAI 標準 response 結構、取第一個 choice 的 content。

為什麼這樣設計：

為什麼 stream: False：demo 要把完整 answer 印出、不需要 incremental display。stream: True 要寫 SSE parser、複雜。Production 互動式 UI 才需要 streaming。
為什麼 timeout=180、不是 60：1B 模型 + 4 個 retrieved chunks 的 context、prefill 可能要 5-30 秒、生成 100-500 token 又要 5-20 秒、保守設 3 分鐘。embed function 用 60 是因為 embedding 是純 forward pass、單一 token 量級操作、不需要這麼長。
為什麼 /v1/... 而不是 /api/...：chat completions 走 OpenAI 相容 endpoint、生態都用這個格式（Continue.dev、Cursor、各家 SDK）。embedding 用 /api/... 是因為原生 schema 簡單；chat 用 /v1/... 是因為 message-based 結構是 OpenAI 標準、跨工具互通。

實測結果：retrieval 對、generation 弱

測試 1：「什麼是 MTP？為什麼對寫 code 場景特別有效？」

1python3 scripts/rag-demo/query.py --show-retrieved "什麼是 MTP？為什麼對寫 code 場景特別有效？"

--show-retrieved 是個 flag、開啟後在 stderr 印 retrieved chunks 跟 score、答案還是進 stdout。是 debug 跟教學用、不會影響 LLM 看到的 prompt。

Retrieval：

10.870  llm/knowledge-cards/transformer.md#chunk2
20.825  llm/03-theoretical-foundations/sampling-and-decoding.md#chunk8
30.782  llm/knowledge-cards/ttft.md#chunk1
40.771  llm/knowledge-cards/mtp.md#chunk2

四個 chunk 都跟問題相關、相似度合理。MTP 卡確實被命中（雖然不是 top-1、是因為 transformer.md 該段提到 MTP）。

Generation（1B 模型）：

MTP 僅指使用 Ollama 進行 Coding 模型訓練與部署、它是一種系統性的方式… 來源：llm.dev

錯：1B 模型編造了「MTP 僅指使用 Ollama」這個事實（不對、MTP 是 Google 為 Gemma 釋出的、跟 Ollama 沒直接關係）、來源 URL 也是 hallucination。

測試 2：「MCP 跟 function calling 有什麼差別？」

Retrieval：

10.721  llm/04-applications/application-protocols.md#chunk2
20.704  llm/04-applications/application-protocols.md#chunk1
30.702  llm/04-applications/application-protocols.md#chunk0
40.693  llm/knowledge-cards/function-calling.md#chunk1

完美命中——4.3 應用層協議章節三個 chunk + function-calling 卡。

Generation：模型把幾段重複拼接、framing 跟原文有出入、但比測試 1 好（因為 context 涵蓋直接答案）。

觀察跟原理對應

這個 demo 剛好示範 4.1 RAG 原理提的兩段式失敗模式：

階段	表現	原因
Retrieval	命中率好、找到對的 chunks	`nomic-embed-text` 對技術文件覆蓋好、cosine 對短 query 也 OK
Generation	內容有時編造、不忠於 context、來源亂寫	`gemma3:1b` 模型容量不足以可靠 follow system prompt

換 31B+ 模型 generation 會改善很多——這也是 4.0 章節提到「retrieval 跟下游 LLM 訓練分佈不一致」會放大失敗的具體例子。寫 RAG 系統時、generation 失敗不一定是「retrieval 沒給對 context」、可能是「模型不夠強」。

何時這份 demo 會過時

Ollama API 形狀：短期內不會變（生態都依賴）。
nomic-embed-text / gemma3:1b 具體 tag：預期會被新模型取代、但 retrieval + augmentation 結構不變。
Chunking heuristic：簡單 char-count / 2 很粗、半年後若有便宜的 token counter 直接接會更準。
Pickle 儲存：production 場景建議換 vector DB、本 demo 是教學用。

實作換代時、保留 ingest / retrieve / augment / generate 四段、各段內部換工具即可——這四段是 RAG 的骨架、跨工具世代不變。

跑這個 demo 的指令總結

1# 一次性建索引（每次 corpus 變動才需要重建）
2cd ~/Projects/blog
3python3 scripts/rag-demo/ingest.py

cd：切到 repo 根、relative path 對得到。
python3 ingest.py：跑索引、預設讀 content/llm/、寫 scripts/rag-demo/index.pkl。每次 corpus 變動才需要重跑、不變的話 index 就一直用。

1# 查詢（任意次）
2python3 scripts/rag-demo/query.py --show-retrieved "你的問題"
3python3 scripts/rag-demo/query.py --top-k 5 --model gemma3:1b "問題"

--show-retrieved：教學 / debug 用、列 retrieved chunks 跟 score 到 stderr。
--top-k 5：取 top 5 instead of 預設 4。chunks 越多 context 越長、TTFT 越久、但訊息越完整。
--model gemma3:1b：指定 chat model。換 gemma3:4b、gemma4:31b-coding-mtp-bf16 等 generation 品質會大幅改善。

完整 source 在 scripts/rag-demo/ 下、200 行 Python、無外部 dependency。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、把 retrieval 包成 MCP server 暴露給 LLM application 見 MCP demo、RAG + MCP 同跑的記憶體 / 程序預算見 RAG + MCP resource footprint、術語見 RAG 跟 embedding model。

Hands-on：用 blog content 寫一個最小 MCP server

Tue, 12 May 2026 00:00:00 +0000

本篇把 4.6 應用層協議的 MCP 概念落到一個可跑的最小實作：用 stdio JSON-RPC 暴露兩個 tool（search_blog、read_chunk）、客戶端 spawn server 跟它對話、驗證 protocol initialize / tools/list / tools/call / error 四個基本流程。實作刻意只用 Python stdlib、不依賴 MCP SDK、為的是把 wire protocol 看清楚、跟 4.3 的「server 協議層」framing 對應。

驗證日期：2026-05-12 環境：Python 3.11+、stdlib only（json / subprocess / urllib）依賴：RAG demo 的 index.pkl（見 RAG demo） 協議版本：MCP 2025-03-26

MCP 是什麼層的東西

回顧 4.6 應用層協議的層級劃分：

Function calling：模型訓練建立的能力（模型層）。
Structured output：sampling 階段約束（推論層）。
MCP：LLM application ↔ 外部 tool server 的協議（架構層）。

MCP 不管「模型怎麼呼叫工具」、它管「工具怎麼被暴露給 application」。本 demo 寫的是 server 端：server 不知道是哪個 LLM 在用它、不假設客戶端用 function calling 還是 structured output、它只專注「把 tool 透過 JSON-RPC 暴露出去」。

這跟 OpenAI 相容 API 的設計哲學一致：定義最小可用標準、讓生態繞著標準長。

前置設定

項目	來源
Ollama + `nomic-embed-text`	Ollama 安裝
RAG index（`index.pkl`）	RAG demo 跑過 `ingest.py`
Python	3.11+

不需要安裝 MCP SDK——本 demo 手寫 JSON-RPC 處理、為了 inspection 透明度。Production server 建議改用官方 SDK（Python / TypeScript 都有）、處理 framing、capability negotiation、transport edge cases。

MCP 協議的最小子集

MCP server 要 handle 的核心 method：

Method	角色
`initialize`	Client 跟 server 握手、交換 protocol version + capability
`notifications/initialized`	Client 通知 handshake 完成（notification、無 response）
`tools/list`	Client 問 server 有哪些 tool
`tools/call`	Client 呼叫某 tool、傳 arguments

四個 method 之外、還可以暴露 resources / prompts / sampling、本 demo 只做 tools。

Server 實作

完整檔案：scripts/mcp-demo/blog_mcp_server.py、約 150 行。

主迴圈：讀 stdin、分派 method、寫 stdout

 1def main():
 2    log(f"[blog-mcp-demo] starting, index={INDEX_PATH}, tools={list(TOOLS.keys())}")
 3    for line in sys.stdin:
 4        line = line.strip()
 5        if not line:
 6            continue
 7        try:
 8            msg = json.loads(line)
 9        except json.JSONDecodeError as e:
10            log(f"  parse error: {e}")
11            continue
12        method = msg.get("method")
13        rid = msg.get("id")
14        params = msg.get("params", {})
15        log(f"  → {method} (id={rid})")
16        if method not in HANDLERS:
17            respond(rid, error={"code": -32601, "message": f"Method not found: {method}"})
18            continue
19        handler = HANDLERS[method]
20        if handler is None:
21            continue  # notification, no response expected
22        try:
23            result = handler(params)
24            respond(rid, result=result)
25        except Exception as e:
26            log(f"  ✗ handler error: {e}")
27            respond(rid, error={"code": -32000, "message": str(e)})

每段做什麼：

log(...) 開機訊息：印到 stderr（不是 stdout）、讓人類能看到 server 啟動了、什麼 tools 可用。stdout 完全保留給 JSON-RPC 用。
for line in sys.stdin：MCP 的 stdio transport 是 line-delimited JSON—— 每個 message 一行、\n 結束。Python 的 file iteration 自動按行切。
line.strip() + if not line：空行 skip（不是 protocol error、只是 idle）。
json.loads(line) with try / except：parse 失敗（malformed input）不 crash、log error 繼續下一行。Protocol 訊息該是合法 JSON、parse error 表示 client 出錯。
msg.get("method") / msg.get("id") / msg.get("params", {})：JSON-RPC 2.0 標準三個欄位。get 而不是 []、避免 KeyError；params 預設空 dict、後面 handler 可以安全 .get("xxx")。
if method not in HANDLERS: respond(rid, error={"code": -32601, ...})：未知 method 回標準 JSON-RPC error -32601（Method not found）。Client 知道這個 method 不能用、但 server 不死。
if handler is None: continue：notification（如 notifications/initialized）對應的 handler 是 None、不該回 response。
try: result = handler(params); respond(rid, result=result)：呼叫 handler、把結果回給 client。
except Exception as e: ... respond(rid, error={"code": -32000, ...})：handler 內部錯誤回 -32000（generic server error）。確保 server 任何時候都不 crash、即使工具 bug 也讓 client 拿到 error response。

為什麼這樣設計：

為什麼用 line-delimited JSON、不是 length-prefixed：MCP spec 規定 stdio transport 是 newline-delimited。length-prefixed 是 LSP 的做法、解析複雜（要先讀 Content-Length header 再讀 N bytes）；newline-delimited 用 for line in sys.stdin 一行解決。
為什麼 stderr 不能寫 stdout：stdio transport 的 invariant——stdout 是 protocol channel、只能寫 JSON-RPC message。任何 stray print() / debug output 進 stdout、會被 client parse JSON 時炸（「multiple JSON values on one line」或 invalid JSON）。所有 log / debug / progress message 必須走 stderr。寫錯這條 server 看起來不工作、debug 很久才找到。
為什麼 dispatch 用 dict-of-handlers 而不是 if/elif chain：擴充性。加新 method 只要往 HANDLERS dict 加一項、不用改 main loop。也讓 dispatch logic 跟 method 實作分離、容易測試。
為什麼每個 handler 都用 try/except 包：「single point of failure」設計——任何 handler 例外不影響其他 method。Server 應該是 long-running daemon、不能因為一個 tool bug 死掉。
為什麼 errors 用 JSON-RPC error code 而不是 HTTP-style status：JSON-RPC 2.0 標準。-32700 parse error、-32600 invalid request、-32601 method not found、-32602 invalid params、-32603 internal error、-32000 to -32099 留給應用層自訂。

工具：search_blog

 1def tool_search_blog(query: str, top_k: int = 5) -> dict:
 2    records = load_index()
 3    q_vec = embed(query)
 4    scored = sorted(
 5        ((cosine(q_vec, r["embedding"]), r) for r in records),
 6        key=lambda x: x[0],
 7        reverse=True,
 8    )[:top_k]
 9    results = [
10        {
11            "source": r["source"],
12            "chunk_index": r["chunk_index"],
13            "score": round(score, 4),
14            "preview": r["text"][:160] + ("..." if len(r["text"]) > 160 else ""),
15        }
16        for score, r in scored
17    ]
18    return {"content": [{"type": "text", "text": json.dumps(results, ensure_ascii=False, indent=2)}]}

每段做什麼：

records = load_index()：lazy load index.pkl、第一次 call 載入記憶體、後續直接用 cached。Server 啟動時 lazy load 而不是 import 時 load、讓 server 即使在 Ollama 還沒起 / index 不存在時也能 boot（之後 call 才會報 error）。
q_vec = embed(query)：把 query 轉成 768 維向量、呼叫 Ollama embedding API、跟 RAG demo 的 embed 是同一個 function。
sorted((...) for r in records, key=lambda x: x[0], reverse=True)[:top_k]：generator expression + sorted 一次完成「算分 → 排序 → 取 top-K」。
results = [{...} for score, r in scored]：把 top-K 整理成 client 友善的 dict 結構、含 source、chunk_index、score、preview（前 160 字 + 省略號）。
{"content": [{"type": "text", "text": json.dumps(...)}]}：MCP tools/call 標準 response 格式——content 是 array、每個元素 type + payload。type: "text" 是文字 content、text 是實際內容（這裡是 JSON 字串、讓 LLM 可以 parse）。

為什麼這樣設計：

為什麼 generator expression 而非 list comprehension：(... for r in records) 是 generator、sorted 直接消費、不會在記憶體中建中間 list。對 463 records 影響不大、但展現 memory-efficient pattern。
為什麼 preview 切到 160 字：兩件事的平衡——讓 LLM 看到的 search result 短（不淹沒 LLM 的 context）、但夠判讀（160 中文字約 80 token、能看出 chunk 是不是相關）。如果 LLM 要完整內容、再 call read_chunk。
為什麼回傳 JSON 字串、不是 nested object：MCP content 規定每個 element 是 {type, payload}、type: "text" 的 text 必須是 string、不能直接放 nested object。要傳結構化資料、就把它 json.dumps 成字串。LLM 看到後可以自己 parse。
為什麼 ensure_ascii=False：預設 json.dumps 把非 ASCII 字元（如中文）轉成 \uXXXX、難讀。ensure_ascii=False 直接輸出 UTF-8、LLM 也能直接讀懂、節省 token 數（一個中文字 1 token vs 6 token 的 中）。
為什麼 round(score, 4)：score 是 float、原始可能是 0.7497284598827362、長且無意義。round(score, 4) 保留 4 位小數、0.7497、夠精確、wire size 短。

工具：read_chunk

1def tool_read_chunk(source: str, chunk_index: int) -> dict:
2    records = load_index()
3    for r in records:
4        if r["source"] == source and r["chunk_index"] == chunk_index:
5            return {"content": [{"type": "text", "text": r["text"]}]}
6    return {
7        "content": [{"type": "text", "text": f"Not found: {source}#chunk{chunk_index}"}],
8        "isError": True,
9    }

每段做什麼：

for r in records: if r["source"] == source and r["chunk_index"] == chunk_index: return ...：linear scan 找匹配的 record、找到回完整 text。
找不到時 return {... "isError": True}：MCP 標準的「tool 內部失敗」訊號。isError: True 告訴 client「這個 tool call 失敗了」、content 內是 human-readable error message。

為什麼這樣設計：

為什麼 linear scan 而不是 dict lookup：可以改用 {(source, chunk_index): record} dict 變 O(1)。但 463 records 的 linear scan 是 < 1ms、optimize 不值得。Production 跟 vector DB 整合時、retrieval 系統自帶 indexing。
為什麼 isError: True 而不是 JSON-RPC error：分兩種錯誤：
- Protocol error：method 不存在、params 不合法、JSON parse 失敗——回 JSON-RPC error 物件。
- Tool semantic error：method OK、params OK、但 tool 邏輯上不能 complete（找不到資料、外部 service down）——回 normal response 加 isError: True。 MCP 設計這層分離、讓 client / LLM 區分「我做錯了」（協議層）跟「資料不存在」（語意層）。Production 設計工具時要仔細區分。

Tool 描述用 JSON Schema

 1TOOLS = {
 2    "search_blog": {
 3        "description": "Semantic search over blog content. Returns top-K relevant chunks with source paths.",
 4        "inputSchema": {
 5            "type": "object",
 6            "properties": {
 7                "query": {"type": "string", "description": "Natural language query"},
 8                "top_k": {"type": "integer", "default": 5, "minimum": 1, "maximum": 20},
 9            },
10            "required": ["query"],
11        },
12        "fn": lambda args: tool_search_blog(args["query"], args.get("top_k", 5)),
13    },
14    "read_chunk": {
15        "description": "Read the full text of a specific chunk by source path and chunk index.",
16        "inputSchema": {
17            "type": "object",
18            "properties": {
19                "source": {"type": "string", "description": "Markdown file path relative to content/"},
20                "chunk_index": {"type": "integer", "minimum": 0},
21            },
22            "required": ["source", "chunk_index"],
23        },
24        "fn": lambda args: tool_read_chunk(args["source"], args["chunk_index"]),
25    },
26}

每個 field 角色：

description：給 LLM 看的、解釋這個 tool 解什麼問題。LLM 看 description 決定何時 call。這是模型 follow tool 的最主要訊號——寫得清晰具體、模型用得對。
inputSchema：JSON Schema、描述 tool 接受的參數結構。LLM application 用這個 schema 約束 LLM 生成「合法的呼叫」。
properties：每個參數的型別 + 約束。
required：必填參數清單。LLM 漏掉時、client 端可以 reject、不會浪費 round-trip。
default：可選參數的預設值。傳的時候不給、tool 就用 default。
minimum / maximum：數值約束。top_k 設 1-20 是因為 < 1 沒意義、> 20 浪費 retrieval。
fn：實際 dispatch 用的 callable。本 demo 用 lambda 把 args dict 轉成 positional / keyword call。

為什麼這樣設計：

為什麼 description 要具體：LLM 看 description 決定 call 時機。「search the blog」對 LLM 來說太模糊（搜什麼？找什麼？）、改成「Semantic search over blog content. Returns top-K relevant chunks with source paths.」明確描述輸入跟輸出形狀、LLM 能判讀「使用者問技術問題時該 call 這個」。
為什麼 schema 用 JSON Schema、不是自訂格式：JSON Schema 是 web 標準、所有 LLM application 都認識、跨 framework 可移植。也是 function calling 跟 Tool use 原理的 schema 描述語言。
為什麼 required 跟 default 兩個機制：對 LLM 看的 prompt 越清楚越好。required 告訴 LLM「不傳這個會錯」、default 告訴 LLM「可不傳、預設值是 X」。沒分清的話、LLM 可能總是傳所有參數、雜訊多。
為什麼 fn 用 lambda 包：實際 tool function 是 positional args、但 client 送的是 dict。lambda 把 dict 拆成 function call 的 args。也方便將來如果 tool function signature 變、只要改 lambda 不用改 dispatcher。

Client 實作（測試用）

完整檔案：scripts/mcp-demo/test_client.py。實際 production 用 Claude Desktop / Cursor 等 MCP-capable application。本 demo 寫一個 stdio client、模擬 application 行為：

 1proc = subprocess.Popen(
 2    [sys.executable, str(SERVER)],
 3    stdin=subprocess.PIPE,
 4    stdout=subprocess.PIPE,
 5    stderr=subprocess.PIPE,
 6    text=True,
 7    bufsize=1,
 8)
 9
10def send(method, params=None, rid=None):
11    msg = {"jsonrpc": "2.0", "method": method}
12    if params is not None:
13        msg["params"] = params
14    if rid is not None:
15        msg["id"] = rid
16    proc.stdin.write(json.dumps(msg) + "\n")
17    proc.stdin.flush()
18    if rid is None:
19        return None  # notification
20    line = proc.stdout.readline()
21    return json.loads(line)

每個參數做什麼：

subprocess.Popen([sys.executable, str(SERVER)], ...)：spawn server 當 child process。用 sys.executable 確保用同一個 Python interpreter（避免 venv 跟系統 Python 混用）。
stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE：三條 pipe 都接到 client、讓我們能讀寫 server 的 stdio。
text=True：自動處理 str ↔ bytes 編碼、直接讀寫字串、不用手動 encode/decode。預設是 binary mode。
bufsize=1：line buffering、每寫一行就 flush。沒這個的話、Python 預設 block buffering（4KB 才 flush）、client 寫的 message server 看不到、整個卡住。
proc.stdin.write(json.dumps(msg) + "\n")：寫 JSON 訊息、結尾加 \n（line-delimited）。
proc.stdin.flush()：強制立刻送出。即使有 bufsize=1、明確 flush 是好習慣、避免任何 buffer 累積。
if rid is None: return None：notification 不該等 response。
line = proc.stdout.readline() + json.loads(line)：讀一行 response、parse。

為什麼這樣設計：

為什麼 stdio 而不是 socket / HTTP：MCP stdio transport 的主要場景是「application spawn server」(Claude Desktop 開 Python 進程當 MCP server)。Stdio 自然形成 1-to-1 ownership、不需要 port allocation、不需要 auth。HTTP transport 也存在、用在 multi-client 場景。
為什麼 bufsize=1 這麼關鍵：Python 預設 stdio buffer 4KB。如果 server / client 任一邊寫了 short message 但沒 fill 4KB、message 不會被另一邊看到、protocol 卡死。看起來是 hang、debug 困難。bufsize=1 強制 line buffering、解決這個 deadlock。
為什麼 text=True：JSON-RPC 都是文字、binary mode 要手動 .encode() / .decode()、增加複雜度。text=True 自動處理 UTF-8。

跑通整條流程

1cd ~/Projects/blog
2python3 scripts/mcp-demo/test_client.py

cd ~/Projects/blog：切到 repo 根、讓 SERVER 路徑相對解析正確。
python3 scripts/mcp-demo/test_client.py：跑 test client、它會 spawn server 跟它對話。

預期看到五個階段：

1. initialize（握手）

 1=== 1. initialize ===
 2{
 3  "jsonrpc": "2.0",
 4  "id": 1,
 5  "result": {
 6    "protocolVersion": "2025-03-26",
 7    "capabilities": {"tools": {}},
 8    "serverInfo": {"name": "blog-mcp-demo", "version": "0.1.0"}
 9  }
10}

Protocol 意義：

protocolVersion：server 支援的 MCP 版本。Client 要 negotiate（自己 cap 較新時要 downgrade）。
capabilities.tools: {}：server 宣告「我支援 tools 功能」、空 object 表示沒額外 sub-feature。Client 拿到後知道可以 call tools/list。
serverInfo：server 識別資訊、給 client 顯示用（debug、logging）。
id: 1：對應 client 送的 request id、讓 client 知道這個 response 是哪個 request 的。

2. tools/list

Server 回兩個 tool 的完整 schema：

 1{
 2  "tools": [
 3    {
 4      "name": "search_blog",
 5      "description": "Semantic search over blog content...",
 6      "inputSchema": {...JSON Schema...}
 7    },
 8    {
 9      "name": "read_chunk",
10      "description": "Read the full text of a specific chunk...",
11      "inputSchema": {...}
12    }
13  ]
14}

Protocol 意義：這個輸出就是 LLM application 會塞給 LLM 的 tool 描述。LLM application 把這份 schema 用 function calling 機制給模型看、模型決定何時呼叫、傳什麼參數。Server 跟模型之間靠這層 schema 對齊、模型不直接呼叫 server、是經 application 中介。

3. tools/call: search_blog

Client 送：

1{
2  "method": "tools/call",
3  "params": {
4    "name": "search_blog",
5    "arguments": {"query": "什麼是 KV cache？", "top_k": 3}
6  },
7  "id": 3
8}

params 包兩件事：

name：要 call 的 tool 名（matches tools/list 內某個 tool）。
arguments：實際傳給 tool 的 dict、結構符合該 tool 的 inputSchema。

Server 回 cosine 搜尋結果（preview）：

1[
2  {"source": "llm/00-foundations/hardware-memory-budget.md", "chunk_index": 5, "score": 0.7497, "preview": "| Context 長度 | KV cache 估算..."},
3  {"source": "llm/00-foundations/why-llm-feels-slow.md", "chunk_index": 4, "score": 0.7212, "preview": "..."},
4  {"source": "llm/03-theoretical-foundations/attention-mechanism.md", "chunk_index": 7, "score": 0.7176, "preview": "..."}
5]

實測命中合理——KV cache 相關段落都被找到。

4. tools/call: read_chunk

Client 用 search 拿到的 source + chunk_index、call read_chunk 拿完整內容：

 1{
 2  "method": "tools/call",
 3  "params": {
 4    "name": "read_chunk",
 5    "arguments": {
 6      "source": "llm/00-foundations/hardware-memory-budget.md",
 7      "chunk_index": 5
 8    }
 9  }
10}

Server 回該 chunk 的完整 markdown 文字。這實現了「search → read」的兩段流程——避免 search 一次就把所有 chunk 完整內容塞給 LLM（context 暴炸）、讓 LLM 自己看 preview 決定要 deep dive 哪個。

5. 錯誤路徑

1=== 5. unknown method (error path) ===
2{"jsonrpc": "2.0", "id": 5, "error": {"code": -32601, "message": "Method not found: does/not/exist"}}

-32601 是 JSON-RPC 標準 error code for unknown method。Server 對未知 method 回標準 error、不 crash。Client 知道這個 method 不能用、繼續其他操作。

跟 Claude Desktop / Cursor 整合

把這個 server 接到實際 MCP-capable application：

Claude Desktop

編輯 ~/Library/Application Support/Claude/claude_desktop_config.json：

1{
2  "mcpServers": {
3    "blog-search": {
4      "command": "/path/to/python3",
5      "args": ["/scripts/mcp-demo/blog_mcp_server.py"]
6    }
7  }
8}

每個 field 做什麼：

mcpServers：MCP server 註冊表、key 是任意名稱（client 識別用）。
command：spawn 用的 executable path。要寫絕對路徑、Claude Desktop 啟動時的 PATH 可能不含 python3。
args：傳給 command 的 args list。第一個是 script path。

為什麼這樣設計：Claude Desktop 啟動時讀這個 config、對每個 server 用 subprocess.spawn(command, args) 起 child process、用 stdio 跟它對話。跟本 demo 的 test_client.py 做的事完全一樣、只是改成 GUI application 而已。

重啟 Claude Desktop 後、在對話框問「用 search_blog 找 KV cache 相關段落」、Claude 會自動 call tool 並用結果回答。

Cursor

.cursor/mcp.json（per-project）或全域設定類似結構。具體欄位看當下版本文件。

兩種整合的共通點：MCP server 自己不變、只要 application 端配置 path 跟 args、整合就完成。這正是 4.3 章節 N×M → N+M 的具體展現——本 server 不為任何特定 application 客製化、就能被多個 application 接到。

觀察跟原理對應

回到 4.6 應用層協議的三層 framing：

層級	本 demo 是否實作	怎麼實作
模型能力	不在本 demo 範圍	LLM application 自己決定用 GPT/Claude/Gemma
Sampling 約束	不在本 demo 範圍	application + 推論伺服器配合
Server 協議	本 demo 焦點	JSON-RPC over stdio + tools/list / tools/call

這個分離正是 MCP 的核心收益：server 寫好之後、用什麼 LLM 跟它互動跟 server 無關。換掉 LLM、換掉 application、server code 完全不動。

何時這份 demo 會過時

MCP protocol version：目前用 2025-03-26、未來會更新、但「server 暴露 tool 給 application」的 framing 不變。
JSON-RPC 細節：可能 transport 形式增加（HTTP / WebSocket）、stdio 不會消失。
Tool 描述格式：JSON Schema 是 web 通用標準、不會被換掉。

實作換代時、可以把手寫 JSON-RPC 換成官方 SDK、tool 內部邏輯（embedding / cosine / pickle）依需求換、但 protocol 骨架（initialize / tools/list / tools/call）會保留。

跑這個 demo 的指令總結

1# 前置：確認 Ollama 跑著、index.pkl 存在
2ollama list | grep nomic-embed-text
3ls scripts/rag-demo/index.pkl

ollama list：列已下載 model、grep 過濾出 embedding model。沒看到表示要先 ollama pull nomic-embed-text。
ls scripts/rag-demo/index.pkl：確認 RAG ingest 跑過、index 存在。沒看到要先跑 python3 scripts/rag-demo/ingest.py。

1# 自動測試 MCP server
2python3 scripts/mcp-demo/test_client.py

跑 test_client、spawn server、依序送 5 個 request 驗證 protocol。stdout 印 protocol 對話、stderr 印 server log。看到全部 5 階段 OK 就成功。

1# 手動跟 server 互動（看 protocol 原始 wire format）
2python3 scripts/mcp-demo/blog_mcp_server.py
3# 然後手打：{"jsonrpc":"2.0","id":1,"method":"initialize","params":{}}

直接 invoke server、它讀 stdin 等 request。手打 JSON-RPC 訊息、看 server 回。是學 protocol 最直接的方式——你會看到 wire format 真實長相、跟自動 client 包裝後不一樣。

完整 source 在 scripts/mcp-demo/、約 250 行 Python、stdlib only。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、本 demo 依賴的索引由 RAG demo ingest 產生、MCP + RAG 同跑的記憶體 / 程序預算見 RAG + MCP resource footprint、術語見 MCP。

Hands-on：Ollama 改檔案 / 寫程式碼的權限邊界在哪

Tue, 12 May 2026 00:00:00 +0000

「Ollama 自己改檔案要不要 sudo？」「叫它寫 rm -rf 會直接刪嗎？」這類問題的答案來自一個根本事實：LLM 是 pure function、文字進、文字出、本身沒任何 file system / shell / network 副作用。改檔案、刪檔案、發網路請求、執行 shell command——全部由 wrapper 或人類做。LLM 「以為」自己做了什麼、跟實際發生什麼是兩件事。

本篇用四組對照實驗證明這個事實、再展開 wrapper 三檔審查粒度的設計取捨。這跟 4.3 副作用範圍設計、4.4 Agent 跟人類審查的協作模型、0.7 隱私資料流原理三個原則章節對應、實作層的權限與供應鏈判讀對應 6.2 tool use 與 MCP server 的權限模型跟 6.0 模型供應鏈與信任邊界。

驗證日期：2026-05-12 環境：Ollama 0.23.2、gemma3:1b、Python stdlib 檔案位置：scripts/permission-demo/edit_with_llm.py

為什麼這個問題重要

直覺常見的誤判：

「LLM 寫了 rm -rf 我電腦會壞」——錯。LLM 寫指令不代表執行。
「Ollama API 改我檔案要 sudo」——錯。Ollama API 根本碰不到檔案。
「我跑 wrapper 就讓 LLM 改檔案、應該有 confirm 機制吧」——錯。Confirm 機制完全是 wrapper 開發者自己決定要不要寫、LLM 不知道、不在乎。

理解這個邊界、後續設計 LLM 應用的權限模型才有 ground truth。錯誤的 mental model 會導致兩種 failure：

過度恐懼：因為怕 LLM「亂改」、把所有 LLM 互動關起來、放棄自動化收益。
過度信任：相信 LLM「不會做壞事」、給 wrapper 自動執行權限、結果小模型亂解 instruction 把資料毀掉。

實際上權限設計的判讀錨點是：這個動作有沒有副作用、誰執行。LLM 永遠不執行、所以權限不在 LLM 層；wrapper 執行、所以權限完全在 wrapper 設計。

Test 1：直接 API 問改檔案、看會發生什麼

挑一個檔案（token 卡片）、用 curl 送 chat completions、prompt 寫「修改這個檔案」、然後 check 檔案 mtime 跟 md5：

 1# 修改前 snapshot
 2stat -f "%m %N" content/llm/knowledge-cards/token.md
 3md5 -q content/llm/knowledge-cards/token.md
 4
 5# 用 system prompt「假裝你有 file 權限」、user 直接指明路徑
 6curl -s http://localhost:11434/v1/chat/completions \
 7  -H "Content-Type: application/json" \
 8  -d '{
 9    "model":"gemma3:1b",
10    "messages":[
11      {"role":"system","content":"You can modify files. The user provides a file. You modify it."},
12      {"role":"user","content":"Please modify /Users/.../token.md to add a sentence..."}
13    ],
14    "stream":false
15  }'
16
17# 修改後 snapshot
18stat -f "%m %N" content/llm/knowledge-cards/token.md
19md5 -q content/llm/knowledge-cards/token.md

實測結果：

 1=== Before ===
 21778508712 content/llm/knowledge-cards/token.md
 3d9f2d822f7458af62399076a94ef20f6
 4
 5=== LLM response ===
 6Okay, here's the modified content of `/Users/.../token.md`...
 7
 8=== After ===
 91778508712 content/llm/knowledge-cards/token.md  ← mtime same
10d9f2d822f7458af62399076a94ef20f6                  ← md5 same

mtime 沒變、md5 沒變、檔案內容完全沒動。但 LLM 用「Okay, here’s the modified content」這種口氣回答——它以為自己改了、實際上只生成了一段 markdown 文字。

結論：Ollama HTTP API 是 stateless、pure function。輸入 messages、輸出 message content。整個過程沒寫進 socket 以外的任何地方。

為什麼會這樣設計：

沙箱本來就在 API 邊界：HTTP server 接 request、跑 forward pass、回 response。期間沒呼叫 fs.write() / subprocess.run() / 任何 effectful API。
system prompt 不是權限授予：「You can modify files」這句話對模型來說只是文字 context、不會真的給它 file access。Prompt 是「LLM 內部的 context」、不是「runtime capability」。
訓練資料讓 LLM 「以為」自己有能力：LLM 訓練資料含大量「使用者問問題、AI 改檔案」的範例（如 GitHub Copilot agent traces、tool-use SFT 資料）、模型學會用「我已經改了」這種語氣回答——是 mimic、不是真正的 action。

Test 2：寫 wrapper 用 –dry-run 模式安全處理

權限不在 LLM、在 wrapper。寫一個 100 行的 wrapper、看怎麼設計 permission gates。完整檔案：scripts/permission-demo/edit_with_llm.py。

核心 architecture：

 1def main():
 2    # 1. 讀檔（wrapper 用自己的 fs 權限）
 3    original = args.file.read_text(encoding="utf-8")
 4
 5    # 2. 送 LLM、拿回提議的新內容
 6    response = chat([
 7        {"role": "system", "content": "You modify text files. Output ONLY ..."},
 8        {"role": "user", "content": f"File: {args.file}\nContent:\n{original}\nInstruction: {args.instruction}"},
 9    ])
10    new_content = extract_code_block(response)
11
12    # 3. Diff（純讀、永遠 safe、不需 gate）
13    diff = list(difflib.unified_diff(original.splitlines(...), new_content.splitlines(...)))
14    sys.stdout.writelines(diff)
15
16    # 4. PERMISSION GATE：wrapper 決定要不要 apply
17    if args.auto:
18        args.file.write_text(new_content)
19    elif args.confirm:
20        if input("Apply? [y/N] ").lower() == "y":
21            args.file.write_text(new_content)
22    else:  # --dry-run，預設
23        pass  # 不寫

為什麼這樣設計：

extract_code_block：嘗試 well-formed ```lang\n...\n``` regex、失敗 fallback 到 ```lang\n...$ 寬鬆版。小模型（1B）常忘記結尾 fence、寬鬆才能用。寫嚴格 regex 失敗時直接 abort、是另一種 permission gate（不應用 = 安全）。
永遠先印 diff：diff 是純讀操作、無副作用、永遠 safe。讓使用者先看 LLM 提議了什麼、再決定要不要 apply。
args.auto 在 elif 鏈最前面、dry-run 預設：強迫使用者明示 opt-in 才會寫檔。預設不寫、是「safe default」設計原則。

跑 --dry-run 預設、看實際發生：

1python3 scripts/permission-demo/edit_with_llm.py \
2  content/llm/knowledge-cards/token.md \
3  "把開頭第一段最後加一句『Token 是 embedding 的輸入單位』"

實測輸出（1B 模型）：

 1[+] Asking gemma3:1b to: '把開頭第一段最後加一句「Token 是 embedding 的輸入單位」'
 2[+] Proposed diff:
 3--- a/token.md
 4+++ b/token.md
 5@@ -6,16 +6,4 @@
 6 tags: ["llm", "knowledge-cards"]
 7 ---
 8
 9-Token 的核心概念是「LLM 內部處理文字的最小單位」...（整段刪除）
10-
11-## 概念位置
12-...（整段刪除）
13-...（後面所有段落都刪除）
14+Token 是 embedding 的輸入單位。
15
16[+] --dry-run: file unchanged. Use --confirm or --auto to apply.

驚悚發現：1B 模型完全沒理解「加一句」、把整篇刪掉只剩一行。但 --dry-run 不寫檔、檔案安全。

重點：

LLM 行為糟、但 wrapper 設計安全、結果 OK。
把同樣 instruction 餵 31B+ 模型結果會合理——模型能力決定 LLM 端品質、wrapper 設計決定最差情況的後果。
在 wrapper 端永遠假設 LLM 會亂改、設計 safe default、是 defensive programming。

Test 3：`--confirm` 模式、step-by-step 審查

--confirm mode 印 diff、問 y/N、user 確認才寫：

1python3 scripts/permission-demo/edit_with_llm.py \
2  content/llm/knowledge-cards/token.md \
3  "加一句說明" \
4  --confirm

互動流程：

1[+] Proposed diff:
2--- a/token.md
3+++ b/token.md
4@@ ... 整段刪除 ...
5
6[?] Apply this change to content/llm/.../token.md? [y/N] _

使用者看 diff 發現「整篇被刪了」、按 N、檔案安全。

這個 mode 對應的副作用範圍：4.3 工具的副作用範圍設計提的 spectrum：

等級	副作用	適合 mode
1	純讀（grep、git status）	`--dry-run` 或無 gate
2	寫 sandbox / staging	`--dry-run` + 人類事後審
3	寫本地持久化（如 commit、edit 檔）	`--confirm`
4	寫共享 / production（push、deploy）	`--confirm` 強制
5	操作真實世界（發 email、買股票）	`--confirm` + 額外 audit

本 demo 改 markdown 是等級 3（寫本地檔）、--confirm 是合適粒度。改 production code 或 git push 是等級 4 / 5、--confirm 該強制不該 optional。

Test 4：`--auto` 模式、危險自動化

--auto 不問直接寫：

1cp /tmp/token-orig.md content/llm/knowledge-cards/token.md  # 還原
2python3 scripts/permission-demo/edit_with_llm.py \
3  content/llm/knowledge-cards/token.md \
4  "加一句說明" \
5  --auto

實測：

1[!] --auto mode: writing without confirmation
2[+] wrote content/llm/knowledge-cards/token.md

檔案內容變成：

1---
2title: "Token"
3...
4---
5
6Token 是 embedding 的輸入單位。

整篇刪光、只剩一句。沒人 catch 到、commit + push 出去就是 production 災難。

--auto mode 適合什麼場景：

LLM 任務範圍狹窄、可預測（如 format JSON、補 type annotation 給已有 type stub）。
配合 git workflow（每次 auto edit 都自動 commit、出問題 git revert）。
CI / batch processing、人類事後審 PR。

--auto mode 不適合什麼場景：

任務開放性高（「改寫這段讓它更清楚」）。
不可逆環境（直接寫 production DB / 發 email）。
用弱模型（< 14B）跑、行為不穩。

設計 wrapper 時、把 --auto 設成顯式 opt-in、預設保持 dry-run / confirm 等較保守模式。本 demo 的 mutually_exclusive 設計（-g.add_mutually_exclusive_group()）保證三種 mode 只能擇一、避免歧義。

Test 5：LLM 寫 shell command、誰執行？

改檔案是「直接副作用」、寫 shell command 是「間接副作用」——同樣的問題：誰真的執行？

1curl -s http://localhost:11434/v1/chat/completions \
2  -H "Content-Type: application/json" \
3  -d '{
4    "model":"gemma3:1b",
5    "messages":[{"role":"user","content":"Give me a single shell command to find and delete all .log files in my home directory."}],
6    "stream":false
7  }' | python3 -c "import json,sys; print(json.load(sys.stdin)['choices'][0]['message']['content'])"

LLM 回：

1```bash
2find ~ -name "*.log" -delete
3```

這是個有破壞性的指令。檢查 home 下 .log 還在不在：

1find ~ -maxdepth 3 -name "*.log" 2>/dev/null | head -5
2# /Users/tarragon/.npm/_logs/2026-05-11T15_33_34_348Z-debug-0.log
3# /Users/tarragon/.npm/_logs/2026-05-11T11_58_08_827Z-debug-0.log
4# ...

都還在。LLM「給了」rm 指令、但沒人執行。

執行路徑只有兩種：

人類 paste 到 shell：人是執行者、權限是 user’s shell session permission。Audit trail：terminal history。
Wrapper 程式 subprocess.run(...)：wrapper 是執行者、權限是 wrapper process 的 capability。Audit trail：wrapper 的 log。

LLM 永遠不是執行者。所以「LLM 寫了 rm -rf」這個句子不能成立——它只能「生成了 rm -rf 字串」。

Agent 場景的 stake：4.4 Agent 架構提到 agent loop = 「LLM 提議 → tool 執行 → 結果回 LLM → 下一輪」。Tool 執行那一步是 wrapper 做的、LLM 只看到結果。Agent 框架是否安全、完全看 tool 怎麼設計：

Tool 限制範圍：read-only file system access、不暴露 shell→ 即使 LLM 想跑 rm -rf 也沒對應 tool、無法執行。
Tool 暴露 bash tool：給 LLM 一個「執行任意 shell command」的 tool。LLM 提議什麼 wrapper 都跑——這時 wrapper 設計失誤等同把鑰匙直接交給 LLM。
Tool 暴露 bash tool + per-command confirm：每個 shell 呼叫前 wrapper 暫停、問人類「該不該執行」。對開發 / 探索環境合理、production 自動化流程會被互動卡住、不適用。

對照：Claude Code / Cursor / aider 的權限模型

不同 LLM application 在權限 gate 上的設計選擇：

Application	File edit	Shell exec	預設審查粒度
Claude Code（CLI）	可、有 PreToolUse hook 可攔截	可、有 hook	中（部分自動、部分 prompt）
Cursor	可、agent mode	可（agent terminal）	中、agent 行為可調
aider	可、直接 diff + commit	可（`--auto-commits` mode）	中、預設 commit 前 diff
Continue.dev	inline edit（user 按 Cmd+;）	不直接 exec	高（user 必須 explicit）
Open WebUI（純 chat）	不	不	N/A（無 wrapper）
自寫 wrapper（如本 demo）	看設計	看設計	看設計

共通 pattern：所有「自動 edit / exec」的 app 都有某種 confirm 或 hook 機制。沒有 confirm 的 app 等於把寫 production 的鑰匙交給 LLM。

選 application 時看的維度：

預設 mode 是什麼？（auto / confirm / dry-run）
哪些動作會自動執行、哪些會 prompt？
有沒有 audit log、能不能 review LLM 改了什麼？
萬一 LLM 行為崩、怎麼 rollback？（git revert、snapshot、undo stack）

設計自家 wrapper 的權限模型

如果你寫的是「LLM 自動處理 X」這種 wrapper、權限設計的 checklist：

副作用分級：把可能的動作分到 4.3 spectrum 等級 1-5。
預設 dry-run：不確定就不寫。Apply 必須 opt-in。
永遠印 diff / preview：用戶才能 catch LLM 亂改。
Confirm 在不可逆操作：等級 3+ 永遠 prompt、等級 4+ 強制 prompt + 額外 audit。
Audit log：每個 wrapper 動作寫 log（時間、user、action、result）。出問題能追溯。
Rollback path：git commit、backup、snapshot 任選一種、必有。
限制 tool 範圍：給 LLM 暴露最少 tool、不暴露 shell。需要 shell 限制白名單。
小模型加更保守 gate：1B 模型亂改機率高、保留 --dry-run 或 --confirm 即可、避免 --auto；31B+ 較穩、可給 auto + audit。

跑這份 demo 的完整指令

 1# 前置：Ollama 跑著、gemma3:1b 已 pull
 2ollama list | grep gemma3:1b
 3
 4# 備份要測試的檔案
 5cp content/llm/knowledge-cards/token.md /tmp/token-orig.md
 6
 7# Mode 1：dry-run（預設、最安全）
 8python3 scripts/permission-demo/edit_with_llm.py \
 9  content/llm/knowledge-cards/token.md \
10  "加一句說明"
11
12# Mode 2：confirm（互動審查、適合中等風險）
13python3 scripts/permission-demo/edit_with_llm.py \
14  content/llm/knowledge-cards/token.md \
15  "加一句說明" \
16  --confirm
17
18# Mode 3：auto（無確認、危險、僅 batch 用）
19python3 scripts/permission-demo/edit_with_llm.py \
20  content/llm/knowledge-cards/token.md \
21  "加一句說明" \
22  --auto
23
24# 還原
25cp /tmp/token-orig.md content/llm/knowledge-cards/token.md

何時這篇會過時

不會過時的部分：

LLM HTTP API 是 pure function、無副作用——這個事實在所有「分離 inference server / wrapper / client」的架構都成立。
權限 gate 在 wrapper / application 層——是 software architecture invariant、不是 LLM 特性。
副作用範圍 spectrum 跟人類審查粒度的對應。
--dry-run / --confirm / --auto 三檔的設計取捨。

會變的部分：

具體 LLM application 的 default mode（Cursor / aider / Claude Code 都會持續調整）。
哪個模型「不會亂改」的 ranking（隨模型能力提升而變）。
MCP / tool spec 細節（會持續演化、但「tool 是 wrapper 暴露」的本質不變）。

讀這篇若指令跑不過、可能是 wrapper script API 微調、但「測試 LLM 是不是 pure function」這個方法本身永遠成立——拿任何 LLM API、送任何 prompt、check 檔案 mtime / md5、就能驗證。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、副作用範圍 spectrum 原理見 4.3 Tool use 原理、Agent loop 跟人類審查的協作見 4.4 Agent 架構、Tool use / MCP server 權限模型的個人 dev 視角見 6.2、術語見 Sandbox。

Hands-on：用 QLoRA 在本機 fine-tune coding 模型

Tue, 12 May 2026 00:00:00 +0000

QLoRA（4-bit 量化 base model + LoRA adapter）讓消費級硬體也能 fine-tune 7B-32B 模型、是 2026/5 本地 fine-tuning 的主流方法。「在本機 fine-tune 一個小 coding 模型懂我 codebase 的慣例」是個人 dev 的合理目標、特別是在「本地 RAG 不夠精準、prompt engineering 已到天花板」的場景。本篇用 QLoRA 把 fine-tuning 的最短路徑走完：環境準備、資料蒐集、訓練、evaluation、合併權重、部署到 Ollama / llama.cpp 配 VS Code Continue.dev。

本篇 framing 是「真實會跑、不只跑 demo」、所以包含：硬體預算估算、catastrophic forgetting 防護、evaluation 確認真的有提升、回退方案（fine-tune 失敗時怎麼辦）。

驗證日期：2026-05-12 環境：M4 Max 64GB + Hugging Face PEFT 0.13、或 5090 24GB + bitsandbytes 目標模型：Qwen3-Coder-7B-Instruct（fine-tune 後輸出符合自己 codebase 慣例的 code）

為什麼這個議題重要

寫 code 場景的常見 fine-tune 動機：

私有 codebase 慣例：自家專案有特殊 naming、特殊 design pattern、prompt engineering 拉不到、希望模型「自然知道」
特殊框架 / library：用 obscure 的內部 framework、通用模型沒看過、補完品質差
特定文檔風格：commit message、PR description、code comment 有 team-specific 格式
Reduce RAG dependence：把高頻 knowledge 編進模型權重、減少每次 query 都要 retrieve

但不該 fine-tune的情境（先排除）：

新增世界知識：fine-tune 不擅長加新事實、用 RAG 即可
複雜 reasoning 能力：fine-tune 一般不會讓模型變更會 reason、reasoning 來自 pre-training + RL
改善通用對話品質：通用對話品質取決於 RLHF、fine-tune 多半會 catastrophic forgetting
資料太少（< 500 對）：fine-tune 收益低、不如優化 prompt + RAG

整體流程

11. 硬體預算估算       → 知道能跑哪個 size 的 base model
22. 蒐集 fine-tune 資料 → 50-5000 對 (prompt, response)
33. 環境準備           → Python + bitsandbytes / PEFT / transformers
44. 跑 QLoRA 訓練      → 1-3 epochs、看 loss 趨勢
55. Evaluation         → 在 held-out set + 通用 benchmark 都跑
66. Merge LoRA → base  → 得到合併權重 .safetensors
77. Convert → GGUF     → 用 llama.cpp convert 工具
88. Deploy 到 Ollama   → ollama create my-coder -f Modelfile
99. 配 Continue.dev    → config.json 加新 provider

Step 1：硬體預算估算

QLoRA 訓練的記憶體需求（粗略估算）：

 1記憶體 ≈ N (B 參數) × 0.6 GB     ← 訓練時
 2        ≈ N (B 參數) × 0.3 GB     ← 推論（4-bit）
 3
 4Apple Silicon Mac：
 5  M4 Pro 24GB → 訓 7B 可、訓 14B 緊
 6  M4 Pro 36GB → 訓 7B 寬鬆、訓 14B 可
 7  M4 Max 64GB+ → 訓 30B 可、推論 70B 可
 8
 9PC 獨立 GPU：
10  RTX 4090 / 5090 24GB → 訓 7B 寬鬆、訓 14B / 30B with `--n-cpu-moe` 可
11  RTX A6000 48GB → 訓 30-32B 寬鬆

事實查核註：Apple Silicon 上的 QLoRA 支援度跟 bitsandbytes / MLX 工具鏈版本相關、2026/5 主流是用 MLX 自己的 LoRA 實作（mlx-lm）、CUDA 路線用 transformers + bitsandbytes + PEFT。具體支援度以對應 release 為準。

本篇假設 fine-tune Qwen3-Coder-7B、所以 24GB+ Mac 或 16GB+ GPU 都能跑。

Step 2：蒐集 fine-tune 資料

最關鍵的 step。資料品質決定 fine-tune 成敗。

資料格式（典型 SFT format）

1[
2  {
3    "instruction": "用我們 codebase 的慣例寫一個 REST endpoint 處理 user signup",
4    "input": "需求：accept email + password、回 JWT",
5    "output": "// 完整符合我們慣例的 code..."
6  },
7  ...
8]

或對話格式（ChatML）：

1[
2  {
3    "messages": [
4      {"role": "system", "content": "你是我們 codebase 的 coding assistant"},
5      {"role": "user", "content": "..."},
6      {"role": "assistant", "content": "..."}
7    ]
8  }
9]

資料來源

來源	取得方式	品質
過往 commit 的「good code」	從 main branch 抽函式 + git log message	中（人工挑）
Code review 通過的 PR diff	從 GitHub API 抽 merged PR	高
內部 wiki 跟 design docs	轉成 Q&A 對	中
Synthetic data：用大模型生	給雲端旗艦 prompt「以這個 codebase 風格寫 X」	中（要 review）
Pair programming 紀錄	自己跟 IDE 互動的 log	高（最貼近真實使用）

資料量門檻

資料量	預期效果
< 50 對	通常無感、不如優化 prompt + RAG
50-500 對	開始有 in-domain 效果、但易 forgetting
500-5000 對	顯著效果、QLoRA fine-tune 甜蜜點
5000+ 對	邊際收益遞減、開始接近 full fine-tune 效果

資料 mixing（防 catastrophic forgetting）

訓練 batch 內 mix 通用資料、避免 fine-tune 把通用能力洗掉：

180% in-domain data（你的 codebase 範例）
220% 通用 instruction data（如 Alpaca、ShareGPT subset）

通用 data 可從 Hugging Face datasets 抓（如 tatsu-lab/alpaca、teknium/OpenHermes-2.5）。

Step 3：環境準備

Apple Silicon Mac（用 MLX）

1# MLX 是 Apple 的 ML framework、原生支援 Apple Silicon
2pip install mlx mlx-lm
3
4# 或用 conda（推薦）
5conda create -n llm-ft python=3.11
6conda activate llm-ft
7pip install mlx-lm

PC（CUDA + transformers + bitsandbytes）

1# 安裝 CUDA 12.x（依 GPU 驅動）
2
3# Python 套件
4pip install torch transformers peft bitsandbytes accelerate datasets trl

Step 4：跑 QLoRA 訓練

Apple Silicon（MLX）方式

 1# 把 base model 下載到本機
 2huggingface-cli download Qwen/Qwen3-Coder-7B-Instruct \
 3  --local-dir ~/models/qwen3-coder-7b
 4
 5# 把資料整理成 JSONL（一行一筆）
 6# data/train.jsonl、data/valid.jsonl
 7
 8# 跑 LoRA fine-tune（MLX 內建 4-bit）
 9mlx_lm.lora \
10  --train \
11  --model ~/models/qwen3-coder-7b \
12  --data data/ \
13  --batch-size 4 \
14  --lora-layers 16 \
15  --iters 1000 \
16  --learning-rate 1e-4 \
17  --steps-per-eval 100 \
18  --adapter-path ./adapters

PC（CUDA）方式

 1# train.py（簡化版）
 2from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, BitsAndBytesConfig
 3from peft import LoraConfig, get_peft_model
 4from trl import SFTTrainer
 5from datasets import load_dataset
 6
 7# 4-bit 量化載入 base
 8bnb_config = BitsAndBytesConfig(
 9    load_in_4bit=True,
10    bnb_4bit_quant_type="nf4",
11    bnb_4bit_compute_dtype="bfloat16",
12)
13model = AutoModelForCausalLM.from_pretrained(
14    "Qwen/Qwen3-Coder-7B-Instruct",
15    quantization_config=bnb_config,
16)
17
18# LoRA 配置
19lora_config = LoraConfig(
20    r=16,
21    lora_alpha=32,
22    target_modules=["q_proj", "v_proj"],
23    lora_dropout=0.05,
24    task_type="CAUSAL_LM",
25)
26model = get_peft_model(model, lora_config)
27
28# 資料
29dataset = load_dataset("json", data_files="data/train.jsonl")
30
31# 訓練
32training_args = TrainingArguments(
33    output_dir="./checkpoints",
34    learning_rate=1e-4,
35    num_train_epochs=2,
36    per_device_train_batch_size=4,
37    gradient_accumulation_steps=4,
38    save_steps=200,
39    logging_steps=20,
40    optim="paged_adamw_8bit",
41    bf16=True,
42)
43trainer = SFTTrainer(
44    model=model,
45    args=training_args,
46    train_dataset=dataset["train"],
47    max_seq_length=2048,
48)
49trainer.train()
50trainer.save_model("./adapters")

關鍵超參數的判讀邏輯：

參數	預設	怎麼調
`r`（LoRA rank）	16	小 dataset（< 1000 對）可降到 8、大 dataset 升到 32 / 64
`lora_alpha`	32（通常 = 2 × r）	增大會放大 LoRA 影響、太大易 catastrophic forgetting
`target_modules`	q_proj, v_proj	8B+ 模型可加 k_proj + o_proj 提品質、加 ffn 是進階
`lora_dropout`	0.05	dataset 小時加大（0.1）防 overfit
`num_train_epochs`	2	1-3 是常見範圍、看 validation loss 何時開始升
`per_device_train_batch_size`	4	視 GPU 記憶體；不夠用 `gradient_accumulation_steps` 補
`learning_rate`	1e-4	LoRA 適合較大 lr（vs full fine-tune 的 1e-5）、初值可 1e-4 ~ 5e-4

看 training loss 趨勢

訓練過程中、loss 應該：

 1Initial：~2.5（cross-entropy on next-token）
 21/4 訓練：降到 ~1.5
 31/2 訓練：降到 ~1.0
 43/4 訓練：降到 ~0.7
 5末段：穩定在 ~0.5
 6
 7警示訊號：
 8- Loss 不降（≈ 2.0+ 持平） → lr 太小、或資料品質差、或 base 跟資料分佈完全不合
 9- Loss 降到 < 0.1 → over-fit、validation loss 應該已升、stop training
10- Loss 出 NaN → lr 太大、降 lr 重來

Step 5：Evaluation

訓練完不能只看 training loss、要實測：

1. Held-out test set（你自己的 in-domain 資料）

1# 拿 valid.jsonl 跑、看模型輸出 vs expected
2# 用 BLEU / ROUGE / 或 LLM-as-judge 評分
3mlx_lm.generate \
4  --model ~/models/qwen3-coder-7b \
5  --adapter ./adapters \
6  --prompt ""

2. 通用 benchmark（防 catastrophic forgetting）

跑通用 HumanEval、看分數有沒有崩：

1# 用 lm-evaluation-harness
2git clone https://github.com/EleutherAI/lm-evaluation-harness
3cd lm-evaluation-harness
4pip install -e .
5
6lm_eval --model hf \
7  --model_args pretrained=~/models/qwen3-coder-7b,peft=./adapters \
8  --tasks humaneval \
9  --batch_size 8

判讀：

HumanEval 從 75% → 75%：通用能力保留、in-domain 提升、成功
HumanEval 從 75% → 55%：catastrophic forgetting、要重新 fine-tune（用 LoRA + 資料 mixing 加強）

3. 自己工作流測試（最重要）

實際在 Continue.dev 用幾天、看：

In-domain 任務輸出是否確實貼近 codebase 慣例
通用 coding 任務（如「寫一個 helper function」）是否仍 OK
對話流暢度有沒有變差
出現怪行為的頻率

Step 6：合併 LoRA 跟 base model

訓練完得到 adapter（小檔、< 100MB）。要用於日常推論、通常 merge 進 base：

 1# MLX 方式
 2mlx_lm.fuse \
 3  --model ~/models/qwen3-coder-7b \
 4  --adapter-path ./adapters \
 5  --save-path ~/models/qwen3-coder-7b-mycodebase
 6
 7# PEFT 方式
 8python -c "
 9from peft import AutoPeftModelForCausalLM
10import torch
11
12model = AutoPeftModelForCausalLM.from_pretrained('./adapters', torch_dtype=torch.bfloat16)
13merged = model.merge_and_unload()
14merged.save_pretrained('./merged-model')
15"

Step 7：Convert 成 GGUF（給 Ollama / llama.cpp 用）

 1# 安裝 llama.cpp
 2git clone https://github.com/ggml-org/llama.cpp
 3cd llama.cpp
 4pip install -r requirements.txt
 5
 6# Convert HF → GGUF
 7python convert_hf_to_gguf.py ~/models/qwen3-coder-7b-mycodebase \
 8  --outfile ~/models/qwen3-coder-7b-mycodebase.gguf
 9
10# 量化（可選、Q4_K_M 是甜蜜點）
11./llama-quantize \
12  ~/models/qwen3-coder-7b-mycodebase.gguf \
13  ~/models/qwen3-coder-7b-mycodebase-Q4_K_M.gguf \
14  Q4_K_M

Step 8：Deploy 到 Ollama

 1# 寫 Modelfile
 2cat > ~/models/Modelfile-mycodebase < 3FROM ~/models/qwen3-coder-7b-mycodebase-Q4_K_M.gguf
 4
 5TEMPLATE """<|im_start|>system
 6{{ .System }}<|im_end|>
 7<|im_start|>user
 8{{ .Prompt }}<|im_end|>
 9<|im_start|>assistant
10"""
11
12PARAMETER temperature 0.3
13PARAMETER top_p 0.9
14PARAMETER num_ctx 32768
15EOF
16
17# 註冊到 Ollama
18ollama create mycodebase-coder -f ~/models/Modelfile-mycodebase
19
20# 測試
21ollama run mycodebase-coder "寫一個 user signup endpoint"

Step 9：配 Continue.dev

 1// ~/.continue/config.json 加：
 2{
 3  "models": [
 4    {
 5      "title": "My Codebase Coder",
 6      "provider": "ollama",
 7      "model": "mycodebase-coder",
 8      "apiBase": "http://localhost:11434"
 9    },
10    // ... 既有 models
11  ]
12}

VS Code restart 後、Continue panel 下拉就能切換。

失敗模式跟回退

失敗 1：訓練 loss 不降

可能原因：

資料品質差 → 人工 review 50 對、看 instruction-response 是否真有對應
資料 token 太短 → 多數 < 100 token、模型學不到複雜 pattern
lr 太小 → 試 lr 5e-4

回退：把資料品質提升、或放棄 fine-tune 用 RAG。

失敗 2：HumanEval 大幅下降（catastrophic forgetting）

緩解：

加入 20% 通用 data mixing、重訓
降低 epochs（從 3 → 1）
降低 LoRA rank（從 16 → 8）

失敗 3：In-domain test 進步、但日常用感覺沒變

可能原因：

Test set 跟真實工作流分佈不符
Prompt template 在訓練跟推論不一致

緩解：實際在 Continue.dev 跑 1-2 週、看真實效果再判斷。

失敗 4：訓練爆 OOM

緩解：

降 batch size（4 → 2 → 1）
加 gradient_accumulation_steps（保持 effective batch size）
用更小的 LoRA rank
換更小的 base model（7B → 3B）

何時不該繼續 fine-tune 路線

跑完一次 fine-tune 評估後、若：

In-domain 提升 < 10%：相對成本（時間 + 維護）不划算、用 RAG
Catastrophic forgetting > 10%：跟其他能力 trade-off 不值得
資料量不夠（< 500 對）：RAG 比 fine-tune 更有效
工作流變化快（codebase 慣例每月變）：fine-tune 過時得快、RAG 更靈活

跟其他模組的關係

原理層的 LoRA 設計見 LoRA 卡片跟 QLoRA 卡片
Catastrophic forgetting 跟整體 alignment 議題見 3.4 訓練流程
Fine-tune 後的模型評估見 4.14 Benchmarking
隱私 / 供應鏈面：fine-tune 後 model 怎麼分享（給 team / 上 HuggingFace）見 6.0 模型供應鏈
跟 RAG 的取捨見 4.1 RAG 原理的「RAG vs Fine-tuning vs Long Context」段

Hands-on：跨資料夾風格 follow 任務的模型對比

Tue, 12 May 2026 00:00:00 +0000

本篇是個讓本地 LLM 在「讀兩個資料夾、學風格、寫新章節」任務上自我評估的實驗。任務本身內容無關緊要（隨便挑了一份私人創作資料夾）、要看的是不同模型在 instruction following / format consistency / 篇幅控制三個維度的差距。

實驗跑了四個本地模型對比：

gemma3:1b（815 MB、舊代 / 小）
gemma3:4b（3.3 GB、舊代 / 中）
qwen3:8b（5.2 GB、跨家族 / 大）
gemma4:e4b（9.6 GB、新代 / 中、bf16）

對應 4.4 Agent 架構「規劃能力是雲端旗艦的明顯強項、本地小模型的明顯弱項」這條觀察、用具體 structural metrics 驗證、並揭示**「最新世代 + 較大 size」未必比「跨家族 / 較強訓練」勝出**。

驗證日期：2026-05-12 環境：Ollama 0.23.2、Apple Silicon、MPS backend 任務：讀資料夾 A（風格參考、5 章已寫完）+ 資料夾 B（同類型、5 章已寫完、需寫 v06）→ 為 B 生成 v06 評估方式：純 structural metrics、不評論內容品質

任務設計

兩個資料夾結構：

1A/                          B/
2├── README.md               ├── README.md
3├── v01_XXX.md              ├── v01_XXX.md
4├── v02_XXX.md              ├── v02_XXX.md
5├── v03_XXX.md              ├── v03_XXX.md
6├── v04_XXX.md              ├── v04_XXX.md
7└── v05_XXX.md              └── v05_XXX.md
8                            └── v06_XXX.md  ← 要生成

兩個資料夾用不同 markdown 格式：

A 風格：# 標題（H1）+ ## 場景設定 段 + 結尾 **【本章結束】**
B 風格：## v0X｜<主題>（<角色1>×<角色2>）（H2）+ 直接敘事、無結尾 marker

LLM 看完 A + B 後、要寫 B 的 v06——必須 follow B 的格式、不是 A 的。是個 format discrimination 測試。

評估維度

純 structural、不涉內容：

維度	測法
篇幅控制	char count、跟 B 既有 v01-v05 平均比
段落結構	paragraph count、avg paragraph char
Markdown heading	H1 / H2 count、是否寫對 v06 title 格式
結尾 marker	是否誤加 A 風格的「【本章結束】」
角色 fidelity	提到 B 兩個主角名次數（太少 = 內容偏離）
跨資料夾串戲	提到 A 資料夾角色名次數（contamination）
對話 follow	「對話行」（行首是 `「`）數量、跟 baseline 比
生成時間	從送 prompt 到收完整 response

不評估的：

內容品質、文筆好壞
敘事邏輯是否合理
角色塑造是否生動

純 structural 評估的好處是 reproducible、不需 reviewer 主觀判斷、可自動跑。

Baseline：B 既有 v01-v05 的 metrics

B 資料夾 5 個既有章節的平均：

Metric	Average
char count	~933
paragraph count	~32
avg paragraph chars	~29
dialogue lines	~7
H1 used	0（全部用 H2）
H2 used	1
結尾「【本章結束】」	全部 False
Cross leak	全部 0
主角名提及（合計）	~60

這是 LLM 該模仿的目標。

四個模型的結果

四個 model 跑同樣 prompt、同樣輸入內容。

對比表

維度	Baseline	`gemma3:1b`	`gemma3:4b`	`qwen3:8b`	`gemma4:e4b`
模型大小	—	815 MB	3.3 GB	5.2 GB	9.6 GB（bf16）
發布世代	—	Gemma 3	Gemma 3	Qwen 3	Gemma 4（2026/4）
char count	~933	4324（4.6×）	1330	951（1.02×）	679
paragraph count	~32	145	29	36	11
avg paragraph chars	~29	30	46	26	62
H1 = 0	符合	不符（1）	符合	符合	不符（1）
H2 = 1	符合	不符（0）	符合	符合	不符（3）
v06 title 格式	—	不符	符合	符合	不符
結尾 marker	False	符合	符合	符合	符合
Cross leak	0	無（0）	無（0）	無（0）	無（0）
dialogue lines	~7	4	0	7	0
主角名提及（合計）	~60	286	24	27	0
通過項目	—	2 / 7	6 / 7	7 / 7	1 / 7
生成時間	—	41.8s	36.5s	97.5s	43.5s

各模型觀察

gemma3:1b（815 MB）：

篇幅 4.6× 失控、段落數 4.5× 超標、用 H1 而不是 H2。
顯示 1B 模型對「2000-3000 字」這種 numeric instruction 沒有有效執行能力、會一直生成到 context 限制。
但 cross leak 0、結尾 marker 也沒誤加——「不要 X」這類 negative instruction follow 較成功。

gemma3:4b（3.3 GB）：

篇幅 / 段落 / heading 結構全 OK、明顯比 1B 大幅改善。
dialogue lines = 0：完全沒寫對話、整篇純敘事。表示 4B 抓到字面 structural feature、但沒抓到「對話 driven 敘事」這個 stylistic feature。
主角名提及 24 次（baseline ~60）—內容偏短、提及次數偏低、但比例合理。

qwen3:8b（5.2 GB、跨家族）：

唯一 7/7 全 pass 的模型——篇幅完美匹配（951 vs ~933）、段落數合理（36 vs ~32）、heading 對、對話 7 行完全等於 baseline。
跨家族 + 大一級的組合表現質變，比同家族下一級的 4B 模型大幅提升。
代價：生成時間 97.5s、約是 4B 模型的 2.7×。

gemma4:e4b（9.6 GB、新代）：

驚人的 1/7、最差表現——比 1B 還少通過項目。
主角名提及 0：完全沒寫角色名、純抽象敘述「某一方」「另一方」。
dialogue 0：沒對話。
生成內容是「劇情大綱建議」而非實際章節：含「劇情核心思路」「預計情緒強度」「寫作切入點建議」等 meta-text。
輸出末尾「（此為結構化建議、等待具體的指令後、將會生成與風格一致的劇情內容。）」——明示它把 prompt 理解成「給建議框架、等下一步」。

Strict prompt retest：揭示 internal alignment

懷疑 1/7 可能是「prompt 不夠強硬」、用 strict prompt 重跑 gemma4:e4b。Strict 加了八條規則、明示：

1- 直接從 `## v06｜...` 開頭、不寫前言
2- 絕對不可寫「劇情核心思路」「預計情緒強度」「寫作切入點」等 meta-text
3- 必須直接寫敘事內容、含對話、動作、感受描寫
4- 強制提到角色名多次、不要用「某一方」「另一人」抽象稱呼
5- ...

Strict prompt 結果：

Metric	原 prompt	strict prompt	變化
char count	679	660	相同量級
H1 = 0	不符（1）	符合	改善
H2 = 1	不符（3）	符合	改善
v06 title 格式	不符	符合	改善
meta-text 出現	有	無	改善
dialogue lines	0	3	改善
主角名提及	0	0	未改善
通過項目	1 / 7	4 / 7	+3

從 1/7 → 4/7、prompt 強化明顯有用。但主角名提及兩次都 0、即使 strict prompt 明示「強制提到角色名」、模型仍用「兩人」「彼此」「對方」抽象稱呼。

這比「模型不會 follow」更精確、是兩個層次的 follow 差別：

Surface level instruction（heading 格式、不要 meta-text、要對話）：model 願意 follow strict prompt。
Semantic level instruction（在這個情境用具名角色）：model 有 internal alignment 抗拒、即使 prompt 明示也不 follow。

Gemma 4 e4b 是 device-deployable edge variant、RLHF 可能特別針對「敏感情境下的人物識別」做 alignment。這個 alignment 比 prompt-level instruction follow 更深、是 hard line、不能用 prompt engineering 繞過。

關鍵觀察

Model size 不是唯一因素、訓練 alignment 更重要

最反直覺的結果：

gemma4:e4b（9.6 GB、最新世代）原 prompt 通過 1/7、strict prompt 通過 4/7。
gemma3:4b（3.3 GB、舊一代）通過 6/7。
qwen3:8b（5.2 GB、跨家族）通過 7/7。

「最大 + 最新」不等於「最好 follow instruction」。在這個任務上、ranking 是：

1qwen3:8b > gemma3:4b > gemma3:1b ≈ gemma4:e4b (strict) > gemma4:e4b (default)

可能因素：

訓練資料分佈差異：Qwen 系列訓練資料含大量中文、對中文 instruction follow 更穩。
Edge variant 的 alignment 設計：gemma4:e4b 是 device-deployable edge variant、RLHF 可能特別在敏感情境用 conservative output。Strict prompt 能改善 surface-level（heading、meta-text、對話）、但 semantic-level（具名角色）有 hard line 不能繞過。
跨家族效應 > 跨代效應：Qwen vs Gemma（不同家族）比 Gemma 3 vs Gemma 4（同家族跨代）影響更大。

兩層 instruction follow

gemma4:e4b 的 strict prompt retest 揭示一個重要區分：

Surface-level instruction（heading 格式、不要 meta-text、要對話）：可以用 strict prompt 改善、prompt engineering 有效。
Semantic-level alignment（特定情境的角色處理、敏感主題的表述方式）：是 RLHF 階段建立的 hard line、prompt engineering 繞不過。

設計應用時要意識：「LLM follow 不了 instruction」可能不是能力問題、是 alignment 問題。模型訓練時被刻意 align 不做某些事、即使 prompt 明示也不會做。發現這種情況、改換 model（或 less-aligned variant）會比繼續調 prompt 更省時間。

「最新世代」的標籤可能誤導

Gemma 4 是 2026/4/2 才發布的最新代、size 也夠大、但在這個 instruction following 任務上輸給 6 個月前發布的 Gemma 3 4b。

設計應用 / 選模型時、實測對自己 task 的表現比「最新 / 最大」標籤可靠。Benchmark ranking（如 LMSYS Chatbot Arena）反映平均表現、未必 reflect 你的 narrow 任務。本實驗示範了「自己跑一次」比「看 benchmark」更可靠的判讀方法。

Structural feature 跟 stylistic feature 兩層

跨四個模型一致觀察：

Structural feature（heading level、結尾 marker、不要 cross leak）：所有模型多少都抓到。
Stylistic feature（對話 driven 敘事、篇幅精準）：差異極大、Qwen3 8B 完美、其他三個都有明顯失分。

這對應 4.4 Agent 的「規劃 vs 字面 follow」差距——字面 instruction 容易、stylistic mimic 困難。寫應用時、預期 follow「形式約束」（output JSON、結尾 signature）跟 follow「風格約束」（用簡潔口吻、bullet 而非段落）兩種 instruction 的成功率不同。

Cross-pairing leak：全 0

四個模型 cross leak 都 0——表示「不要混角色」這個 instruction 兩個都 follow 成功。可能因素：

角色名是名詞、模型 generation 時容易 constrain。
Prompt 已明示「為 B 寫」、模型沒被 A 角色名干擾。

如果改成模糊 instruction（「混合 A、B 風格」）、leak 可能會出現——本實驗沒涵蓋這個 case。

生成時間：size ≠ 時間

四個模型的生成時間：

模型	size	時間
gemma3:1b	815 MB	41.8s
gemma3:4b	3.3 GB	36.5s
qwen3:8b	5.2 GB	97.5s
gemma4:e4b	9.6 GB	43.5s

意外發現：

1B 比 4B 慢：因為 1B 生成 4324 字、4B 生成 1330 字、總 token 量決定總時間、不是 model size。
qwen3:8b 慢 2.7×：8B 的 forward pass 較慢、加上 generation 量級正常、總時間最長。
gemma4:e4b 跟 1B 相近：generation 短（679 字）、抵消 model 較大的開銷。

tokens per second 跟 total latency 是兩件事——decode 速度快但生成太多 token、未必更快完成任務。

對寫應用的啟示

「最新最大」≠ 「最好 follow」：選模型實測自己 task、benchmark / size 只是輔助訊號。
本地小模型（< 3B）做需要 follow 結構規則的任務、要嚴格驗證：用 structural metrics 自動 check、目視判斷模型「看起來有做到」的可靠度低。
Edge variant 可能有 special behavior：device-deployable variant 可能 RLHF 偏向 conservative、不一定適合所有任務。
跨家族對比比同家族升 size 收益大：Qwen3 8B vs Gemma3 4B 比 Gemma3 4B vs Gemma3 1B 改善更明顯。
「形式跟風格」分開驗證：應用層的 validation 分維度 score、比一次評全部更可解讀。

跑這個實驗的 framework

通用流程（不放具體 script、會綁定 corpus 內容）：

11. 準備兩個資料夾、A 是風格參考、B 是 work-in-progress
22. 寫 helper script 把兩個資料夾完整內容 + 任務說明做成 prompt
33. 跑多個 model 各一次（同 prompt、不同 model）
44. 對輸出計算 structural metrics（char count、paragraph、heading、dialogue lines）
55. 跟 B 既有章節的 baseline metrics 對比
66. 列通過 / 失敗矩陣

關鍵設計選擇：

A 跟 B 風格故意不一樣：才能驗證 LLM 是否分辨「該 follow 哪個」。
不評估內容品質：純 structural 評估 reproducible、不需 reviewer 主觀判斷。
baseline 用既有章節算：B 自己的 v01-v05 是「正確答案」的 reference。
跑多個跨家族 / 跨世代 / 跨 size 模型：避免「只測一個就下結論」的偏差。

何時這份對比會過時

具體模型 ranking：新模型發布後 ranking 會變、特別是新版 Gemma 4 / Qwen 4 / Llama 4 等推出時。
「Gemma 4 edge 表現差」這個觀察：可能隨後續 fine-tune 或新版改善。

不會過時的部分：

Model size 不是 instruction following 的唯一因素——這個現象在所有 LLM 都存在。
Structural vs stylistic 兩層 follow 難度不同。
跨家族對比比同家族升 size 收益大、這個現象可能持續。
純 metrics-based 評估比主觀判斷可重現。
「自己跑一次」比「看 benchmark」更可靠的判讀邏輯。

未來想擴展、可以加入更多維度（如反向 retrieval：把生成內容當 query、看能不能找回原資料夾；或 perplexity-based 評估）。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、選模型的優先序策略見 Model selection priority、模型 tag 命名規則見 Model tag、跑多模型的記憶體預算見 Resource management。

Hands-on：LLM 運行中 + 結束的資源管理

Tue, 12 May 2026 00:00:00 +0000

跑本地 LLM 的核心 invariant 跟雲端不一樣：Mac 是 shared resource、不是 dedicated GPU。雲端 inference server 跑進 dedicated container、結束 instance 自然回收所有資源；本地推論伺服器跑在你日常用的 Mac、跟統一記憶體共享同一塊容量，忘記管理會 silently 吃光 RAM、磁碟、port、最後讓系統變慢甚至 swap。

本篇紀錄三個 dimension（RAM / 磁碟 / port）的觀察工具跟釋放姿勢、對比 Ollama 跟 ComfyUI 兩種典型 lifecycle、加上實測釋放數字。對應 0.7 隱私資料流原理「每個 hop 都要 audit」這條思維——資源管理也是 hop 級的 audit、不是「裝完就忘」。

驗證日期：2026-05-12 環境：macOS 14、Apple Silicon、Ollama 0.23.2、ComfyUI 0.21.0、SDXL base 1.0

為什麼這事重要

雲端 inference：

1Container start → load model → serve requests → container stop → 所有 RAM / 磁碟 / port 自動回收

本地 inference：

1brew services start → load model on demand → serve → ??? → 你忘記 stop
2                                              → RAM / 磁碟一直被佔
3                                              → 下次重開機才釋放

具體會踩到的問題：

RAM：18 GB SDXL 模型載入後不會自動卸、即使 ComfyUI idle、Python process 仍占 RAM
磁碟：ollama pull 累積、~/.ollama/models/blobs 半年可長到 50 GB+、不主動清不會減
Port：上次 crash 的 ollama serve 進程沒乾淨清、port 11434 還占著、下次啟動報「address already in use」
GPU / Metal：模型載入後 Metal context 佔住、跟其他 GPU-using app（影片剪輯、遊戲）競爭

三個 dimension + 觀察工具

Dimension	觀察指令	看什麼
RAM	`vm_stat \| head -5`	Pages free（每 page 16 KB）、空閒越多越好
RAM（per process）	Activity Monitor 或 `ps aux \| sort -k6 -rn \| head`	哪個 process 佔最多記憶體
磁碟	`df -h ~ \| tail -1`	系統 volume 剩餘
磁碟（per dir）	`du -sh ~/.ollama/models/blobs`	LLM models 累積量
Port	`lsof -i :11434`	誰在 listen 該 port
Process	`ps aux \| grep -i ollama \| grep -v grep`	Ollama / ComfyUI / Python 跑哪幾個
Ollama loaded models	`ollama ps`	哪些 model 在 RAM、size、idle timer

實測：剛 kill 完 ComfyUI（SDXL + Python venv）後、vm_stat 看到 free pages 從 619K 變 1090K（每 page 16 KB）、約 +7.5 GB RAM 釋放——這就是 SDXL + ComfyUI process 一直占的記憶體量。

Ollama 的 lifecycle（auto-unload 模式）

Ollama 走「按需 load / idle unload」設計：

1brew services start ollama          → daemon 啟動、沒 model 載入、RAM 占用 ~200 MB
2                                     port 11434 listening
3ollama run gemma3:4b "hello"        → 把 model 載入 RAM (~4-5 GB)
4                                     立刻 generate response
5                                     model 留在 RAM
6(idle 5 分鐘、無新 request)         → Ollama 自動 unload model
7                                     RAM 釋放、daemon 仍跑著
8ollama run gemma3:4b "next"         → 重新 load model（~5-10 秒）、generate
9brew services stop ollama           → daemon 結束、port 釋放

關鍵參數 OLLAMA_KEEP_ALIVE（環境變數、預設 5m）：

 1# 看當前 loaded models
 2ollama ps
 3# NAME         ID              SIZE      PROCESSOR    UNTIL
 4# gemma3:4b    a2af6cc3eb7f    5.5 GB    100% Metal   4 minutes from now
 5
 6# 啟動時調 keep_alive（持續佔 RAM 直到 ollama 重啟）
 7OLLAMA_KEEP_ALIVE=-1 brew services restart ollama
 8
 9# 啟動時讓 model 用完立即 unload
10OLLAMA_KEEP_ALIVE=0 brew services restart ollama

選 keep_alive 的 trade-off：

設定	RAM 占用	首字延遲	適合場景
`0`	最低（generate 完立即釋放）	高（每次都重 load）	偶爾用、RAM 緊張
`5m`（預設）	中（活躍用占住、閒 5 分鐘後釋放）	低（活躍期不重 load）	大多場景
`-1`	高（永久占住）	最低	整天頻繁用、RAM 充裕

主動 unload 指令：

1# 把 idle 的 model 立刻從 RAM 卸掉、但 daemon 仍跑
2curl -s http://localhost:11434/api/generate \
3  -d '{"model": "gemma3:4b", "keep_alive": 0}'
4
5# 或關掉整個 daemon
6brew services stop ollama

ComfyUI 的 lifecycle（持續占用模式）

ComfyUI 走完全不同模式：model 載入後一直在 RAM、直到 server process 結束。沒有 auto-unload 機制。

 1python main.py                      → ComfyUI server start、port 8188 listening
 2                                     RAM ~3 GB（Python venv + 框架）
 3第一次 Queue Prompt (用 SDXL)        → 載入 sd_xl_base_1.0.safetensors (~6 GB)
 4                                     RAM 跳到 ~9-10 GB
 5                                     generate 完成、model 留在 RAM
 6連續多張生成                          → 維持 ~9-10 GB、沒 unload
 7idle 1 小時                          → 仍 ~9-10 GB（沒 timer）
 8切到 ControlNet workflow             → 多載 ControlNet model (~2 GB)、ComfyUI 自動 swap
 9                                     RAM 暫升、SD 部分可能被 evict 到 disk
10Ctrl+C / pkill                       → process 結束、RAM 完全釋放

要釋放 ComfyUI 占的 RAM、唯一方法是結束 server：

 1# 找 PID
 2ps aux | grep "ComfyUI/main.py" | grep -v grep
 3
 4# 優雅關（讓它 cleanup）
 5pkill -INT -f "ComfyUI/main.py"
 6
 7# 強制 kill（如果上面沒反應、最多等 5 秒再強制）
 8pkill -KILL -f "ComfyUI/main.py"
 9
10# 確認 port 釋放
11lsof -i :8188 | head -3

實測：M4 Pro 32GB、SDXL base 載入後 ComfyUI process 占 ~8 GB RAM；pkill -9 後 vm_stat 顯示 free pages 增加 ~470K page（7.5 GB 釋放）。

為什麼 Ollama 跟 ComfyUI 設計不同

因素	Ollama 設計	ComfyUI 設計
主要使用模式	API 服務、IDE plugin 透過 HTTP 用	互動 GUI、user 連續調 prompt
Model 切換頻率	高（不同任務換不同 model）	低（一次 session 通常一個 model）
User 期待的 latency	低首字延遲（IDE 補完場景）	高 throughput（連續生圖）
結論	Auto-unload 釋 RAM 給其他 model	持續載入避免重複 load 浪費

兩種設計都 valid、適合不同使用模式。理解差異後就知道 ComfyUI 一直占 RAM「不是 bug」、是設計選擇。

跟其他本地 server 對比

Server	Auto-unload	主動 unload 指令	占 RAM 觀察
Ollama	有（5 分鐘 idle）	`keep_alive: 0` 或 stop daemon	`ollama ps`
LM Studio	無（GUI 主動關閉 model 才釋）	GUI Eject Model	Activity Monitor
llama.cpp `llama-server`	無	kill process	`lsof -i :8080`
ComfyUI	無	kill process	`ps aux \| grep ComfyUI`
oMLX	有（per model 可配）	API endpoint	server log

結論：只有 Ollama 跟 oMLX 內建 auto-unload、其他都要手動釋放。GUI server（LM Studio）通常給 user 一個「Eject」按鈕、CLI server 通常要 kill process。

標準釋放程序

寫 code 完一天結束、要釋放所有資源、按下表順序操作：

 1# 1. 確認當前狀態（記下要還回去多少 RAM）
 2vm_stat | head -3
 3df -h ~ | tail -1
 4ollama ps
 5ps aux | grep -E "ollama|ComfyUI|llama-server" | grep -v grep
 6
 7# 2. 釋放當前載入的 LLM models（Ollama）
 8brew services stop ollama
 9# 或保留 daemon、只 unload model：
10# curl -s http://localhost:11434/api/generate -d '{"model": "", "keep_alive": 0}'
11
12# 3. 結束 ComfyUI / 其他 GUI server
13pkill -INT -f "ComfyUI/main.py" 2>/dev/null
14pkill -INT -f "llama-server" 2>/dev/null
15sleep 5
16# 強制（如果上面沒清乾淨）
17pkill -KILL -f "ComfyUI/main.py" 2>/dev/null
18pkill -KILL -f "llama-server" 2>/dev/null
19
20# 4. 驗證所有 port 釋放
21lsof -i :11434 -i :1234 -i :8080 -i :8188 -i :8000 2>&1 | head
22
23# 5. 確認釋放量
24vm_stat | head -3
25# free pages 該明顯增加

容易出錯的「釋放方式」

killall Python：會 kill 所有 Python process、包括其他 dev tool（如 jupyter、Django）。用 pkill -f "ComfyUI/main.py" 等明確 pattern。
rm -rf ~/.ollama：會清掉所有 model registry、下次要重 pull 全部 model。Cleanup 用 ollama rm 才精準。
brew uninstall ollama：直接卸載 Ollama 本身、過 reinstall 麻煩。Stop service 就夠。
重開機釋放：work 但太重、會中斷其他工作。用 process-level 操作即可。

磁碟長期累積管理

Models 一旦 pull 進 ~/.ollama/models/blobs、不主動 rm 不會減少。半年累積可長到 50 GB+。

Ollama models 只是磁碟大戶之一。整台 Mac 突然被吃光、要從哪裡查起的全機診斷順序（先排除快照浮動、再用實際佔用值逐層找大戶），見 macOS 磁碟空間診斷流程——那篇的佔用大戶表也會把 ollama 列為其中一項、再連回本篇的專屬清理 idiom。

觀察累積

 1# Ollama models 總占用
 2du -sh ~/.ollama/models/blobs
 3# 4.1G    /Users/tarragon/.ollama/models/blobs
 4
 5# 逐 model 看大小
 6ollama list
 7# NAME                       ID              SIZE      MODIFIED
 8# gemma4:e4b                 c6eb396dbd59    9.6 GB    Less than a second ago
 9# nomic-embed-text:latest    0a109f422b47    274 MB    3 hours ago
10
11# ComfyUI checkpoints 累積
12du -sh ~/.ollama ~/Projects/ComfyUI/models 2>/dev/null
13# 4.2G    /Users/tarragon/.ollama
14# 7.0G    /Users/tarragon/Projects/ComfyUI/models

清理策略

 1# 刪掉很久沒用的 model
 2ollama rm 
 3
 4# 一次清掉所有 Ollama models（保留 daemon）
 5ollama list | tail -n +2 | awk '{print $1}' | xargs -I {} ollama rm {}
 6
 7# 看 ComfyUI checkpoints 哪些可清
 8ls -lh ~/Projects/ComfyUI/models/checkpoints/
 9
10# 手動刪不要的 .safetensors（小心、不能 undo）
11rm ~/Projects/ComfyUI/models/checkpoints/.safetensors

磁碟管理 idiom

定期（每月或磁碟剩 < 20% 時）做：

du -sh ~/.ollama ~/Projects/ComfyUI/models 看當前累積
ollama list 看哪些 model 沒在用（看 MODIFIED 欄、太舊的考慮刪）
刪實驗用的 model、保留 daily-driver
ComfyUI checkpoints 同樣 review

Port / Process 排錯

啟動報「address already in use」

 1# 找誰占
 2lsof -i :11434
 3# COMMAND  PID  USER   ...   NAME
 4# ollama   xxx  ...    ...   TCP localhost:11434 (LISTEN)
 5
 6# 看是不是 zombie process
 7ps aux | grep $(lsof -ti :11434 | head -1)
 8
 9# 清掉
10kill -9 $(lsof -ti :11434)
11
12# 或重啟 service（會自動清舊 instance）
13brew services restart ollama

Ollama daemon 掛了不知道

 1# 健康檢查
 2curl -s http://localhost:11434/api/version
 3
 4# 沒回應、看 service 狀態
 5brew services list | grep ollama
 6
 7# 沒在跑、重啟
 8brew services start ollama
 9
10# 看 log
11tail -50 /opt/homebrew/var/log/ollama.log

ComfyUI 看似跑著但 Queue 不動

1# 看 stdout / stderr log
2tail -30 /tmp/comfyui.log  # 如果啟動時 redirect 到 log
3
4# 看是不是 GPU / Metal stuck（極少見、但 SDXL 大量並發可能踩到）
5# 解法：kill + 重啟
6pkill -9 -f "ComfyUI/main.py"

完整排錯流程跟「先確認哪一層壞」見 1.7 排錯方法論。

觀察記憶體佔用：實測對照

跑這幾步紀錄 baseline → load model → kill 的 RAM 變化：

 1# Baseline
 2vm_stat | grep "Pages free"
 3# Pages free:                              1090076.   ← ~17 GB free
 4
 5# 啟動 Ollama + load 4B model
 6brew services start ollama
 7ollama run gemma3:4b "hello"
 8ollama ps
 9# NAME       SIZE     PROCESSOR    UNTIL
10# gemma3:4b  5.5 GB   100% Metal   4 minutes from now
11
12vm_stat | grep "Pages free"
13# Pages free:                               750000.   ← 跌 ~5 GB（model 載入）
14
15# 額外啟動 ComfyUI + load SDXL
16nohup python main.py > /tmp/comfyui.log 2>&1 &
17# 在 GUI 上 Queue Prompt 跑一次 SDXL generation
18vm_stat | grep "Pages free"
19# Pages free:                               280000.   ← 再跌 ~7.5 GB（SDXL 載入 + Python venv）
20
21# kill 全部
22brew services stop ollama
23pkill -9 -f "ComfyUI/main.py"
24sleep 3
25vm_stat | grep "Pages free"
26# Pages free:                              1090000.   ← 回到 baseline

每 page 16 KB、所以 free pages 數字 × 16 KB = 實際 free RAM bytes。

自動化釋放：launchd / shell alias

寫個 shell function 一鍵 cleanup：

 1# 加進 ~/.zshrc
 2llm-cleanup() {
 3  echo "[*] Stopping Ollama..."
 4  brew services stop ollama 2>/dev/null
 5
 6  echo "[*] Killing ComfyUI..."
 7  pkill -INT -f "ComfyUI/main.py" 2>/dev/null
 8  sleep 3
 9  pkill -KILL -f "ComfyUI/main.py" 2>/dev/null
10
11  echo "[*] Killing other model servers..."
12  pkill -KILL -f "llama-server" 2>/dev/null
13  pkill -KILL -f "lm-studio-server" 2>/dev/null
14
15  echo "[*] Verifying ports..."
16  for p in 11434 1234 8080 8188 8000; do
17    lsof -i :$p 2>/dev/null | head -2
18  done
19
20  echo "[*] Free RAM:"
21  vm_stat | grep "Pages free"
22}

完事打 llm-cleanup 一鍵釋放、不用記每個 process 怎麼 kill。

何時這篇會過時

不會過時的部分：

RAM / 磁碟 / port 三個 dimension 是長期 invariant、用什麼 LLM server 都成立。
「Mac 是 shared resource、需要主動管理」這個 framing。
Ollama 跟 ComfyUI 兩種典型 lifecycle 對比（auto-unload vs persistent）。
觀察工具（vm_stat、lsof、ps、du、Activity Monitor）是 macOS 系統 API、不會 deprecate。
標準釋放程序、自動化 shell function 模式。

會變的部分：

具體 model size / RAM 占用數字（隨模型架構演化）。
OLLAMA_KEEP_ALIVE 等具體環境變數名（Ollama API 演化）。
ComfyUI 可能加 auto-unload feature（社群有 issue 在討論）。

讀的時候若指令跑不過、先 --help 看當前版本 flag；釋放 RAM 的「kill process」這個機制本身永遠成立。

跟其他 hands-on 章節的關係

Ollama 安裝：介紹 brew services start/stop、本篇延伸 lifecycle 細節
ComfyUI 安裝：介紹 ComfyUI 啟動、本篇延伸 RAM 占用 + 釋放
1.7 排錯方法論：用三層架構定位故障、本篇是 lifecycle 視角的補完
0.7 隱私資料流原理：「每個 hop 都要 audit」延伸到資源層

整體心法：本地 LLM 工作流跟雲端不一樣、要主動管理 lifecycle、不能裝完就忘。

Hands-on：用本地 LLM 跑 judge harness（最小可行版）

Tue, 12 May 2026 00:00:00 +0000

4.21 LLM-as-judge 寫的是原理。本篇用 Ollama / LM Studio 在本地跑一個最小可行的 judge harness、對自己工作流的真實案例做 systematic eval。隱私敏感場景特別合用 — eval 資料（user query、agent output、可能含 PII）不需要送雲端。

本篇 framing 是「真的能跑、不只跑 demo」、所以包含：硬體預算估算、judge model 選型、bias 緩解、calibration 流程、跟 production trace 串接的延伸；術語對應 LLM-as-Judge 與 LLM Tracing。

驗證日期：2026-05-12 環境：M4 Max 64GB / 或 24GB+ VRAM PC + Ollama Judge model：DeepSeek-R1-Distill-Qwen-32B 或 QwQ-32B（reasoning model 當 judge 更穩）

為什麼用本地 LLM 當 judge

跟雲端 judge（GPT-5 / Claude 4）對比：

維度	本地 judge	雲端 judge
Cost	0（電費）	$0.001-0.01 per item
隱私	完全本地、eval 資料不出機器	送雲端、依政策
Latency	視硬體、reasoning model 30B 約 30-60s	API call 5-30s
品質上限	本地 30B reasoning 接近 2024 雲端中段	雲端旗艦上限高
大量 batch	慢但 zero cost	快但 cost 累積

判讀：

大量 production trace eval（千筆以上）+ 隱私敏感 → 本地 judge
少量 high-stake eval（< 50 筆） → 雲端旗艦 judge
A/B test 快速 iterate → 雲端（latency 重要）

硬體預算

Judge model 選擇看硬體：

硬體	適合 judge model	預期 latency / item
M4 Pro 24GB / 4090 16GB	Qwen2.5-32B Q4 或 DeepSeek-R1-Distill-14B	30-60s
M4 Pro 36GB	DeepSeek-R1-Distill-Qwen-32B Q4	60-120s
M4 Max 48-64GB / 5090 24GB	QwQ-32B 或 DeepSeek-R1-Distill-Qwen-32B Q6	60-180s（含 reasoning trace）
M4 Max 128GB / 多卡 PC	Llama 3.3 70B 或 Qwen3-72B	120-300s

注意：reasoning model 的 thinking trace 拉長 latency、跑大量 batch 要規劃時間（100 item × 60s = 100 min）。

何時不適合用本地 judge：

硬體低於 M4 Pro 24GB / 4090 16GB（如 M1/M2 16GB、無獨立 GPU PC）：跑 32B reasoning model 太緊、強行跑會 swap、latency 爆 5-10×。改用 14B instruct model（如 Qwen2.5-14B Q4）作 judge、或直接走雲端 judge
Batch × latency > 你可接受的等待時間：100 item × 60s/item = 100 min；500 item × 120s = 17 hr。預估超過 4 hr 時改雲端 batch API
eval 任務太 nuanced：細粒度倫理 / 法律 / 高 stake 判讀、本地 32B distill 能力不夠、用雲端旗艦 judge 或人工 review
calibration 階段：第一次跑、要快速 iterate rubric、雲端 judge latency 短（5-30s）更適合 iterate

整體流程

11. 蒐集 eval dataset    → JSONL：每行一個 (input, output) 待評
22. 設計 rubric         → 評分維度、scale、明確 anti-pattern
33. 寫 judge prompt     → 4 段式（task / input-output / rubric / format）
44. 跑 harness          → 對每筆 input call judge、parse JSON output
55. Aggregate 結果      → 算平均分數、找 outlier、看 reasoning
66. Calibration（可選）  → 跟 human eval 比對、調 rubric
77. 跟 production trace 串接 → 定期跑 production sample

Step 1：蒐集 eval dataset

JSONL format（每行一筆）：

1{"id": "001", "input": "用 Python 寫 fibonacci function", "output": "def fib(n):\n    if n <= 1:\n        return n\n    return fib(n-1) + fib(n-2)"}
2{"id": "002", "input": "解釋這段 code 在做什麼：[code]", "output": "這段 code 實作了 ..."}
3{"id": "003", "input": "[bug 描述]", "output": "[suggested fix]"}

來源：

過往 Continue.dev / Cursor 跟 LLM 的對話 log
Production agent 的 trace（手動 export 或 LangSmith / Phoenix dump）
自己 hand-craft 30-100 個典型 case

放在 data/eval.jsonl。

Step 2：設計 rubric

依任務類型設計、coding 任務的範例 rubric：

 1評分維度：
 21. Correctness（程式碼能否運作、邏輯是否正確）：1-5
 32. Style（是否符合 codebase convention、習慣命名）：1-5
 43. Completeness（是否完整解決 user request）：1-5
 5
 6評分規則：
 7- 5：完美無瑕、可直接 merge
 8- 4：小修可用、整體正確
 9- 3：方向正確、需 substantial 修改
10- 2：部分對、主要邏輯有錯
11- 1：完全錯、誤導使用者
12
13明確不加分（緩解 verbosity bias）：
14- 冗長 / verbose（同樣正確的短答 = 長答）
15- 道歉 / 開場白
16- 「我希望這有幫助」這類禮貌話
17- 過多 markdown 修飾（不加分）

Step 3：Judge prompt 模板

寫成 file prompts/judge.txt：

 1你是 LLM 輸出品質評估員、要評估 coding assistant 對使用者請求的回答品質。
 2重要：請保持公正、忽略風格偏好、聚焦在實質品質。
 3
 4User request:
 5{input}
 6
 7Assistant response:
 8{output}
 9
10評分維度（每維 1-5、加總用 overall）：
11
121. Correctness：程式碼能否運作、邏輯正確
13   5: 完美無瑕
14   4: 小修可用
15   3: 方向正確、需 substantial 修改
16   2: 部分對、主要邏輯有錯
17   1: 完全錯
18
192. Style：符合 codebase convention
20   1-5 同 scale
21
223. Completeness：完整解決 user request
23   1-5 同 scale
24
25明確不加分項：
26- 冗長 / verbose（同樣正確的短答 = 長答）
27- 道歉 / 開場白
28- 「我希望這有幫助」這類禮貌話
29- 過多 markdown 修飾
30
31請依下列 JSON 輸出（不要加額外文字、不要 markdown code fence）：
32{
33  "correctness": <1-5>,
34  "style": <1-5>,
35  "completeness": <1-5>,
36  "reasoning": "<簡短解釋、< 100 字>",
37  "overall": <1-5>
38}

Step 4：跑 harness

Python 最小可行版：

 1# judge_harness.py
 2import json
 3import requests
 4from pathlib import Path
 5
 6JUDGE_MODEL = "deepseek-r1:32b"  # 或 qwq:32b
 7OLLAMA_URL = "http://localhost:11434/v1/chat/completions"
 8
 9def load_dataset(path):
10    """Load JSONL eval dataset."""
11    with open(path) as f:
12        return [json.loads(line) for line in f if line.strip()]
13
14def load_prompt_template(path):
15    return Path(path).read_text()
16
17def call_judge(prompt):
18    """Call Ollama judge model、回 raw response text."""
19    resp = requests.post(OLLAMA_URL, json={
20        "model": JUDGE_MODEL,
21        "messages": [{"role": "user", "content": prompt}],
22        "temperature": 0.1,  # judge 用低 temperature 穩定
23        "stream": False,
24    }, timeout=600)
25    return resp.json()["choices"][0]["message"]["content"]
26
27def parse_judge_output(text):
28    """Parse judge 回的 JSON、容錯處理（reasoning model 可能加  標記）。"""
29    # 跳過 reasoning trace
30    if "" in text:
31        text = text.split("")[-1]
32
33    # 找 JSON 區塊
34    start = text.find("{")
35    end = text.rfind("}") + 1
36    if start == -1 or end == 0:
37        return None
38    try:
39        return json.loads(text[start:end])
40    except json.JSONDecodeError:
41        return None
42
43def run_harness(dataset_path, prompt_template_path, output_path):
44    dataset = load_dataset(dataset_path)
45    template = load_prompt_template(prompt_template_path)
46
47    results = []
48    for i, item in enumerate(dataset):
49        prompt = template.format(input=item["input"], output=item["output"])
50        raw = call_judge(prompt)
51        parsed = parse_judge_output(raw)
52
53        result = {
54            "id": item["id"],
55            "scores": parsed,
56            "raw_judge_output": raw[:500],  # 保留前 500 字便於 debug
57        }
58        results.append(result)
59        print(f"[{i+1}/{len(dataset)}] id={item['id']} overall={parsed.get('overall') if parsed else 'FAIL'}")
60
61    # 寫出 JSONL
62    with open(output_path, "w") as f:
63        for r in results:
64            f.write(json.dumps(r) + "\n")
65
66    # Aggregate
67    valid = [r for r in results if r["scores"]]
68    if valid:
69        avg = sum(r["scores"]["overall"] for r in valid) / len(valid)
70        print(f"\nAggregate: {len(valid)}/{len(results)} valid、avg overall = {avg:.2f}")
71
72if __name__ == "__main__":
73    run_harness("data/eval.jsonl", "prompts/judge.txt", "results/eval.jsonl")

跑：

1# 先確認 judge model 已 pull
2ollama pull deepseek-r1:32b
3
4# 跑 harness
5python judge_harness.py

Step 5：Aggregate 跟看 outlier

跑完後 results/eval.jsonl 含每筆評分跟 reasoning。看哪些是 outlier：

1# 找 overall < 3 的 case（低分、值得 review）
2jq 'select(.scores.overall < 3)' results/eval.jsonl
3
4# 看 reasoning 找系統性問題
5jq '.scores.reasoning' results/eval.jsonl | sort -u

判讀：

多數 score 4-5、少數 1-2：整體品質好、focus 在低分 case 找 fix
多數 score 2-3：系統性問題、改 prompt / model / agent design
分數分佈兩極（很多 5 很多 1）：可能是 task difficulty 分群、stratified analysis

Step 6：Calibration（可選但推薦）

跟 human eval 比對、確認 judge 對齊：

11. 從 dataset 抽 30 個（覆蓋 difficulty / score 分佈）
22. 自己 human eval（依同樣 rubric）
33. 對比 judge 跟 human 的 overall score
44. 算 Spearman correlation
5   - > 0.7：judge 對齊夠好、可信
6   - 0.5-0.7：部分問題、改 rubric
7   - < 0.5：judge 不可信、換 model 或重寫 rubric

低 correlation 的常見原因：

Rubric 太 vague、judge 自由發揮
Judge model 能力不夠（換更強 judge）
Verbosity / position bias 沒緩解
Eval task 跟 judge 訓練分佈差距大

Step 7：跟 production trace 串接（延伸）

把 4.20 LLM tracing 蒐集的 production trace export 成 JSONL、定期跑 judge：

1# 假設用 Langfuse self-host
2langfuse export --filter "user_feedback=negative" --output traces.jsonl
3
4# 轉成 eval format
5python convert_trace_to_eval.py traces.jsonl > data/eval-from-prod.jsonl
6
7# 跑 judge
8python judge_harness.py

這是 production quality engineering 閉環的本地版本、隱私敏感場景的 cost-free alternative。

失敗模式

Judge 不輸出合法 JSON：reasoning model 可能在 ... 後仍加 markdown / 解釋

緩解：parse 時跳段、容錯處理、或開 constrained decoding（llama.cpp grammar）

Latency 太長、batch 跑不完：reasoning model 32B 每 item 60-120s、100 item 要 2 小時

緩解：用較小 judge model（如 Qwen2.5-32B instruct、非 reasoning）、或拆 batch 並行

Judge bias 沒緩解：本地 judge 跟雲端 judge 都會有 verbosity / position bias

緩解：rubric 寫明、pairwise 換位置跑 2 次

本地 judge 能力上限：30B distill 對 nuanced case 判讀不如雲端旗艦

緩解：critical case 加 spot human review、或混用本地（量大）+ 雲端（精選 sample）

跟其他章節的關係

原理層的 LLM-as-judge 設計見 4.21
Production trace 串接見 4.20 tracing
Reasoning model 選型見 3.8
隱私 / 跨雲端邊界判讀見 6.4
Benchmark 跟 in-house eval 的層次見 4.14

Hands-on：RAG / MCP 的資源 footprint

Tue, 12 May 2026 00:00:00 +0000

Resource management 章講的是 Ollama / ComfyUI 等推論伺服器的 lifecycle。但跑 RAG / MCP 應用比單純 chat 多吃幾倍資源——embedding model、chat model、index 檔、subprocess、tool 邏輯——而且不同階段（ingest vs query）的瓶頸不一樣。

本篇紀錄 RAG demo 跟 MCP demo 跑起來的實測資源 footprint、提供本地多模型並存的 baseline、給寫 production 應用前的 sanity check。

驗證日期：2026-05-12 環境：M4 Pro 32 GB、Ollama 0.23.2、Python 3.14 Corpus：本 blog 的 content/llm/、71 個 markdown 檔、463 chunks

各階段資源 footprint

RAG / MCP 工作流通常分三階段、各自吃不同資源：

階段	主要資源消耗	持續時間	是否常駐
RAG ingest	embedding model RAM + CPU + 磁碟寫	one-shot（corpus 更動時跑）	否
RAG query	index 載入 RAM + chat model RAM + GPU	per-request	retrieval index 常駐
MCP server	subprocess 永久跑、tool 呼叫時動態載資源	session 內常駐	是

不同階段的瓶頸不一樣、優化目標也不同。

RAG Ingest 階段：one-shot 但批次密集

跑 python3 scripts/rag-demo/ingest.py 時：

1Found 71 markdown files under content/llm
2  [10/71] 86 chunks in 4.5s
3  [20/71] 181 chunks in 8.6s
4  ...
5  [70/71] 461 chunks in 22.2s
6Wrote 463 records to scripts/rag-demo/index.pkl (22.3s)

實測資源消耗：

資源	數字	為什麼
RAM（峰值）	~600 MB	nomic-embed-text 模型 (274 MB) + Python runtime + 累積 records (~200 MB)
磁碟寫	`index.pkl` ~3.7 MB	463 records、每筆含 chunk text + 768-dim float embedding
CPU + GPU	Ollama 推 embedding、Apple Silicon Metal backend	22 秒處理 463 個 chunk、平均 ~21 chunk/sec
網路	0	完全本地推論

Ingest 階段的特性：

One-shot：corpus 不變不用重跑、index 寫一次永久用。
吃 CPU 多於 RAM：產生 embedding 是 forward pass、瓶頸在 GPU 算力、RAM 沒太大壓力。
磁碟寫小：每 chunk 約 8 KB（text 部分 ~5 KB + embedding 768 floats × 4 bytes = ~3 KB）、463 chunks 總共 ~3.7 MB。
可平行：sequential embed(chunk) 是最慢實作、用 batching API（如果 Ollama 支援）或多 worker、能快 5-10x。

規模 extrapolation：

Corpus 大小	預估 ingest 時間	index.pkl 大小
71 docs / 463 chunks（本 blog）	22 秒	3.7 MB
1000 docs / ~7000 chunks（中型 codebase）	~5 分鐘	~55 MB
10000 docs / ~70000 chunks（大型 codebase）	~50 分鐘	~550 MB
100K docs / ~700K chunks（公司 wiki）	~8 小時	~5.5 GB

10K docs 以上就應該考慮：

Batching embedding（單次 request 送 50 個 chunks）
並行 worker（Python multiprocessing、4-8 worker）
換 vector database（避免把全部資料用 pickle 塞 RAM）

RAG Query 階段：retrieval 加 generation

跑 python3 scripts/rag-demo/query.py --show-retrieved "問題" 時：

1Loaded 463 chunks from scripts/rag-demo/index.pkl
2=== Retrieved chunks ===
3  0.870  llm/knowledge-cards/transformer.md#chunk2
4  ...
5（LLM 生成 response）

實測資源消耗（單次 query）：

階段	RAM 增量	時間
載 index.pkl 到 RAM	3.7 MB（小 corpus）/ MB 級（大 corpus）	< 1 秒
embed query	0（已載入的 nomic-embed-text）	200 ms
cosine over 463 chunks	純 Python 計算、暫時用 ~10 MB	50 ms
載 chat model（gemma3:1b）	~1 GB（首次）/ 0（已 cached）	5-10 秒（首次）/ 0（cached）
生成 response	0 額外	5-30 秒（看 model + prompt 長度）

Query 階段的特性：

第一次 cold start：要載 chat model 進 RAM、5-10 秒首字延遲。
後續 query 都快：embedding model + chat model 都在 RAM、retrieval 毫秒級、只剩 generation 時間。
RAM 占用 = embedding model + chat model + index：
- 463 chunks: 274 MB + chat model + 3.7 MB ≈ chat model + 280 MB
- 100K chunks: 274 MB + chat model + ~800 MB 進 RAM、加上 mmap pickle 額外開銷
瓶頸是 chat model：retrieval 部分快、瓶頸完全在 generation。

多模型並存（embedding + chat）：

1# 看當前 RAM 占用
2ollama ps
3# NAME                       SIZE      UNTIL
4# nomic-embed-text:latest    274 MB    4 minutes from now
5# gemma3:4b                  5.5 GB    4 minutes from now

兩個 model 都載入時、Ollama RAM 占用約 6 GB。Ollama 的 OLLAMA_KEEP_ALIVE（預設 5 分鐘）會 idle 後分別 unload 兩個 model。

規模 sanity check：

場景	RAM 需求
純 chat（gemma3:1b）	~1 GB
RAG with gemma3:1b + nomic-embed-text + 小 index	~1.5 GB
RAG with gemma3:4b + nomic-embed-text + 中型 index	~6 GB
RAG with gemma4:31b + nomic-embed-text + 大 index	~20 GB

跑 RAG 比 chat 額外要 ~300-1000 MB（embedding model + index）、不會太重。

MCP Server 階段：subprocess 常駐

跑 python3 scripts/mcp-demo/test_client.py 時、client 會 spawn blog_mcp_server.py 當 child process。

實測：

資源	數字	備註
Subprocess RAM	~50 MB	Python runtime + index.pkl mmap
stdio pipe 數量	3（stdin、stdout、stderr）	每 spawn 一個 server 都要 3 FD
持續時間	client 在跑就在跑	client 結束時 SIGPIPE 自動結束 server

MCP server 的特性：

每個 client spawn 一個 server：Claude Desktop 開 5 個 MCP server、就有 5 個 Python subprocess。
Index lazy load：本 demo load_index() 第一次 call 才 read pickle、之後 cached。Cold start 第一次 tool call 稍慢。
Process lifecycle 在 client 端：client 死了、stdin EOF、server 自然結束。Client 沒清乾淨 spawn 多次就 leak process。

1# 看當前所有 MCP server
2ps aux | grep blog_mcp_server | grep -v grep
3
4# 如果 client crash 留下 zombie：
5pkill -f "blog_mcp_server.py"

多 MCP server 並存（如 Claude Desktop 接 git server + filesystem server + custom server）：

Server	RAM	主要負載
git MCP server	~30 MB	shell 呼叫
filesystem MCP server	~30 MB	fs 操作
blog_mcp_server（本 demo）	~50 MB（含 index）	embedding + retrieval
5 個 server 同時	~200 MB	累積

200 MB 在 32 GB Mac 上不顯眼、但 16 GB Mac + 多 MCP server + 大 chat model 就可能擠到。

RAG + MCP 整合：完整應用 stack

實際應用會疊起來：

1User 在 Claude Desktop 打字
2  ↓
3Claude Desktop (~200 MB)
4  ↓ MCP stdio
5blog_mcp_server.py (~50 MB)
6  ↓ HTTP /api/embeddings + /v1/chat/completions
7Ollama daemon (~200 MB)
8  ↓ load
9nomic-embed-text 模型 (~274 MB) + 主 chat model (~6 GB)

整體 RAM 占用範圍：

配置	估算
Minimal（gemma3:1b + 小 index）	~1.7 GB
Standard（gemma3:4b + 中 index）	~6.5 GB
Heavy（gemma4:31b + 大 index + 多 MCP server）	~22 GB

跟 resource-management 章比、RAG / MCP 加 ~500 MB-1 GB overhead 在 chat 之上、是合理的 tradeoff（換來 retrieval + tool use 能力）。

各資源類型的關鍵指標

整理三 dimension 的關鍵指標跟監控方式：

RAM

1# 看 Ollama 載了哪些 model
2ollama ps
3
4# 看所有 LLM-related process
5ps aux | grep -E "ollama|comfyui|mcp" | grep -v grep | awk '{print $4, $11, $12, $13}' | sort -rn
6
7# 系統整體
8vm_stat | head -3

告警閾值：

RAM 占用 > 80% 系統總量：開始考慮 unload model 或關掉 ComfyUI
看到 swap 增加（vm_stat | grep "Swapouts"）：已經 swap、要立刻減少 model

磁碟

1# Ollama models 累積
2du -sh ~/.ollama/models
3
4# RAG index 累積（多個 corpus）
5du -sh scripts/rag-demo/index*.pkl 2>/dev/null
6
7# ComfyUI checkpoints / VAE / LoRA / etc
8du -sh ~/Projects/ComfyUI/models/*

累積評估：

Ollama: 每 model 1-20 GB、半年累積容易破 50 GB
RAG index: 每 100K chunks ~800 MB、多 corpus 累積要管
ComfyUI: 每 checkpoint 4-7 GB、加 LoRA / VAE / ControlNet 等可達 50+ GB

Process / Port

1# 一鍵 audit 所有 LLM service
2for p in 11434 1234 8080 8188 8000; do
3  echo "=== port $p ==="
4  lsof -i :$p 2>/dev/null | head -2
5done
6
7# 找 zombie subprocess（沒 parent 的 mcp server）
8ps aux | grep "mcp_server" | grep -v grep

告警訊號：

同 port 兩個 process listen：明顯有 zombie、要 kill
多個 mcp_server PPID = 1（被 reparent 到 init）：原 client 死了沒清乾淨

RAG 應用的長期累積管理

跑超過幾週、會累積：

累積物	為什麼累積	怎麼清
Multiple `index.pkl`	跑不同 corpus 各建 index、舊的沒刪	`find scripts -name 'index*.pkl' -mtime +30 -delete`
Ollama models	試了不同 model 沒清	看 `ollama list` modified 欄、`ollama rm` 不用的
Python `__pycache__`	每次跑 script 累積	`.gitignore` 已包、本地 `find . -name __pycache__ -exec rm -rf {} +`
Embedding cache	如果你寫了 embedding cache 機制	各自清理策略

清理 idiom：

1# 每月跑一次的 cleanup
2llm-rag-cleanup() {
3  echo "[*] Old indexes (>30 days):"
4  find scripts -name 'index*.pkl' -mtime +30 -ls
5  echo "[*] Ollama models (review):"
6  ollama list
7  echo "[*] Python caches:"
8  find ~/Projects -name __pycache__ -type d | head -10
9}

跟 production 的差距預告

本篇紀錄的數字、是「single-user、single-machine、no concurrency」的 baseline。Production 場景多了幾個維度：

維度	本地	Production
並發 user	1	10-10000
Index 大小	< 100 MB	TB 級
Model serving	Ollama 1 process	vLLM / TGI / Triton 多 worker
Vector storage	pickle	Pinecone / Weaviate / pgvector
Latency 要求	秒級 OK	p50 < 500ms、p99 < 2s
Cost model	一次性硬體	$/request、$/token
Observability	tail log	metrics / traces / dashboards
失敗模式	crash → 自己重啟	99.9% uptime SLA

Production 視角詳細展開見 4.9 Production 部署的資源評估原理。

何時這篇會過時

不會過時的部分：

三階段 footprint 分類（ingest / query / server）
RAM / 磁碟 / process 三 dimension 的監控指令
多模型並存的 RAM 預估方法
長期累積管理 idiom

會變的部分：

具體 RAM / 磁碟數字（隨模型架構、量化方法演化）
OLLAMA_KEEP_ALIVE 等具體環境變數名
哪些 vector DB 主流（會持續演化）

讀的時候若 RAM 占用跟本篇對不上、可能是新 model 架構效率改變、用同樣方法量自己環境的 baseline 即可。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、實作配對見 RAG demo 跟 MCP demo、Ollama / ComfyUI 共用的 lifecycle 管理見 Resource management、Apple Silicon 統一記憶體預算原理見 0.5 記憶體預算。

跑這篇實測的指令總結

 1# 1. RAG ingest 階段 RAM 量
 2ollama ps  # 先看 baseline
 3python3 scripts/rag-demo/ingest.py &
 4INGEST_PID=$!
 5ollama ps  # 看 embedding model 載入後
 6vm_stat | head -3
 7wait $INGEST_PID
 8
 9# 2. RAG query 階段 RAM 量
10ollama ps  # 看 idle 後 unload
11python3 scripts/rag-demo/query.py --show-retrieved "test query"
12ollama ps  # 看 chat model 載入
13
14# 3. MCP server 階段 process / RAM
15python3 scripts/mcp-demo/test_client.py &
16CLIENT_PID=$!
17sleep 2
18ps aux | grep blog_mcp_server | grep -v grep
19wait $CLIENT_PID
20
21# 4. 完成釋放
22ollama list | tail -n +2 | awk '{print $1}' | xargs -I {} \
23  curl -s http://localhost:11434/api/generate -d "{\"model\":\"{}\",\"keep_alive\":0}"

4.x Hands-on：端到端案例

Thu, 14 May 2026 00:00:00 +0000

本子資料夾收錄把模組四原理串起來的端到端案例。跟前面 principle-first 章節的差別：principle 章節是「跨工具不變的原理」、hands-on 是「把這些原理放在同一個任務上、走一遍完整流程」。

讀法建議：先讀 principle 章節建立心智模型、再進 hands-on 看「實際做的時候、原理怎麼落」。

案例列表

案例	主題	對應原理章節
Customer support agent 從零到 eval	Task decomposition → 設計 → trace → eval → iterate	4.0 prompt / 4.1 RAG / 4.3 tool / 4.4 agent / 4.5 HITL / 4.7 workflow / 4.13 eval / 4.20 trace
Blog 語意搜尋從 pickle 到 production	Storage 選型 → 實作 → 效能優化 → 四方案 benchmark	4.1 RAG / 4.12 embedding / 4.14 benchmarking / 4.22 storage 工程

Hands-on：本地 AI 工具實作筆記

Mon, 11 May 2026 00:00:00 +0000

本子資料夾收錄本地 AI 工具的實際安裝跟驗證紀錄。跟 1.x 原理章節的關係：

1.x 原理章節	Hands-on 紀錄
為什麼選 Ollama	實際 `brew install` + `ollama pull` 流程
Speculative decoding 原理	MTP 模型實際載入 + 速度量測
ComfyUI 在生態的位置	實際 git clone + Python 環境 + 模型路徑配置

本資料夾的內容會隨工具版本演化：指令、目錄結構、相依套件版本都會變。寫的時間戳記在每篇開頭、版本資訊在 frontmatter。跟 1.x 原理章節的差別是「原理跨工具世代不變、實作筆記是當下這版的快照」。

章節列表

章節	主題
Quickstart：clone repo 後跑通所有 demo	4 步驟整合 setup、跑 RAG / MCP / permission demo、跨 hands-on 系列導讀
Ollama 安裝 + Gemma 模型	brew install、ollama pull、curl 驗證
ComfyUI + Stable Diffusion XL	git clone、Python 環境、SDXL 模型放哪
Whisper 語音轉文字	`brew install whisper-cpp` + Metal 加速、GGML 模型選擇、`whisper-cli` + ffmpeg 驗證轉錄
Piper TTS 文字轉語音	下載 binary、voice 選擇、wav 輸出
RAG demo：用 blog content 當 corpus	embedding + retrieval、串 Ollama
MCP server demo：暴露 blog content	最小 MCP server、給 LLM 用
權限邊界實驗：LLM 改檔案 / 寫 shell 誰執行	LLM 是 pure function、wrapper 才是權限 gate、`--dry-run` / `--confirm` / `--auto` 取捨
跨資料夾風格 follow 任務的 model size 對比	1B vs 4B 在「讀資料夾、follow 既有格式、寫新章節」任務上的 structural metrics phase transition
LLM 運行中 + 結束的資源管理	RAM / 磁碟 / port 三 dimension 觀察、Ollama auto-unload vs ComfyUI persistent lifecycle、實測釋放數字、自動化 cleanup shell function
RAG / MCP 的資源 footprint	RAG ingest / query / MCP server 三階段 RAM / 磁碟 / process 實測、多模型並存 RAM 衝突、長期累積管理

通用前置

所有工具都假設你的 Mac 滿足：

Apple Silicon Mac（M1 / M2 / M3 / M4）
macOS 14 (Sonoma) 或以上
Homebrew 安裝完成（brew --version 可看版本）
至少 16 GB 統一記憶體（24 GB+ 較順）
至少 20 GB 可用磁碟空間（本系列總共會佔約 15 GB）

需要 Python 環境的工具（ComfyUI、Whisper）會用 venv 隔離、不污染系統 Python。

驗證紀錄環境

本系列的指令在以下環境驗證：

項目	版本
macOS	Darwin 24.3.0（Sonoma 14.x）
Homebrew	由 `/opt/homebrew/bin/brew` 提供
Python	3.x（系統或 pyenv 都可）
驗證日期	2026-05-11

換 Mac 規格、換 macOS 版本、半年後再讀本系列、指令可能要小調整、但前置設定的種類跟驗證步驟的結構通常不變。看到指令跑不過時、回 1.7 排錯方法論的三層架構定位、不要把錯誤訊息當絕對。

Firestore Distributed Counter Lab

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore Hands-on 操作路線的 lab，實作 distributed counter 高頻寫入 deep article 的機制。前置環境見 Local emulator quickstart。

Firestore distributed counter lab 的核心責任是把「分片計數」從概念變成可觀察的寫入分佈與彙總結果。這個 lab 在 emulator 上建立 N 個 shard、隨機分片寫入大量 increment、檢查寫入是否均勻打散到各 shard、再讀取彙總驗證總和正確。

本文的驗收標準是：你能跑出一個 sharded counter、看到 N 個 shard 各自累積了大致均勻的 partial count、彙總後等於總寫入次數，並理解 emulator 能驗什麼、不能驗什麼。

先講清楚 emulator 的邊界

這個 lab 驗證的是分片計數的機制正確性：寫入是否均勻分佈、彙總是否等於總和、讀取要讀幾個 document。它不驗證的是 contention 本身——emulator 不強制 production 的單 document 持續寫入軟上限，所以「不分片會寫爆」這件事在 emulator 跑不出來。contention 是 production 的規模特性，要在雲端真實負載下才會出現。

這個分界本身是要學的判讀：emulator 證明「分片計數做對了」，雲端負載測試才證明「不分片會撞牆」。把兩者混為一談會誤以為 emulator 全綠就代表 production 安全。

Lab 環境

沿用 quickstart 的工作區與 emulator。確認 emulator 在跑（另一個 terminal）。

1cd /tmp/firestore-lab
2# 確認 emulator 已啟動：firebase emulators:start --only firestore --project demo-firestore-lab
3export FIRESTORE_EMULATOR_HOST=localhost:8080

實作 sharded counter

counter 的核心責任是把一個邏輯計數拆成 N 個 shard document。寫入時隨機挑 shard increment(1)，讀取時加總所有 shard。這份 script 用 admin SDK 直接對 emulator 操作。

 1cat > counter.js <<'JS'
 2const admin = require('firebase-admin');
 3admin.initializeApp({ projectId: 'demo-firestore-lab' });
 4const db = admin.firestore();
 5const FieldValue = admin.firestore.FieldValue;
 6
 7const NUM_SHARDS = 10;
 8const counterRef = db.collection('counters').doc('likes');
 9
10async function createCounter() {
11  const batch = db.batch();
12  for (let i = 0; i < NUM_SHARDS; i++) {
13    batch.set(counterRef.collection('shards').doc(String(i)), { count: 0 });
14  }
15  await batch.commit();
16}
17
18async function incrementOnce() {
19  const shardId = Math.floor(Math.random() * NUM_SHARDS);
20  await counterRef.collection('shards').doc(String(shardId))
21    .set({ count: FieldValue.increment(1) }, { merge: true });
22}
23
24async function getCount() {
25  const snap = await counterRef.collection('shards').get();
26  let total = 0;
27  const perShard = {};
28  snap.forEach((s) => { perShard[s.id] = s.data().count; total += s.data().count; });
29  return { total, perShard };
30}
31
32module.exports = { createCounter, incrementOnce, getCount, NUM_SHARDS };
33JS

三個設計點對應 deep article：用 FieldValue.increment(1) 而非讀-改-寫（避開 race）；隨機選 shard 讓寫入均勻打散；讀取要讀 N 個 shard 加總（這是分片的代價）。

跑寫入並觀察分佈

driver 的核心責任是製造大量 increment、然後檢查寫入是否均勻落在各 shard。均勻分佈是分片有效的前提——若 shard 選擇有偏，熱點會在某幾個 shard 復現。

 1cat > run.js <<'JS'
 2const { createCounter, incrementOnce, getCount, NUM_SHARDS } = require('./counter');
 3
 4const TOTAL_WRITES = 1000;
 5
 6async function main() {
 7  await createCounter();
 8  console.log(`created ${NUM_SHARDS} shards`);
 9
10  // 製造 1000 次 increment
11  const tasks = [];
12  for (let i = 0; i < TOTAL_WRITES; i++) tasks.push(incrementOnce());
13  await Promise.all(tasks);
14
15  const { total, perShard } = await getCount();
16  console.log('per-shard counts:', perShard);
17  console.log(`total = ${total} (expected ${TOTAL_WRITES})`);
18
19  // 均勻度檢查：每個 shard 期望 ~100，看極差
20  const counts = Object.values(perShard);
21  const min = Math.min(...counts), max = Math.max(...counts);
22  console.log(`min=${min} max=${max} spread=${max - min} (expected mean ~${TOTAL_WRITES / NUM_SHARDS})`);
23}
24main().then(() => process.exit(0));
25JS
26
27export FIRESTORE_EMULATOR_HOST=localhost:8080
28node run.js

預期輸出類似（實際數字每次隨機分佈而異）：

1created 10 shards
2per-shard counts: { '0': 98, '1': 105, '2': 92, ... }
3total = 1000 (expected 1000)
4min=88 max=112 spread=24 (expected mean ~100)

兩個驗收點：total 等於總寫入次數（彙總正確、沒有 increment 遺失），以及各 shard 的 count 大致落在均值附近（隨機分佈均勻、沒有單一 shard 吸走大部分寫入）。

對照實驗：讀取成本隨 shard 數成長

讀取的核心代價是讀 N 個 document。把 NUM_SHARDS 改大（例如 100）重跑，getCount 要讀的 document 從 10 變 100——這就是 deep article 講的「寫入便宜了、讀取乘以 N」的取捨。在 production 這直接反映成 read 計費。

1# 編輯 counter.js 把 NUM_SHARDS 改為 100、重跑 run.js
2# 觀察 per-shard counts 物件變成 100 個 key、getCount 讀取量 10x

這個對照讓「shard 數是寫入分散與讀取成本的取捨」從文字變成可觀察：多 shard 寫入更分散（每 shard 更少），但讀取要加總更多筆。高寫入高讀取的場景該配 summary 彙總（deep article 的進階手段），而非無限加 shard。

Artifact 與驗收

Artifact	來源	驗收
counter 實作	`counter.js`	`increment` 分片寫入 + 彙總讀取
寫入分佈	`run.js` output	total = 寫入次數、各 shard 均勻
讀寫取捨	NUM_SHARDS 對照	shard 數↑ → 讀取 document 數↑

回到 production 判讀

emulator lab 證明了機制正確，但三個 production 判讀要回雲端確認：單 document 寫入軟上限（決定 shard 數要多少）、read 計費（決定 shard 數別太多 / 要不要 summary）、shard 選擇在真實流量下是否仍均勻。把 emulator 的機制驗證當第一道關，production 的容量與成本判讀見 deep article 的容量段。

Cleanup

1# 停 emulator（Ctrl-C）或清整個工作區
2rm -rf /tmp/firestore-lab

引用路徑

上游：Firestore Hands-on 操作路線
Deep article：高頻寫入與 distributed counter
一致性邊界：1.3 transaction 與一致性邊界
官方：Distributed counters、Firestore best practices

Firestore Hands-on 操作路線

Tue, 16 Jun 2026 00:00:00 +0000

Firestore hands-on 操作路線的核心責任是把 deep article 的機制判讀轉成可在本地演練的操作。這一層全程跑在 Firebase Emulator Suite 上——本地、免費、不碰雲端專案、不產生計費，讓讀者能建立資料、寫規則測試、跑分片計數，並取得 query output、測試結果與 artifact，而不只停在概念。

為什麼用 emulator

Firestore 的 client 直連模型讓「在本地驗證」變得重要：規則寫錯是資安漏洞、查詢設計錯是成本事故，這些都該在進雲端前用真實求值引擎驗過。Emulator Suite 提供與雲端一致的 Firestore 行為與 Security Rules 求值引擎，是規則測試的官方推薦環境。要留意的邊界是——emulator 模擬功能行為，但不模擬計費與部分 production 規模限制（單 document 寫入軟上限、連線天花板）。涉及成本與規模的判讀仍以雲端為準，emulator lab 會在對應處標明。

章節列表

章節	主題	產出 artifact
Local emulator quickstart	emulator 啟動、`firestore.rules`、admin seed、query baseline	emulator config、seed script、query output
Security Rules test lab	`@firebase/rules-unit-testing`、放行 / 拒絕斷言、CI 整合	rules 測試檔、pass / fail 結果、emulators:exec log
Distributed counter lab	分片計數寫入、shard 分佈、讀取彙總、contention 的 production 邊界	counter script、shard 分佈 output、彙總驗證

設計原則

Firestore hands-on 章節以「進雲端前先驗」為中心。操作指令只在能產出 artifact 時出現；每篇都要回答 emulator 在哪裡跑、需要哪些 input、怎麼知道操作成功（query output / 測試斷言 / shard 分佈），以及哪些 production 特性（計費、寫入上限）emulator 不負責、要回雲端確認。

引用路徑

上游：Firestore overview
Deep article：Security Rules 授權建模 / distributed counter 高頻寫入
發布證據：6.8 release gate（規則測試接進 gate）
官方：Emulator Suite、Connect to Firestore emulator

Firestore Local Emulator Quickstart

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore Hands-on 操作路線的基礎 lab。指令以 Firebase CLI 文件與 Emulator Suite 文件為準、最後檢查日 2026-06-16。

Firestore local emulator quickstart 的核心責任是建立後續 Security Rules 測試與 distributed counter lab 共用的本地環境。這個 lab 把 Firestore 從抽象服務轉成可觀察的 emulator、規則檔、seed 資料與 query 結果，全程不碰雲端專案。

本文的驗收標準是：你能在本地啟動 Firestore emulator、用 admin SDK 寫入並查詢一組 seed 資料、看到 emulator UI 裡的資料，並知道 cleanup 路徑。

Lab 環境與前置

Lab 在本地資料夾跑，需要 Node.js 與 Firebase CLI。以下命令建立一個可刪除的工作區並裝好工具。

1mkdir -p /tmp/firestore-lab
2cd /tmp/firestore-lab
3
4# Firebase CLI（已裝可跳過）；用 npx 也可避免全域安裝
5npm install -g firebase-tools
6
7# 本 lab 的 Node 依賴
8npm init -y
9npm install firebase-admin

emulator 需要 Java runtime（Firestore emulator 跑在 JVM 上）。java -version 確認存在；缺的話先裝 JDK 再繼續。驗收 artifact 是 /tmp/firestore-lab 工作區。

Emulator 設定

firebase.json 的核心責任是宣告要啟動哪些 emulator 與對應 port。這裡只開 Firestore 與 UI，不需要真實 Firebase 專案——emulator 用一個 demo project id 即可，demo- 前綴讓 CLI 知道這是純本地、不連雲端。

 1cat > firebase.json <<'JSON'
 2{
 3  "emulators": {
 4    "firestore": { "port": 8080 },
 5    "ui": { "enabled": true, "port": 4000 }
 6  },
 7  "firestore": {
 8    "rules": "firestore.rules"
 9  }
10}
11JSON

Baseline 規則

firestore.rules 的核心責任是定義授權。Quickstart 先用一組明確的 owner-scoped 規則（不是 allow read, write: if true，那是 deep article Case 1 的漏洞）。這份規則後續在 Security Rules test lab 會被測試覆蓋。

 1cat > firestore.rules <<'RULES'
 2rules_version = '2';
 3service cloud.firestore {
 4  match /databases/{database}/documents {
 5    match /notes/{noteId} {
 6      allow read: if request.auth != null
 7                  && resource.data.ownerId == request.auth.uid;
 8      allow create: if request.auth != null
 9                    && request.resource.data.ownerId == request.auth.uid;
10      allow update, delete: if request.auth != null
11                            && resource.data.ownerId == request.auth.uid;
12    }
13  }
14}
15RULES

啟動 emulator

啟動 emulator 的核心責任是讓本地有一個可寫可查的 Firestore。用 demo project id 啟動，emulator UI 在 http://localhost:4000 可看到資料。

1firebase emulators:start --only firestore --project demo-firestore-lab

這個指令會 foreground 跑住 emulator。保持它開著，另開一個 terminal 做 seed 與 query。終端輸出會印出 Firestore emulator 的位址（預設 localhost:8080）與 UI 位址。

Seed 資料（admin SDK 繞過規則）

Seed 的核心責任是建立可重跑的測試資料。admin SDK 連到 emulator 時繞過 Security Rules（模擬後端的特權寫入），適合種資料。關鍵是設 FIRESTORE_EMULATOR_HOST 環境變數——有了它，admin SDK 的寫入全部導向 emulator、不需要任何雲端 credential。

 1cat > seed.js <<'JS'
 2const admin = require('firebase-admin');
 3admin.initializeApp({ projectId: 'demo-firestore-lab' });
 4const db = admin.firestore();
 5
 6async function main() {
 7  await db.collection('notes').doc('n1').set({
 8    ownerId: 'alice', text: 'Alice first note', createdAt: Date.now(),
 9  });
10  await db.collection('notes').doc('n2').set({
11    ownerId: 'bob', text: 'Bob first note', createdAt: Date.now(),
12  });
13  console.log('seeded 2 notes');
14}
15main().then(() => process.exit(0));
16JS
17
18# 在新 terminal、同 lab 目錄下
19export FIRESTORE_EMULATOR_HOST=localhost:8080
20node seed.js

預期輸出 seeded 2 notes。打開 http://localhost:4000/firestore 應看到 notes collection 下兩筆 document。

Query baseline

Query 的核心責任是確認資料可讀、access pattern 入口可用。admin SDK 同樣繞過規則，這裡驗證的是資料與查詢本身（規則的放行 / 拒絕在下一個 lab 用 client context 驗）。

 1cat > query.js <<'JS'
 2const admin = require('firebase-admin');
 3admin.initializeApp({ projectId: 'demo-firestore-lab' });
 4const db = admin.firestore();
 5
 6async function main() {
 7  const snap = await db.collection('notes')
 8    .where('ownerId', '==', 'alice').get();
 9  console.log(`alice notes: ${snap.size}`);
10  snap.forEach((d) => console.log(d.id, d.data().text));
11}
12main().then(() => process.exit(0));
13JS
14
15export FIRESTORE_EMULATOR_HOST=localhost:8080
16node query.js

預期輸出 alice notes: 1 與 n1 Alice first note。這證明 where('ownerId', '==', ...) 的 access pattern 成立——它也正是 client 端要自帶、好讓 owner-scoped 規則放行的查詢條件。

Artifact 與驗收

Artifact	路徑 / 來源	驗收
emulator config	`firebase.json`	Firestore + UI port 宣告
規則檔	`firestore.rules`	owner-scoped、非 `if true`
seed 結果	`seed.js` output + UI	`notes/n1`、`notes/n2` 存在
query 結果	`query.js` output	`alice notes: 1`

Cleanup

Cleanup 的核心責任是讓 lab 可重跑。emulator 的資料在 process 結束時預設不持久化（除非設了 --export-on-exit），所以停掉 emulator 等於清空資料。

1# 停掉 emulator：在 emulator terminal 按 Ctrl-C
2# 移除整個工作區
3rm -rf /tmp/firestore-lab

若想保留 emulator 資料跨 session，啟動時加 --import=./data --export-on-exit=./data；lab 預設不持久化，保持每次乾淨起步。

完成本篇後，下一步進 Security Rules test lab（把上面的規則寫成自動化測試）或 Distributed counter lab。

引用路徑

上游：Firestore Hands-on 操作路線
Deep article：Security Rules 授權建模
官方：Install Firebase CLI、Connect to Firestore emulator

Firestore Security Rules Test Lab

Tue, 16 Jun 2026 00:00:00 +0000

本文是 Firestore Hands-on 操作路線的 lab，實作 Security Rules 授權建模 deep article 的測試方法。前置環境見 Local emulator quickstart。測試 API 以 Rules unit testing 文件為準、最後檢查日 2026-06-16。

Firestore Security Rules test lab 的核心責任是把授權規則變成可自動驗證的測試。規則是 client 直連模型的整個控制面，改一條就要證明沒開新洞——這個 lab 用 @firebase/rules-unit-testing 在 emulator 上對規則跑斷言，產出可接進 CI 與 release gate 的測試 evidence。

本文的驗收標準是：你能對一組規則寫出「放行 / 越權拒絕 / 未登入拒絕 / 欄位竄改拒絕」四類斷言、用 firebase emulators:exec 一鍵跑完、並看到 assertFails 確實證明該擋的有擋住。

Lab 環境與依賴

沿用 quickstart 的工作區與 firebase.json / firestore.rules。再裝測試依賴。

1cd /tmp/firestore-lab
2npm install --save-dev @firebase/rules-unit-testing firebase jest

驗收前置是 firestore.rules 存在（quickstart 已建立 owner-scoped 規則）與 firebase.json 宣告了 Firestore emulator。

升級規則：加入欄位竄改防護

quickstart 的規則擋了越權讀寫，但還沒擋「owner 改自己 note 時偷改 ownerId 把資料轉走」。先把規則升級到帶欄位白名單，讓測試有更多面向可驗。

 1cat > firestore.rules <<'RULES'
 2rules_version = '2';
 3service cloud.firestore {
 4  match /databases/{database}/documents {
 5
 6    function isSignedIn() { return request.auth != null; }
 7
 8    function ownsExisting() {
 9      return isSignedIn() && resource.data.ownerId == request.auth.uid;
10    }
11
12    function onlyChanges(fields) {
13      return request.resource.data.diff(resource.data).affectedKeys().hasOnly(fields);
14    }
15
16    match /notes/{noteId} {
17      allow read: if ownsExisting();
18      allow create: if isSignedIn()
19                    && request.resource.data.ownerId == request.auth.uid;
20      allow update: if ownsExisting() && onlyChanges(['text', 'updatedAt']);
21      allow delete: if ownsExisting();
22    }
23  }
24}
25RULES

onlyChanges(['text', 'updatedAt']) 是這版的重點：update 只准動 text 與 updatedAt，碰 ownerId 直接拒絕。下面的測試會驗證它。

寫測試：四類斷言

測試的核心責任是覆蓋「該放行的放行、該拒絕的拒絕」。initializeTestEnvironment 載入規則、authenticatedContext 模擬登入身分、assertSucceeds / assertFails 對操作斷言。預先種資料用 withSecurityRulesDisabled 繞過規則。

 1cat > rules.test.js <<'JS'
 2const {
 3  initializeTestEnvironment, assertFails, assertSucceeds,
 4} = require('@firebase/rules-unit-testing');
 5const { doc, getDoc, setDoc, updateDoc } = require('firebase/firestore');
 6const fs = require('fs');
 7
 8let testEnv;
 9
10beforeAll(async () => {
11  testEnv = await initializeTestEnvironment({
12    projectId: 'demo-firestore-lab',
13    firestore: { rules: fs.readFileSync('firestore.rules', 'utf8') },
14  });
15});
16afterAll(async () => { await testEnv.cleanup(); });
17beforeEach(async () => {
18  await testEnv.clearFirestore();
19  await testEnv.withSecurityRulesDisabled(async (ctx) => {
20    await setDoc(doc(ctx.firestore(), 'notes/n1'),
21      { ownerId: 'alice', text: 'hi', updatedAt: 0 });
22  });
23});
24
25// 1. 放行：owner 讀自己的
26test('owner reads own note', async () => {
27  const db = testEnv.authenticatedContext('alice').firestore();
28  await assertSucceeds(getDoc(doc(db, 'notes/n1')));
29});
30
31// 2. 越權拒絕：非 owner 讀別人的
32test('non-owner cannot read', async () => {
33  const db = testEnv.authenticatedContext('bob').firestore();
34  await assertFails(getDoc(doc(db, 'notes/n1')));
35});
36
37// 3. 未登入拒絕
38test('unauthenticated denied', async () => {
39  const db = testEnv.unauthenticatedContext().firestore();
40  await assertFails(getDoc(doc(db, 'notes/n1')));
41});
42
43// 4. 欄位竄改拒絕：owner 偷改 ownerId
44test('owner cannot change ownerId', async () => {
45  const db = testEnv.authenticatedContext('alice').firestore();
46  await assertFails(updateDoc(doc(db, 'notes/n1'), { ownerId: 'bob' }));
47});
48
49// 4b. 正當 update 放行
50test('owner can edit text', async () => {
51  const db = testEnv.authenticatedContext('alice').firestore();
52  await assertSucceeds(updateDoc(doc(db, 'notes/n1'), { text: 'edited', updatedAt: 1 }));
53});
54JS

四類斷言裡 assertFails 比 assertSucceeds 更重要——它證明的是攻擊路徑被擋住，正是滲透測試會打的點。每條規則至少要有「正向放行 + 至少一條拒絕」配對，光測 happy path 證明不了授權安全。

一鍵跑：emulators:exec

跑測試的核心責任是讓它在乾淨 emulator 上自動化執行。firebase emulators:exec 啟動 emulator、跑指定命令、結束後關閉——適合 CI，不需要手動開關 emulator。

1cat > package.json.test <<'JSON'
2{ "scripts": { "test:rules": "jest rules.test.js" } }
3JSON
4# 把 test:rules script 併進既有 package.json 後執行：
5
6firebase emulators:exec --only firestore --project demo-firestore-lab "npx jest rules.test.js"

預期輸出五個測試全 pass：

1PASS  ./rules.test.js
2  owner reads own note (passed)
3  non-owner cannot read (passed)
4  unauthenticated denied (passed)
5  owner cannot change ownerId (passed)
6  owner can edit text (passed)
7
8Test Suites: 1 passed, 1 total
9Tests:       5 passed, 5 total

（Jest 預設 reporter 每行會印一個通過標記、此處以 (passed) 文字呈現，實際終端輸出為工具自身格式。）

故意改壞驗證測試有效

測試的價值在於它會抓到回歸。把規則改回 allow read, write: if true 再跑，應看到「越權拒絕」「未登入拒絕」「欄位竄改拒絕」三個測試 fail——這證明測試確實守在攻擊路徑上，而不是恆綠的假測試。

1# 暫時把規則改成全放行
2printf "rules_version='2';\nservice cloud.firestore{match /databases/{db}/documents{match /{d=**}{allow read,write:if true;}}}" > firestore.rules
3firebase emulators:exec --only firestore --project demo-firestore-lab "npx jest rules.test.js"
4# 預期：3 個 assertFails 測試 fail（該擋的沒擋）
5# 驗證完改回上面的正確規則

Artifact 與驗收

Artifact	來源	驗收
規則測試檔	`rules.test.js`	四類斷言 + 正向 update
測試結果	`emulators:exec` 輸出	正確規則下全 pass
回歸證明	改壞後重跑	3 個 assertFails 測試轉 fail

接進 release gate

規則測試的下游責任是成為發布證據。把 firebase emulators:exec ... jest 接進 CI pipeline，規則變更的 PR 必須通過才能 merge——這把「規則改動沒開新洞」從人工推敲變成 gate 條件，對齊 6.8 release gate 的 Gate decision / Checks / Stop condition。授權翻譯的正確性是安全邊界，這個 gate 比一般功能測試更該設為硬性 stop condition。

Cleanup

1# emulators:exec 跑完會自動關 emulator；清依賴與工作區
2rm -rf /tmp/firestore-lab

引用路徑

MySQL Backup Restore Drill

Fri, 22 May 2026 00:00:00 +0000

MySQL backup restore drill 的核心責任是證明資料可以從 backup 回到可用狀態。這篇承接 PITR / Backup，用 logical dump 建立最小演練框架，並保留 physical backup / binlog PITR 的 evidence 欄位。

本文的驗收標準是：你能產出 dump、記錄 binlog position、還原到隔離 database、跑 validation query，並寫下 RPO / RTO note。

Create Backup

Create backup 的核心責任是建立可還原 artifact。

1mkdir -p /tmp/mysql-backup-lab
2mysqldump -h 127.0.0.1 -P 33069 -u app_user -papp_pw \
3  --single-transaction --routines --triggers appdb \
4  > /tmp/mysql-backup-lab/appdb.sql

記錄 binlog 狀態：

1mysql -h 127.0.0.1 -P 33069 -u root -proot_pw -e "SHOW BINARY LOG STATUS;"

--single-transaction 適合 InnoDB consistent dump。大型 production 要評估 physical backup、backup lock、replication lag 與 binlog retention。

Mutate Source

Mutate source 的核心責任是讓 restore 時間點具體化。

1mysql -h 127.0.0.1 -P 33069 -u app_user -papp_pw appdb \
2  -e "INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key) VALUES (1, 777, 'after-backup-write');"

Source 現在比 backup 多一筆。這能用來討論 RPO 與 binlog PITR。

Restore Isolated Database

Restore isolated database 的核心責任是避免覆蓋 source。

1mysql -h 127.0.0.1 -P 33069 -u root -proot_pw \
2  -e "DROP DATABASE IF EXISTS appdb_restore; CREATE DATABASE appdb_restore;"
3mysql -h 127.0.0.1 -P 33069 -u root -proot_pw appdb_restore \
4  < /tmp/mysql-backup-lab/appdb.sql

Validation：

1mysql -h 127.0.0.1 -P 33069 -u root -proot_pw appdb_restore <<'SQL'
2SELECT COUNT(*) FROM accounts;
3SELECT COUNT(*) FROM ledger_entries;
4SELECT a.owner_name, SUM(l.amount_cents) AS balance_cents
5FROM accounts a JOIN ledger_entries l ON l.account_id = a.id
6GROUP BY a.owner_name;
7SQL

Validation query 要和 application smoke test 對齊。正式 drill 還要啟動 app 指向 restore database。

RPO / RTO Note

RPO / RTO note 的核心責任是把演練結果轉成服務承諾。

Evidence	記錄內容
Backup time	dump start / finish
Binlog position	file、position 或 GTID set
Restore time	開始 restore 到 validation 成功
Data gap	backup 後需要 binlog 補回的寫入
Smoke test	application workflow

完成本篇後，binlog CDC 讀 Binlog CDC；PITR 策略讀 PITR / Backup。

MySQL Hands-on 操作路線

Fri, 22 May 2026 00:00:00 +0000

MySQL hands-on 操作路線的核心責任是把 MySQL deep article 的設定與 failure mode 轉成可演練流程。這一層對齊 LLM hands-on/：讀者能跑出 config、metric、validation query 與 rollback evidence。

章節列表

章節	主題	產出 artifact
Local lab quickstart	MySQL container、sample schema、baseline workload	local DSN、schema log、basic metric snapshot
ProxySQL routing lab	read/write split、lag-aware routing、runtime / disk config	ProxySQL config、routing evidence、drift note
Online schema change lab	gh-ost / pt-osc cutover、metadata lock、rollback	OSC command、cutover note、lock evidence
Replication failover lab	GTID replica、semi-sync、Orchestrator / manual failover	topology map、lag evidence、failover timeline
Backup restore drill	logical / physical backup、binlog recovery、restore validation	restore record、RPO / RTO evidence
Vitess sandbox route	keyspace、VSchema、VTGate / VTTablet sandbox	sandbox topology、routing sample、shard key note

設計原則

MySQL hands-on 章節要保留「高併發簡單 OLTP + 分片生態」的服務語言。操作章節不只給指令，也要說明 command 產出的 evidence 如何回到 replication、schema change、connection routing 或 sharding decision。

引用路徑

上游：MySQL overview
Deep article：ProxySQL Config、Online Schema Change Tools、Replication Topology、Vitess Sharding

MySQL Local Lab Quickstart

Fri, 22 May 2026 00:00:00 +0000

MySQL local lab quickstart 的核心責任是建立後續 ProxySQL、OSC、replication、backup 與 Vitess sandbox 共用的本地環境。這個 lab 提供可重建 MySQL instance、baseline schema、seed data 與 basic evidence。

本文的驗收標準是：你能啟動 MySQL、套用 schema、跑 sample workload、取得 processlist / InnoDB status / table count，並能 teardown 重建。

Docker Compose

Docker Compose 的核心責任是讓 lab 環境可重建。

 1services:
 2  mysql:
 3    image: mysql:8.4
 4    environment:
 5      MYSQL_ROOT_PASSWORD: root_pw
 6      MYSQL_DATABASE: appdb
 7      MYSQL_USER: app_user
 8      MYSQL_PASSWORD: app_pw
 9    ports:
10      - "33069:3306"
11    command:
12      - "--performance-schema=ON"
13      - "--log-bin=mysql-bin"
14      - "--server-id=1"

啟動：

1docker compose up -d
2export MYSQL_PWD=app_pw
3mysql -h 127.0.0.1 -P 33069 -u app_user appdb -e "SELECT VERSION();"

Baseline Schema

Baseline schema 的核心責任是建立可測 transaction、index、binlog 與 OSC 的模型。

 1mysql -h 127.0.0.1 -P 33069 -u app_user appdb <<'SQL'
 2CREATE TABLE accounts (
 3  id BIGINT PRIMARY KEY AUTO_INCREMENT,
 4  tenant_id CHAR(36) NOT NULL,
 5  owner_name VARCHAR(128) NOT NULL,
 6  status ENUM('active', 'closed') NOT NULL,
 7  created_at TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
 8  KEY idx_accounts_tenant (tenant_id)
 9) ENGINE=InnoDB;
10
11CREATE TABLE ledger_entries (
12  id BIGINT PRIMARY KEY AUTO_INCREMENT,
13  account_id BIGINT NOT NULL,
14  amount_cents BIGINT NOT NULL,
15  idempotency_key VARCHAR(128) NOT NULL,
16  created_at TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
17  UNIQUE KEY uk_ledger_idempotency (idempotency_key),
18  KEY idx_ledger_account_created (account_id, created_at),
19  CONSTRAINT fk_ledger_account FOREIGN KEY (account_id) REFERENCES accounts(id)
20) ENGINE=InnoDB;
21SQL

Seed and Evidence

Seed and evidence 的核心責任是產生可重跑資料與 baseline。

 1mysql -h 127.0.0.1 -P 33069 -u app_user appdb <<'SQL'
 2INSERT INTO accounts(tenant_id, owner_name, status)
 3VALUES ('tenant-a', 'Ada', 'active'), ('tenant-b', 'Lin', 'active');
 4
 5INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key)
 6VALUES (1, 1000, 'seed-ada-1'), (1, -200, 'seed-ada-2'), (2, 500, 'seed-lin-1');
 7
 8SELECT a.owner_name, SUM(l.amount_cents) AS balance_cents
 9FROM accounts a JOIN ledger_entries l ON l.account_id = a.id
10GROUP BY a.owner_name;
11SQL

Basic evidence：

1mysql -h 127.0.0.1 -P 33069 -u app_user appdb -e "SHOW FULL PROCESSLIST;"
2mysql -h 127.0.0.1 -P 33069 -u app_user appdb -e "SHOW TABLE STATUS;"
3mysql -h 127.0.0.1 -P 33069 -u app_user appdb -e "SHOW ENGINE INNODB STATUS\\G"

Teardown

Teardown 的核心責任是讓 lab 可重跑。

1docker compose down -v

完成本篇後，backup 進入 Backup Restore Drill；schema change 進入 Online Schema Change Lab；routing 進入 ProxySQL Routing Lab。

MySQL Online Schema Change Lab

Fri, 22 May 2026 00:00:00 +0000

MySQL online schema change lab 的核心責任是讓讀者看到 schema change 的 metadata lock、algorithm、copy / cutover 與 validation evidence。這篇承接 Online Schema Change Tools 與 Metadata Lock Deep Dive。

本文的驗收標準是：你能跑一個低風險 ALTER、觀察 metadata lock、記錄 validation query，並理解 gh-ost / pt-osc 的 cutover evidence。

Direct ALTER Baseline

Direct ALTER baseline 的核心責任是先看 MySQL 原生 DDL 的行為。

1mysql -h 127.0.0.1 -P 33069 -u app_user -papp_pw appdb <<'SQL'
2ALTER TABLE accounts ADD COLUMN email VARCHAR(255) NULL;
3SHOW CREATE TABLE accounts\G
4SQL

記錄 ALTER duration、algorithm、lock impact 與 table size。不同 MySQL 版本與 DDL 類型會有不同行為，production 要在 staging dry run。

Metadata Lock Observation

Metadata lock observation 的核心責任是看到 blocker。

開 Session A：

1START TRANSACTION;
2SELECT * FROM accounts WHERE id = 1;

保持 transaction 開啟。Session B 執行：

1ALTER TABLE accounts ADD COLUMN note VARCHAR(255) NULL;

Session C 查：

1SELECT OBJECT_SCHEMA, OBJECT_NAME, LOCK_TYPE, LOCK_STATUS, OWNER_THREAD_ID
2FROM performance_schema.metadata_locks
3WHERE OBJECT_SCHEMA = 'appdb';

完成觀察後，Session A COMMIT。這段 lab 展示 long transaction 如何讓 DDL 等待。

OSC Frame

OSC frame 的核心責任是理解 gh-ost / pt-online-schema-change 的證據，而非要求每個 lab 都安裝工具。

OSC runbook 要記錄：

Source table、ghost table、migration statement。
Copy progress、chunk size、throttle condition。
Replication lag / load threshold。
Cutover pre-check：long transaction、metadata lock、traffic。
Cutover duration 與 validation query。
Rollback / drop ghost table policy。

Cutover 前最重要的是 metadata lock pre-check。工具能降低大部分 copy 風險，但最後 rename / swap 仍需要短暫鎖。

Validation

Validation 的核心責任是證明 schema change 後資料與 query 仍正確。

1mysql -h 127.0.0.1 -P 33069 -u app_user -papp_pw appdb <<'SQL'
2SELECT COUNT(*) FROM accounts;
3SELECT COUNT(*) FROM ledger_entries;
4EXPLAIN SELECT * FROM accounts WHERE tenant_id = 'tenant-a';
5SQL

正式 migration 要補 row checksum、null rate、index usage、replication lag 與 application smoke test。

Release Gate

Release gate 的核心責任是形成交付 artifact。

1Migration:
2DDL / OSC command:
3Table size:
4MDL pre-check:
5Duration:
6Validation:
7Rollback:
8Owner:

完成本篇後，MDL 事故讀 Metadata Lock Deep Dive；工具選型讀 Online Schema Change Tools。

MySQL ProxySQL Routing Lab

Fri, 22 May 2026 00:00:00 +0000

MySQL ProxySQL routing lab 的核心責任是讓讀者看到 database proxy 如何把 application query 導向不同 hostgroup。這篇承接 ProxySQL Config。

本文的驗收標準是：你能定義 writer / reader hostgroup、建立 query rule、觀察 routing stats，並寫下 stale read 與 failover 風險。

Hostgroup Model

Hostgroup model 的核心責任是把 backend 分成 writer 與 reader。

1hostgroup 10: writer
2hostgroup 20: reader

在單節點 lab 中，writer / reader 可以先指向同一 MySQL；正式環境應用 replica 作 reader，並搭配 replication lag guard。

Query Rule

Query rule 的核心責任是示範 routing policy。

1-- Conceptual ProxySQL admin commands. Adjust host / credential for your lab.
2INSERT INTO mysql_query_rules(rule_id, active, match_pattern, destination_hostgroup, apply)
3VALUES
4 (10, 1, '^SELECT', 20, 1),
5 (20, 1, '.*', 10, 1);
6LOAD MYSQL QUERY RULES TO RUNTIME;
7SAVE MYSQL QUERY RULES TO DISK;

這個規則把 SELECT 導向 reader，其餘導向 writer。Production 要排除 SELECT ... FOR UPDATE、transaction、read-after-write 與 session state。

Routing Evidence

Routing evidence 的核心責任是確認 query 真的走到預期 hostgroup。

1SELECT hostgroup, srv_host, Queries
2FROM stats_mysql_connection_pool;
3
4SELECT rule_id, hits
5FROM stats_mysql_query_rules
6ORDER BY rule_id;

Evidence 要和 application log 對齊。若某個 workflow 寫後立刻讀，routing rule 要保證它走 writer 或具備 freshness policy。

Failure Note

Failure note 的核心責任是記錄 proxy 常見風險。

風險	控制方式
Stale read	lag guard、read-after-write to writer
Transaction split	transaction pinning、query rule review
Bad regex	query digest / allowlist
Backend unhealthy	health check、hostgroup failover
Credential drift	ProxySQL user sync / secret rotation

完成本篇後，完整設定讀 ProxySQL Config；replica 與 failover 讀 Replication Failover Lab。

MySQL Replication Failover Lab

Fri, 22 May 2026 00:00:00 +0000

MySQL replication failover lab 的核心責任是讓讀者觀察 source / replica 拓撲在 promotion 時的資料與 client route。這篇承接 Replication Topology 與 Orchestrator Failover。

本文的驗收標準是：你能記錄 replication status、lag、promotion timeline、client error sample、validation query 與 incident decision log。

Baseline Replication

Baseline replication 的核心責任是先保存 source / replica 狀態。實際建立 replication 依 GTID、binlog file position、Docker topology 或 managed service 而異；本文聚焦演練 evidence。

1SHOW REPLICA STATUS\G
2SHOW BINARY LOG STATUS;

Baseline 要記錄：

Source host / replica host。
GTID executed / retrieved。
IO thread / SQL thread。
Seconds behind source。
Read endpoint / write endpoint。

Client Workload

Client workload 的核心責任是讓 failover 對 application 可見。

1while true; do
2 mysql -h "$MYSQL_WRITE_HOST" -u app_user -papp_pw appdb \
3 -e "INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key) VALUES (1, 1, UUID());"
4 sleep 1
5done

這個 synthetic workload 產生成功、timeout、duplicate、read-only 或 connection error。正式演練要避免碰 production side effect。

Promotion Frame

Promotion frame 的核心責任是把 failover action 寫成可審查步驟。

1failover_start:
2old_source:
3candidate_replica:
4lag_before:
5promotion_method:
6accepted_data_loss:
7operator:

Managed service、Orchestrator 或手動 promotion 都要留下同樣欄位。工具不同，決策證據一致。

Validation

Validation 的核心責任是確認 promoted instance 可讀寫且資料符合預期。

1SELECT COUNT(*) FROM ledger_entries;
2SELECT MAX(created_at) FROM ledger_entries;
3SHOW VARIABLES LIKE 'read_only';
4SHOW VARIABLES LIKE 'super_read_only';

若使用 GTID，還要比較 source / replica 的 GTID set。若有 external side effect，要用 idempotency key 做 reconciliation。

Client Route

Client route 的核心責任是確認 application、ProxySQL、DNS 或 secret 已指向新 writer。

檢查項目：

Write endpoint 是否更新。
ProxySQL writer hostgroup 是否切換。
Application pool 是否清掉舊連線。
Retry 是否有 backoff。
Read replica 是否重新掛到新 source。

Failover 完成標準包含資料庫 promotion 與 client route 穩定。只 promote 成功，application 仍可能寫到舊 endpoint。

MySQL Vitess Sandbox Route

Fri, 22 May 2026 00:00:00 +0000

MySQL Vitess sandbox route 的核心責任是讓讀者用 sandbox 理解 Vitess 如何把 MySQL 拓展成 sharded database platform。這篇承接 Vitess Sharding 與 MySQL to PlanetScale。

本文的驗收標準是：你能建立 sandbox、辨識 keyspace / shard / tablet / vtgate、跑基本 query，並記錄 resharding preview 的 evidence。

官方文件路由的核心責任是固定 sandbox 指令。實作前先查 Vitess local install docs；本文最後檢查日是 2026-05-22。

Concept Map

Concept map 的核心責任是先建立 Vitess vocabulary。

概念	責任
Keyspace	logical database / routing boundary
Shard	keyrange 分片
Tablet	MySQL instance + Vitess sidecar role
vtgate	application query routing endpoint
VSchema	routing、vindex、sharding metadata
VReplication	resharding / materialize workflow

Vitess 的重點是 routing 與 resharding。Application 看到的是 vtgate；底下是多個 MySQL tablet 與 topology service。

Sandbox Setup

Sandbox setup 的核心責任是使用官方 sandbox 建立可丟棄環境。實際命令依 Vitess 版本調整，正式操作以 Vitess 官方文件為準。

1# Conceptual route. Use the current Vitess examples for exact commands.
2git clone https://github.com/vitessio/vitess.git
3cd vitess/examples/local
4./101_initial_cluster.sh

啟動後要記錄：

Vitess version。
Keyspace name。
Shard count。
vtgate host / port。
Tablet roles。

Query Through vtgate

Query through vtgate 的核心責任是確認 application 走 routing layer。

1mysql -h 127.0.0.1 -P 15306 -u user <<'SQL'
2SHOW DATABASES;
3USE commerce;
4SHOW TABLES;
5SELECT * FROM product LIMIT 5;
6SQL

Evidence 要包含 query result、target keyspace、vtgate endpoint 與 tablet health。Production migration 要確認 ORM / driver 對 vtgate 的相容性。

VSchema Review

VSchema review 的核心責任是理解 shard key 與 routing。

1# Conceptual command; exact path depends on sandbox.
2cat vschema_commerce_initial.json

審查問題：

哪些 table 是 sharded。
shard key / vindex 是什麼。
lookup vindex 是否需要維護。
cross-shard query 是否存在。
sequence / id generation 如何處理。

VSchema 是 Vitess migration 的核心設計文件。選錯 shard key 會讓跨 shard transaction、hot shard 與 resharding 成本升高。

Resharding Preview

Resharding preview 的核心責任是看見 Vitess 的主要價值與操作成本。

Resharding evidence 欄位：

1source shard:
2target shards:
3workflow name:
4copy phase duration:
5replication lag:
6cutover time:
7validation query:
8rollback:

Resharding 是 production operation，不只是一次 migration。Runbook 要包含 throttling、lag、tablet health、cutover 與 application query validation。

Migration Decision

Migration decision 的核心責任是判斷何時從 MySQL 走向 Vitess / PlanetScale 類路線。

訊號	意義
單 MySQL writer 到頂	需要 horizontal write scaling
tenant shard boundary 清楚	Vitess keyspace / shard 有機會匹配
online resharding 是核心需求	Vitess value 高
app 缺少 routing 語意改造空間	先重構 repository / query

完成本篇後，設計細節讀 Vitess Sharding；managed route 讀 MySQL to PlanetScale。

PostgreSQL Connection Pool Lab

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL connection pool lab 的核心責任是讓讀者看到 connection pressure 如何從 application pool 傳到 PostgreSQL backend process。這篇承接 Connection Scaling 與 PgBouncer Config。

本文的驗收標準是：你能比較 direct connection 與 PgBouncer transaction pooling，取得 pg_stat_activity、PgBouncer SHOW POOLS、latency / error sample 與 failure note。

Baseline Direct Connections

Baseline direct connections 的核心責任是先看 application 直連 PostgreSQL 時的 backend 數。

1export DATABASE_URL="postgres://lab_admin:lab_admin_pw@localhost:54329/appdb?sslmode=disable"
2psql "$DATABASE_URL" -c "SELECT count(*) FROM pg_stat_activity WHERE datname = current_database();"

用多個 terminal 或簡單 workload 產生 idle connection：

1for i in 1 2 3 4 5; do
2  psql "$DATABASE_URL" -c "SELECT pg_sleep(10);" &
3done
4psql "$DATABASE_URL" -c "SELECT state, count(*) FROM pg_stat_activity WHERE datname = current_database() GROUP BY state;"

這一步證明每個 client session 會占用 PostgreSQL backend process。

Add PgBouncer

Add PgBouncer 的核心責任是把 client connection 與 server connection 拆開。以下 compose fragment 可加入 local lab：

 1  pgbouncer:
 2    image: edoburu/pgbouncer:latest
 3    environment:
 4      DB_HOST: postgres
 5      DB_USER: lab_admin
 6      DB_PASSWORD: lab_admin_pw
 7      DB_NAME: appdb
 8      POOL_MODE: transaction
 9      MAX_CLIENT_CONN: 100
10      DEFAULT_POOL_SIZE: 5
11    ports:
12      - "64329:5432"

啟動後設定 pooler URL：

1export POOL_URL="postgres://lab_admin:lab_admin_pw@localhost:64329/appdb?sslmode=disable"

Compare Pool Behavior

Compare pool behavior 的核心責任是觀察 client 多、server 少的效果。

1for i in $(seq 1 20); do
2  psql "$POOL_URL" -c "SELECT pg_sleep(1);" &
3done
4psql "$DATABASE_URL" -c "SELECT state, count(*) FROM pg_stat_activity WHERE datname = current_database() GROUP BY state;"

再進 PgBouncer admin console，實際命令依 image 設定調整：

1psql "postgres://lab_admin:lab_admin_pw@localhost:64329/pgbouncer?sslmode=disable" -c "SHOW POOLS;"

驗收重點是：client workload 增加時，PostgreSQL backend 數量被 pool size 控制，排隊發生在 pooler 層。

Pool Exhaustion

Pool exhaustion 的核心責任是看過載時的錯誤與等待。

1for i in $(seq 1 50); do
2  psql "$POOL_URL" -c "BEGIN; SELECT pg_sleep(5); COMMIT;" &
3done

觀察：

1psql "$DATABASE_URL" -c "SELECT count(*) FROM pg_stat_activity WHERE datname = current_database();"
2psql "postgres://lab_admin:lab_admin_pw@localhost:64329/pgbouncer?sslmode=disable" -c "SHOW POOLS;"

Pool exhaustion 的 evidence 包含 waiting clients、timeout、application latency 與 error message。這些要接到 production alert。

Failure Note

Failure note 的核心責任是把 lab 結果轉成 runbook。記錄三件事：

Direct connection baseline backend 數。
PgBouncer transaction pooling 下 server connection 數。
Pool exhaustion 時的 latency / error / queue。

若 application 使用 session state、prepared statement、temp table 或 advisory lock，還要補 transaction pooling compatibility matrix。

下一步路由

完成本篇後，回到 Connection Pooler Comparison 做選型；要看 PgBouncer production 設定讀 PgBouncer Config。

PostgreSQL HA Failover Drill

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL HA failover drill 的核心責任是讓讀者觀察 primary promotion 對 application、pooler 與 incident decision 的影響。這篇承接 Patroni HA 與 Cross-region DR。

本文的驗收標準是：你能記錄 failover timeline、replication lag snapshot、client error sample、data validation query 與 incident decision log entry。實際觸發方式依 Patroni、managed PostgreSQL 或雲平台而異；lab 重點是 evidence。

Pre-Failover Baseline

Pre-failover baseline 的核心責任是確認 primary / standby 狀態與 client route。

1SELECT pg_is_in_recovery();
2SELECT now(), pg_current_wal_lsn();
3SELECT application_name, state, sync_state, replay_lag
4FROM pg_stat_replication;

在 standby 查：

1SELECT pg_is_in_recovery();
2SELECT now(), pg_last_wal_receive_lsn(), pg_last_wal_replay_lsn();

Baseline 要保存 primary host、standby host、replication lag、application connection string、pooler route 與 current timeline。

Client Workload

Client workload 的核心責任是讓 failover 對 application 的影響可見。

1while true; do
2  date -u
3  psql "$DATABASE_URL" -c "INSERT INTO restore_markers(marker) VALUES ('failover-drill') RETURNING id, created_at;"
4  sleep 1
5done

這個 loop 會在 failover 期間產生成功、timeout、connection reset 或 read-only error。正式演練要用 synthetic workload，避免影響真實使用者。

Trigger Failover

Trigger failover 的核心責任是以受控方式促成 promotion。Patroni lab 可以用 patronictl failover；managed service 則用 provider failover / reboot with failover 功能。

1failover_start_time:
2trigger_method:
3old_primary:
4candidate:
5operator:
6reason:

Failover 觸發前要先確認這是演練，並且 workload、backup、rollback 與 stakeholder 都已對齊。

Observe Promotion

Observe promotion 的核心責任是記錄資料庫與 client 的時間線。

時間點	Evidence
Trigger issued	command / provider event
Old primary down	connection error / health check
New primary promoted	`pg_is_in_recovery() = false`
Client reconnect	first successful write
Pooler stable	pool queue / server connection
Validation complete	row count / marker sequence

Promotion timeline 要保留秒級時間戳。這是評估 RTO、client retry 與 pooler behavior 的基礎。

Data Validation

Data validation 的核心責任是確認 failover 後資料一致性。

1SELECT count(*) FROM restore_markers WHERE marker = 'failover-drill';
2SELECT max(created_at) FROM restore_markers;
3SELECT status, count(*) FROM accounts GROUP BY status;

若 workload 有 idempotency key，還要檢查 duplicate。若外部 side effect 參與交易，例如 payment 或 queue，必須有 reconciliation query。

Pooler and Client Behavior

Pooler and client behavior 的核心責任是確認 failover 後連線能重新指向新 primary。

檢查項目：

Application retry 是否有 backoff / jitter。
PgBouncer / proxy 是否清掉舊 server connection。
DNS / endpoint TTL 是否符合 RTO。
Read-only error 是否被正確分類。
Migration / background job 是否暫停。

Failover 的完成標準包含 database promote、client reconnect 與 pooler stable。若 client 長時間連到舊 primary 或 pooler 卡住，服務仍處於 unavailable 狀態。

Incident Decision Log

Incident decision log 的核心責任是把演練變成可審查紀錄。

1Incident / drill id:
2Decision: promote standby
3Reason:
4Accepted data loss:
5RTO observed:
6Client impact:
7Validation result:
8Follow-up:

每次 drill 都要產生 follow-up。常見 follow-up 是調整 retry、降低 DNS TTL、補 pooler command、增加 validation query 或改善 monitoring。

下一步路由

完成本篇後，HA 架構讀 Patroni HA；跨區災難復原讀 Cross-region DR；connection retry 與 pooler 行為讀 Connection Pool Lab。

PostgreSQL Hands-on 操作路線

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL hands-on 操作路線的核心責任是把 overview 與 deep article 的判讀轉成可演練的操作流程。這一層對齊 LLM hands-on/ 的功能：讀者不只知道 PostgreSQL 的機制，也能在 local lab 或 staging 產出可驗證 artifact。

章節列表

章節	主題	產出 artifact
Local lab quickstart	Docker Compose 啟動 PostgreSQL、建立 schema、跑 sample workload	local DSN、schema migration log、basic metric snapshot
Connection pool lab	application pool → pgBouncer → PostgreSQL 的連線壓力演練	pool config、connection count evidence、failure note
PITR restore drill	base backup + WAL archive + restore target time 的恢復演練	restore record、RPO / RTO evidence、validation query
Schema migration evidence lab	expand / contract migration、validation query、rollback condition	migration plan、row count、rollback note
HA failover drill	Patroni / managed failover 的 application impact 演練	failover timeline、client error sample、decision log

設計原則

PostgreSQL hands-on 章節只收錄能產出 evidence 的操作。純安裝指令留給官方文件；本路線要教讀者如何知道設定生效、失敗時看到什麼、以及 evidence 要交給 04 / 06 / 08 的哪個 artifact。

引用路徑

上游：PostgreSQL overview
Deep article：pgBouncer Config、PITR + WAL Archiving、Patroni HA
跨模組：Observability Evidence Package、Migration Safety、Incident Decision Log

PostgreSQL Local Lab Quickstart

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL local lab quickstart 的核心責任是建立後續 connection、migration、backup 與 failover 演練共用的本地環境。這個 lab 提供一個可重建的 PostgreSQL instance、app-facing user、baseline schema、seed data 與 basic evidence。

本文的驗收標準是：你能啟動本地 PostgreSQL，套用 schema，跑 sample workload，取得 pg_stat_activity / pg_stat_database snapshot，最後 teardown 並重建。

Docker Compose

Docker Compose 的核心責任是讓 lab 環境可重建。建立 docker-compose.yml：

 1services:
 2  postgres:
 3    image: postgres:16
 4    environment:
 5      POSTGRES_USER: lab_admin
 6      POSTGRES_PASSWORD: lab_admin_pw
 7      POSTGRES_DB: appdb
 8    ports:
 9      - "54329:5432"
10    command:
11      - "postgres"
12      - "-c"
13      - "log_min_duration_statement=100"
14      - "-c"
15      - "shared_preload_libraries=pg_stat_statements"

啟動：

1docker compose up -d
2export DATABASE_URL="postgres://lab_admin:lab_admin_pw@localhost:54329/appdb?sslmode=disable"

Baseline Schema

Baseline schema 的核心責任是建立可測 transaction、index、lock 與 migration 的資料模型。

 1psql "$DATABASE_URL" <<'SQL'
 2CREATE EXTENSION IF NOT EXISTS pg_stat_statements;
 3
 4CREATE TABLE accounts (
 5  id bigserial PRIMARY KEY,
 6  tenant_id uuid NOT NULL,
 7  owner_name text NOT NULL,
 8  status text NOT NULL CHECK (status IN ('active', 'closed')),
 9  created_at timestamptz NOT NULL DEFAULT now()
10);
11
12CREATE TABLE ledger_entries (
13  id bigserial PRIMARY KEY,
14  account_id bigint NOT NULL REFERENCES accounts(id),
15  amount_cents bigint NOT NULL CHECK (amount_cents <> 0),
16  idempotency_key text NOT NULL UNIQUE,
17  created_at timestamptz NOT NULL DEFAULT now()
18);
19
20CREATE INDEX idx_ledger_entries_account_created
21ON ledger_entries(account_id, created_at DESC);
22SQL

這組 schema 後續可用於 migration、lock、PITR 與 pool lab。

Seed and Workload

Seed and workload 的核心責任是產生可觀察的資料與查詢。

 1psql "$DATABASE_URL" <<'SQL'
 2INSERT INTO accounts(tenant_id, owner_name, status)
 3VALUES
 4  ('00000000-0000-0000-0000-000000000001', 'Ada', 'active'),
 5  ('00000000-0000-0000-0000-000000000002', 'Lin', 'active');
 6
 7INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key)
 8SELECT 1, 100, 'seed-ada-' || g
 9FROM generate_series(1, 100) AS g;
10
11SELECT a.owner_name, SUM(l.amount_cents) AS balance_cents
12FROM accounts a
13JOIN ledger_entries l ON l.account_id = a.id
14GROUP BY a.owner_name;
15SQL

Sample workload 要保留 SQL 與輸出，作為後續 migration / restore validation 的 baseline。

Basic Evidence

Basic evidence 的核心責任是把 lab 狀態保存成可比較 snapshot。

 1psql "$DATABASE_URL" <<'SQL'
 2SELECT current_database(), current_user, version();
 3SELECT relname, n_live_tup FROM pg_stat_user_tables ORDER BY relname;
 4SELECT datname, numbackends, xact_commit, xact_rollback
 5FROM pg_stat_database
 6WHERE datname = current_database();
 7SELECT pid, state, wait_event_type, query
 8FROM pg_stat_activity
 9WHERE datname = current_database();
10SQL

這些查詢是 PostgreSQL lab 的最小 evidence。正式服務要再加入 slow query、lock wait、replica lag、backup status 與 pooler metrics。

Teardown

Teardown 的核心責任是讓 lab 可重跑。

1docker compose down -v

重建後應能重新套用 schema 與 seed。若 lab 需要跨章節沿用資料，先用 pg_dump 保存 fixture，再 teardown。

下一步路由

完成本篇後，連線壓力進入 Connection Pool Lab；migration evidence 進入 Schema Migration Evidence Lab；backup / PITR 進入 PITR Restore Drill。

PostgreSQL PITR Restore Drill

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL PITR restore drill 的核心責任是證明 backup 可以還原到指定時間點。這篇承接 PITR + WAL Archiving，把備份從存在狀態推進到可恢復證據。

本文的驗收標準是：你能記錄 base backup 時間、target time、restore duration、validation query 與 RPO / RTO note。實際命令會依 pgBackRest、Barman、cloud snapshot 或 managed service 而變；本文提供 vendor-neutral drill frame。

Prepare Recovery Point

Prepare recovery point 的核心責任是建立可辨識 transaction。先寫入一筆 marker，記錄時間。

 1psql "$DATABASE_URL" <<'SQL'
 2CREATE TABLE IF NOT EXISTS restore_markers (
 3  id bigserial PRIMARY KEY,
 4  marker text NOT NULL,
 5  created_at timestamptz NOT NULL DEFAULT clock_timestamp()
 6);
 7
 8INSERT INTO restore_markers(marker) VALUES ('before-bad-change');
 9SELECT id, marker, created_at FROM restore_markers ORDER BY id DESC LIMIT 1;
10SQL

把 created_at 記為 target time。正式 drill 要用 UTC，並記錄 timezone、operator、backup set 與 WAL archive status。

Create Bad Change

Create bad change 的核心責任是模擬需要 PITR 的錯誤。

1psql "$DATABASE_URL" <<'SQL'
2INSERT INTO restore_markers(marker) VALUES ('bad-change-after-target');
3UPDATE accounts SET status = 'closed';
4SELECT status, count(*) FROM accounts GROUP BY status;
5SQL

這一步在 lab 中代表誤操作。Production 事故中，bad change 可能是誤刪、錯誤 batch、壞 migration 或 application bug。

Restore Workflow

Restore workflow 的核心責任是把 backup tool 的操作轉成固定 evidence。不同工具命令不同，但流程一致：

選定 base backup。
設定 recovery target time。
套用 WAL 到 target time。
Promote restored instance。
跑 validation query。
啟動 application smoke test。

Example pseudo-runbook：

1restore_target_time = 2026-05-21T10:15:30Z
2base_backup = latest backup before target
3wal_archive = available through target
4restore_path = isolated environment

Restore 必須在隔離環境先完成。直接覆蓋 production 會讓 evidence 與 rollback 空間消失。

Validation Query

Validation query 的核心責任是確認 restore 到正確時間點。

1psql "$RESTORED_DATABASE_URL" <<'SQL'
2SELECT marker, created_at
3FROM restore_markers
4ORDER BY id;
5
6SELECT status, count(*)
7FROM accounts
8GROUP BY status;
9SQL

預期結果是存在 before-bad-change，且 bad-change-after-target 尚未出現。accounts 狀態應維持 target time 前的分布。

RPO / RTO Evidence

RPO / RTO evidence 的核心責任是把 drill 結果轉成服務語言。

Evidence	記錄內容
Backup timestamp	使用哪份 base backup
Target time	要恢復到哪一秒
WAL availability	target time 前後 WAL 是否完整
Restore duration	從開始 restore 到 validation 成功
Data gap	target time 後需補償的 transaction
Smoke test	application 核心 workflow 是否可用

PITR 的成功標準是資料與 application 都可用。只讓 PostgreSQL 啟動成功，還不足以交付服務。

Drill Retrospective

Drill retrospective 的核心責任是把演練缺口轉成下一步。

常見缺口：

找不到正確 base backup。
WAL archive 缺段。
target time timezone 混亂。
Restore 太慢，超過 RTO。
Application secret / config 指不到 restored DB。
Validation query 缺少 business invariant。

完成本篇後，跨區恢復讀 Cross-region DR；備份策略讀 PITR + WAL Archiving。

PostgreSQL Schema Migration Evidence Lab

Fri, 22 May 2026 00:00:00 +0000

PostgreSQL schema migration evidence lab 的核心責任是把 schema change 轉成 release gate 可使用的 evidence。這篇承接 Online Schema Change 與 Database Migration Playbook。

本文的驗收標準是：你能設計 expand migration、量測 lock、跑 backfill validation、建立 contract migration 的 fail-forward / rollback 判準。

Expand Migration

Expand migration 的核心責任是先加入向後相容 schema。以下範例新增 accounts.email，先允許 null。

1psql "$DATABASE_URL" <<'SQL'
2\timing on
3BEGIN;
4ALTER TABLE accounts ADD COLUMN email text;
5COMMIT;
6SQL

新增 nullable column 通常是低風險操作，但仍要記錄 timing 與 lock。正式服務要在低流量窗口或 staging 上先測。

Lock Evidence

Lock evidence 的核心責任是讓 migration 的阻塞風險可見。開另一個 terminal，在 migration 前後查 lock。

1psql "$DATABASE_URL" <<'SQL'
2SELECT locktype, relation::regclass, mode, granted, pid
3FROM pg_locks
4WHERE relation IN ('accounts'::regclass, 'ledger_entries'::regclass)
5ORDER BY granted, mode;
6SQL

Release gate 要保存 lock mode、duration、blocked session 與 application impact。高風險 DDL 要先改成 expand / backfill / contract。

Backfill and Validation

Backfill and validation 的核心責任是把資料補齊並證明結果符合 domain。

1psql "$DATABASE_URL" <<'SQL'
2UPDATE accounts
3SET email = lower(owner_name) || '@example.test'
4WHERE email IS NULL;
5
6SELECT count(*) AS missing_email
7FROM accounts
8WHERE email IS NULL;
9SQL

大型表要分 batch backfill，避免 WAL、replica lag、autovacuum 與 lock 壓力。每個 batch 要記錄 row count、duration、error 與 lag。

Add Constraint Safely

Add constraint safely 的核心責任是把資料驗證和 constraint 生效拆開。

1psql "$DATABASE_URL" <<'SQL'
2ALTER TABLE accounts
3ADD CONSTRAINT accounts_email_present
4CHECK (email IS NOT NULL) NOT VALID;
5
6ALTER TABLE accounts
7VALIDATE CONSTRAINT accounts_email_present;
8SQL

NOT VALID 讓 constraint 先約束新資料，再用 validation 掃既有資料。這是 PostgreSQL online migration 常用技巧。

Query Plan Evidence

Query plan evidence 的核心責任是確認 migration 後 query 仍走正確路徑。

1psql "$DATABASE_URL" <<'SQL'
2EXPLAIN (ANALYZE, BUFFERS)
3SELECT *
4FROM accounts
5WHERE email = 'ada@example.test';
6SQL

若 email 查詢成為正式 path，要新增 index，並用 CREATE INDEX CONCURRENTLY 評估 lock 與時間。

Contract Migration

Contract migration 的核心責任是在 application 都改用新欄位後，收斂舊欄位或舊 constraint。Contract migration 要比 expand 更謹慎，因為 rollback 空間更小。

Contract release gate：

所有 app version 已停止讀舊欄位 / 舊行為。
Backfill validation 為零缺口。
Query plan 與 index evidence 已保存。
Rollback path 是 fail-forward 或 restore，兩者擇一寫清楚。
PITR / backup window 符合風險。

Release Gate Note

Release gate note 的核心責任是形成可交付 artifact。

1Migration: add accounts.email
2Expand DDL duration:
3Backfill rows:
4Validation query:
5Lock evidence:
6Query plan:
7Rollback / fail-forward:
8Owner:

完成本篇後，複雜 migration 回到 Online Schema Change；需要跨 DB 遷移則讀 Database Migration Playbook。

SQLite Backup Restore Drill

Thu, 21 May 2026 00:00:00 +0000

SQLite backup restore drill 的核心責任是證明單檔 database 可以被一致備份並還原。這篇承接 File lifecycle / backup boundary，把備份從概念轉成 artifact、validation query 與 RPO / RTO note。

本文的驗收標準是：你能從 live app.db 建立 backup，將它還原到隔離路徑，通過 integrity_check 與核心查詢，並記錄 restore duration。

Prepare Source

Prepare source 的核心責任是建立一個有 WAL 與資料變化的 live database。若你已跑過 local file quickstart，可以直接沿用 /tmp/sqlite-lab/app.db。

1mkdir -p /tmp/sqlite-lab/backup /tmp/sqlite-lab/restore
2cd /tmp/sqlite-lab
3sqlite3 app.db "PRAGMA journal_mode = WAL;"
4sqlite3 app.db "INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at) VALUES (2, 100, 'backup-drill-1', '2026-05-21T01:00:00Z');"

這一步讓 source database 有新的資料。後續會用 backup snapshot 和 source 後續寫入做對照。

Create Backup

Create backup 的核心責任是用 SQLite-aware 方法建立一致 snapshot。SQLite CLI .backup 會透過 SQLite backup API 產出目標檔案。

1sqlite3 app.db ".backup 'backup/app-backup.db'"
2sqlite3 backup/app-backup.db "PRAGMA integrity_check;"

預期 integrity_check 輸出 ok。這是最小 backup evidence。

VACUUM INTO 也可以產出 compact copy，適合想順便整理檔案大小的情境。

1sqlite3 app.db "VACUUM INTO 'backup/app-vacuum-copy.db';"
2sqlite3 backup/app-vacuum-copy.db "PRAGMA integrity_check;"

.backup 與 VACUUM INTO 都要在 runbook 中標明使用條件、耗時、目標路徑與失敗處理。正式環境還要記錄檔案大小、checksum 與 storage retention。

Mutate Source After Backup

Mutate source 的核心責任是確認 backup 是時間點 snapshot。備份後對 source 寫入新資料，再用 restore 驗證 backup 保持原時間點。

1sqlite3 app.db "INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at) VALUES (1, 777, 'after-backup-write', '2026-05-21T01:05:00Z');"
2sqlite3 app.db "SELECT COUNT(*) FROM ledger_entries;"
3sqlite3 backup/app-backup.db "SELECT COUNT(*) FROM ledger_entries;"

Source count 應比 backup count 多一筆。這個差異讓 RPO 討論具體化：backup 只保護到它建立的時間點。

Restore Isolated Copy

Restore isolated copy 的核心責任是避免把演練和 source 混在一起。把 backup 複製到 restore path，所有 validation 都對 restore file 執行。

 1cp backup/app-backup.db restore/app-restored.db
 2sqlite3 restore/app-restored.db "PRAGMA integrity_check;"
 3sqlite3 restore/app-restored.db <<'SQL'
 4.headers on
 5.mode column
 6SELECT account_id, SUM(amount_cents) AS balance_cents
 7FROM ledger_entries
 8GROUP BY account_id
 9ORDER BY account_id;
10SQL

正式 restore drill 還要啟動 application 指向 restore/app-restored.db，跑核心 read/write smoke test。若 application 需要 migration，也要確認 restore file 的 PRAGMA user_version 與 app version 相容。

RPO / RTO Note

RPO / RTO note 的核心責任是把演練結果轉成服務承諾。RPO 是可接受資料遺失窗口，RTO 是可接受恢復時間。

指標	本 lab 記錄方式
RPO	backup 建立時間到事故時間的資料差距
RTO	從取得 backup 到 app smoke test 成功耗時

可以用 shell 的 time 記錄 restore duration。

1time sqlite3 restore/app-restored.db "PRAGMA integrity_check;"

正式服務要把 RPO / RTO 寫進 observability / runbook。

Known Gap

Known gap 的核心責任是讓 lab 結果誠實。這個 drill 驗證 SQLite-aware backup 與 restore path；它尚未覆蓋 object storage credential、remote retention、large database restore time、encrypted disk、user device support flow 與 legal retention。

完成本篇後，下一步可以進入 WAL busy reproduction 觀察 writer boundary，或進入 migration fixture lab 建立 schema change evidence。

SQLite D1 / Turso Preview Lab

Thu, 21 May 2026 00:00:00 +0000

SQLite D1 / Turso preview lab 的核心責任是把 local SQLite 轉向 edge SQLite product 前的 compatibility gap 找出來。這篇承接 D1 / Turso / libSQL Comparison 與 SQLite to D1 / Turso Migration，把 edge migration 變成可回報的 query matrix。

本文的驗收標準是：你能從 local SQLite 匯出 schema / seed，匯入 D1 或 Turso preview database，跑相同 query set，記錄 unsupported SQL、latency、error mapping 與 rollback route。

Preview Scope

Preview scope 的核心責任是把 lab 限制在 staging / preview。D1 與 Turso 都是平台產品，實際命令會依 CLI version、帳號、region 與專案設定改變；本文提供操作骨架與 evidence 格式，正式命令以官方文件為準。

官方文件路由：

產品	官方文件
Cloudflare D1	Cloudflare D1 docs
D1 limits	Cloudflare D1 limits
Turso	Turso docs
Turso embedded replicas	Embedded replicas

Preview lab 要先確認資料不含 production PII。若 seed data 來自正式資料，先做 masking 或 synthetic data。

Export Local SQLite

Export local SQLite 的核心責任是建立 target platform 的 seed input。沿用 /tmp/sqlite-lab/app.db 或 migration fixture。

1mkdir -p /tmp/sqlite-edge-lab
2cd /tmp/sqlite-edge-lab
3cp /tmp/sqlite-lab/app.db ./app.db
4sqlite3 app.db ".schema" > schema.sql
5sqlite3 app.db ".dump" > seed.sql
6sqlite3 app.db "SELECT COUNT(*) FROM accounts;"
7sqlite3 app.db "SELECT COUNT(*) FROM ledger_entries;"

schema.sql 用來審查 DDL，seed.sql 用來匯入 preview database。正式 migration 可能要拆 schema / data / index，並處理 target platform limits。

Build Query Matrix

Build query matrix 的核心責任是定義 preview 要驗證什麼。query set 要代表產品行為，而非只跑一個 SELECT 1。

1Q1 list account balances
2Q2 insert ledger entry with unique idempotency key
3Q3 insert duplicate idempotency key and capture error
4Q4 foreign key violation
5Q5 transaction rollback
6Q6 pagination by created_at
7Q7 explain / performance sample if platform supports it

這份 matrix 要保存 expected result。Local SQLite 先跑一次，把 row count、error category、latency baseline 記下來。

1sqlite3 app.db <<'SQL'
2.timer on
3SELECT a.id, a.owner_name, SUM(l.amount_cents) AS balance_cents
4FROM accounts a
5JOIN ledger_entries l ON l.account_id = a.id
6GROUP BY a.id, a.owner_name
7ORDER BY a.id;
8SQL

Import to D1 Preview

Import to D1 preview 的核心責任是驗證 Cloudflare D1 workflow。以下是操作骨架，正式命令與 flags 以 Cloudflare D1 docs 和 Wrangler 版本為準。

1# Example shape only. Use your project naming and official Wrangler docs.
2wrangler d1 create sqlite_edge_preview
3wrangler d1 execute sqlite_edge_preview --file=seed.sql
4wrangler d1 execute sqlite_edge_preview --command="SELECT COUNT(*) FROM accounts;"

D1 preview evidence 要記錄：

Evidence	內容
CLI version	Wrangler version、account / project
Import log	duration、file size、error
Query result	每個 query 的 row count / error
Limit hit	D1 limits 是否影響 seed 或 query
Rollback	刪除 preview DB 或重建 seed

若 seed file 太大或某些 SQL 需要改寫，就把 gap 寫進 compatibility matrix，先保留 production migration 的審查邊界。

Import to Turso Preview

Import to Turso preview 的核心責任是驗證 remote database、client SDK 與 embedded replica 行為。以下是操作骨架，正式命令以 Turso docs 與 CLI version 為準。

1# Example shape only. Use your org, group, region and official Turso docs.
2turso db create sqlite-edge-preview
3turso db shell sqlite-edge-preview < seed.sql
4turso db shell sqlite-edge-preview "SELECT COUNT(*) FROM accounts;"

Turso preview evidence 要多記 replica freshness。若使用 embedded replica，測試流程要包含 bootstrap、sync、read query、write delegation 與 sync 後 read。

1embedded replica evidence:
2  bootstrap duration
3  first read latency
4  write path
5  sync command / interval
6  read freshness after write

Freshness 是 product decision。若 query matrix 只測 remote primary，仍需要追加 embedded replica 的使用者體驗驗證。

Compatibility Matrix

Compatibility matrix 的核心責任是把 local SQLite 與 edge target 的差異留下來。建議表格欄位如下：

Query / operation	Local SQLite	D1 preview	Turso preview	Decision
Balance list	pass	pass / diff	pass / diff	keep / rewrite
Unique violation	error class	error class	error class	map error
FK violation	error class	error class	error class	enable / validate
Transaction rollback	pass	pass / diff	pass / diff	rewrite workflow
Import seed	pass	duration / limit	duration / limit	split batch

Decision 欄要寫具體下一步。rewrite workflow 代表 application adapter 要改；split batch 代表 migration runbook 要改；map error 代表 repository error classification 要改。

Latency and Cost Sample

Latency and cost sample 的核心責任是避免只看功能相容。Edge SQLite migration 的收益常來自 region latency 或 managed operation，因此 preview 要量測主要使用者區域的 read / write latency。

最小量測：

Local baseline latency。
Preview target read latency。
Preview target write latency。
Error rate / retry count。
Estimated request / storage / egress cost。

Latency sample 要搭配 freshness。快速讀到舊資料和稍慢讀到最新資料是不同產品體驗；query matrix 要標註哪個 workflow 可以接受 stale read。

Rollback Route

Rollback route 的核心責任是保留 local SQLite 退路。Preview lab 完成後，要能刪除 preview database、保留 local seed、重跑 local app。

1sqlite3 app.db "PRAGMA integrity_check;"
2sqlite3 app.db "SELECT COUNT(*) FROM accounts;"
3sqlite3 app.db "SELECT COUNT(*) FROM ledger_entries;"

正式 cutover 的 rollback 還要處理 target-only writes。Preview 階段應避免讓真實使用者寫入 target；若需要 shadow traffic，先用 read-only 或 synthetic write。

Completion Note

Completion note 的核心責任是決定是否進入正式 migration。Lab 完成後應輸出四個 artifact：seed.sql、import log、compatibility matrix、rollback note。

進入正式 migration 的條件：

Query matrix 主要 workflow 通過或已有 rewrite plan。
Platform limits 對資料量與 migration time 可接受。
Error mapping 已接到 repository adapter。
Freshness / latency 符合產品需求。
Export / rollback route 已演練。

完成本篇後，回到 SQLite to D1 / Turso Migration 補正式 phase plan。

SQLite Hands-on 操作路線

Thu, 21 May 2026 00:00:00 +0000

SQLite hands-on 操作路線的核心責任是把單檔正式狀態轉成可演練流程。這一層對齊 LLM hands-on/：讀者能建立一個 SQLite 檔案、製造 WAL / lock 訊號、跑 backup / restore、套 migration，並知道何時該升級到 server SQL 或 edge SQLite。

章節列表

章節	主題	產出 artifact
Local file quickstart	建立 `.db`、schema、seed data、basic query	database file、schema version、query sample
Backup restore drill	`.backup` / `VACUUM INTO` / restore validation	backup file、restore record、validation query
WAL busy reproduction	long transaction、`SQLITE_BUSY`、checkpoint growth	busy error sample、WAL size evidence
Migration fixture lab	`user_version`、table rebuild、fixture snapshot	migration log、fixture DB、rollback note
D1 / Turso preview lab	local SQLite 到 edge SQLite product 的 compatibility preview	export / import note、compatibility gap

設計原則

SQLite hands-on 章節要以檔案生命週期為中心。操作指令只在能產出 evidence 時出現；每篇都要回答 database file 在哪裡、sidecar file 如何處理、restore 如何驗證，以及 application release 如何知道它仍相容。

引用路徑

上游：SQLite overview
Structure：SQLite Teaching Structure
Deep article：File lifecycle / backup boundary

SQLite Local File Quickstart

Thu, 21 May 2026 00:00:00 +0000

SQLite local file quickstart 的核心責任是建立後續 backup、WAL、migration 與 fixture lab 共用的 database file。這個 lab 把 SQLite 從抽象服務選型轉成可觀察的檔案、schema、PRAGMA、transaction 與 sidecar artifact。

本文的驗收標準是：你能建立一個可重建的 app.db，知道它的 schema version、journal mode、foreign key 設定、seed data 與 cleanup 路徑。

Lab Directory

Lab directory 的核心責任是把 SQLite artifact 放在隔離資料夾，避免和正式檔案混淆。以下命令建立一個可刪除的本地工作區。

1mkdir -p /tmp/sqlite-lab
2cd /tmp/sqlite-lab
3rm -f app.db app.db-wal app.db-shm

驗收 artifact 是 /tmp/sqlite-lab/app.db。後續 lab 可以沿用這個路徑，也可以每次從頭建立。

Baseline Schema

Baseline schema 的核心責任是建立一組能測 transaction、constraint、index 與 query 的小型資料模型。這裡使用 accounts 與 ledger_entries，因為它們能清楚展示 foreign key 與金額 invariant。

 1sqlite3 app.db <<'SQL'
 2PRAGMA journal_mode = WAL;
 3PRAGMA foreign_keys = ON;
 4PRAGMA user_version = 1;
 5
 6CREATE TABLE accounts (
 7  id INTEGER PRIMARY KEY,
 8  owner_name TEXT NOT NULL,
 9  status TEXT NOT NULL CHECK (status IN ('active', 'closed')),
10  created_at TEXT NOT NULL
11) STRICT;
12
13CREATE TABLE ledger_entries (
14  id INTEGER PRIMARY KEY,
15  account_id INTEGER NOT NULL REFERENCES accounts(id),
16  amount_cents INTEGER NOT NULL CHECK (amount_cents != 0),
17  idempotency_key TEXT NOT NULL UNIQUE,
18  created_at TEXT NOT NULL
19) STRICT;
20
21CREATE INDEX idx_ledger_entries_account_created
22ON ledger_entries(account_id, created_at);
23SQL

這段 schema 的重點是明確資料合約。STRICT、CHECK、FOREIGN KEY 與 UNIQUE 讓 fixture 更接近正式資料責任，也讓後續 migration lab 有可驗證的 invariant。

Seed Data

Seed data 的核心責任是建立可重跑的測試資料。每筆 ledger entry 都有 idempotency key，讓後續 edge / retry 設計可以沿用。

 1sqlite3 app.db <<'SQL'
 2PRAGMA foreign_keys = ON;
 3
 4BEGIN;
 5INSERT INTO accounts(id, owner_name, status, created_at)
 6VALUES
 7  (1, 'Ada', 'active', '2026-05-21T00:00:00Z'),
 8  (2, 'Lin', 'active', '2026-05-21T00:05:00Z');
 9
10INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at)
11VALUES
12  (1, 1200, 'seed-ada-credit-1', '2026-05-21T00:10:00Z'),
13  (1, -200, 'seed-ada-debit-1', '2026-05-21T00:12:00Z'),
14  (2, 900, 'seed-lin-credit-1', '2026-05-21T00:15:00Z');
15COMMIT;
16SQL

Seed 完成後先跑基本查詢。這一步確認 schema、constraint 與 index 入口都可用。

1sqlite3 app.db <<'SQL'
2.headers on
3.mode column
4SELECT a.id, a.owner_name, SUM(l.amount_cents) AS balance_cents
5FROM accounts a
6JOIN ledger_entries l ON l.account_id = a.id
7GROUP BY a.id, a.owner_name
8ORDER BY a.id;
9SQL

預期輸出應顯示 Ada 餘額 1000，Lin 餘額 900。

PRAGMA Snapshot

PRAGMA snapshot 的核心責任是把連線設定變成 evidence。SQLite 的部分設定與 connection 有關，因此 lab 要明確查出當前狀態。

1sqlite3 app.db <<'SQL'
2.headers on
3.mode column
4PRAGMA journal_mode;
5PRAGMA foreign_keys;
6PRAGMA user_version;
7PRAGMA integrity_check;
8SQL

驗收重點如下：

欄位	期望結果	意義
`journal_mode`	`wal`	後續可觀察 `-wal` sidecar
`foreign_keys`	`1`	constraint 在連線上已啟用
`user_version`	`1`	migration 起點清楚
integrity	`ok`	database file 基本健康

Transaction Sample

Transaction sample 的核心責任是建立後續 busy / migration lab 的共同語言。SQLite transaction 成功時要同時更新資料與保護 invariant。

1sqlite3 app.db <<'SQL'
2PRAGMA foreign_keys = ON;
3BEGIN IMMEDIATE;
4INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at)
5VALUES (1, 300, 'manual-ada-credit-1', '2026-05-21T00:20:00Z');
6COMMIT;
7SQL

BEGIN IMMEDIATE 會提早取得 write lock。這讓後續 WAL busy reproduction 可以直接展示 single writer boundary。

File Artifact Check

File artifact check 的核心責任是讓讀者看到 SQLite 由 .db 與可能存在的 sidecar 共同構成。WAL mode 可能建立 -wal 與 -shm sidecar，backup / copy / restore runbook 要理解這些檔案。

1ls -lh app.db app.db-wal app.db-shm

若 sidecar 暫時未出現，可以再寫入一筆資料或保持連線開啟。Sidecar 是否存在取決於 WAL 狀態、checkpoint 與 connection lifecycle。

Cleanup

Cleanup 的核心責任是讓 lab 可以重跑。若要重新開始，刪除 database 與 sidecar。

1rm -f /tmp/sqlite-lab/app.db /tmp/sqlite-lab/app.db-wal /tmp/sqlite-lab/app.db-shm

完成本篇後，下一步可以進入 backup restore drill 或 WAL busy reproduction。

SQLite Migration Fixture Lab

Thu, 21 May 2026 00:00:00 +0000

SQLite migration fixture lab 的核心責任是把 schema migration 與 test fixture 放進同一個可重建流程。這篇承接 Schema Migration / Versioning 與 Test Fixture Best Practice，讓 migration 有版本、snapshot、validation 與 rollback note。

本文的驗收標準是：你能建立 v1 fixture、套用 v2 migration、產生 v2 snapshot，並用 validation query 證明資料合約仍成立。

Create Fixture

Create fixture 的核心責任是建立乾淨、可重建的 source fixture。沿用 quickstart schema，或重新建立一份 fixture DB。

 1mkdir -p /tmp/sqlite-fixture-lab
 2cd /tmp/sqlite-fixture-lab
 3rm -f fixture-v1.db fixture-v2.db
 4sqlite3 fixture-v1.db <<'SQL'
 5PRAGMA foreign_keys = ON;
 6PRAGMA user_version = 1;
 7
 8CREATE TABLE accounts (
 9  id INTEGER PRIMARY KEY,
10  owner_name TEXT NOT NULL,
11  status TEXT NOT NULL CHECK (status IN ('active', 'closed')),
12  created_at TEXT NOT NULL
13) STRICT;
14
15CREATE TABLE ledger_entries (
16  id INTEGER PRIMARY KEY,
17  account_id INTEGER NOT NULL REFERENCES accounts(id),
18  amount_cents INTEGER NOT NULL CHECK (amount_cents != 0),
19  idempotency_key TEXT NOT NULL UNIQUE,
20  created_at TEXT NOT NULL
21) STRICT;
22
23INSERT INTO accounts VALUES (1, 'Ada', 'active', '2026-05-21T00:00:00Z');
24INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at)
25VALUES (1, 1000, 'fixture-v1-ada', '2026-05-21T00:10:00Z');
26SQL

這個 fixture 是 v1 source of truth。CI 可以每次從 SQL 重建，也可以保存 fixture-v1.db 作為 binary fixture；兩者都要有版本與 checksum。

Pre-Migration Snapshot

Pre-migration snapshot 的核心責任是建立 rollback 起點。正式 migration 前應先保存 source DB。

1sqlite3 fixture-v1.db ".backup 'fixture-v1-before-migration.db'"
2sqlite3 fixture-v1-before-migration.db "PRAGMA integrity_check;"

這份 snapshot 代表 migration 失敗時的回退點。CI log 要保留 snapshot path、schema version 與 migration id。

Apply Add Column Migration

Apply add column migration 的核心責任是展示低風險 schema change。先複製 v1，再套用 v2。

1cp fixture-v1.db fixture-v2.db
2sqlite3 fixture-v2.db <<'SQL'
3PRAGMA foreign_keys = ON;
4BEGIN;
5ALTER TABLE accounts ADD COLUMN email TEXT;
6PRAGMA user_version = 2;
7COMMIT;
8SQL

驗證 schema version 與新欄位：

1sqlite3 fixture-v2.db <<'SQL'
2PRAGMA user_version;
3PRAGMA table_info(accounts);
4SQL

Add column 是較簡單的 migration。涉及 drop column、rename、constraint 重建或資料 reshape 時，應改用 table rebuild 策略。

Table Rebuild Example

Table rebuild 的核心責任是展示 SQLite schema migration 的高風險路徑。以下範例把 accounts.status 的 allowed value 加入 suspended，透過新表重建 constraint。

 1sqlite3 fixture-v2.db <<'SQL'
 2PRAGMA foreign_keys = OFF;
 3BEGIN;
 4
 5CREATE TABLE accounts_new (
 6  id INTEGER PRIMARY KEY,
 7  owner_name TEXT NOT NULL,
 8  status TEXT NOT NULL CHECK (status IN ('active', 'closed', 'suspended')),
 9  created_at TEXT NOT NULL,
10  email TEXT
11) STRICT;
12
13INSERT INTO accounts_new(id, owner_name, status, created_at, email)
14SELECT id, owner_name, status, created_at, email
15FROM accounts;
16
17DROP TABLE accounts;
18ALTER TABLE accounts_new RENAME TO accounts;
19
20PRAGMA user_version = 3;
21COMMIT;
22PRAGMA foreign_keys = ON;
23SQL

Table rebuild 要保存 index、trigger、view 與 FK reference。這個 lab 只有小型 schema；正式 migration 要先列出所有 dependent object。

Validation Query

Validation query 的核心責任是證明 migration 後資料仍符合 domain invariant。

1sqlite3 fixture-v2.db <<'SQL'
2PRAGMA integrity_check;
3PRAGMA foreign_key_check;
4SELECT COUNT(*) AS account_count FROM accounts;
5SELECT COUNT(*) AS ledger_count FROM ledger_entries;
6SELECT SUM(amount_cents) AS total_balance FROM ledger_entries;
7PRAGMA user_version;
8SQL

驗收結果應包含 integrity ok、foreign key check 空結果、account count 1、ledger count 1、total balance 1000、user version 3。

Contract Test Hook

Contract test hook 的核心責任是讓 fixture 進入 CI。語言與 framework 可以不同，但測試要固定做三件事：開啟 FK、確認 schema version、跑 repository contract。

1test setup:
2  copy fixture-v2.db to temp path
3  open SQLite connection
4  execute PRAGMA foreign_keys = ON
5  assert PRAGMA user_version = 3
6  run repository contract tests

每個 test 使用 temp copy 可以避免資料污染。需要測 concurrency 時，改用 WAL busy reproduction。

Rollback Note

Rollback note 的核心責任是把 migration 失敗時的處理寫清楚。這個 lab 的 rollback 是保留 fixture-v1-before-migration.db，在 migration validation 失敗時停止 release 並保存 failed DB。

正式 runbook 要記錄：

Migration id 與 source / target user_version。
Pre-migration backup path。
Validation query 與結果。
Failed DB 保存路徑。
Release block / rollback 條件。

完成本篇後，下一步可以讀 SQLite to PostgreSQL migration 或 SQLite to D1 / Turso migration。

SQLite WAL Busy Reproduction

Thu, 21 May 2026 00:00:00 +0000

SQLite WAL busy reproduction 的核心責任是讓讀者親眼看到 single writer boundary。這篇承接 WAL concurrency / locking，把 SQLITE_BUSY 從文字警告轉成可重現 timeline。

本文的驗收標準是：你能用兩個 sqlite3 session 重現 writer contention，觀察 busy timeout 行為，並用 WAL size 與 checkpoint result 連回 production runbook。

Prepare Database

Prepare database 的核心責任是建立可重現的 WAL mode database。若已跑過 local file quickstart，可以沿用 /tmp/sqlite-lab/app.db。

1cd /tmp/sqlite-lab
2sqlite3 app.db "PRAGMA journal_mode = WAL;"
3sqlite3 app.db "PRAGMA busy_timeout = 1000;"

確認 WAL mode：

1sqlite3 app.db "PRAGMA journal_mode;"

預期輸出是 wal。

Session A: Hold Writer Lock

Session A 的核心責任是刻意持有 write transaction。開第一個 terminal，執行：

1sqlite3 app.db

在 sqlite prompt 內輸入：

1PRAGMA foreign_keys = ON;
2BEGIN IMMEDIATE;
3INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at)
4VALUES (1, 11, 'busy-session-a', '2026-05-21T02:00:00Z');

先保持 transaction 開啟，暫時延後 COMMIT。BEGIN IMMEDIATE 會取得 writer lock，讓第二個 writer 需要等待或失敗。

Session B: Observe Busy

Session B 的核心責任是用第二個 connection 觀察 single writer boundary。開第二個 terminal，執行：

1cd /tmp/sqlite-lab
2sqlite3 app.db "PRAGMA busy_timeout = 1000; INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at) VALUES (1, 22, 'busy-session-b', '2026-05-21T02:01:00Z');"

預期結果是等待約 1 秒後出現 busy / locked 類錯誤。不同 sqlite3 版本的錯誤文字可能略有差異，核心訊號是第二個 writer 在 Session A commit 前拿不到 write lock。

Release Lock

Release lock 的核心責任是確認 contention 來自 writer transaction。回到 Session A，輸入：

1COMMIT;
2.quit

再次執行 Session B 的 insert，這次應成功。

1sqlite3 app.db "PRAGMA foreign_keys = ON; INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at) VALUES (1, 22, 'busy-session-b', '2026-05-21T02:01:00Z');"

若 idempotency key 已在前一次嘗試中寫入，改成新的 key。這個細節也提醒 production write 要有 idempotency 設計。

Busy Timeout Comparison

Busy timeout comparison 的核心責任是區分「等一下」和「解決 writer contention」。Timeout 可以讓短暫鎖等待更平滑，但長交易仍會造成延遲或失敗。

重開 Session A 並持有 transaction：

1BEGIN IMMEDIATE;
2INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at)
3VALUES (1, 33, 'busy-session-a-long', '2026-05-21T02:10:00Z');

在 Session B 測不同 timeout：

1time sqlite3 app.db "PRAGMA busy_timeout = 5000; INSERT INTO ledger_entries(account_id, amount_cents, idempotency_key, created_at) VALUES (1, 44, 'busy-session-b-long', '2026-05-21T02:11:00Z');"

若 Session A 在 5 秒內 commit，Session B 可能成功；若持續持有 transaction，Session B 會在 timeout 後失敗。這就是 production 裡 busy timeout 的邊界：它緩衝短鎖，長 transaction 仍要被設計移除。

WAL and Checkpoint

WAL and checkpoint 的核心責任是把 writer activity 和 file artifact 連起來。多做幾次寫入後觀察 sidecar。

1ls -lh app.db app.db-wal app.db-shm
2sqlite3 app.db "PRAGMA wal_checkpoint(PASSIVE);"

wal_checkpoint 會回傳 checkpoint 狀態。正式 runbook 要記錄 WAL size、checkpoint duration、reader age 與 checkpoint failure。

可以手動觸發 truncate checkpoint：

1sqlite3 app.db "PRAGMA wal_checkpoint(TRUNCATE);"
2ls -lh app.db app.db-wal app.db-shm

TRUNCATE 適合 lab 觀察。Production 使用時要評估 reader、latency 與維護窗口。

Mitigation Note

Mitigation note 的核心責任是把 lab 結果轉成設計策略。看到 SQLITE_BUSY 後，優先檢查 long transaction、未關閉 cursor、背景 job、write burst、parallel test 共用 DB 與 checkpoint pressure。

常見策略包含：

縮短 transaction，將外部 API call 移到 transaction 外。
設定合理 busy timeout 與 retry backoff。
把 write queue 序列化，讓高風險 workflow 先排隊。
將 heavy read 移到 snapshot 或 replica。
當 concurrent writer 成為常態，評估 PostgreSQL / MySQL。

完成本篇後，下一步讀 observability / runbook 把 busy、WAL 與 checkpoint 變成正式監控訊號。

Hands-on Quickstart：clone repo 後跑通所有 demo

Tue, 12 May 2026 00:00:00 +0000

本篇是 hands-on 系列的導讀——把分散在 ollama-setup / rag-demo / mcp-demo / permission-boundary 各章節的 setup 步驟整合成一條最短路徑、讓 clone repo 的人能在 15 分鐘內跑通所有 demo（RAG、MCP、權限邊界三個 demo、RAG 是「retrieval 找相關內容 + LLM 回答」、MCP 是「LLM application ↔ tool server 的標準協議」）。

每篇 hands-on 文章 focus 在「為什麼這樣設計」、本篇 focus 在「按順序跑通」。讀完想懂原理再進對應章節讀。

驗證日期：2026-05-12 環境：macOS 14+、Apple Silicon、Ollama 0.23.2、Python 3.11+ 總時間：~15 分鐘（含 model 下載） 磁碟需求：Step 1 ~ 4 約 ~5 GB（Ollama 200 MB + nomic-embed-text 274 MB + gemma3:1b 815 MB + room for index）；Step 5 ComfyUI 可選加 ~10 GB（SDXL base 模型）。 適用平台：本快速路徑只在 Apple Silicon Mac 驗證過；Intel Mac / Linux 上 Ollama 仍可裝、但 GPU 加速跟 model tag 行為可能不同、實際以官方 release notes 為準。

適合誰讀

你是	本篇對你
剛 clone 我的 blog repo、想跑 demo 試試看	從本篇開始、按步驟做
想懂某個 demo 的設計取捨	跑通後再進 RAG demo / MCP demo / permission-boundary
想懂 Ollama / ComfyUI 安裝細節	Ollama setup / ComfyUI setup
想看 production 怎麼想資源評估	4.9 Production resource planning

為什麼不是「pre-built、clone 就能跑」

衍生產物（index.pkl、__pycache__/、Ollama model weights、即「跑出來的 cache / index / weight」、跟 source code 區別）刻意不進 git、原因見 4.10 衍生產物管理原理。所以 clone repo 後需要：

裝 Ollama daemon + 拉 model（一次性）
跑 ingest.py 建 RAG index（corpus 變動時重跑）
之後 demo 就能用

本篇是這個流程的 step-by-step。

Step 1：裝 Ollama daemon（`brew install ollama` + `brew services start`）

daemon = 常駐 background process、開機自動啟動、見 launchd service 卡。

1brew install ollama
2brew services start ollama

驗證：

1curl -s http://localhost:11434/api/version
2# {"version":"0.x.x"}

詳細安裝跟 troubleshooting 見 Ollama setup 章節。

Step 2：拉 model（embed + chat 兩種角色）

為什麼要拉兩個 model：RAG 需要 embedding model 把文字壓成向量做語意比對、chat model 負責根據 retrieval 結果生成回答、兩者訓練目標不同、不能互通（見 3.1 embedding 空間）。

1# Embedding model（RAG / MCP 都要、274 MB）
2ollama pull nomic-embed-text
3
4# Chat model（推薦從 1B 開始驗證、之後可換大）
5ollama pull gemma3:1b

驗證：

1ollama list
2# NAME                       SIZE      MODIFIED
3# gemma3:1b                  815 MB    ...
4# nomic-embed-text:latest    274 MB    ...

選 chat model 大小的取捨見 1.4 模型選型優先順序。本 quickstart 用 1B 主要驗證流程跑通；長段 daily use（需要 follow 多段格式指令、複雜推理）建議 4B / 8B 起跳（見 instruction-following-test）、極短句驗證 / 簡單問答 1B 也可。本系列預設用 instruction-tuned model 變體（tag 含 :Xb 不含 -base）、適合對話 / 寫 code。

Step 3：建 RAG index（跑 `ingest.py`）

1cd /path/to/blog
2python3 scripts/rag-demo/ingest.py

預期輸出：

1Found 71 markdown files under content/llm
2  [10/71] 86 chunks in 4.5s
3  ...
4Wrote 463 records to scripts/rag-demo/index.pkl (22.3s)

實際數字看你的 blog content 量。Index file 在 scripts/rag-demo/index.pkl、3-50 MB 不等。

詳細的 chunking 策略、embedding 設計、為什麼 pickle、見 RAG demo 章節。

Step 4：跑 RAG / MCP / permission demo

完成 step 1-3 後、四個 demo 都能跑了：

RAG demo（語意搜尋 + LLM 回答）

1python3 scripts/rag-demo/query.py --show-retrieved "你的問題"

例：

1python3 scripts/rag-demo/query.py --show-retrieved "什麼是 MCP？"

預期看到 retrieved chunks（含相似度跟來源 path）+ LLM 用這些 context 生的答案。

MCP demo（stdio JSON-RPC server）

1python3 scripts/mcp-demo/test_client.py

預期看到 5 個階段的 JSON-RPC 對話：initialize / tools/list / tools/call (search_blog) / tools/call (read_chunk) / error。

Permission boundary demo（LLM-mediated file edit）

 1# 備份要試的檔案
 2cp content/llm/knowledge-cards/token.md /tmp/token-orig.md
 3
 4# Dry-run（預設、不寫檔、印 diff）
 5python3 scripts/permission-demo/edit_with_llm.py \
 6  content/llm/knowledge-cards/token.md \
 7  "加一句說明"
 8
 9# 還原（如果剛剛沒用 dry-run）
10cp /tmp/token-orig.md content/llm/knowledge-cards/token.md

詳細的 --dry-run / --confirm / --auto 三種 mode 取捨見 Permission boundary 章節。

Step 5（可選）：ComfyUI text-to-image demo

需要額外裝 ComfyUI + 拉 SDXL model（~10 GB 磁碟）、流程獨立：

1# 跟 step 1 平行的軌道、見 ComfyUI setup 章節
2cd ~/Projects
3git clone --depth 1 https://github.com/comfyanonymous/ComfyUI.git
4cd ComfyUI
5python3 -m venv venv
6source venv/bin/activate
7pip install -r requirements.txt
8# 下載 SDXL base：~/Projects/ComfyUI/models/checkpoints/
9# 見 ComfyUI setup 章節指令

啟動 + 跑 generation：

1cd ~/Projects/ComfyUI && source venv/bin/activate && nohup python main.py > /tmp/comfyui.log 2>&1 &
2# 等 server ready
3until curl -s -o /dev/null -w "%{http_code}" http://127.0.0.1:8188/ | grep -q 200; do sleep 2; done
4
5# 跑 generation（用 repo 內的 script）
6cd /path/to/blog
7python3 scripts/comfyui-test/generate.py --steps 15

詳細裝法 + workflow JSON 解讀見 ComfyUI setup 章節。

Cleanup（完事釋放資源）

1# 停 Ollama daemon
2brew services stop ollama
3
4# kill ComfyUI（如果有跑）
5pkill -9 -f "ComfyUI/main.py"
6
7# 清 build artifact（可選、可重建）
8rm -f scripts/rag-demo/index.pkl
9find scripts -name __pycache__ -type d -exec rm -rf {} +

詳細的 resource lifecycle 跟 cleanup idiom 見 Resource management 章節。

跑通後該往哪讀

想懂什麼	讀哪
「RAG 為什麼 retrieval 對 / generation 弱」	RAG demo
「MCP wire protocol 細節」	MCP demo
「為什麼 LLM 寫 `rm -rf` 不會真的執行」	Permission boundary
「不同 model 在 instruction following 上的差距」	Instruction following test
「跑 demo 占多少 RAM、怎麼釋放」	Resource management + RAG/MCP 資源 footprint
「production 部署該怎麼想」	4.9 Production resource planning
「什麼該進 git、什麼不該」	4.10 衍生產物管理原理

跑不過時

症狀	對應章節
`ollama: command not found`	Ollama setup § 常見前置設定問題
`curl http://localhost:11434/api/version` 沒回應	同上
`python3 ingest.py` 報 HTTP error	確認 Ollama daemon 跑著、nomic-embed-text 已 pull
RAG retrieval 結果都不相關	4.1 RAG § Retrieval 失敗的根本原因
MCP test_client 卡住	MCP demo § subprocess 跟 bufsize
一切都不對	1.7 排錯方法論

何時這篇會過時

會變的部分：

brew install ollama 流程（macOS 跟 brew 演化）
ollama pull 的具體 model tag（model 會新陳代謝）
Python 版本相容性（3.11 → 3.14 各有 quirk）

不會過時的部分：

4 步驟的順序（裝 daemon → 拉 model → 建 index → 跑 demo）是 RAG / MCP / 任何 LLM 應用的通用 setup pattern
衍生產物（index、cache）不進 git 的設計取捨
Cleanup 步驟跟釋放邏輯

跑指令時報錯先看 step 對應章節的 troubleshooting section、再 Google 或開 issue。

Hands-on：安裝 Ollama + 拉第一個 Gemma 模型

Mon, 11 May 2026 00:00:00 +0000

本篇紀錄在 Apple Silicon Mac 上裝 Ollama 並拉一個小模型驗證的完整流程。指令在 macOS 14 (Sonoma) / Homebrew 提供的環境下驗證。

驗證日期：2026-05-11 Ollama 版本：0.23.2 示範模型：gemma3:1b（約 815 MB、選最小可運行的 Gemma 變體當驗證對象）

前置設定

項目	檢查指令	預期
macOS 版本	`sw_vers -productVersion`	14.x 或更新
Apple Silicon	`uname -m`	`arm64`
Homebrew	`brew --version`	4.x（任何近期版）
磁碟空間	`df -h ~`	至少 3 GB 剩餘給 runtime + 1B 模型
port 11434	`lsof -i :11434`	無輸出（port 沒被佔）

表中 brew --version 這關若還沒過、代表 Homebrew 沒裝。新機從零的安裝順序（Homebrew、PATH、bash）見 macOS 新機基礎建設。

選 1B 模型只是為了驗證流程、能力很弱、實際寫 code 場景請用 14B / 31B 級。模型大小跟記憶體 / 磁碟對應關係見 0.5 Apple Silicon 記憶體預算。

安裝 Ollama

用 Homebrew 安裝、是 macOS 上最直接的路徑：

1brew install ollama

執行時間在 broadband 大約 30 秒到 2 分鐘、視 dependency cache 是否已有（Ollama 依賴 mlx-c 等 Apple Silicon 加速函式庫、首次裝較久）。

裝完看到的 caveat 訊息：

1To start ollama now and restart at login:
2  brew services start ollama
3Or, if you don't want/need a background service you can just run:
4  OLLAMA_FLASH_ATTENTION="1" OLLAMA_KV_CACHE_TYPE="q8_0" /opt/homebrew/opt/ollama/bin/ollama serve

兩種啟動模式：

launchd service（推薦日常用）：開機自動啟動、跑在背景。
前景手動跑：terminal 開著、關掉就停。

驗證 binary 路徑：

1which ollama
2# 應該回 /opt/homebrew/bin/ollama

啟動 Ollama Service

選 launchd service 模式：

1brew services start ollama

預期輸出：

1==> Successfully started `ollama` (label: homebrew.mxcl.ollama)

這個動作做兩件事：

註冊一個 launchd plist（macOS 開機自啟動 / 背景服務的設定檔、見 launchd-service 卡片）到 ~/Library/LaunchAgents/homebrew.mxcl.ollama.plist。
立刻啟動 ollama serve、之後重開機自動啟動。

驗證 server 真的在跑：

1curl -s http://localhost:11434/api/version

預期回：

1{"version":"0.23.2"}

看到這個 JSON 就證明三件事：Ollama daemon 跑了、port 11434 通了、API 結構正確。

拉第一個模型

Ollama 用 ollama pull 從官方 registry 下載模型：

1ollama pull gemma3:1b

Gemma 3 1B 約 815 MB、broadband 約 1-2 分鐘下載。下載過程顯示多階段：

1pulling 7cd4618c1faf: 100% ▕██████████████████▏ 815 MB
2pulling e0a42594d802: 100% ▕██████████████████▏  358 B
3pulling dd084c7d92a3: 100% ▕██████████████████▏  8.4 KB
4pulling 3116c5225075: 100% ▕██████████████████▏   77 B
5pulling 120007c81bf8: 100% ▕██████████████████▏  492 B
6verifying sha256 digest
7writing manifest
8success

幾個 hash blob 分別是：模型權重（最大那個）、tokenizer、template、license metadata 等。Ollama 把這些統一管理、放在 ~/.ollama/models/。

驗證模型已下載：

1ollama list

預期：

1NAME         ID              SIZE      MODIFIED
2gemma3:1b    8648f39daa8f    815 MB    35 seconds ago

驗證 OpenAI 相容 API

OpenAI 相容 API 是下游所有工具（IDE plugin、RAG pipeline、MCP server、Continue.dev 等）依賴的介面 contract、驗證它能正常回應、整個 stack 才走得通：

1curl -s http://localhost:11434/v1/chat/completions \
2  -H "Content-Type: application/json" \
3  -d '{
4    "model": "gemma3:1b",
5    "messages": [{"role":"user","content":"Reply in one short sentence: what is 2+2?"}],
6    "stream": false
7  }'

預期回 JSON、choices[0].message.content 是模型回答（如 "2 + 2 = 4"）。看到合理回答就證明：

Ollama 跟模型權重對接好。
OpenAI 相容 API 格式正常（IDE plugin 可以接）。
推論流程整條通。

常見的失敗回應跟下一步：

{"error":"model 'gemma3:1b' not found, try pulling it first"}：先跑 ollama pull gemma3:1b、確認 ollama list 看到該 tag。
curl: (7) Failed to connect to localhost port 11434: Connection refused：server 沒在跑、回 brew services list 看 status、若是 stopped 跑 brew services start ollama。
{"error":"json: cannot unmarshal ..."}：請求格式錯（例如 messages 寫成 string 不是 array）、檢查 JSON body。
連得上但長時間沒回應：第一次載入大 model 需要 30 ~ 60 秒、看 ~/.ollama/logs/server.log 確認是否還在 loading。

用內建 CLI 互動模式也行：

1ollama run gemma3:1b

進入 REPL、可以打字對話。/bye 離開。

第一次跑 ollama run 會把模型載入記憶體（1B 模型大約 1-2 秒）、之後對話延遲低。如果幾分鐘沒用、模型會被 unload 釋放記憶體、下次 run 又要等載入。控制行為的環境變數是 OLLAMA_KEEP_ALIVE（預設 5 分鐘）。

常見前置設定問題

Port 11434 被佔用

1lsof -i :11434

若已有 process 占用、可能是先前手動跑過 ollama serve 沒關。kill 後再 start service：

1pkill -f "ollama serve"
2brew services restart ollama

`ollama: command not found`（裝完還是找不到）

Homebrew 在 Apple Silicon 預設裝到 /opt/homebrew/bin、shell PATH 應該已含。若沒含：

1echo $PATH | tr ':' '\n' | grep homebrew
2# 若沒看到 /opt/homebrew/bin、要加進 ~/.zshrc：
3echo 'export PATH="/opt/homebrew/bin:$PATH"' >> ~/.zshrc
4source ~/.zshrc

Server 啟動但 curl 失敗

1brew services list | grep ollama

若 status 不是 started、看 log：

1tail -50 /opt/homebrew/var/log/ollama.log

常見原因：port 衝突、權限問題、上次 crash 沒清乾淨。

完整排錯流程見 1.7 排錯方法論。

之後想做的事

接 VS Code：見 1.3 VS Code + Continue.dev 整合。設定 apiBase: http://localhost:11434 就能用。
跑更大模型：32GB+ Mac 推薦 gemma4:31b-coding-mtp-bf16（18 GB）。模型選擇見 1.4 模型選型優先順序。
加 embedding：codebase 索引要 embedding 模型：ollama pull nomic-embed-text（274 MB）、見 4.1 RAG 原理。

升級 / 移除

升級：

1brew upgrade ollama
2brew services restart ollama

完整移除：

1brew services stop ollama
2brew uninstall ollama
3rm -rf ~/.ollama  # 清模型 cache（可選）

何時這篇會過時

brew install ollama 安裝方式跟 OpenAI 相容 API 形狀短期內不會變（生態都依賴）。
gemma3:1b 這個具體 tag 預期會被新模型取代、但「拉一個小模型驗證流程」的方法不變。
launchd service 機制是 macOS 系統 API、不會 deprecate。

讀的時候若 brew install 跑失敗、查 Ollama GitHub release notes；其餘驗證步驟結構通用。

Hands-On on Tarragon

Case Study：customer support agent 從 task decomposition 到 eval

本案例的設計反射

階段 1：觀察人類工作流

階段 2：典範定位

階段 3：工作流設計

階段 4：協議跟自主度決定

階段 5：Trace Instrumentation

階段 6：Eval 設計

Eval 1：Step 1 抽取準不準

Eval 2：Step 2-4 tool call 行為正確

Eval 3：Step 5 解釋品質

Eval 4：Step 6 email 品質

Eval 5：E2E success rate

Eval 6：User 滿意度

Eval 7：Failure mode pattern（持續做）

階段 7：Iteration Loop

五個容易遺漏的設計反射

反射一：先觀察、再開 IDE

反射二：Policy 寫成 code、LLM 只解析意圖

反射三：Trace 是 day-1 設計

反射四：Deterministic 行為用 deterministic check

反射五：保留 frozen baseline

跟其他章節的對應總表

下一步

Hands-on：安裝 ComfyUI + SDXL base

前置設定

Clone ComfyUI

建 venv + 裝 dependencies

下載 SDXL base 模型

啟動 ComfyUI Server

跑第一張圖

用 REST API 直接生成（不開瀏覽器）

ComfyUI 的 REST API 形狀（無 OpenAI 相容層）

常用 Custom Nodes

常見坑

Python 版本太新、torch 沒 wheel

mps: False、跑在 CPU 上

記憶體不夠、推論時 crash

Workflow JSON 載入失敗

Port 8188 被佔

跟 LLM stack 並存

何時這篇會過時

Case Study：Blog 語意搜尋從 pickle 到 production

讀法建議

從 demo 到 production 的重寫動機

選型過程（對應 4.22 演化階梯 + 工程約束）

第一軸：規模判讀

第二軸：工程約束（本專案特有）

第三軸：延遲容忍

實作架構

日常使用

Storage 格式（三檔案分離）

效能優化歷程

初版：9.5 秒

優化版：0.34 秒（28x）

通用可複製流程（抽掉 Go/blog）

四方案同 corpus Benchmark

前置依賴

方法論

結果

三個關鍵發現

讀數據的注意事項

二次選型評估：同結論、理由鏈翻轉

第一次選型的理由（事前）

實測推翻的前提

第二次選型的理由（事後）

維持的理由是「痛點不存在」

這個翻轉的教學意義

觸發換方案的訊號

Embedding model 選型（對應 4.12 constraint 優先序）

CJK 混合 Chunking 觀察

跟其他章節的對應

Hands-on：安裝 whisper.cpp 做語音轉文字

前置設定

安裝 whisper-cpp

下載 Model

跑第一次轉錄

常用選項

跟其他工具串接

`mps: False`、跑在 CPU 上

`--break-system-packages` 警告

1. `slice_markdown`：段落感知的 chunk 切割

2. `embed`：呼叫 Ollama embedding API

Test 3：`--confirm` 模式、step-by-step 審查

Test 4：`--auto` 模式、危險自動化