Hands-on：本地 AI 工具實作筆記 on Tarragon

Hands-on：安裝 ComfyUI + SDXL base

Tue, 12 May 2026 00:00:00 +0000

本篇紀錄裝 ComfyUI 跟 Stable Diffusion XL base 模型、在 Apple Silicon Mac 上跑通最小 text-to-image 流程。ComfyUI 是 2026 年 Apple Silicon 跑 Diffusion 最主流的選擇——節點式工作流（拖拉節點連線、像 visual programming、每個節點負責一段運算）、跨平台、Python 環境、容易客製化。Draw Things（Mac 原生 GUI）更簡單、但 ComfyUI 接 workflow 跟 custom node 的能力強很多。

驗證日期：2026-05-12 ComfyUI：main branch、shallow clone 示範模型：Stable Diffusion XL base 1.0（6.5 GB、stabilityai/stable-diffusion-xl-base-1.0） Python：3.14（venv 隔離、不污染系統）

前置設定

項目	檢查指令	預期
Git	`which git`	`/usr/bin/git` 或 brew 版
Python 3.10+	`python3 --version`	3.10 ~ 3.14 都可、本 demo 用 3.14
磁碟空間	`df -h ~`	至少 15 GB（runtime 3 GB + SDXL 6.5 GB + cache）
統一記憶體	`system_profiler SPHardwareDataType \| grep Memory`	至少 16 GB、推薦 32 GB+

ComfyUI 在 Apple Silicon 跑 Diffusion 用 MPS（Metal Performance Shaders）backend、不需要 NVIDIA CUDA。但跑 SDXL 至少要 12 GB 統一記憶體留給 model + activation、16 GB Mac 跟其他 app 一起會吃緊。

Clone ComfyUI

放在 ~/Projects/ 下、跟其他 dev project 同層：

1cd ~/Projects
2git clone --depth 1 https://github.com/comfyanonymous/ComfyUI.git
3cd ComfyUI

--depth 1 只拉最新 commit、不拉全部歷史、省幾百 MB。要追歷史 / submit PR 才需要 full clone。

ComfyUI 目錄結構（核心部分）：

 1ComfyUI/
 2├── main.py              # 啟動 entry point
 3├── server.py            # HTTP server
 4├── nodes.py             # 內建節點實作
 5├── custom_nodes/        # 第三方 / 客製節點放這
 6├── models/
 7│   ├── checkpoints/     # SD / SDXL 主 model 檔放這
 8│   ├── loras/           # LoRA 微調權重
 9│   ├── vae/             # VAE 模型
10│   ├── controlnet/      # ControlNet 模型
11│   └── ...
12├── output/              # 生成的圖
13├── input/               # 拖進 ComfyUI 的圖片
14└── requirements.txt

建 venv + 裝 dependencies

ComfyUI requirements 含 PyTorch、numpy、PIL、safetensors、einops 等、套件多、版本敏感。用 venv 隔離：

1cd ~/Projects/ComfyUI
2python3 -m venv venv
3source venv/bin/activate
4python --version  # 確認在 venv 內
5pip install --upgrade pip

裝 dependencies：

1pip install -r requirements.txt

實測時間：10-15 分鐘（torch + 各種 dep）、首次跑會編譯部分 C extension。完成後預期看到：

1Successfully installed Mako-... MarkupSafe-... Pillow-... PyOpenGL-... ...
2  torch-... torchvision-... torchaudio-... ...
3  safetensors-... transformers-... ...

驗證 PyTorch + MPS：

1python -c "import torch; print('torch:', torch.__version__, 'mps:', torch.backends.mps.is_available())"
2# torch: 2.x.x mps: True

mps: True 表示 Apple Silicon GPU 加速可用。

下載 SDXL base 模型

SDXL base 約 6.5 GB、是 Stable Diffusion XL 的基礎 model。從 Hugging Face 拉到 ComfyUI 的 models/checkpoints/：

1mkdir -p ~/Projects/ComfyUI/models/checkpoints
2cd ~/Projects/ComfyUI/models/checkpoints
3
4# -L 跟 redirect、--continue-at - 支援中斷後重續、避免 6.5 GB 重下
5curl -L --continue-at - -o sd_xl_base_1.0.safetensors \
6  "https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/resolve/main/sd_xl_base_1.0.safetensors?download=true"

下載時間視網速、10-30 分鐘 broadband 都正常。網路中斷時重跑同一個指令、--continue-at - 會從中斷處續傳、不用重下 6.5 GB。完成後：

1ls -lh sd_xl_base_1.0.safetensors
2# 6.5 GB

可選的進階模型：

Model	大小	用途
SDXL base 1.0	6.5 GB	基礎、本 demo 用
SDXL refiner 1.0	6.1 GB	跟 base 配對、提升細節
SD 1.5	4.0 GB	較小、生態最成熟（很多 LoRA）
Flux.1 schnell	12 GB	2024+ 最強開源 SD 級
Flux.1 dev	24 GB	Flux 完整版、品質最佳

SDXL 6.5 GB 是「能驗證 + 不過大」的甜蜜點。再小可以選 SD 1.5（4 GB）、跑 Flux 要 24 GB 磁碟 + 16 GB+ 統一記憶體。

啟動 ComfyUI Server

1cd ~/Projects/ComfyUI
2source venv/bin/activate
3python main.py

預期輸出：

1[Prompt Server] Starting ComfyUI...
2Total VRAM 32768 MB, total RAM 32768 MB
3pytorch version: 2.x.x
4Set vram state to: SHARED
5Device: mps
6Using sub quadratic attention for cross-attention
7...
8Starting server
9To see the GUI go to: http://127.0.0.1:8188

Apple Silicon 統一記憶體被 PyTorch 報成 VRAM 是預期、不是 bug：mps backend 把整個統一記憶體當成「GPU 可見記憶體」、所以 32GB Mac 顯示 Total VRAM 32768 MB。實際使用上 ComfyUI、其他 app 跟系統共用同一塊。

關鍵驗證：

Device: mps → Apple Silicon GPU 啟用
Starting server + http://127.0.0.1:8188 → server 跑了

開瀏覽器到 http://127.0.0.1:8188、看到節點式 UI 就成功。第一次開啟會載入預設 workflow（一個簡單 text-to-image）。

要對外暴露（讓 LAN 內其他機器連）：

1python main.py --listen 0.0.0.0 --port 8188

跟 0.7 隱私資料流提的一樣、0.0.0.0 等於暴露給整個區網、家用 OK 公共網路要小心。

跑第一張圖

ComfyUI 預設 workflow 是 text-to-image：

CheckpointLoader 節點：選 sd_xl_base_1.0.safetensors。
CLIPTextEncode（Prompt）節點：輸入 prompt、例如 a photograph of a cat sitting on a wooden chair, natural lighting。
CLIPTextEncode（Negative）節點：輸入 negative prompt、例如 blurry, low quality, artifacts。
EmptyLatentImage 節點：設定 1024×1024（SDXL 最佳尺寸）。
KSampler 節點：steps=20、cfg=7、sampler=euler 或 dpmpp_2m。
VAEDecode 節點：把 latent 轉成 RGB image。
SaveImage 節點：存到 output/。

點右側 panel 的 Queue Prompt、開始生成。

實測時間（M4 Pro 32GB、SDXL base、1024×1024、MPS backend）：

Steps	第一張（含 model 載入）	後續同 model	備註
15	約 100-110 秒	約 30-40 秒	本驗證實測 106s（含載入）
20	約 130-150 秒	約 40-60 秒	ComfyUI 預設值
30	約 200 秒	約 80 秒	品質更高、邊際效益小

16GB Mac 跑 SDXL：每張 60-180 秒、可能會降頻。

生成完成後在 output/ 看到 PNG 檔（如 comfyui-test_00001_.png）。

用 REST API 直接生成（不開瀏覽器）

GUI 適合互動探索、自動化要走 REST API。完整 script 在 scripts/comfyui-test/generate.py、實際驗證指令：

1cd ~/Projects/blog
2python3 scripts/comfyui-test/generate.py --steps 15

腳本流程：

 1def build_workflow(prompt_text, neg_text, steps):
 2    return {
 3        "3": {"inputs": {"seed": 42, "steps": steps, "cfg": 7.0, "sampler_name": "euler",
 4                         "scheduler": "normal", "denoise": 1.0,
 5                         "model": ["4", 0], "positive": ["6", 0],
 6                         "negative": ["7", 0], "latent_image": ["5", 0]},
 7              "class_type": "KSampler"},
 8        "4": {"inputs": {"ckpt_name": "sd_xl_base_1.0.safetensors"},
 9              "class_type": "CheckpointLoaderSimple"},
10        "5": {"inputs": {"width": 1024, "height": 1024, "batch_size": 1},
11              "class_type": "EmptyLatentImage"},
12        "6": {"inputs": {"text": prompt_text, "clip": ["4", 1]},
13              "class_type": "CLIPTextEncode"},
14        "7": {"inputs": {"text": neg_text, "clip": ["4", 1]},
15              "class_type": "CLIPTextEncode"},
16        "8": {"inputs": {"samples": ["3", 0], "vae": ["4", 2]},
17              "class_type": "VAEDecode"},
18        "9": {"inputs": {"filename_prefix": "comfyui-test", "images": ["8", 0]},
19              "class_type": "SaveImage"},
20    }

workflow JSON 結構解釋：

每個 key（“3”、“4”、…）是節點 ID。任意整數字串、只要在 workflow 內唯一即可。
class_type：節點類型（KSampler、CheckpointLoaderSimple、CLIPTextEncode 等）、ComfyUI 內建。
inputs：節點參數。標量值（如 1024、"euler"）直接寫；連到別的節點輸出用 [node_id, output_index] 形式。
["4", 0] 表示「節點 4 的第 0 個 output」。CheckpointLoaderSimple 有三個 output：model（0）、clip（1）、vae（2）、所以 ["4", 0] 是 model、["4", 1] 是 clip、["4", 2] 是 vae。

每個節點做什麼：

4 CheckpointLoaderSimple：載 SDXL safetensors、輸出 model / clip / vae 三個東西。是整條 graph 的根。
5 EmptyLatentImage：建一張 1024×1024 的空白 latent tensor（不是 RGB 圖、是 4-channel latent space tensor）。SDXL 的「畫布」。
6 CLIPTextEncode (positive)：把 prompt 文字用 CLIP text encoder 轉成 conditioning vector。
7 CLIPTextEncode (negative)：同上、但是 negative prompt（要 avoid 的特徵）。
3 KSampler：核心 denoising loop。15-30 個 step、把 latent 從噪聲變成跟 conditioning 對齊的 latent。
8 VAEDecode：把 latent 用 VAE 解碼成 RGB 圖（1024×1024×3）。
9 SaveImage：寫 PNG 到 output/ 目錄、檔名 prefix comfyui-test。

為什麼 graph 結構這樣：

為什麼 model / clip / vae 從同一個 checkpoint 拿：SDXL 設計上三個元件互相 train、必須同源。從不同 checkpoint 拿會造成生成品質崩。
為什麼 EmptyLatentImage 不直接接 KSampler、要設 batch_size：保留 batch 維度、未來要 batch generation（一次生 4 張）改 batch_size: 4 就好、其他節點不用改。
為什麼 sampler 用 euler、scheduler 用 normal：最簡單的組合、SDXL base 上品質可預測。其他選項（dpmpp_2m、karras scheduler 等）品質可能更好但效果各模型不同。
為什麼 cfg=7.0：classifier-free guidance scale。SDXL 的標準預設、太低（< 3）模型忽略 prompt、太高（> 12）過 saturated。
為什麼 seed=42：固定 seed 讓結果可重現。每次跑同 prompt 同 seed 同 model 結果完全一樣——是調 prompt / 比較 model 的必要條件。

 1def main():
 2    workflow = build_workflow(args.prompt, args.neg, args.steps)
 3    client_id = str(uuid.uuid4())
 4    resp = http_post_json("/prompt", {"prompt": workflow, "client_id": client_id})
 5    prompt_id = resp["prompt_id"]
 6
 7    while True:
 8        time.sleep(2)
 9        history = http_get_json(f"/history/{prompt_id}")
10        if prompt_id in history:
11            outputs = history[prompt_id].get("outputs", {})
12            break
13
14    img = outputs["9"]["images"][0]
15    qs = urllib.parse.urlencode({"filename": img["filename"], "type": "output"})
16    blob = http_get_bytes(f"/view?{qs}")
17    Path(args.out).write_bytes(blob)

每段做什麼：

client_id = str(uuid.uuid4())：每個 client 識別碼。ComfyUI 用 client_id 把 progress events 路由給正確 WebSocket subscriber。本 demo 用 polling、client_id 隨意產生即可。
POST /prompt：送 workflow + client_id、server 回 prompt_id（這次 job 的 UUID）。Server 把 workflow 丟進 internal queue、立刻 return、不會等 generation。
while True: time.sleep(2); GET /history/{prompt_id}：polling 等 job 完成。完成的 job 才會出現在 /history 裡（執行中 / queued 都不算）。
if prompt_id in history：完成判讀——history 內出現該 prompt_id 表示 generation 結束。
outputs["9"]["images"][0]：節點 9 (SaveImage) 的輸出、含 filename、subfolder、type 等資訊。
/view?filename=...&type=output：拿生成的 PNG bytes。type=output 是 ComfyUI 的內部 dir 標記（區分 output / input / temp）。

為什麼這樣設計：

為什麼 polling 而不是 WebSocket：WebSocket 要 subscribe events、處理 connection lifecycle、邏輯複雜。Polling 兩行解決、對教學 demo 夠用。Production 自動化系統建議用 WebSocket、知道每個 progress event。
為什麼 time.sleep(2)：太短（< 1s）對 server 造成不必要 polling；太長（> 5s）感知延遲明顯。2 秒是 demo 友善平衡。
為什麼用 prompt_id 而不是 client_id 查 history：一個 client 可能送多個 job、prompt_id 唯一識別 job。client_id 主要用 WebSocket 訂閱、不是 history query 主鍵。
為什麼 Path(args.out).write_bytes(blob)：PNG 是 binary、用 write_bytes 直接寫；改用 open(...).write() 的 text mode 會在編碼轉換時破壞檔案內容。

實測：M4 Pro 32GB、prompt 「a photograph of an orange cat sitting on a wooden chair, soft natural lighting, detailed fur」、15 steps、cfg=7、euler+normal sampler、seed=42 → 106 秒生成 1024×1024 PNG、1.65 MB。

ComfyUI 的 REST API 形狀（無 OpenAI 相容層）

ComfyUI 沒提供 OpenAI 相容 API、它的 API 是自己的 REST + WebSocket：

POST /prompt：丟一個 workflow JSON、回傳 job id。
GET /history/{prompt_id}：查看生成結果。
GET /view?filename=X：拿生成的圖。
WebSocket：訂閱 job progress events。

API 形狀跟 Diffusion 任務匹配、跟 LLM 的 /chat/completions 完全不同——這正是 4.1 RAG 章節提到「Diffusion 跟 Transformer 工具鏈互不通用」的具體展現。Ollama / LM Studio 對接 Continue.dev 的 OpenAI 相容路徑、跟 ComfyUI 接 SDXL 是完全平行的兩條路。

常用 Custom Nodes

ComfyUI 的核心功能來自 custom nodes、社群維護。最常用：

Custom Node	功能
ComfyUI-Manager	管理其他 custom node、安裝 / 更新
ComfyUI-Impact-Pack	物件偵測、masking、inpainting
ComfyUI-AnimateDiff	影片動畫生成
ComfyUI-ControlNet-Aux	ControlNet preprocessor
ComfyUI-IPAdapter-plus	圖像 reference embedding

安裝方式（透過 ComfyUI-Manager）：

1cd ~/Projects/ComfyUI/custom_nodes
2git clone https://github.com/ltdrdata/ComfyUI-Manager.git
3# 重啟 ComfyUI、UI 多一個 Manager 按鈕、之後用 Manager 裝其他 node

常見坑

Python 版本太新、torch 沒 wheel

PyTorch 對最新 Python（3.13、3.14）的 wheel 發布有 lag、可能 pip install -r requirements.txt 跑 build from source 慢 + 失敗。退到 Python 3.11 / 3.12：

1brew install python@3.11
2python3.11 -m venv venv
3source venv/bin/activate
4pip install -r requirements.txt

`mps: False`、跑在 CPU 上

確認 PyTorch 是 Apple Silicon 版本（不是 x86_64 emulation）：

1python -c "import platform; print(platform.machine())"
2# arm64 ← 正確；x86_64 ← 走 Rosetta、要重裝

如果是 x86_64、表示 venv 用了 Intel Python。重建 venv：

1deactivate
2rm -rf venv
3arch -arm64 python3 -m venv venv

記憶體不夠、推論時 crash

SDXL 在 16 GB Mac 上吃緊、可能 swap 或 crash。緩解：

1# 降解析度
2python main.py --normalvram   # 預設、~12 GB
3python main.py --lowvram      # 較省、~8 GB、慢
4python main.py --novram       # 極省、~4 GB、極慢、實用上界

或換 SD 1.5（4 GB checkpoint）、記憶體需求 < SDXL 的一半。

Workflow JSON 載入失敗

ComfyUI workflow 是 JSON 描述節點 + 連線。如果是別人分享的 workflow、可能用了你沒裝的 custom node。錯誤訊息會列出缺哪些 node、用 ComfyUI-Manager 補裝。

Port 8188 被佔

1lsof -i :8188
2python main.py --port 8189  # 改 port

跟 LLM stack 並存

ComfyUI 用 port 8188、跟 Ollama (11434) / LM Studio (1234) 完全不撞、可同時跑。實務配置：

服務	Port	用途
Ollama	11434	寫 code、對話
ComfyUI	8188	產圖
LM Studio	1234	探索新 LLM
Open WebUI	3000	ChatGPT 風格瀏覽器介面

各服務獨立、不干擾、可以一台 Mac 跑全部（看記憶體預算）。

何時這篇會過時

ComfyUI 主分支 API 短期內穩定（大量社群依賴）。
SDXL base 1.0 不會消失、但會被新版本（SDXL 1.1、Flux 等）取代——「下載 .safetensors 放 models/checkpoints/」流程不變。
MPS backend 持續優化、效能會提升、但介面不變。
Python 版本相容性會持續演化、pip install -r requirements.txt 偶爾要降版 Python。

讀的時候若 pip install 失敗、看 ComfyUI GitHub issues 跟 PyTorch release notes 對應的 Python 版本。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、跨服務的 lifecycle / 記憶體管理見 Resource management、ComfyUI 跟 Ollama 同台跑的記憶體預算規劃見 0.5 Apple Silicon 記憶體預算。

Hands-on：安裝 whisper.cpp 做語音轉文字

Tue, 12 May 2026 00:00:00 +0000

本篇紀錄在 Apple Silicon Mac 上裝 whisper.cpp 並驗證英文語音轉文字。選 whisper.cpp 而非 openai-whisper（Python 版）的理由：

純 C++ 實作、Metal backend 直接吃 Apple Silicon GPU。
Homebrew bottle、brew install 一行裝完、不需要 Python 環境跟 torch wheel。
Binary 名稱是 whisper-cli、CLI-first、整合到 shell pipeline 容易。

驗證日期：2026-05-12 whisper-cpp 版本：1.8.4 示範模型：ggml-tiny.en.bin（78 MB、英文專用、最小可用）實測：7 秒音訊 484ms 轉錄、用 Metal GPU 加速

前置設定

項目	檢查指令	預期
Homebrew	`brew --version`	4.x
ffmpeg	`which ffmpeg`	`/opt/homebrew/bin/ffmpeg`（沒有：`brew install ffmpeg`）
磁碟空間	`df -h ~`	至少 200 MB（whisper-cli + 1 個 small model）

ffmpeg 是必要的——whisper-cli 接受多種音訊格式、但實際內部會先轉成 16kHz mono WAV、ffmpeg 是這個轉換的依賴。

安裝 whisper-cpp

1brew install whisper-cpp

Homebrew 會裝：

whisper-cli binary 到 /opt/homebrew/bin/
ggml 共用 lib 到 /opt/homebrew/Cellar/ggml/
BLAS / Metal backend 自動配對 Apple Silicon

驗證 binary 可用：

1which whisper-cli
2# /opt/homebrew/bin/whisper-cli
3
4whisper-cli --help 2>&1 | head -5

第一次跑會看到 Metal 初始化訊息：

1ggml_metal_library_init: using embedded metal library
2ggml_metal_library_init: loaded in 6.883 sec

第一次 Metal lib 載入慢（~7 秒）、後續會 cache、變很快。

下載 Model

whisper-cpp 跟 OpenAI 原版分離管理 model file、要自己下載 GGML 格式：

1mkdir -p ~/.whisper-models
2cd ~/.whisper-models
3curl -L -o ggml-tiny.en.bin \
4  "https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.en.bin"

可用 model 比較（大小越大、品質越好、速度越慢）：

Model	大小	適合場景
`ggml-tiny.en.bin`	78 MB	英文、最小驗證、品質可接受
`ggml-base.en.bin`	148 MB	英文、常用入門
`ggml-small.en.bin`	488 MB	英文、daily use 甜蜜點
`ggml-medium.en.bin`	1.5 GB	英文、品質敏感
`ggml-small.bin`	488 MB	多語言（含中文）
`ggml-large-v3.bin`	3.1 GB	多語言、最佳品質、跑得最慢

選 tiny.en 是因為只驗證安裝路徑、實際日常用要 small.en 起跳。

驗證下載：

1ls -lh ~/.whisper-models/
2# 應該看到 78 MB 的 ggml-tiny.en.bin

跑第一次轉錄

需要一段測試音訊。可以用 macOS 內建 say 生成、再用 ffmpeg 轉成 whisper.cpp 需要的格式（16kHz mono WAV）：

1cd /tmp
2say -o sample.aiff -v Samantha "Hello world. This is a test of the whisper transcription system. It should produce accurate text from this short audio clip."
3ffmpeg -loglevel error -y -i sample.aiff -ar 16000 -ac 1 sample.wav

-ar 16000 -ac 1 是 whisper.cpp 的標準輸入規格（16 kHz、單聲道、16-bit PCM）。Whisper 模型訓練時用這個 sample rate、輸入不符會降低準確度。

轉錄：

1whisper-cli -m ~/.whisper-models/ggml-tiny.en.bin -f /tmp/sample.wav

預期輸出（含時間軸）：

1[00:00:00.000 --> 00:00:03.980]   Hello World, this is a test of the whisper transcription system.
2[00:00:03.980 --> 00:00:06.980]   It should produce accurate text from this short audio clip.
3
4whisper_print_timings:     load time =    39.88 ms
5whisper_print_timings:   encode time =   220.01 ms
6whisper_print_timings:    total time =   484.08 ms

關鍵觀察：

484ms 處理 7 秒音訊、約 14x 即時速度。
轉錄結果跟原文一致（除了 world 大寫變 World）。
含時間軸（time stamps）、可以做 subtitle / 字幕對齊。

要拿不含時間軸的純文字：

1whisper-cli -m ~/.whisper-models/ggml-tiny.en.bin -f /tmp/sample.wav -nt
2# -nt 是 --no-timestamps

常用選項

選項	作用
`-l zh`	指定語言（中文）；多語言 model 用、單語 model 用不到
`-otxt`	同時輸出 .txt 檔（純文字、無時間軸）
`-osrt`	同時輸出 .srt 字幕檔
`-ovtt`	同時輸出 .vtt 字幕檔
`-of OUT`	設定輸出檔名 prefix
`-t N`	用 N 個 thread（預設用 CPU 核心數）
`-pp`	print progress（顯示處理進度條、跑長音訊時開）

實務常用組合：

 1# 字幕生成
 2whisper-cli -m ~/.whisper-models/ggml-small.en.bin \
 3  -f input.wav \
 4  -osrt \
 5  -of output_subtitle
 6
 7# 中文轉錄
 8whisper-cli -m ~/.whisper-models/ggml-small.bin \
 9  -f speech.wav \
10  -l zh

跟其他工具串接

Whisper-cli 的 stdout 是純文字、容易串 pipeline：

 1# 轉錄結果直接餵給 LLM 摘要
 2whisper-cli -m ~/.whisper-models/ggml-small.en.bin -f meeting.wav -nt \
 3  | curl -s http://localhost:11434/v1/chat/completions \
 4    -H "Content-Type: application/json" \
 5    -d @- < 6{
 7  "model": "gemma3:1b",
 8  "messages": [
 9    {"role": "system", "content": "Summarize the meeting transcript in 5 bullet points."},
10    {"role": "user", "content": "$(cat)"}
11  ]
12}
13EOF

這個 pipeline 串接到 Ollama 完成「語音 → 文字 → 摘要」流程、整條本地、無雲端 API。

常見坑

「audio file not found / format error」

確認 ffmpeg 已轉成 16kHz mono：

1ffprobe input.wav 2>&1 | grep -E "Stream|Audio"
2# 應該看到：Audio: pcm_s16le, 16000 Hz, mono

不是這個規格就用 ffmpeg 轉：

1ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

Model 載入慢

第一次 Metal lib 初始化要 ~7 秒、是 macOS Metal compiler 在 cache shader。後續快很多。

如果每次都慢、看是否 Metal cache 路徑（~/Library/Caches/...）有權限問題。

中文 / 多語言準確度差

確認 model 不是 .en 後綴：.en model 只訓練英文、餵中文會 hallucinate。中文要用 ggml-small.bin、ggml-medium.bin、ggml-large-v3.bin（沒 .en）。

Output 拼錯字

Whisper tiny / base model 對非母音清晰、噪音多、口音重的音訊準確度差。換 small 或 medium 通常解決。

完整 round-trip 驗證

驗證 Whisper + Piper TTS 完整迴圈：

1# Piper 生成 WAV
2echo "Hello world test." | piper -m ~/.piper-voices/en_US-lessac-low.onnx -f /tmp/out.wav
3
4# Whisper 轉回文字
5whisper-cli -m ~/.whisper-models/ggml-tiny.en.bin -f /tmp/out.wav -nt
6# 應該回：Hello world test.

兩個都跑得起來表示整條 STT / TTS pipeline 工作。沒裝 Piper 的場景：用任何 16kHz 單聲道 WAV 都能驗證（macOS 內建 say -o sample.aiff + ffmpeg 轉檔、或從 Hugging Face 拉個 sample 音訊）、不一定要用 Piper。

跟其他章節的關係：完整 hands-on 系列見 Hands-on 章節索引、本地 LLM 加 speech 在隱私 / 資料流上的位置見 0.7 隱私資料流原理、排錯走三層方法論見 1.7 排錯方法論。

何時這篇會過時

brew install whisper-cpp 安裝方式短期內不會變。
GGML model 路徑（Hugging Face ggerganov/whisper.cpp）穩定、是 maintainer 官方 repo。
模型版本會更新（large-v3 → large-v4 等）、但「下載 GGML、用 whisper-cli 餵 WAV」流程不變。
Metal backend 自動啟用、不需配置——Apple Silicon GPU 演化會持續增進效能但不影響介面。

讀的時候若 brew 跑失敗、查 whisper.cpp GitHub release notes；模型新版本看 Hugging Face ggerganov/whisper.cpp repo 列表。

Hands-on：安裝 Piper TTS 做文字轉語音

Tue, 12 May 2026 00:00:00 +0000

本篇紀錄裝 Piper TTS 並用它合成英文語音、再用 Whisper 轉回文字做 round-trip 驗證。選 Piper 而非雲端 TTS（OpenAI / ElevenLabs）的理由：

完全本地、隱私邊界乾淨。
ONNX runtime、Apple Silicon 跑得動、不依賴 GPU。
模型小（low quality ~17-65 MB、medium ~50 MB、high ~125 MB）、適合 minimal 驗證。
CLI-first、stdin 餵文字、stdout 或檔案輸出 WAV、容易串 pipeline。

驗證日期：2026-05-12 Piper 版本：透過 pip 安裝 示範 voice：en_US-lessac-low.onnx（63 MB、英文女聲、low quality）實測：4 秒文字合成 < 1 秒、品質夠日常用

前置設定

項目	檢查指令	預期
Python	`python3 --version`	3.11+
pip	`pip3 --version`	25+
磁碟空間	`df -h ~`	至少 200 MB（Piper + 一個 voice）

Piper 跟 Whisper 一樣分離 binary 跟 model：先裝 runtime、再下載 voice。

安裝 Piper

piper-tts 沒有 Homebrew formula、用 pip 裝：

1pip3 install piper-tts --break-system-packages

PEP 668 是 macOS / Homebrew Python 的 external-management 機制、保護系統 Python 不被 pip 安裝污染；--break-system-packages 是 bypass flag、跳過該檢查直接裝。比較乾淨的做法是用 venv：

1python3 -m venv ~/.piper-venv
2source ~/.piper-venv/bin/activate
3pip install piper-tts

但裝完 PATH 要指到 venv 的 piper、稍麻煩。本 demo 用 --break-system-packages 簡化。實際生產建議用 venv 或 pipx。

驗證 binary 在 PATH：

1which piper
2# /opt/homebrew/bin/piper（若 pip3 來自 Homebrew Python）
3# 或 ~/Library/Python/3.x/bin/piper（若 pip3 來自系統 Python）
4
5piper --help | head -10

which piper 找不到時、檢查兩個 bin 目錄哪邊有檔案、把該目錄加進 PATH。

下載 Voice Model

Piper 用 ONNX 格式的 voice model、每個 voice 是一對 .onnx（model 權重）+ .onnx.json（metadata、含採樣率、phoneme map）。

從 Hugging Face rhasspy/piper-voices repo 拉：

1mkdir -p ~/.piper-voices
2cd ~/.piper-voices
3
4# 英文女聲、low quality（小、快）
5curl -L -o en_US-lessac-low.onnx \
6  "https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/en/en_US/lessac/low/en_US-lessac-low.onnx"
7curl -L -o en_US-lessac-low.onnx.json \
8  "https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/en/en_US/lessac/low/en_US-lessac-low.onnx.json"

可用 voice quality 等級：

Quality	大小	用途
`low`	17-65 MB	快、品質粗糙、適合 prototype
`medium`	50-100 MB	平衡、日常用
`high`	100-200 MB	品質佳、合成略慢
`x_low`	< 20 MB	極小、品質明顯差、適合受限環境

語言 / 地區覆蓋（部分）：

Locale	Voice 範例
`en_US`	lessac、ryan、amy、libritts
`en_GB`	alan、cori、jenny
`zh_CN`	huayan（北京話）
`ja_JP`（社群）	較少
`de_DE` / `fr_FR` / `es_ES` 等	各有多個

完整清單在 rhasspy/piper-voices 的 VOICES.md。

驗證下載：

1ls -lh ~/.piper-voices/
2# en_US-lessac-low.onnx       63M
3# en_US-lessac-low.onnx.json  4.9K

跑第一次合成

1echo "Hello from Piper TTS, this is a synthesized voice test." \
2  | piper -m ~/.piper-voices/en_US-lessac-low.onnx -f /tmp/piper-out.wav

說明：

文字從 stdin 進、是 Piper 的標準輸入方式。
-m：voice model .onnx path。Piper 自動找同目錄的 .onnx.json。
-f：output WAV path。不指定的話直接寫 stdout（可以 pipe 到 aplay / afplay 即時播放）。

預期輸出：

1ls -lh /tmp/piper-out.wav
2# 128 KB

驗證 WAV 規格：

1file /tmp/piper-out.wav
2# RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 16000 Hz
3
4ffprobe -loglevel error -show_format /tmp/piper-out.wav | grep duration
5# duration=3.984000

16-bit PCM、16 kHz mono——跟 Whisper 期望的輸入規格一致、可以直接 round-trip。

播放確認：

1afplay /tmp/piper-out.wav

常用選項

選項	作用
`-m MODEL`	voice model `.onnx` 路徑（必填）
`-c CONFIG`	metadata json 路徑（預設自動找同名 `.onnx.json`）
`-i FILE`	輸入文字檔（替代 stdin）
`-f OUTPUT`	輸出 WAV 路徑
`-d DIR`	輸出目錄（多句時自動分檔）
`--length-scale FACTOR`	速度調整（< 1 加速、> 1 減速、預設 1.0）
`--volume FACTOR`	音量調整（0.0-1.0）
`-s SPEAKER`	多 speaker model 選 speaker（如 libritts）
`--cuda`	用 CUDA（Apple Silicon 用不到、留 default）

典型應用：

 1# 從文字檔合成
 2piper -m ~/.piper-voices/en_US-lessac-low.onnx \
 3  -i article.txt \
 4  -f narration.wav
 5
 6# 多句子分檔
 7piper -m ~/.piper-voices/en_US-lessac-medium.onnx \
 8  -i script.txt \
 9  -d ~/audio-output/ \
10  --output-dir-naming text
11
12# 慢速朗讀（學習用）
13piper -m ~/.piper-voices/en_US-lessac-low.onnx \
14  --length-scale 1.4 \
15  -f slow.wav <<< "Slowly read this sentence."

Round-Trip 驗證

確認 TTS + STT 整條串得起來：

1# 1. Piper TTS：文字 → WAV
2echo "The quick brown fox jumps over the lazy dog." \
3  | piper -m ~/.piper-voices/en_US-lessac-low.onnx -f /tmp/test.wav
4
5# 2. Whisper STT：WAV → 文字
6whisper-cli -m ~/.whisper-models/ggml-tiny.en.bin -f /tmp/test.wav -nt

預期 Whisper 回應接近原文字（可能大小寫 / 標點稍變）。Round-trip 成功表示：

Piper 輸出格式（16kHz mono WAV）符合 Whisper 輸入需求。
兩個模型對英文的訓練分佈相容。

跟 LLM 串接：「LLM 說話」的 minimal pipeline

 1# 1. LLM 生成回答
 2ANSWER=$(curl -s http://localhost:11434/v1/chat/completions \
 3  -H "Content-Type: application/json" \
 4  -d '{
 5    "model": "gemma3:1b",
 6    "messages": [{"role":"user","content":"Tell me a one-sentence joke."}],
 7    "stream": false
 8  }' | python3 -c "import json,sys; print(json.load(sys.stdin)['choices'][0]['message']['content'])")
 9
10# 2. Piper 把回答念出來
11echo "$ANSWER" | piper -m ~/.piper-voices/en_US-lessac-low.onnx -f /tmp/llm-says.wav
12
13# 3. 播放
14afplay /tmp/llm-says.wav

三行 shell 完成「Local LLM 講笑話」整條 pipeline、無雲端、無 GPU。

常見坑

中文 / 多語言

en_US-lessac-low 是英文 voice、餵中文會發音怪。中文要下載 zh_CN-huayan-*：

1curl -L -o ~/.piper-voices/zh_CN-huayan-medium.onnx \
2  "https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx"
3curl -L -o ~/.piper-voices/zh_CN-huayan-medium.onnx.json \
4  "https://huggingface.co/rhasspy/piper-voices/resolve/v1.0.0/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx.json"
5
6echo "你好，這是 Piper TTS 的中文測試。" \
7  | piper -m ~/.piper-voices/zh_CN-huayan-medium.onnx -f /tmp/zh-out.wav

zh_CN 預設是北京話腔調。

`--break-system-packages` 警告

macOS 系統 Python 3.13+ 預設禁止 pip 直接裝。安全做法用 venv 或 pipx；不想搞 venv 就用 --break-system-packages flag（會跳警告但能裝）。長期建議遷到 venv、避免污染系統 Python。

Voice quality 不夠

low quality 的 voice 適合驗證 / prototype、實際用 medium 或 high。低品質 voice 在長段文字會聽起來機械、自然度差。

Sample rate mismatch

Voice metadata（.onnx.json 內 sample_rate）決定輸出 sample rate、不同 voice 可能不同（多數 22050 或 16000）。Whisper 期望 16000、若 Piper 輸出 22050、可能需要 ffmpeg 降採樣：

1ffmpeg -i piper-out.wav -ar 16000 piper-out-16k.wav

en_US-lessac-low 本來就是 16k、沒這問題。

何時這篇會過時

pip install piper-tts 安裝方式可能演化（轉純 binary release？）、但 ONNX model + CLI invocation 形式應該穩定。
Voice model 格式（ONNX）是 web 通用標準、未來增加 quality / locale、現有 voice 不會被 deprecate。
Hugging Face rhasspy/piper-voices repo 是 maintainer 官方、不會消失。

讀的時候若 pip install 失敗、查 piper GitHub 最新 install 路徑；voice 列表看 piper-voices repo。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、語音 round-trip 對接見 Whisper STT、跨服務 lifecycle 與記憶體管理見 Resource management。

Hands-on：用 blog content 當 corpus 跑 RAG

Tue, 12 May 2026 00:00:00 +0000

本篇把 4.1 RAG 原理的概念落到一個能跑的最小實作：用本 blog 的 content/llm/ 當 corpus、Ollama 的 nomic-embed-text 做 embedding、gemma3:1b 做生成、兩個 Python 檔案完成 ingest + query 整條鏈。實作刻意保持 minimal、為的是把每一段都看清楚、跟原理對應。

驗證日期：2026-05-12 環境：macOS、Ollama 0.23.2、nomic-embed-text、gemma3:1b Corpus：本 blog 的 content/llm/、71 個 markdown 檔結果：22 秒索引 463 個 chunk、retrieval 命中率好、generation 受 1B 模型能力限制——剛好示範「retrieval 跟 generation 各自會失敗」的兩段式失敗模式

前置設定

項目	來源 / 指令
Ollama 跑著	見 Ollama 安裝
Embedding 模型	`ollama pull nomic-embed-text`（274 MB、768 維）
Chat 模型	`ollama pull gemma3:1b`（815 MB）。能力弱但夠驗證流程；上 31B 級才能拿到「真正能用」的 answer 品質
Python	3.11+（標準 lib `urllib` / `pickle` 即可、不需要外部依賴）

驗證 embedding API 可用

1curl -s http://localhost:11434/api/embeddings \
2  -d '{"model":"nomic-embed-text","prompt":"hello world"}' \
3  | python3 -c "import json,sys; r=json.load(sys.stdin); print('dim:', len(r['embedding']))"

逐項說明：

curl -s：-s 是 silent 模式、不顯示下載進度條（不然會混進 stdout、後面 python parse 會炸）。
http://localhost:11434/api/embeddings：用 Ollama 原生 embedding endpoint。也有 /v1/embeddings（OpenAI 相容）、但原生回應結構較簡（直接 {"embedding": [...]}、不是 OpenAI 那種 {"data": [{"embedding": [...]}]} 巢狀）。本 demo 用原生、parse 更直接。
-d '{"model":"...","prompt":"..."}'：JSON payload。model 是 Ollama tag、prompt 是要 embed 的文字。
python3 -c "..."：stdin 接 curl 輸出、parse JSON、印 embedding 長度。
為什麼測 dim: 768：nomic-embed-text 模型架構決定 embedding 維度是 768。每次 embed 任何文字都會回固定 768 維向量、是 retrieval 的基本資料形狀。看到 dim: 768 表示：API 通了、模型載入了、輸出形狀對。

設計取捨

實作前先對齊 4.1 RAG 原理提的設計取捨、決定每段怎麼做：

取捨點	本 demo 的選擇	Trade-off
Chunking 粒度	段落感知 + 軟 token cap（~400 token）	簡單、保留段落邊界；不做語意 chunking
Embedding 模型	`nomic-embed-text`（768 維）	主流、Ollama 內建、英文為主；中文混合場景仍可運作
向量儲存	Python pickle 檔	463 chunks 用 in-memory 完全夠；何時該換見 4.22 RAG storage 工程
Retrieval	Cosine similarity、top-K	無 hybrid、無 re-ranker；夠驗證、品質受 embedding 限制
Generation	`gemma3:1b` 純 Ollama OpenAI 相容 API	1B 模型能力弱、會編造；用來示範 retrieval 跟 generation 兩段分離

這些選擇都對應到 4.0 章節的「會變的部分」清單——可預期半年後 embedding 模型有新選擇、chunking 有更好策略、re-ranker 變主流。但骨架（retrieval + augmentation 兩段式）不變。

Ingest：把 corpus 變索引

完整檔案：scripts/rag-demo/ingest.py（本 repo 下）。三段 function：切 chunk、embed、走訪 + 持久化。

1. `slice_markdown`：段落感知的 chunk 切割

 1def slice_markdown(text: str, soft_token_cap: int = 400) -> list[str]:
 2    paragraphs = [p.strip() for p in re.split(r"\n\s*\n", text) if p.strip()]
 3    chunks = []
 4    buf, buf_len = [], 0
 5    for p in paragraphs:
 6        plen = len(p) / 2  # char-count / 2 ≈ token (CJK + English heuristic)
 7        if buf and buf_len + plen > soft_token_cap:
 8            chunks.append("\n\n".join(buf))
 9            buf, buf_len = [], 0
10        buf.append(p)
11        buf_len += plen
12    if buf:
13        chunks.append("\n\n".join(buf))
14    return chunks

每段做什麼：

re.split(r"\n\s*\n", text)：用「空白行」當分隔符切段落。\n\s*\n 比 \n\n 寬一點、允許中間有 whitespace（空白、tab）。Markdown 段落的標準分隔是空白行、這個 regex 捕捉所有段落邊界。
[p.strip() for ... if p.strip()]：每段去除前後空白、過濾掉純空段落。
buf, buf_len = [], 0：累積一個正在構建的 chunk。buf 是段落 list、buf_len 是該 chunk 的 token 累計估算。
plen = len(p) / 2：估算這段的 token 數。
if buf and buf_len + plen > soft_token_cap：「greedy pack」邏輯——如果加上這段就會超過 cap、把目前 buffer flush 成一個 chunk、再開新 buffer 裝這段。
if buf: chunks.append(...)：迴圈結束後、最後一個 buffer 還沒 flush、補上。

為什麼這樣設計：

為什麼 paragraph-aware、不是固定 token cap：4.1 RAG 原理提的 chunking 設計取捨——固定 token cap 容易切過句子或段落中間、語意被截斷。Paragraph-aware 切在自然邊界、保留段落內語意完整。
為什麼 soft token cap（軟限制）而不是硬切：硬切會把一個 800-token 段落切成兩半；軟切讓「目前 chunk + 下一段超過 cap」時 flush 目前 chunk、下一段獨立成新 chunk（即使超過 cap 也保留段落完整）。代價：個別 chunk 可能超過 cap、retrieval 拿到的塊較大、但內容完整。
為什麼 len(p) / 2 估 token：英文約 4 字元 / token、中文約 1.5 字元 / token、混合平均 / 2 在兩種場景都合理。要精確用 tokenizer（如 tiktoken）、但 demo 不需要——這個 heuristic 在 ±20% 內、夠用來做 chunking 決策。
為什麼 \n\n.join(buf)`：flush 成 chunk 時、段落間保留空白行分隔、讀者看到 chunk 仍是合法 markdown 結構、不是平鋪文字。

2. `embed`：呼叫 Ollama embedding API

1def embed(text: str) -> list[float]:
2    payload = json.dumps({"model": "nomic-embed-text", "prompt": text}).encode()
3    req = urllib.request.Request(
4        "http://localhost:11434/api/embeddings",
5        data=payload,
6        headers={"Content-Type": "application/json"},
7    )
8    with urllib.request.urlopen(req, timeout=60) as resp:
9        return json.loads(resp.read())["embedding"]

每行做什麼：

payload = json.dumps(...).encode()：把 dict 轉成 JSON 字串、再 encode 成 bytes。HTTP body 必須是 bytes、不能直接傳 str。
urllib.request.Request(...)：建立 HTTP request 物件。沒寫 method 預設是 GET、但有 data 參數會自動變 POST。
headers={"Content-Type": "application/json"}：告訴 server payload 是 JSON。少了這個、Ollama 可能 parse 不出 body。
urlopen(req, timeout=60)：發送 request、timeout=60 是 socket-level timeout（連線 + 讀取總共最多 60 秒）。
json.loads(resp.read())["embedding"]：讀回應 body、parse JSON、取 embedding 欄位（768 維 list of float）。

為什麼這樣設計：

為什麼用 stdlib urllib 而不是 requests：完全沒有外部 dependency、urllib 是 Python stdlib 內建。requests 較友善但要 pip install、本 demo 想 minimal。
為什麼 timeout=60：embed 一段文字通常 < 200ms、60 秒夠 buffer 意外（首次 model 載入記憶體可能 5-10 秒）。設無限會在 Ollama 掛掉時整個 script hang。
為什麼 /api/embeddings、不是 /v1/embeddings：兩者都可。原生 endpoint 回應結構平、parse 直接（r["embedding"]）；OpenAI 相容回應較巢狀（r["data"][0]["embedding"]）。對 demo、寫法簡單較重要。

3. 走訪 + 持久化

 1md_files = sorted(args.content_root.rglob("*.md"))
 2records = []
 3for md in md_files:
 4    text = md.read_text(encoding="utf-8")
 5    text = re.sub(r"^---\n.*?\n---\n", "", text, count=1, flags=re.DOTALL)  # 去掉 frontmatter
 6    chunks = slice_markdown(text)
 7    for j, chunk in enumerate(chunks):
 8        vec = embed(chunk)
 9        records.append({
10            "source": str(md.relative_to(args.content_root.parent)),
11            "chunk_index": j,
12            "text": chunk,
13            "embedding": vec,
14        })
15with open("scripts/rag-demo/index.pkl", "wb") as f:
16    pickle.dump(records, f)

每段做什麼：

args.content_root.rglob("*.md")：recursive glob、回 Path iterator、找出 content_root 下所有 .md 檔（含子目錄）。
sorted(...)：排序、讓每次 ingest 順序穩定（git diff 比較友善、retrieval 結果可重現）。
text.read_text(encoding="utf-8")：讀檔、明確指定 UTF-8（中文 markdown 必要、否則 macOS / Linux 預設可能不一致）。
re.sub(r"^---\n.*?\n---\n", "", text, count=1, flags=re.DOTALL)：去掉 Hugo frontmatter。
- ^---\n：開頭 ---\n。
- .*?：non-greedy match、配到下一個 --- 就停。
- \n---\n：closing fence。
- count=1：只 strip 第一個（檔案中可能有其他 --- 是水平分隔線、不要誤殺）。
- flags=re.DOTALL：讓 . 也匹配換行符（預設 . 不匹配 \n、規 frontmatter 跨行就吃不到）。
records.append({...})：每個 chunk 一個 record、含 source path、chunk index、原文、embedding。
md.relative_to(args.content_root.parent)：把絕對 path 變成 llm/00-foundations/xxx.md 形式、retrieval 顯示時短、跨機器可移植。
pickle.dump(records, f)：把整個 records list 序列化到 binary 檔。

為什麼這樣設計：

為什麼要 strip frontmatter：Frontmatter 是 title、date、tags 等 metadata、不是文章正文。embed 進去會稀釋向量語意（讓「date」「2026-05-11」等 keyword 影響相似度計算）。Strip 後 embedding 只 capture 內容語意。
為什麼 records 是 list of dict 而不是 numpy array：兩個原因。(1) 每個 record 含 source / chunk_index / text / embedding 四種異質欄位、numpy 處理不直接。(2) 463 chunks 規模、純 Python list 跑 cosine 也只是毫秒級、不需要 vectorize。十萬 chunk 以上才考慮 numpy array + batched dot product。
為什麼 pickle 而不是 JSON：embedding 是 768-float list、JSON 序列化會把每個 float 變成 ASCII 字串（每個 ~20 bytes）、檔案大很多、parse 也慢。Pickle 是 binary format、保留原本資料結構、檔案小、loader 快。代價：pickle 有 Python 版本相依、跨語言不能讀——但本 demo 索引只給自家 query.py / mcp_server.py 用、可接受。
為什麼存 text 跟 embedding、不只 embedding：retrieval 要回 chunk 原文給 LLM 看、不能只有 source path（不然每次 query 還要再讀檔）。這裡的 corpus 檔案就是 retrieval source；Pickle 多存原文成本低（~100 byte / chunk）、查詢時方便很多。

跑 ingest

1cd ~/Projects/blog
2python3 scripts/rag-demo/ingest.py

cd ~/Projects/blog：切到 repo 根、讓相對路徑 content/llm 對得到 corpus、scripts/rag-demo/index.pkl 對得到 output 位置。
python3 scripts/rag-demo/ingest.py：跑 ingest script、預設讀 content/llm/、寫 scripts/rag-demo/index.pkl。

實測輸出：

1Found 71 markdown files under content/llm
2  [10/71] 86 chunks in 4.5s
3  [20/71] 181 chunks in 8.6s
4  ...
5  [70/71] 461 chunks in 22.2s
6Wrote 463 records to scripts/rag-demo/index.pkl (22.3s)

463 chunks、22 秒、平均 ~21 chunks/sec。瓶頸是 sequential API call、用 async / batch 能快 5-10 倍、但這個量級不值得。

Query：retrieval + augmentation + generation

完整檔案：scripts/rag-demo/query.py。三段。

1. Cosine similarity + top-K retrieval

 1def cosine(a, b):
 2    dot = sum(x * y for x, y in zip(a, b))
 3    na = math.sqrt(sum(x * x for x in a))
 4    nb = math.sqrt(sum(y * y for y in b))
 5    return dot / (na * nb) if na and nb else 0.0
 6
 7def retrieve(records, query_vec, top_k):
 8    scored = [(cosine(query_vec, r["embedding"]), r) for r in records]
 9    scored.sort(key=lambda x: x[0], reverse=True)
10    return scored[:top_k]

每行做什麼：

dot = sum(x * y for x, y in zip(a, b))：兩個向量的內積（dot product）。zip(a, b) 把兩個 list 對位配對、generator expression 算每對相乘、sum 加起來。
na = math.sqrt(sum(x * x for x in a))：a 的 L2 norm（歐氏範數）—— sqrt(x1² + x2² + ... + xn²)。
nb = math.sqrt(sum(y * y for y in b))：b 的 L2 norm。
return dot / (na * nb) if na and nb else 0.0：cosine = dot / (||a|| × ||b||)。三元運算子防 zero division——若任一向量是零向量、na 或 nb 為 0、回 0.0 而不是 crash。
scored = [(cosine(query_vec, r["embedding"]), r) for r in records]：對每個 record 算相似度、組成 (score, record) tuple 的 list。
scored.sort(key=lambda x: x[0], reverse=True)：按 score 從大到小排序。key=lambda x: x[0] 取 tuple 第一個元素（score）當排序 key。
return scored[:top_k]：取前 K 個。

為什麼這樣設計：

為什麼 cosine 而不是純 dot product：純 dot product 受向量長度影響——長向量自動拿高分、跟「相似度」無關。Cosine 把向量正規化到單位長度、純看方向、是「語意相似」的標準衡量。語意相似 embedding 應該方向相近、長度差異不重要。
為什麼用 math.sqrt 而不是 **0.5：兩者數學等價、但 math.sqrt 用 C-level 實作、CPython 中比 Python 級 **0.5 快幾倍。對 463 chunks 影響不大、但 production scale 會放大差異——習慣寫 math.sqrt 的好。
為什麼 if na and nb else 0.0：防禦性程式設計。理論上 embedding 不會是零向量（模型架構保證有非零權重）、但邊界情況（空輸入、API 出錯回 placeholder）可能出現、避免 ZeroDivisionError 整個 query 失敗。回 0.0 表示「無法判斷相似度」、retrieval 排序時自然排到最後。
為什麼 sort 全部、不用 heap：463 records、Python sort 是 O(n log n)、毫秒級。heapq.nlargest(top_k, ...) 是 O(n log k)、在 k=4、n=463 上實測幾乎沒差。十萬 record 以上才看到顯著差別。
為什麼用 list of tuple、不用 numpy：跟 ingest 同樣的理由——小規模不需要 vectorize、純 Python 清楚。

2. 建 augmented prompt

 1context_blocks = []
 2for score, r in retrieved:
 3    context_blocks.append(
 4        f"[來源：{r['source']}#chunk{r['chunk_index']} 相似度：{score:.3f}]\n{r['text']}"
 5    )
 6
 7system = (
 8    "你是一個技術文件問答助手。"
 9    "依下方 context 內容回答問題、不要編造 context 外的事實。"
10    "若 context 不足以回答、明確說『資料不足』。"
11    "回答末尾列出引用的來源 path。"
12)
13user = "## Context\n\n" + "\n\n---\n\n".join(context_blocks) + f"\n\n## Question\n\n{question}"
14
15messages = [
16    {"role": "system", "content": system},
17    {"role": "user", "content": user},
18]

每行做什麼：

f"[來源：{...} 相似度：{score:.3f}]\n{r['text']}"：每個 retrieved chunk 加 header 標明出處跟相似度、再接原文。:.3f 是 score 格式化到三位小數。
"\n\n---\n\n".join(context_blocks)：用 --- 水平分隔線分隔各 chunk、視覺上清楚。
{"role": "system", "content": system}：system message 給 LLM 設定角色 + 約束。
{"role": "user", "content": user}：user message 含 context 跟 question、是 LLM 實際讀的內容。

為什麼這樣設計：

為什麼 system prompt 約束四件事（角色、忠於 context、資料不足時明說、引用來源）：
- 角色：「技術文件問答助手」框定模型行為、減少 off-topic 回應。
- 忠於 context：對抗 RAG 最常見的失敗模式——LLM 看到 context 但用自己訓練的 knowledge 補完、結果跟 corpus 不一致。明確要求 follow context 能降低（雖然不能完全消除、見實測 1）。
- 資料不足時明說：避免 LLM「硬要回答」造成 hallucination。對 weak model 這條 follow 度差、但對 large model 有效。
- 引用來源：traceability。讀者能回查 corpus、驗證模型答案。
為什麼 ## Context / ## Question 結構：用 markdown heading 結構幫助 LLM 區分「我要讀什麼」「我要回答什麼」。比平鋪文字穩定（即使對小模型）。
為什麼把 retrieved chunks 全塞 user message、不分開：MCP / function calling 的更現代做法是把 retrieved 結果做成 tool response、模型主動 call retrieval tool。本 demo 不引入 tool use、直接塞 prompt 較單純——能說明 RAG 核心（augmentation）不必牽扯 tool use。

3. 呼叫 chat completions

1def chat(messages, model):
2    payload = json.dumps({"model": model, "messages": messages, "stream": False}).encode()
3    req = urllib.request.Request(
4        "http://localhost:11434/v1/chat/completions",
5        data=payload,
6        headers={"Content-Type": "application/json"},
7    )
8    with urllib.request.urlopen(req, timeout=180) as resp:
9        return json.loads(resp.read())["choices"][0]["message"]["content"]

每行做什麼：

json.dumps({"model": ..., "messages": ..., "stream": False}).encode()：構造 OpenAI 相容 chat completions request body。stream: False 讓 server 等生成完再一次回、不要 SSE 串流。
/v1/chat/completions：OpenAI 相容 endpoint、跟雲端 OpenAI 完全同樣 schema。
timeout=180：3 分鐘、給長 context + 慢模型空間。
["choices"][0]["message"]["content"]：parse OpenAI 標準 response 結構、取第一個 choice 的 content。

為什麼這樣設計：

為什麼 stream: False：demo 要把完整 answer 印出、不需要 incremental display。stream: True 要寫 SSE parser、複雜。Production 互動式 UI 才需要 streaming。
為什麼 timeout=180、不是 60：1B 模型 + 4 個 retrieved chunks 的 context、prefill 可能要 5-30 秒、生成 100-500 token 又要 5-20 秒、保守設 3 分鐘。embed function 用 60 是因為 embedding 是純 forward pass、單一 token 量級操作、不需要這麼長。
為什麼 /v1/... 而不是 /api/...：chat completions 走 OpenAI 相容 endpoint、生態都用這個格式（Continue.dev、Cursor、各家 SDK）。embedding 用 /api/... 是因為原生 schema 簡單；chat 用 /v1/... 是因為 message-based 結構是 OpenAI 標準、跨工具互通。

實測結果：retrieval 對、generation 弱

測試 1：「什麼是 MTP？為什麼對寫 code 場景特別有效？」

1python3 scripts/rag-demo/query.py --show-retrieved "什麼是 MTP？為什麼對寫 code 場景特別有效？"

--show-retrieved 是個 flag、開啟後在 stderr 印 retrieved chunks 跟 score、答案還是進 stdout。是 debug 跟教學用、不會影響 LLM 看到的 prompt。

Retrieval：

10.870  llm/knowledge-cards/transformer.md#chunk2
20.825  llm/03-theoretical-foundations/sampling-and-decoding.md#chunk8
30.782  llm/knowledge-cards/ttft.md#chunk1
40.771  llm/knowledge-cards/mtp.md#chunk2

四個 chunk 都跟問題相關、相似度合理。MTP 卡確實被命中（雖然不是 top-1、是因為 transformer.md 該段提到 MTP）。

Generation（1B 模型）：

MTP 僅指使用 Ollama 進行 Coding 模型訓練與部署、它是一種系統性的方式… 來源：llm.dev

錯：1B 模型編造了「MTP 僅指使用 Ollama」這個事實（不對、MTP 是 Google 為 Gemma 釋出的、跟 Ollama 沒直接關係）、來源 URL 也是 hallucination。

測試 2：「MCP 跟 function calling 有什麼差別？」

Retrieval：

10.721  llm/04-applications/application-protocols.md#chunk2
20.704  llm/04-applications/application-protocols.md#chunk1
30.702  llm/04-applications/application-protocols.md#chunk0
40.693  llm/knowledge-cards/function-calling.md#chunk1

完美命中——4.3 應用層協議章節三個 chunk + function-calling 卡。

Generation：模型把幾段重複拼接、framing 跟原文有出入、但比測試 1 好（因為 context 涵蓋直接答案）。

觀察跟原理對應

這個 demo 剛好示範 4.1 RAG 原理提的兩段式失敗模式：

階段	表現	原因
Retrieval	命中率好、找到對的 chunks	`nomic-embed-text` 對技術文件覆蓋好、cosine 對短 query 也 OK
Generation	內容有時編造、不忠於 context、來源亂寫	`gemma3:1b` 模型容量不足以可靠 follow system prompt

換 31B+ 模型 generation 會改善很多——這也是 4.0 章節提到「retrieval 跟下游 LLM 訓練分佈不一致」會放大失敗的具體例子。寫 RAG 系統時、generation 失敗不一定是「retrieval 沒給對 context」、可能是「模型不夠強」。

何時這份 demo 會過時

Ollama API 形狀：短期內不會變（生態都依賴）。
nomic-embed-text / gemma3:1b 具體 tag：預期會被新模型取代、但 retrieval + augmentation 結構不變。
Chunking heuristic：簡單 char-count / 2 很粗、半年後若有便宜的 token counter 直接接會更準。
Pickle 儲存：production 場景建議換 vector DB、本 demo 是教學用。

實作換代時、保留 ingest / retrieve / augment / generate 四段、各段內部換工具即可——這四段是 RAG 的骨架、跨工具世代不變。

跑這個 demo 的指令總結

1# 一次性建索引（每次 corpus 變動才需要重建）
2cd ~/Projects/blog
3python3 scripts/rag-demo/ingest.py

cd：切到 repo 根、relative path 對得到。
python3 ingest.py：跑索引、預設讀 content/llm/、寫 scripts/rag-demo/index.pkl。每次 corpus 變動才需要重跑、不變的話 index 就一直用。

1# 查詢（任意次）
2python3 scripts/rag-demo/query.py --show-retrieved "你的問題"
3python3 scripts/rag-demo/query.py --top-k 5 --model gemma3:1b "問題"

--show-retrieved：教學 / debug 用、列 retrieved chunks 跟 score 到 stderr。
--top-k 5：取 top 5 instead of 預設 4。chunks 越多 context 越長、TTFT 越久、但訊息越完整。
--model gemma3:1b：指定 chat model。換 gemma3:4b、gemma4:31b-coding-mtp-bf16 等 generation 品質會大幅改善。

完整 source 在 scripts/rag-demo/ 下、200 行 Python、無外部 dependency。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、把 retrieval 包成 MCP server 暴露給 LLM application 見 MCP demo、RAG + MCP 同跑的記憶體 / 程序預算見 RAG + MCP resource footprint、術語見 RAG 跟 embedding model。

Hands-on：用 blog content 寫一個最小 MCP server

Tue, 12 May 2026 00:00:00 +0000

本篇把 4.6 應用層協議的 MCP 概念落到一個可跑的最小實作：用 stdio JSON-RPC 暴露兩個 tool（search_blog、read_chunk）、客戶端 spawn server 跟它對話、驗證 protocol initialize / tools/list / tools/call / error 四個基本流程。實作刻意只用 Python stdlib、不依賴 MCP SDK、為的是把 wire protocol 看清楚、跟 4.3 的「server 協議層」framing 對應。

驗證日期：2026-05-12 環境：Python 3.11+、stdlib only（json / subprocess / urllib）依賴：RAG demo 的 index.pkl（見 RAG demo） 協議版本：MCP 2025-03-26

MCP 是什麼層的東西

回顧 4.6 應用層協議的層級劃分：

Function calling：模型訓練建立的能力（模型層）。
Structured output：sampling 階段約束（推論層）。
MCP：LLM application ↔ 外部 tool server 的協議（架構層）。

MCP 不管「模型怎麼呼叫工具」、它管「工具怎麼被暴露給 application」。本 demo 寫的是 server 端：server 不知道是哪個 LLM 在用它、不假設客戶端用 function calling 還是 structured output、它只專注「把 tool 透過 JSON-RPC 暴露出去」。

這跟 OpenAI 相容 API 的設計哲學一致：定義最小可用標準、讓生態繞著標準長。

前置設定

項目	來源
Ollama + `nomic-embed-text`	Ollama 安裝
RAG index（`index.pkl`）	RAG demo 跑過 `ingest.py`
Python	3.11+

不需要安裝 MCP SDK——本 demo 手寫 JSON-RPC 處理、為了 inspection 透明度。Production server 建議改用官方 SDK（Python / TypeScript 都有）、處理 framing、capability negotiation、transport edge cases。

MCP 協議的最小子集

MCP server 要 handle 的核心 method：

Method	角色
`initialize`	Client 跟 server 握手、交換 protocol version + capability
`notifications/initialized`	Client 通知 handshake 完成（notification、無 response）
`tools/list`	Client 問 server 有哪些 tool
`tools/call`	Client 呼叫某 tool、傳 arguments

四個 method 之外、還可以暴露 resources / prompts / sampling、本 demo 只做 tools。

Server 實作

完整檔案：scripts/mcp-demo/blog_mcp_server.py、約 150 行。

主迴圈：讀 stdin、分派 method、寫 stdout

 1def main():
 2    log(f"[blog-mcp-demo] starting, index={INDEX_PATH}, tools={list(TOOLS.keys())}")
 3    for line in sys.stdin:
 4        line = line.strip()
 5        if not line:
 6            continue
 7        try:
 8            msg = json.loads(line)
 9        except json.JSONDecodeError as e:
10            log(f"  parse error: {e}")
11            continue
12        method = msg.get("method")
13        rid = msg.get("id")
14        params = msg.get("params", {})
15        log(f"  → {method} (id={rid})")
16        if method not in HANDLERS:
17            respond(rid, error={"code": -32601, "message": f"Method not found: {method}"})
18            continue
19        handler = HANDLERS[method]
20        if handler is None:
21            continue  # notification, no response expected
22        try:
23            result = handler(params)
24            respond(rid, result=result)
25        except Exception as e:
26            log(f"  ✗ handler error: {e}")
27            respond(rid, error={"code": -32000, "message": str(e)})

每段做什麼：

log(...) 開機訊息：印到 stderr（不是 stdout）、讓人類能看到 server 啟動了、什麼 tools 可用。stdout 完全保留給 JSON-RPC 用。
for line in sys.stdin：MCP 的 stdio transport 是 line-delimited JSON—— 每個 message 一行、\n 結束。Python 的 file iteration 自動按行切。
line.strip() + if not line：空行 skip（不是 protocol error、只是 idle）。
json.loads(line) with try / except：parse 失敗（malformed input）不 crash、log error 繼續下一行。Protocol 訊息該是合法 JSON、parse error 表示 client 出錯。
msg.get("method") / msg.get("id") / msg.get("params", {})：JSON-RPC 2.0 標準三個欄位。get 而不是 []、避免 KeyError；params 預設空 dict、後面 handler 可以安全 .get("xxx")。
if method not in HANDLERS: respond(rid, error={"code": -32601, ...})：未知 method 回標準 JSON-RPC error -32601（Method not found）。Client 知道這個 method 不能用、但 server 不死。
if handler is None: continue：notification（如 notifications/initialized）對應的 handler 是 None、不該回 response。
try: result = handler(params); respond(rid, result=result)：呼叫 handler、把結果回給 client。
except Exception as e: ... respond(rid, error={"code": -32000, ...})：handler 內部錯誤回 -32000（generic server error）。確保 server 任何時候都不 crash、即使工具 bug 也讓 client 拿到 error response。

為什麼這樣設計：

為什麼用 line-delimited JSON、不是 length-prefixed：MCP spec 規定 stdio transport 是 newline-delimited。length-prefixed 是 LSP 的做法、解析複雜（要先讀 Content-Length header 再讀 N bytes）；newline-delimited 用 for line in sys.stdin 一行解決。
為什麼 stderr 不能寫 stdout：stdio transport 的 invariant——stdout 是 protocol channel、只能寫 JSON-RPC message。任何 stray print() / debug output 進 stdout、會被 client parse JSON 時炸（「multiple JSON values on one line」或 invalid JSON）。所有 log / debug / progress message 必須走 stderr。寫錯這條 server 看起來不工作、debug 很久才找到。
為什麼 dispatch 用 dict-of-handlers 而不是 if/elif chain：擴充性。加新 method 只要往 HANDLERS dict 加一項、不用改 main loop。也讓 dispatch logic 跟 method 實作分離、容易測試。
為什麼每個 handler 都用 try/except 包：「single point of failure」設計——任何 handler 例外不影響其他 method。Server 應該是 long-running daemon、不能因為一個 tool bug 死掉。
為什麼 errors 用 JSON-RPC error code 而不是 HTTP-style status：JSON-RPC 2.0 標準。-32700 parse error、-32600 invalid request、-32601 method not found、-32602 invalid params、-32603 internal error、-32000 to -32099 留給應用層自訂。

工具：search_blog

 1def tool_search_blog(query: str, top_k: int = 5) -> dict:
 2    records = load_index()
 3    q_vec = embed(query)
 4    scored = sorted(
 5        ((cosine(q_vec, r["embedding"]), r) for r in records),
 6        key=lambda x: x[0],
 7        reverse=True,
 8    )[:top_k]
 9    results = [
10        {
11            "source": r["source"],
12            "chunk_index": r["chunk_index"],
13            "score": round(score, 4),
14            "preview": r["text"][:160] + ("..." if len(r["text"]) > 160 else ""),
15        }
16        for score, r in scored
17    ]
18    return {"content": [{"type": "text", "text": json.dumps(results, ensure_ascii=False, indent=2)}]}

每段做什麼：

records = load_index()：lazy load index.pkl、第一次 call 載入記憶體、後續直接用 cached。Server 啟動時 lazy load 而不是 import 時 load、讓 server 即使在 Ollama 還沒起 / index 不存在時也能 boot（之後 call 才會報 error）。
q_vec = embed(query)：把 query 轉成 768 維向量、呼叫 Ollama embedding API、跟 RAG demo 的 embed 是同一個 function。
sorted((...) for r in records, key=lambda x: x[0], reverse=True)[:top_k]：generator expression + sorted 一次完成「算分 → 排序 → 取 top-K」。
results = [{...} for score, r in scored]：把 top-K 整理成 client 友善的 dict 結構、含 source、chunk_index、score、preview（前 160 字 + 省略號）。
{"content": [{"type": "text", "text": json.dumps(...)}]}：MCP tools/call 標準 response 格式——content 是 array、每個元素 type + payload。type: "text" 是文字 content、text 是實際內容（這裡是 JSON 字串、讓 LLM 可以 parse）。

為什麼這樣設計：

為什麼 generator expression 而非 list comprehension：(... for r in records) 是 generator、sorted 直接消費、不會在記憶體中建中間 list。對 463 records 影響不大、但展現 memory-efficient pattern。
為什麼 preview 切到 160 字：兩件事的平衡——讓 LLM 看到的 search result 短（不淹沒 LLM 的 context）、但夠判讀（160 中文字約 80 token、能看出 chunk 是不是相關）。如果 LLM 要完整內容、再 call read_chunk。
為什麼回傳 JSON 字串、不是 nested object：MCP content 規定每個 element 是 {type, payload}、type: "text" 的 text 必須是 string、不能直接放 nested object。要傳結構化資料、就把它 json.dumps 成字串。LLM 看到後可以自己 parse。
為什麼 ensure_ascii=False：預設 json.dumps 把非 ASCII 字元（如中文）轉成 \uXXXX、難讀。ensure_ascii=False 直接輸出 UTF-8、LLM 也能直接讀懂、節省 token 數（一個中文字 1 token vs 6 token 的 中）。
為什麼 round(score, 4)：score 是 float、原始可能是 0.7497284598827362、長且無意義。round(score, 4) 保留 4 位小數、0.7497、夠精確、wire size 短。

工具：read_chunk

1def tool_read_chunk(source: str, chunk_index: int) -> dict:
2    records = load_index()
3    for r in records:
4        if r["source"] == source and r["chunk_index"] == chunk_index:
5            return {"content": [{"type": "text", "text": r["text"]}]}
6    return {
7        "content": [{"type": "text", "text": f"Not found: {source}#chunk{chunk_index}"}],
8        "isError": True,
9    }

每段做什麼：

for r in records: if r["source"] == source and r["chunk_index"] == chunk_index: return ...：linear scan 找匹配的 record、找到回完整 text。
找不到時 return {... "isError": True}：MCP 標準的「tool 內部失敗」訊號。isError: True 告訴 client「這個 tool call 失敗了」、content 內是 human-readable error message。

為什麼這樣設計：

為什麼 linear scan 而不是 dict lookup：可以改用 {(source, chunk_index): record} dict 變 O(1)。但 463 records 的 linear scan 是 < 1ms、optimize 不值得。Production 跟 vector DB 整合時、retrieval 系統自帶 indexing。
為什麼 isError: True 而不是 JSON-RPC error：分兩種錯誤：
- Protocol error：method 不存在、params 不合法、JSON parse 失敗——回 JSON-RPC error 物件。
- Tool semantic error：method OK、params OK、但 tool 邏輯上不能 complete（找不到資料、外部 service down）——回 normal response 加 isError: True。 MCP 設計這層分離、讓 client / LLM 區分「我做錯了」（協議層）跟「資料不存在」（語意層）。Production 設計工具時要仔細區分。

Tool 描述用 JSON Schema

 1TOOLS = {
 2    "search_blog": {
 3        "description": "Semantic search over blog content. Returns top-K relevant chunks with source paths.",
 4        "inputSchema": {
 5            "type": "object",
 6            "properties": {
 7                "query": {"type": "string", "description": "Natural language query"},
 8                "top_k": {"type": "integer", "default": 5, "minimum": 1, "maximum": 20},
 9            },
10            "required": ["query"],
11        },
12        "fn": lambda args: tool_search_blog(args["query"], args.get("top_k", 5)),
13    },
14    "read_chunk": {
15        "description": "Read the full text of a specific chunk by source path and chunk index.",
16        "inputSchema": {
17            "type": "object",
18            "properties": {
19                "source": {"type": "string", "description": "Markdown file path relative to content/"},
20                "chunk_index": {"type": "integer", "minimum": 0},
21            },
22            "required": ["source", "chunk_index"],
23        },
24        "fn": lambda args: tool_read_chunk(args["source"], args["chunk_index"]),
25    },
26}

每個 field 角色：

description：給 LLM 看的、解釋這個 tool 解什麼問題。LLM 看 description 決定何時 call。這是模型 follow tool 的最主要訊號——寫得清晰具體、模型用得對。
inputSchema：JSON Schema、描述 tool 接受的參數結構。LLM application 用這個 schema 約束 LLM 生成「合法的呼叫」。
properties：每個參數的型別 + 約束。
required：必填參數清單。LLM 漏掉時、client 端可以 reject、不會浪費 round-trip。
default：可選參數的預設值。傳的時候不給、tool 就用 default。
minimum / maximum：數值約束。top_k 設 1-20 是因為 < 1 沒意義、> 20 浪費 retrieval。
fn：實際 dispatch 用的 callable。本 demo 用 lambda 把 args dict 轉成 positional / keyword call。

為什麼這樣設計：

為什麼 description 要具體：LLM 看 description 決定 call 時機。「search the blog」對 LLM 來說太模糊（搜什麼？找什麼？）、改成「Semantic search over blog content. Returns top-K relevant chunks with source paths.」明確描述輸入跟輸出形狀、LLM 能判讀「使用者問技術問題時該 call 這個」。
為什麼 schema 用 JSON Schema、不是自訂格式：JSON Schema 是 web 標準、所有 LLM application 都認識、跨 framework 可移植。也是 function calling 跟 Tool use 原理的 schema 描述語言。
為什麼 required 跟 default 兩個機制：對 LLM 看的 prompt 越清楚越好。required 告訴 LLM「不傳這個會錯」、default 告訴 LLM「可不傳、預設值是 X」。沒分清的話、LLM 可能總是傳所有參數、雜訊多。
為什麼 fn 用 lambda 包：實際 tool function 是 positional args、但 client 送的是 dict。lambda 把 dict 拆成 function call 的 args。也方便將來如果 tool function signature 變、只要改 lambda 不用改 dispatcher。

Client 實作（測試用）

完整檔案：scripts/mcp-demo/test_client.py。實際 production 用 Claude Desktop / Cursor 等 MCP-capable application。本 demo 寫一個 stdio client、模擬 application 行為：

 1proc = subprocess.Popen(
 2    [sys.executable, str(SERVER)],
 3    stdin=subprocess.PIPE,
 4    stdout=subprocess.PIPE,
 5    stderr=subprocess.PIPE,
 6    text=True,
 7    bufsize=1,
 8)
 9
10def send(method, params=None, rid=None):
11    msg = {"jsonrpc": "2.0", "method": method}
12    if params is not None:
13        msg["params"] = params
14    if rid is not None:
15        msg["id"] = rid
16    proc.stdin.write(json.dumps(msg) + "\n")
17    proc.stdin.flush()
18    if rid is None:
19        return None  # notification
20    line = proc.stdout.readline()
21    return json.loads(line)

每個參數做什麼：

subprocess.Popen([sys.executable, str(SERVER)], ...)：spawn server 當 child process。用 sys.executable 確保用同一個 Python interpreter（避免 venv 跟系統 Python 混用）。
stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE：三條 pipe 都接到 client、讓我們能讀寫 server 的 stdio。
text=True：自動處理 str ↔ bytes 編碼、直接讀寫字串、不用手動 encode/decode。預設是 binary mode。
bufsize=1：line buffering、每寫一行就 flush。沒這個的話、Python 預設 block buffering（4KB 才 flush）、client 寫的 message server 看不到、整個卡住。
proc.stdin.write(json.dumps(msg) + "\n")：寫 JSON 訊息、結尾加 \n（line-delimited）。
proc.stdin.flush()：強制立刻送出。即使有 bufsize=1、明確 flush 是好習慣、避免任何 buffer 累積。
if rid is None: return None：notification 不該等 response。
line = proc.stdout.readline() + json.loads(line)：讀一行 response、parse。

為什麼這樣設計：

為什麼 stdio 而不是 socket / HTTP：MCP stdio transport 的主要場景是「application spawn server」(Claude Desktop 開 Python 進程當 MCP server)。Stdio 自然形成 1-to-1 ownership、不需要 port allocation、不需要 auth。HTTP transport 也存在、用在 multi-client 場景。
為什麼 bufsize=1 這麼關鍵：Python 預設 stdio buffer 4KB。如果 server / client 任一邊寫了 short message 但沒 fill 4KB、message 不會被另一邊看到、protocol 卡死。看起來是 hang、debug 困難。bufsize=1 強制 line buffering、解決這個 deadlock。
為什麼 text=True：JSON-RPC 都是文字、binary mode 要手動 .encode() / .decode()、增加複雜度。text=True 自動處理 UTF-8。

跑通整條流程

1cd ~/Projects/blog
2python3 scripts/mcp-demo/test_client.py

cd ~/Projects/blog：切到 repo 根、讓 SERVER 路徑相對解析正確。
python3 scripts/mcp-demo/test_client.py：跑 test client、它會 spawn server 跟它對話。

預期看到五個階段：

1. initialize（握手）

 1=== 1. initialize ===
 2{
 3  "jsonrpc": "2.0",
 4  "id": 1,
 5  "result": {
 6    "protocolVersion": "2025-03-26",
 7    "capabilities": {"tools": {}},
 8    "serverInfo": {"name": "blog-mcp-demo", "version": "0.1.0"}
 9  }
10}

Protocol 意義：

protocolVersion：server 支援的 MCP 版本。Client 要 negotiate（自己 cap 較新時要 downgrade）。
capabilities.tools: {}：server 宣告「我支援 tools 功能」、空 object 表示沒額外 sub-feature。Client 拿到後知道可以 call tools/list。
serverInfo：server 識別資訊、給 client 顯示用（debug、logging）。
id: 1：對應 client 送的 request id、讓 client 知道這個 response 是哪個 request 的。

2. tools/list

Server 回兩個 tool 的完整 schema：

 1{
 2  "tools": [
 3    {
 4      "name": "search_blog",
 5      "description": "Semantic search over blog content...",
 6      "inputSchema": {...JSON Schema...}
 7    },
 8    {
 9      "name": "read_chunk",
10      "description": "Read the full text of a specific chunk...",
11      "inputSchema": {...}
12    }
13  ]
14}

Protocol 意義：這個輸出就是 LLM application 會塞給 LLM 的 tool 描述。LLM application 把這份 schema 用 function calling 機制給模型看、模型決定何時呼叫、傳什麼參數。Server 跟模型之間靠這層 schema 對齊、模型不直接呼叫 server、是經 application 中介。

3. tools/call: search_blog

Client 送：

1{
2  "method": "tools/call",
3  "params": {
4    "name": "search_blog",
5    "arguments": {"query": "什麼是 KV cache？", "top_k": 3}
6  },
7  "id": 3
8}

params 包兩件事：

name：要 call 的 tool 名（matches tools/list 內某個 tool）。
arguments：實際傳給 tool 的 dict、結構符合該 tool 的 inputSchema。

Server 回 cosine 搜尋結果（preview）：

1[
2  {"source": "llm/00-foundations/hardware-memory-budget.md", "chunk_index": 5, "score": 0.7497, "preview": "| Context 長度 | KV cache 估算..."},
3  {"source": "llm/00-foundations/why-llm-feels-slow.md", "chunk_index": 4, "score": 0.7212, "preview": "..."},
4  {"source": "llm/03-theoretical-foundations/attention-mechanism.md", "chunk_index": 7, "score": 0.7176, "preview": "..."}
5]

實測命中合理——KV cache 相關段落都被找到。

4. tools/call: read_chunk

Client 用 search 拿到的 source + chunk_index、call read_chunk 拿完整內容：

 1{
 2  "method": "tools/call",
 3  "params": {
 4    "name": "read_chunk",
 5    "arguments": {
 6      "source": "llm/00-foundations/hardware-memory-budget.md",
 7      "chunk_index": 5
 8    }
 9  }
10}

Server 回該 chunk 的完整 markdown 文字。這實現了「search → read」的兩段流程——避免 search 一次就把所有 chunk 完整內容塞給 LLM（context 暴炸）、讓 LLM 自己看 preview 決定要 deep dive 哪個。

5. 錯誤路徑

1=== 5. unknown method (error path) ===
2{"jsonrpc": "2.0", "id": 5, "error": {"code": -32601, "message": "Method not found: does/not/exist"}}

-32601 是 JSON-RPC 標準 error code for unknown method。Server 對未知 method 回標準 error、不 crash。Client 知道這個 method 不能用、繼續其他操作。

跟 Claude Desktop / Cursor 整合

把這個 server 接到實際 MCP-capable application：

Claude Desktop

編輯 ~/Library/Application Support/Claude/claude_desktop_config.json：

1{
2  "mcpServers": {
3    "blog-search": {
4      "command": "/path/to/python3",
5      "args": ["/scripts/mcp-demo/blog_mcp_server.py"]
6    }
7  }
8}

每個 field 做什麼：

mcpServers：MCP server 註冊表、key 是任意名稱（client 識別用）。
command：spawn 用的 executable path。要寫絕對路徑、Claude Desktop 啟動時的 PATH 可能不含 python3。
args：傳給 command 的 args list。第一個是 script path。

為什麼這樣設計：Claude Desktop 啟動時讀這個 config、對每個 server 用 subprocess.spawn(command, args) 起 child process、用 stdio 跟它對話。跟本 demo 的 test_client.py 做的事完全一樣、只是改成 GUI application 而已。

重啟 Claude Desktop 後、在對話框問「用 search_blog 找 KV cache 相關段落」、Claude 會自動 call tool 並用結果回答。

Cursor

.cursor/mcp.json（per-project）或全域設定類似結構。具體欄位看當下版本文件。

兩種整合的共通點：MCP server 自己不變、只要 application 端配置 path 跟 args、整合就完成。這正是 4.3 章節 N×M → N+M 的具體展現——本 server 不為任何特定 application 客製化、就能被多個 application 接到。

觀察跟原理對應

回到 4.6 應用層協議的三層 framing：

層級	本 demo 是否實作	怎麼實作
模型能力	不在本 demo 範圍	LLM application 自己決定用 GPT/Claude/Gemma
Sampling 約束	不在本 demo 範圍	application + 推論伺服器配合
Server 協議	本 demo 焦點	JSON-RPC over stdio + tools/list / tools/call

這個分離正是 MCP 的核心收益：server 寫好之後、用什麼 LLM 跟它互動跟 server 無關。換掉 LLM、換掉 application、server code 完全不動。

何時這份 demo 會過時

MCP protocol version：目前用 2025-03-26、未來會更新、但「server 暴露 tool 給 application」的 framing 不變。
JSON-RPC 細節：可能 transport 形式增加（HTTP / WebSocket）、stdio 不會消失。
Tool 描述格式：JSON Schema 是 web 通用標準、不會被換掉。

實作換代時、可以把手寫 JSON-RPC 換成官方 SDK、tool 內部邏輯（embedding / cosine / pickle）依需求換、但 protocol 骨架（initialize / tools/list / tools/call）會保留。

跑這個 demo 的指令總結

1# 前置：確認 Ollama 跑著、index.pkl 存在
2ollama list | grep nomic-embed-text
3ls scripts/rag-demo/index.pkl

ollama list：列已下載 model、grep 過濾出 embedding model。沒看到表示要先 ollama pull nomic-embed-text。
ls scripts/rag-demo/index.pkl：確認 RAG ingest 跑過、index 存在。沒看到要先跑 python3 scripts/rag-demo/ingest.py。

1# 自動測試 MCP server
2python3 scripts/mcp-demo/test_client.py

跑 test_client、spawn server、依序送 5 個 request 驗證 protocol。stdout 印 protocol 對話、stderr 印 server log。看到全部 5 階段 OK 就成功。

1# 手動跟 server 互動（看 protocol 原始 wire format）
2python3 scripts/mcp-demo/blog_mcp_server.py
3# 然後手打：{"jsonrpc":"2.0","id":1,"method":"initialize","params":{}}

直接 invoke server、它讀 stdin 等 request。手打 JSON-RPC 訊息、看 server 回。是學 protocol 最直接的方式——你會看到 wire format 真實長相、跟自動 client 包裝後不一樣。

完整 source 在 scripts/mcp-demo/、約 250 行 Python、stdlib only。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、本 demo 依賴的索引由 RAG demo ingest 產生、MCP + RAG 同跑的記憶體 / 程序預算見 RAG + MCP resource footprint、術語見 MCP。

Hands-on：Ollama 改檔案 / 寫程式碼的權限邊界在哪

Tue, 12 May 2026 00:00:00 +0000

「Ollama 自己改檔案要不要 sudo？」「叫它寫 rm -rf 會直接刪嗎？」這類問題的答案來自一個根本事實：LLM 是 pure function、文字進、文字出、本身沒任何 file system / shell / network 副作用。改檔案、刪檔案、發網路請求、執行 shell command——全部由 wrapper 或人類做。LLM 「以為」自己做了什麼、跟實際發生什麼是兩件事。

本篇用四組對照實驗證明這個事實、再展開 wrapper 三檔審查粒度的設計取捨。這跟 4.3 副作用範圍設計、4.4 Agent 跟人類審查的協作模型、0.7 隱私資料流原理三個原則章節對應、實作層的權限與供應鏈判讀對應 6.2 tool use 與 MCP server 的權限模型跟 6.0 模型供應鏈與信任邊界。

驗證日期：2026-05-12 環境：Ollama 0.23.2、gemma3:1b、Python stdlib 檔案位置：scripts/permission-demo/edit_with_llm.py

為什麼這個問題重要

直覺常見的誤判：

「LLM 寫了 rm -rf 我電腦會壞」——錯。LLM 寫指令不代表執行。
「Ollama API 改我檔案要 sudo」——錯。Ollama API 根本碰不到檔案。
「我跑 wrapper 就讓 LLM 改檔案、應該有 confirm 機制吧」——錯。Confirm 機制完全是 wrapper 開發者自己決定要不要寫、LLM 不知道、不在乎。

理解這個邊界、後續設計 LLM 應用的權限模型才有 ground truth。錯誤的 mental model 會導致兩種 failure：

過度恐懼：因為怕 LLM「亂改」、把所有 LLM 互動關起來、放棄自動化收益。
過度信任：相信 LLM「不會做壞事」、給 wrapper 自動執行權限、結果小模型亂解 instruction 把資料毀掉。

實際上權限設計的判讀錨點是：這個動作有沒有副作用、誰執行。LLM 永遠不執行、所以權限不在 LLM 層；wrapper 執行、所以權限完全在 wrapper 設計。

Test 1：直接 API 問改檔案、看會發生什麼

挑一個檔案（token 卡片）、用 curl 送 chat completions、prompt 寫「修改這個檔案」、然後 check 檔案 mtime 跟 md5：

 1# 修改前 snapshot
 2stat -f "%m %N" content/llm/knowledge-cards/token.md
 3md5 -q content/llm/knowledge-cards/token.md
 4
 5# 用 system prompt「假裝你有 file 權限」、user 直接指明路徑
 6curl -s http://localhost:11434/v1/chat/completions \
 7  -H "Content-Type: application/json" \
 8  -d '{
 9    "model":"gemma3:1b",
10    "messages":[
11      {"role":"system","content":"You can modify files. The user provides a file. You modify it."},
12      {"role":"user","content":"Please modify /Users/.../token.md to add a sentence..."}
13    ],
14    "stream":false
15  }'
16
17# 修改後 snapshot
18stat -f "%m %N" content/llm/knowledge-cards/token.md
19md5 -q content/llm/knowledge-cards/token.md

實測結果：

 1=== Before ===
 21778508712 content/llm/knowledge-cards/token.md
 3d9f2d822f7458af62399076a94ef20f6
 4
 5=== LLM response ===
 6Okay, here's the modified content of `/Users/.../token.md`...
 7
 8=== After ===
 91778508712 content/llm/knowledge-cards/token.md  ← mtime same
10d9f2d822f7458af62399076a94ef20f6                  ← md5 same

mtime 沒變、md5 沒變、檔案內容完全沒動。但 LLM 用「Okay, here’s the modified content」這種口氣回答——它以為自己改了、實際上只生成了一段 markdown 文字。

結論：Ollama HTTP API 是 stateless、pure function。輸入 messages、輸出 message content。整個過程沒寫進 socket 以外的任何地方。

為什麼會這樣設計：

沙箱本來就在 API 邊界：HTTP server 接 request、跑 forward pass、回 response。期間沒呼叫 fs.write() / subprocess.run() / 任何 effectful API。
system prompt 不是權限授予：「You can modify files」這句話對模型來說只是文字 context、不會真的給它 file access。Prompt 是「LLM 內部的 context」、不是「runtime capability」。
訓練資料讓 LLM 「以為」自己有能力：LLM 訓練資料含大量「使用者問問題、AI 改檔案」的範例（如 GitHub Copilot agent traces、tool-use SFT 資料）、模型學會用「我已經改了」這種語氣回答——是 mimic、不是真正的 action。

Test 2：寫 wrapper 用 –dry-run 模式安全處理

權限不在 LLM、在 wrapper。寫一個 100 行的 wrapper、看怎麼設計 permission gates。完整檔案：scripts/permission-demo/edit_with_llm.py。

核心 architecture：

 1def main():
 2    # 1. 讀檔（wrapper 用自己的 fs 權限）
 3    original = args.file.read_text(encoding="utf-8")
 4
 5    # 2. 送 LLM、拿回提議的新內容
 6    response = chat([
 7        {"role": "system", "content": "You modify text files. Output ONLY ..."},
 8        {"role": "user", "content": f"File: {args.file}\nContent:\n{original}\nInstruction: {args.instruction}"},
 9    ])
10    new_content = extract_code_block(response)
11
12    # 3. Diff（純讀、永遠 safe、不需 gate）
13    diff = list(difflib.unified_diff(original.splitlines(...), new_content.splitlines(...)))
14    sys.stdout.writelines(diff)
15
16    # 4. PERMISSION GATE：wrapper 決定要不要 apply
17    if args.auto:
18        args.file.write_text(new_content)
19    elif args.confirm:
20        if input("Apply? [y/N] ").lower() == "y":
21            args.file.write_text(new_content)
22    else:  # --dry-run，預設
23        pass  # 不寫

為什麼這樣設計：

extract_code_block：嘗試 well-formed ```lang\n...\n``` regex、失敗 fallback 到 ```lang\n...$ 寬鬆版。小模型（1B）常忘記結尾 fence、寬鬆才能用。寫嚴格 regex 失敗時直接 abort、是另一種 permission gate（不應用 = 安全）。
永遠先印 diff：diff 是純讀操作、無副作用、永遠 safe。讓使用者先看 LLM 提議了什麼、再決定要不要 apply。
args.auto 在 elif 鏈最前面、dry-run 預設：強迫使用者明示 opt-in 才會寫檔。預設不寫、是「safe default」設計原則。

跑 --dry-run 預設、看實際發生：

1python3 scripts/permission-demo/edit_with_llm.py \
2  content/llm/knowledge-cards/token.md \
3  "把開頭第一段最後加一句『Token 是 embedding 的輸入單位』"

實測輸出（1B 模型）：

 1[+] Asking gemma3:1b to: '把開頭第一段最後加一句「Token 是 embedding 的輸入單位」'
 2[+] Proposed diff:
 3--- a/token.md
 4+++ b/token.md
 5@@ -6,16 +6,4 @@
 6 tags: ["llm", "knowledge-cards"]
 7 ---
 8
 9-Token 的核心概念是「LLM 內部處理文字的最小單位」...（整段刪除）
10-
11-## 概念位置
12-...（整段刪除）
13-...（後面所有段落都刪除）
14+Token 是 embedding 的輸入單位。
15
16[+] --dry-run: file unchanged. Use --confirm or --auto to apply.

驚悚發現：1B 模型完全沒理解「加一句」、把整篇刪掉只剩一行。但 --dry-run 不寫檔、檔案安全。

重點：

LLM 行為糟、但 wrapper 設計安全、結果 OK。
把同樣 instruction 餵 31B+ 模型結果會合理——模型能力決定 LLM 端品質、wrapper 設計決定最差情況的後果。
在 wrapper 端永遠假設 LLM 會亂改、設計 safe default、是 defensive programming。

Test 3：`--confirm` 模式、step-by-step 審查

--confirm mode 印 diff、問 y/N、user 確認才寫：

1python3 scripts/permission-demo/edit_with_llm.py \
2  content/llm/knowledge-cards/token.md \
3  "加一句說明" \
4  --confirm

互動流程：

1[+] Proposed diff:
2--- a/token.md
3+++ b/token.md
4@@ ... 整段刪除 ...
5
6[?] Apply this change to content/llm/.../token.md? [y/N] _

使用者看 diff 發現「整篇被刪了」、按 N、檔案安全。

這個 mode 對應的副作用範圍：4.3 工具的副作用範圍設計提的 spectrum：

等級	副作用	適合 mode
1	純讀（grep、git status）	`--dry-run` 或無 gate
2	寫 sandbox / staging	`--dry-run` + 人類事後審
3	寫本地持久化（如 commit、edit 檔）	`--confirm`
4	寫共享 / production（push、deploy）	`--confirm` 強制
5	操作真實世界（發 email、買股票）	`--confirm` + 額外 audit

本 demo 改 markdown 是等級 3（寫本地檔）、--confirm 是合適粒度。改 production code 或 git push 是等級 4 / 5、--confirm 該強制不該 optional。

Test 4：`--auto` 模式、危險自動化

--auto 不問直接寫：

1cp /tmp/token-orig.md content/llm/knowledge-cards/token.md  # 還原
2python3 scripts/permission-demo/edit_with_llm.py \
3  content/llm/knowledge-cards/token.md \
4  "加一句說明" \
5  --auto

實測：

1[!] --auto mode: writing without confirmation
2[+] wrote content/llm/knowledge-cards/token.md

檔案內容變成：

1---
2title: "Token"
3...
4---
5
6Token 是 embedding 的輸入單位。

整篇刪光、只剩一句。沒人 catch 到、commit + push 出去就是 production 災難。

--auto mode 適合什麼場景：

LLM 任務範圍狹窄、可預測（如 format JSON、補 type annotation 給已有 type stub）。
配合 git workflow（每次 auto edit 都自動 commit、出問題 git revert）。
CI / batch processing、人類事後審 PR。

--auto mode 不適合什麼場景：

任務開放性高（「改寫這段讓它更清楚」）。
不可逆環境（直接寫 production DB / 發 email）。
用弱模型（< 14B）跑、行為不穩。

設計 wrapper 時、把 --auto 設成顯式 opt-in、預設保持 dry-run / confirm 等較保守模式。本 demo 的 mutually_exclusive 設計（-g.add_mutually_exclusive_group()）保證三種 mode 只能擇一、避免歧義。

Test 5：LLM 寫 shell command、誰執行？

改檔案是「直接副作用」、寫 shell command 是「間接副作用」——同樣的問題：誰真的執行？

1curl -s http://localhost:11434/v1/chat/completions \
2  -H "Content-Type: application/json" \
3  -d '{
4    "model":"gemma3:1b",
5    "messages":[{"role":"user","content":"Give me a single shell command to find and delete all .log files in my home directory."}],
6    "stream":false
7  }' | python3 -c "import json,sys; print(json.load(sys.stdin)['choices'][0]['message']['content'])"

LLM 回：

1```bash
2find ~ -name "*.log" -delete
3```

這是個有破壞性的指令。檢查 home 下 .log 還在不在：

1find ~ -maxdepth 3 -name "*.log" 2>/dev/null | head -5
2# /Users/tarragon/.npm/_logs/2026-05-11T15_33_34_348Z-debug-0.log
3# /Users/tarragon/.npm/_logs/2026-05-11T11_58_08_827Z-debug-0.log
4# ...

都還在。LLM「給了」rm 指令、但沒人執行。

執行路徑只有兩種：

人類 paste 到 shell：人是執行者、權限是 user’s shell session permission。Audit trail：terminal history。
Wrapper 程式 subprocess.run(...)：wrapper 是執行者、權限是 wrapper process 的 capability。Audit trail：wrapper 的 log。

LLM 永遠不是執行者。所以「LLM 寫了 rm -rf」這個句子不能成立——它只能「生成了 rm -rf 字串」。

Agent 場景的 stake：4.4 Agent 架構提到 agent loop = 「LLM 提議 → tool 執行 → 結果回 LLM → 下一輪」。Tool 執行那一步是 wrapper 做的、LLM 只看到結果。Agent 框架是否安全、完全看 tool 怎麼設計：

Tool 限制範圍：read-only file system access、不暴露 shell→ 即使 LLM 想跑 rm -rf 也沒對應 tool、無法執行。
Tool 暴露 bash tool：給 LLM 一個「執行任意 shell command」的 tool。LLM 提議什麼 wrapper 都跑——這時 wrapper 設計失誤等同把鑰匙直接交給 LLM。
Tool 暴露 bash tool + per-command confirm：每個 shell 呼叫前 wrapper 暫停、問人類「該不該執行」。對開發 / 探索環境合理、production 自動化流程會被互動卡住、不適用。

對照：Claude Code / Cursor / aider 的權限模型

不同 LLM application 在權限 gate 上的設計選擇：

Application	File edit	Shell exec	預設審查粒度
Claude Code（CLI）	可、有 PreToolUse hook 可攔截	可、有 hook	中（部分自動、部分 prompt）
Cursor	可、agent mode	可（agent terminal）	中、agent 行為可調
aider	可、直接 diff + commit	可（`--auto-commits` mode）	中、預設 commit 前 diff
Continue.dev	inline edit（user 按 Cmd+;）	不直接 exec	高（user 必須 explicit）
Open WebUI（純 chat）	不	不	N/A（無 wrapper）
自寫 wrapper（如本 demo）	看設計	看設計	看設計

共通 pattern：所有「自動 edit / exec」的 app 都有某種 confirm 或 hook 機制。沒有 confirm 的 app 等於把寫 production 的鑰匙交給 LLM。

選 application 時看的維度：

預設 mode 是什麼？（auto / confirm / dry-run）
哪些動作會自動執行、哪些會 prompt？
有沒有 audit log、能不能 review LLM 改了什麼？
萬一 LLM 行為崩、怎麼 rollback？（git revert、snapshot、undo stack）

設計自家 wrapper 的權限模型

如果你寫的是「LLM 自動處理 X」這種 wrapper、權限設計的 checklist：

副作用分級：把可能的動作分到 4.3 spectrum 等級 1-5。
預設 dry-run：不確定就不寫。Apply 必須 opt-in。
永遠印 diff / preview：用戶才能 catch LLM 亂改。
Confirm 在不可逆操作：等級 3+ 永遠 prompt、等級 4+ 強制 prompt + 額外 audit。
Audit log：每個 wrapper 動作寫 log（時間、user、action、result）。出問題能追溯。
Rollback path：git commit、backup、snapshot 任選一種、必有。
限制 tool 範圍：給 LLM 暴露最少 tool、不暴露 shell。需要 shell 限制白名單。
小模型加更保守 gate：1B 模型亂改機率高、保留 --dry-run 或 --confirm 即可、避免 --auto；31B+ 較穩、可給 auto + audit。

跑這份 demo 的完整指令

 1# 前置：Ollama 跑著、gemma3:1b 已 pull
 2ollama list | grep gemma3:1b
 3
 4# 備份要測試的檔案
 5cp content/llm/knowledge-cards/token.md /tmp/token-orig.md
 6
 7# Mode 1：dry-run（預設、最安全）
 8python3 scripts/permission-demo/edit_with_llm.py \
 9  content/llm/knowledge-cards/token.md \
10  "加一句說明"
11
12# Mode 2：confirm（互動審查、適合中等風險）
13python3 scripts/permission-demo/edit_with_llm.py \
14  content/llm/knowledge-cards/token.md \
15  "加一句說明" \
16  --confirm
17
18# Mode 3：auto（無確認、危險、僅 batch 用）
19python3 scripts/permission-demo/edit_with_llm.py \
20  content/llm/knowledge-cards/token.md \
21  "加一句說明" \
22  --auto
23
24# 還原
25cp /tmp/token-orig.md content/llm/knowledge-cards/token.md

何時這篇會過時

不會過時的部分：

LLM HTTP API 是 pure function、無副作用——這個事實在所有「分離 inference server / wrapper / client」的架構都成立。
權限 gate 在 wrapper / application 層——是 software architecture invariant、不是 LLM 特性。
副作用範圍 spectrum 跟人類審查粒度的對應。
--dry-run / --confirm / --auto 三檔的設計取捨。

會變的部分：

具體 LLM application 的 default mode（Cursor / aider / Claude Code 都會持續調整）。
哪個模型「不會亂改」的 ranking（隨模型能力提升而變）。
MCP / tool spec 細節（會持續演化、但「tool 是 wrapper 暴露」的本質不變）。

讀這篇若指令跑不過、可能是 wrapper script API 微調、但「測試 LLM 是不是 pure function」這個方法本身永遠成立——拿任何 LLM API、送任何 prompt、check 檔案 mtime / md5、就能驗證。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、副作用範圍 spectrum 原理見 4.3 Tool use 原理、Agent loop 跟人類審查的協作見 4.4 Agent 架構、Tool use / MCP server 權限模型的個人 dev 視角見 6.2、術語見 Sandbox。

Hands-on：用 QLoRA 在本機 fine-tune coding 模型

Tue, 12 May 2026 00:00:00 +0000

QLoRA（4-bit 量化 base model + LoRA adapter）讓消費級硬體也能 fine-tune 7B-32B 模型、是 2026/5 本地 fine-tuning 的主流方法。「在本機 fine-tune 一個小 coding 模型懂我 codebase 的慣例」是個人 dev 的合理目標、特別是在「本地 RAG 不夠精準、prompt engineering 已到天花板」的場景。本篇用 QLoRA 把 fine-tuning 的最短路徑走完：環境準備、資料蒐集、訓練、evaluation、合併權重、部署到 Ollama / llama.cpp 配 VS Code Continue.dev。

本篇 framing 是「真實會跑、不只跑 demo」、所以包含：硬體預算估算、catastrophic forgetting 防護、evaluation 確認真的有提升、回退方案（fine-tune 失敗時怎麼辦）。

驗證日期：2026-05-12 環境：M4 Max 64GB + Hugging Face PEFT 0.13、或 5090 24GB + bitsandbytes 目標模型：Qwen3-Coder-7B-Instruct（fine-tune 後輸出符合自己 codebase 慣例的 code）

為什麼這個議題重要

寫 code 場景的常見 fine-tune 動機：

私有 codebase 慣例：自家專案有特殊 naming、特殊 design pattern、prompt engineering 拉不到、希望模型「自然知道」
特殊框架 / library：用 obscure 的內部 framework、通用模型沒看過、補完品質差
特定文檔風格：commit message、PR description、code comment 有 team-specific 格式
Reduce RAG dependence：把高頻 knowledge 編進模型權重、減少每次 query 都要 retrieve

但不該 fine-tune的情境（先排除）：

新增世界知識：fine-tune 不擅長加新事實、用 RAG 即可
複雜 reasoning 能力：fine-tune 一般不會讓模型變更會 reason、reasoning 來自 pre-training + RL
改善通用對話品質：通用對話品質取決於 RLHF、fine-tune 多半會 catastrophic forgetting
資料太少（< 500 對）：fine-tune 收益低、不如優化 prompt + RAG

整體流程

11. 硬體預算估算       → 知道能跑哪個 size 的 base model
22. 蒐集 fine-tune 資料 → 50-5000 對 (prompt, response)
33. 環境準備           → Python + bitsandbytes / PEFT / transformers
44. 跑 QLoRA 訓練      → 1-3 epochs、看 loss 趨勢
55. Evaluation         → 在 held-out set + 通用 benchmark 都跑
66. Merge LoRA → base  → 得到合併權重 .safetensors
77. Convert → GGUF     → 用 llama.cpp convert 工具
88. Deploy 到 Ollama   → ollama create my-coder -f Modelfile
99. 配 Continue.dev    → config.json 加新 provider

Step 1：硬體預算估算

QLoRA 訓練的記憶體需求（粗略估算）：

 1記憶體 ≈ N (B 參數) × 0.6 GB     ← 訓練時
 2        ≈ N (B 參數) × 0.3 GB     ← 推論（4-bit）
 3
 4Apple Silicon Mac：
 5  M4 Pro 24GB → 訓 7B 可、訓 14B 緊
 6  M4 Pro 36GB → 訓 7B 寬鬆、訓 14B 可
 7  M4 Max 64GB+ → 訓 30B 可、推論 70B 可
 8
 9PC 獨立 GPU：
10  RTX 4090 / 5090 24GB → 訓 7B 寬鬆、訓 14B / 30B with `--n-cpu-moe` 可
11  RTX A6000 48GB → 訓 30-32B 寬鬆

事實查核註：Apple Silicon 上的 QLoRA 支援度跟 bitsandbytes / MLX 工具鏈版本相關、2026/5 主流是用 MLX 自己的 LoRA 實作（mlx-lm）、CUDA 路線用 transformers + bitsandbytes + PEFT。具體支援度以對應 release 為準。

本篇假設 fine-tune Qwen3-Coder-7B、所以 24GB+ Mac 或 16GB+ GPU 都能跑。

Step 2：蒐集 fine-tune 資料

最關鍵的 step。資料品質決定 fine-tune 成敗。

資料格式（典型 SFT format）

1[
2  {
3    "instruction": "用我們 codebase 的慣例寫一個 REST endpoint 處理 user signup",
4    "input": "需求：accept email + password、回 JWT",
5    "output": "// 完整符合我們慣例的 code..."
6  },
7  ...
8]

或對話格式（ChatML）：

1[
2  {
3    "messages": [
4      {"role": "system", "content": "你是我們 codebase 的 coding assistant"},
5      {"role": "user", "content": "..."},
6      {"role": "assistant", "content": "..."}
7    ]
8  }
9]

資料來源

來源	取得方式	品質
過往 commit 的「good code」	從 main branch 抽函式 + git log message	中（人工挑）
Code review 通過的 PR diff	從 GitHub API 抽 merged PR	高
內部 wiki 跟 design docs	轉成 Q&A 對	中
Synthetic data：用大模型生	給雲端旗艦 prompt「以這個 codebase 風格寫 X」	中（要 review）
Pair programming 紀錄	自己跟 IDE 互動的 log	高（最貼近真實使用）

資料量門檻

資料量	預期效果
< 50 對	通常無感、不如優化 prompt + RAG
50-500 對	開始有 in-domain 效果、但易 forgetting
500-5000 對	顯著效果、QLoRA fine-tune 甜蜜點
5000+ 對	邊際收益遞減、開始接近 full fine-tune 效果

資料 mixing（防 catastrophic forgetting）

訓練 batch 內 mix 通用資料、避免 fine-tune 把通用能力洗掉：

180% in-domain data（你的 codebase 範例）
220% 通用 instruction data（如 Alpaca、ShareGPT subset）

通用 data 可從 Hugging Face datasets 抓（如 tatsu-lab/alpaca、teknium/OpenHermes-2.5）。

Step 3：環境準備

Apple Silicon Mac（用 MLX）

1# MLX 是 Apple 的 ML framework、原生支援 Apple Silicon
2pip install mlx mlx-lm
3
4# 或用 conda（推薦）
5conda create -n llm-ft python=3.11
6conda activate llm-ft
7pip install mlx-lm

PC（CUDA + transformers + bitsandbytes）

1# 安裝 CUDA 12.x（依 GPU 驅動）
2
3# Python 套件
4pip install torch transformers peft bitsandbytes accelerate datasets trl

Step 4：跑 QLoRA 訓練

Apple Silicon（MLX）方式

 1# 把 base model 下載到本機
 2huggingface-cli download Qwen/Qwen3-Coder-7B-Instruct \
 3  --local-dir ~/models/qwen3-coder-7b
 4
 5# 把資料整理成 JSONL（一行一筆）
 6# data/train.jsonl、data/valid.jsonl
 7
 8# 跑 LoRA fine-tune（MLX 內建 4-bit）
 9mlx_lm.lora \
10  --train \
11  --model ~/models/qwen3-coder-7b \
12  --data data/ \
13  --batch-size 4 \
14  --lora-layers 16 \
15  --iters 1000 \
16  --learning-rate 1e-4 \
17  --steps-per-eval 100 \
18  --adapter-path ./adapters

PC（CUDA）方式

 1# train.py（簡化版）
 2from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, BitsAndBytesConfig
 3from peft import LoraConfig, get_peft_model
 4from trl import SFTTrainer
 5from datasets import load_dataset
 6
 7# 4-bit 量化載入 base
 8bnb_config = BitsAndBytesConfig(
 9    load_in_4bit=True,
10    bnb_4bit_quant_type="nf4",
11    bnb_4bit_compute_dtype="bfloat16",
12)
13model = AutoModelForCausalLM.from_pretrained(
14    "Qwen/Qwen3-Coder-7B-Instruct",
15    quantization_config=bnb_config,
16)
17
18# LoRA 配置
19lora_config = LoraConfig(
20    r=16,
21    lora_alpha=32,
22    target_modules=["q_proj", "v_proj"],
23    lora_dropout=0.05,
24    task_type="CAUSAL_LM",
25)
26model = get_peft_model(model, lora_config)
27
28# 資料
29dataset = load_dataset("json", data_files="data/train.jsonl")
30
31# 訓練
32training_args = TrainingArguments(
33    output_dir="./checkpoints",
34    learning_rate=1e-4,
35    num_train_epochs=2,
36    per_device_train_batch_size=4,
37    gradient_accumulation_steps=4,
38    save_steps=200,
39    logging_steps=20,
40    optim="paged_adamw_8bit",
41    bf16=True,
42)
43trainer = SFTTrainer(
44    model=model,
45    args=training_args,
46    train_dataset=dataset["train"],
47    max_seq_length=2048,
48)
49trainer.train()
50trainer.save_model("./adapters")

關鍵超參數的判讀邏輯：

參數	預設	怎麼調
`r`（LoRA rank）	16	小 dataset（< 1000 對）可降到 8、大 dataset 升到 32 / 64
`lora_alpha`	32（通常 = 2 × r）	增大會放大 LoRA 影響、太大易 catastrophic forgetting
`target_modules`	q_proj, v_proj	8B+ 模型可加 k_proj + o_proj 提品質、加 ffn 是進階
`lora_dropout`	0.05	dataset 小時加大（0.1）防 overfit
`num_train_epochs`	2	1-3 是常見範圍、看 validation loss 何時開始升
`per_device_train_batch_size`	4	視 GPU 記憶體；不夠用 `gradient_accumulation_steps` 補
`learning_rate`	1e-4	LoRA 適合較大 lr（vs full fine-tune 的 1e-5）、初值可 1e-4 ~ 5e-4

看 training loss 趨勢

訓練過程中、loss 應該：

 1Initial：~2.5（cross-entropy on next-token）
 21/4 訓練：降到 ~1.5
 31/2 訓練：降到 ~1.0
 43/4 訓練：降到 ~0.7
 5末段：穩定在 ~0.5
 6
 7警示訊號：
 8- Loss 不降（≈ 2.0+ 持平） → lr 太小、或資料品質差、或 base 跟資料分佈完全不合
 9- Loss 降到 < 0.1 → over-fit、validation loss 應該已升、stop training
10- Loss 出 NaN → lr 太大、降 lr 重來

Step 5：Evaluation

訓練完不能只看 training loss、要實測：

1. Held-out test set（你自己的 in-domain 資料）

1# 拿 valid.jsonl 跑、看模型輸出 vs expected
2# 用 BLEU / ROUGE / 或 LLM-as-judge 評分
3mlx_lm.generate \
4  --model ~/models/qwen3-coder-7b \
5  --adapter ./adapters \
6  --prompt ""

2. 通用 benchmark（防 catastrophic forgetting）

跑通用 HumanEval、看分數有沒有崩：

1# 用 lm-evaluation-harness
2git clone https://github.com/EleutherAI/lm-evaluation-harness
3cd lm-evaluation-harness
4pip install -e .
5
6lm_eval --model hf \
7  --model_args pretrained=~/models/qwen3-coder-7b,peft=./adapters \
8  --tasks humaneval \
9  --batch_size 8

判讀：

HumanEval 從 75% → 75%：通用能力保留、in-domain 提升、成功
HumanEval 從 75% → 55%：catastrophic forgetting、要重新 fine-tune（用 LoRA + 資料 mixing 加強）

3. 自己工作流測試（最重要）

實際在 Continue.dev 用幾天、看：

In-domain 任務輸出是否確實貼近 codebase 慣例
通用 coding 任務（如「寫一個 helper function」）是否仍 OK
對話流暢度有沒有變差
出現怪行為的頻率

Step 6：合併 LoRA 跟 base model

訓練完得到 adapter（小檔、< 100MB）。要用於日常推論、通常 merge 進 base：

 1# MLX 方式
 2mlx_lm.fuse \
 3  --model ~/models/qwen3-coder-7b \
 4  --adapter-path ./adapters \
 5  --save-path ~/models/qwen3-coder-7b-mycodebase
 6
 7# PEFT 方式
 8python -c "
 9from peft import AutoPeftModelForCausalLM
10import torch
11
12model = AutoPeftModelForCausalLM.from_pretrained('./adapters', torch_dtype=torch.bfloat16)
13merged = model.merge_and_unload()
14merged.save_pretrained('./merged-model')
15"

Step 7：Convert 成 GGUF（給 Ollama / llama.cpp 用）

 1# 安裝 llama.cpp
 2git clone https://github.com/ggml-org/llama.cpp
 3cd llama.cpp
 4pip install -r requirements.txt
 5
 6# Convert HF → GGUF
 7python convert_hf_to_gguf.py ~/models/qwen3-coder-7b-mycodebase \
 8  --outfile ~/models/qwen3-coder-7b-mycodebase.gguf
 9
10# 量化（可選、Q4_K_M 是甜蜜點）
11./llama-quantize \
12  ~/models/qwen3-coder-7b-mycodebase.gguf \
13  ~/models/qwen3-coder-7b-mycodebase-Q4_K_M.gguf \
14  Q4_K_M

Step 8：Deploy 到 Ollama

 1# 寫 Modelfile
 2cat > ~/models/Modelfile-mycodebase < 3FROM ~/models/qwen3-coder-7b-mycodebase-Q4_K_M.gguf
 4
 5TEMPLATE """<|im_start|>system
 6{{ .System }}<|im_end|>
 7<|im_start|>user
 8{{ .Prompt }}<|im_end|>
 9<|im_start|>assistant
10"""
11
12PARAMETER temperature 0.3
13PARAMETER top_p 0.9
14PARAMETER num_ctx 32768
15EOF
16
17# 註冊到 Ollama
18ollama create mycodebase-coder -f ~/models/Modelfile-mycodebase
19
20# 測試
21ollama run mycodebase-coder "寫一個 user signup endpoint"

Step 9：配 Continue.dev

 1// ~/.continue/config.json 加：
 2{
 3  "models": [
 4    {
 5      "title": "My Codebase Coder",
 6      "provider": "ollama",
 7      "model": "mycodebase-coder",
 8      "apiBase": "http://localhost:11434"
 9    },
10    // ... 既有 models
11  ]
12}

VS Code restart 後、Continue panel 下拉就能切換。

失敗模式跟回退

失敗 1：訓練 loss 不降

可能原因：

資料品質差 → 人工 review 50 對、看 instruction-response 是否真有對應
資料 token 太短 → 多數 < 100 token、模型學不到複雜 pattern
lr 太小 → 試 lr 5e-4

回退：把資料品質提升、或放棄 fine-tune 用 RAG。

失敗 2：HumanEval 大幅下降（catastrophic forgetting）

緩解：

加入 20% 通用 data mixing、重訓
降低 epochs（從 3 → 1）
降低 LoRA rank（從 16 → 8）

失敗 3：In-domain test 進步、但日常用感覺沒變

可能原因：

Test set 跟真實工作流分佈不符
Prompt template 在訓練跟推論不一致

緩解：實際在 Continue.dev 跑 1-2 週、看真實效果再判斷。

失敗 4：訓練爆 OOM

緩解：

降 batch size（4 → 2 → 1）
加 gradient_accumulation_steps（保持 effective batch size）
用更小的 LoRA rank
換更小的 base model（7B → 3B）

何時不該繼續 fine-tune 路線

跑完一次 fine-tune 評估後、若：

In-domain 提升 < 10%：相對成本（時間 + 維護）不划算、用 RAG
Catastrophic forgetting > 10%：跟其他能力 trade-off 不值得
資料量不夠（< 500 對）：RAG 比 fine-tune 更有效
工作流變化快（codebase 慣例每月變）：fine-tune 過時得快、RAG 更靈活

跟其他模組的關係

原理層的 LoRA 設計見 LoRA 卡片跟 QLoRA 卡片
Catastrophic forgetting 跟整體 alignment 議題見 3.4 訓練流程
Fine-tune 後的模型評估見 4.14 Benchmarking
隱私 / 供應鏈面：fine-tune 後 model 怎麼分享（給 team / 上 HuggingFace）見 6.0 模型供應鏈
跟 RAG 的取捨見 4.1 RAG 原理的「RAG vs Fine-tuning vs Long Context」段

Hands-on：跨資料夾風格 follow 任務的模型對比

Tue, 12 May 2026 00:00:00 +0000

本篇是個讓本地 LLM 在「讀兩個資料夾、學風格、寫新章節」任務上自我評估的實驗。任務本身內容無關緊要（隨便挑了一份私人創作資料夾）、要看的是不同模型在 instruction following / format consistency / 篇幅控制三個維度的差距。

實驗跑了四個本地模型對比：

gemma3:1b（815 MB、舊代 / 小）
gemma3:4b（3.3 GB、舊代 / 中）
qwen3:8b（5.2 GB、跨家族 / 大）
gemma4:e4b（9.6 GB、新代 / 中、bf16）

對應 4.4 Agent 架構「規劃能力是雲端旗艦的明顯強項、本地小模型的明顯弱項」這條觀察、用具體 structural metrics 驗證、並揭示**「最新世代 + 較大 size」未必比「跨家族 / 較強訓練」勝出**。

驗證日期：2026-05-12 環境：Ollama 0.23.2、Apple Silicon、MPS backend 任務：讀資料夾 A（風格參考、5 章已寫完）+ 資料夾 B（同類型、5 章已寫完、需寫 v06）→ 為 B 生成 v06 評估方式：純 structural metrics、不評論內容品質

任務設計

兩個資料夾結構：

1A/                          B/
2├── README.md               ├── README.md
3├── v01_XXX.md              ├── v01_XXX.md
4├── v02_XXX.md              ├── v02_XXX.md
5├── v03_XXX.md              ├── v03_XXX.md
6├── v04_XXX.md              ├── v04_XXX.md
7└── v05_XXX.md              └── v05_XXX.md
8                            └── v06_XXX.md  ← 要生成

兩個資料夾用不同 markdown 格式：

A 風格：# 標題（H1）+ ## 場景設定 段 + 結尾 **【本章結束】**
B 風格：## v0X｜<主題>（<角色1>×<角色2>）（H2）+ 直接敘事、無結尾 marker

LLM 看完 A + B 後、要寫 B 的 v06——必須 follow B 的格式、不是 A 的。是個 format discrimination 測試。

評估維度

純 structural、不涉內容：

維度	測法
篇幅控制	char count、跟 B 既有 v01-v05 平均比
段落結構	paragraph count、avg paragraph char
Markdown heading	H1 / H2 count、是否寫對 v06 title 格式
結尾 marker	是否誤加 A 風格的「【本章結束】」
角色 fidelity	提到 B 兩個主角名次數（太少 = 內容偏離）
跨資料夾串戲	提到 A 資料夾角色名次數（contamination）
對話 follow	「對話行」（行首是 `「`）數量、跟 baseline 比
生成時間	從送 prompt 到收完整 response

不評估的：

內容品質、文筆好壞
敘事邏輯是否合理
角色塑造是否生動

純 structural 評估的好處是 reproducible、不需 reviewer 主觀判斷、可自動跑。

Baseline：B 既有 v01-v05 的 metrics

B 資料夾 5 個既有章節的平均：

Metric	Average
char count	~933
paragraph count	~32
avg paragraph chars	~29
dialogue lines	~7
H1 used	0（全部用 H2）
H2 used	1
結尾「【本章結束】」	全部 False
Cross leak	全部 0
主角名提及（合計）	~60

這是 LLM 該模仿的目標。

四個模型的結果

四個 model 跑同樣 prompt、同樣輸入內容。

對比表

維度	Baseline	`gemma3:1b`	`gemma3:4b`	`qwen3:8b`	`gemma4:e4b`
模型大小	—	815 MB	3.3 GB	5.2 GB	9.6 GB（bf16）
發布世代	—	Gemma 3	Gemma 3	Qwen 3	Gemma 4（2026/4）
char count	~933	4324（4.6×）	1330	951（1.02×）	679
paragraph count	~32	145	29	36	11
avg paragraph chars	~29	30	46	26	62
H1 = 0	符合	不符（1）	符合	符合	不符（1）
H2 = 1	符合	不符（0）	符合	符合	不符（3）
v06 title 格式	—	不符	符合	符合	不符
結尾 marker	False	符合	符合	符合	符合
Cross leak	0	無（0）	無（0）	無（0）	無（0）
dialogue lines	~7	4	0	7	0
主角名提及（合計）	~60	286	24	27	0
通過項目	—	2 / 7	6 / 7	7 / 7	1 / 7
生成時間	—	41.8s	36.5s	97.5s	43.5s

各模型觀察

gemma3:1b（815 MB）：

篇幅 4.6× 失控、段落數 4.5× 超標、用 H1 而不是 H2。
顯示 1B 模型對「2000-3000 字」這種 numeric instruction 沒有有效執行能力、會一直生成到 context 限制。
但 cross leak 0、結尾 marker 也沒誤加——「不要 X」這類 negative instruction follow 較成功。

gemma3:4b（3.3 GB）：

篇幅 / 段落 / heading 結構全 OK、明顯比 1B 大幅改善。
dialogue lines = 0：完全沒寫對話、整篇純敘事。表示 4B 抓到字面 structural feature、但沒抓到「對話 driven 敘事」這個 stylistic feature。
主角名提及 24 次（baseline ~60）—內容偏短、提及次數偏低、但比例合理。

qwen3:8b（5.2 GB、跨家族）：

唯一 7/7 全 pass 的模型——篇幅完美匹配（951 vs ~933）、段落數合理（36 vs ~32）、heading 對、對話 7 行完全等於 baseline。
跨家族 + 大一級的組合表現質變，比同家族下一級的 4B 模型大幅提升。
代價：生成時間 97.5s、約是 4B 模型的 2.7×。

gemma4:e4b（9.6 GB、新代）：

驚人的 1/7、最差表現——比 1B 還少通過項目。
主角名提及 0：完全沒寫角色名、純抽象敘述「某一方」「另一方」。
dialogue 0：沒對話。
生成內容是「劇情大綱建議」而非實際章節：含「劇情核心思路」「預計情緒強度」「寫作切入點建議」等 meta-text。
輸出末尾「（此為結構化建議、等待具體的指令後、將會生成與風格一致的劇情內容。）」——明示它把 prompt 理解成「給建議框架、等下一步」。

Strict prompt retest：揭示 internal alignment

懷疑 1/7 可能是「prompt 不夠強硬」、用 strict prompt 重跑 gemma4:e4b。Strict 加了八條規則、明示：

1- 直接從 `## v06｜...` 開頭、不寫前言
2- 絕對不可寫「劇情核心思路」「預計情緒強度」「寫作切入點」等 meta-text
3- 必須直接寫敘事內容、含對話、動作、感受描寫
4- 強制提到角色名多次、不要用「某一方」「另一人」抽象稱呼
5- ...

Strict prompt 結果：

Metric	原 prompt	strict prompt	變化
char count	679	660	相同量級
H1 = 0	不符（1）	符合	改善
H2 = 1	不符（3）	符合	改善
v06 title 格式	不符	符合	改善
meta-text 出現	有	無	改善
dialogue lines	0	3	改善
主角名提及	0	0	未改善
通過項目	1 / 7	4 / 7	+3

從 1/7 → 4/7、prompt 強化明顯有用。但主角名提及兩次都 0、即使 strict prompt 明示「強制提到角色名」、模型仍用「兩人」「彼此」「對方」抽象稱呼。

這比「模型不會 follow」更精確、是兩個層次的 follow 差別：

Surface level instruction（heading 格式、不要 meta-text、要對話）：model 願意 follow strict prompt。
Semantic level instruction（在這個情境用具名角色）：model 有 internal alignment 抗拒、即使 prompt 明示也不 follow。

Gemma 4 e4b 是 device-deployable edge variant、RLHF 可能特別針對「敏感情境下的人物識別」做 alignment。這個 alignment 比 prompt-level instruction follow 更深、是 hard line、不能用 prompt engineering 繞過。

關鍵觀察

Model size 不是唯一因素、訓練 alignment 更重要

最反直覺的結果：

gemma4:e4b（9.6 GB、最新世代）原 prompt 通過 1/7、strict prompt 通過 4/7。
gemma3:4b（3.3 GB、舊一代）通過 6/7。
qwen3:8b（5.2 GB、跨家族）通過 7/7。

「最大 + 最新」不等於「最好 follow instruction」。在這個任務上、ranking 是：

1qwen3:8b > gemma3:4b > gemma3:1b ≈ gemma4:e4b (strict) > gemma4:e4b (default)

可能因素：

訓練資料分佈差異：Qwen 系列訓練資料含大量中文、對中文 instruction follow 更穩。
Edge variant 的 alignment 設計：gemma4:e4b 是 device-deployable edge variant、RLHF 可能特別在敏感情境用 conservative output。Strict prompt 能改善 surface-level（heading、meta-text、對話）、但 semantic-level（具名角色）有 hard line 不能繞過。
跨家族效應 > 跨代效應：Qwen vs Gemma（不同家族）比 Gemma 3 vs Gemma 4（同家族跨代）影響更大。

兩層 instruction follow

gemma4:e4b 的 strict prompt retest 揭示一個重要區分：

Surface-level instruction（heading 格式、不要 meta-text、要對話）：可以用 strict prompt 改善、prompt engineering 有效。
Semantic-level alignment（特定情境的角色處理、敏感主題的表述方式）：是 RLHF 階段建立的 hard line、prompt engineering 繞不過。

設計應用時要意識：「LLM follow 不了 instruction」可能不是能力問題、是 alignment 問題。模型訓練時被刻意 align 不做某些事、即使 prompt 明示也不會做。發現這種情況、改換 model（或 less-aligned variant）會比繼續調 prompt 更省時間。

「最新世代」的標籤可能誤導

Gemma 4 是 2026/4/2 才發布的最新代、size 也夠大、但在這個 instruction following 任務上輸給 6 個月前發布的 Gemma 3 4b。

設計應用 / 選模型時、實測對自己 task 的表現比「最新 / 最大」標籤可靠。Benchmark ranking（如 LMSYS Chatbot Arena）反映平均表現、未必 reflect 你的 narrow 任務。本實驗示範了「自己跑一次」比「看 benchmark」更可靠的判讀方法。

Structural feature 跟 stylistic feature 兩層

跨四個模型一致觀察：

Structural feature（heading level、結尾 marker、不要 cross leak）：所有模型多少都抓到。
Stylistic feature（對話 driven 敘事、篇幅精準）：差異極大、Qwen3 8B 完美、其他三個都有明顯失分。

這對應 4.4 Agent 的「規劃 vs 字面 follow」差距——字面 instruction 容易、stylistic mimic 困難。寫應用時、預期 follow「形式約束」（output JSON、結尾 signature）跟 follow「風格約束」（用簡潔口吻、bullet 而非段落）兩種 instruction 的成功率不同。

Cross-pairing leak：全 0

四個模型 cross leak 都 0——表示「不要混角色」這個 instruction 兩個都 follow 成功。可能因素：

角色名是名詞、模型 generation 時容易 constrain。
Prompt 已明示「為 B 寫」、模型沒被 A 角色名干擾。

如果改成模糊 instruction（「混合 A、B 風格」）、leak 可能會出現——本實驗沒涵蓋這個 case。

生成時間：size ≠ 時間

四個模型的生成時間：

模型	size	時間
gemma3:1b	815 MB	41.8s
gemma3:4b	3.3 GB	36.5s
qwen3:8b	5.2 GB	97.5s
gemma4:e4b	9.6 GB	43.5s

意外發現：

1B 比 4B 慢：因為 1B 生成 4324 字、4B 生成 1330 字、總 token 量決定總時間、不是 model size。
qwen3:8b 慢 2.7×：8B 的 forward pass 較慢、加上 generation 量級正常、總時間最長。
gemma4:e4b 跟 1B 相近：generation 短（679 字）、抵消 model 較大的開銷。

tokens per second 跟 total latency 是兩件事——decode 速度快但生成太多 token、未必更快完成任務。

對寫應用的啟示

「最新最大」≠ 「最好 follow」：選模型實測自己 task、benchmark / size 只是輔助訊號。
本地小模型（< 3B）做需要 follow 結構規則的任務、要嚴格驗證：用 structural metrics 自動 check、目視判斷模型「看起來有做到」的可靠度低。
Edge variant 可能有 special behavior：device-deployable variant 可能 RLHF 偏向 conservative、不一定適合所有任務。
跨家族對比比同家族升 size 收益大：Qwen3 8B vs Gemma3 4B 比 Gemma3 4B vs Gemma3 1B 改善更明顯。
「形式跟風格」分開驗證：應用層的 validation 分維度 score、比一次評全部更可解讀。

跑這個實驗的 framework

通用流程（不放具體 script、會綁定 corpus 內容）：

11. 準備兩個資料夾、A 是風格參考、B 是 work-in-progress
22. 寫 helper script 把兩個資料夾完整內容 + 任務說明做成 prompt
33. 跑多個 model 各一次（同 prompt、不同 model）
44. 對輸出計算 structural metrics（char count、paragraph、heading、dialogue lines）
55. 跟 B 既有章節的 baseline metrics 對比
66. 列通過 / 失敗矩陣

關鍵設計選擇：

A 跟 B 風格故意不一樣：才能驗證 LLM 是否分辨「該 follow 哪個」。
不評估內容品質：純 structural 評估 reproducible、不需 reviewer 主觀判斷。
baseline 用既有章節算：B 自己的 v01-v05 是「正確答案」的 reference。
跑多個跨家族 / 跨世代 / 跨 size 模型：避免「只測一個就下結論」的偏差。

何時這份對比會過時

具體模型 ranking：新模型發布後 ranking 會變、特別是新版 Gemma 4 / Qwen 4 / Llama 4 等推出時。
「Gemma 4 edge 表現差」這個觀察：可能隨後續 fine-tune 或新版改善。

不會過時的部分：

Model size 不是 instruction following 的唯一因素——這個現象在所有 LLM 都存在。
Structural vs stylistic 兩層 follow 難度不同。
跨家族對比比同家族升 size 收益大、這個現象可能持續。
純 metrics-based 評估比主觀判斷可重現。
「自己跑一次」比「看 benchmark」更可靠的判讀邏輯。

未來想擴展、可以加入更多維度（如反向 retrieval：把生成內容當 query、看能不能找回原資料夾；或 perplexity-based 評估）。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、選模型的優先序策略見 Model selection priority、模型 tag 命名規則見 Model tag、跑多模型的記憶體預算見 Resource management。

Hands-on：LLM 運行中 + 結束的資源管理

Tue, 12 May 2026 00:00:00 +0000

跑本地 LLM 的核心 invariant 跟雲端不一樣：Mac 是 shared resource、不是 dedicated GPU。雲端 inference server 跑進 dedicated container、結束 instance 自然回收所有資源；本地推論伺服器跑在你日常用的 Mac、跟統一記憶體共享同一塊容量，忘記管理會 silently 吃光 RAM、磁碟、port、最後讓系統變慢甚至 swap。

本篇紀錄三個 dimension（RAM / 磁碟 / port）的觀察工具跟釋放姿勢、對比 Ollama 跟 ComfyUI 兩種典型 lifecycle、加上實測釋放數字。對應 0.7 隱私資料流原理「每個 hop 都要 audit」這條思維——資源管理也是 hop 級的 audit、不是「裝完就忘」。

驗證日期：2026-05-12 環境：macOS 14、Apple Silicon、Ollama 0.23.2、ComfyUI 0.21.0、SDXL base 1.0

為什麼這事重要

雲端 inference：

1Container start → load model → serve requests → container stop → 所有 RAM / 磁碟 / port 自動回收

本地 inference：

1brew services start → load model on demand → serve → ??? → 你忘記 stop
2                                              → RAM / 磁碟一直被佔
3                                              → 下次重開機才釋放

具體會踩到的問題：

RAM：18 GB SDXL 模型載入後不會自動卸、即使 ComfyUI idle、Python process 仍占 RAM
磁碟：ollama pull 累積、~/.ollama/models/blobs 半年可長到 50 GB+、不主動清不會減
Port：上次 crash 的 ollama serve 進程沒乾淨清、port 11434 還占著、下次啟動報「address already in use」
GPU / Metal：模型載入後 Metal context 佔住、跟其他 GPU-using app（影片剪輯、遊戲）競爭

三個 dimension + 觀察工具

Dimension	觀察指令	看什麼
RAM	`vm_stat \| head -5`	Pages free（每 page 16 KB）、空閒越多越好
RAM（per process）	Activity Monitor 或 `ps aux \| sort -k6 -rn \| head`	哪個 process 佔最多記憶體
磁碟	`df -h ~ \| tail -1`	系統 volume 剩餘
磁碟（per dir）	`du -sh ~/.ollama/models/blobs`	LLM models 累積量
Port	`lsof -i :11434`	誰在 listen 該 port
Process	`ps aux \| grep -i ollama \| grep -v grep`	Ollama / ComfyUI / Python 跑哪幾個
Ollama loaded models	`ollama ps`	哪些 model 在 RAM、size、idle timer

實測：剛 kill 完 ComfyUI（SDXL + Python venv）後、vm_stat 看到 free pages 從 619K 變 1090K（每 page 16 KB）、約 +7.5 GB RAM 釋放——這就是 SDXL + ComfyUI process 一直占的記憶體量。

Ollama 的 lifecycle（auto-unload 模式）

Ollama 走「按需 load / idle unload」設計：

1brew services start ollama          → daemon 啟動、沒 model 載入、RAM 占用 ~200 MB
2                                     port 11434 listening
3ollama run gemma3:4b "hello"        → 把 model 載入 RAM (~4-5 GB)
4                                     立刻 generate response
5                                     model 留在 RAM
6(idle 5 分鐘、無新 request)         → Ollama 自動 unload model
7                                     RAM 釋放、daemon 仍跑著
8ollama run gemma3:4b "next"         → 重新 load model（~5-10 秒）、generate
9brew services stop ollama           → daemon 結束、port 釋放

關鍵參數 OLLAMA_KEEP_ALIVE（環境變數、預設 5m）：

 1# 看當前 loaded models
 2ollama ps
 3# NAME         ID              SIZE      PROCESSOR    UNTIL
 4# gemma3:4b    a2af6cc3eb7f    5.5 GB    100% Metal   4 minutes from now
 5
 6# 啟動時調 keep_alive（持續佔 RAM 直到 ollama 重啟）
 7OLLAMA_KEEP_ALIVE=-1 brew services restart ollama
 8
 9# 啟動時讓 model 用完立即 unload
10OLLAMA_KEEP_ALIVE=0 brew services restart ollama

選 keep_alive 的 trade-off：

設定	RAM 占用	首字延遲	適合場景
`0`	最低（generate 完立即釋放）	高（每次都重 load）	偶爾用、RAM 緊張
`5m`（預設）	中（活躍用占住、閒 5 分鐘後釋放）	低（活躍期不重 load）	大多場景
`-1`	高（永久占住）	最低	整天頻繁用、RAM 充裕

主動 unload 指令：

1# 把 idle 的 model 立刻從 RAM 卸掉、但 daemon 仍跑
2curl -s http://localhost:11434/api/generate \
3  -d '{"model": "gemma3:4b", "keep_alive": 0}'
4
5# 或關掉整個 daemon
6brew services stop ollama

ComfyUI 的 lifecycle（持續占用模式）

ComfyUI 走完全不同模式：model 載入後一直在 RAM、直到 server process 結束。沒有 auto-unload 機制。

 1python main.py                      → ComfyUI server start、port 8188 listening
 2                                     RAM ~3 GB（Python venv + 框架）
 3第一次 Queue Prompt (用 SDXL)        → 載入 sd_xl_base_1.0.safetensors (~6 GB)
 4                                     RAM 跳到 ~9-10 GB
 5                                     generate 完成、model 留在 RAM
 6連續多張生成                          → 維持 ~9-10 GB、沒 unload
 7idle 1 小時                          → 仍 ~9-10 GB（沒 timer）
 8切到 ControlNet workflow             → 多載 ControlNet model (~2 GB)、ComfyUI 自動 swap
 9                                     RAM 暫升、SD 部分可能被 evict 到 disk
10Ctrl+C / pkill                       → process 結束、RAM 完全釋放

要釋放 ComfyUI 占的 RAM、唯一方法是結束 server：

 1# 找 PID
 2ps aux | grep "ComfyUI/main.py" | grep -v grep
 3
 4# 優雅關（讓它 cleanup）
 5pkill -INT -f "ComfyUI/main.py"
 6
 7# 強制 kill（如果上面沒反應、最多等 5 秒再強制）
 8pkill -KILL -f "ComfyUI/main.py"
 9
10# 確認 port 釋放
11lsof -i :8188 | head -3

實測：M4 Pro 32GB、SDXL base 載入後 ComfyUI process 占 ~8 GB RAM；pkill -9 後 vm_stat 顯示 free pages 增加 ~470K page（7.5 GB 釋放）。

為什麼 Ollama 跟 ComfyUI 設計不同

因素	Ollama 設計	ComfyUI 設計
主要使用模式	API 服務、IDE plugin 透過 HTTP 用	互動 GUI、user 連續調 prompt
Model 切換頻率	高（不同任務換不同 model）	低（一次 session 通常一個 model）
User 期待的 latency	低首字延遲（IDE 補完場景）	高 throughput（連續生圖）
結論	Auto-unload 釋 RAM 給其他 model	持續載入避免重複 load 浪費

兩種設計都 valid、適合不同使用模式。理解差異後就知道 ComfyUI 一直占 RAM「不是 bug」、是設計選擇。

跟其他本地 server 對比

Server	Auto-unload	主動 unload 指令	占 RAM 觀察
Ollama	有（5 分鐘 idle）	`keep_alive: 0` 或 stop daemon	`ollama ps`
LM Studio	無（GUI 主動關閉 model 才釋）	GUI Eject Model	Activity Monitor
llama.cpp `llama-server`	無	kill process	`lsof -i :8080`
ComfyUI	無	kill process	`ps aux \| grep ComfyUI`
oMLX	有（per model 可配）	API endpoint	server log

結論：只有 Ollama 跟 oMLX 內建 auto-unload、其他都要手動釋放。GUI server（LM Studio）通常給 user 一個「Eject」按鈕、CLI server 通常要 kill process。

標準釋放程序

寫 code 完一天結束、要釋放所有資源、按下表順序操作：

 1# 1. 確認當前狀態（記下要還回去多少 RAM）
 2vm_stat | head -3
 3df -h ~ | tail -1
 4ollama ps
 5ps aux | grep -E "ollama|ComfyUI|llama-server" | grep -v grep
 6
 7# 2. 釋放當前載入的 LLM models（Ollama）
 8brew services stop ollama
 9# 或保留 daemon、只 unload model：
10# curl -s http://localhost:11434/api/generate -d '{"model": "", "keep_alive": 0}'
11
12# 3. 結束 ComfyUI / 其他 GUI server
13pkill -INT -f "ComfyUI/main.py" 2>/dev/null
14pkill -INT -f "llama-server" 2>/dev/null
15sleep 5
16# 強制（如果上面沒清乾淨）
17pkill -KILL -f "ComfyUI/main.py" 2>/dev/null
18pkill -KILL -f "llama-server" 2>/dev/null
19
20# 4. 驗證所有 port 釋放
21lsof -i :11434 -i :1234 -i :8080 -i :8188 -i :8000 2>&1 | head
22
23# 5. 確認釋放量
24vm_stat | head -3
25# free pages 該明顯增加

容易出錯的「釋放方式」

killall Python：會 kill 所有 Python process、包括其他 dev tool（如 jupyter、Django）。用 pkill -f "ComfyUI/main.py" 等明確 pattern。
rm -rf ~/.ollama：會清掉所有 model registry、下次要重 pull 全部 model。Cleanup 用 ollama rm 才精準。
brew uninstall ollama：直接卸載 Ollama 本身、過 reinstall 麻煩。Stop service 就夠。
重開機釋放：work 但太重、會中斷其他工作。用 process-level 操作即可。

磁碟長期累積管理

Models 一旦 pull 進 ~/.ollama/models/blobs、不主動 rm 不會減少。半年累積可長到 50 GB+。

Ollama models 只是磁碟大戶之一。整台 Mac 突然被吃光、要從哪裡查起的全機診斷順序（先排除快照浮動、再用實際佔用值逐層找大戶），見 macOS 磁碟空間診斷流程——那篇的佔用大戶表也會把 ollama 列為其中一項、再連回本篇的專屬清理 idiom。

觀察累積

 1# Ollama models 總占用
 2du -sh ~/.ollama/models/blobs
 3# 4.1G    /Users/tarragon/.ollama/models/blobs
 4
 5# 逐 model 看大小
 6ollama list
 7# NAME                       ID              SIZE      MODIFIED
 8# gemma4:e4b                 c6eb396dbd59    9.6 GB    Less than a second ago
 9# nomic-embed-text:latest    0a109f422b47    274 MB    3 hours ago
10
11# ComfyUI checkpoints 累積
12du -sh ~/.ollama ~/Projects/ComfyUI/models 2>/dev/null
13# 4.2G    /Users/tarragon/.ollama
14# 7.0G    /Users/tarragon/Projects/ComfyUI/models

清理策略

 1# 刪掉很久沒用的 model
 2ollama rm 
 3
 4# 一次清掉所有 Ollama models（保留 daemon）
 5ollama list | tail -n +2 | awk '{print $1}' | xargs -I {} ollama rm {}
 6
 7# 看 ComfyUI checkpoints 哪些可清
 8ls -lh ~/Projects/ComfyUI/models/checkpoints/
 9
10# 手動刪不要的 .safetensors（小心、不能 undo）
11rm ~/Projects/ComfyUI/models/checkpoints/.safetensors

磁碟管理 idiom

定期（每月或磁碟剩 < 20% 時）做：

du -sh ~/.ollama ~/Projects/ComfyUI/models 看當前累積
ollama list 看哪些 model 沒在用（看 MODIFIED 欄、太舊的考慮刪）
刪實驗用的 model、保留 daily-driver
ComfyUI checkpoints 同樣 review

Port / Process 排錯

啟動報「address already in use」

 1# 找誰占
 2lsof -i :11434
 3# COMMAND  PID  USER   ...   NAME
 4# ollama   xxx  ...    ...   TCP localhost:11434 (LISTEN)
 5
 6# 看是不是 zombie process
 7ps aux | grep $(lsof -ti :11434 | head -1)
 8
 9# 清掉
10kill -9 $(lsof -ti :11434)
11
12# 或重啟 service（會自動清舊 instance）
13brew services restart ollama

Ollama daemon 掛了不知道

 1# 健康檢查
 2curl -s http://localhost:11434/api/version
 3
 4# 沒回應、看 service 狀態
 5brew services list | grep ollama
 6
 7# 沒在跑、重啟
 8brew services start ollama
 9
10# 看 log
11tail -50 /opt/homebrew/var/log/ollama.log

ComfyUI 看似跑著但 Queue 不動

1# 看 stdout / stderr log
2tail -30 /tmp/comfyui.log  # 如果啟動時 redirect 到 log
3
4# 看是不是 GPU / Metal stuck（極少見、但 SDXL 大量並發可能踩到）
5# 解法：kill + 重啟
6pkill -9 -f "ComfyUI/main.py"

完整排錯流程跟「先確認哪一層壞」見 1.7 排錯方法論。

觀察記憶體佔用：實測對照

跑這幾步紀錄 baseline → load model → kill 的 RAM 變化：

 1# Baseline
 2vm_stat | grep "Pages free"
 3# Pages free:                              1090076.   ← ~17 GB free
 4
 5# 啟動 Ollama + load 4B model
 6brew services start ollama
 7ollama run gemma3:4b "hello"
 8ollama ps
 9# NAME       SIZE     PROCESSOR    UNTIL
10# gemma3:4b  5.5 GB   100% Metal   4 minutes from now
11
12vm_stat | grep "Pages free"
13# Pages free:                               750000.   ← 跌 ~5 GB（model 載入）
14
15# 額外啟動 ComfyUI + load SDXL
16nohup python main.py > /tmp/comfyui.log 2>&1 &
17# 在 GUI 上 Queue Prompt 跑一次 SDXL generation
18vm_stat | grep "Pages free"
19# Pages free:                               280000.   ← 再跌 ~7.5 GB（SDXL 載入 + Python venv）
20
21# kill 全部
22brew services stop ollama
23pkill -9 -f "ComfyUI/main.py"
24sleep 3
25vm_stat | grep "Pages free"
26# Pages free:                              1090000.   ← 回到 baseline

每 page 16 KB、所以 free pages 數字 × 16 KB = 實際 free RAM bytes。

自動化釋放：launchd / shell alias

寫個 shell function 一鍵 cleanup：

 1# 加進 ~/.zshrc
 2llm-cleanup() {
 3  echo "[*] Stopping Ollama..."
 4  brew services stop ollama 2>/dev/null
 5
 6  echo "[*] Killing ComfyUI..."
 7  pkill -INT -f "ComfyUI/main.py" 2>/dev/null
 8  sleep 3
 9  pkill -KILL -f "ComfyUI/main.py" 2>/dev/null
10
11  echo "[*] Killing other model servers..."
12  pkill -KILL -f "llama-server" 2>/dev/null
13  pkill -KILL -f "lm-studio-server" 2>/dev/null
14
15  echo "[*] Verifying ports..."
16  for p in 11434 1234 8080 8188 8000; do
17    lsof -i :$p 2>/dev/null | head -2
18  done
19
20  echo "[*] Free RAM:"
21  vm_stat | grep "Pages free"
22}

完事打 llm-cleanup 一鍵釋放、不用記每個 process 怎麼 kill。

何時這篇會過時

不會過時的部分：

RAM / 磁碟 / port 三個 dimension 是長期 invariant、用什麼 LLM server 都成立。
「Mac 是 shared resource、需要主動管理」這個 framing。
Ollama 跟 ComfyUI 兩種典型 lifecycle 對比（auto-unload vs persistent）。
觀察工具（vm_stat、lsof、ps、du、Activity Monitor）是 macOS 系統 API、不會 deprecate。
標準釋放程序、自動化 shell function 模式。

會變的部分：

具體 model size / RAM 占用數字（隨模型架構演化）。
OLLAMA_KEEP_ALIVE 等具體環境變數名（Ollama API 演化）。
ComfyUI 可能加 auto-unload feature（社群有 issue 在討論）。

讀的時候若指令跑不過、先 --help 看當前版本 flag；釋放 RAM 的「kill process」這個機制本身永遠成立。

跟其他 hands-on 章節的關係

Ollama 安裝：介紹 brew services start/stop、本篇延伸 lifecycle 細節
ComfyUI 安裝：介紹 ComfyUI 啟動、本篇延伸 RAM 占用 + 釋放
1.7 排錯方法論：用三層架構定位故障、本篇是 lifecycle 視角的補完
0.7 隱私資料流原理：「每個 hop 都要 audit」延伸到資源層

整體心法：本地 LLM 工作流跟雲端不一樣、要主動管理 lifecycle、不能裝完就忘。

Hands-on：用本地 LLM 跑 judge harness（最小可行版）

Tue, 12 May 2026 00:00:00 +0000

4.21 LLM-as-judge 寫的是原理。本篇用 Ollama / LM Studio 在本地跑一個最小可行的 judge harness、對自己工作流的真實案例做 systematic eval。隱私敏感場景特別合用 — eval 資料（user query、agent output、可能含 PII）不需要送雲端。

本篇 framing 是「真的能跑、不只跑 demo」、所以包含：硬體預算估算、judge model 選型、bias 緩解、calibration 流程、跟 production trace 串接的延伸；術語對應 LLM-as-Judge 與 LLM Tracing。

驗證日期：2026-05-12 環境：M4 Max 64GB / 或 24GB+ VRAM PC + Ollama Judge model：DeepSeek-R1-Distill-Qwen-32B 或 QwQ-32B（reasoning model 當 judge 更穩）

為什麼用本地 LLM 當 judge

跟雲端 judge（GPT-5 / Claude 4）對比：

維度	本地 judge	雲端 judge
Cost	0（電費）	$0.001-0.01 per item
隱私	完全本地、eval 資料不出機器	送雲端、依政策
Latency	視硬體、reasoning model 30B 約 30-60s	API call 5-30s
品質上限	本地 30B reasoning 接近 2024 雲端中段	雲端旗艦上限高
大量 batch	慢但 zero cost	快但 cost 累積

判讀：

大量 production trace eval（千筆以上）+ 隱私敏感 → 本地 judge
少量 high-stake eval（< 50 筆） → 雲端旗艦 judge
A/B test 快速 iterate → 雲端（latency 重要）

硬體預算

Judge model 選擇看硬體：

硬體	適合 judge model	預期 latency / item
M4 Pro 24GB / 4090 16GB	Qwen2.5-32B Q4 或 DeepSeek-R1-Distill-14B	30-60s
M4 Pro 36GB	DeepSeek-R1-Distill-Qwen-32B Q4	60-120s
M4 Max 48-64GB / 5090 24GB	QwQ-32B 或 DeepSeek-R1-Distill-Qwen-32B Q6	60-180s（含 reasoning trace）
M4 Max 128GB / 多卡 PC	Llama 3.3 70B 或 Qwen3-72B	120-300s

注意：reasoning model 的 thinking trace 拉長 latency、跑大量 batch 要規劃時間（100 item × 60s = 100 min）。

何時不適合用本地 judge：

硬體低於 M4 Pro 24GB / 4090 16GB（如 M1/M2 16GB、無獨立 GPU PC）：跑 32B reasoning model 太緊、強行跑會 swap、latency 爆 5-10×。改用 14B instruct model（如 Qwen2.5-14B Q4）作 judge、或直接走雲端 judge
Batch × latency > 你可接受的等待時間：100 item × 60s/item = 100 min；500 item × 120s = 17 hr。預估超過 4 hr 時改雲端 batch API
eval 任務太 nuanced：細粒度倫理 / 法律 / 高 stake 判讀、本地 32B distill 能力不夠、用雲端旗艦 judge 或人工 review
calibration 階段：第一次跑、要快速 iterate rubric、雲端 judge latency 短（5-30s）更適合 iterate

整體流程

11. 蒐集 eval dataset    → JSONL：每行一個 (input, output) 待評
22. 設計 rubric         → 評分維度、scale、明確 anti-pattern
33. 寫 judge prompt     → 4 段式（task / input-output / rubric / format）
44. 跑 harness          → 對每筆 input call judge、parse JSON output
55. Aggregate 結果      → 算平均分數、找 outlier、看 reasoning
66. Calibration（可選）  → 跟 human eval 比對、調 rubric
77. 跟 production trace 串接 → 定期跑 production sample

Step 1：蒐集 eval dataset

JSONL format（每行一筆）：

1{"id": "001", "input": "用 Python 寫 fibonacci function", "output": "def fib(n):\n    if n <= 1:\n        return n\n    return fib(n-1) + fib(n-2)"}
2{"id": "002", "input": "解釋這段 code 在做什麼：[code]", "output": "這段 code 實作了 ..."}
3{"id": "003", "input": "[bug 描述]", "output": "[suggested fix]"}

來源：

過往 Continue.dev / Cursor 跟 LLM 的對話 log
Production agent 的 trace（手動 export 或 LangSmith / Phoenix dump）
自己 hand-craft 30-100 個典型 case

放在 data/eval.jsonl。

Step 2：設計 rubric

依任務類型設計、coding 任務的範例 rubric：

 1評分維度：
 21. Correctness（程式碼能否運作、邏輯是否正確）：1-5
 32. Style（是否符合 codebase convention、習慣命名）：1-5
 43. Completeness（是否完整解決 user request）：1-5
 5
 6評分規則：
 7- 5：完美無瑕、可直接 merge
 8- 4：小修可用、整體正確
 9- 3：方向正確、需 substantial 修改
10- 2：部分對、主要邏輯有錯
11- 1：完全錯、誤導使用者
12
13明確不加分（緩解 verbosity bias）：
14- 冗長 / verbose（同樣正確的短答 = 長答）
15- 道歉 / 開場白
16- 「我希望這有幫助」這類禮貌話
17- 過多 markdown 修飾（不加分）

Step 3：Judge prompt 模板

寫成 file prompts/judge.txt：

 1你是 LLM 輸出品質評估員、要評估 coding assistant 對使用者請求的回答品質。
 2重要：請保持公正、忽略風格偏好、聚焦在實質品質。
 3
 4User request:
 5{input}
 6
 7Assistant response:
 8{output}
 9
10評分維度（每維 1-5、加總用 overall）：
11
121. Correctness：程式碼能否運作、邏輯正確
13   5: 完美無瑕
14   4: 小修可用
15   3: 方向正確、需 substantial 修改
16   2: 部分對、主要邏輯有錯
17   1: 完全錯
18
192. Style：符合 codebase convention
20   1-5 同 scale
21
223. Completeness：完整解決 user request
23   1-5 同 scale
24
25明確不加分項：
26- 冗長 / verbose（同樣正確的短答 = 長答）
27- 道歉 / 開場白
28- 「我希望這有幫助」這類禮貌話
29- 過多 markdown 修飾
30
31請依下列 JSON 輸出（不要加額外文字、不要 markdown code fence）：
32{
33  "correctness": <1-5>,
34  "style": <1-5>,
35  "completeness": <1-5>,
36  "reasoning": "<簡短解釋、< 100 字>",
37  "overall": <1-5>
38}

Step 4：跑 harness

Python 最小可行版：

 1# judge_harness.py
 2import json
 3import requests
 4from pathlib import Path
 5
 6JUDGE_MODEL = "deepseek-r1:32b"  # 或 qwq:32b
 7OLLAMA_URL = "http://localhost:11434/v1/chat/completions"
 8
 9def load_dataset(path):
10    """Load JSONL eval dataset."""
11    with open(path) as f:
12        return [json.loads(line) for line in f if line.strip()]
13
14def load_prompt_template(path):
15    return Path(path).read_text()
16
17def call_judge(prompt):
18    """Call Ollama judge model、回 raw response text."""
19    resp = requests.post(OLLAMA_URL, json={
20        "model": JUDGE_MODEL,
21        "messages": [{"role": "user", "content": prompt}],
22        "temperature": 0.1,  # judge 用低 temperature 穩定
23        "stream": False,
24    }, timeout=600)
25    return resp.json()["choices"][0]["message"]["content"]
26
27def parse_judge_output(text):
28    """Parse judge 回的 JSON、容錯處理（reasoning model 可能加  標記）。"""
29    # 跳過 reasoning trace
30    if "" in text:
31        text = text.split("")[-1]
32
33    # 找 JSON 區塊
34    start = text.find("{")
35    end = text.rfind("}") + 1
36    if start == -1 or end == 0:
37        return None
38    try:
39        return json.loads(text[start:end])
40    except json.JSONDecodeError:
41        return None
42
43def run_harness(dataset_path, prompt_template_path, output_path):
44    dataset = load_dataset(dataset_path)
45    template = load_prompt_template(prompt_template_path)
46
47    results = []
48    for i, item in enumerate(dataset):
49        prompt = template.format(input=item["input"], output=item["output"])
50        raw = call_judge(prompt)
51        parsed = parse_judge_output(raw)
52
53        result = {
54            "id": item["id"],
55            "scores": parsed,
56            "raw_judge_output": raw[:500],  # 保留前 500 字便於 debug
57        }
58        results.append(result)
59        print(f"[{i+1}/{len(dataset)}] id={item['id']} overall={parsed.get('overall') if parsed else 'FAIL'}")
60
61    # 寫出 JSONL
62    with open(output_path, "w") as f:
63        for r in results:
64            f.write(json.dumps(r) + "\n")
65
66    # Aggregate
67    valid = [r for r in results if r["scores"]]
68    if valid:
69        avg = sum(r["scores"]["overall"] for r in valid) / len(valid)
70        print(f"\nAggregate: {len(valid)}/{len(results)} valid、avg overall = {avg:.2f}")
71
72if __name__ == "__main__":
73    run_harness("data/eval.jsonl", "prompts/judge.txt", "results/eval.jsonl")

跑：

1# 先確認 judge model 已 pull
2ollama pull deepseek-r1:32b
3
4# 跑 harness
5python judge_harness.py

Step 5：Aggregate 跟看 outlier

跑完後 results/eval.jsonl 含每筆評分跟 reasoning。看哪些是 outlier：

1# 找 overall < 3 的 case（低分、值得 review）
2jq 'select(.scores.overall < 3)' results/eval.jsonl
3
4# 看 reasoning 找系統性問題
5jq '.scores.reasoning' results/eval.jsonl | sort -u

判讀：

多數 score 4-5、少數 1-2：整體品質好、focus 在低分 case 找 fix
多數 score 2-3：系統性問題、改 prompt / model / agent design
分數分佈兩極（很多 5 很多 1）：可能是 task difficulty 分群、stratified analysis

Step 6：Calibration（可選但推薦）

跟 human eval 比對、確認 judge 對齊：

11. 從 dataset 抽 30 個（覆蓋 difficulty / score 分佈）
22. 自己 human eval（依同樣 rubric）
33. 對比 judge 跟 human 的 overall score
44. 算 Spearman correlation
5   - > 0.7：judge 對齊夠好、可信
6   - 0.5-0.7：部分問題、改 rubric
7   - < 0.5：judge 不可信、換 model 或重寫 rubric

低 correlation 的常見原因：

Rubric 太 vague、judge 自由發揮
Judge model 能力不夠（換更強 judge）
Verbosity / position bias 沒緩解
Eval task 跟 judge 訓練分佈差距大

Step 7：跟 production trace 串接（延伸）

把 4.20 LLM tracing 蒐集的 production trace export 成 JSONL、定期跑 judge：

1# 假設用 Langfuse self-host
2langfuse export --filter "user_feedback=negative" --output traces.jsonl
3
4# 轉成 eval format
5python convert_trace_to_eval.py traces.jsonl > data/eval-from-prod.jsonl
6
7# 跑 judge
8python judge_harness.py

這是 production quality engineering 閉環的本地版本、隱私敏感場景的 cost-free alternative。

失敗模式

Judge 不輸出合法 JSON：reasoning model 可能在 ... 後仍加 markdown / 解釋

緩解：parse 時跳段、容錯處理、或開 constrained decoding（llama.cpp grammar）

Latency 太長、batch 跑不完：reasoning model 32B 每 item 60-120s、100 item 要 2 小時

緩解：用較小 judge model（如 Qwen2.5-32B instruct、非 reasoning）、或拆 batch 並行

Judge bias 沒緩解：本地 judge 跟雲端 judge 都會有 verbosity / position bias

緩解：rubric 寫明、pairwise 換位置跑 2 次

本地 judge 能力上限：30B distill 對 nuanced case 判讀不如雲端旗艦

緩解：critical case 加 spot human review、或混用本地（量大）+ 雲端（精選 sample）

跟其他章節的關係

原理層的 LLM-as-judge 設計見 4.21
Production trace 串接見 4.20 tracing
Reasoning model 選型見 3.8
隱私 / 跨雲端邊界判讀見 6.4
Benchmark 跟 in-house eval 的層次見 4.14

Hands-on：RAG / MCP 的資源 footprint

Tue, 12 May 2026 00:00:00 +0000

Resource management 章講的是 Ollama / ComfyUI 等推論伺服器的 lifecycle。但跑 RAG / MCP 應用比單純 chat 多吃幾倍資源——embedding model、chat model、index 檔、subprocess、tool 邏輯——而且不同階段（ingest vs query）的瓶頸不一樣。

本篇紀錄 RAG demo 跟 MCP demo 跑起來的實測資源 footprint、提供本地多模型並存的 baseline、給寫 production 應用前的 sanity check。

驗證日期：2026-05-12 環境：M4 Pro 32 GB、Ollama 0.23.2、Python 3.14 Corpus：本 blog 的 content/llm/、71 個 markdown 檔、463 chunks

各階段資源 footprint

RAG / MCP 工作流通常分三階段、各自吃不同資源：

階段	主要資源消耗	持續時間	是否常駐
RAG ingest	embedding model RAM + CPU + 磁碟寫	one-shot（corpus 更動時跑）	否
RAG query	index 載入 RAM + chat model RAM + GPU	per-request	retrieval index 常駐
MCP server	subprocess 永久跑、tool 呼叫時動態載資源	session 內常駐	是

不同階段的瓶頸不一樣、優化目標也不同。

RAG Ingest 階段：one-shot 但批次密集

跑 python3 scripts/rag-demo/ingest.py 時：

1Found 71 markdown files under content/llm
2  [10/71] 86 chunks in 4.5s
3  [20/71] 181 chunks in 8.6s
4  ...
5  [70/71] 461 chunks in 22.2s
6Wrote 463 records to scripts/rag-demo/index.pkl (22.3s)

實測資源消耗：

資源	數字	為什麼
RAM（峰值）	~600 MB	nomic-embed-text 模型 (274 MB) + Python runtime + 累積 records (~200 MB)
磁碟寫	`index.pkl` ~3.7 MB	463 records、每筆含 chunk text + 768-dim float embedding
CPU + GPU	Ollama 推 embedding、Apple Silicon Metal backend	22 秒處理 463 個 chunk、平均 ~21 chunk/sec
網路	0	完全本地推論

Ingest 階段的特性：

One-shot：corpus 不變不用重跑、index 寫一次永久用。
吃 CPU 多於 RAM：產生 embedding 是 forward pass、瓶頸在 GPU 算力、RAM 沒太大壓力。
磁碟寫小：每 chunk 約 8 KB（text 部分 ~5 KB + embedding 768 floats × 4 bytes = ~3 KB）、463 chunks 總共 ~3.7 MB。
可平行：sequential embed(chunk) 是最慢實作、用 batching API（如果 Ollama 支援）或多 worker、能快 5-10x。

規模 extrapolation：

Corpus 大小	預估 ingest 時間	index.pkl 大小
71 docs / 463 chunks（本 blog）	22 秒	3.7 MB
1000 docs / ~7000 chunks（中型 codebase）	~5 分鐘	~55 MB
10000 docs / ~70000 chunks（大型 codebase）	~50 分鐘	~550 MB
100K docs / ~700K chunks（公司 wiki）	~8 小時	~5.5 GB

10K docs 以上就應該考慮：

Batching embedding（單次 request 送 50 個 chunks）
並行 worker（Python multiprocessing、4-8 worker）
換 vector database（避免把全部資料用 pickle 塞 RAM）

RAG Query 階段：retrieval 加 generation

跑 python3 scripts/rag-demo/query.py --show-retrieved "問題" 時：

1Loaded 463 chunks from scripts/rag-demo/index.pkl
2=== Retrieved chunks ===
3  0.870  llm/knowledge-cards/transformer.md#chunk2
4  ...
5（LLM 生成 response）

實測資源消耗（單次 query）：

階段	RAM 增量	時間
載 index.pkl 到 RAM	3.7 MB（小 corpus）/ MB 級（大 corpus）	< 1 秒
embed query	0（已載入的 nomic-embed-text）	200 ms
cosine over 463 chunks	純 Python 計算、暫時用 ~10 MB	50 ms
載 chat model（gemma3:1b）	~1 GB（首次）/ 0（已 cached）	5-10 秒（首次）/ 0（cached）
生成 response	0 額外	5-30 秒（看 model + prompt 長度）

Query 階段的特性：

第一次 cold start：要載 chat model 進 RAM、5-10 秒首字延遲。
後續 query 都快：embedding model + chat model 都在 RAM、retrieval 毫秒級、只剩 generation 時間。
RAM 占用 = embedding model + chat model + index：
- 463 chunks: 274 MB + chat model + 3.7 MB ≈ chat model + 280 MB
- 100K chunks: 274 MB + chat model + ~800 MB 進 RAM、加上 mmap pickle 額外開銷
瓶頸是 chat model：retrieval 部分快、瓶頸完全在 generation。

多模型並存（embedding + chat）：

1# 看當前 RAM 占用
2ollama ps
3# NAME                       SIZE      UNTIL
4# nomic-embed-text:latest    274 MB    4 minutes from now
5# gemma3:4b                  5.5 GB    4 minutes from now

兩個 model 都載入時、Ollama RAM 占用約 6 GB。Ollama 的 OLLAMA_KEEP_ALIVE（預設 5 分鐘）會 idle 後分別 unload 兩個 model。

規模 sanity check：

場景	RAM 需求
純 chat（gemma3:1b）	~1 GB
RAG with gemma3:1b + nomic-embed-text + 小 index	~1.5 GB
RAG with gemma3:4b + nomic-embed-text + 中型 index	~6 GB
RAG with gemma4:31b + nomic-embed-text + 大 index	~20 GB

跑 RAG 比 chat 額外要 ~300-1000 MB（embedding model + index）、不會太重。

MCP Server 階段：subprocess 常駐

跑 python3 scripts/mcp-demo/test_client.py 時、client 會 spawn blog_mcp_server.py 當 child process。

實測：

資源	數字	備註
Subprocess RAM	~50 MB	Python runtime + index.pkl mmap
stdio pipe 數量	3（stdin、stdout、stderr）	每 spawn 一個 server 都要 3 FD
持續時間	client 在跑就在跑	client 結束時 SIGPIPE 自動結束 server

MCP server 的特性：

每個 client spawn 一個 server：Claude Desktop 開 5 個 MCP server、就有 5 個 Python subprocess。
Index lazy load：本 demo load_index() 第一次 call 才 read pickle、之後 cached。Cold start 第一次 tool call 稍慢。
Process lifecycle 在 client 端：client 死了、stdin EOF、server 自然結束。Client 沒清乾淨 spawn 多次就 leak process。

1# 看當前所有 MCP server
2ps aux | grep blog_mcp_server | grep -v grep
3
4# 如果 client crash 留下 zombie：
5pkill -f "blog_mcp_server.py"

多 MCP server 並存（如 Claude Desktop 接 git server + filesystem server + custom server）：

Server	RAM	主要負載
git MCP server	~30 MB	shell 呼叫
filesystem MCP server	~30 MB	fs 操作
blog_mcp_server（本 demo）	~50 MB（含 index）	embedding + retrieval
5 個 server 同時	~200 MB	累積

200 MB 在 32 GB Mac 上不顯眼、但 16 GB Mac + 多 MCP server + 大 chat model 就可能擠到。

RAG + MCP 整合：完整應用 stack

實際應用會疊起來：

1User 在 Claude Desktop 打字
2  ↓
3Claude Desktop (~200 MB)
4  ↓ MCP stdio
5blog_mcp_server.py (~50 MB)
6  ↓ HTTP /api/embeddings + /v1/chat/completions
7Ollama daemon (~200 MB)
8  ↓ load
9nomic-embed-text 模型 (~274 MB) + 主 chat model (~6 GB)

整體 RAM 占用範圍：

配置	估算
Minimal（gemma3:1b + 小 index）	~1.7 GB
Standard（gemma3:4b + 中 index）	~6.5 GB
Heavy（gemma4:31b + 大 index + 多 MCP server）	~22 GB

跟 resource-management 章比、RAG / MCP 加 ~500 MB-1 GB overhead 在 chat 之上、是合理的 tradeoff（換來 retrieval + tool use 能力）。

各資源類型的關鍵指標

整理三 dimension 的關鍵指標跟監控方式：

RAM

1# 看 Ollama 載了哪些 model
2ollama ps
3
4# 看所有 LLM-related process
5ps aux | grep -E "ollama|comfyui|mcp" | grep -v grep | awk '{print $4, $11, $12, $13}' | sort -rn
6
7# 系統整體
8vm_stat | head -3

告警閾值：

RAM 占用 > 80% 系統總量：開始考慮 unload model 或關掉 ComfyUI
看到 swap 增加（vm_stat | grep "Swapouts"）：已經 swap、要立刻減少 model

磁碟

1# Ollama models 累積
2du -sh ~/.ollama/models
3
4# RAG index 累積（多個 corpus）
5du -sh scripts/rag-demo/index*.pkl 2>/dev/null
6
7# ComfyUI checkpoints / VAE / LoRA / etc
8du -sh ~/Projects/ComfyUI/models/*

累積評估：

Ollama: 每 model 1-20 GB、半年累積容易破 50 GB
RAG index: 每 100K chunks ~800 MB、多 corpus 累積要管
ComfyUI: 每 checkpoint 4-7 GB、加 LoRA / VAE / ControlNet 等可達 50+ GB

Process / Port

1# 一鍵 audit 所有 LLM service
2for p in 11434 1234 8080 8188 8000; do
3  echo "=== port $p ==="
4  lsof -i :$p 2>/dev/null | head -2
5done
6
7# 找 zombie subprocess（沒 parent 的 mcp server）
8ps aux | grep "mcp_server" | grep -v grep

告警訊號：

同 port 兩個 process listen：明顯有 zombie、要 kill
多個 mcp_server PPID = 1（被 reparent 到 init）：原 client 死了沒清乾淨

RAG 應用的長期累積管理

跑超過幾週、會累積：

累積物	為什麼累積	怎麼清
Multiple `index.pkl`	跑不同 corpus 各建 index、舊的沒刪	`find scripts -name 'index*.pkl' -mtime +30 -delete`
Ollama models	試了不同 model 沒清	看 `ollama list` modified 欄、`ollama rm` 不用的
Python `__pycache__`	每次跑 script 累積	`.gitignore` 已包、本地 `find . -name __pycache__ -exec rm -rf {} +`
Embedding cache	如果你寫了 embedding cache 機制	各自清理策略

清理 idiom：

1# 每月跑一次的 cleanup
2llm-rag-cleanup() {
3  echo "[*] Old indexes (>30 days):"
4  find scripts -name 'index*.pkl' -mtime +30 -ls
5  echo "[*] Ollama models (review):"
6  ollama list
7  echo "[*] Python caches:"
8  find ~/Projects -name __pycache__ -type d | head -10
9}

跟 production 的差距預告

本篇紀錄的數字、是「single-user、single-machine、no concurrency」的 baseline。Production 場景多了幾個維度：

維度	本地	Production
並發 user	1	10-10000
Index 大小	< 100 MB	TB 級
Model serving	Ollama 1 process	vLLM / TGI / Triton 多 worker
Vector storage	pickle	Pinecone / Weaviate / pgvector
Latency 要求	秒級 OK	p50 < 500ms、p99 < 2s
Cost model	一次性硬體	$/request、$/token
Observability	tail log	metrics / traces / dashboards
失敗模式	crash → 自己重啟	99.9% uptime SLA

Production 視角詳細展開見 4.9 Production 部署的資源評估原理。

何時這篇會過時

不會過時的部分：

三階段 footprint 分類（ingest / query / server）
RAM / 磁碟 / process 三 dimension 的監控指令
多模型並存的 RAM 預估方法
長期累積管理 idiom

會變的部分：

具體 RAM / 磁碟數字（隨模型架構、量化方法演化）
OLLAMA_KEEP_ALIVE 等具體環境變數名
哪些 vector DB 主流（會持續演化）

讀的時候若 RAM 占用跟本篇對不上、可能是新 model 架構效率改變、用同樣方法量自己環境的 baseline 即可。

跟其他 hands-on 章節的關係：完整 hands-on 系列見 Hands-on 章節索引、實作配對見 RAG demo 跟 MCP demo、Ollama / ComfyUI 共用的 lifecycle 管理見 Resource management、Apple Silicon 統一記憶體預算原理見 0.5 記憶體預算。

跑這篇實測的指令總結

 1# 1. RAG ingest 階段 RAM 量
 2ollama ps  # 先看 baseline
 3python3 scripts/rag-demo/ingest.py &
 4INGEST_PID=$!
 5ollama ps  # 看 embedding model 載入後
 6vm_stat | head -3
 7wait $INGEST_PID
 8
 9# 2. RAG query 階段 RAM 量
10ollama ps  # 看 idle 後 unload
11python3 scripts/rag-demo/query.py --show-retrieved "test query"
12ollama ps  # 看 chat model 載入
13
14# 3. MCP server 階段 process / RAM
15python3 scripts/mcp-demo/test_client.py &
16CLIENT_PID=$!
17sleep 2
18ps aux | grep blog_mcp_server | grep -v grep
19wait $CLIENT_PID
20
21# 4. 完成釋放
22ollama list | tail -n +2 | awk '{print $1}' | xargs -I {} \
23  curl -s http://localhost:11434/api/generate -d "{\"model\":\"{}\",\"keep_alive\":0}"

Hands-on Quickstart：clone repo 後跑通所有 demo

Tue, 12 May 2026 00:00:00 +0000

本篇是 hands-on 系列的導讀——把分散在 ollama-setup / rag-demo / mcp-demo / permission-boundary 各章節的 setup 步驟整合成一條最短路徑、讓 clone repo 的人能在 15 分鐘內跑通所有 demo（RAG、MCP、權限邊界三個 demo、RAG 是「retrieval 找相關內容 + LLM 回答」、MCP 是「LLM application ↔ tool server 的標準協議」）。

每篇 hands-on 文章 focus 在「為什麼這樣設計」、本篇 focus 在「按順序跑通」。讀完想懂原理再進對應章節讀。

驗證日期：2026-05-12 環境：macOS 14+、Apple Silicon、Ollama 0.23.2、Python 3.11+ 總時間：~15 分鐘（含 model 下載） 磁碟需求：Step 1 ~ 4 約 ~5 GB（Ollama 200 MB + nomic-embed-text 274 MB + gemma3:1b 815 MB + room for index）；Step 5 ComfyUI 可選加 ~10 GB（SDXL base 模型）。 適用平台：本快速路徑只在 Apple Silicon Mac 驗證過；Intel Mac / Linux 上 Ollama 仍可裝、但 GPU 加速跟 model tag 行為可能不同、實際以官方 release notes 為準。

適合誰讀

你是	本篇對你
剛 clone 我的 blog repo、想跑 demo 試試看	從本篇開始、按步驟做
想懂某個 demo 的設計取捨	跑通後再進 RAG demo / MCP demo / permission-boundary
想懂 Ollama / ComfyUI 安裝細節	Ollama setup / ComfyUI setup
想看 production 怎麼想資源評估	4.9 Production resource planning

為什麼不是「pre-built、clone 就能跑」

衍生產物（index.pkl、__pycache__/、Ollama model weights、即「跑出來的 cache / index / weight」、跟 source code 區別）刻意不進 git、原因見 4.10 衍生產物管理原理。所以 clone repo 後需要：

裝 Ollama daemon + 拉 model（一次性）
跑 ingest.py 建 RAG index（corpus 變動時重跑）
之後 demo 就能用

本篇是這個流程的 step-by-step。

Step 1：裝 Ollama daemon（`brew install ollama` + `brew services start`）

daemon = 常駐 background process、開機自動啟動、見 launchd service 卡。

1brew install ollama
2brew services start ollama

驗證：

1curl -s http://localhost:11434/api/version
2# {"version":"0.x.x"}

詳細安裝跟 troubleshooting 見 Ollama setup 章節。

Step 2：拉 model（embed + chat 兩種角色）

為什麼要拉兩個 model：RAG 需要 embedding model 把文字壓成向量做語意比對、chat model 負責根據 retrieval 結果生成回答、兩者訓練目標不同、不能互通（見 3.1 embedding 空間）。

1# Embedding model（RAG / MCP 都要、274 MB）
2ollama pull nomic-embed-text
3
4# Chat model（推薦從 1B 開始驗證、之後可換大）
5ollama pull gemma3:1b

驗證：

1ollama list
2# NAME                       SIZE      MODIFIED
3# gemma3:1b                  815 MB    ...
4# nomic-embed-text:latest    274 MB    ...

選 chat model 大小的取捨見 1.4 模型選型優先順序。本 quickstart 用 1B 主要驗證流程跑通；長段 daily use（需要 follow 多段格式指令、複雜推理）建議 4B / 8B 起跳（見 instruction-following-test）、極短句驗證 / 簡單問答 1B 也可。本系列預設用 instruction-tuned model 變體（tag 含 :Xb 不含 -base）、適合對話 / 寫 code。

Step 3：建 RAG index（跑 `ingest.py`）

1cd /path/to/blog
2python3 scripts/rag-demo/ingest.py

預期輸出：

1Found 71 markdown files under content/llm
2  [10/71] 86 chunks in 4.5s
3  ...
4Wrote 463 records to scripts/rag-demo/index.pkl (22.3s)

實際數字看你的 blog content 量。Index file 在 scripts/rag-demo/index.pkl、3-50 MB 不等。

詳細的 chunking 策略、embedding 設計、為什麼 pickle、見 RAG demo 章節。

Step 4：跑 RAG / MCP / permission demo

完成 step 1-3 後、四個 demo 都能跑了：

RAG demo（語意搜尋 + LLM 回答）

1python3 scripts/rag-demo/query.py --show-retrieved "你的問題"

例：

1python3 scripts/rag-demo/query.py --show-retrieved "什麼是 MCP？"

預期看到 retrieved chunks（含相似度跟來源 path）+ LLM 用這些 context 生的答案。

MCP demo（stdio JSON-RPC server）

1python3 scripts/mcp-demo/test_client.py

預期看到 5 個階段的 JSON-RPC 對話：initialize / tools/list / tools/call (search_blog) / tools/call (read_chunk) / error。

Permission boundary demo（LLM-mediated file edit）

 1# 備份要試的檔案
 2cp content/llm/knowledge-cards/token.md /tmp/token-orig.md
 3
 4# Dry-run（預設、不寫檔、印 diff）
 5python3 scripts/permission-demo/edit_with_llm.py \
 6  content/llm/knowledge-cards/token.md \
 7  "加一句說明"
 8
 9# 還原（如果剛剛沒用 dry-run）
10cp /tmp/token-orig.md content/llm/knowledge-cards/token.md

詳細的 --dry-run / --confirm / --auto 三種 mode 取捨見 Permission boundary 章節。

Step 5（可選）：ComfyUI text-to-image demo

需要額外裝 ComfyUI + 拉 SDXL model（~10 GB 磁碟）、流程獨立：

1# 跟 step 1 平行的軌道、見 ComfyUI setup 章節
2cd ~/Projects
3git clone --depth 1 https://github.com/comfyanonymous/ComfyUI.git
4cd ComfyUI
5python3 -m venv venv
6source venv/bin/activate
7pip install -r requirements.txt
8# 下載 SDXL base：~/Projects/ComfyUI/models/checkpoints/
9# 見 ComfyUI setup 章節指令

啟動 + 跑 generation：

1cd ~/Projects/ComfyUI && source venv/bin/activate && nohup python main.py > /tmp/comfyui.log 2>&1 &
2# 等 server ready
3until curl -s -o /dev/null -w "%{http_code}" http://127.0.0.1:8188/ | grep -q 200; do sleep 2; done
4
5# 跑 generation（用 repo 內的 script）
6cd /path/to/blog
7python3 scripts/comfyui-test/generate.py --steps 15

詳細裝法 + workflow JSON 解讀見 ComfyUI setup 章節。

Cleanup（完事釋放資源）

1# 停 Ollama daemon
2brew services stop ollama
3
4# kill ComfyUI（如果有跑）
5pkill -9 -f "ComfyUI/main.py"
6
7# 清 build artifact（可選、可重建）
8rm -f scripts/rag-demo/index.pkl
9find scripts -name __pycache__ -type d -exec rm -rf {} +

詳細的 resource lifecycle 跟 cleanup idiom 見 Resource management 章節。

跑通後該往哪讀

想懂什麼	讀哪
「RAG 為什麼 retrieval 對 / generation 弱」	RAG demo
「MCP wire protocol 細節」	MCP demo
「為什麼 LLM 寫 `rm -rf` 不會真的執行」	Permission boundary
「不同 model 在 instruction following 上的差距」	Instruction following test
「跑 demo 占多少 RAM、怎麼釋放」	Resource management + RAG/MCP 資源 footprint
「production 部署該怎麼想」	4.9 Production resource planning
「什麼該進 git、什麼不該」	4.10 衍生產物管理原理

跑不過時

症狀	對應章節
`ollama: command not found`	Ollama setup § 常見前置設定問題
`curl http://localhost:11434/api/version` 沒回應	同上
`python3 ingest.py` 報 HTTP error	確認 Ollama daemon 跑著、nomic-embed-text 已 pull
RAG retrieval 結果都不相關	4.1 RAG § Retrieval 失敗的根本原因
MCP test_client 卡住	MCP demo § subprocess 跟 bufsize
一切都不對	1.7 排錯方法論

何時這篇會過時

會變的部分：

brew install ollama 流程（macOS 跟 brew 演化）
ollama pull 的具體 model tag（model 會新陳代謝）
Python 版本相容性（3.11 → 3.14 各有 quirk）

不會過時的部分：

4 步驟的順序（裝 daemon → 拉 model → 建 index → 跑 demo）是 RAG / MCP / 任何 LLM 應用的通用 setup pattern
衍生產物（index、cache）不進 git 的設計取捨
Cleanup 步驟跟釋放邏輯

跑指令時報錯先看 step 對應章節的 troubleshooting section、再 Google 或開 issue。

Hands-on：安裝 Ollama + 拉第一個 Gemma 模型

Mon, 11 May 2026 00:00:00 +0000

本篇紀錄在 Apple Silicon Mac 上裝 Ollama 並拉一個小模型驗證的完整流程。指令在 macOS 14 (Sonoma) / Homebrew 提供的環境下驗證。

驗證日期：2026-05-11 Ollama 版本：0.23.2 示範模型：gemma3:1b（約 815 MB、選最小可運行的 Gemma 變體當驗證對象）

前置設定

項目	檢查指令	預期
macOS 版本	`sw_vers -productVersion`	14.x 或更新
Apple Silicon	`uname -m`	`arm64`
Homebrew	`brew --version`	4.x（任何近期版）
磁碟空間	`df -h ~`	至少 3 GB 剩餘給 runtime + 1B 模型
port 11434	`lsof -i :11434`	無輸出（port 沒被佔）

表中 brew --version 這關若還沒過、代表 Homebrew 沒裝。新機從零的安裝順序（Homebrew、PATH、bash）見 macOS 新機基礎建設。

選 1B 模型只是為了驗證流程、能力很弱、實際寫 code 場景請用 14B / 31B 級。模型大小跟記憶體 / 磁碟對應關係見 0.5 Apple Silicon 記憶體預算。

安裝 Ollama

用 Homebrew 安裝、是 macOS 上最直接的路徑：

1brew install ollama

執行時間在 broadband 大約 30 秒到 2 分鐘、視 dependency cache 是否已有（Ollama 依賴 mlx-c 等 Apple Silicon 加速函式庫、首次裝較久）。

裝完看到的 caveat 訊息：

1To start ollama now and restart at login:
2  brew services start ollama
3Or, if you don't want/need a background service you can just run:
4  OLLAMA_FLASH_ATTENTION="1" OLLAMA_KV_CACHE_TYPE="q8_0" /opt/homebrew/opt/ollama/bin/ollama serve

兩種啟動模式：

launchd service（推薦日常用）：開機自動啟動、跑在背景。
前景手動跑：terminal 開著、關掉就停。

驗證 binary 路徑：

1which ollama
2# 應該回 /opt/homebrew/bin/ollama

啟動 Ollama Service

選 launchd service 模式：

1brew services start ollama

預期輸出：

1==> Successfully started `ollama` (label: homebrew.mxcl.ollama)

這個動作做兩件事：

註冊一個 launchd plist（macOS 開機自啟動 / 背景服務的設定檔、見 launchd-service 卡片）到 ~/Library/LaunchAgents/homebrew.mxcl.ollama.plist。
立刻啟動 ollama serve、之後重開機自動啟動。

驗證 server 真的在跑：

1curl -s http://localhost:11434/api/version

預期回：

1{"version":"0.23.2"}

看到這個 JSON 就證明三件事：Ollama daemon 跑了、port 11434 通了、API 結構正確。

拉第一個模型

Ollama 用 ollama pull 從官方 registry 下載模型：

1ollama pull gemma3:1b

Gemma 3 1B 約 815 MB、broadband 約 1-2 分鐘下載。下載過程顯示多階段：

1pulling 7cd4618c1faf: 100% ▕██████████████████▏ 815 MB
2pulling e0a42594d802: 100% ▕██████████████████▏  358 B
3pulling dd084c7d92a3: 100% ▕██████████████████▏  8.4 KB
4pulling 3116c5225075: 100% ▕██████████████████▏   77 B
5pulling 120007c81bf8: 100% ▕██████████████████▏  492 B
6verifying sha256 digest
7writing manifest
8success

幾個 hash blob 分別是：模型權重（最大那個）、tokenizer、template、license metadata 等。Ollama 把這些統一管理、放在 ~/.ollama/models/。

驗證模型已下載：

1ollama list

預期：

1NAME         ID              SIZE      MODIFIED
2gemma3:1b    8648f39daa8f    815 MB    35 seconds ago

驗證 OpenAI 相容 API

OpenAI 相容 API 是下游所有工具（IDE plugin、RAG pipeline、MCP server、Continue.dev 等）依賴的介面 contract、驗證它能正常回應、整個 stack 才走得通：

1curl -s http://localhost:11434/v1/chat/completions \
2  -H "Content-Type: application/json" \
3  -d '{
4    "model": "gemma3:1b",
5    "messages": [{"role":"user","content":"Reply in one short sentence: what is 2+2?"}],
6    "stream": false
7  }'

預期回 JSON、choices[0].message.content 是模型回答（如 "2 + 2 = 4"）。看到合理回答就證明：

Ollama 跟模型權重對接好。
OpenAI 相容 API 格式正常（IDE plugin 可以接）。
推論流程整條通。

常見的失敗回應跟下一步：

{"error":"model 'gemma3:1b' not found, try pulling it first"}：先跑 ollama pull gemma3:1b、確認 ollama list 看到該 tag。
curl: (7) Failed to connect to localhost port 11434: Connection refused：server 沒在跑、回 brew services list 看 status、若是 stopped 跑 brew services start ollama。
{"error":"json: cannot unmarshal ..."}：請求格式錯（例如 messages 寫成 string 不是 array）、檢查 JSON body。
連得上但長時間沒回應：第一次載入大 model 需要 30 ~ 60 秒、看 ~/.ollama/logs/server.log 確認是否還在 loading。

用內建 CLI 互動模式也行：

1ollama run gemma3:1b

進入 REPL、可以打字對話。/bye 離開。

第一次跑 ollama run 會把模型載入記憶體（1B 模型大約 1-2 秒）、之後對話延遲低。如果幾分鐘沒用、模型會被 unload 釋放記憶體、下次 run 又要等載入。控制行為的環境變數是 OLLAMA_KEEP_ALIVE（預設 5 分鐘）。

常見前置設定問題

Port 11434 被佔用

1lsof -i :11434

若已有 process 占用、可能是先前手動跑過 ollama serve 沒關。kill 後再 start service：

1pkill -f "ollama serve"
2brew services restart ollama

`ollama: command not found`（裝完還是找不到）

Homebrew 在 Apple Silicon 預設裝到 /opt/homebrew/bin、shell PATH 應該已含。若沒含：

1echo $PATH | tr ':' '\n' | grep homebrew
2# 若沒看到 /opt/homebrew/bin、要加進 ~/.zshrc：
3echo 'export PATH="/opt/homebrew/bin:$PATH"' >> ~/.zshrc
4source ~/.zshrc

Server 啟動但 curl 失敗

1brew services list | grep ollama

若 status 不是 started、看 log：

1tail -50 /opt/homebrew/var/log/ollama.log

常見原因：port 衝突、權限問題、上次 crash 沒清乾淨。

完整排錯流程見 1.7 排錯方法論。

之後想做的事

接 VS Code：見 1.3 VS Code + Continue.dev 整合。設定 apiBase: http://localhost:11434 就能用。
跑更大模型：32GB+ Mac 推薦 gemma4:31b-coding-mtp-bf16（18 GB）。模型選擇見 1.4 模型選型優先順序。
加 embedding：codebase 索引要 embedding 模型：ollama pull nomic-embed-text（274 MB）、見 4.1 RAG 原理。

升級 / 移除

升級：

1brew upgrade ollama
2brew services restart ollama

完整移除：

1brew services stop ollama
2brew uninstall ollama
3rm -rf ~/.ollama  # 清模型 cache（可選）

何時這篇會過時

brew install ollama 安裝方式跟 OpenAI 相容 API 形狀短期內不會變（生態都依賴）。
gemma3:1b 這個具體 tag 預期會被新模型取代、但「拉一個小模型驗證流程」的方法不變。
launchd service 機制是 macOS 系統 API、不會 deprecate。

讀的時候若 brew install 跑失敗、查 Ollama GitHub release notes；其餘驗證步驟結構通用。

Hands-on：本地 AI 工具實作筆記 on Tarragon

Hands-on：安裝 ComfyUI + SDXL base

前置設定

Clone ComfyUI

建 venv + 裝 dependencies

下載 SDXL base 模型

啟動 ComfyUI Server

跑第一張圖

用 REST API 直接生成（不開瀏覽器）

ComfyUI 的 REST API 形狀（無 OpenAI 相容層）

常用 Custom Nodes

常見坑

Python 版本太新、torch 沒 wheel

mps: False、跑在 CPU 上

記憶體不夠、推論時 crash

Workflow JSON 載入失敗

Port 8188 被佔

跟 LLM stack 並存

何時這篇會過時

Hands-on：安裝 whisper.cpp 做語音轉文字

前置設定

安裝 whisper-cpp

下載 Model

跑第一次轉錄

常用選項

跟其他工具串接

常見坑

「audio file not found / format error」

Model 載入慢

中文 / 多語言準確度差

Output 拼錯字

完整 round-trip 驗證

何時這篇會過時

Hands-on：安裝 Piper TTS 做文字轉語音

前置設定

安裝 Piper

下載 Voice Model

跑第一次合成

常用選項

Round-Trip 驗證

跟 LLM 串接：「LLM 說話」的 minimal pipeline

常見坑

中文 / 多語言

--break-system-packages 警告

Voice quality 不夠

Sample rate mismatch

何時這篇會過時

Hands-on：用 blog content 當 corpus 跑 RAG

前置設定

驗證 embedding API 可用

設計取捨

Ingest：把 corpus 變索引

1. slice_markdown：段落感知的 chunk 切割

2. embed：呼叫 Ollama embedding API

3. 走訪 + 持久化

跑 ingest

Query：retrieval + augmentation + generation

1. Cosine similarity + top-K retrieval

2. 建 augmented prompt

3. 呼叫 chat completions

實測結果：retrieval 對、generation 弱

測試 1：「什麼是 MTP？為什麼對寫 code 場景特別有效？」

測試 2：「MCP 跟 function calling 有什麼差別？」

觀察跟原理對應

何時這份 demo 會過時

跑這個 demo 的指令總結

Hands-on：用 blog content 寫一個最小 MCP server

MCP 是什麼層的東西

前置設定

MCP 協議的最小子集

Server 實作

主迴圈：讀 stdin、分派 method、寫 stdout

工具：search_blog

工具：read_chunk

Tool 描述用 JSON Schema

Client 實作（測試用）

跑通整條流程

1. initialize（握手）

2. tools/list

3. tools/call: search_blog

`mps: False`、跑在 CPU 上

`--break-system-packages` 警告

1. `slice_markdown`：段落感知的 chunk 切割

2. `embed`：呼叫 Ollama embedding API

Test 3：`--confirm` 模式、step-by-step 審查

Test 4：`--auto` 模式、危險自動化