Knowledge-Cards on Tarragon

商業概念知識卡片

Tue, 19 May 2026 00:00:00 +0000

商業知識卡片的核心目標是把商業分析文章中的高密度術語拆成可獨立閱讀的概念。VC、創辦人、策略分析師寫的文章常一句話塞進三到五個縮寫；工程背景的讀者若沒有共同術語表，就會卡在名詞而錯過真正的判斷邏輯。

每張卡片只處理一個術語的核心概念、概念位置、可觀察訊號與判讀方式。卡片之間用相對連結互引，建立可導航的概念網路。

建卡判準

商業術語建卡的判準是該術語是否承擔判斷成本，而不是只看是否常見。讀者如果不知道這個名詞，會誤判某段分析的結論或無法解碼一張財務表，就值得建卡。

適合建卡的術語通常有三個特徵。第一，它包含結構性意涵，超出字面翻譯—例如 lock-in 背後是切換成本與生態系設計，遠不只「鎖定」二字。第二，它會影響讀者對商業策略的判讀—例如 FDE 不只是「派工程師」，而是揭露 SaaS 模式不可行的訊號。第三，它可以被獨立說明成「核心概念、位置、訊號、判讀」的四段結構。

不適合建卡的是過度寬泛的詞（「策略」「成長」「轉型」）或僅在特定文章中成立的臨時詞。這類詞應在分析文章中直接補清楚。

卡片格式

每張卡片用四段結構：

 1---
 2title: 術語中英文名
 3date: YYYY-MM-DD
 4description: 一行說明卡片責任
 5weight: 編號
 6---
 7
 8開頭段：定義核心概念，回答「這個術語是什麼」。首段須包含至少一條鄰卡連結建立網路。
 9
10## 概念位置
11
12說明這個概念在商業推理中的位置，跟其他概念的關係。應包含至少一條鄰卡連結。
13
14## 可觀察訊號與例子
15
16說明什麼時候這個概念變成判讀的重點，舉一到兩個具體情境。
17
18## 判讀方式
19
20說明遇到這個概念時要做什麼判斷，常見陷阱是什麼。

開頭段必須先給定義，不要先丟例子。可觀察訊號段必須是具體情境，不可只給名詞解釋。判讀方式段必須給可操作的判斷指引。

商業模式

公司賣什麼、賣給誰、怎麼收費。這是讀懂任何分析文章的第一層語言。

卡片	核心問題	常見出現位置
SaaS	雲端訂閱軟體的商業模式	gross margin、PLG、retention
Vertical SaaS	專做單一行業的 SaaS	niche、tacit knowledge
Horizontal SaaS	跨行業通用的 SaaS	distribution、PLG
CDP	客戶資料平台	數據整合、應用層 SaaS
Enterprise License	企業級授權模式	lock-in、長期合約

單位經濟

每個客戶或每筆交易的成本與利潤結構。判讀一家公司是否真的賺錢的核心語言。

卡片	核心問題	常見出現位置
COGS	賣出產品的直接成本	gross margin、毛利壓縮
Gross Margin	毛利率	SaaS、AI 公司毛利、估值
Marginal Cost	多服務一個客戶的邊際成本	PLG、零邊際複製
P&L	損益表	burn rate、估值
Burn Rate	燒錢速度	runway、新創存活
Runway	現金能撐多久	burn rate、融資時點

進入市場

用什麼通路、銷售模式、組織安排把產品賣出去。

卡片	核心問題	常見出現位置
GTM	進入市場策略	PLG、FDE、銷售模式
PLG	產品自助成長	低 CAC、SaaS 經典模式
FDE	前線部署工程師	tacit knowledge、企業客戶
JV	合資企業	進入企業市場、Palantir 模式
CAC	獲客成本	unit economics、PLG

競爭護城河

為什麼客戶留下來、為什麼別人打不進來。決定一家公司能否長期擊敗對手。

卡片	核心問題	常見出現位置
Lock-in	客戶離不開的結構	enterprise license、生態系
Switching Cost	切換到競爭對手的成本	lock-in、retention
Retention	客戶留存率	unit economics、SaaS
Thin Wrapper	只在底層服務外包一層薄殼	AI 新創、被輾平
Fat Data / Fat Skill	有獨家資料或行業隱性能力	護城河、生存空間
Connector	被收編進生態系變成整合工具	整併週期、AI Labs

市場動態

賽道處在什麼階段、競爭強度、需求類型。判讀一個產業現在能不能進、何時進。

卡片	核心問題	常見出現位置
Red Ocean / Blue Ocean	紅海競爭與藍海空白	整併週期、賽道判讀
Consolidation Cycle	整併週期	M&A、紅海後段
Niche Market	利基市場	Vertical SaaS、護城河
High Stickiness	高黏著度	lock-in、SaaS retention
Rigid Demand	剛性需求	客戶非要不可的訊號
Frontier Capability	前沿能力	AI Labs、領先差距
Distribution	分發優勢	Big Tech、現有客戶基礎

資本估值

公司價值怎麼被定價、被誰定價、何時崩塌。

卡片	核心問題	常見出現位置
VC	創投	種子輪、A 輪、估值
PE	私募基金	中型企業、被併購
Valuation	估值	融資、退場、毛利
Valuation Compression	估值壓縮	毛利下降、新創生存
Unit Economics	單位經濟	LTV/CAC、是否賺錢
LTV	客戶終身價值	retention、CAC、毛利

執行知識

把產品做出來、把客戶服務好的隱性能力。常被低估、卻是 AI 時代差異化的核心。

卡片	核心問題	常見出現位置
Tacit Knowledge	隱性知識	FDE、SOP 寫不出來的部分
Evaluation Set	評估集	AI 產品、tacit knowledge 編碼
PRD	產品需求文件	傳統 SaaS、wireframe
Wireframe	線框圖	PRD、UI 規劃
Vibe Code	用 AI 即時生成程式	FDE、需求迭代
Judgment Stake	判斷的賭注被放大	AI 取代論、資深角色
Junior Buffer	初階員工作為判斷緩衝層	judgment stake、組織結構

Knowledge Cards

Mon, 11 May 2026 00:00:00 +0000

前置知識卡片的目標是把本地 LLM 章節會用到的高密度術語拆成可獨立閱讀的概念。模組零的心智模型文章會引用 token、自回歸、KV cache、量化、speculative decoding、MTP、MLX、推論伺服器、OpenAI 相容 API 等詞彙；這些詞彙背後都有明確的角色、訊號與設計責任。

這個模組先建立共同語言。每張卡片只處理一個概念，並用「概念位置、可觀察訊號、接近真實的例子、設計責任」說明它在本地 LLM 生態中的角色。讀者可以從章節中遇到陌生詞時點進來補完，回到原章節仍能接續閱讀。

卡片分類

模型輸出機制

卡片	核心問題
Token	模型如何把文字切成可運算單位
Autoregressive	模型如何一次生一個 token
Tokens Per Second	生字速度如何被量化
TTFT	從送出 prompt 到第一個 token 的等待時間
Context Window	模型一次能處理多少 token
Prefill	prompt 首次處理時的計算階段
KV Cache	已處理過的 token 如何避免重算

模型權重與量化

卡片	核心問題
Quantization	模型權重如何用較少 bits 表示
GGUF	llama.cpp 系統如何打包模型權重
Instruction-Tuned Model	模型如何跟著 prompt 走
Base Model	未微調的原始模型適合什麼用途
Embedding Model	文字如何轉成可比對的向量
Model Card	判讀模型來源、訓練資料、授權的 metadata

推論加速技巧

卡片	核心問題
Speculative Decoding	怎麼一次生多個 token
Multi-Token Prediction	speculative decoding 的工程化實作
Drafter Model	預測未來 token 的小模型

推論基礎建設

卡片	核心問題
Three-Layer Architecture	介面 / 伺服器 / 模型三層分工心智模型
Inference Server	載入模型、提供 API 的常駐 process
OpenAI 相容 API	介面層跟伺服器層之間的標準介面
Model Tag	推論伺服器如何指名某個模型版本
MLX	Apple Silicon 的數值運算 framework
oMLX	MLX-backed 長 context 推論伺服器路線
Local vs Cloud LLM	本地與雲端模型的任務分工取捨

macOS 與 shell 基礎

讓對 Mac 操作不熟的讀者也能跟上本地 LLM 章節。這組卡片不算 LLM 領域知識、但本地 LLM 章節必然會碰到。

卡片	核心問題
Homebrew	macOS 上 CLI 工具的標準安裝入口
launchd Service	讓 Ollama 等服務開機自動啟動的 macOS 機制
Shell 背景 Process	前景 vs 背景、`&`、`Ctrl+C`、找 process 的方法
Port 與 Localhost	server 暴露在哪個地址、誰能連進來

硬體與架構

卡片	核心問題
Memory Bandwidth	為什麼記憶體頻寬決定生字速度
Unified Memory Architecture	Apple Silicon 怎麼讓模型用滿大記憶體
VRAM	獨立 GPU 場景的顯卡記憶體、跟系統 RAM 分層
PCIe	GPU 跟主機板之間的高速序列匯流排
NVLink	NVIDIA 多卡互連、跟 PCIe 比的卡間頻寬優勢
GPU Compute Backend	CUDA / ROCm / Vulkan / Metal / SYCL 對照
Transformer	寫 code 用的 LLM 是哪種神經網路
Attention	Transformer 內部讓 token 互相加權平均的機制
Self-Attention	Q/K/V 都來自同一序列的 attention、LLM 標誌
Multi-Head Attention	把 attention 切成多個 head 並行、MHA/GQA/MLA
Causal Mask	擋掉「未來位置」的遮罩、decoder-only 的標誌
RoPE	用旋轉矩陣編碼位置、Llama / Gemma / Qwen 主流
Positional Encoding	把 token 位置資訊注入 Transformer
Flash Attention	Attention 計算的記憶體友善實作
Grouped-Query Attention	多個 query head 共用較少 K/V head
FFN	Transformer block 內部的兩層 linear、參數大頭
Activation Function	FFN 內的非線性、讓深度網路真的「深」起來
Layer Normalization	對 hidden state 正規化、穩定深層訓練
Residual Connection	layer 輸入直接加到輸出、讓 gradient 能回流深層
Residual Stream	Transformer block 間累積資訊的 hidden state 通道
Embedding Layer	Transformer 第一層、把 token ID 轉成向量
Forward Pass	input 流經所有 layer 的單向計算流程
Diffusion	產圖用的是哪種神經網路

線性代數基礎

卡片	核心問題
Tensor	多維陣列、framework 核心型別
Vector Norm	衡量向量大小、L1 / L2 / L∞ 的不同用途
Dot Product	兩向量相乘加總、attention / similarity 基礎
Matrix Multiplication	LLM 推論最頻繁的單一運算、memory bandwidth bound
Floating Point	FP32 / FP16 / BF16 的位元結構與精度取捨

LLM 機率與資訊論

卡片	核心問題
Softmax	把實數向量轉成機率分佈、attention / sampling 共用
Logit	softmax 之前的原始分數、可正可負
Entropy	分佈的不確定性、cross-entropy / KL 的基底
Cross-Entropy	預測分佈跟真實分佈的距離、預訓練主要 loss
Perplexity	cross-entropy 的指數形式、人類直覺較好讀
KL Divergence	兩個分佈的不對稱差距、RLHF / DPO 的 alignment 約束

LLM 訓練流程

卡片	核心問題
Loss Function	訓練最佳化的目標、量化「預測 vs 真實」的差距
Gradient	該往哪個方向調權重才能降 loss
Backpropagation	從 output loss 反向算出每個權重 gradient 的演算法
Gradient Explosion / Vanishing	深層網路 chain rule 累乘的兩種失敗模式
Learning Rate	gradient descent 每步幅度、最敏感的 hyperparameter
SGD	用 mini-batch 算 gradient 更新的基礎 optimizer
Adam / AdamW	對每個參數自適應 lr、LLM 訓練主流 optimizer
Pre-training	第一階段、用 trillion-token 做 next-token prediction
SFT	第二階段、用「指令-回答」對 fine-tune
RLHF	用人類偏好 + reward model + RL 對齊
DPO	RLHF 的簡化替代、直接從偏好資料 fine-tune
LoRA	凍住原權重、只訓兩個小矩陣的 PEFT
QLoRA	LoRA + 4-bit 量化、消費級 GPU 也能 fine-tune 大模型
Catastrophic Forgetting	Fine-tune 覆蓋掉原有能力的現象、LoRA + 資料 mixing 緩解
Contrastive Learning	Embedding model 的訓練 paradigm、相關靠近 / 無關遠離
In-Context Learning	不更新權重、從 prompt 內範例與規則臨時對齊任務

Reasoning Models

卡片	核心問題
Chain-of-Thought	讓 LLM 先推理再答的 prompting / 訓練機制
Test-Time Compute	推論時動態增加算力換答案品質的 paradigm
Reasoning Model	o1 / R1 / QwQ 等內建長 reasoning trace 的 LLM family

Vision / 多模態

卡片	核心問題
VLM	同時吃圖 + 文字輸入的 LLM 變體、coding 場景的 vision 基底
Vision Encoder	VLM 內部把圖轉成向量序列的模組、ViT / CLIP 為主流
Image Token	VLM 把圖變成跟 text token 同質的向量、計入 context
CLIP	OpenAI contrastive 預訓練、現代 vision encoder 起點
Multimodal Fusion	Vision + LLM 結合方式：early / cross-attention / native

Deployment / 靜態場景

卡片	核心問題
Client-Side LLM	在 browser 跑 LLM / embedding、WebLLM / transformers.js

Coding Agent 工程

卡片	核心問題
Scaffold vs Harness	Coding agent 的兩個工程層次：建構時靜態 vs runtime 動態
Context Budget	Coding agent context window 拆分配額、25% 規則
Subagent	把特定責任拆給專門子 agent、各自獨立 context、用 handoff 調度
Prompt Cache	重複 prefix 的 KV cache 服務端持久化、90% cost 折扣
Agent Memory	Working / session / episodic / semantic / procedural 四層

Production / Observability

卡片	核心問題
LLM Tracing	OpenTelemetry GenAI semconv、結構化 span 編碼 LLM 應用
LLM-as-Judge	用 LLM 評另一個 LLM、production eval 主流方法

Retrieval 進階

卡片	核心問題
Retrieval Source	RAG 從哪個 corpus / index / tool 取回內容、如何追溯來源
Retrieval Cost	每次 retrieve 與增強帶來的 latency / token / 維護成本
Query-Document Gap	query 與 document 語言形狀落差造成 retrieval miss
Retrieval Recall	expected chunk 是否出現在 retrieval top-k 結果中
Reranker	Cross-encoder 對 retrieval top-K 重新排序、RAG 第二階段
Hybrid Search	BM25（字面）+ embedding（語意）合併、補單一路線盲點

Constrained / Structured Output

卡片	核心問題
Structured Output	讓模型輸出固定格式、可被 parser 穩定消費
Sampling Constraint	推論時限制下一個 token 候選集合
Constrained Decoding	推論時 grammar mask 強制合法 JSON / regex / CFG、反而加速
Grammar	用形式規則描述合法輸出字串
BNF	用產生式描述 context-free grammar 的經典記法
Lark Grammar	Python Lark parser 使用的 EBNF-like grammar 格式
DSL	為特定領域設計的小語言、作為 LLM 可解析的中介輸出
Training Example Coverage	訓練範例是否覆蓋足夠情境、決定能力穩定性
Capability Spectrum	把模型能力視為光譜、用覆蓋度與失敗模式判讀可用性

安全 / 合規

卡片	核心問題
OWASP LLM Top 10	LLM 應用最常見 10 大資安風險、跟企業合規溝通的共同詞彙

Tokenization

卡片	核心問題
BPE	用「最常字元對」合併建詞彙、GPT / Llama 主流
WordPiece	以 likelihood improvement 選擇子詞合併
Unigram Tokenizer	用機率模型選擇最可能的子詞切分
SentencePiece	Google 開源多語言 tokenization 框架
Vocabulary Size	詞彙表大小、影響 embedding / 多語言友善度
Special Tokens	邊界 / 角色 / tool call 等特殊用途 token

Sampling 策略

卡片	核心問題
Beam Search	保留 K 條候選的 decoding、translation 主流
Top-K / Top-P / Min-P	過濾低機率 token 後取樣、現代 LLM 主流

推論加速進階

卡片	核心問題
Acceptance Rate	speculative decoding 中 drafter 提案被接受的比例

評估指標 / Benchmark

卡片	核心問題
SWE-bench	coding 能力如何被量化比較
LLM Benchmarks	MMLU / HumanEval / SWE-bench 等覆蓋範圍與失效情境
MTEB	Embedding model 跨任務通用能力的標準 benchmark
Needle in Haystack	把事實藏在 long context 不同位置的 retrieval 測試
Lost in the Middle	Long context 中段內容 recall 顯著降的現象

應用層模式

卡片	核心問題
RAG	怎麼給 LLM 動態外掛知識
Query Rewriting	檢索前把 query 改寫成更接近文件語言
Query Expansion	把一個 query 擴成多個語意變體再合併結果
Query Decomposition	把複合 query 拆成可獨立檢索的子 query
Multi-Step Retrieval	多輪 retrieve → 判斷 → 再 retrieve 的控制流
Adaptive Retrieval	先判斷是否需要檢索、再決定 retrieve
Context Packing	retrieve 後把 chunks 去重、排序、壓縮、標來源再塞進 prompt
LLM Agent	把控制流交給 LLM 的應用模式
Agent Loop	plan → act → observe 的自我循環、injection 放大器
Context Drift	Agent 長任務中累積 context 偏離原始目標
Goal Drift	Agent 把子目標誤當整體完成條件
Tool Result Misread	Agent 誤讀工具輸出、把錯誤當成功
Tool Use	LLM 透過結構化呼叫外部工具擴展能力的設計
Function Calling	模型訓練建立的呼叫工具能力
MCP	LLM application ↔ tool server 的標準化協議
Agent-as-Tool	把專責 agent 封裝成另一個 agent 可呼叫的 tool
System Prompt	開發者預設、不直接顯示給使用者的指令層
Chunking	把長文件切成 retrieval 片段的 resolution vs context loss 取捨
Vector Database	高維向量儲存 + ANN 檢索、RAG production 的關鍵元件
Multi-agent system	多 agent 協作系統、跟 multi-call 差在控制流跟責任邊界
HyDE	用假設文件 embedding 繞過 query-document gap

Prompt 技術

卡片	核心問題
Chain-of-Thought	讓 LLM 先輸出推理步驟再給最終答案
Few-shot prompting	在 prompt 內塞範例對齊任務、跟 fine-tune 是兩個 endpoint
Instruction Following	模型遵守任務範圍、格式與限制的能力
Reflection	模型先生成再 critique 再修改、有 systematic error 失敗模式

設計典範 / 人機協作

卡片	核心問題
Deterministic vs Fuzzy engineering	LLM 軟體 vs 傳統軟體的典範差異、決定 guardrail 設計
Guardrail	在 LLM fuzzy 行為外層加上可驗證控制邊界
Human-in-the-loop（HITL）	人類介入 LLM 工作流的三時機 + 四條件
Jagged frontier	AI 能力分佈不規則的 framing、「全自動」是 over-trust
Frozen baseline	Eval 的長期對照基準、讓行為漂移可見

模型行為與安全

卡片	核心問題
Hallucination	LLM 生成看似合理但事實錯誤的內容
Prompt Injection	把惡意指令藏進 LLM 會讀到的內容、OWASP LLM01
Refusal Rate	LLM 拒絕回答的比例、production 偵測訊號
Bind Address	推論伺服器決定接受哪些網路介面的請求
Sandbox	把 tool 跟 MCP server 跑在權限受限環境的隔離技術
Model Supply-Chain Trust	模型權重、量化版本與 registry 的信任判讀
Tool-Use Permission Model	按工具副作用範圍設計權限與審查節點

Production 推論

卡片	核心問題
Batching	多 request 一起跑、攤平 memory bandwidth 成本、throughput vs latency 取捨
Prefix Cache	多個請求共用前綴的 KV cache 重用優化
MoE	Mixture of Experts 架構、總參數大但每 token 計算量小
Active Parameter	MoE 每 token 實際參與計算的參數量
MoE CPU 卸載	把 MoE 不活躍專家放系統 RAM、讓有限 VRAM 跑大模型
llama.cpp Tensor Split	多 GPU 場景把模型張量按比例切到多張卡上

卡片寫法

每張卡片維持四段：

核心概念：用一句話說明這個術語承擔什麼責任。
概念位置：說明它在本地 LLM 三層架構（介面 / 伺服器 / 模型）的哪一層、跟其他概念的關係。
可觀察訊號與例子：用真實使用情境說明這個概念何時會出現、會以什麼形式被讀者察覺。
設計責任：使用者或工程師遇到這個概念時要做哪些判斷或設定。

卡片之間互相連結，章節文章使用術語時優先連到卡片。卡片是概念索引，章節文章負責情境推導；兩者分工讓讀者可以快速查詢術語，也能完整跟著章節思考。

卡片與章節的關係

模組零的概念文章（本地 vs 雲端、為什麼 LLM 生字慢、三層架構等）會引用大量卡片術語；模組一的實作文章（Ollama 安裝、模型選型等）也會用到同一批詞彙。卡片讓兩個模組共用詞彙、避免各自重新定義。

Knowledge Cards

Thu, 23 Apr 2026 00:00:00 +0000

前置知識卡片的核心目標是把後端服務中的高密度術語拆成可獨立閱讀的 domain knowhow。服務選型文章會使用 broker、consumer lag、dead-letter、replay、降級、停機、readiness 等詞彙；這些詞彙背後都包含產品後果、操作責任與排障方式。

這個模組先建立共同語言。每張卡片只處理一個知識節點，並用「概念位置、可觀察訊號、接近真實網路服務的例子、設計責任」說明它在後端系統中的角色。

術語建卡判準

知識卡片的建卡判準是術語是否承擔理解成本與判斷成本，核心重點在它如何影響服務理解，而非只看它是否已經在多篇文章重複出現。讀者如果缺少某個名詞的服務語意，就會難以理解服務路徑、風險邊界、artifact 欄位或下一步決策，這個名詞就值得建卡。

適合建卡的術語通常有三個特徵：第一，它超過單純字面翻譯，並包含服務責任、操作條件或失敗代價；第二，讀者若缺少它就難以理解服務路徑、風險邊界或下一步決策，例如 validation query、rollback window、fallback read；第三，它可以被獨立說明成「概念位置、可觀察訊號、例子、設計責任」。出現頻率與是否影響實作判斷都可以當補充訊號，但不參與「是否要建卡」的必要判準。

不適合建卡的是過度寬泛、沒有明確服務責任的詞。若名詞只是文章中的普通形容詞、單一欄位值、或只能在該句子內成立，優先在正文補清楚，不硬拆成卡片。

資料與一致性

卡片	核心問題	常見出現位置
Database	正式狀態如何保存、查詢與保護	source of truth、transaction、backup
Source of Truth	哪個位置承擔正式資料判斷	database、cache、search index
Search Index	搜尋體驗如何有獨立讀取模型	full-text、filter、ranking
Full-Text Search	文本檢索如何支援關鍵字與相關性排序	search、documents、catalog
Facet Query	搜尋結果如何提供可篩選聚合維度	filter、aggregation、UX
Object Storage	大型檔案如何保存與控管生命週期	upload、export、backup
Event Log	歷史事件如何保存與重播	replay、audit、projection
Read Model	查詢需求如何有獨立讀取資料形狀	projection、query model
Projection	來源資料如何轉換成查詢視圖	events、materialized view
資料生命週期	資料如何建立、保留、封存與刪除	retention、audit、export
資料不一致	多份資料暫時不同步時如何辨識與修復	cache、replica、eventual consistency
Transaction	一組資料變更如何一起成功或一起回復	database、commit、rollback
Transaction Boundary	哪些變更要一起成功或回復	database、unit of work
Migration	系統如何從舊狀態受控移到新狀態	release、cutover、backfill
Schema Migration	資料庫結構如何隨版本安全演進	release、rollback、migration
Expand / Contract	先擴充相容面再收斂舊路徑的遷移做法	schema migration、online migration
Migration Gate	遷移流程如何決定能否進入下一階段	backfill、correctness check
Mapping Table	舊資料語意如何明確對應到新語意	migration、backfill、validation
Validation Query	查詢如何證明資料語意是否一致	migration、evidence package
Read Compatibility	讀取路徑如何同時支援新舊語意	expand、cutover、fallback read
Fallback Read	切換失敗時如何暫時回到舊讀取語意	cutover、rollback window
Cutover Window	正式切換如何被時間窗與訊號框住	cutover、release gate
Release Gate	變更如何在正式釋出前通過或阻擋	error budget、migration、review
Gate Decision	gate 如何把證據轉成下一步決策	release gate、rollout
Rollback Rehearsal	回滾流程如何在正式事故前演練	rollback strategy、migration
Rollback Window	變更後還能用哪種方式回退或改路線	cutover、rollback strategy
Rollback Condition	決策後何時要撤回、回退或改路線	incident decision、rollback
Fail-forward	舊狀態已失效時如何受控前進修復	rollback window、incident decision
Stop Condition	何時必須暫停、回退或改路線	release gate、incident decision
Isolation Level	並發交易彼此看見哪些資料	transaction、lock、retry
Connection Pool	application 如何限制下游連線壓力	database、Redis、broker
Database Sharding	資料庫如何依 shard key 分散與路由	Vitess、Citus、tenant key
Write-Ahead Log	寫入如何先記 log 再合併以支援復原	WAL、checkpoint、recovery
Single Writer Model	寫入如何被序列化成單一路徑	SQLite、primary lease、容量上限
Embedded Database	資料庫如何隨 application process 運作	SQLite、檔案生命週期、本地儲存
Metadata Lock	DDL 與既有交易如何在 schema 層互相阻塞	ALTER、長交易、DDL window
Table Partitioning	大表如何在單庫內拆成多個分區	range/list/hash、pruning、retention
Read-Write Split	讀寫流量如何分流到 primary 與 replica	proxy、replica lag、read-after-write
Transaction Pooling	連線如何只綁定單一 transaction	pooler、session state、SET LOCAL
Document Store	資料如何以 JSON 文件與彈性 schema 存取	JSON、巢狀結構、index
Local-First	資料如何本機優先並離線可用	離線、多端同步、行動 app
Read-After-Write Consistency	寫入後能否立即讀到該筆寫入	primary、lag guard、session
Type Affinity	SQLite 欄位型別如何是傾向而非硬約束	SQLite、storage class、STRICT

快取與流量

卡片	核心問題	常見出現位置
Timeout	單一步驟最久可以等待多久	API、database、broker
Deadline	整體操作何時必須完成	request、job、workflow
Exponential Backoff	重試間隔如何逐步拉長	retry、API、worker
Jitter	如何分散同步重試與排程尖峰	retry、TTL、reconnect
Retry Storm	大量重試如何放大下游壓力	timeout、dependency failure
Thundering Herd	大量工作同時醒來如何形成尖峰	reconnect、cache、lock
Transient Failure	暫時性故障如何影響重試與告警	network、failover、timeout
Partial Failure	局部失效時如何保留整體可用性	distributed system、fallback
Cascading Failure	局部故障如何擴散成整體故障	dependency、retry、pool
Load Shedding	過載時如何主動拒絕低優先工作	overload、priority
Token Bucket	如何用配額與補充速率控制流量	rate limit、retry budget
Dependency Isolation	如何避免單一下游耗盡共享資源	pool、queue、dependency
Bulkhead	如何用資源分艙限制故障擴散	worker、tenant、pool
In-Process Channel	單一 process 內如何傳遞工作或訊號	channel、local queue
Local Worker	同 process 背景工作的責任與邊界	background task、shutdown
Worker Pool	如何限制同時處理量	worker、background job
HTTP Client	呼叫外部 HTTP 依賴時如何管理資源	API、dependency
Webhook	外部系統回呼事件如何驗證與處理	callback、signature、retry
WebSocket	長連線雙向即時通訊如何運作	chat、presence、push
Server-Sent Events (SSE)	HTTP 單向事件串流如何推送更新	notification、progress
Stream Pipeline	連續資料流如何管理吞吐與 backpressure	stream、CDC、ETL
Throughput	單位時間內可處理多少工作	load test、queue、broker
Buffer	暫存空間如何吸收短暫速度差	queue、socket、cache
Queue	等待處理的工作如何形成容量邊界	producer、consumer、backlog
Socket	網路連線如何成為資料讀寫與資源邊界	network、connection、timeout
Fallback	主要路徑失敗時使用什麼替代結果	degradation、circuit breaker
Fail Fast	已知會失敗時如何快速回應	circuit breaker、validation
Retry Budget	重試量如何受整體容量限制	retry、SLO、token bucket
Cache Aside	application 如何讀快取與正式來源	Redis、read path
Cache Hit / Miss	讀取是否命中快取	cache、database pressure
Cache Hit Rate	命中比例如何衡量快取效益	dashboard、capacity
Cache Warmup	正式流量前如何預先載入快取	deployment、event
Cache Prefetching	如何在資料被需要前預先載入	user flow、hot data
Cold Start	新 instance 或空快取如何造成延遲	autoscaling、readiness
Write-Through Cache	寫入時如何同步更新快取	write path、freshness
Write-Behind Cache	先寫緩衝層再非同步持久化的風險	analytics、buffer
Stale Data	過期資料如何影響產品結果	cache、replica
Soft TTL	進入刷新期後如何短暫使用舊資料	stampede、refresh
Singleflight	相同工作如何合併成一次下游請求	cache miss、hot key
TTL	資料何時自動過期	cache、session、presence
Eviction	容量不足時哪些資料會被淘汰	Redis、local cache、CDN
快取失效策略	快取資料何時更新、刪除或重建	Redis、CDN、多層快取
Hot Key	少數 key 如何形成容量瓶頸	Redis、partition、counter
Cache Stampede	快取同時 miss 如何壓垮正式來源	hot key、TTL、database
Rate Limit	如何限制主體在一段時間內的資源使用量	API、tenant、worker
Backpressure	下游變慢時如何讓上游放慢	queue、worker、stream
Buffer Pool	資料庫如何用記憶體快取磁碟頁	InnoDB、shared buffers、命中率

入口與部署

卡片	核心問題	常見出現位置
Service Endpoint	服務入口如何被路由與存取	API、service discovery、internal
Public API Endpoint	面向 client 的穩定對外入口	product API、SDK、client
API Gateway	外部流量如何集中路由、驗證與轉發	auth、rate limit、routing、request id
Request Routing	入口流量如何分派到不同服務或版本	host、path、tenant、version
Admin Endpoint	高權限管理入口如何被隔離與稽核	admin、backoffice、control plane
Diagnostic Endpoint	health、readiness 與 debug 入口	liveness、probe、metrics snapshot
Internal Endpoint	服務內部通訊入口如何受控	service-to-service、control plane
Container	服務如何被包裝成可交付單位	image、runtime、CI、Kubernetes
Load Balancer	流量如何分散、排空與導向健康節點	ingress、draining、rolling update
Draining	服務如何先停新流量再完成既有工作	rolling update、shutdown、cutover
Sticky Session	同一 client 如何維持命中同一實例	session affinity、load balancer
Idle Timeout	連線或會話多久沒活動後要回收	socket、load balancer、proxy
Health Check	平台如何快速判斷服務狀態	load balancer、probe、diagnostic
Resource Limit	服務可用的 CPU / memory 上限如何影響行為	container、scheduler、runtime
Probe	平台如何判斷存活與接流量條件	readiness、liveness、startup
Config Rollout	設定如何安全下發到運作中的服務實例	feature flag、secret、runtime config
Runtime Config	執行時設定如何被讀取、組合與覆寫	env var、secret、feature flag

通訊協定

卡片	核心問題	常見出現位置
Communication Protocol	不同系統如何對齊資料交換與錯誤語意	request/response、message、webhook
Request/Response Protocol	同步呼叫如何對齊互動規則	HTTP API、gRPC、RPC
Message Protocol	queue / stream 訊息如何對齊格式與語意	event、job、delivery
Webhook Protocol	外部回呼如何對齊簽章與 payload	callback、signature、retry

邊界與治理

卡片	核心問題	常見出現位置
Boundary Contract	邊界兩端如何維持一致約定	API contract、deployment contract、queue contract、load balancer contract
API Contract	request / response 如何維持相容	client、SDK、public API
Deployment Contract	application 與 platform 如何對齊生命週期	readiness、shutdown、rollout
Queue Contract	producer / broker / consumer 如何對齊交付語意	ack、retry、DLQ、redelivery
Load Balancer Contract	服務與流量入口如何對齊健康與切流	health check、draining、idle timeout
Integration Adapter	外部系統如何轉成內部需要的形狀	repository、payment、notification
Repository Adapter	持久化存取如何對齊應用模型	SQL、transaction、row mapping
Provider Adapter	第三方服務如何被包裝成穩定介面	payment、email、SMS、storage
Notification Adapter	通知通道如何轉成外部發送格式	email、push、webhook
Request Middleware	共通請求處理如何放在邊界上	auth、logging、tracing、validation
Authentication Middleware	請求進入前如何驗證身份	token、session、signature
Authorization Middleware	請求進入前如何判斷權限	role、tenant、resource owner
Observability Middleware	請求如何補上觀測欄位	request id、trace context
Security Middleware	請求如何套用共通安全控制	rate limit、redaction
Validation Middleware	請求如何先做共通驗證	schema、header、payload shape
Vendor Lock-In	供應商 API 滲入程式碼如何造成退出成本	adapter、exit route、選型
Capability Outsourcing Depth	外包一塊能力的三種深度如何決定控制權與遷出代價	managed 基礎設施、feature SaaS、BaaS bundle

訊息與事件

卡片	核心問題	常見出現位置
Broker	訊息離開單一 process 後由誰保存、路由與交付	queue、event、worker、stream
Topic	事件如何依主題分流給不同訂閱者	broker、event、stream
Pub/Sub	訊息如何即時分發給多個訂閱者	realtime、notification、broadcast
Fan-out	單一事件如何同時送到多個下游	topic、subscription、event flow
Durable Queue	工作如何在故障後仍可被處理	persistence、ack/nack、retry
Reliability Boundary	系統在哪些邊界內承諾可恢復傳遞	request、process、service boundary
Offline Catch-up	離線期間漏失事件如何補齊	websocket、sync、reconnect
Strong Reliability	關鍵事件如何達到高可靠路徑	payment、inventory、audit
Routing Rule	訊息如何依規則進入不同處理路徑	broker、queue、priority
Producer	誰把工作、事件或資料送入處理路徑	queue、broker、stream
Consumer	誰取得等待處理的工作並產生結果	queue、worker、side effect
Prefetch	consumer 一次可持有多少未確認訊息	broker、consumer tuning
In-Flight Message	訊息已交給 consumer 但尚未完成	consumer、shutdown
Unacked Message	broker 尚未收到 consumer 確認的訊息	queue health、prefetch
Ack / Nack	consumer 如何回報處理結果	broker、retry、DLQ
Redelivery	broker 重新投遞訊息時如何保持安全	at-least-once、idempotency
Requeue	處理失敗訊息如何重新排回 queue	retry、nack
Redelivery Loop	同一訊息反覆投遞失敗如何消耗容量	poison message、DLQ
Poison Message	特定訊息內容如何穩定造成失敗	DLQ、schema
Queue Depth	queue 中等待處理的訊息數	backlog、capacity
Publisher Confirm	producer 如何確認 broker 已接收訊息	publish、outbox
Message Persistence	訊息是否落盤保存	durability、cost
Delivery Mode	投遞模式如何影響可靠性與延遲	broker、event semantics
Delivery Semantics	事件投遞承諾如何決定補償策略	retry、idempotency、replay
Consumer Capacity	consumer 群組每秒能處理多少工作	lag、scaling
Competing Consumers	多個 consumer 如何共同處理同一 queue	worker、throughput
Consumer Group	多個 consumer 如何共同分攤 stream	Kafka、Redis Streams
Partition	事件流如何切成可並行處理片段	ordering、hot key
Offset	consumer 在事件流中的讀取位置	replay、checkpoint
Retention	資料或事件保留多久	stream、log、audit
Retry Policy	失敗後何時再試、何時停止	timeout、broker、API
Consumer Lag	consumer 處理速度落後多少	queue health、capacity、alert
Dead-Letter Queue	多次處理失敗的訊息如何隔離與診斷	retry、poison message、incident
Replay Runbook	事件重放時如何控制範圍、順序與副作用	migration、事故復原、補資料
重複投遞	同一個工作被處理多次時如何保持結果穩定	at-least-once、idempotency
Idempotency	同一操作多次執行時如何保持結果穩定	retry、payment、worker
Outbox Pattern	資料變更與事件發布如何維持一致	transaction、broker

遷移與資料同步

卡片	核心問題	常見出現位置
Online Migration	服務持續接流量時如何遷移資料	database、release
Cutover / Switchover	正式流量如何切到新路徑	migration、feature flag
Fallback Plan	變更失敗時如何回到可接受狀態	release、migration
Change Data Capture	資料變更如何被捕捉並傳送	CDC、event stream
Replication Lag	副本落後正式來源多久	replica、read model
Checkpoint	長流程如何記錄可恢復進度	backfill、consumer
Backfill	既有資料如何補上新欄位或新狀態	migration、repair
Dual Write	同一變更同時寫兩個系統的風險	migration、split service
Shadow Read	正式讀舊路徑時如何暗中比對新路徑	cutover、validation
Correctness Check	新舊結果如何依規則比對	migration、refactor
Data Completeness	資料是否完整到足以支持目標用途	migration、audit
Data Reconciliation	多來源差異如何比對與修復	payment、eventual consistency
Replication Slot	邏輯複製如何追蹤進度並保留 WAL	CDC、slot lag、磁碟壓力
Conflict Resolution	並發或離線寫入衝突如何合併	LWW、欄位合併、CRDT
Logical Replication	row-level 變更如何以表為粒度複製	physical、CDC、跨版本
Replica Identity	變更事件如何帶穩定 key 以套用 update/delete	CDC、primary key、row image
GTID	複製進度如何用全域交易識別碼表示	replication、failover、binlog
Replication Channel	多來源複製如何用獨立通道隔離	multi-source、per-channel lag
Tombstone	刪除如何用標記跨副本與裝置傳播	delete propagation、sync、CRDT

可觀測性與可靠性

卡片	核心問題	常見出現位置
Log	單一事件如何留下可搜尋的上下文	incident、debug、audit
Log Schema	log 欄位如何支援搜尋與關聯	structured log、incident
Metrics	指標如何描述趨勢、容量與健康	Prometheus、dashboard
Histogram	如何用分桶統計延遲與分布	latency、SLO
Bucket	histogram 分桶如何影響解析度	metrics、cost
Percentile	p95 / p99 如何描述長尾延遲	latency、UX
Metric Cardinality	label 組合數如何影響成本	metrics、storage、query
Trace	跨服務流程如何重建路徑與耗時	tracing、dependency
Trace Context	跨服務 request 如何串起路徑	tracing、OpenTelemetry
Trace ID	同一條 trace 的識別碼	tracing、log correlation
Span	trace 中一段工作如何記錄耗時	tracing、dependency
Correlation ID	跨事件與跨服務如何關聯業務流程	order、payment、queue
Request ID	單次 request 如何被追蹤	API、support
Dashboard	多個觀測訊號如何組成服務狀態畫面	incident、capacity、SLO
SLI / SLO	服務品質如何連到產品承諾	alert、incident、error budget
Error Budget	SLO 允許的失敗額度如何決策	release、reliability
Burn Rate	error budget 消耗速度如何告警	SLO alert
Sampling	如何抽樣觀測資料以控制成本	trace、log
Alert	服務症狀如何轉成可行動通知	on-call、SLO、incident
Runbook	事故判斷與操作步驟如何標準化	on-call、incident、replay
Alert Runbook	告警如何連到可執行排障流程	on-call、dashboard
Symptom-Based Alert	告警如何優先偵測產品症狀	SLO、on-call
Runbook Link	告警如何直接連到處理流程	alert、dashboard
Alert Fatigue	低品質告警如何降低反應品質	on-call、alert policy
降級	服務部分能力失效時如何保留核心功能	failover、fallback、capacity
Circuit Breaker	下游持續失敗時如何暫停呼叫	timeout、fallback、degradation
Failover	主要路徑失效時如何切到備援	HA、region、provider
Autoscaling	容量如何依指標自動擴縮	HPA、capacity、traffic burst
Rolling Update	版本如何逐批替換並維持可用	deployment、release
Service Registry	服務實例如何被註冊、維護與摘除	heartbeat、TTL、metadata
Service Discovery	服務實例如何被查找與路由	registry、DNS、load balancing
停機	服務中斷時要先保護哪些產品結果	incident、SLO、deployment
Readiness	instance 何時可以安全接收流量	Kubernetes、load balancer、rollout
Liveness	平台如何判斷 process 是否仍然存活	Kubernetes、systemd
Graceful Shutdown	instance 停止前如何排空流量與保存狀態	deployment、worker、long connection

效能工程與容量規劃

卡片	核心問題	常見出現位置
Little’s Law	並發、到達率、逗留時間如何相互推導	capacity、saturation、SLO
Universal Scalability Law	擴容到某點後吞吐反而下降的數學原因	scalability、coordinator、consensus
Saturation Point	latency 進入指數成長的臨界流量	knee、capacity、headroom
USE Method	資源層 Utilization / Saturation / Errors	bottleneck、resource、capacity
RED Method	請求層 Rate / Errors / Duration	SLO、latency、request
Workload Model	production traffic shape 如何量化重播	load test、capacity、forecast
Tail Latency	p99 / p999 為何比平均更能反映 saturation	SLO、GC、cross-zone
Hot Partition	單一 partition 流量過熱、名義容量達不到	DynamoDB、partition key、saturation
Peak Forecast	預期峰值如何預測 — 容量公式輸入	capacity、event、growth
Headroom Budget	容量規劃的安全餘量	capacity、AZ failover、forecast 誤差
Growth Curve	用戶 / 流量成長的五種形狀	linear、step、exponential、cyclical
Predictive Scaling	根據預測提前擴容	autoscaler、ML、daily pattern
Scheduled Scaling	按已知時間表預先擴容	event、pre-scaling、Black Friday
Shadow Traffic	production traffic 複製到新版本驗證	production validation、traffic mirror
Dark Launch	程式碼上線但 UI 入口暫不開放	feature flag、production validation
Canary Perf Check	canary release 中的 latency 退化檢查	canary、release gate、rollback
Profile Diff	比較兩次 profile 找退化原因	release、CPU、memory、lock
Continuous Profiling	production 持續取低 overhead profile	flame graph、observability、tracing
Cost Per Request	雲端成本拆到單一請求的 unit economics	FinOps、capacity、TCO
Performance Budget	跟 error budget 並列的效能退化額度	SLO、release freeze、burn rate
Latency Budget	end-to-end latency 拆到每 stage 的配額	Little’s Law、stage、reverse calculation
SLO Baseline Drift	SLO baseline 因業務變化要重新校準	review、surge、product change
OLAP Offload	分析查詢如何從 OLTP 主庫卸載	replica、資料倉儲、CDC
Per-Connection Memory	每連線記憶體如何隨並發數放大	sort/join buffer、OOM、連線數

事故處理與復盤

卡片	核心問題	常見出現位置
On-Call	值班制度如何承接告警與事故流程	paging、handover、incident
Handover Protocol	值班或事故責任如何安全交接	on-call、escalation、incident
Playbook	場景化處置如何快速啟動與執行	incident workflow、recovery
CI Pipeline	合併前如何自動驗證品質與相容性	tests、checks、merge gate
Load Test	預期流量下如何驗證容量與延遲	performance、SLO、capacity
Chaos Test	受控故障注入如何驗證韌性	resilience、failover、runbook
Game Day	事故演練如何驗證流程與協作	drill、readiness、training
Incident Severity	事故如何依產品影響分級	on-call、incident、SLO
Incident Command System	事故期間如何分配指揮與執行角色	commander、scribe、owner
Incident Communication Channel	事故期間如何同步對內對外資訊	internal chat、status update、bridge
Escalation Policy	事故無回應或無進展時如何升級	on-call、paging、handover
Incident Timeline	事故事件如何形成一致時間軸	incident log、communication
Evidence Package	觀測與事故證據如何交接與回放	observability、verification、PIR
Time Range	證據如何保留明確時間窗	evidence、incident timeline
Query Link	證據如何保留可重跑查詢入口	evidence、handoff
Data Quality	證據如何標示完整度與限制	evidence、sampling、freshness
Confidence	證據如何標示判讀信心等級	evidence、gate decision
Known Gap	證據如何保存已知缺口	evidence、PIR、readiness
Incident Decision Log	事故決策如何保存證據與回退條件	IC handoff、PIR、status update
Steady State	實驗與事故恢復如何定義成功狀態	chaos、DR、recovery
Blast Radius	故障影響面如何估算與隔離	dependency、shared resource
Rollback Strategy	事故期間何時回滾與回切	deployment、release gate
Post-Incident Review	事故後如何形成改進閉環	retrospective、action items
RCA	根因分析如何從證據推導改進	timeline、control gap
RTO	服務回復時間目標如何定義	SLA/SLO、DR
RPO	可接受資料損失窗口如何定義	backup、replication
MTTR	平均修復時間如何反映處置能力	incident metrics、review
Point-in-Time Recovery	資料如何還原到過去任意時間點	base backup、WAL、RPO
Corruption Recovery	資料損毀事故如何辨識來源並處置	checksum、evidence、restore

資安與資料保護

卡片	核心問題	常見出現位置
Authorization	誰能對哪些資源執行哪些操作	RBAC、ABAC、tenant
Authentication	系統如何確認呼叫者身份	login、API key、mTLS
Credential	身分與系統存取用秘密如何保存與輪替	API key、password、private key
IAM	身分與權限如何集中治理	SSO、roles、policy
BOLA / IDOR	使用者如何被限制只能存取授權物件	API、resource ID
BOPLA	欄位層級如何授權讀寫	DTO、field policy
Mass Assignment	自動綁定欄位如何造成未授權修改	API、ORM
Excessive Data Exposure	API 回傳過多資料如何增加外洩風險	response、DTO
Unrestricted Resource Consumption	API 如何限制昂貴資源使用	upload、export、query
Function-Level Authorization	功能操作本身如何授權	refund、export、admin
Tenant Boundary	多租戶資料與資源如何隔離	SaaS、RBAC
Least Privilege	身份如何只取得必要權限	IAM、database user
Security Misconfiguration	設定錯誤如何暴露內部能力	CORS、debug、cloud
Attack Surface	系統哪些對外暴露面最先被探測	public API、admin route、webhook
Trust Boundary	哪些位置要重建信任假設	auth boundary、tenant、network
Abuse Case	合法功能如何被惡意轉用	export、invite、reset
WAF	入口層如何過濾常見攻擊與濫用	edge、bot、attack
Feature Flag	功能開關如何分離部署與啟用	rollout、experiment、rollback
Security Exception	風險例外如何以期限與關閉條件治理	risk acceptance、governance
Release Freeze	高風險期間如何暫停特定變更	incident、vulnerability window
Tripwire	風險決策何時自動回到重評估流程	threshold、escalation
Allowlist	例外放行如何維持可控範圍	freeze exception、policy control
Input Validation	入口資料如何檢查格式與語意	API、webhook
SSRF	伺服器端請求如何被濫用	URL fetch、webhook
PII	可識別個人的資料如何保護	masking、retention
Data Classification	資料分級如何決定保護規則	security、compliance
Data Masking	敏感資料如何降低暴露	export、log、support tool
Secret Management	token、key、password 如何保存與輪替	credential、deployment
TLS / mTLS	傳輸加密與雙向身份驗證如何保護資料流	service-to-service、API
Website Certificate Lifecycle	網站憑證從簽發到續期與撤銷如何治理	HTTPS、edge、ingress
ACME Automation	網站憑證如何自動簽發與續期	Let’s Encrypt、DNS-01、HTTP-01
Certificate Chain and Trust Root	憑證鏈與信任根如何影響握手	intermediate CA、trust store
Certificate Rotation and Renewal	憑證與私鑰如何不中斷更新	expiry、zero-downtime
Certificate Revocation	憑證失效時如何撤銷與替換	key compromise、incident
Artifact Provenance	交付物來源與完整性如何建立可驗證信任	CI、supply chain、release gate
Audit Log	高風險操作如何留下責任證據	admin、export、permission
Row-Level Security	資料庫如何用 policy 過濾可見的 row	RLS、多租戶、policy
At-Rest Encryption	落地資料如何在儲存層加密	tablespace、backup、金鑰
Key Management	加密金鑰如何產生、保存與輪替	KMS、keyring、rotation
Break-Glass Access	緊急高權限存取如何用工單與時限治理	emergency、ticket、audit

使用方式

知識卡片是章節引用單位。選型文章遇到術語時，應連到對應卡片；服務實體章節需要更深入時，再從卡片延伸到具體工具操作。

Lua 腳本語言

Mon, 29 Jun 2026 00:00:00 +0000

Lua 是一個輕量級腳本語言，1993 年在巴西開發，名字是葡萄牙語的「月亮」。整個直譯器約 300KB，設計目標是嵌入到其他程式當配置和擴展語言，不是當獨立的通用語言。

Hyprland（v0.55+ 的配置格式）、Neovim（整個 plugin 和配置生態）、WezTerm（terminal emulator 配置）都用 Lua 作為配置語言。在 dotfile 管理的脈絡裡，Lua 是讀懂和寫好這些工具配置的前提知識。

配置檔用到的核心語法

變數和型別

1local name = "hello"       -- 字串
2local count = 42            -- 數字
3local enabled = true        -- 布林
4local nothing = nil         -- 空值（類似其他語言的 null）

local 宣告區域變數。沒有 local 的變數是全域的，配置檔裡幾乎都該用 local。

Table：唯一的複合資料結構

Lua 只有一種複合型別——table，同時當 array 和 dictionary 用：

 1-- 當 array（index 從 1 開始，不是 0）
 2local fruits = { "apple", "banana", "cherry" }
 3print(fruits[1])  -- "apple"
 4
 5-- 當 dictionary
 6local config = {
 7    gaps_in = 5,
 8    border_size = 2,
 9    layout = "dwindle",
10}
11print(config.gaps_in)  -- 5
12
13-- 巢狀 table（配置檔最常見的形式）
14local decoration = {
15    rounding = 8,
16    blur = {
17        enabled = true,
18        size = 5,
19        passes = 2,
20    },
21}

Hyprland 的 hl.config() 接收的就是一個巢狀 table：

1hl.config({
2    general = {
3        gaps_in = 5,
4        gaps_out = 10,
5    },
6    decoration = {
7        rounding = 8,
8    },
9})

Function

1local function greet(who)
2    return "hello " .. who   -- .. 是字串串接
3end
4
5-- 匿名 function（Neovim 配置常見）
6vim.keymap.set("n", "f", function()
7    require("telescope.builtin").find_files()
8end)

條件判斷

1if hostname == "work-laptop" then
2    -- 工作機設定
3elseif hostname == "home-desktop" then
4    -- 家裡桌機設定
5else
6    -- 預設
7end

只有 nil 和 false 是 falsy。0 和 "" 是 truthy（跟 Python 不同）。

迴圈

 1-- 數字 for（Hyprland 批次產生 workspace keybind）
 2for i = 1, 9 do
 3    hl.bind("SUPER", tostring(i), "workspace", tostring(i))
 4end
 5
 6-- 遍歷 table
 7local tools = { "zsh", "git", "nvim", "tmux" }
 8for _, tool in ipairs(tools) do
 9    print(tool)
10end

模組化（require）

1-- hyprland.lua 裡載入同目錄的其他 .lua 檔
2require("keybinds")     -- 載入 keybinds.lua
3require("rules")        -- 載入 rules.lua
4require("appearance")   -- 載入 appearance.lua

require() 是 Lua 原生的模組載入，取代了舊 Hyprland .conf 格式的 source = ... 指令。

為什麼配置工具選 Lua

Lua 被嵌入到配置層的原因是一組特定的 trade-off：

比 JSON/TOML/YAML 強：有變數、迴圈、條件判斷。配置檔可以用 for 產生重複項目、用 if 處理機器差異，不需要外部 template engine
比 Python/JavaScript 輕：300KB 的直譯器可以嵌入 C/C++ 程式，不需要拖一個完整的 runtime
沙盒化容易：宿主程式可以控制 Lua 能存取哪些 API，限制配置檔的能力範圍

這也是 Neovim 從 VimScript 遷移到 Lua 的理由——plugin 生態需要一個真正的程式語言（有資料結構、有錯誤處理），但又不能讓配置檔變成一個安全隱患。

其他使用 Lua 的場景

場景	用法
Neovim	整個配置和 plugin 生態基於 Lua
WezTerm	terminal emulator 配置（`wezterm.lua`）
Awesome WM	X11 tiling WM 的配置和擴展
Redis	`EVAL` 指令在 server 端執行 Lua script
Nginx/OpenResty	用 Lua 寫高效能的 request 處理邏輯
遊戲	World of Warcraft UI mod、Roblox、很多遊戲引擎的腳本層

共同模式：一個用 C/C++ 寫的高效能核心，把 Lua 嵌入進去當配置和擴展語言。

跟 Python/JavaScript 的差異速查

項目	Lua	Python	JavaScript
Array index 起始	1	0	0
字串串接	`..`	`+`	`+`
不等於	`~=`	`!=`	`!==`
邏輯運算	`and` `or` `not`	`and` `or` `not`	`&&` `\|\|` `!`
空值	`nil`	`None`	`null`/`undefined`
Falsy 值	`nil`, `false`	`None`, `False`, `0`, `""`, `[]`	`null`, `undefined`, `false`, `0`, `""`
沒有 `+=`	`x = x + 1`	`x += 1`	`x += 1`
註解	`--`	`#`	`//`
多行註解	`--[[ ... ]]`	`""" ... """`	`/* ... */`

寫 Hyprland 或 Neovim 配置用到的 Lua 知識量很小——主要是 table（配置結構）、for loop（批次 keybind）、if-else（機器差異）、require（模組拆分）。不需要學 metatable、coroutine、metatmethod 這些進階功能。

Infrastructure as Code (IaC)

Fri, 26 Jun 2026 00:00:00 +0000

Infrastructure as Code（IaC）的核心概念是用版本控制的程式碼描述基礎設施應該長什麼樣，再由工具負責比對「程式碼描述的目標狀態」與「雲端上的實際狀態」，算出差異並收斂。這個機制把基礎設施從「某個人在 Console 手動點出來的東西」變成「可版本控制、可 review、可重建的描述」。

IaC 工具分兩條路線：宣告式 DSL（Terraform / OpenTofu，用 HCL 描述資源）與程式語言（AWS CDK / Pulumi，用 TypeScript / Python / Go 生成資源）。兩者都能達成「用程式碼描述、由工具收斂」的目標，差別在閱讀門檻與抽象能力。

概念位置

IaC 是 infra 系列的根概念，貫穿所有模組。成熟度階梯的第二階（宣告式 IaC）是 IaC 正式生效的起點，第三階（環境分離）和第四階（PR 流程治理）都建立在 IaC 之上。沒有 IaC，後續所有模組的能力都無法落地。

可觀察訊號

需要 IaC 的訊號是規模與協作的函數：環境數量超過一套、多人同時改資源、環境事故頻率上升、外部稽核要求變更紀錄。詳見模組負一：該開始導入 IaC 的訊號。

設計責任

採用 IaC 時要決定的核心問題：

工具選型：宣告式 DSL vs 程式語言，取捨在審查透明度 vs 抽象複用能力
State 的存放：remote backend 的選擇與保護
Console 唯讀紀律：所有寫入操作回到程式碼，Console 只作觀察
納管範圍：哪些資源先進 IaC、哪些暫時留在手動

鄰卡

State — IaC 工具追蹤現實的記憶機制
Drift — state 與現實不一致時的狀態
環境分離 — 同一份 IaC 描述套用到多環境

BNF 的限制是它描述語法，不描述語意。它能表示「括號必須成對」「欄位順序合法」，但不能直接表示「日期必須晚於今天」「使用者必須有權限讀這筆資料」這類外部約束。

設計責任

BNF 適合拿來讀懂 grammar-constrained sampling 的規則形狀。實作時要確認你使用的引擎支援的是標準 BNF、EBNF、GBNF，還是自家 dialect；不同 dialect 的 optional、repeat、token escaping 寫法會不同。下一步路由是 Grammar 與 Lark Grammar。

Capability Spectrum

Thu, 14 May 2026 00:00:00 +0000

Capability spectrum（能力光譜）的核心概念是「LLM 能力通常是連續程度，不是支援 / 不支援的二元開關」。同樣宣稱支援 function calling、reasoning、coding、structured output 的模型，可能在簡單案例都成功，但在長 context、多工具、巢狀 schema、模糊需求或反例情境下出現巨大差距。

概念位置

能力光譜是評估與選型用語，用來替代 binary checklist。它把能力拆成範圍、穩定性、成本與失敗模式：模型能做什麼、在多寬的分佈上穩定、錯的時候怎麼錯、需要多少 prompt / validator / retry 才可用。

1宣稱支援 → happy path 可用
2基礎可用 → 常見變體可用
3生產可用 → edge cases、錯誤路徑、壓力情境仍可控

可觀察訊號與例子

維度	Deterministic 軟體	Fuzzy 軟體
資料形狀	結構化（JSON、DB row）	半結構化 / 非結構化
邏輯來源	人類寫死規則	模型推論、依 prompt + context 浮動
行為一致性	同 input → 同 output	同 input → 分佈
分解原則	按職責 / 模組	按角色 / agent
測試方式	unit test、覆蓋率	eval、judge、distribution metric
實驗成本	高	低（改 prompt 即可）

典型 LLM 應用的混合：

1User input
2 ↓ Fuzzy（LLM 理解意圖）
3 ↓ Deterministic（DB / API / policy）
4 ↓ Fuzzy（LLM 寫回應）
5 ↓ Deterministic（發送 / 寫入）

設計責任

讀 LLM 應用設計文章或開始設計 production AI 系統時、這個 framing 決定每個 step 的工具選擇。實作判讀：

哪段該 deterministic / 哪段該 fuzzy：規則可窮舉、失敗代價高、需要解釋、需要 byte-exact 重現的 → deterministic；自由文字輸入、生成有風格的輸出、邊界模糊的 → fuzzy。
典範用錯的反模式：deterministic 需求硬用 fuzzy（用 LLM 算稅金）、fuzzy 需求硬用 deterministic（regex 解析自由文字）、邊界混（prompt 內塞算術 / code 內塞意圖分類）。
Fuzzy 邊界的四種 guardrail：schema validation、output validator、action gating、distribution monitoring。混用、不同 risk class 分擔不同層。
跟 HITL 的關係：HITL 是 deterministic guardrail 的一種——把人類判斷當 deterministic check 包 fuzzy LLM 行為。
失敗的歸因分層：壞掉時要問「是 prompt / model / context / tool / 還是 deterministic glue 的 bug」。deterministic 軟體歸因單一、fuzzy 軟體要分這幾層查。

完整典範討論見 0.8 Deterministic vs Fuzzy Engineering。

DSL（Domain-Specific Language）

Thu, 14 May 2026 00:00:00 +0000

DSL（Domain-Specific Language）的核心概念是「為特定領域設計的小語言」。它不像通用程式語言要解所有問題，而是把某個領域的可用操作、資料形狀與限制收斂成小而可解析的語法，讓人類、LLM 與程式都能用同一種中介表示溝通。

概念位置

在 LLM 應用裡，DSL 常出現在自然語言與程式執行之間。模型把使用者意圖轉成 DSL，應用再 parse、validate、authorize、execute；這比直接讓模型輸出任意程式碼更容易控管，也比純自然語言更容易自動化。

1使用者：「找出高優先、尚未處理的 billing ticket」
2 ↓
3LLM 輸出 DSL：ticket.where(category="billing", priority="high", status!="done")
4 ↓
5parser / validator / executor

可觀察訊號與例子

看到「特定 query language」「workflow mini-language」「policy expression」「filter expression」「tool command language」就是 DSL 候選。例子包括搜尋篩選語法、監控告警規則、資料轉換 pipeline、客服工單查詢、CI workflow 條件式。

DSL 的風險是語法看起來可控，但語意與權限仍然危險。模型生成的 DSL 要經過 parser 確認語法、validator 確認欄位與型別、authorization 確認可操作範圍、dry run 或 preview 確認副作用；不能因為輸出不是通用程式碼就直接執行。

設計責任

DSL 適合操作集合固定、需要高可控性、且自然語言到執行之間需要審計紀錄的場景。設計時先定義最小語法、失敗路由與不可表示狀態；需要讓 LLM 穩定產生 DSL 時，用 grammar 或 JSON Schema 約束輸出。下一步路由是 Structured Output 與 Sampling Constraint。

Few-shot prompting

Thu, 14 May 2026 00:00:00 +0000

Few-shot prompting 的核心概念是「在 prompt 內塞幾個 input-output 範例、讓模型透過範例對齊任務」。Zero-shot 是不給範例直接給任務、few-shot 是給 1-N 個範例、模型從範例推任務分佈。屬於 in-context learning 的最常見形態、是「對齊任務」這件事的 prompt 層解法、跟 fine-tune 是兩個 endpoint。

概念位置

Zero-shot vs few-shot 對照：

 1Zero-shot：
 2 Classify the tone as positive/negative/neutral.
 3 Review: "Fine, but I expected more."
 4 → 模型自己判斷「中性」邊界
 5
 6Few-shot：
 7 Classify the tone as positive/negative/neutral.
 8 Examples:
 9 "Exceeded my expectations" → positive
10 "OK, but I wish more features" → negative
11 "Service was adequate" → neutral
12 Review: "Fine, but I expected more."
13 → 模型按範例對齊、更傾向 negative

Few-shot 跟 fine-tune 對照：

維度	Few-shot in prompt	Fine-tune
Iteration	分鐘級、改 prompt 即可	天級、要 retrain
範例容量	受 context window 限制（10–50）	可以幾千幾萬、整個 dataset 都行
Cost	每次 inference 多付 token	一次性訓練 cost、之後 inference 不變
模型遷移	跨模型即時換、prompt 直接搬	綁特定 base model、換模型要 retrain

設計責任

讀 prompt engineering 文章或寫 production prompt 看到「few-shot」「in-context examples」就是這個機制。實作判讀：

適用任務有「我的標準跟模型預設不同」：分類邊界、抽取格式、tone alignment、structured output 形狀。
失效在範例選不好：cherry-picked 不代表 distribution、cover 不到 edge case、範例彼此衝突。
跟 chain-of-thought 可疊（few-shot CoT 是經典組合）、跟 fine-tune 是 endpoint 取捨。
何時轉 fine-tune：範例多到撐爆 context window 又每天都用、才考慮。預設先 few-shot iterate。
Retrieval-augmented prompting：把寫死的 few-shot 換成從範例庫即時 retrieve、屬於 RAG 概念延伸。

完整 prompt 技術 landscape 見 4.0 Prompt 技術光譜。

Frozen baseline

Thu, 14 May 2026 00:00:00 +0000

Frozen baseline 的核心概念是「把某個特定 prompt + 特定 model 跑 production 一段時間後 freeze、每次新版本都跟它比、定期 refresh 並標明時點」。Eval 系統的標準作法、讓行為漂移可見、避免「永遠跟上一版比、長期累積漂移看不見」的常見失敗。

概念位置

跟其他 eval 概念對照：

概念	角色
Eval set	測試 input 的集合
Frozen baseline	固定的「對照組」prompt + model 版本
Regression set	Failed case 進來、防止改 prompt 又壞同樣 case
Production trace	實際 traffic、抽樣補進 eval set / baseline

工作流：

1Day 1：定義 eval set + 初始 prompt + model
2 ↓ 跑 production 一段時間（如 2 週）
3Day 14：把當下 prompt + model freeze 成 baseline-v1
4 ↓
5新版本 prompt / model 都跟 baseline-v1 比
6 ↓ 定期（如每季）refresh
7Day 90：baseline-v2、標明 refresh 時點

設計責任

讀 eval / production AI 文章看到「frozen baseline」「baseline drift」「regression set」就是這個機制。實作判讀：

為什麼必要：每次 A/B 都跟「最新版本」比、長期累積漂移完全不可見、「整體變好了沒」無從回答。Frozen baseline 是漂移的錨點。
何時 freeze：production 跑穩、user 滿意度可接受時 freeze。太早 freeze 鎖到不夠好的版本、太晚 freeze 鎖不到。
何時 refresh：定期（每季 / 每半年）、或當 baseline 明顯 obsolete（如 model 升級、產品大改版）。Refresh 後標明時點、舊版本仍可保留當歷史對照。
跟 frozen baseline 一起的還有：regression set（failed case 永遠進、防 fix 一個壞一個）、production trace 抽樣補進 eval set（讓 eval set 不脫節）。
失敗模式：baseline 跟 production 分佈差太遠（baseline 用 lab case、production 是 wild input）、跑出來分數沒參考價值。緩解：baseline 的 eval set 用 production trace 抽樣建。

完整 eval 系統設計見 4.13 Eval 設計座標系。

Goal Drift

Thu, 14 May 2026 00:00:00 +0000

Goal drift（目標漂移）的核心概念是「agent loop 把子目標誤當成整體目標」。它常讓模型完成局部步驟後宣告任務完成，實際上還漏掉測試、驗證、提交、回報或其他原始要求。

概念位置

Goal drift 是 agent loop 的 termination 失敗。它跟 context drift 的差異是：context drift 是上下文逐步偏移，goal drift 是完成條件被錯誤替換。

可觀察訊號與例子

原任務是「實作、測試、commit」，agent 實作完就回答「已完成」，這是 goal drift。另一個訊號是 agent 每步都在完成一個合理子任務，但沒有維護整體 checklist。

設計責任

緩解方式是把完成條件外部化：test pass、檔案存在、PR 開啟、commit hash 產生、人工批准。不要只靠模型自評完成；高風險任務要用 checklist 與 deterministic gate。

Grammar

Thu, 14 May 2026 00:00:00 +0000

Grammar（語法規則）的核心概念是「用形式化規則描述哪些字串是合法輸出」。在 LLM structured output 裡，grammar 是 parser / decoder 可以執行的規則集合，用來判斷 JSON、SQL、DSL、表達式或自訂格式是否符合預期形狀——此處的 grammar 指形式語法，而非英文文法。

概念位置

Grammar 位在格式定義層，常被 constrained decoding 編譯成 token mask。它跟 schema 的差異在表達方式：schema 常描述資料結構與欄位限制，grammar 描述字串如何從符號規則生成；JSON Schema 適合物件欄位，grammar 適合自訂語言、查詢語法、括號結構與特定文字格式。

1grammar 規則 → parser / decoder 編譯
2 ↓
3每個生成位置算出合法 token
4 ↓
5不合法 token 被 mask 掉

可觀察訊號與例子

時機	介入點	適合任務
Pre-act	Action 執行前確認	不可逆 / 高代價（DB write、deploy）
Mid-stream	Agent 過程中遇不確定主動問	路徑分歧、需要 domain judgment
Post-hoc	結果交付後 user 申訴 / 校正	評分類、低代價、user 數量大

跟其他相關概念對照：

概念	跟 HITL 的關係
Agent 自主度分層	Full auto / checkpoint / step-by-step / plan-first → 對應 HITL 時機
Tool 副作用範圍	等級 1-2 不需 HITL、等級 4-5 強制 HITL
Guardrail	Schema / validator / monitoring 是自動 guardrail、HITL 是人類 guardrail

設計責任

讀 AI 應用設計或 agent paper 看到「HITL」「human-in-the-loop」「approval flow」「appeal」就是這個機制。實作判讀：

位置由 risk 跟 validator 能力決定：risk 高 + validator 弱、HITL 頻率高；risk 低 + validator 強、HITL 頻率低。
三時機可組合：pre-act 擋高代價、mid-stream 處理 agent 不確定性、post-hoc 收回饋。三者各擋不同 risk class、不互斥。
避免橡皮圖章化的四條件：分級不同 risk 走不同 gate、approval UI 強制 show diff、reject 有明確 fallback、approval 訊號回饋進系統。任一不滿足、HITL 退化成形式。
跟 jagged frontier 的關係：frontier 外的任務該強制 HITL、不交給 user 自由心證。
跟 fuzzy engineering 典範的關係：HITL 是 fuzzy 行為的 deterministic guardrail 一種、不是預設要有、看 risk 跟自動 validator 能力決定。

完整 HITL 拓樸設計見 4.5 人機協作拓樸。

HyDE（Hypothetical Document Embeddings）

Thu, 14 May 2026 00:00:00 +0000

HyDE（Hypothetical Document Embeddings、Gao et al. 2022）是 RAG retrieval 階段的 query 端增強技術。核心觀察：query 跟 document 在 embedding 空間的距離往往比 document 跟 document 之間更遠——這是典型 query-document gap。HyDE 的做法是先用 LLM 對 query 生成「假設的答案文件」、對假文件做 embedding 拿去 retrieve、而不是直接 embed 原 query。

概念位置

HyDE 三步：

 1User query
 2 ↓
 3[Step 1] LLM 生成 hypothetical document
 4 (可能 hallucinate、事實正確性不重要)
 5 ↓
 6[Step 2] Embed 假文件
 7 ↓
 8[Step 3] 用假文件 embedding 去 vector DB retrieve 真文件
 9 ↓
10真實 top-k chunks → 主 LLM 回答

為什麼比直接 embed query 好：假文件的 phrasing、長度、結構都更接近真文件的分佈、embedding 距離更可靠。重點是假文件當 embedding 的代理、不是當答案——hallucinate 出錯誤事實 OK、但語意 / 領域要落對。

設計責任

讀 RAG paper 或工具看到「HyDE」「hypothetical document」「query-side augmentation」就是這個機制。實作判讀：

適用 phrasing 落差顯著的場景：問句 vs 陳述、口語 vs 正式、抽象 vs 技術詞彙。HyDE 原論文跨多領域都有提升、不限技術 / 學術。
失效在假文件偏離主題：LLM hallucinate 到別領域、retrieve 拿到完全不相關的東西。緩解：生成多個假文件取平均 embedding、或用 query + 假文件兩個 embedding 合併 retrieve。
Cost：每 query 多一個 LLM call（生假文件）、latency 加 500ms-1s，屬於明顯的 retrieval cost。對 latency 敏感場景考慮 query rewriting 等較輕量的替代。
跟 hybrid search 互補：HyDE 解語意 phrasing 落差、hybrid 解語意 / 字面互補、可以同時用。

讀 AI 應用設計文章看到「jagged frontier」「AI capability boundary」「falling asleep at the wheel」就是這個 framing。設計判讀：

不要用人類直覺難易推測 AI 能力：試跑、看結果、不要預判。
「全自動」是 over-trust 假設：frontier 鋸齒、總有些子任務落 frontier 外、需要人介入或 tool 補。設計時假設「有部分子任務 AI 會失敗」、不是「都會成功」。
失敗在 frontier 外加 prompt iteration 通常無效：那是模型能力邊界問題、不是 prompt 問題。對應 prompt 技術光譜的 systematic vs random error 診斷。
Falling asleep at the wheel：BCG 研究觀察到的人類行為——傾向不分辨任務是否在 frontier 內、對 AI 結果一律低度審查。緩解：對團隊 / user 明確標 frontier、frontier 外任務強制人類審查（HITL）、抽樣審查偵測 frontier 漂移。

完整人機協作 framing 見 4.5 人機協作拓樸。

Lark Grammar

Thu, 14 May 2026 00:00:00 +0000

Lark grammar 的核心概念是「Lark parser 使用的一種 EBNF-like 語法描述格式」。在 LLM structured output 文件中看到 lark grammar，通常是在說某個工具用 Lark 風格規則描述合法輸出，再把規則交給 parser 或 constrained decoding engine。

概念位置

Lark 是 Python 生態的 parsing toolkit，Lark grammar 是它的規則語言。它比傳統 BNF 更接近實作格式，常見元素包含 rule、terminal、literal、repeat、optional、ignore whitespace 與 start rule。

1start: query
2query: FIELD OP VALUE
3FIELD: "status" | "owner"
4OP: "=" | "!="
5VALUE: ESCAPED_STRING
6%import common.ESCAPED_STRING
7%ignore " "

這段規則描述一個很小的查詢語言，只允許固定欄位、固定運算子與 quoted string。

可觀察訊號與例子

維度	Multi-call workflow	Multi-agent system
控制流	主程式編排	Agent 自決
角色	Step 是函數、無「身份」	每個 agent 有 role / 工具集
Context	主程式傳 context	Agent 自帶 memory
重用	Step 是函數、容易 import	Agent 跨系統重用透過協議
失敗歸屬	Step 失敗、主程式接	Agent 失敗可能 cascading

三種主流拓樸：

拓樸	結構	適用
Flat	All-to-all、無 orchestrator	2-4 個 agent、動態協商
Hierarchical	Orchestrator + specialists	多專業 agent、單一對外介面
Agent-as-tool	Agent 互通像 tool call（如 MCP）	跨組織重用、標準協議

設計責任

讀 agent framework / paper 看到「multi-agent」「orchestrator」「agent-as-tool」就是這層設計。實作判讀：

「先 multi-call、不夠再 multi-agent」：multi-agent 是「特定問題的解法」、不是「更高級的設計」。判讀訊號：role 顯著差異 / 跨產品重用 / 真正平行 / 動態協作 / 團隊熟悉度——四條件全滿足才走 multi-agent。
Specialization gain vs orchestration overhead：拆細帶來單一責任、獨立優化、重用、平行；代價是 context 重複傳遞、latency 累積、debug 困難、責任歸屬模糊。
特有失敗模式：循環依賴、責任歸屬模糊、context 重複傳遞、orchestrator 單點瓶頸、agent 互相 hallucinate。每類有對應 guardrail（call stack 監測、trace 全紀錄、shared context、deterministic dispatch rule、schema validation）。
跟 MCP 的關係：MCP 的 tool primitive 視角下、agent-as-tool 可包成 MCP server 暴露、跨組織重用走這條路。

處理 query-document gap 時先判斷落差類型：同義詞、口語 vs 正式、問句 vs 陳述、跨語言、domain jargon 或識別碼。輕量修法是 query rewriting；形態落差明顯時可用 HyDE；精確 keyword 與語意都重要時用 hybrid search；仍然 top-k 不準時再加 reranker。

Reflection / Self-critique

Thu, 14 May 2026 00:00:00 +0000

Reflection（self-critique）的核心概念是「模型先生成一個草版、再對自己的草版 critique、再修改」。屬於推理引導類的 prompting 技術、也是 workflow pattern 的基本模式之一。跟 chain-of-thought 不同：CoT 是「過程要 explicit」、reflection 是「先寫一版再批評再改」、有明確的兩階段。

概念位置

Reflection 三步：

1[Generate] 模型生成 v1
2 ↓
3[Critique] 模型（或 critic LLM）對 v1 給回饋
4 ↓
5[Refine] 模型按回饋生成 v2
6 ↓
7(可選 loop)

跟其他模式對照：

模式	結構	主要解的問題
CoT	Think step by step、單次生成	隱式推理變 explicit
Reflection	Generate → critique → refine	一次生成不夠好、需要二次審視
Multi-step	Retrieve / decide / retrieve again	資訊不足、要動態補資料

設計責任

讀 prompt engineering / agent paper 看到「reflection」「self-critique」「self-refine」「critic」就是這個機制。實作判讀：

適用模型有能力辨識「自己寫的不夠好」、critique 跟 generator 不會共用同樣 blind spot。
失敗在 systematic error：critique 跟 generator 是同個模型、訓練分佈中的盲點不會因為「再想一次」消失。判讀訊號：critique 每次給很像的建議、或修完還是同一類錯——換 critic 用不同 base model、或加外部驗證（test、lint、schema）取代 LLM critique。
失敗在低能力模型：critic 能力不足、產不出有用建議、徒增 cost / latency。
失敗在無限循環：沒有客觀停止訊號、reflection 一直跑、cost 爆掉。緩解：step cap + 外部 metric（test pass、schema valid）。
失敗在過度修正：每次 reflection 都改一點、累積結果變糟（過度 fitting critic 意見）。緩解：保留 baseline、reflection 結果要跟 baseline 比、不一定採用。

設計 retrieval source 時要同時回答四件事：資料來源是否可信、資料是否新鮮、查詢者是否有權限、LLM 回答是否能追溯。高風險來源要保留 source metadata、ingestion timestamp、tenant boundary 與引用標籤；否則 retrieval 命中正確內容，也可能把不該看的資料送進 prompt。

Sampling Constraint

Thu, 14 May 2026 00:00:00 +0000

Sampling constraint（sampling 約束）的核心概念是「在模型選下一個 token 時，限制哪些 token 可以被選到」。模型 forward pass 產生每個 token 的 logit，sampling 約束在取樣前調整候選集合或機率，讓輸出符合格式、選項或安全邊界。

概念位置

Sampling 約束屬於推論階段，不修改模型權重，也不等於模型真的理解規則。常見控制手段有 temperature、top-p / top-k、logit bias、grammar mask、JSON mode 與 constrained decoding；其中 grammar mask 是 structured output 最關鍵的一類。

1prompt → model forward pass → logits
2 ↓
3sampling constraint：調整候選 token / logit / 機率
4 ↓
5sample next token → append → 下一輪

可觀察訊號與例子

看到「低 temperature 讓答案更穩」「top-p 過濾長尾 token」「logit bias 禁止某個 token」「grammar mask 只允許合法 JSON token」就是 sampling 約束。例子是 enum 分類：如果合法答案只有 billing、technical、other，推論伺服器可以在輸出欄位值的位置只允許這幾組 token 的路徑。

Sampling 約束的風險是把模型逼到錯誤但合法的輸出。當 grammar 太窄、enum 缺少 unknown、schema 沒有容納例外狀態時，模型可能輸出看似可解析但語意不可信的值；這時要加 fallback、confidence 或人工覆核路由。

設計責任

Sampling 約束適合處理格式合法性與候選空間控制，不適合單獨承擔事實正確性。設計時先問三件事：合法 token 集合能否完整表示業務狀態、約束失敗時要 retry 還是回退、下游 validator 如何分辨「格式合法但語意可疑」。下一步路由是 Structured Output 與 Top-K / Top-P / Min-P Sampling。

Structured Output

Thu, 14 May 2026 00:00:00 +0000

Structured output 的核心概念是「讓 LLM 輸出符合可機器解析的固定形狀」。它解的是應用層 parser 能不能穩定消費模型輸出的問題：輸出要能被 JSON parser、schema validator、dispatcher、workflow engine 確定性處理，而不是靠人類讀自然語言再猜意圖。

概念位置

Structured output 位在推論與應用交界，常見實作包含 JSON mode、JSON Schema、grammar 約束、constrained decoding 與 logit mask。它跟 function calling 的差異在責任層：function calling 是模型訓練出的工具呼叫能力，structured output 是推論時讓輸出形狀穩定的約束。

1模型能力：知道是否該呼叫工具、該填什麼參數
2推論約束：輸出必須符合 JSON / schema / grammar
3應用消費：parser 解析、validator 檢查、dispatcher 執行

可觀察訊號與例子

看到「固定輸出 JSON」「把結果分類成 enum」「回傳符合 schema 的物件」「讓 parser 不再處理自由文字」就是 structured output 場景。例子是客服工單分類：模型輸出 {"category":"billing","priority":"high"}，後端可以直接依欄位路由，而不是從一段自然語言裡抽關鍵字。

Structured output 的成功訊號是合法率、schema 對位率與下游解析失敗率。JSON 合法率只代表文字可被 parser 讀，schema 對位率才代表欄位、型別、enum、required 都符合應用契約；兩者分開看，才能分辨是語法錯、schema 錯，還是模型語意判斷錯。

設計責任

Structured output 適合「下游要自動執行」的輸出：tool 參數、分類、抽取、workflow 狀態、查詢條件。它的邊界是語意品質：grammar 可以保證格式合法，但不能保證模型填的值正確。下一步路由是：需要理解 token mask 機制讀 Constrained Decoding；需要判斷它跟工具呼叫的分工讀 Function Calling；需要完整應用層組合讀 4.6 應用層協議。

Three-Layer Architecture

Thu, 14 May 2026 00:00:00 +0000

Three-layer architecture（三層架構）的核心概念是「把本地 LLM 系統拆成介面層、inference server 層、模型層」。這個分層讓讀者能判斷一個工具是在處理使用者互動、模型 serving，還是權重本身。

概念位置

三層責任分工如下：

1介面層：CLI / IDE plugin / Web UI，負責接收任務與顯示結果
2伺服器層：inference server，負責載入模型、提供 API、跑推論
3模型層：權重檔與 tokenizer，負責提供可被執行的神經網路參數

Coverage 是訓練資料分佈的問題，常在 SFT、偏好資料、tool-use data、domain fine-tune 裡出現。它跟 prompt 範例不同：few-shot 範例只存在於當次 context，training examples 會透過訓練更新模型權重，影響模型「自然」傾向怎麼回答。

1訓練資料有覆蓋 → 模型自然輸出穩定
2訓練資料缺口大 → 靠 prompt / structured output / validator 兜底

可觀察訊號與例子

11. Drafter 一次生 K 個候選 token（如 K=5）
22. Target model 對「prefix + 這 K 個 token」並行驗證
33. 從前往後：
4 - drafter token i 跟 target 第 i 個位置 sampling 一致 → 接受
5 - 第一個不一致 → 接受到此為止、用 target 的 token 取代第一個不一致
64. 若全 K 個都接受、target 再 sample 一個 bonus token

Acceptance rate 影響：

場景	Acceptance rate	實際加速
Drafter 跟 target 高度同分佈	0.8 ~ 0.95	接近 K 倍上限
Drafter / target 一般搭配	0.5 ~ 0.7	約 1.5 ~ 2× 加速
Drafter 訓練分佈差很多	0.2 ~ 0.4	接近 1×（甚至更慢）
Drafter / target tokenizer 不一致	不能用	概念不成立

影響 acceptance rate 的因素

Drafter / target 同 family：同訓練分佈、acceptance rate 高（如 Gemma 4 31B + Gemma 4 E4B）
任務難度：簡單任務（boilerplate、常見 pattern）drafter 容易猜對；困難任務（reasoning、罕見領域）acceptance rate 降
Sampling temperature：高 temperature 兩邊 sample 分佈都拉平、隨機性增加、acceptance rate 降；T=0（greedy）acceptance rate 最高
K 設太大：drafter 越往後預測、累積誤差越大、後半段 token acceptance rate 急降；K 通常設 3-5 為甜蜜點

設計責任

讀 speculative decoding 設定 / model card 看到「draft acceptance」「acceptance length」就是這指標。寫 code 場景的判讀：

挑 drafter 看 family + 大小：drafter 跟 target 同 family（如 Gemma 4 31B + Gemma 4 E4B、Qwen3-30B + Qwen3-1.5B）是 acceptance rate 最高的組合
llama-bench 量實際加速比理論 K 倍重要：理論加速 = K × acceptance rate、實測才知道 drafter 在自己工作流的真實表現
太低的 acceptance rate 是訊號：< 0.3 通常表示 drafter / target 不匹配、值得換 drafter；< 0.5 表示甜蜜點以下、可調 K 或 sampling 設定
MTP（Multi-Token Prediction）：把 drafter 改成 target 內建多預測 head、acceptance rate 通常更高（因為 head 跟 target 完全同分佈）

Activation Function

Tue, 12 May 2026 00:00:00 +0000

Activation function（激活函數）的核心概念是「在 linear layer（矩陣乘法）之間插入的非線性函數」。沒有 activation function、整個多層神經網路會塌縮成單一個線性變換、表達能力跟單層 linear 一樣弱。activation function 讓深度網路真的「深」起來。

概念位置

LLM 中 activation function 主要出現在 FFN 內、夾在兩個矩陣乘法之間：

1FFN: input → W_up (linear) → activation → W_down (linear) → output
2 ↑
3 這裡是 activation function

主流 LLM 用的 activation function 演化：

Activation	公式（簡化）	出現在
ReLU	`max(0, x)`	早期 Transformer（如 BERT）
GELU	`x · Φ(x)`（Φ 是 Gaussian CDF）	GPT-2 / 3、BERT 後期
SwiGLU	`Swish(xW) ⊙ (xV)`	Llama、Gemma、Qwen 等主流
GeGLU	`GELU(xW) ⊙ (xV)`	部分 Google 系列模型

SwiGLU / GeGLU 是「gated」變體、用兩條線性投影相乘、表達能力比單一 activation 強、是現代 LLM 主流。

設計責任

讀 paper / model card 看到 SwiGLU、ReLU、GELU 等詞、知道它們是 FFN 內部的選擇、影響模型表達能力跟訓練穩定性、不影響「模型怎麼用 / 怎麼 inference」這類使用者面議題。寫 code 場景的判讀：模型用什麼 activation 由模型作者決定、使用者通常不用調；但若要 fine-tune 或自己訓模型、activation 選擇是設計決策之一。

Active Parameter

Tue, 12 May 2026 00:00:00 +0000

Active parameter 的核心概念是「MoE 模型每生成一個 token 實際參與 forward pass 的參數量」。跟模型總參數量是兩個獨立指標：總參數影響記憶體需求（要全部載入）、active parameter 影響推論速度上限（每 token 走的計算量）。Dense 模型的 active parameter 等於總參數；MoE 模型的 active parameter 通常只有總參數的 10% ~ 20%。

概念位置

模型命名中的 active parameter 線索：

命名範例	解讀
`Qwen3-30B-A3B`	30B 總參數、A3B 表示 active 約 3B
`Mixtral-8x7B`	8 個 7B expert、每 token top-2 啟用 ≈ 14B active（含 shared）
`Llama-3.3-70B`	Dense、active = total = 70B
`DeepSeek-V3`	671B 總參數、active 約 37B（依官方文件）

模型在不同維度的影響：

維度	受影響因素
記憶體需求	總參數 × 每權重 bytes
生字速度上限	active parameter × 每 token 讀取量 / memory bandwidth
模型能力（社群常見回報）	較強相關於總參數、但 active parameter 是底線

事實查核註：active parameter 跟模型能力的關係是社群常見回報、不是嚴格定理；具體模型在 coding / reasoning / 對話等任務的表現依訓練資料、RLHF、prompt 風格變化、需以 SWE-bench 等公開 benchmark 跟自己工作流校準。

設計責任

理解 active parameter 後可以解釋兩個現象：為什麼 30B MoE 跟 30B Dense 在同硬體下生字速度差很多（前者每 token 只走 3B active）、為什麼 MoE 模型能力對應的「等價 Dense 大小」不是簡單線性（社群常見回報接近總參數的 60% ~ 80% 等價 Dense 能力、但 case-by-case）。

選 MoE 模型時、active parameter 是速度判讀軸、總參數是記憶體判讀軸、能力判讀靠自己工作流的 benchmark；不要直接拿「30B」跟 Dense 30B 作能力對等。

Adam / AdamW

Tue, 12 May 2026 00:00:00 +0000

Adam（Adaptive Moment Estimation、Kingma & Ba, 2014）的核心概念是「對每個參數維護兩個 EMA（gradient 的一階矩 = 平均、二階矩 = 變異）、用這兩個值自適應地縮放每個參數的更新步長」。AdamW（Loshchilov & Hutter, 2017）是 Adam 加上「decoupled weight decay」的修正版、是現代 LLM 訓練的標準 optimizer。

概念位置

Adam 更新規則（簡化）：

1m_t = β₁ × m_{t-1} + (1 - β₁) × g_t ← gradient 的 EMA（一階矩、方向）
2v_t = β₂ × v_{t-1} + (1 - β₂) × g_t² ← gradient² 的 EMA（二階矩、變動率）
3W -= lr × m_t / (sqrt(v_t) + ε)
4 └──────┬──────┘
5 每個參數獨立縮放
6 經常變動的方向減小步長、穩定方向加大

跟其他 optimizer 對比：

對比	SGD	SGD + Momentum	Adam	AdamW
每參數自適應	否	否	是	是
記憶體開銷	1× W（就 gradient）	2× W	3× W	3× W
Hyperparameter	lr	lr + μ	lr + β₁、β₂	lr + β₁、β₂ + weight_decay
LLM 訓練主流	否	否	早期	現在主流

關鍵：AdamW 對 weight decay 跟 lr 解耦、修正了 Adam 在「lr × weight_decay」交互上的 bug、是 GPT、Llama、Gemma 等系列訓練的標配。

設計責任

讀 LLM training paper / config 看到 optimizer: AdamW、betas: [0.9, 0.95]、weight_decay: 0.1 等就是這個 optimizer 的標準設定。記憶體佔用 = 模型權重 × 3（model + m + v）、加上 backpropagation 的 activation、是訓練 vs 推論記憶體差距的主要來源。

Agent Loop

Tue, 12 May 2026 00:00:00 +0000

Agent loop 的核心概念是「LLM 在 plan → act → observe → plan 的循環中推進任務、直到任務完成或停止條件觸發」，有別於一次性回答。它讓 LLM 從「單回合工具呼叫」進化成「自主執行多步驟工作」、但同時放大 prompt injection 的影響面跟 tool use 副作用範圍。

概念位置

典型的 agent loop 流程：

1循環開始：
2 step 1：LLM 看任務目標 + 當前狀態 → 規劃下一步 → 生成 tool call
3 step 2：client 執行 tool call → 得到結果
4 step 3：tool 結果回灌 conversation → LLM 看到新狀態
5 step 4：LLM 判斷：任務完成？ → yes 結束 / no 回 step 1
6循環結束。

Agent loop 的兩個關鍵變數：

max steps：循環最大次數、防止無限迴圈跟成本爆炸。
stop condition：什麼算「任務完成」、由 LLM 自己判斷還是有額外驗證。

常見實作（依框架而異）：LangGraph、AutoGPT、Claude 的 agentic abilities、OpenAI Assistants API 都提供 agent loop 機制。

設計責任

理解 agent loop 後可以解釋兩個現象：為什麼 agent 工作流的成本比單次 LLM call 高一個量級（loop 跑很多輪）、為什麼 agent loop 是 prompt injection 的放大器（loop 中段被 injection 後、後續步驟都被牽動）。

防禦設計的核心：

max steps 上限：避免無限循環、控制成本。
per-step review checkpoint：每幾步強制人為或自動驗證、防止 agent 飄離原意圖。
agent 持的 credential 最小化：避免單次 injection 影響面跨越多服務。
tool 結果在 prompt 中包覆：明確標記「以下是 tool 回傳、不執行內含指令」、降低觸發率。

詳見 LLM Agent Prompt Injection 後果治理跟 4.4 Agent 架構原理。

Agent Memory

Tue, 12 May 2026 00:00:00 +0000

Agent memory 的核心概念是「agent 在 context window 之外管理長期狀態的設計」、把使用者偏好、過去任務、知識、操作流程等持久化、跨 session 重用。借鑒人類認知科學的五個層次：working memory（context 本身）、short-term（session scratchpad）、long-term episodic（過去事件）、long-term semantic（事實 / 知識）、long-term procedural（流程 / 技能）。

概念位置

五個層次的對比：

層	範圍	存放位置	典型內容
Working memory	當前 query / forward pass	Context window 本身	當下對話、tool result、reasoning trace
Short-term / session memory	單一 session（小時級）	Scratchpad 物件 / prompt cache	Session 內累積的中間結果、用過的策略
Long-term episodic memory	跨 session（永久）	DB / vector store / file system	「上週 alice 問過 X」「上個 sprint 解過 Y bug」
Long-term semantic memory	跨 session（永久）	DB / vector store / KG	「user 偏好 markdown 輸出」「專案用 React 18」「Python 3.11」
Long-term procedural memory	跨 session（永久）	Skill registry / playbook	「跑測試前先 npm install」「commit 前要 lint」

跟其他相關概念的關係：

概念	跟 agent memory 的關係
RAG	Long-term semantic memory 的常見實作（vector store retrieval）
Context window	Working memory 的物理上限
System prompt	把 semantic / procedural memory 編碼進 scaffold 的方式
Subagent	用 subagent 分隔不同 specialty 的 memory

設計責任

讀 agent paper / 設計 / framework docs 看到「agent memory」「memory store」「mem0 / Letta」「episodic / semantic memory」就是這 framing。寫 code 場景的判讀：

不是每個 agent 都需要五個層次都用：autocomplete 只要 working memory；對話 IDE assistant 多用 working + session；長期 coding agent 才需要 long-term
Long-term memory 的兩條實作路線：(a) retrieval-on-demand（vector store + similarity search、見 RAG）、(b) injection-on-startup（把關鍵 memory 編進 system prompt、適合小量穩定的 procedural）
失敗模式：memory drift（舊 memory 過時但仍被 retrieve）、PII 寫入（user 不知情下被存）、context 污染（不相關 memory 被 inject 進 working）、跟 hallucination 互相 boost
跟 4.19 agent memory 章節的關係：本卡是分類定義、章節是工程實務（寫入時機、retrieval 設計、失敗模式緩解）

Attention

Tue, 12 May 2026 00:00:00 +0000

Attention 的核心概念是「Transformer 中讓每個 token 對其他 token 加權平均、產生 context-aware 表示」的計算機制。具體運作是用 Query（Q）、Key（K）、Value（V）三組向量算 attention score、再用 softmax 把 score 變成權重、最後加權平均 V。這個機制是 KV cache 概念的源頭、也是 context window 上限的計算瓶頸。

概念位置

Attention 在 Transformer block 中的位置：

1Transformer block：
2 ├── Layer Norm
3 ├── Attention（本卡聚焦）
4 │ ├── Q · K^T → attention score
5 │ ├── softmax → weight
6 │ └── weight · V → output
7 ├── Layer Norm
8 └── FFN 層（或 MoE）

簡化的計算公式：

1attention(Q, K, V) = softmax(Q · K^T / √d) · V

Attention 的常見變體（影響 KV cache 體積跟推論性能）：

變體	描述
MHA（Multi-Head Attention）	原始 Transformer 設計、每 head 獨立 Q / K / V
GQA（Grouped-Query Attention）	head group 共用 K / V、KV cache 體積減小、推論較快
MLA（Multi-head Latent Attention）	DeepSeek 提出、KV cache 壓縮更激進
Flash Attention	演算法層的優化實作、跟變體獨立

設計責任

理解 attention 後可以解釋三個現象：為什麼 LLM 推論的記憶體用量隨 context 長度線性增加（KV cache 是 attention 暫存）、為什麼 KV cache 量化對品質影響有不對稱性（K 用於 score 比較、V 用於加權平均、誤差累積方式不同）、為什麼不同 attention 變體在同等模型大小下推論速度差異明顯（KV cache 體積跟卡間頻寬需求不同）。

工程實務上、Attention 是 LLM 推論性能跟記憶體需求的最大來源、量化策略、context 上限、併發數設計都圍繞 attention 跟 KV cache 展開。

Backpropagation

Tue, 12 May 2026 00:00:00 +0000

Backpropagation（反向傳播）的核心概念是「從輸出端的 loss 開始、用 chain rule 一層層往輸入端遞推、算出每個權重的 gradient」。它是訓練神經網路的核心演算法、沒有它就無法在合理時間內訓練深度模型。

概念位置

Backpropagation 是訓練 loop 的中段、夾在 forward pass 跟權重更新之間：

1[forward pass]：input → layer1 → layer2 → ... → output → loss
2 ↓
3[backpropagation]：把 loss 對最後一層權重的偏微分算出來
4 ←─ chain rule ─ 再往前傳播一層、算前一層的 gradient
5 ←─ chain rule ─ ...一路傳回輸入層
6 ↓
7[optimizer step]：每個權重 w 用對應的 gradient 更新

關鍵特性：

計算成本 ≈ forward pass 的 2~3 倍：每個 layer 都要存 forward 階段的中間值（activation）、反向時拿來算 gradient。所以訓練比推論貴一個量級。
記憶體佔用 = forward 階段 activation 的累計：這是訓練比推論吃 VRAM 的主因、不是「權重變大」、是「activation 要存著」。
數值穩定性敏感：long chain 的 chain rule 容易導致 gradient 爆炸或消失、見 gradient 卡。

設計責任

推論階段完全不用 backpropagation。理解這點能解釋幾個現象：為什麼同樣模型訓練要 8 卡 H100 一週、推論單卡就跑得動（差幾十倍的計算與記憶體需求）；為什麼 LoRA / QLoRA 等 parameter-efficient fine-tuning 能大幅降低訓練成本（凍住大部分權重、只對少數 LoRA 矩陣做 backpropagation）；為什麼 inference framework（llama.cpp、vLLM）跟 training framework（PyTorch、JAX）的設計重點完全不同。

Batching

Tue, 12 May 2026 00:00:00 +0000

Batching 的核心概念是「多個 request 在同一個 forward pass 內一起跑、攤平 model weights 從記憶體讀到處理器的成本」。是 production LLM inference 的核心優化——跟 memory bandwidth 瓶頸對接：讀一次 model weights、能 process N 個 request、單 request 的 effective throughput 上升 N 倍。

概念位置

Batching 介於 inference engine 內部、跟 KV cache 一起決定一個 GPU / Apple Silicon 能服務多少並發 user。但 batching 不是 free——靜態 batching 要等湊滿才跑、延遲首字延遲；連續 batching 平衡 throughput + latency 但實作複雜。Single-user 場景常無 batching（local Mac 跑 Ollama 即此情境）、production multi-tenant 必有 batching。

可觀察訊號與例子

策略	機制	適合場景
No batching	每 request 獨立 forward pass	Single-user、極低 latency 要求
Static batching	等湊滿 N 個 request 才跑	高 throughput 批次處理（embedding pipeline、文件 ingest）
Continuous batching	新 request 動態加入正在跑的 batch	vLLM / TGI / SGLang 等 production inference 主流
In-flight batching	不同 sequence 在不同 step 同時推	NVIDIA Triton + TensorRT-LLM 等深度優化

實務觀察：production LLM 服務 throughput 在 batch size 4-32 之間有明顯提升、超過 GPU memory 上限後反而下降（KV cache 跟 model weight 競爭記憶體）。

設計責任

選 batching 策略看兩維度：

應用 latency tolerance：
- 互動式 UI（chatbot、IDE 補完）→ continuous batching、低 latency 優先
- 批次處理（夜間 summarization）→ static batching、throughput 優先
硬體 KV cache 上限：
- GPU memory - model weights = batchable 容量
- 預估 max batch size = available_memory / per_user_kv_cache

Embedding 服務通常 batch 16-128 都 OK（embedding 是純 forward pass、無 KV cache 累積）；chat / generation 服務 batch size 受 KV cache 嚴格限制。

詳細跟 production 部署 capacity planning 的對接見 4.9 Production 資源評估；跟 autoregressive 推論的單 token 瓶頸對應的優化討論見 3.2 attention 機制。

Beam Search

Tue, 12 May 2026 00:00:00 +0000

Beam search 的核心概念是「每步同時保留 K 條最有機率的候選 sequence（beam width = K）、最終挑一條總機率最高的當輸出」。相比 greedy decoding 只保一條、beam search 能探索更多可能、避免「貪心一時、累積失誤」；但對話 / coding 場景常出現副作用、是 top-p sampling 取代它的原因。

概念位置

Beam search 跟其他 decoding 策略的對比：

策略	機制	適合場景	LLM 常見性
Greedy	每步選機率最大的 token	確定性任務、debugging	高
Beam search (K)	維護 K 條候選、最後挑總機率最高的	機器翻譯、summarization、有「正確答案」的任務	中（傳統 NLP 主流）
Top-k / top-p / min-p	從機率分佈隨機取樣（限制候選範圍）	對話、寫作、coding、創意輸出	高（LLM 主流）

Beam search 的算法直覺：

1beam_width = 3
2Step 1：從機率分佈挑前 3 個 token、得到 3 條 partial sequence
3Step 2：每條 partial 各自展開所有可能下個 token、組合機率排序、保留前 3
4Step 3：重複 Step 2、直到所有 beam 都遇到 EOS 或達到 max_length
5Final：選總 log-probability 最高的 beam 當輸出

Beam search 在 LLM chat / coding 場景的副作用：

輸出偏 boilerplate：K 個 beam 容易收斂到同樣的高頻開頭（「Sure!」「That’s a great question」）、各 beam 平均化掉原本該有的多樣性。
缺乏隨機性：給同 prompt 永遠生同輸出、缺乏寫作 / 創意任務需要的變化。
計算貴：K 倍記憶體 + K 倍 forward pass。

設計責任

讀 inference framework 看到 num_beams: 1 預設值就是用 greedy/sampling、num_beams: 5 才會開 beam search。寫 code 場景的判讀：日常用 top-p sampling 為主、需要確定性測試用 greedy、需要「在多個候選中挑最好的」用 best-of-N（每個獨立 sample、再選 reward 最高）而非 beam search。Beam search 在現代 LLM chat 場景已經少用、但在 translation / structured output 等「有正確答案」場景仍見。

Bind Address

Tue, 12 May 2026 00:00:00 +0000

Bind address 的核心概念是「伺服器啟動時決定『監聽哪個網路介面上的請求』」。同一個 port 在不同 bind address 下、能接受的請求來源完全不同；對本地 LLM 推論伺服器（Ollama / llama-server / LM Studio）來說、bind address 是決定誰能連到模型的最直接設定。

概念位置

三層典型 bind address 的暴露範圍：

bind address	接受來源	個人 dev 場景的常見用途
`127.0.0.1` / `localhost`	只本機 process	VS Code 連本機 server、最安全預設
具體 LAN IP（如 `192.168.x.x`）	同網段設備	想分享給家裡桌機 / 筆電
`0.0.0.0`	所有網路介面	容器化 / 想接受 LAN + WAN（風險高）

關鍵差異：

127.0.0.1 只接 loopback、無論其他網路介面狀態都不接外部請求。
0.0.0.0 在所有介面上監聽、若機器有 public IP 或在公開 Wi-Fi、就會被網路上其他人連到。
具體 LAN IP 是中間地帶、限定來源到該介面的網段。

檢查當前 bind 狀態的指令：

1# macOS / Linux
2lsof -i -P -n | grep LISTEN | grep <port>
3
4# Linux
5ss -lntp | grep <port>
6
7# 或
8netstat -an | grep LISTEN | grep <port>

看到 127.0.0.1:<port> 是 loopback、*:<port> 或 0.0.0.0:<port> 是所有介面。

設計責任

理解 bind address 後可以解釋兩個現象：為什麼預設安全的伺服器都 bind 到 127.0.0.1（避免不小心暴露）、為什麼 Docker -p 8080:8080 預設 bind 到 0.0.0.0（容器化的便利性、但對個人 dev 是潛在暴露點）。

設計本地推論伺服器時、預設 loopback、想分享 LAN 時 bind 到具體 LAN IP（不要直接 0.0.0.0）、要對外時加 reverse proxy + auth + TLS。詳見 6.1 推論伺服器的綁定與暴露範圍跟 7.3 入口治理與伺服器防護。

BPE（Byte-Pair Encoding）

Tue, 12 May 2026 00:00:00 +0000

BPE（Byte-Pair Encoding、Sennrich et al., 2015 引入 NLP）的核心概念是「從字元開始、反覆找『出現頻率最高的字元對』把它合併成新 token、直到達到目標詞彙表大小」。是 GPT、Llama、Mistral 等主流 LLM 的 tokenization 演算法、能在「字元」跟「整詞」之間找平衡。

概念位置

BPE 訓練 tokenizer 的流程（簡化）：

1Step 0：vocab = 所有單一字元（256 個 byte / Unicode 字符）
2
3迭代：
4 Step 1：掃描 corpus、統計所有相鄰 token 對的出現頻率
5 Step 2：找出現最多的字元對（如 "l" + "o" 一起出現 1M 次）
6 Step 3：把它當新 token 加進 vocab、把 corpus 裡所有這個對換成新 token
7 Step 4：回到 Step 1、直到 vocab 達到目標大小（如 50K、128K、256K）

實際 token 化的結果：

文字	BPE token 化結果	理由
`Hello`	`["Hello"]`	高頻單字、整詞當一個 token
`Hellobot`	`["Hello", "bot"]`	罕見組合、拆成已知 token
`Antidisestab...`	`["Anti", "dis", "establish", ...]`	罕見長詞、拆成 sub-word
`你好`	`["你", "好"]` 或 `["你好"]`	視 tokenizer 訓練 corpus 的中文比例

BPE 的變體：

Byte-level BPE：把每個 byte 當基底（256 個）、所以任何 Unicode / 二進制都能 tokenize、不會有 unknown token。GPT-2 開始的標準。
SentencePiece BPE：跟 SentencePiece 框架結合、處理多語言更靈活。

設計責任

讀 model card 看到 tokenizer: BPE 就是這個演算法。BPE 對英文友好（高頻單詞整個一 token）、中文 / 日韓較不友好（單字符常被當獨立 token）；這就是為什麼同一段中文翻譯成英文後、英文 token 數常常更少、雲端 LLM 用中文 API 比英文貴。但越新的模型（Gemma 4、Qwen3 等）vocab 越大（256K+）、對中文友善度提升中。

Catastrophic Forgetting

Tue, 12 May 2026 00:00:00 +0000

Catastrophic forgetting（災難遺忘）的核心概念是「Fine-tune 模型時、新訓練資料的 gradient 更新破壞了模型原本學到的能力」。在 LLM fine-tuning 場景特別常見：在自己 domain 資料上 fine-tune、結果模型在原 benchmark / 通用任務上分數大幅下降。

概念位置

Catastrophic forgetting 在 LLM fine-tuning 的典型表現：

 1Before fine-tune（base instruct model）：
 2  HumanEval: 75
 3  MMLU: 70
 4  自己 domain 任務 hit rate: 40%
 5
 6After fine-tune（在自己 domain 資料上跑 SFT、3 epochs）：
 7  HumanEval: 55  ← 下降 20 點
 8  MMLU: 50       ← 下降 20 點
 9  自己 domain 任務 hit rate: 70%  ← 提升 30 點
10
11→ 自己 domain 強了、但通用能力崩了

成因：

Gradient 在新資料上對 base 權重做大更新：原本 base 的權重對通用任務有用、被覆蓋掉
資料分佈差距大：自己 domain 跟 pretrain corpus 分佈差距大、學新的 = 忘舊的
訓練 epoch 太多：模型 over-fit 到新資料、舊能力衰退更嚴重
Learning rate 太高：每步更新幅度大、舊權重變化快

緩解策略

策略	機制	適用情境
LoRA / QLoRA	凍住 base 權重、只訓 adapter、舊能力完全保留	多數 fine-tune 場景的 default
資料 mixing	訓練 batch 內 mix 通用資料 + domain 資料、避免分佈完全偏移	跟 LoRA 結合使用
Lower learning rate	用較小 lr（如 5e-6 vs 1e-5）、減慢更新	全參數 fine-tune 必選
Fewer epochs	訓 1-2 epoch 就停、不過度擬合	同上
Regularization（KL constraint）	Loss 加「不能偏離 base 太遠」的約束	RLHF / DPO 已內建
EWC（Elastic Weight Consolidation）	對重要權重加更強懲罰、防止它們被改	研究用、實務罕見

主流 fine-tuning 配置（避免 catastrophic forgetting）：

1方法：QLoRA fine-tune
2參數：
3  - rank: 16-64（看資料量）
4  - alpha: 32（typical）
5  - lr: 1e-4 ~ 5e-4（LoRA 適合較大 lr）
6  - epochs: 1-3（不過度訓）
7  - 資料：80% in-domain + 20% 通用 instruction data（保留通用能力）

設計責任

讀 fine-tune paper / 報告看到「forgetting」「retention」「regression」就是這現象。寫 code 場景的判讀：

Fine-tune 前先建 baseline benchmark：把 base model 在通用 benchmark + 自己 domain 都跑一遍、fine-tune 後對比看 regression
用 LoRA / QLoRA 是 default：除非有特殊理由要 full fine-tune、不然優先 LoRA
不要把通用 chat 能力 fine-tune 掉：如果 fine-tune 後模型不會聊天、只會答自己 domain 問題、就是 forgetting 過頭
Iterative fine-tune 風險疊加：在 fine-tuned 模型上再 fine-tune（如 SFT → DPO）、forgetting 風險加倍、要小心評估
Reasoning 能力特別容易 forget：reasoning 是後期訓練的、fine-tune 一輪 SFT 容易破壞、reasoning model 不建議再 fine-tune

Causal Mask

Tue, 12 May 2026 00:00:00 +0000

Causal mask（因果遮罩）的核心概念是「在 self-attention 計算時、把 token i 看 token j (j > i) 的 attention 分數設成 -∞、softmax 後機率為 0」。直覺：LLM 是 autoregressive 的、生成 token N 時不能看到 N+1 以後（後面還沒生）、causal mask 強制這個約束、是 decoder-only Transformer 的標誌。

概念位置

Causal mask 在 attention 計算中的位置：

 1score = Q @ K^T / sqrt(d) ← shape (seq_len, seq_len)、每對 token 一個分數
 2score = score + causal_mask ← 加上 mask
 3attention = softmax(score) @ V
 4
 5causal_mask 長這樣（lower triangular、上三角全是 -∞）：
 6 K_0 K_1 K_2 K_3
 7Q_0 [ 0 -∞ -∞ -∞ ] ← token 0 只能看自己
 8Q_1 [ 0 0 -∞ -∞ ] ← token 1 能看 0~1
 9Q_2 [ 0 0 0 -∞ ]
10Q_3 [ 0 0 0 0 ]

關鍵特性：

訓練時並行有效：所有 token 同時跑 forward pass、causal mask 確保每個 token 只看到該看的範圍。沒 mask 就會「偷看未來」、訓出 cheating 模型。
推論時自動成立：自回歸生成本來就是一個一個生、後面不存在、mask 是隱式的。
跟 KV cache 結合：推論時 cache 只存「過去」的 K/V、causal mask 自然滿足。

跟其他 attention 變體的關係：

架構	是否用 causal mask
Decoder-only LLM（GPT / Llama / Gemma）	用、是標配
Encoder-only（BERT）	不用、可以看雙向 context
Encoder-decoder（T5）	Decoder 部分用、Encoder 部分不用

設計責任

讀 paper / model card 看到「causal」「decoder-only」「auto-regressive」這幾組詞、就是這個機制。實務上、寫 code 場景的所有主流 LLM 都用 causal mask、所以這個概念是隱式 default、不會主動暴露給使用者；但理解它能解釋為什麼 LLM 是「接龍」、為什麼 bidirectional context 在 LLM 裡不存在（要 bidirectional 要用 encoder 架構）。

Chain-of-Thought（CoT）

Tue, 12 May 2026 00:00:00 +0000

Chain-of-Thought（CoT、思維鏈、Wei et al., 2022）的核心概念是「讓 LLM 先輸出一連串中間推理步驟、再給最終答案」、不是直接從問題跳到結論。CoT 是 reasoning model 的基礎機制；prompting 形式（few-shot 提示）跟訓練形式（reasoning RLHF / RL）兩條路都圍繞它演化。

概念位置

CoT 的兩種觸發方式：

1直接回答：
2 Q: 23 × 47 = ?
3 A: 1081
4
5Chain-of-Thought：
6 Q: 23 × 47 = ?
7 A: 先算 20 × 47 = 940、再算 3 × 47 = 141、加起來 940 + 141 = 1081。
8 答案：1081

CoT 在 LLM 演化中的兩個階段：

階段	觸發方式	代表模型 / 技術
Prompting CoT	Few-shot 提示「請逐步思考」或「let’s think step by step」	GPT-3、PaLM、早期 instruct 模型
Training CoT	訓練資料含大量 reasoning trace、模型學會「自然」用 CoT	GPT-4、Claude 3.5、Gemini Pro
Reasoning RL	RL 階段獎勵「正確答案的長 reasoning trace」、模型學會用更長 CoT	DeepSeek-R1、o1 / o3、Qwen-QwQ、Claude 3.7 Sonnet thinking

第三階段的特性：模型自己決定「該想多久」（test-time compute 動態擴展）、推理 trace 可達數千 token、最終答案才是少數 token。

設計責任

讀 prompt engineering / paper 看到「CoT」「step by step」「reasoning trace」「thinking」等就是這個機制。寫 code 場景的判讀：

複雜推理任務開 CoT 通常有幫助（math、debug、algorithm design）— 即使是 instruct model 也能透過 prompting 觸發
簡單任務 CoT 浪費 token（autocomplete、單行查詢、純查表）
Reasoning model 的 CoT 是內建行為、不需要用 prompt 觸發、但 reasoning trace 會消耗大量 token（推論時間、context、API 成本都翻倍）
本地跑 reasoning model：DeepSeek-R1 distill 系列、Qwen-QwQ 等可本地跑、但需要較大 context window 容納 reasoning trace

Chunking

Tue, 12 May 2026 00:00:00 +0000

Chunking 的核心概念是「把長文件切成可被 retrieval 系統獨立檢索的片段」。是 RAG 系統的關鍵設計決策——chunk 太小、retrieval 拿到的 fragment 缺脈絡；太大、retrieval 精確度低且浪費 context window。「resolution vs context loss」是無法兩全的設計取捨。

概念位置

Chunking 介於 corpus 跟 embedding model 之間、決定 embedding 的單位。同一份 corpus 不同 chunking 策略產出不同 index、retrieval 行為完全不同。Chunk 邊界也決定 retrieval 命中後給 LLM 的 context 邊界——chunk 邊界穿過語意單位、會把連貫資訊切散。

可觀察訊號與例子

Chunk 大小	典型 token 數	適合場景
細粒度	100-300	精確問答（單句答案）
中粒度	400-800	一般 RAG 主流
粗粒度	1500-3000	摘要任務、需要長段脈絡

切法策略：

固定 token 數：簡單但易切過句子 / 段落中間。
段落感知：用空白行切、保留段落完整。
語意 chunking：用 LLM / embedding 找語意邊界。
結構化文件：按 heading / section 切（markdown、code）。

跨 chunk 重複（overlap）：相鄰 chunk 留 10-20% 重疊、避免邊界訊號丟失。

設計責任

Chunking 之前要回答四個問題：

任務類型：問答 / 摘要 / 探索性搜尋？決定 chunk 大小 baseline。
文件結構：純文字 / markdown / code？決定切割 strategy。
語言混合：中文跟英文 token 比例不同、char-based heuristic 可能不準。
Embedding model 能力：太短 / 太長 chunk 都會降低 embedding 品質。

寫 code 場景的實作範例見 RAG demo hands-on 的 slice_markdown function、設計取捨展開見 4.1 RAG 原理的「Chunking 的本質取捨」段。

Client-Side LLM / Embedding

Tue, 12 May 2026 00:00:00 +0000

Client-side LLM / embedding 的核心概念是「模型權重下載到使用者瀏覽器、用 WebGPU 或 WebAssembly 直接在 browser 內推論、不經過任何 server」。代表 runtime：WebLLM（MLC AI、用 WebGPU）、wllama（llama.cpp 的 WebAssembly port）、@xenova/transformers（瀏覽器版 transformers）。是「靜態網站做 RAG」、「離線可用 LLM 應用」這類場景的關鍵基底。

概念位置

跟其他 LLM deployment 形態的對比：

形態	模型權重位置	推論執行位置	隱私	適合
雲端 LLM API	雲端伺服器	雲端	視 vendor 政策	高品質、production
本地推論伺服器	本機磁碟	本機 process	完全本地	寫 code、個人 dev
Client-side LLM	使用者 browser cache	使用者 browser	完全本地（不經 server）	靜態網站、demo、離線

主流 client-side runtime（2026/5）：

Runtime	機制	模型支援	典型體積
`@xenova/transformers`	WASM、ONNX 格式	sentence-transformers、小型 LLM、CLIP、embedding	< 100 MB / 模型
WebLLM（MLC）	WebGPU、自家 MLC compiled	Llama / Qwen / Gemma / Phi 等 1-13B	1-8 GB / 模型
wllama	WASM、llama.cpp 編譯版	GGUF Q4 等量化模型、< 4B 為主	0.5-4 GB / 模型
`transformers.js`	WASM、跟 `@xenova/transformers` 同源	同上	同上

設計責任

讀靜態網站 / 前端 RAG / 離線 LLM 教學看到「WebGPU LLM」「browser-side embedding」「offline LLM」就是這 paradigm。寫 code 場景的判讀：

首訪載入慢：browser 第一次要下載模型權重（embedding 模型 ~50MB、LLM 1-5GB）、首訪體驗差；後續訪問 cache 起來、變快
WebGPU 支援度：2026/5 仍非所有 browser / 裝置都穩定支援、Safari iOS 較弱；fallback 到 WASM 但速度降一個量級
模型完整性沒簽章：使用者下載到的模型權重沒類似 GGUF model card 的官方驗證、要靠 CDN + HTTPS 信任、不像本地 Ollama 有 hash 比對
適合「embedding + 小 LLM」、不適合「30B reasoning」：browser 記憶體跟 WebGPU 算力都遠不如本地 Ollama、選 < 4B 模型較實際
跟資安的關係：client-side 不需要 server API key、隱私強；但模型分發鏈（CDN → browser）成為新的供應鏈面、見 4.16 靜態 RAG deployment 的資安段

CLIP

Tue, 12 May 2026 00:00:00 +0000

CLIP（Contrastive Language-Image Pre-training、Radford et al., 2021）的核心概念是「用 4 億組 (image, caption) 對、訓 image encoder 跟 text encoder、讓對應圖文的 embedding 在共享空間靠近」。CLIP 本身不是 VLM、但它的 image encoder 成為現代幾乎所有 VLM 的 vision encoder 起點。

概念位置

CLIP 的訓練架構（簡化）：

 14 億組 (image, caption) 從網路爬：
 2  (photo of cat, "a fluffy orange cat sitting")
 3  (screenshot of code, "Python error: NameError x undefined")
 4  ...
 5
 6訓練：
 7  image → Image encoder（ViT-L/14）→ image_embedding
 8  caption → Text encoder（Transformer）→ text_embedding
 9
10  正向對（matching image-caption）：embedding 應該相似
11  負向對（同 batch 內其他不匹配）：embedding 應該遠
12
13  [Contrastive learning](/llm/knowledge-cards/contrastive-learning/) loss

訓完後得到：

共享 embedding 空間：圖跟文字 embedding 都在 768/1024 維空間、相似度比較有意義
Zero-shot classification 能力：給一張圖、給 100 個文字標籤、看哪個 embedding 最接近 → 不用 fine-tune 就能分類
Image search / 多模態 retrieval：text 跟 image 互查、是 multimodal RAG 基底

對 VLM 的影響：

1CLIP 訓出來後：
2  image encoder 已經學會「把圖片變成有意義的 embedding」
3
4VLM 訓練時：
5  - 直接拿 CLIP 的 image encoder 當 vision encoder（凍住或一起 fine-tune）
6  - 接上 LLM、用 image-text 任務資料訓 alignment
7  - 不用從頭訓 vision encoder、省下大量 compute

跟 SigLIP 的關係：SigLIP（Zhai et al., 2023）是 Google 提出的 CLIP 變體、用 sigmoid loss 取代原本 InfoNCE、訓練更穩、品質略佳；Gemma 3 / Idefics 等用 SigLIP 而非原 CLIP。

設計責任

讀 VLM paper / model card 看到「CLIP backbone」「SigLIP encoder」「OpenCLIP weights」就是這 family。寫 code 場景的判讀：

CLIP 本身不是 VLM：CLIP 只有 image-text 相似度、不能生文字回答；VLM 是「CLIP 的 image encoder + LLM + alignment training」
不同 CLIP 變體影響 VLM 能力：CLIP ViT-L/14 是經典、SigLIP / DFN（Apple）等變體在某些任務更強
Multimodal RAG 直接用 CLIP：純 image-text retrieval（如「找跟這張圖相似的 doc」）不需要完整 VLM、CLIP-like 模型就夠
CLIP 用於 zero-shot 分類仍實用：給定固定的 class label set（如「截圖 / 設計稿 / 程式碼 / 文件」）、CLIP 能直接 zero-shot 分類、不需要訓 specific classifier

Constrained Decoding

Tue, 12 May 2026 00:00:00 +0000

Constrained decoding（受限解碼）的核心概念是「推論時用 grammar 動態算出每個位置的合法 token mask、把不合法 token 的 logit 設成 -∞、softmax 後機率為 0」。是 structured output（JSON mode / function calling 的合法性保證）背後的 sampling 機制。代表實作：XGrammar、outlines、lm-format-enforcer、guidance、SGLang。

概念位置

跟既有 sampling 概念的層次：

1模型 forward pass → logits（每個 vocab token 一個分數）
2 ↓ apply temperature
3 ↓ apply grammar mask（constrained decoding） ← 本卡聚焦
4 - 算出當下位置的合法 token 集合
5 - 不合法 token 的 logit 設 -∞
6 ↓ softmax → 機率分佈
7 ↓ sampling（greedy / top-p / top-k）
8 ↓ next token

主要 grammar 類型：

Grammar 類型	描述	用例
JSON Schema	標準 JSON schema 定義合法 JSON 結構	Function calling、structured output
Regex	Regular expression	受限文字格式（如 phone number、email）
CFG（Context-Free Grammar）	BNF 等 grammar 描述合法語法	Code generation、DSL、SQL
Choice list	一組固定字串選項	Classification、enum 輸出

主流實作對比：

實作	機制	推論伺服器整合
XGrammar	Pre-compile grammar → token mask cache、極快	vLLM / SGLang / TensorRT-LLM 預設
outlines	Python lib、JSON schema / regex / CFG	用 Transformers / vLLM
lm-format-enforcer	Lazy compile、適合動態 grammar	Hugging Face Transformers
guidance	Microsoft 系、API 較高階	自家 server
llama.cpp grammar	Built-in GBNF（GGML BNF）	llama.cpp 內建

設計責任

讀 sampling / structured output / function calling 進階文件看到「constrained decoding」「grammar mask」「JSON schema enforcement」就是這 framing。寫 code 場景的判讀：

何時值得用：需要 100% 合法 JSON / 特定格式、function calling spec 嚴格、structured output 不可有解析錯誤
不該用的情況：自由 / 創意輸出（會限制模型表達）、grammar 太嚴讓模型「該說的話說不出來」（如 enum 不含「unknown」、模型強制選錯）
跟 function calling 的關係：function calling 是「模型訓練 + structured output」、constrained decoding 是 sampling 層的工程實作、可獨立組合
加速 vs 拖慢：常見誤解是 grammar 拖慢 — 實測 XGrammar 等 pre-compiled 實作反而加速生成（跳過 boilerplate token 直接生關鍵 token、節省 forward pass）
跟 3.10 constrained decoding 章節的關係：本卡是定義、章節是內部機制（token mask 計算、CFG 編譯、性能取捨）

Context Budget

Tue, 12 May 2026 00:00:00 +0000

Context budget 的核心概念是「把 context window 視為有限資源、明確規劃 system prompt / tool schema / history / file content / reasoning trace / tool result 各佔多少」。coding agent 的最大失敗模式是「context 用爆 → 模型開始遺忘關鍵指令 → 行為飄」、預算化是 harness 設計的核心責任。

概念位置

典型 coding agent 的 context 構成（以 200K 模型為例）：

 1[1. System prompt + tool schema]：     固定 ~10K-30K
 2   - agent 角色、輸出規則、tool 列表 + spec、subagent 路由
 3   - 經常用 prompt cache 加速、見 [prompt cache 卡]
 4
 5[2. 工作歷史 / conversation history]：  動態 0-60K
 6   - 過去回合的 user query + assistant answer + tool calls
 7   - 越長越貴、harness 要決定何時 summarize / trim
 8
 9[3. 當前任務 file context]：           動態 0-100K
10   - 開啟的檔案、grep 結果、@-mention 帶入的內容
11
12[4. Reasoning trace（若 reasoning model）]：  動態 1K-10K / step
13   - ... 段、每次推論都會佔 context
14
15[5. Tool result]：                    動態 0-50K
16   - file read 結果、bash output、test result
17
18[6. Margin / safety buffer]：         保留 20-30K
19   - 防止 generation 階段碰到 context limit

主流 coding agent 的 25% 規則（context engineering 慣例）：

規則	直覺
Scaffold 部分（1+2） ≤ 25%	留 75% 給「當下任務」、避免 lost-in-the-middle 把指令吃掉
File content ≤ 50%	不全載入大檔、用 grep / chunked read 替代
Margin ≥ 10%	Generation 階段才不會被 context limit 截斷
Reasoning trace 配長 context	Reasoning model 至少配 64K context、見 reasoning-model 卡

設計責任

讀 coding agent 設計 / harness paper 看到「context budget」「context engineering」「token budgeting」就是這 framing。寫 code 場景的判讀：

超出 budget 的訊號：模型開始忽略 system prompt、回答跟前文重複、tool call 重複過去步驟、reasoning trace 截斷
節省 budget 的策略：用 prompt cache 把 system + tool schema 攤平、grep 取代全檔讀、tool result 限長度（如 head -100）、定期 summarize history
跟 lost-in-the-middle 的關係：context 用越多、中段內容 recall 越差、所以「能用 20K 解就別用 100K」、不是「能塞 200K 就塞滿」
不同 task 不同 budget：autocomplete 任務 budget 小（系統 prompt + 最近 50 行 code 就夠）；refactor 任務 budget 大（多檔案）；agent loop 任務 budget 動態（每步可能 grow）

Contrastive Learning

Tue, 12 May 2026 00:00:00 +0000

Contrastive learning（對比學習）的核心概念是「訓練模型讓相關樣本的 embedding 在向量空間中靠近、無關樣本遠離」。是現代 embedding model 的標準訓練 paradigm、跟 LLM pretrain 的 next-token prediction 完全不同的訓練目標。

概念位置

Contrastive learning 的核心訓練形態：

 1正向對（positive pair）：
 2 (query, relevant_doc) — 應該在 embedding 空間靠近
 3 例：("Python how to read file", "Python file reading tutorial...")
 4
 5負向對（negative pair）：
 6 (query, irrelevant_doc) — 應該在 embedding 空間遠離
 7 例：("Python how to read file", "CSS flexbox guide...")
 8
 9Loss（簡化的 InfoNCE loss）：
10 pull positive pair 靠近
11 push negative pair 遠離（多個 negative samples 對比）

主流形式：

形式	Loss 設計	代表模型
Triplet loss	(anchor, positive, negative)、要求 anchor-positive 距離 < anchor-negative	早期 sentence-BERT
InfoNCE / NCE	Cross-entropy over batch、把 batch 內其他樣本當 hard negative	OpenAI ada-002、bge 系列
MultipleNegativesRankingLoss	上述變體、用 batch 內隨機其他樣本當 negative	Sentence-Transformers 主流

關鍵特性：

資料量需求大：contrastive learning 需要億級的正向對才能訓出好 embedding；資料來源是 query-doc click log、StackExchange QA pair、CC-paraphrase 等
Hard negative mining 是品質關鍵：隨機選 negative 容易（從 batch 取就行）、找「看似相關但實際無關」的 hard negative 更挑戰、是 embedding quality 提升的關鍵
不能直接拿 pretrained LLM 用：LLM 的 hidden state 不是「為 retrieval 優化」的、要再 fine-tune 一輪 contrastive learning 才能當 embedding model

設計責任

讀 embedding model paper / 訓練 code 看到「InfoNCE」「triplet」「hard negatives」「mining strategy」就是這 paradigm。寫 code 場景的判讀：

挑 embedding model 看訓練資料 domain：通用 retrieval（如 bge-large、nomic-embed）vs code-specific（如 jina-embeddings-v2-code、CodeT5+）、訓練資料分佈影響大
不能拿任意 LLM 抽 hidden state 當 embedding：如「Llama 的 last hidden state 當 embedding」這類做法在 retrieval 上通常顯著輸給專門 contrastive-trained embedding model
Fine-tune embedding model 通常用 LoRA + contrastive loss：在自己 domain 資料上 fine-tune、提升 in-domain retrieval；標準 pipeline 是 sentence-transformers + LoRA

Cross-Entropy

Tue, 12 May 2026 00:00:00 +0000

Cross-entropy（交叉熵）的核心概念是「衡量兩個機率分佈的距離」。LLM 預訓練的標準 loss function 是 cross-entropy：對每個 token、把模型預測的 vocab 機率分佈跟「真實答案是 one-hot 分佈」做 cross-entropy、加總。

概念位置

Cross-entropy 在 next-token prediction 訓練裡的具體計算：

1模型預測：p = softmax(logits) ← shape: (vocab_size,)
2真實答案：y = one-hot(true_token) ← shape: (vocab_size,)、只有真實 token 那位是 1
3
4cross-entropy = -sum(y_i × log(p_i))
5 = -log(p_true_token) ← 因為 y 是 one-hot、只剩這項

所以實作上 cross-entropy 就退化成「真實 token 預測機率的負對數」、機率越接近 1、loss 越接近 0；機率越接近 0、loss 越接近 ∞。

跟相關概念的關係：

概念	跟 cross-entropy 的關係
Perplexity	`perplexity = exp(cross-entropy)`、cross-entropy 的指數形式、人類直覺較好讀
KL divergence	Cross-entropy = entropy(真實) + KL(真實 ‖ 預測)、訓練時 entropy 是常數、所以 minimize cross-entropy 等於 minimize KL
Softmax	Cross-entropy 通常吃 softmax 的輸出當「預測機率」

設計責任

讀 LLM 訓練 / paper 時看到「training loss」幾乎都是 cross-entropy。實務判讀：cross-entropy 直接代表「模型對真實 token 的預測機率有多差」、loss = 2 大致對應「真實 token 被預測機率 ≈ 0.135」（exp(-2)）。模型在 pretrain 階段 cross-entropy 從約 11（純隨機）降到約 2-3（成熟模型）、SFT 階段再略降。

Dot Product

Tue, 12 May 2026 00:00:00 +0000

Dot product（內積、inner product）的核心概念是「兩個向量對應位置相乘再加總」：a · b = a₁b₁ + a₂b₂ + ... + aₙbₙ。幾何意義是「a 在 b 方向上的投影長度 × b 的長度」。Dot product 是 LLM 中最頻繁出現的運算之一：attention 的核心是 dot product、cosine similarity 的本體也是 dot product。

概念位置

Dot product 在 LLM 中的核心應用：

應用	公式 / 機制	角色
Attention score	`Q · K^T`	算「該 token 跟其他 token 的相關性」
Cosine similarity	`dot(a, b) / (norm(a) × norm(b))`	RAG / semantic search
L2-normalized similarity	normalize 後直接用 `a · b`	Vector database 高效檢索
Logits → token 機率	output_projection 本質是「最後 hidden state · token embedding」	算每個 vocab token 的「匹配度」

幾何直覺：

1兩個向量方向接近時：dot product 大（正值大）
2兩個向量垂直時： dot product = 0
3兩個向量方向相反時：dot product 大負值
4
5a · b = |a| × |b| × cos(θ)
6 ↑
7 θ 是兩向量夾角

LLM 推論性能上、dot product 是「matrix multiplication 的基本單元」、整個 forward pass 可以看成大量 dot product 的批次運算；這是為什麼 GPU / Apple Silicon Neural Engine 都針對 dot product 做硬體優化。

設計責任

讀 attention / RAG 相關內容看到「inner product」「dot product」「QK^T」就是這個運算。寫 code 場景的判讀：用 vector database 時、選 distance metric 看：cosine 適合未 normalized 的 embedding、dot product 適合 L2-normalized 的 embedding（兩者結果同、後者較快）；attention 的 KV cache 量化（K=Q8 / V=Q4）對品質的不對稱影響、根本原因是 K 用於 dot product（誤差累積快）、V 用於加權平均（誤差被平均化）。

DPO（Direct Preference Optimization）

Tue, 12 May 2026 00:00:00 +0000

DPO（Direct Preference Optimization、直接偏好最佳化）的核心概念是「用人類偏好資料直接 fine-tune LLM、不訓 reward model、不用 RL」。Rafailov et al. (2023) 提出、用數學變形把 RLHF 的「reward model + PPO」兩階段合併成單一個 supervised loss、訓練流程大幅簡化。

概念位置

DPO vs RLHF 的對比：

維度	RLHF	DPO
需要 reward model	是	否
訓練步驟	收偏好 → 訓 RM → PPO	收偏好 → 直接 DPO loss fine-tune
訓練穩定性	PPO 對 hyperparameter 敏感、容易不穩	像 supervised learning、相對穩
記憶體	三個模型同時運作（policy / RM / reference）	兩個（policy / reference frozen）
KL 約束	顯式加 β × KL term	內嵌在 loss 公式裡、不用顯式
流行度（2026）	商業大廠（OpenAI / Anthropic）	開源社群（Llama / Qwen / Gemma 系列許多用 DPO）

DPO 的 loss 形式（簡化）：

1loss = -log σ( β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)) )
2                └─ 偏好 response 在 policy 跟 ref 的 ratio ─┘
3                                                            └─ 拒絕 response 的同樣 ratio ─┘

直覺：讓 policy 對偏好 response 的機率增加（相對 ref）、對拒絕 response 的機率降低（相對 ref）。

設計責任

讀開源 LLM 的 paper / model card 看到「DPO-tuned」「preference fine-tuning」就是這個流程。實務上 DPO 訓練成本只是 RLHF 的一小部分、許多 fine-tune 平台（如 Hugging Face TRL）內建支援。後續還有 IPO、KTO、ORPO 等變體、都是「直接用偏好 fine-tune、不訓 reward」這條路線的進一步演化。

Embedding Layer

Tue, 12 May 2026 00:00:00 +0000

Embedding layer（嵌入層）的核心概念是「Transformer 第一層的查表結構：把整數 token ID 對應到一個可訓練向量（embedding）」。本質上是 vocab_size × hidden_dim 的權重矩陣、每個 token ID 取對應 row 當該 token 的向量表示。後續所有 Transformer block 都對這些向量做運算。

概念位置

Embedding layer 在 forward pass 的位置：

1input："Hello world"
2 ↓ tokenizer
3token IDs: [9906, 1917] ← 整數序列
4 ↓ embedding layer（vocab × hidden 查表）
5embeddings: [[0.1, -0.3, ...], [0.5, 0.2, ...]] ← 向量序列、(seq_len, hidden_dim)
6 ↓ Transformer block × N
7 ↓ output projection
8logits

跟 embedding model 的差別：

概念	用途	是否獨立訓練 / 部署
Embedding layer（本卡）	LLM 內部第一層、把 token ID 轉向量	否、是 LLM 的一部分
Embedding model	獨立模型、把整段文字轉向量、用於 RAG / 相似度	是、獨立模型

兩者「都產出向量」、但層級跟用途完全不同：embedding layer 是 LLM 內部結構（per-token、給模型 forward pass 用）、embedding model 是外部工具（per-text、給檢索系統用）。

Embedding layer 的大小：

Gemma 4 31B：vocab=256K、hidden=5120、embedding matrix ≈ 256K × 5120 = 1.3B 參數
Llama 3 8B：vocab=128K、hidden=4096、embedding matrix ≈ 0.5B 參數

通常跟 output projection（hidden → vocab）相同大小、有些模型 tied（共用權重）、有些 untied。

設計責任

讀模型架構圖看到「token embedding」「embed_tokens」就是這一層。實務意涵：模型大小有非小比例來自 embedding（vocab 越大、embedding 越大）；換 tokenizer 等於整個 embedding 重訓、是 fine-tune 時通常不動的部分。

Entropy

Tue, 12 May 2026 00:00:00 +0000

Entropy（熵）的核心概念是「衡量一個機率分佈的不確定性」。Shannon entropy 公式：H(P) = -sum(P(x) × log P(x))。直覺：分佈越「平」、entropy 越大（任何結果都可能）；分佈越「尖」、entropy 越小（結果很確定）。Entropy 是 cross-entropy、KL divergence、資訊壓縮等概念的基底。

概念位置

Entropy 跟 LLM 相關概念的關係：

1Entropy(P) = -sum P log P ← 一個分佈自身的不確定性
2Cross-entropy(P, Q) = -sum P log Q ← 用分佈 Q 編碼 P 的成本
3KL(P ‖ Q) = Cross-entropy(P, Q) - Entropy(P) ← 兩個分佈的差距

Entropy 在 LLM 中的具體意義：

場景	Entropy 大	Entropy 小
模型 next-token 預測分佈	「不確定下個字、可能 N 種選項」	「強烈傾向某幾個 token」
Sampling temperature 高	Entropy 高、輸出多樣	Entropy 低、輸出確定
訓練未收斂	分佈接近 uniform、entropy 接近 log(vocab)	分佈集中、entropy 降低

範例：vocab = 128K、uniform 分佈的 entropy = log(128K) ≈ 11.76（接近 12）；成熟模型在文本上的平均 entropy 約 2-3。

設計責任

Entropy 本身在 LLM 訓練 / 推論很少直接出現、但理解它能解釋一些現象：perplexity = exp(cross-entropy) 是模型平均不確定性的指數形式；temperature 控制 sampling entropy（高 T → 高 entropy → 多樣輸出）；某些評估方法（如 entropy-based uncertainty estimation）會看模型輸出分佈的 entropy 來判讀「模型有多確定」。

FFN（Feed-Forward Network）

Tue, 12 May 2026 00:00:00 +0000

FFN（Feed-Forward Network、前饋網路）的核心概念是「Transformer block 中 attention 後面的兩層 linear + activation function 結構」。FFN 是 LLM 中參數量最大的元件、典型 Transformer block 裡 FFN 約佔 2/3 參數、attention 約佔 1/3。

概念位置

標準 FFN 的計算：

1input（hidden_dim）
2 ↓ W_up（linear、hidden_dim → intermediate_dim、通常放大 4x）
3intermediate vector
4 ↓ activation function（ReLU / GELU / SwiGLU）
5 ↓ W_down（linear、intermediate_dim → hidden_dim）
6output（hidden_dim）

Intermediate dim 通常是 hidden dim 的 4 倍（例如 hidden=4096、intermediate=16384）、所以 FFN 的參數量是 hidden × intermediate × 2 ≈ 8 × hidden²、遠大於 attention 的 4 × hidden²（Q/K/V/O 四個 hidden × hidden 矩陣）。

FFN 變體：

變體	結構特性	出現在
標準 FFN	兩個 linear + 一個 activation	早期 Transformer、BERT、GPT-2
SwiGLU FFN	三個 linear（gate + up + down）+ Swish	Llama、Gemma、Qwen 主流
MoE FFN	多個「expert」FFN、每個 token 只啟用幾個	MoE 模型

設計責任

理解 FFN 是參數大頭、能解釋幾件事：MoE 為什麼是「把 FFN 換成多個專家、只啟用部分」（因為 FFN 是最值得稀疏化的部分）、MoE CPU offload 為什麼是「把 expert FFN 卸到 RAM」（FFN 大、卸下來省 VRAM）、為什麼模型大小用「參數量」算（FFN 主導）。LoRA fine-tuning 時、通常選擇對 attention 的 Q/V 投影做 LoRA、不對 FFN 動、因為 FFN 太大、LoRA 收益相對小。

Flash Attention

Tue, 12 May 2026 00:00:00 +0000

Flash Attention 的核心概念是「重新組織 Attention 計算的順序、把中間結果留在 GPU 高速 cache、減少對 GPU memory 的讀寫往返」。它不改變 attention 的數學定義（輸出跟原始實作在浮點誤差範圍內一致）、但實作層面對長 context 推論吞吐有明顯提升、且是部分 KV cache 量化組合在 llama.cpp 上的必要前置。

概念位置

Flash Attention 在推論架構中的角色：

1推論時的 attention 計算：
2 ├── 原始實作：Q · K^T 整個算完、寫進 memory、再讀出來做 softmax、再算 · V
3 │ └── 多次 memory 讀寫、長 context 下 IO 成為瓶頸
4 └── Flash Attention：用 tiling 把計算切塊、中間結果留在 SRAM / register
5 └── 減少 memory 讀寫、長 context 加速明顯

跟 attention 變體的關係：

Flash Attention 是實作層的優化、跟 MHA / GQA / MLA 等架構層變體是兩個獨立維度。
不同變體都能搭配 Flash Attention 的實作技巧。

在 llama.cpp 中的旗標：

1llama-server -fa # 啟用 flash attention
2# 或
3llama-server --flash-attn

事實查核註：Flash Attention 的版本演進快（Flash Attention 1 / 2 / 3）、不同推論引擎的支援度依版本變化。具體限制（如「V cache Q4 量化要 -fa 才能啟用」）依 llama.cpp 版本變動、引用前以 llama-server --help 跟 release notes 為準。

設計責任

理解 Flash Attention 後可以解釋兩個現象：為什麼啟用 -fa 後長 context 推論速度提升明顯（IO bound 變 compute bound）、為什麼部分 KV cache 量化組合（如 V=Q4_0）在 llama.cpp 上需要 flash attention 才能跑（實作層面的耦合）。

工程實務上、啟用 flash attention 通常沒副作用（數學上等價、品質不變）、是 PC 場景長 context 推論的預設啟用旗標。詳見 5.2 KV cache 量化策略的 flash attention 段落。

Floating Point（FP32 / FP16 / BF16）

Tue, 12 May 2026 00:00:00 +0000

Floating point（浮點數）的核心概念是「用「符號位 + 指數位 + 尾數位」表示實數的二進制格式」。LLM 訓練跟推論用的精度（fp32 / bf16 / fp16）就是不同的位元分配方案。理解這些差異能解釋為什麼 bf16 是訓練主流、為什麼量化對品質的影響不是「越多 bit 越好」這麼簡單。

概念位置

主流浮點格式的位元分配：

格式	總 bit	符號位	指數位	尾數位	動態範圍	精度（有效位數）
FP32	32	1	8	23	±10^38	7 位
FP16	16	1	5	10	±65504（容易 overflow）	4 位
BF16	16	1	8	7	±10^38（同 fp32）	3 位
FP8 (E4M3 / E5M2)	8	1	4 / 5	3 / 2	視變體	1-2 位

關鍵 trade-off：

FP16 精度好、範圍窄：尾數多、表達小範圍內細節準；但指數少、容易 overflow（gradient 爆炸時）/ underflow（gradient 接近 0 時）。
BF16 範圍跟 fp32 一樣大、精度差：指數位跟 fp32 同（8 位）、訓練時的 dynamic range 跟 fp32 接近、不會 overflow；但尾數少、精度差。實測對訓練影響小、所以是現代 LLM 訓練主流。
FP8 是新興格式：H100 / B200 等新 GPU 原生支援、訓練 / 推論都能加速、但精度損失需要 careful loss scaling。

LLM 工作流的精度選擇：

場景	主流精度
Pre-training（大模型）	BF16 + 部分 FP32（如 optimizer state）
Fine-tuning	BF16 + 可選 FP8 / Q4（QLoRA）
推論（雲端 high-end）	FP16 / BF16
推論（消費級本機）	Q4_K_M 等量化、見 quantization

設計責任

讀 paper / config 看到 mixed_precision: bf16、torch_dtype: bfloat16 就是 BF16 訓練。寫 code 場景的判讀：本機跑 GGUF Q4_K_M 模型、內部運算的 activation 仍是 fp16 / bf16、只有權重儲存是 4-bit；KV cache 預設也是 fp16、量化 KV cache 是進階優化（K=Q8 / V=Q4）。

Forward Pass

Tue, 12 May 2026 00:00:00 +0000

Forward pass（前向傳播）的核心概念是「input 從第一層算到最後一層、得到 output 的單向計算流程」。LLM 推論時生成一個 token、就是跑一次 forward pass；訓練時、每個 batch 也都先跑 forward pass 算出 loss、再跑 backpropagation 算 gradient。

概念位置

LLM 一次 forward pass 的大略流程：

 1input token IDs
 2 ↓ embedding layer：整數 → 向量
 3sequence of vectors
 4 ↓ Transformer block 1（attention + FFN）
 5 ↓ Transformer block 2
 6 ↓ ...
 7 ↓ Transformer block N
 8final hidden state
 9 ↓ output projection（hidden → vocab）
10logits（每個 vocab token 一個分數）
11 ↓ softmax（推論時）
12probability distribution → 挑下一個 token

跟相關概念的對比：

概念	跟 forward pass 的關係
Prefill	Prompt 階段的「一次性 forward pass」、所有 prompt token 並行
Decode 階段	每生一個 token 跑一次 forward pass、序列化、慢
Speculative decoding	一次 forward pass 同時驗證多個猜測 token
Backpropagation	訓練時 forward pass 的反向延伸、推論不需要

設計責任

理解 forward pass 後可以判讀 LLM 的記憶體與速度：每次 forward pass 都要把整份模型權重從記憶體讀到處理器一次、所以 memory bandwidth 是推論瓶頸；KV cache 的存在是為了避免每次 forward pass 重算前面 token 的 K/V；MTP / speculative decoding 都是「一次 forward pass 攤平多個 token 成本」的優化路徑。

GPU Compute Backend

Tue, 12 May 2026 00:00:00 +0000

GPU compute backend 的核心概念是「推論軟體（如 llama.cpp、PyTorch）跟 GPU 之間的計算 API 抽象層」。不同廠商 GPU 對應不同 backend、同一推論軟體通常要為每個 backend 編譯獨立 build。選對 backend 直接影響 GPU 算力能否被有效利用。

概念位置

各家 GPU 對應的常見 backend（2026 年 5 月狀態、依社群實踐變化）：

Backend	主要 GPU 廠商	平台支援	llama.cpp 生態成熟度
CUDA	NVIDIA	Windows / Linux	最成熟、社群預設
ROCm	AMD	Linux 主、Windows 演進中	中、依 GPU 型號變化
Vulkan	跨廠商通用	Windows / Linux	中、通用 fallback
Metal	Apple Silicon	macOS	成熟（屬模組一範圍）
SYCL	Intel ARC	Windows / Linux	相對年輕
DirectML	多廠商（DirectX）	Windows	較少用於 LLM
OpenVINO	Intel	多平台	偏 Intel 生態

選 backend 的判讀依硬體跟平台：NVIDIA GPU 用 CUDA、AMD on Linux 優先 ROCm、AMD on Windows 多用 Vulkan、Intel ARC 用 Vulkan 或 SYCL、Apple Silicon 用 Metal。

事實查核註：上表的「llama.cpp 生態成熟度」是社群常見回報、不是經本卡系統實測的 benchmark；各 backend 的支援度跟 throughput 依推論軟體版本快速演進、引用前以對應 backend 的官方文件跟 llama.cpp release notes 為準。

設計責任

理解 GPU compute backend 後可以解釋三個現象：為什麼下載 llama.cpp release 要選 CUDA / ROCm / Vulkan 版本（每個 build 對應一種 backend）、為什麼同樣硬體 throughput 差很多（backend 不對或 fallback 到 CPU）、為什麼非 NVIDIA GPU 跑 LLM 經驗較少（CUDA 生態太成熟、其他 backend 仍在演進）。

選 PC GPU 跑本地 LLM 時、backend 成熟度是「工具鏈支援度」軸、跟硬體規格軸獨立、選卡時兩軸都要考慮。詳見 5.6 GPU 廠商差異。

Gradient

Tue, 12 May 2026 00:00:00 +0000

Gradient（梯度）的核心概念是「loss function 對每個權重的偏微分組成的向量」。每個分量回答「這個權重往正方向動一單位、loss 會變多少」、整個 gradient 向量指向「loss 上升最快的方向」、所以訓練時往反方向走、就是讓 loss 下降最快的方向。

概念位置

Gradient 連接「loss」跟「該怎麼更新權重」兩件事、是 backpropagation 算出來的東西、也是 SGD / Adam 等 optimizer 消費的輸入：

1[forward pass] → 算出 loss
2 ↓
3[backpropagation] → 算出 gradient（每個權重一個值）
4 ↓
5[optimizer] → 用 gradient 更新權重：w_new = w_old - lr × gradient

Gradient 在 LLM 訓練中的兩個常見問題：

問題	訊號	處理
Gradient 爆炸	loss 突然變 NaN、梯度 norm > 1000	Gradient clipping（截斷 norm 上限）、降 learning rate
Gradient 消失	深層權重幾乎不更新、loss 停在某 plateau	Residual connection、Layer normalization、改 activation function

設計責任

推論階段（拿訓練好的模型生 token）不需要算 gradient、只有 forward pass；gradient 只在訓練 / fine-tuning 階段出現。所以本地跑 LLM 寫 code 的場景不會碰到 gradient、但讀懂訓練流程、理解「為什麼 SFT / RLHF 需要 GPU、推論不一定要」這類判讀就要先理解 gradient 的角色。

Gradient Explosion / Vanishing

Tue, 12 May 2026 00:00:00 +0000

Gradient explosion（爆炸）跟 gradient vanishing（消失）的核心概念是「深層網路的 backpropagation 透過 chain rule 一層層相乘、若每層 gradient > 1、累乘到輸入層會指數爆炸；若每層 gradient < 1、累乘到輸入層會衰減到接近 0」。兩者是深層網路訓不起來的典型病因、現代 Transformer 用 residual connection + layer normalization 解決。

概念位置

兩種失敗模式的訊號跟處理：

模式	訊號	主要成因	處理
Gradient explosion	loss 突然變 NaN、gradient norm > 1000+	Learning rate 太大、初始化不當、loss 函數有奇點	Gradient clipping（截斷 norm 上限、如 1.0）、降低 lr、檢查資料 outliers
Gradient vanishing	深層權重幾乎不更新、loss 卡 plateau	層數深、activation 飽和區（sigmoid、tanh）、缺 skip connection	Residual connection + layer norm + 換 activation（ReLU / GELU / SwiGLU）

數學直覺（簡化）：

1深 N 層的 chain rule：
2∂loss/∂W_input = ∂loss/∂out × ∂out/∂h_N × ∂h_N/∂h_{N-1} × ... × ∂h_1/∂W_input
3 └──────────── N 個 factor 連乘 ──────────────┘
4
5若每個 factor ≈ 0.5、N=100：累乘 ≈ 0.5^100 ≈ 0 → vanishing
6若每個 factor ≈ 1.5、N=100：累乘 ≈ 1.5^100 ≈ 4e17 → explosion

Residual connection 讓 gradient 有「捷徑」可走、不全靠 chain rule 一層層乘、是深層 Transformer 訓得起來的核心結構之一。

設計責任

讀訓練 log 看到 loss: nan、grad_norm: inf 就是 explosion；看到 loss 平穩、幾個 epoch 都不降就是可能的 vanishing。寫 code 場景幾乎不會碰到（推論不算 gradient）、但自己 fine-tune 時要會判讀。LLM 用的 SwiGLU / GELU 都是 saturation 較不嚴重的 activation、加上 residual + pre-norm、現代 Transformer 訓 100+ 層相對穩定。

Hallucination

Tue, 12 May 2026 00:00:00 +0000

Hallucination 的核心概念是「LLM 生成的內容語法、語氣、結構看起來合理、但內容上是事實錯誤、引用不存在的來源、虛構不存在的 entity」。這是 LLM 基於統計分布生成的固有特性；以目前的研究跟工程實踐、靠「更大模型」或「更好對齊」很難徹底消除、可控的做法是用工程手段降低觸發率跟下游偵測。

概念位置

Hallucination 的常見形態：

形態	例子	風險
虛構引用	引用不存在的論文 / API / 函式名稱	使用者照抄、出錯
虛構 entity	虛構不存在的公司 / 人名 / 地址	寫入文件、產生誤導
數值幻覺	給看似精確但實際錯誤的數字	商業 / 工程決策被誤導
因果幻覺	編造看似合理但不存在的因果關係	推理鏈不可信
法律 / 醫療幻覺	虛構不存在的法條 / 治療方案	高風險領域、可能造成實際傷害

降低 / 偵測 hallucination 的常見手段（依場景變化）：

RAG：把真實內容檢索後注入 prompt、模型基於真實內容生成。
temperature 降低：採樣較保守、減少創造性但也減少幻覺。
citation 要求：prompt 要求列出引用、後續可驗證。
下游驗證：對輸出做事實檢查（如 code 跑 compiler、引用查實際資料庫）。
明確的「不知道就說不知道」instruction：降低過度自信、但不能消除。

事實查核註：Hallucination 的研究跟降低技術仍在快速演進、不同模型、不同任務類型的 hallucination rate 變化大、引用前以最新研究跟具體 model card 為準。Stanford TruthfulQA 等 benchmark 是常見參考。

設計責任

理解 hallucination 後可以解釋兩個現象：為什麼 LLM 給的「具體事實」（人名 / 數字 / 引用）特別要驗證（生成機制本身就會虛構）、為什麼 LLM 寫的 code 看似合理但 import 不存在的 package（hallucinate 出 library API）。

production 場景下、hallucination 影響合規（生成包含真人 PII 的虛構內容仍是 PII 處理）、UX（使用者照抄誤導內容）、安全（生成假 URL 引發釣魚）；應對策略不是「擋住 hallucination」、是「降低觸發率 + 下游驗證 + 適當的 disclaimer」。詳見 LLM Log 與 PII 治理。

Homebrew

Tue, 12 May 2026 00:00:00 +0000

Homebrew 的核心概念是「macOS 的社群套件管理器、用 brew install 一行裝完 CLI 工具或 GUI 程式」。對本地 LLM 場景的角色是「Ollama、llama.cpp 等命令列工具的標準安裝入口」、把編譯、依賴管理、PATH 設定、二進位放置位置都自動化。

概念位置

Homebrew 在 macOS 跟使用者要安裝的工具之間、扮演「公開 registry + 本地套件管理」的角色。它維護一份名為「formula」的 Ruby 腳本清單、每個 formula 描述某個工具怎麼下載、編譯、安裝。執行 brew install ollama 時、Homebrew 找到 ollama formula、下載對應 bottle（預編譯二進位）、放到 /opt/homebrew/（Apple Silicon）或 /usr/local/（Intel Mac）、再把可執行檔 symlink 到 /opt/homebrew/bin/。新機從零的完整安裝順序（含第一次裝 Homebrew、PATH 設定與晶片前綴差異）見 macOS 新機基礎建設。

brew services 是 Homebrew 附帶的服務管理子命令、把指令封裝成 macOS 原生的 launchd service、處理「開機自動啟動 / 停止 / 重啟」需求。

可觀察訊號與例子

日常會碰到的 brew 指令：

指令	用途
`brew install <pkg>`	安裝套件
`brew upgrade <pkg>`	升級單一套件
`brew services start`	把套件註冊成 launchd service、立刻啟動
`brew services list`	列出目前由 brew 管理的常駐服務
`which <bin>`	確認可執行檔在 PATH 上的實際路徑
`brew --prefix`	查 Homebrew 的安裝根目錄

Apple Silicon Mac 上的關鍵路徑是 /opt/homebrew/、子資料夾各有角色：bin/（可執行檔）、var/log/（服務 log）、Cellar/（套件實際內容）、opt/（版本無關的 symlink）。看到「/opt/homebrew/var/log/ollama.log」時、就是 brew 管理的 Ollama 服務 log 位置。

設計責任

用 brew 安裝 vs 用官方 .dmg / .pkg 的取捨：CLI 工具（ollama、llama.cpp、git 等）走 brew、好處是統一升級路徑；GUI 應用（LM Studio、Docker Desktop 等）多半改下載官方安裝包、因為 brew cask 不一定即時跟上版本。第一次裝 Homebrew 自己用官方 install script（在 brew.sh）、之後其他工具都從 brew 走。

Hybrid Search

Tue, 12 May 2026 00:00:00 +0000

Hybrid search 的核心概念是「同時跑字面 retrieval（BM25 / tf-idf）跟語意 retrieval（embedding similarity）、用 Reciprocal Rank Fusion 等方法合併結果」。補單一路線的盲點：BM25 抓不到語意相似（同義詞 / 不同表述）、embedding 抓不到精確 keyword（術語 / 識別碼 / 罕見 entity）。是 production RAG 的標配。

概念位置

兩條 retrieval 路線的盲點：

場景	BM25（字面）	Embedding（語意）
Query / doc 共用 keyword	強	強
Query 用同義詞、doc 用另一字	找不到	命中
Query 用通俗、doc 用 jargon	找不到	命中
精確 keyword（如 product code、UUID、API 名）	命中	可能漂掉
罕見 entity（人名 / 地名）	命中	弱（embedding model 不熟）
Embedding model 不熟的 domain	命中	表現崩

主流合併方法：

Reciprocal Rank Fusion（RRF）

最常用、簡單：

 1對每個 doc：
 2 score = sum_over_retrievers(1 / (k + rank_i))
 3
 4k 是常數（典型 60）、rank 是該 retriever 給 doc 的排名
 5
 6example：
 7 doc X 在 BM25 排名 3、在 embedding 排名 1
 8 RRF score = 1/(60+3) + 1/(60+1) = 0.0159 + 0.0164 = 0.0323
 9
10按 RRF score 排序、取 top-K

優點：不需要 normalize 不同 retriever 的分數、簡單可靠缺點：不能 fine-tune 兩條路線的權重

Weighted score fusion

對每條路線的 score 加權平均：

1score = α × BM25_score_normalized + (1-α) × embedding_score_normalized

優點：可以調 α 偏 BM25 或 embedding 缺點：要 normalize 兩個 score scale、調 α 是 hyper-parameter

設計責任

讀 RAG production / retrieval framework 看到「hybrid search」「BM25 + dense」「RRF」就是這 framing。寫 code 場景的判讀：

何時值得加 hybrid：embedding-only retrieval 漏精確 keyword / 識別碼、BM25-only 漏語意相似、混合補完
何時不需要：純語意任務（embedding 已準）、純 keyword 任務（BM25 已準）、極小語料
跟 reranker 的組合：hybrid retrieve top-50（BM25 top-25 + embedding top-25、RRF 合併）→ reranker rerank → LLM top-5
主流實作：Elasticsearch / OpenSearch 內建、Weaviate / Qdrant / Pinecone 都支援、Postgres 用 pg_search + pgvector
跟 4.1 RAG 章節的關係：本卡是定義、章節是 retrieval pipeline 設計含 hybrid 段

Image Token

Tue, 12 May 2026 00:00:00 +0000

Image token（圖片 token）的核心概念是「VLM 把圖片過 vision encoder 後、產出的向量序列、在 Transformer 內跟 text token 同質處理」。理解這個概念能解釋為什麼「一張圖 = 幾百到幾千 token」、為什麼塞圖會吃掉 context budget、為什麼 VLM 推論比純文字 LLM 慢。

概念位置

從圖到 image token 的轉換：

1Input image: 1024×1024 RGB
2 ↓ Patchify（切 14×14 patch、得 ~5000 個 patch）
3 ↓ Vision encoder（ViT 處理每個 patch、產 768/1024 維向量）
4 ↓ Optional: 2D position embedding
5 ↓ Optional: pooling / merging（減少 token 數）
6Image tokens: ~500-2500 個（依模型設計）
7 ↓ Projection（vision_dim → LLM hidden_dim、配合 LLM 內部維度）
8 ↓ 跟 text token 串成單一 sequence
9 ↓ Transformer 跟一般 token 一樣處理

主流 VLM 的單張圖 token 用量（粗略、依模型 / 解析度而變）：

模型	預設輸入解析度	單張圖約用 token	Context 影響
GPT-4o vision	動態（最高 2048×768）	~85 - 1000+	高解析度模式消耗大
Claude 3 vision	動態	~1000-1600	一張圖 ≈ 1.5K text token
Qwen2.5-VL	動態、可調 min/max	~500 - 4000	設定 `min_pixels` 控制下限
Llama 3.2 Vision	固定（560×560）	~1600	多張圖直接乘
Gemma 3 Vision	動態	~256 - 2000	多語 / 多解析度

事實查核註：上述 token 數量級依模型版本、推論配置（如「low / high detail」模式）變化、引用前以對應 model card 跟 API 文件為準。

設計責任

讀 VLM API / 推論 log 看到「image tokens used: 1247」「visual tokens: 580」就是這指標。寫 code 場景的判讀：

多張截圖 = context 吃緊：一張 1500 token、丟 10 張就 15K、加上 prompt 跟回答、long context 模型才能 handle
同張圖、解析度模式影響成本：許多 API 提供 low / auto / high detail 模式、low detail 約 1/10 token；OCR 需要高解析、不細節辨識可選 low
本地 VLM 推論 prefill 慢：image token 多、prefill 階段（TTFT）對應變長、第一個字出來要等較久
API 計費通常 image token 跟 text token 同價：算成本看實際用了多少 image token、不要假設「一張圖 = 一個 token」
Image token 是消耗品、不是參數：跟模型內部權重不同、純粹是「這次 forward pass 的 input」

KL Divergence

Tue, 12 May 2026 00:00:00 +0000

KL divergence（Kullback-Leibler divergence、KL 散度）的核心概念是「衡量兩個機率分佈 P 跟 Q 的差距」：KL(P ‖ Q) = sum(P(x) × log(P(x) / Q(x)))。它不對稱（KL(P ‖ Q) ≠ KL(Q ‖ P)）、所以不算「距離」、是「散度」。在 LLM 訓練中是 alignment 階段防止模型「為了 reward 偏離太遠」的關鍵約束。

概念位置

KL divergence 在 LLM 中的兩個主要角色：

跟 cross-entropy 的關係：
```
1cross-entropy(P, Q) = entropy(P) + KL(P ‖ Q)
```
訓練時 P（真實分佈）固定、entropy(P) 是常數、所以「minimize cross-entropy」等於「minimize KL」。
RLHF / DPO 的「KL 約束」：

alignment 階段不能只 maximize reward、否則模型會「為了 reward 把語言能力毀掉」。所以加 KL 約束：
```
1objective = E[reward] - β × KL(π_new ‖ π_ref)
2 └─ 不讓新模型偏離 ref（通常是 SFT 後的 base）太遠 ─┘
```
β 控制「reward 追求」vs「不偏離原始模型」的平衡。

跟相關概念的對比：

指標	對稱？	主要用途
Cross-entropy	否	訓練 loss、衡量預測機率分佈跟真實分佈
KL divergence	否	Alignment 訓練的偏離約束
JS divergence	是	兩個分佈的對稱差距、研究比較多

設計責任

讀 alignment paper 看到 β、KL penalty、KL coefficient 等詞、知道這些是控制「模型在追 reward 時偏離 base 多遠的容忍度」。β 太小、模型容易 reward hacking（找 reward 高但實質爛的輸出）；β 太大、模型動不了、reward 升不上去。DPO 把 KL 約束內嵌進 loss、不像 RLHF 需要顯式 KL term、是 DPO 比 RLHF 簡單的原因之一。

launchd Service

Tue, 12 May 2026 00:00:00 +0000

launchd Service 的核心概念是「macOS 用來管理常駐 process 生命週期的原生機制」。launchd 本身是 macOS 啟動後的第一個 process（PID 1）、由它負責拉起其他系統服務跟使用者註冊的背景任務。本地 LLM 場景中、Ollama 等推論伺服器透過 launchd 設定成「開機自動啟動、登入時自動拉起」、就不需要每次重開機都手動跑 ollama serve。

概念位置

launchd service 用一份 plist（property list、XML 格式設定檔）描述「要跑哪個程式、何時啟動、出問題時要不要重啟、log 寫到哪裡」。plist 放在三個位置之一、決定服務的觸發範圍：

路徑	角色	何時觸發
`~/Library/LaunchAgents/`	使用者 agent	該使用者登入時
`/Library/LaunchAgents/`	全機所有使用者 agent	任何使用者登入時
`/Library/LaunchDaemons/`	系統 daemon、需 root	macOS 開機時、不需登入

Homebrew 的 brew services 子命令是 launchd 的 wrapper、產生 plist 並放進 ~/Library/LaunchAgents/、避免使用者直接手寫 XML。Apple Silicon Mac 上產生的檔名形式是 homebrew.mxcl.<service>.plist。

可觀察訊號與例子

執行 brew services start ollama 後可以驗證實際發生的事：

1# 看 plist 內容
2cat ~/Library/LaunchAgents/homebrew.mxcl.ollama.plist
3
4# 用 launchctl 看服務狀態
5launchctl list | grep ollama
6
7# 看服務 log（Apple Silicon）
8tail -f /opt/homebrew/var/log/ollama.log

plist 內常見的鍵：ProgramArguments（要跑哪個指令）、RunAtLoad（開機就啟動）、KeepAlive（crash 後自動拉回）、StandardOutPath / StandardErrorPath（log 路徑）。出問題時先看 log 路徑指向的檔案、能直接看到 service 的 stdout / stderr。

服務管理常用指令：

1brew services list # 列出所有由 brew 管理的服務
2brew services start ollama # 啟動 + 註冊自動啟動
3brew services stop ollama # 停掉服務、保留 plist
4brew services restart ollama # 升級套件後重啟

直接用系統的 launchctl 也行、但語意較底層、實務上有 brew 包裝就用 brew。

設計責任

選擇「launchd service」vs「前景手動跑 ollama serve」的判讀：日常用機建議用 launchd service、好處是重開機自動拉起、出問題的 log 有固定位置可看；只在偶爾用本地 LLM 的場景、保持手動跑反而省記憶體（沒在用就停掉）。升級套件後記得 brew services restart、否則跑的還是舊版二進位。

Layer Normalization

Tue, 12 May 2026 00:00:00 +0000

Layer normalization（LayerNorm）的核心概念是「對單一 token 的 hidden state 向量做正規化」——把該向量的 mean 移到 0、std 縮到 1、再用兩個可學參數做仿射變換。它是 Transformer 穩定深層訓練的關鍵元件、跟 batch normalization 的差別是「正規化軸不同」、LayerNorm 對單個 sample 內部做、不依賴 batch 統計。

概念位置

LayerNorm 在 Transformer block 內的位置（現代主流是 pre-norm）：

1Transformer block（pre-norm 配置）：
2 x
3 ↓ LayerNorm
4 ↓ Self-Attention
5 ↓ + 跟 x 做 residual connection
6 ↓ LayerNorm
7 ↓ FFN
8 ↓ + 跟前一步輸出做 residual connection

主流變體比較：

變體	計算	出現在
LayerNorm	`(x - mean) / std × γ + β`	早期 Transformer（GPT-2、BERT）
RMSNorm	`x / rms(x) × γ`（不減 mean、不加 β）	Llama、Gemma、Qwen 等主流

RMSNorm 比 LayerNorm 簡單、實測訓練穩定性接近、推論更快（少算 mean 跟加 β）、所以現代 LLM 多用 RMSNorm。讀 paper 看到「RMSNorm」就是 LayerNorm 的這個簡化變體。

Pre-norm vs post-norm：

Pre-norm（LayerNorm 在 attention / FFN 之前）：深度模型訓練較穩、現代主流。
Post-norm（LayerNorm 在 residual add 之後）：原始 Transformer paper 的設計、深層訓練不穩定。

設計責任

理解 LayerNorm 後可以判讀「深層 LLM 為什麼訓得起來」的部分答案：residual connection + LayerNorm 是讓梯度能穩定流過幾十層 Transformer 的兩根支柱。讀 model card 看到「RMSNorm」「pre-norm」等詞、知道對應的設計選擇跟訓練穩定性意涵。

Learning Rate

Tue, 12 May 2026 00:00:00 +0000

Learning rate（學習率、lr、α、η）的核心概念是「gradient 每步更新權重時、被乘上的純量縮放因子」。更新公式 W_new = W_old - lr × gradient 裡的 lr 就是它。是訓練最敏感的單一 hyperparameter — 太大會 diverge（loss 飛走）、太小會訓得超慢或卡 local minimum。

概念位置

LLM 訓練 learning rate 的常見模式：

階段	典型 lr	理由
Pre-training	1e-4 ~ 3e-4	訓 trillion token、需要溫和的 lr 避免 diverge
SFT	1e-5 ~ 5e-5	base model 已收斂、用小 lr 微調避免 overshoot
RLHF / DPO	1e-7 ~ 1e-6	又比 SFT 更小、避免破壞 SFT 學到的對話能力
LoRA fine-tune	1e-4 ~ 5e-4	只訓小 adapter、可用較大 lr

Learning rate schedule（lr 隨訓練步數調整）的主流模式：

Warmup：訓練最初幾百 ~ 幾千 step、lr 從 0 線性升到目標值。避免初期 gradient 大、模型瞬間 diverge。
Cosine decay：warmup 後、lr 用 cosine 函數從目標值降到接近 0。訓練後期細調。
WSD（Warmup-Stable-Decay）：近期變體、中間維持高 lr 更久。

設計責任

讀 training config 看到 learning_rate、lr_scheduler_type: cosine、warmup_steps: 1000 等就是這組設定。Fine-tune 時 lr 設太大、模型會「忘記」pre-training 學到的能力（catastrophic forgetting）；太小則訓不進新資料、loss 不降。實務除錯：fine-tune 時 loss 第一個 epoch 就 NaN、十之八九是 lr 太大；loss 完全不降、十之八九是 lr 太小或 gradient 沒流到要訓的權重。

LLM Benchmarks（MMLU / HumanEval / SWE-bench 等）

Tue, 12 May 2026 00:00:00 +0000

LLM benchmarks 的核心概念是「用標準化任務集合衡量 LLM 各維度能力的評估工具」。不同 benchmark 衡量不同維度（知識、reasoning、code、對話、math 等）、選錯 benchmark 看模型會誤判。本卡列主流 benchmark 跟它們的覆蓋面、失效情境。

概念位置

主流 LLM benchmark 一覽：

Benchmark	衡量維度	任務形式	失效情境
MMLU	通用知識（57 學科多選題）	4 選 1 選擇題	訓練資料污染（題目可能在 pretrain corpus）
GSM8K	小學數學 word problem	文字 + 數字、需 reasoning	飽和（前沿模型 95%+）
MATH	高中 / 競賽數學	自由作答	訓練污染、reasoning model 表現遠超 instruct
HumanEval	Python function 補完	寫一個 function 通過 unit test	飽和、僅覆蓋初級 coding
MBPP	Python coding 任務	同上、規模較大	同 HumanEval
SWE-bench	真實 GitHub issue 修復	給 repo + issue、生 patch、跑 test	仍是 LLM 主要 coding 差距、不易飽和
MT-Bench	多輪對話品質	80 題 prompt、LLM-as-judge 評分	LLM-as-judge bias、judge 模型本身能力影響評分
Chatbot Arena	開放對話偏好（眾人投票）	A/B 對戰、Elo 排名	文化偏好、prompt 設計影響
HELM	多 dimension comprehensive	22 scenarios × 多 metrics	計算昂貴、不易追蹤每代新模型
AlpacaEval	指令跟隨能力	LLM-as-judge 對比 GPT-4	Judge bias、易被「verbose」攻擊
RULER	Long context 真實任務	Multi-needle、aggregation、reasoning	較新、覆蓋仍在演化

事實查核註：各 benchmark 的飽和狀態、前沿模型 score 持續變動、上述為 2026/5 主流觀察。引用前以 Papers with Code 或 HuggingFace Open LLM Leaderboard 當前狀態為準。

Benchmark 的常見陷阱

訓練資料污染（Contamination）：benchmark 題目本身在 pretrain corpus 出現過、模型「記得」答案、看似強實際是 memorization
飽和（Saturation）：前沿模型 score 接近上限、無法區分模型品質差距（HumanEval 80%→95% 看似進步、實際 5% 多半是 lucky 而非實質提升）
LLM-as-judge bias：用 LLM（如 GPT-4）評其他 LLM、judge 的偏好（如「冗長 = 好」）會 bias 評分
Single-task overfitting：模型廠商針對 benchmark 特別 fine-tune、benchmark 高分但通用能力沒提升
Prompt sensitivity：同個 benchmark 用不同 prompt format、score 差幾個百分點

設計責任

讀 model card / paper 看到 benchmark 數字、判讀框架：

看 multiple benchmarks、不只一個：如挑 coding 模型、看 HumanEval + MBPP + SWE-bench、不只看 HumanEval
跟自己任務對齊的 benchmark 才重要：你做 RAG 應用、看 retrieval benchmark；你做 chat、看 MT-Bench / Arena
看「相對」、不只看「絕對」：「Model A 在 MMLU 比 Model B 高 2%」可能 noise；「A 比 B 高 10%」更可信
In-house benchmark 是最後檢驗：自己的真實工作流案例 > 任何公開 benchmark

LLM Tracing

Tue, 12 May 2026 00:00:00 +0000

LLM tracing 的核心概念是「把 LLM 應用的每次 LLM call / tool call / memory op / handoff 編成結構化 span、串成 trace、可在 observability 平台查詢」。對應的標準是 OpenTelemetry GenAI semantic conventions（2025 stabilizing 中）。代表平台：LangSmith、Phoenix、Braintrust、Langfuse、Datadog APM、Logfire。是 production LLM 應用 debug / cost / latency 監控的事實標準、補 traditional logging 抓不到的「為什麼 agent 跑這條路」。

概念位置

跟 traditional logging 的對比：

維度	Traditional logging	LLM tracing
結構	字串 line、靠 grep	結構化 span、parent-child 樹
關聯性	弱（要靠 request-id 串）	強（trace-id + span 父子關係內建）
屬性	自由 key-value	標準化（OTel GenAI semconv）：model / temperature / token usage / cost
查詢	grep / log aggregator	Trace explorer + filter + 視覺化
LLM 特有 attr	沒有	system prompt / tool calls / token / reasoning

主流 OTel GenAI span 類型：

Span 類型	內容
`gen_ai.client.operation`	一次完整 LLM API call
`gen_ai.tool.execution`	一次 tool 執行
`gen_ai.agent`	Agent loop 一個 iteration
`gen_ai.embeddings`	Embedding call
`gen_ai.memory.read/write`	Memory 操作

每個 span 標準屬性：gen_ai.system（vendor）、gen_ai.request.model、gen_ai.usage.input_tokens / output_tokens、gen_ai.request.temperature 等。

設計責任

讀 LLM observability docs / OTel spec 看到「span」「trace」「OTel GenAI semconv」就是這 framing。寫 code 場景的判讀：

何時值得加 tracing：超過個人 demo、有實際使用者 / production 流量、開始遇到「為什麼 agent 跑這條路」debug 問題
不該自己寫 logging：用 OTel GenAI semconv 標準化、未來可換 backend（LangSmith → Phoenix → 自架）
Trace 不只 debug、也是 eval 來源：production trace 餵回 LLM-as-judge 做品質評估
跟 4.20 LLM tracing 章節的關係：本卡是定義、章節是工程實務（attribute 設計、cost monitoring、failure debug 流程）

LLM-as-Judge

Tue, 12 May 2026 00:00:00 +0000

LLM-as-Judge 的核心概念是「用一個 LLM（judge）對另一個 LLM（test subject）的輸出做品質評估」。給 judge 一個 rubric（評分標準）跟 (input, output) pair、judge 輸出分數或 pairwise 偏好。是 production LLM eval 的主流方法（500-5000× 比 human eval 便宜、80%+ 跟人類同意度）、但有 bias 要處理（position / verbosity / self-preference）。

概念位置

跟其他 eval 路徑的對比：

Eval 路徑	成本	速度	適合
Standard benchmark（MMLU / SWE-bench 等）	中	慢（一次 run 數小時）	通用能力比較
Human eval	極高（每筆 $1-10）	慢	黃金標準、final QA
LLM-as-Judge（本卡）	低（每筆 $0.001-0.01）	快	Production loop eval、自己應用 in-house
Rule-based / regex	極低	即時	明確 binary（如格式對不對）

主要 use case：

In-house benchmark：自己工作流的真實案例、自寫 rubric、judge 評
Production trace eval：用 LLM tracing 蒐集的 production trace、定期 judge 跑、抓品質回歸
A/B test：兩個 prompt / model 變體、judge 做 pairwise 比較
Synthetic data quality：用大模型生 fine-tune 資料、judge 過濾低品質

設計責任

讀 eval framework / production AI app 看到「LLM as judge」「pairwise eval」「LLM evaluator」就是這 framing。寫 code 場景的判讀：

Judge 模型選擇：強模型當 judge（GPT-5 / Claude 4 / Gemini 旗艦）、reasoning model 更穩；judge 跟被測同家可能有 self-preference bias
三大 bias 緩解：
- Position bias：A/B pairwise 換位置跑 2 次取一致 vote
- Verbosity bias：rubric 加「冗長不加分」明確指示、或長度 normalize
- Self-preference bias：用 3 個不同 judge model 取多數
跟 4.21 LLM-as-judge 章節的關係：本卡是定義、章節是工程實務（rubric design、bias 緩解、calibration、trace 串接）
不是萬靈丹：高 stake 任務（醫療、法律、安全）仍需 human eval；judge 的天花板 = judge 模型本身的能力

Logit

Tue, 12 May 2026 00:00:00 +0000

Logit 的核心概念是「softmax 之前的原始分數」。LLM 每次 forward pass 的最後一步、會輸出長度為 vocab size 的實數向量（例如 vocab size = 128K、輸出就是 128K 個浮點數）、這個向量就是 logits。Logit 可正可負、無上下界、要經過 softmax 才變成機率分佈。

概念位置

Logit 在 LLM 輸出 pipeline 的位置：

1最後一層 Transformer 輸出 hidden state
2 ↓ output projection（linear layer）
3logits（shape: vocab_size、實數、可正可負）
4 ↓ logit warping / masking（可選、用於控制輸出）
5 ↓ /temperature
6 ↓ softmax
7probability distribution
8 ↓ sampling（greedy / top-k / top-p）
9next token

操作 logit 的常見技巧：

技巧	做法	用途
Temperature	logit / T	控制輸出隨機度、T 越大越平
Logit bias	對特定 token 的 logit 加 / 減 offset	強制 / 抑制特定 token（如禁用特定詞）
Grammar masking	把不合法 token 的 logit 設成 -∞	Structured output、確保輸出符合 grammar
Repetition penalty	對最近出現過的 token logit 扣分	避免重複、改善生成多樣性

設計責任

理解 logit 後可以判讀 sampling 階段的控制粒度：所有「不重訓模型、影響輸出」的技巧（temperature、structured output、constrained generation、logit bias）本質上都是「在 softmax 前後動 logit」、不是動模型權重。這也是為什麼同一個模型用不同 sampling 設定能產生差很多的輸出。

LoRA

Tue, 12 May 2026 00:00:00 +0000

LoRA（Low-Rank Adaptation、低秩適配）的核心概念是「凍住原模型所有權重、在指定 layer 旁邊掛兩個小矩陣 A、B（rank 很低、如 r=8）、只訓 A、B」。Hu et al. (2021) 提出、是現在 fine-tuning 的主流選擇、大幅降低訓練成本與記憶體需求。

概念位置

LoRA 的數學形式：

1原 layer 輸出：y = W × x （W 凍住）
2加 LoRA 後： y = W × x + B × A × x
3 └──┬──┘
4 LoRA update（rank r）
5 A shape: (r, hidden_dim)
6 B shape: (hidden_dim, r)

關鍵特性：

維度	完整 fine-tuning	LoRA fine-tuning（r=16）
可訓練參數	全部（如 7B、70B）	~0.1% ~ 1%（只 A、B）
GPU 記憶體	高（要存所有 gradient）	大幅降低
Adapter 檔案大小	跟原模型同大	幾 MB ~ 幾百 MB
訓練成本	全模型 backprop	只算 A、B 的 gradient
部署	載入新模型	載入原模型 + adapter、推論時合併
多任務切換	載入不同模型	切換 adapter 即可（同個底）

QLoRA（Dettmers et al., 2023）進一步把原模型量化到 4-bit、LoRA 訓在量化模型上、消費級 GPU 也能 fine-tune 大模型。

設計責任

讀 fine-tuning 教學 / Hugging Face PEFT 看到 LoRA、QLoRA 是現在主流。寫 code 場景的判讀：LoRA 適合「在現有模型上加領域知識 / 風格」（如教模型用特定 codebase 慣例）、不適合「教模型新世界知識」（仍要 pre-training 級資料）；adapter 形式讓「多客戶 / 多風格」場景可以共用 base model、只切換 adapter、節省 GPU 記憶體。

Loss Function

Tue, 12 May 2026 00:00:00 +0000

Loss function（損失函數、目的函數）的核心概念是「把模型預測跟正確答案的差距、壓成一個純量數值」。訓練的整個目標就是「最小化這個數值」、所有 gradient / backpropagation / optimizer step 都在做這件事。

概念位置

LLM 各訓練階段用不同的 loss function：

階段	主要 loss	衡量的東西
Pre-training	Cross-entropy（next-token prediction）	模型預測的下個 token 機率跟真實答案的距離
SFT	Cross-entropy（同上、但 only on assistant response）	模型回答跟人類示範回答的距離
Reward model	Pairwise ranking loss	「人類偏好 A 大於 B」這個訊號的擬合度
RLHF / DPO	KL-constrained reward loss / DPO loss	reward 高 + 不偏離 base 模型太遠

評估時用的指標（perplexity、accuracy、BLEU 等）跟訓練 loss 是不同概念：loss 是「訓練要 minimize 的東西」、指標是「給人看模型好不好的數字」、兩者不一定一致（loss 降但指標不一定升、反之亦然）。

設計責任

選 loss function 等於選「訓練要把模型推往哪個方向」。Cross-entropy 推「機率分佈接近真實 token」、reward model 推「人類偏好高的回應」、DPO 推「偏好回應 vs 拒絕回應的對比」— 每種 loss 對應的模型行為不同。讀 paper 看到「我們用 X loss」、要回問「這 loss 把模型推往哪個方向」、才能判斷模型訓練出來的特性是否符合預期。

Lost in the Middle

Tue, 12 May 2026 00:00:00 +0000

Lost in the middle（中段遺失、Liu et al., 2023）的核心概念是「LLM 對 long context 中段內容的 attention / recall 顯著低於開頭與結尾」。實測：把答案放在 10K context 的開頭或結尾、模型 recall 準確率 80%+；放在中段 4000-6000 token 位置、recall 掉到 50% 甚至更低。是 long context 使用上最常見的失敗模式。

概念位置

Long context 的 effective context 跟 claimed context 落差來自三個現象：

現象	描述	嚴重度
Lost in the middle	中段內容 attention 顯著低、recall 掉	普遍、最頻繁
Context degradation	接近 context 上限時、整體品質緩降	接近上限才明顯
Needle in haystack	抓單一事實的能力（vs lost-in-the-middle 抓整段邏輯）	兩條軸、不完全重疊

 1Recall accuracy vs 答案位置（典型 10K context）：
 2
 3100% |█ █
 4 |██ ██
 5 80% |███ ███
 6 |███ ███
 7 60% |███ ____ ███
 8 |███ ___/ \___ ███
 9 40% |███ _/ \_ ███
10 |█████─/ \───── ███
11 |
12 0 2K 4K 6K 8K 10K
13 開頭 結尾

成因：

Attention weight 分佈不均勻：訓練資料中、句首 / 段首通常含關鍵資訊、模型學會偏重句首；長 context 的中段在訓練資料中相對稀疏、attention 沒學好
Positional encoding 設計：RoPE / ALiBi 等對長距離 attention 的衰減模式、中段 token 跟 query 距離通常較大、attention 弱
訓練 context 長度的影響：模型若訓練在 8K context、推論時用 128K（用 RoPE scaling 延伸）、中段表現比訓練範圍內差更多

設計責任

讀 long-context paper / benchmark 看到「lost-in-the-middle」「U-shape recall」就是這現象。寫 code 場景的判讀：

把關鍵資訊放開頭或結尾：system prompt 在開頭、最新指示在結尾（剛好是模型 attention 最強的兩處）
長 context 不是「塞越多越好」：超過 effective context（典型 8-16K）後、邊際效用急降
RAG 比 long context 仍有價值：把相關片段 retrieve 出來放 prompt 開頭、比把整份文件塞進 100K context 效果更穩定
驗證自己模型的 effective context：用 needle-in-haystack 或自製測試、看模型在 8K / 16K / 32K 表現掉到哪
Reasoning model 的 thinking trace 不會遇到這事故嗎？ — 仍會遇到、但 reasoning 過程會主動重新引用前文、部分緩解；不過 thinking trace 本身會擠壓 context budget、可能反而觸發 degradation

Matrix Multiplication

Tue, 12 May 2026 00:00:00 +0000

Matrix multiplication（矩陣乘法、matmul、@）的核心概念是「左矩陣的每個 row 跟右矩陣的每個 column 做 dot product、結果填進新矩陣」。對 A (m × k) 跟 B (k × n)、結果 C (m × n)、其中 C[i][j] = A 第 i row · B 第 j column。Matmul 是 LLM 推論最頻繁的運算、整個 forward pass 可以看成幾百次 matmul 串起來。

概念位置

LLM 中 matmul 出現的關鍵位置：

位置	形狀（簡化）	角色
Embedding lookup	`(seq_len, vocab) @ (vocab, hidden)` ≡ 查表	Token ID → embedding
Q/K/V 投影	`(seq_len, hidden) @ (hidden, hidden)`	Self-attention 第一步
Attention score	`(seq_len, head_dim) @ (head_dim, seq_len)`	Q · K^T、O(n²)、long context 痛點
Attention output	`(seq_len, seq_len) @ (seq_len, head_dim)`	attention weight · V
FFN up	`(seq_len, hidden) @ (hidden, 4×hidden)`	FFN 升維、參數大頭
FFN down	`(seq_len, 4×hidden) @ (4×hidden, hidden)`	FFN 降維
Output projection	`(seq_len, hidden) @ (hidden, vocab)`	Hidden → logits

關鍵尺寸規則：左矩陣 column 數 = 右矩陣 row 數、即 (m × k) @ (k × n) = (m × n)。Dimension mismatch 是訓練 / 推論最常見的 PyTorch 報錯之一。

為什麼 matmul 是 memory bandwidth bound

LLM 推論每生一個 token、要把整份模型權重從記憶體讀到處理器一次（每個權重在當輪 forward pass 的某個 matmul 都用得到）；現代 GPU / Apple Silicon 的算力遠超頻寬、所以「讀權重要多久」變主要瓶頸。這就是為什麼：

31B 模型 Q4_K_M 約 18GB、M4 Max 頻寬 546 GB/s、理論上限 ≈ 30 tok/s
量化加速主要是「權重變小、每秒能讀過更多次完整模型」
Batching / speculative decoding 加速主要是「一次讀權重、攤平到多個 token」

設計責任

讀 paper / model card 看到模型參數量、可以反推總 matmul 工作量；看到 inference benchmark 看到 tok/s、可以用「模型大小 / memory bandwidth」算理論上限對照。寫 code 場景無需直接寫 matmul、但理解這個運算的成本結構、能看懂量化 / batching / speculative decoding 等加速技巧為什麼有效。

Mixture of Experts (MoE)

Tue, 12 May 2026 00:00:00 +0000

MoE（Mixture of Experts）的核心概念是「把 transformer block 內的 FFN 層拆成多個專家網路、router 為每個 token 動態挑選少數啟用」。結果是模型總參數可以擴張到很大、但每個 token 實際計算量保持在「active parameter」這個較小的數目；同硬體下 MoE 模型常比同總參數的 Dense 模型跑得快、且能力強於同 active parameter 的 Dense 模型。

概念位置

MoE 在 transformer 架構中的位置：

1transformer block：
2 ├── attention 層（所有 token 共用）
3 ├── layer norm
4 └── FFN 層
5 ├── Dense 架構：所有 token 走同一組 FFN
6 └── MoE 架構：FFN 拆成多個 expert、router 挑選 top-k 個啟用

主流 MoE 模型的設計選擇（依模型而異）：

expert 數量：通常 8 ~ 256 個
每 token 啟用 expert 數：通常 1 ~ 2 個（top-k routing）
shared expert：部分模型保留少數所有 token 共用的 expert
total / active parameter 比：常見 5x ~ 10x（如 Qwen3-30B-A3B：30B total / 3B active）

事實查核註：MoE 架構的具體實作（router 演算法、load balancing loss、expert 並行策略等）依模型快速演進、引用前以該模型的技術報告或 paper 為準。

代表性 MoE 模型（依公開資訊）：Mixtral 8x7B、DeepSeek V3、Qwen3-30B-A3B、Llama 4 Scout 等。

設計責任

理解 MoE 後可以解釋三個現象：為什麼 MoE 模型的「30B 總參數」跟「3B active parameter」是兩個獨立指標（前者影響記憶體需求、後者影響速度）、為什麼 MoE 適合 CPU 卸載（不活躍的 expert 可以留在系統 RAM）、為什麼 MoE 在多 GPU 場景的並行策略跟 Dense 模型不同（expert 可以分到不同卡）。

選 MoE 模型 vs Dense 模型、需考慮：MoE 對 RAM 容量要求較高（要放所有 expert 權重）、對 GPU 算力要求較低（每 token 走 active parameter）；Dense 對 VRAM 容量要求較低（可全載中型模型）、對 GPU 算力要求較高。詳見 5.1 MoE 模型與 CPU 卸載策略跟 5.5 PC 場景的模型選型優先順序。

Model Card

Tue, 12 May 2026 00:00:00 +0000

Model card 的核心概念是「模型發布時附帶的 metadata 文件、列出模型的來源、訓練資料、預期用途、能力上限、已知限制跟授權條款」。Hugging Face 上每個 model repo 的 README.md 就是 model card；它是個人 dev 跟 production 場景下判讀「該不該用這個模型」的最主要資訊來源。

概念位置

典型的 model card 包含哪些區段（依平台跟模型而異）：

區段	內容	對應的判讀
基本資訊	模型名稱、參數量、架構、發布者	確認是哪個 organization 發布
Training data	訓練語料的來源、規模、語言分布	評估模型在自己語言 / 任務的適配性
Intended use	預期用途、適合的應用場景	判讀模型是否符合自己工作流
Out-of-scope use	不適合的用途、已知不擅長的任務	避免誤用
Bias、ethical considerations	已知偏見、敏感議題的回應傾向	production 場景的合規評估
Benchmark	在公開 benchmark 上的分數	跟其他模型對比
License	模型權重的使用授權	商用前必看
Quantization 版本	該 repo 提供哪些量化版本	選對應 GGUF 版本

事實查核註：Hugging Face 推動 Model Card 規範跟 Model Card Toolkit、但實際填寫品質依 organization 變化、部分 repo 的 model card 內容很簡略、不能 100% 依賴。引用前以該 repo 當前內容為準。

設計責任

理解 model card 後可以解釋兩個現象：為什麼選模型不能只看名字（同個 base model 的不同 fine-tune 版本能力差很多）、為什麼商用前要看 license（Llama Community License、Apache 2.0、MIT 等差異大）。

實務上選模型時、model card 是第一閱讀對象、其他資訊（社群評測、benchmark leaderboard）作為交叉驗證；引用模型時應該明確記下「base model + fine-tune 變體 + 量化版本」三層。詳見 6.0 模型供應鏈與信任邊界跟 LLM Deployment 供應鏈完整性。

Model Tag

Tue, 12 May 2026 00:00:00 +0000

Model Tag 的核心概念是「推論伺服器用來定位特定模型版本的字串 key」。同一個模型家族（例如 Gemma 4）會被切出十幾個 tag、每個 tag 對應不同的參數量、訓練變體與量化等級、使用者用 tag 在 CLI 或 API 中指定要載入哪一份權重。

概念位置

Model tag 是介面層跟推論伺服器之間的識別碼、形式由各個伺服器各自定義。Ollama 用 family:size-variant-quantization 的單行字串、LM Studio 用 Hugging Face 完整檔名、llama.cpp 直接用 .gguf 檔路徑。同一份模型權重在不同伺服器有不同 tag 字串、但指向的底層GGUF權重可以是同一份。

可觀察訊號與例子

Ollama 的 tag 結構：

範例	拆解
`gemma4:e4b`	Gemma 4、E4B（edge dense）、預設量化
`gemma4:31b-instruct-q5_K_M`	Gemma 4、31B、instruct-tuned、Q5_K_M 量化
`gemma4:31b-coding-mtp-bf16`	Gemma 4、31B、coding 特化、含 MTP drafter
`qwen3-coder:30b`	Qwen3-Coder、30B 參數、預設量化
`llama3.3:70b-instruct-q4_K_M`	Llama 3.3、70B、instruct、Q4_K_M

四個欄位裡、size 直接決定記憶體佔用、variant（instruct / coding / base）決定模型適合的任務型態、quantization 影響品質跟記憶體取捨。Tag 中省略某些欄位時、伺服器用該欄位的預設值（通常是「常用組合」）。

設計責任

選 tag 時要看三件事：先看 size 確認模型塞得進記憶體（對照硬體記憶體預算）、再看 variant 確認用途匹配（寫 code 要選 instruct / coding 變體、避免 base model 的隨機接龍行為）、最後看 quantization 決定品質 / 記憶體甜蜜點。完整可用 tag 在各伺服器的 model registry（Ollama 在 ollama.com/library、LM Studio 在 Discover 分頁）。

MoE CPU 卸載

Tue, 12 May 2026 00:00:00 +0000

MoE CPU 卸載的核心概念是「Mixture-of-Experts 模型每個 token 只啟用少數專家、把不活躍的專家權重留在系統 RAM、用到再走 PCIe 拉回 GPU」。它讓 16GB VRAM 卡能載入 30B / 70B 等級的 MoE 模型、是獨立 GPU 場景相對統一記憶體場景多出的工程選項。

概念位置

MoE 卸載屬於「推論時的權重位置管理」、跟量化屬於「權重精度壓縮」是兩個獨立維度、可以疊加（如 30B MoE Q4 + 卸載部分層、模型精度跟記憶體位置同時被處理）。它跟 KV cache 量化是 PC 場景常一起使用的兩個工具：卸載騰出 VRAM、KV cache 量化讓騰出的 VRAM 拿去開大 context window。

在 llama.cpp 中、對應的旗標是 --n-cpu-moe 、把 N 層的 MoE 專家權重保留在 CPU 記憶體。例如 --n-cpu-moe 30 表示 30 層的專家層留 RAM、其餘走 GPU。

可觀察訊號與例子

以 Qwen3-30B-A3B Q4_K_M（模型體積 10 GB 級、active parameter 約 3B 等級）為例、不同卸載策略下記憶體分布與生字速度的相對方向（具體數值依驅動、CUDA backend、模型版本、PCIe 版本變化、本表用於說明趨勢、不是嚴格 benchmark）：

配置	卸載策略	VRAM 佔用方向	RAM 佔用方向	生字速度方向（同卡比較）
全載 VRAM	`--n-cpu-moe 0`	接近 VRAM 上限	系統正常	上限取決於 VRAM 頻寬
中度卸載	`--n-cpu-moe ~20`	顯著下降	上升至 10 GB 級	較全載小幅下降
重度卸載	`--n-cpu-moe ~30`	大幅下降	上升較多	較全載明顯下降
極限卸載	`--n-cpu-moe ~40`	接近最低	上升最多	較全載大幅下降

事實查核註：上表是趨勢示意、不是經本文系統實測的數值。實際數值依顯卡型號、PCIe 版本、CUDA backend、GGUF 量化版本、-ngl 設定、context 長度與 batch size 變化、建議用 llama-bench 或實際工作流校準。

社群常見的觀察是：MoE 卸載對生字速度的衰減幅度、相對於「Dense 模型把同樣比例的層卸載到 CPU」較小、原因是 MoE 每 token 只啟用少數專家、PCIe 上的權重傳輸量也較少；具體幅度依模型架構（active parameter 比例、專家數）變化。

設計責任

理解 MoE 卸載後、可以解釋三個 PC 場景的現象：16GB VRAM 卡能載入 30B 級 MoE 模型（透過部分卸載而非全載 VRAM）、PC 場景 64GB RAM 相對 32GB 在 MoE 卸載空間上明顯更寬裕（可卸載更多層）、Mac 統一記憶體場景較少需要「卸載」這個概念（VRAM 跟 RAM 共用、不需要在兩個區域之間搬資料）。

設定 PC 推論伺服器時、卸載層數通常跟 KV cache 量化、context 長度、併發數一起調：先估算想開的 context 長度、扣掉 KV cache 體積算出 VRAM 餘量、再選卸載層數讓模型剛好放得進。詳見 5.0 VRAM + RAM 分層預算。

MTEB

Tue, 12 May 2026 00:00:00 +0000

MTEB（Massive Text Embedding Benchmark、Muennighoff et al., 2022）的核心概念是「評估 embedding model 跨多種任務通用能力的標準 benchmark」。覆蓋 8 大類任務（classification、clustering、pair classification、reranking、retrieval、STS、summarization、bitext mining）、56 個 dataset、112 種語言。是現在挑選 embedding model 最常用的 leaderboard。

概念位置

MTEB 的 8 大任務類別：

類別	任務本質	衡量
Classification	用 embedding 做下游分類（如情感分析）	分類 accuracy
Clustering	把相似 doc 聚到一起	V-measure、NMI
Pair classification	判斷兩段文字「相關 / 不相關」	F1、AP
Reranking	對 retrieval 結果用 embedding 重新排序	mAP、MRR
Retrieval	給 query、從大量 corpus 找相關 doc	nDCG@10、Recall@k
STS（Semantic Textual Similarity）	預測句對相似度（連續分數）	Spearman correlation
Summarization	embedding-based summary quality	Correlation with human rating
Bitext mining	跨語言找翻譯對	F1

對寫 code / RAG 場景最相關：Retrieval、Reranking 兩類（粗體）。其他類別反映通用能力、但不直接影響 RAG 應用品質。

主流 embedding model 在 MTEB Retrieval 的代表性能（2026/5 估計、會持續變動）：

模型	模型大小	MTEB Retrieval avg	適合場景
BAAI/bge-large-en-v1.5	~335M	~55	開源通用、英文 retrieval 主力
nomic-embed-text-v1.5	~137M	~52	開源、小巧、Ollama 內建
jina-embeddings-v3	~570M	~58	開源、多語、code 友善
mxbai-embed-large-v1	~335M	~55	開源通用
OpenAI text-embedding-3-large	API only	~64	雲端旗艦
voyage-3	API only	~62	雲端、Anthropic 推薦

事實查核註：MTEB 數字依模型版本、評估配置變動、上述為 2026/5 大致排名、引用前以 MTEB Leaderboard 當前狀態為準。

設計責任

讀 embedding model 比較看到「MTEB score」就是這 benchmark。寫 code / RAG 場景的判讀：

看 Retrieval 子分數、不是 overall：MTEB overall 含 8 類、跟 RAG 場景關係最大的是 Retrieval 子分；通用 retrieval 分數高、reranking 分數高、就值得試
跟自己 domain 對齊：MTEB 多為通用語料、自己 domain（如 code、medical、legal）可能跟 MTEB 落差大；in-domain benchmark 比 MTEB 更重要
大小 / 速度 / 品質 trade-off：bge-large（335M）vs nomic-embed（137M）、後者跑得快、適合本地 RAG；前者品質略高、適合雲端或 latency 不敏感場景
MTEB 高分不代表「適合你」：高分模型可能是 instruction-tuned embedding（query 需要加特定前綴）、用法跟簡單模型不同、要看 model card

Multi-Head Attention

Tue, 12 May 2026 00:00:00 +0000

Multi-Head Attention（MHA、多頭注意力）的核心概念是「把 self-attention 的 Q/K/V 投影切成多個獨立的 head、各自算 attention、最後再 concat 起來」。直覺：每個 head 可以學會關注不同類型的關係（語法 / 語意 / 位置 / 共指 etc.）、比單一 attention 表達能力強。

概念位置

MHA 的計算結構：

1輸入 hidden state（dim = 4096）
2 ↓ 投影成 Q/K/V、每個切成 h 個 head（如 h=32、每個 head 128 維）
3Head 1：Q_1、K_1、V_1 → attention_1（128 維）
4Head 2：Q_2、K_2、V_2 → attention_2
5...
6Head h：Q_h、K_h、V_h → attention_h
7 ↓ concat 所有 head 輸出（h × 128 = 4096）
8 ↓ output projection（4096 → 4096）
9最終輸出

多頭變體：MHA → GQA → MLA 是 KV cache 體積壓縮的演化方向。

變體	Q head 數	K/V head 數	KV cache 體積	出現在
MHA（Multi-Head Attention）	h	h	100%（基準）	原始 Transformer、GPT-3、Llama 1
MQA（Multi-Query Attention）	h	1（所有 head 共用）	1/h	PaLM、Falcon
GQA（Grouped-Query Attention）	h	h/g（每 g 個 Q head 共用一組 K/V）	1/g	Llama 2 / 3、Mistral、Gemma
MLA（Multi-head Latent Attention）	h	用 latent 壓縮再展開	更激進壓縮	DeepSeek-V2 / V3

設計責任

讀 model card 看到 num_attention_heads: 32、num_key_value_heads: 8 等就是 MHA / GQA 設定（Q=32、K/V=8 表示 GQA、g=4）。寫 code 場景的意涵：GQA / MLA 的 KV cache 體積小、長 context / 高併發場景更友善、是現代 LLM 大量採用的設計。

Multimodal Fusion

Tue, 12 May 2026 00:00:00 +0000

Multimodal fusion（多模態融合）的核心概念是「VLM 把 vision encoder 產出的 image token 跟 text token 結合進 LLM 的設計方式」。三條主流路線：early fusion（image token 跟 text token 串成同 sequence）、cross-attention（separate stream、attention 跨流）、native multimodal（單一網路統一處理）。

概念位置

三種 fusion 方式的對比：

1. Early Fusion（最主流）

1image → vision encoder → image tokens ─┐
2                                       ├→ concat 成單一 sequence → 同 LLM Transformer 處理
3text → tokenizer → text tokens ────────┘

特性：image token 跟 text token 在同一個 token sequence、共用 LLM 的 attention / FFN
代表：LLaVA、Qwen2-VL、Llama 3.2 Vision、Pixtral、GPT-4V 多數變體
優點：實作簡單、可重用 LLM 的 weight、訓練資料效率高
缺點：image token 佔 context、長對話 / 多圖時 context budget 吃緊

2. Cross-Attention（Flamingo-style）

1image → vision encoder → image features ─┐
2                                          │ Cross-attention 層
3text → tokenizer → tokens → LLM Transformer ──┤  插在每幾層 Transformer 之間
4                                          │ Image features 不進 LLM 主流
5output ←─────────────────────────────────┘

特性：image features 不變成 LLM 的 token、透過額外的 cross-attention 層注入
代表：Flamingo（DeepMind）、Idefics（Hugging Face）、部分 video LLM
優點：text token sequence 不會被 image 撐大、長文字 + 多圖比較友善
缺點：架構複雜、訓練難、推論伺服器支援度差

3. Native Multimodal（unified token space）

1image → patchify → discrete image tokens（如 VQ-VAE 編碼）
2text → tokenizer → text tokens
3
4兩者共用 vocab、同一個 Transformer 從頭訓
5（沒有「分開的 vision encoder」、modality 在 vocab level 統一）

特性：架構上「圖跟文字是同一種東西」、共用 vocab
代表：Chameleon（Meta 研究）、未來 trend
優點：理論最 clean、跨模態 generation 自然（生圖 + 生文都同個模型）
缺點：訓練極貴、目前研究階段為主、實用 VLM 仍以 early fusion 為主流

主流選擇對比

路線	佔比（2026/5）	對 coding 場景的影響
Early fusion	~85%	Image token 佔 context、要算清楚 context budget
Cross-attention	~10%	推論伺服器支援度差、本地跑選項少
Native multimodal	< 5%	研究階段、現在不適合 production / 本地工作流

設計責任

讀 VLM paper / blog 看到「early fusion」「LLaVA-style」「Flamingo-style」「cross-attention adapter」就是這分類。寫 code 場景的判讀：

本地跑 VLM 多半是 early fusion：選 Qwen2.5-VL / Llama 3.2 Vision / Gemma 3 Vision 都是這條路線、推論伺服器（llama.cpp、Ollama、LM Studio）都支援
Cross-attention 模型本地跑可能撞牆：推論伺服器對 Idefics 等 cross-attention 模型支援度差、不一定能跑 GGUF
理解 fusion 影響 token 估算：early fusion 下「image token = 真的進 context」、cross-attention 下不算進 context window 主流
未來 trend 是 unified：但現在做 production / 本地工作流不必等、用 early fusion 主流模型即可

Needle in a Haystack

Tue, 12 May 2026 00:00:00 +0000

Needle in a Haystack（NIH、大海撈針、Greg Kamradt 2023）的核心概念是「把一個明確事實（needle）插入長度可變的 context（haystack）的不同位置、測試 LLM 能否在問問題時準確 recall 該事實」。是評估 long context 模型實用性的標準 benchmark 之一、跟 lost-in-the-middle 對應但側重不同。

概念位置

NIH 測試的典型流程：

 11. 準備 haystack：一份長文（如 Paul Graham essays、技術文件）
 22. 在指定位置（如 50% 處）插入 needle：
 3   「The best thing to do in San Francisco is eat a sandwich at Dolores Park.」
 43. Prompt 模型：「What is the best thing to do in San Francisco?」
 54. 看模型能否抓出 needle 內容
 6
 7Variables：
 8- Context 總長度（1K、4K、16K、64K、128K、1M）
 9- Needle 插入位置（0%、10%、25%、50%、75%、90%、100%）
10
11每個 (length, position) 組合測 N 次、得到 accuracy heatmap

跟 lost-in-the-middle 的對比：

維度	Lost in the middle	Needle in haystack
衡量的能力	對中段內容的整體 attention	抓單一事實的 recall
任務	抓整段邏輯、做推論	純 retrieve、不需推論
難度	高（需理解整段語意）	較低（明確 keyword 匹配）
模型表現	中段顯著差	通常各位置都接近 100%（強模型）
判讀意義	反映「實用 effective context」	反映「lower bound effective context」

 1典型 NIH heatmap（GPT-4 128K 之類）：
 2
 3100% |████ ████████████████████████████ ████
 4 80% |████ ████████████████████████████ ████
 5 60% |
 6 40% |
 7 20% |
 8   0 +----+----+----+----+----+----+----+
 9     0%   25%   50%   75%   100%（needle 位置）
10     ↑                                  ↑
11     開頭強                             結尾強
12
13NIH heatmap 通常全綠（強模型）、但實用任務（reasoning over long context）就會出現中段塌陷

設計責任

讀 long context 模型 release notes 看到「needle in a haystack: 100%」「pass NIH up to 128K」等聲稱、要區分：

NIH 100% 不代表「能用 128K context」：NIH 只測單一事實 retrieve、實際 reasoning over long context 仍可能崩
真實任務 benchmark：LongBench、RULER 等是更貼近實用的 long context evaluation、會暴露 lost-in-the-middle 等問題
本地跑 long context 模型：先用 NIH 驗證 baseline、再用 RULER / 自己工作流 case 測 effective context
判讀「我的模型實際能用幾 K」：NIH pass 的長度是上限、實用 effective context 通常是 NIH pass 長度的 1/2 到 1/4

NVLink

Tue, 12 May 2026 00:00:00 +0000

NVLink 的核心概念是「NVIDIA 自家的 GPU 之間高速互連介面、頻寬高於 PCIe、適合多卡 tensor parallel 場景」。資料中心級 GPU（如 A100 / H100 / H200）普遍支援、消費級 RTX 30 系列部分支援（如 3090）、RTX 40 / 50 系列普遍移除 NVLink、消費級多卡通常只能走 PCIe。

概念位置

NVLink 在多卡推論場景的角色：

tensor parallel：把一個 transformer 層的 weight 切到多張卡、每 token 計算時需要卡間同步、卡間頻寬影響直接。
pipeline parallel：把不同層分到不同卡、卡間需要傳 activation、頻寬要求中等。
資料分發：把不同 request 分到不同卡（data parallel）、卡間流量低、PCIe 也夠。

頻寬對照（廠商標稱、依世代變化）：

介面	卡間頻寬（標稱）
PCIe 4.0 x16	約 32 GB/s 單向
PCIe 5.0 x16	約 64 GB/s 單向
NVLink（H100）	約 900 GB/s 雙向、依世代
NVLink（A100）	約 600 GB/s 雙向

NVLink 比 PCIe 高一個量級、是資料中心多卡推論的關鍵；消費級 RTX 場景多卡通常只能走 PCIe、縮放效益相對受限。

事實查核註：NVLink 各世代的頻寬數字依 NVIDIA 官方規格、不同 GPU 跟世代有差異；NVLink 在哪些消費級 / 工作站 / 資料中心 GPU 可用、依時段跟廠商策略變化、引用前以 NVIDIA 官方產品頁跟對應 GPU 的 datasheet 為準。

設計責任

理解 NVLink 後可以解釋兩個現象：為什麼資料中心多卡 LLM 推論能線性 scale（NVLink 頻寬足以做 tensor parallel）、為什麼消費級雙卡 RTX 推論縮放比通常低於線性（沒 NVLink、走 PCIe x4 / x8、卡間頻寬限制）。

選消費級 GPU 跑本地 LLM 時、NVLink 不是常見選項；多卡升級的判讀應該基於「能否容忍縮放比低於線性」、而不是預期 NVLink 等級的卡間頻寬。詳見 5.6 GPU 廠商差異。

OWASP LLM Top 10

Tue, 12 May 2026 00:00:00 +0000

OWASP LLM Top 10 的核心概念是「Open Worldwide Application Security Project 發布的 LLM 應用最常見 10 大資安風險清單」。2023 首發、2025 更新版是業界跟企業安全溝通的共同詞彙、是 production LLM 應用做 threat modeling 跟合規溝通的標準入口。

概念位置

2025 版的 10 項（簡述）：

編號	名稱	簡述
LLM01	Prompt Injection	把惡意指令藏進 LLM 會讀到的內容、間接影響模型行為
LLM02	Sensitive Information Disclosure	LLM 輸出洩漏訓練資料 / system prompt / PII
LLM03	Supply Chain	模型 / 訓練資料 / 工具 / dependency 供應鏈攻擊
LLM04	Data and Model Poisoning	訓練資料污染、模型行為被植入後門
LLM05	Improper Output Handling	LLM 輸出未驗證直接執行（XSS / SQLi / RCE）
LLM06	Excessive Agency	Agent 工具權限過大、副作用不可控
LLM07	System Prompt Leakage	System prompt 被使用者誘導露出
LLM08	Vector and Embedding Weaknesses	Vector DB / embedding pipeline 的攻擊面
LLM09	Misinformation	Hallucination / 過度信任 LLM 輸出
LLM10	Unbounded Consumption	Resource exhaustion / cost runaway（DoS / 燒錢）

跟模組六的 mapping

OWASP	模組六章節	補充
LLM01 Prompt Injection	6.3 IDE 場景 prompt injection	直接對應
LLM02 Sensitive Disclosure	6.4 跨雲端資料邊界	加 4.16 靜態 RAG 資安
LLM03 Supply Chain	6.0 模型供應鏈	直接對應
LLM04 Data/Model Poisoning	部分（限本地 dev、production 訓練屬 backend/07）	M6 cover 模型來源信任、不 cover 訓練毒化
LLM05 Improper Output	6.2 tool use 權限	直接對應
LLM06 Excessive Agency	6.2 + 4.4 agent 架構	跨原理 + 安全
LLM07 System Prompt Leakage	部分（4.17 coding agent harness）	M6 沒專章、屬 scaffold 設計
LLM08 Vector / Embedding	部分（4.1 RAG + 4.16 靜態 RAG 資安）	跨原理 + 應用
LLM09 Misinformation	hallucination 卡 + 4.21 LLM-as-judge	跨卡 + 應用
LLM10 Unbounded Consumption	部分（4.18 prompt caching + 4.16 靜態 RAG 資安 abuse）	M6 沒專章、屬 abuse 緩解

設計責任

讀企業 LLM 安全 / 合規文件 / vendor security audit 看到「OWASP LLM Top 10」就是這 framing。寫 code 場景的判讀：

跟企業溝通必備：安全 team / vendor audit 都用 OWASP 編號、能 map 自己應用到 LLM01-LLM10 就能 align 對話
不是 production 才需要看：個人 dev 也適用大部分（LLM01 prompt injection、LLM03 supply chain、LLM06 excessive agency 對個人都直接相關）
跟 6.6 OWASP 對照章節的關係：本卡是定義 + mapping、章節是詳細 mapping + 個人 dev 場景的對應 control

PCIe

Tue, 12 May 2026 00:00:00 +0000

PCIe（PCI Express）的核心概念是「PC 上 GPU 跟主機板（CPU + 系統 RAM）之間的高速序列匯流排」。獨立 GPU 場景下、模型權重從 SSD / 系統 RAM 走 PCIe 進 VRAM、之後推論主要在 GPU 內部完成；但 MoE CPU 卸載啟用時、每 token 都需要從系統 RAM 走 PCIe 拉部分權重、PCIe 頻寬開始影響推論吞吐。

概念位置

PCIe 在本地 LLM 推論的兩個階段角色不同：

模型載入階段：模型權重從 SSD → 系統 RAM → 走 PCIe → VRAM。PCIe 是常見瓶頸、影響「啟動時間」、不影響推論。
推論階段：
- 全載 VRAM 場景：權重已在 VRAM、推論時 PCIe 流量很少。
- MoE 卸載場景：每 token 從系統 RAM 拉專家權重經 PCIe、PCIe 頻寬成為次要瓶頸。

PCIe 版本跟頻寬（廠商標稱、單向）：

版本	x16 單向標稱頻寬
PCIe 4.0 x16	約 32 GB/s
PCIe 5.0 x16	約 64 GB/s
PCIe 6.0 x16	約 128 GB/s

實際傳輸吞吐受驅動、檔案系統、量化格式影響、通常低於規格上限。

事實查核註：PCIe 各版本的標稱頻寬數字以 PCI-SIG 官方規格為主、實際可達吞吐依硬體配置變化、引用前以對應版本的官方規格文件為準。

消費級主機板的 PCIe lane 分配常見「一條 x16 + 一條 x4」、加第二張 GPU 時、第二張的有效頻寬可能只有 x4、影響多卡縮放效益。詳見 5.3 llama.cpp 在 PC 上的多卡 tensor split 段落。

設計責任

理解 PCIe 後可以解釋三個現象：為什麼模型載入要等幾秒到十幾秒（PCIe 是橋）、為什麼單卡 + MoE 卸載通常不卡 PCIe（每 token 拉的權重量小於 PCIe 頻寬）、為什麼雙卡縮放比沒有直接翻倍（PCIe lane 跟主機板配置）。

選 PC 配置時、PCIe 版本影響模型載入體感、但對單人推論的生字速度通常影響小。多卡升級前要看主機板的 PCIe lane 分配。

Perplexity

Tue, 12 May 2026 00:00:00 +0000

Perplexity（困惑度）的核心概念是「cross-entropy 的指數形式」：perplexity = exp(cross-entropy)。直覺意義是「模型在每個位置平均覺得下個 token 有多少種候選」。perplexity = 1 表示模型完美預測；perplexity = vocab_size 表示模型純猜（vocab 上的 uniform 分佈）。

概念位置

Perplexity 跟 cross-entropy 的關係：

指標	公式 / 定義	人類直覺
Cross-entropy	`-mean(log p_true)`、底通常是 e	loss 數字、訓練拿來最佳化
Perplexity	`exp(cross-entropy)`	「平均看到幾種候選」、好讀

換算範例（base e）：

Cross-entropy	Perplexity	意義（極粗略直覺）
11	~60K	純隨機（vocab ≈ 128K 時）
5	~148	早期訓練
3	~20	中等訓練模型
2	~7.4	接近現代成熟 LLM 在文本上的表現
0	1	完美預測（不可能達到）

Perplexity 主要用於：

預訓練評估：在 held-out 語料上算 perplexity、衡量基礎建模能力。
量化品質衡量：fp16 vs Q4 vs Q3 模型的 perplexity 差異、看量化造成多少品質損失。
領域 benchmark：在特定領域語料（code、math、医學文獻）上算 perplexity、評估模型對該領域的熟悉度。

設計責任

Perplexity 是 base model 評估標準、但對 instruction-tuned / chat 模型用處有限（chat 模型輸出風格已偏離 raw text、perplexity 不一定降）。對寫 code 場景的判讀：看到 paper 報 perplexity 是評估 pretrain 品質的訊號、實際聊天 / coding 能力要看 SWE-bench、MMLU、HumanEval 等任務式 benchmark。

Port 與 Localhost

Tue, 12 May 2026 00:00:00 +0000

Port 與 Localhost 的核心概念是「網路 server 暴露在哪個地址、聽哪個 port、讓誰能連進來」。本地 LLM 場景中、Ollama 預設聽 127.0.0.1:11434、Continue.dev 等介面層透過這個地址呼叫 OpenAI 相容 API；理解 listen address 跟 port 的角色、才能判讀「為什麼 port 撞 / 為什麼 LAN 上另一台連不到 / 暴露到 internet 安全嗎」。

概念位置

完整的 server 入口由兩個欄位定義：

欄位	角色	範例值
Listen address	接受哪些網路介面送進來的封包	`127.0.0.1` / `0.0.0.0` / `192.168.x`
Port	OS 用來區分「同一台機器上哪個 server」	`11434` / `1234` / `8080`

Port 是 16 bit 數字（0 ~ 65535）、其中 0 ~ 1023 是 well-known port（HTTP 80、HTTPS 443 等、需 root 權限才能 bind）、1024 ~ 65535 是 user port、本地 LLM 工具都用這個區間（Ollama 11434、LM Studio 1234、llama.cpp 8080）。同一個 port 在同一個 listen address 上同時只能被一個 process 持有、要兩個 Ollama 並存就要其中一個換 port。

三個常見 listen address 的語意：

地址	等同名稱	接受誰的連線
`127.0.0.1`	`localhost`	只接受本機 process、外部裝置連不到
`0.0.0.0`	所有介面	接受任何網路介面送進來的封包、包含 LAN / VPN / public
`192.168.x`	特定 LAN 介面	只接受該 LAN 介面送進來的封包

可觀察訊號與例子

驗證 server 真的在聽預期地址：

1# macOS 下查誰佔了 11434
2lsof -i :11434
3# COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
4# ollama  1234 mac  6u IPv4 0xabcd      0t0 TCP localhost:11434 (LISTEN)

TCP localhost:11434 (LISTEN) 表示這個 process 只接 localhost 進來的封包。改 listen address 把 Ollama 暴露到 LAN：

1OLLAMA_HOST=0.0.0.0:11434 ollama serve
2# lsof 之後會看到 TCP *:11434 (LISTEN)、星號表示所有介面

curl 用不同 host 名稱呼叫同一個 server：

1curl http://localhost:11434/api/version    # 走 loopback、最快
2curl http://127.0.0.1:11434/api/version    # 跟上面等價
3curl http://<本機 LAN IP>:11434/api/version # 若 listen 在 0.0.0.0、會通；只 listen localhost 會 connection refused

「為什麼桌機跑 Ollama、筆電連不到」的最常見原因就是 Ollama 沒改 listen address、預設只接受 loopback。

設計責任

選 listen address 是信任邊界決定：

127.0.0.1（預設）：機器本身就是信任邊界、外部進不來、最安全
0.0.0.0 在家用 / 信任 LAN：把 server 暴露給同網路裝置、便於多裝置共用、風險可接受
0.0.0.0 在公共 Wi-Fi / 對 internet：等於對所有路過裝置開放、Ollama 沒有內建 auth、需要 SSH tunnel 或 reverse proxy + auth 才安全

Port 衝突的處理順序：用 lsof 確認佔用方身分 → 若是舊版自己 kill、若是別的服務改自己的 port → 同步更新 IDE plugin 的 apiBase。完整資料流判讀見 0.7 隱私資料流。

Pre-training

Tue, 12 May 2026 00:00:00 +0000

Pre-training（預訓練）的核心概念是「在大量未標註文字上、用 next-token prediction 當目標訓練一個語言模型」。產出的權重稱為 base model、是後續 SFT / RLHF 的起點。Pre-training 是 LLM 三階段訓練流程中最貴、最耗時、最決定模型上限的階段。

概念位置

Pre-training 在 LLM 訓練 pipeline 的位置：

1[網路文字 / 書籍 / code / 論文]（trillion token 級）
2 ↓ Pre-training（next-token prediction、cross-entropy loss）
3[Base model]：會接龍但不會對話
4 ↓ SFT（指令-回答對資料）
5[Instruction-tuned model]：會跟指令走
6 ↓ RLHF / DPO（人類偏好資料）
7[Aligned model]：對話風格 / 安全性對齊

Pre-training 的特性：

維度	典型數字（2026 年主流大模型）
資料量	數兆 token（Common Crawl、RefinedWeb、The Pile、Stack 等）
GPU 用量	數百到數萬張 H100 / B200、並行訓練
訓練時間	數週到數月
成本級別	數百萬到數億美元
Loss	Cross-entropy on next-token
結果	「會接龍」的 base model、可用 perplexity 評估

設計責任

理解 pre-training 後可以判讀幾件事：模型的「世界知識」絕大部分在 pre-training 時就決定了、SFT / RLHF 只是「教模型怎麼用這些知識回答」、不會大幅增加新知識；模型 cutoff date 就是 pre-training 資料的截止；想做新領域知識引入、RAG 比繼續 fine-tune 划算（pre-training 太貴、且 fine-tune 容易讓既有能力退化）。

Prefix Cache

Tue, 12 May 2026 00:00:00 +0000

Prefix Cache 的核心概念是「當多個請求共用相同的前綴 prompt（如同一 system prompt、同一 few-shot 範例）、把該前綴的 KV cache 算一次、後續請求共用、省下重複 prefill 算力」。是 production LLM 服務的常見優化、能大幅降低 latency 跟成本；但在多租戶場景下、跨租戶共用 prefix cache 是直接的隱私洩漏面。

概念位置

Prefix Cache 在推論流程中的角色：

1傳統推論：
2 Request A：system prompt + user A → 完整 prefill → 生成
3 Request B：system prompt + user B → 完整 prefill → 生成
4 ↑ 重複算 system prompt
5
6開啟 Prefix Cache：
7 Request A：system prompt + user A → prefill 整段、cache 共用 prefix
8 Request B：system prompt + user B → 重用 cache 的 system prefix + 只 prefill user B → 生成
9 ↑ 省下 system prompt 的 prefill 算力

效益對應的場景：

場景	效益
同 system prompt、不同 user message	prefill 算力大幅省
同 few-shot 例子、不同 query	prefill 算力大幅省
長 RAG context 共用、不同問題	prefill 算力大幅省
完全獨立的請求（無共用前綴）	無效益

主流推論引擎的支援度（依版本變化）：vLLM、SGLang、llama.cpp 等都有 prefix cache 機制、命名各異。

事實查核註：prefix cache 的命名、設定方式、tenant 隔離預設行為依推論引擎跟版本差異大、引用前以對應引擎的官方文件為準（如 vLLM Automatic Prefix Caching、SGLang RadixAttention 等）。

設計責任

理解 prefix cache 後可以解釋兩個現象：為什麼 production LLM 服務的 latency 在啟用 prefix cache 後大幅下降（system prompt 不再每次重算）、為什麼 prefix cache 在多租戶場景是隱私風險（A 租戶的 prefix 可能被 B 看到、見 llm-multi-tenant-isolation）。

production 設計時、prefix cache 應該按 tenant 分桶、同 tenant 內可共用、跨 tenant 必須隔離。隔離邊界對齊 tenant-boundary 卡片的設計。

Prompt Cache

Tue, 12 May 2026 00:00:00 +0000

Prompt cache 的核心概念是「LLM 服務端 / 推論伺服器把重複出現的 prompt prefix（如 system prompt + tool schema）的 KV cache 暫存起來、後續 query 跳過該 prefix 的 prefill 階段」。Anthropic / OpenAI / Bedrock / Gemini 都提供、最高 90% cost 折扣 + 13-31% TTFT 改善、是 coding agent / long-context 應用的核心 cost / latency 槓桿。

概念位置

跟既有 cache 概念的層次：

Cache 層	範圍	機制
KV cache	單一 conversation 的同一次推論	過去 token 的 K/V 暫存、autoregressive 才省重算
Prefix cache	多 request 共用 prefix（同 server 同 model）	跨 request 共用 KV cache、production 推論伺服器特性
Prompt cache（本卡）	跨 request 跨時間、雲端 LLM API 服務端	服務端把 prefix 的 KV cache 持久化、有 TTL

Prompt cache 的「保留範圍」跟「定價」是商業 LLM 的 product feature：

服務	Cache TTL	Write cost	Read cost	觸發方式
Anthropic（cache_control）	5min 預設、1h ext	1.25× 原價	0.1× 原價（90% 折扣）	明確 cache_control breakpoint
OpenAI	自動（隱式）	同原價	0.5× 原價（50% 折扣）	自動偵測重複 prefix（> 1024 token）
Bedrock（Anthropic）	5min	同 Anthropic	同上	同 Anthropic
Gemini	自動 + explicit	視方案	視方案	implicit + context caching API

事實查核註：定價跟 TTL 隨時間更新、引用前以對應 vendor 當前文件為準。

設計責任

讀 LLM API docs / coding agent 設計 / cost optimization blog 看到「prompt cache」「context caching」「cache_control」就是這機制。寫 code 場景的判讀：

誰最值得開：coding agent（system prompt + tool schema 經常 > 10K token、每 turn 重用）、long-context RAG（檢索 chunks 重用）、long conversation（history 累積）
設計原則：把不變的內容（system prompt、tool schema、固定文件）放 prefix；變動的（user query、最新 file content）放後面
常見 anti-pattern：在 prefix 插入 timestamp / user-id / request-id → 每次 prefix 不同 → cache 從不命中、付 1.25× write cost 沒得回本
5 分鐘 TTL 的意涵：query 之間間隔 > 5 分鐘、cache 已 expire、要 1h ext TTL 才能撐長對話
跟 context budget 的關係：cache 攤平 scaffold 部分的 cost、所以可以放寬「scaffold ≤ 25%」的成本顧慮、focus 在「不超 context limit」即可

Prompt Injection

Tue, 12 May 2026 00:00:00 +0000

Prompt injection 的核心概念是「攻擊者把惡意指令藏進 LLM 會讀到的內容（檔案、網頁、issue、tool 回傳）、誘導 LLM 忽略原本的 system prompt、改執行攻擊者意圖的動作」。OWASP LLM Top 10 把它列為 LLM01、是 LLM application 安全的頭號威脅。

概念位置

Prompt injection 的兩種主要形態：

形態	描述	個人 dev 場景的觸發路徑
Direct injection	使用者自己 prompt 內含惡意指令	較少發生、主要是測試場景
Indirect injection	LLM 讀到的別人內容含惡意指令	主要威脅形態

Indirect injection 的常見入口：

檔案內容：codebase 中的 README、依賴的 package README、PDF / Word 文件
Web 內容：tool 抓的網頁、社群留言、PR 描述
tool 回傳結果：DB 查詢結果、API response、其他 service 回傳
使用者貼上內容：從外部複製貼上、帶進惡意 prompt
agent 自我循環中累積：sub-agent 回傳、長 agent loop 中前段 injection 影響後段

事實查核註：prompt injection 的攻擊形態跟研究進展快速演進、本卡描述參考 OWASP LLM Top 10 LLM01 跟 Greshake et al. 的「Indirect Prompt Injection」論文、引用前以對應的最新版本為準。

實際造成影響的不是 injection 本身、是 LLM 輸出後的下游動作：

1injection → LLM 輸出 → 下游動作（這裡才是真正攻擊面）
2 ├── 使用者照建議貼到 shell 跑
3 ├── tool use 自動執行
4 ├── 寫進 commit / 文件
5 └── 觸發下一個 agent

設計責任

理解 prompt injection 後可以解釋兩個現象：為什麼「擋住 injection」對 production LLM application 是不切實際的目標（外部內容會持續引入）、為什麼防禦重點應該放在「下游動作的可逆性 + review checkpoint」（injection 不可完全擋住、但後果可以收斂）。

防禦設計的層次：

降低觸發率：明確標記 untrusted 內容、強化模型對齊（vendor 端責任）。
限制能力上限：tool use 白名單、副作用可逆性、agent loop 步數限制。
後果可控：人為 review checkpoint、自動偵測異常（見 LLM Service 偵測訊號覆蓋）。

詳見 6.3 IDE 場景的 prompt injection 跟 LLM Agent Prompt Injection 後果治理。

QLoRA

Tue, 12 May 2026 00:00:00 +0000

QLoRA（Quantized LoRA、Dettmers et al., 2023）的核心概念是「把 base model 量化到 4-bit（凍住）+ 用 LoRA 訓兩個小矩陣」。讓消費級 GPU（24GB VRAM）就能 fine-tune 30B-70B 模型、是現代 local fine-tuning 主流。

概念位置

QLoRA vs full fine-tuning vs LoRA 的記憶體需求對比（70B 模型）：

方法	Base model 精度	訓練記憶體	適合硬體
Full fine-tuning	BF16	~280 GB	多卡 H100
LoRA	BF16	~150 GB	多卡 A100 / H100
QLoRA	4-bit (NF4)	~40 GB	單張 A100 80GB / 雙 24GB GPU
QLoRA on 7B	4-bit	~6-8 GB	消費級 16GB+ GPU
QLoRA on 30-32B	4-bit	~20-24 GB	消費級 24GB+ GPU（5090）

QLoRA 的核心創新（簡化）：

4-bit NormalFloat（NF4）量化：base model 用 4-bit 表示、精度損失低於原 INT4
Double quantization：量化常數本身也量化、再省一點記憶體
Paged optimizer：optimizer state 跑 CPU offload、避免訓練 spike OOM
LoRA on 4-bit base：LoRA 訓的 A、B 矩陣仍是 BF16、只有 base 是 4-bit、推論時 dequantize → 加 LoRA → forward

設計責任

讀 fine-tuning 教學 / Hugging Face PEFT 文件看到「QLoRA」「bnb-4bit」就是這方法。寫 code 場景的判讀：

想 fine-tune 大模型在消費級硬體：QLoRA 是 default 選擇（不用 QLoRA、就只能訓 < 7B）
記憶體預算估算：QLoRA 訓 N B 模型約需 0.6 × N GB VRAM（30B → ~18GB、70B → ~42GB）
品質 vs full fine-tune 差距：QLoRA 後合併權重的模型、實測跟 full fine-tune 接近（差距 < 2-3%）、對多數場景可接受
跟 LoRA 卡片區分：純 LoRA 是「base 不量化、訓 LoRA」、QLoRA 是「base 量化 4-bit、訓 LoRA」；QLoRA 是 LoRA 的延伸、不是替代
推論時的選擇：QLoRA fine-tuned 模型可以「base 仍 4-bit + 載入 LoRA adapter」推論、記憶體用量低；也可以 merge 後用 GGUF Q4_K_M、跟 base 原相同

Reasoning Model

Tue, 12 May 2026 00:00:00 +0000

Reasoning model 的核心概念是「透過後訓練（多半是 RL）讓模型自然在回答前產出長 chain-of-thought reasoning trace 的 LLM 變體」。代表是 OpenAI o1 / o3、DeepSeek-R1、Qwen-QwQ、Claude 3.7 Sonnet thinking 等。Reasoning model 是 2024-2026 LLM 的最大 paradigm shift、把 test-time compute 變成可訓練、可 scale 的維度。

概念位置

Reasoning model 跟一般 instruction-tuned model 的差異：

維度	Instruction-tuned model（如 Gemma 4 instruct）	Reasoning model（如 DeepSeek-R1）
訓練後階段	SFT + RLHF / DPO	SFT + RLHF + reasoning RL
推論行為	直接答（或短 CoT）	先生 reasoning trace（數百到數千 token）再答
適合任務	對話、寫作、簡單 coding、查詢	math、debug、algorithm、複雜 reasoning
Token 消耗	直接生答案 token	reasoning trace 通常 5-50× 於最終答案
推論成本	1×	5-20×（依任務難度）
Context 需求	一般	較大（要容納 reasoning trace）

主流 reasoning model 比較（2026/5）：

模型	開源 / 商業	推理 trace 格式	本地跑可行性
OpenAI o1 / o3	商業 API	對使用者隱藏	不可
DeepSeek-R1（full）	開源	`<think>...</think>` 標記	671B 太大、本地不實際
DeepSeek-R1 distill	開源	同上	7B / 14B / 32B distill 可在 24-48GB Mac 跑
Qwen-QwQ	開源	純文字 reasoning（無特殊 token）	32B 可在 64GB+ Mac 跑
Claude 3.7 Sonnet thinking	商業 API	extended thinking field	不可
Gemini 2.5 Flash thinking	商業 API	thinking field	不可

設計責任

讀 model card / paper 看到「reasoning」「thinking」「test-time compute」「R1-style」就是這個 family。寫 code 場景的判讀：

本地用 distill 版本是合理起點：DeepSeek-R1-Distill-Qwen-32B、QwQ-32B 等是「正常 32B 模型 + reasoning 後訓練」的產物、跑得起來
適合的任務：debug 複雜 bug、算 algorithm complexity、設計 multi-step refactor、解 leetcode hard
不適合的任務：autocomplete（reasoning trace 拉長 TTFT、體感變慢）、簡單 docstring 補完、純文字翻譯
混用策略：日常用 instruction-tuned model（如 Gemma 4 31B、Qwen3-Coder）+ 複雜任務切到本地 reasoning model（如 QwQ-32B）+ 真正困難任務切雲端 o1 / R1 full
記憶體預算：reasoning model 本身大小跟對應 instruct model 相當、但要預留更大 KV cache 給長 reasoning trace（context 通常開 32K+）

Refusal Rate

Tue, 12 May 2026 00:00:00 +0000

Refusal rate 的核心概念是「LLM 拒絕回答 prompt 的比例」。LLM 在訓練階段（特別是 RLHF）會學到「對特定類型的請求說『我不能幫忙這個』」、production 服務通常會監控這個比例作為對齊強度跟異常行為偵測的訊號之一。

概念位置

Refusal 行為的典型形態：

形態	例子
安全相關拒絕	“Sorry, I can’t help with that request.”
政策相關拒絕	“I’m not able to discuss specific medical advice.”
能力相關拒絕	“I don’t have real-time data access.”
模糊拒絕（soft refusal）	“That’s an interesting question, but…”

Refusal rate 作為偵測訊號的兩個方向：

率突然下降：可能是對齊被繞過、prompt injection 攻擊在進行、或新版本模型對齊變弱。
率突然上升：可能是訓練資料或對齊政策變嚴、影響使用者體驗、或 vendor 端政策調整。

實作上、偵測 refusal 通常用簡單 pattern matching（看是否含 “I can’t” / “I’m not able” / “Sorry” 等）或更精確的 classifier；具體實作依偵測平台設計。

事實查核註：refusal rate 的標準化測量方式、跟「對齊強度」的對應關係仍在研究演進、不同 vendor 跟 model 的 baseline 差異大、引用前以對應模型的 model card 跟最新研究為準。

設計責任

理解 refusal rate 後可以解釋兩個現象：為什麼 production LLM 服務監控 refusal rate（變化是異常訊號）、為什麼開源模型的 refusal rate 通常低於商業旗艦（前者 safety RLHF 投入較少）。

production 設計時、refusal rate 是 content 層偵測訊號之一、需配合 tool call 序列、token usage、prompt pattern 等其他訊號才能形成完整偵測覆蓋。詳見 LLM Service 偵測訊號覆蓋。

Reranker

Tue, 12 May 2026 00:00:00 +0000

Reranker 的核心概念是「對 retrieval 第一階段拿到的 top-K（如 50）結果、用 cross-encoder 模型重新評分、排出 top-N（如 5）給 LLM」。是 RAG 第二階段、補 bi-encoder（embedding model）對 query-document gap 的細粒度匹配不足、品質提升明顯（recall@5 通常 +10-30%）但成本 / latency 增加。

概念位置

Bi-encoder vs cross-encoder 的差別：

1Bi-encoder（embedding model、retrieval 第一階段）：
2 query → embedding A
3 document → embedding B（pre-compute、存 vector DB）
4 score = cosine(A, B)
5 → 快、可 pre-compute、適合海量 retrieval
6
7Cross-encoder（reranker、retrieval 第二階段）：
8 (query, document) 一起進模型 → 直接輸出 relevance score
9 → 慢（每對都要 forward pass）、不可 pre-compute、適合 top-K rerank

主流 reranker：

Reranker	類型	適合場景
Cohere Rerank 3	SaaS API	Production 高品質、多語
Jina Reranker v2	開源	開源、多語
BGE Reranker（bge-reranker-v2-m3）	開源	開源中文友善
Voyage rerank-2	SaaS API	跟 voyage embedding 配對
ColBERT v2	Late interaction	介於 bi 跟 cross encoder

設計責任

讀 RAG / production retrieval docs 看到「reranker」「cross-encoder」「rerank stage」就是這 framing。寫 code 場景的判讀：

何時值得加 reranker：retrieval 結果有「相關但不精確」問題、top-K hit rate 高但 top-5 hit rate 低、有 latency / cost budget
何時不需要：小語料（< 1000 docs、retrieval 已準）、明確 keyword 任務（BM25 已準）、latency 敏感（< 100ms TTFT）
Pipeline 設計：bi-encoder retrieve top-50 → reranker rerank → 給 LLM top-5；50/5 是常見起點、看實測調
跟 hybrid search 結合：BM25 + embedding hybrid retrieve top-50 → reranker rerank → LLM、是 production RAG 標配
跟 4.1 RAG 章節的關係：本卡是定義、章節是 retrieval pipeline 設計（含 reranker / hybrid 段）

Residual Connection

Tue, 12 May 2026 00:00:00 +0000

Residual connection（殘差連接、skip connection）的核心概念是「把 layer 的輸入直接加到輸出上」、形式是 output = layer(x) + x。這個簡單加法解決了深層網路的訓練退化問題：沒有 residual、模型加深會反而變差（不是過擬合、是 gradient 在反向傳播中衰減太多）；有 residual、訓練幾十甚至上百層都穩。

概念位置

Residual connection 在 Transformer block 中出現兩次：

 1Transformer block：
 2 x
 3 ├──────────────┐ ← skip connection（保留原始 x）
 4 ↓ │
 5 LayerNorm │
 6 ↓ │
 7 Self-Attention │
 8 ↓ │
 9 +←─────────────┘ ← residual add：attention output + x
10 │
11 ├──────────────┐ ← skip connection（保留 attention 後的值）
12 ↓ │
13 LayerNorm │
14 ↓ │
15 FFN │
16 ↓ │
17 +←─────────────┘ ← residual add：FFN output + previous
18 ↓
19 進入下一個 block

關鍵性質：

Gradient 可以走捷徑：Backpropagation 時、gradient 能透過 skip connection 直接傳回淺層、避免 chain rule 累積衰減。
Layer 學「殘差」而不是「完整轉換」：每層學「該怎麼微調輸入」、不用學「從零生成輸出」、優化更容易。
跟 LayerNorm 配對：兩者一起是深層 Transformer 訓得起來的基礎。

設計責任

理解 residual connection 後可以判讀 Transformer 能堆幾十層的根本原因（不是因為 attention、是因為 residual + LayerNorm 讓深層仍可訓練）；也能看懂 ResNet、ViT 等其他用 residual 架構的設計。LLM 推論時 residual 不算 bottleneck、但在訓練 / fine-tune 時、residual 是 gradient flow 健康度的關鍵。

RLHF

Tue, 12 May 2026 00:00:00 +0000

RLHF（Reinforcement Learning from Human Feedback、人類反饋強化學習）的核心概念是「讓人類比較兩個模型回答的好壞、訓一個 reward model 學會這個偏好、再用 RL 把 LLM 推往 reward model 給高分的方向」。RLHF 是 LLM 對話品質飛躍的關鍵（從 GPT-3 base 到 ChatGPT 的差別主要是 RLHF）。

概念位置

RLHF 在訓練流程的位置與步驟：

 1[SFT 後的模型]
 2 ↓
 3Step 1：收集人類偏好
 4 對同個 prompt 讓模型生 A、B 兩個 response、人類標「我較喜歡 A」
 5 ↓
 6Step 2：訓 reward model
 7 輸入 (prompt, response)、輸出一個分數
 8 目標：人類偏好的 response 分數高
 9 ↓
10Step 3：用 PPO 等 RL 演算法 fine-tune LLM
11 讓模型輸出讓 reward model 給高分的 response
12 加 [KL constraint](/llm/knowledge-cards/kl-divergence/)：不能偏離 SFT model 太遠
13 ↓
14[Aligned model]：回答更貼近人類偏好

關鍵特性與挑戰：

三個模型同時運作：policy（LLM）、reward model、reference model（SFT 後 frozen 那份）、訓練時記憶體吃緊。
Reward hacking：模型可能找到 reward model 的弱點、生成「reward 高但實質爛」的輸出（如冗長 boilerplate）。
訓練不穩：PPO 對 hyperparameter 敏感、需要小心調 β（KL 約束強度）、learning rate 等。

設計責任

RLHF 是 ChatGPT / Claude / Gemini 等商業 LLM 對話品質的核心。讀 model card 看到「RLHF-tuned」「helpfulness fine-tuning」就是這個階段。DPO 是 2023 年後出現的簡化替代方案、跳過 reward model、直接用偏好資料 fine-tune、訓練流程簡單很多、是現代許多開源模型的主流選擇。

RoPE（Rotary Position Embedding）

Tue, 12 May 2026 00:00:00 +0000

RoPE（Rotary Position Embedding、旋轉位置編碼、Su et al., 2021）的核心概念是「把 token 在序列中的位置資訊用旋轉矩陣直接旋轉進 Q 跟 K 向量裡、不是用加法疊加另一個 embedding」。RoPE 是 Llama、Gemma、Qwen、Mistral 等現代 LLM 的標配、相對早期的 absolute / learned positional embedding 有更好的長 context 推廣性。

概念位置

位置編碼的演化路線：

方法	機制	主要問題
Absolute（原 Transformer）	用 sin/cos 函數產生固定 position embedding、加到 token embedding	訓練長度外推性差
Learned absolute（GPT-2）	每個位置學一個可訓練向量、加到 token embedding	超過訓練長度完全沒對應 embedding
Relative	attention 算分數時加上「相對位置」的 bias	實作複雜、跟 KV cache 兼容性差
RoPE	用旋轉矩陣把位置旋轉進 Q/K（不動 V）	主流、長 context 推廣性好（配 scaling）

RoPE 的核心數學（簡化）：

1傳統：token at position m 的 Q 是 Q_m = x_m @ W_Q
2RoPE：Q_m = R(m) × (x_m @ W_Q) ← R(m) 是依位置 m 決定的旋轉矩陣
3
4attention score = Q_m @ K_n^T
5 = R(m) × q × (R(n) × k)^T
6 = q × R(m - n) × k^T ← 只依賴相對位置 (m-n)！

關鍵性質：RoPE 算出的 attention score 只依賴相對位置、所以推廣到比訓練長度更長的 context 時有自然的數學基礎、配合 RoPE scaling（YaRN、NTK-aware、Position Interpolation）就能把 8K 訓練的模型擴展到 128K / 1M context。

設計責任

讀 model card 看到 rope_theta: 10000、rope_scaling: {type: yarn, factor: 8} 等就是 RoPE 配置。寫 code 場景的意涵：long context 模型（如 Llama 3 128K）的推廣能力主要靠 RoPE + scaling、不是直接訓練 128K 全長；但聲稱 context 跟「實用 context」仍有差距、長 context 上模型表現會逐步衰減。

Sandbox

Tue, 12 May 2026 00:00:00 +0000

Sandbox 的核心概念是「把程式跑在權限受限的隔離環境、限制檔案存取、網路連線、系統呼叫的範圍」。在 LLM 場景下、sandbox 用來控制 tool use 跟 MCP server 的副作用範圍：即使 LLM 被 prompt injection 誘導跑惡意 tool、sandbox 能限制最壞情況的影響面。

概念位置

常見的 sandbox 技術光譜（依隔離強度跟工程成本）：

技術	隔離強度	工程成本	LLM 場景的典型用途
不同 OS user	中（檔案權限）	低	個人 dev 跑 MCP server
Docker container	中高	中	跑第三方 MCP server、隔離 LLM agent
VM / Firecracker / gVisor	高	中高	production 多租戶 LLM agent
chroot / namespace	中	中	限定 filesystem 視角
seccomp / AppArmor / SELinux	高（syscall 層）	高	細粒度限制 syscall
Web Worker / V8 isolate	中（JavaScript 層）	中	LLM 跑 user-provided JavaScript

Sandbox 在 LLM 場景的常見配置：

個人 dev：用獨立 OS user 跑 MCP server、限制檔案存取到 workspace；或用 Docker。
production agent：每個 user / session 一個 ephemeral container、跑完就 destroy。
code execution tool：把 LLM 生成的 code 丟進 sandbox 跑（如 OpenAI Code Interpreter、Anthropic Claude Code Tool）。

設計責任

理解 sandbox 後可以解釋兩個現象：為什麼跑第三方 MCP server 前 sandbox 是基本配置（MCP 是可執行程式碼、權限上限是「跑該 server 的 user 的權限」）、為什麼 production 場景的 code execution tool 必定在 ephemeral sandbox 內跑（避免長期 state 跟跨 user 殘留）。

設計 LLM application 時、sandbox 跟 tool use 的白名單是兩個獨立的防護層、建議都做：白名單擋已知範圍、sandbox 擋未預期的副作用。詳見 6.2 tool use 與 MCP server 的權限模型。

Scaffold vs Harness

Tue, 12 May 2026 00:00:00 +0000

Scaffold 跟 harness 的核心概念是「把 coding agent 拆成『建構時靜態結構』跟『runtime 動態邏輯』兩層」。Scaffold 是建構時就決定的：system prompt 模板、tool schema 註冊、subagent 拓樸；harness 是 runtime 動態運作：tool dispatch、context budget 管理、safety / 中斷、handoff。Claude Code、Cursor、Aider、Codex 這類 coding agent 的內部設計都遵循這個分層。

概念位置

兩層的職責劃分：

 1Scaffold（建構時、static）：
 2  ├── System prompt 模板（角色、約束、輸出格式）
 3  ├── Tool schema 註冊（read_file / write_file / run_bash 等的 spec）
 4  ├── Subagent 拓樸（main agent + 子 agent 的調用關係）
 5  ├── Skill / playbook 註冊
 6  └── 安全 policy（什麼可寫、什麼要 confirm）
 7
 8   ↓ 編譯 / 載入
 9
10Harness（runtime、dynamic）：
11  ├── Tool dispatch（接 LLM tool call、執行、回 result）
12  ├── Context budget 管理（剪裁歷史、塞新內容、不超 25% 規則）
13  ├── Safety / 中斷（confirm UI、permission boundary、可逆性檢查）
14  ├── Error recovery（tool failed → retry / fallback / escalate）
15  └── Telemetry（trace / metrics / cost）

跟既有概念的關係：

概念	跟 scaffold / harness 的關係
System prompt	Scaffold 的核心元件、定義 agent 角色
Tool use	Scaffold 註冊 tool spec、Harness 在 runtime dispatch
Agent loop	Harness 的核心 loop（perceive / reason / act / observe / terminate）
Function calling	Tool spec 的具體 protocol

設計責任

讀 coding agent paper / blog 看到「scaffold」「harness」「context engineering」就是這 framing。寫 code 場景的判讀：

看新 coding agent 時、分兩層拆解：scaffold（system prompt、tool list、subagent 結構）是「設計做了什麼」、harness（context 怎麼裁、tool 怎麼 dispatch、安全怎麼擋）是「runtime 怎麼跑」
修改 / 客製 agent 時、看你動的是哪層：改 system prompt = 動 scaffold；改 tool 執行邏輯 = 動 harness
跟 4.17 coding-agent harness 的關係：本卡是定義、4.12 是 coding 場景的工程實務（context budget、scaffold 模式、harness pattern）

Self-Attention

Tue, 12 May 2026 00:00:00 +0000

Self-attention 的核心概念是「Query / Key / Value 三組向量都從同一個 sequence 投影出來的 attention」。對比下、cross-attention 的 Q 來自一個 sequence、K/V 來自另一個 sequence（如 encoder-decoder 的 decoder 看 encoder）。LLM（decoder-only）每層都是 self-attention、self-attention 是 Transformer 「讓每個 token 看到序列其他 token」的機制本身。

概念位置

Self-attention 的計算步驟：

 1輸入 sequence: x_1, x_2, ..., x_n（每個是向量）
 2
 3對每個 token i：
 4 Q_i = x_i × W_Q ← Query：「我要找什麼樣的資訊」
 5 K_i = x_i × W_K ← Key：「我提供什麼樣的資訊」
 6 V_i = x_i × W_V ← Value：「我的實際內容」
 7
 8attention(Q_i, K, V) = softmax(Q_i · K^T / √d) · V
 9 └─ Q 跟所有 K 算分數、決定權重 ─┘
10 └─ 加權平均所有 V ─┘

關鍵特性：

Q / K / V 來源相同：跟 cross-attention 區分；都從同一個輸入 sequence 投影。
每個 token 都跟所有 token 算一次：複雜度 O(n²)、是 long context 痛點根源。
Causal mask 在 self-attention 內生效：LLM 的 decoder-only self-attention 加 causal mask、token i 只能看 1~i、不能看 i+1 以後（不能偷看未來）。

設計責任

理解 self-attention 後可以判讀幾件 LLM 設計事：KV cache 為什麼有效（自回歸生成時、過去 token 的 K/V 不變、存下來下次直接用）；MHA / GQA / MLA 等變體在動什麼（共享 / 壓縮 K/V 投影、不動 Q）；為什麼長 context 推論慢（self-attention 的 O(n²) 計算）。

SentencePiece

Tue, 12 May 2026 00:00:00 +0000

SentencePiece（Kudo & Richardson, 2018）的核心概念是「Google 開源的 tokenization 框架、把『空白也當一個字元』處理、原生支援 BPE 跟 unigram 兩種演算法」。Llama、Gemma、Mistral、T5 等模型用 SentencePiece 作為 tokenizer 實作；它的 multilingual 友善度跟「不依賴語言預處理」是被選擇的主因。

概念位置

SentencePiece 跟其他 tokenization 路線的對比：

框架 / 路線	機制	處理多語言 / 空白	出現在
WordPiece	類似 BPE、Google 早期方案	需語言預處理（如英文 lowercase）	BERT、DistilBERT
SentencePiece BPE	BPE 演算法、空白當特殊字符 `▁` 處理	統一處理、不需語言預設	Llama、Gemma、Mistral
SentencePiece Unigram	機率模型、選一組讓 corpus likelihood 最大的子詞	同上、機率視角	T5、XLNet、ALBERT
tiktoken（OpenAI）	Byte-level BPE	統一處理	GPT-3.5、GPT-4、GPT-5

關鍵特性：

▁ 表示空白：SentencePiece 把空白編碼成 ▁（Unicode U+2581）、所以「Hello world」會被 tokenize 成 ["Hello", "▁world"]、保留空白資訊在 token 內。
不依賴語言預處理：傳統 NLP 要先做 lowercasing、word segmentation；SentencePiece 直接從 raw bytes 開始學、跨語言通用。
原生 multilingual：訓練 corpus 包含多語言時、tokenizer 自動學會跨語言的子詞單元、不需要為每種語言設定不同 tokenizer。

設計責任

讀 model card / repo 看到 tokenizer.model 檔案（不是 tokenizer.json 或 vocab.txt）就是 SentencePiece 用的 protobuf 格式。寫 code 場景的意涵：SentencePiece tokenizer 在中文 / 多語言任務上比 WordPiece 友好；換 tokenizer 等於整個 embedding layer 失效、所以 fine-tune 時不會動 tokenizer。

SFT（Supervised Fine-Tuning）

Tue, 12 May 2026 00:00:00 +0000

SFT（Supervised Fine-Tuning、指令微調）的核心概念是「在 base model 上、用人類示範的『指令-回答』成對資料做監督式 fine-tune、讓模型從『接龍』變成『跟指令走』」。SFT 是 pre-training 跟 alignment（RLHF / DPO）之間的橋。

概念位置

SFT 在訓練 pipeline 的位置與資料形態：

1資料格式（典型）：
2 {"instruction": "寫一個 Python fibonacci",
3 "response": "def fib(n): ..."}
4
5訓練：
6 把 instruction + response 連起來、跑跟 pre-training 一樣的 next-token prediction
7 但 loss 只算 response token 上的 cross-entropy（instruction 部分不算）

SFT 後同一個模型行為大改：

問同樣問題「寫一個 Python fibonacci」	Base model（pre-training 後）	Instruction-tuned model（SFT 後）
行為	純文字接龍：「寫一個 Python fibonacci。寫一個 JavaScript fibonacci。寫一個 Rust…」	直接給出 fibonacci 函式實作

關鍵特性：

資料量遠小於 pre-training：幾萬到幾百萬筆指令-回答對、相對 pre-training 的兆級 token 是小數字。
訓練成本相對低：通常幾百到幾千 GPU-hour、可在單機完成。
容易過擬合 / 災難遺忘：SFT 資料太少 / 太特化時、模型可能丟掉 pre-training 學到的能力、見 LoRA 的設計動機。

設計責任

讀 model card 看到「instruct」「chat」「-it」「sft」等 suffix、就是經過 SFT 的版本。寫 code 場景用的模型幾乎都是 SFT 後的（base model 對話能力差、實用度低）。Coding-tuned 模型（如 Qwen3-Coder）是 SFT 階段大量加入 code 對話資料的特化版本、跟通用 instruct 模型在 code 任務上有可觀差距。

SGD

Tue, 12 May 2026 00:00:00 +0000

SGD（Stochastic Gradient Descent、隨機梯度下降）的核心概念是「每次只用一小批資料（mini-batch）算 gradient、更新權重」。對比的是 vanilla gradient descent（用全部資料算一次 gradient）：full-batch 在 trillion-token 級資料下完全不可行、SGD 用 mini-batch 把記憶體跟計算成本拉到可行範圍。

概念位置

SGD 的更新公式：

1W_new = W_old - learning_rate × gradient_of_loss_on_minibatch

跟其他 optimizer 的對比：

Optimizer	更新規則	特性
SGD	`W -= lr × g`	簡單、慢、容易卡 local minimum
SGD + Momentum	加速度項：`v = μv + g; W -= lr × v`	衝過 saddle point、收斂較穩
Adam / AdamW	對每個參數自適應 lr、用 gradient 的 EMA 跟二階矩	對 lr 較不敏感、LLM 訓練主流

LLM 訓練幾乎都用 Adam / AdamW、不是純 SGD。但 SGD 仍出現在：

小模型 / 簡單任務：fine-tune 小 vision 模型、SGD + momentum 仍是合理選擇。
理論分析 / 教學：SGD 是最簡單的 optimizer、用來解釋 gradient descent 概念。
某些 fine-tuning 場景：LoRA 或 SFT 偶爾用 SGD（避免 Adam 改變 base model 太多）。

設計責任

讀 paper / training script 看到 optimizer 選擇、SGD 是基線、其他 optimizer 通常是「對 SGD 的改進」。寫 code 場景的判讀：訓練自己的小模型可以從 SGD + momentum 開始；fine-tune 大 LLM 沒理由不用 AdamW。

Shell 背景 Process

Tue, 12 May 2026 00:00:00 +0000

Shell 背景 Process 的核心概念是「terminal 啟動的程式何時跟 shell 綁定、何時可以脫離、被 shell 用什麼方式管理」。本地 LLM 場景中、ollama serve 這類常駐 server 需要持續跑、放前景會把 terminal 卡住、放背景才能繼續打其他指令、或關掉 terminal 後讓服務改交給 launchd service 接手。

概念位置

Shell（zsh / bash）執行一個程式時、預設讓程式佔住 terminal、stdin / stdout / stderr 直接連到使用者眼前的視窗、稱為前景 process。指令尾巴加 & 改成背景 process、shell 立刻拿回 prompt 控制權、程式繼續跑但不佔住 terminal。背景 process 仍綁在當前 shell session、關掉 terminal 視窗時通常會被 SIGHUP 終止；要完全脫離 shell 生命週期、得改用 launchd service 或 nohup / disown 等機制。

可觀察訊號與例子

shell 控制 process 的關鍵操作：

動作	指令 / 按鍵	效果
前景跑	`ollama serve`	terminal 被卡住、看到 process stdout
背景跑	`ollama serve &`	拿回 prompt、程式仍在跑
中止前景 process	`Ctrl+C`	送 SIGINT、多數程式收到後優雅退出
暫停前景 process	`Ctrl+Z`	送 SIGTSTP、process 進 stopped 狀態
列出當前 shell jobs	`jobs`	看 shell 管理的背景 / 暫停 job
把 job 拉回前景	`fg %1`	1 號 job 變前景
把暫停 job 改背景	`bg %1`	1 號 job 改背景繼續跑

排錯常用的兩個工具（兩者跟 shell job 不直接相關、是 macOS 系統工具）：

指令	用途
`lsof -i :11434`	找出哪個 process 在聽 11434 port
`pkill -f "ollama serve"`	用 pattern 匹配 process 命令列、送 SIGTERM 終止
`ps aux \| grep ollama`	列出所有跟 ollama 有關的 process

對 macOS 新手最常遇到的兩個事故：一個是「前景跑 server 後不知道怎麼脫身」、解法是 Ctrl+Z 暫停 + bg 改背景、或下次改用 & 啟動；另一個是「pkill 沒指定夠精確的 pattern、誤殺其他 process」、解法是先用 ps aux 加 grep 確認 PID 再 kill。

設計責任

選前景 vs 背景的判讀：debug 場景前景跑、能直接看到 log；日常使用改 launchd service 跑、跟 shell session 完全脫鉤。& 適合「terminal 開著就讓它跑、關掉也沒關係」的臨時場景、不適合需要長期穩定的服務。排錯時養成「先 lsof 找誰佔資源、再 ps 確認身分、最後才 kill」的順序、避免誤殺。

Softmax

Tue, 12 May 2026 00:00:00 +0000

Softmax 的核心概念是「把一串實數轉成機率分佈」。公式是 softmax(x_i) = exp(x_i) / sum(exp(x_j))、輸出總和為 1、每個值 ∈ [0, 1]。它是 LLM 兩個關鍵環節的常駐元件：attention 的權重計算、跟 sampling 階段把 logit 轉成「下個 token 的機率分佈」。

概念位置

LLM 中 softmax 出現的兩個位置：

1位置 1：Attention 內部
2 Q · K^T → 一堆 score
3 softmax(scores) → attention weight（總和 1）
4 weight · V → output
5
6位置 2：每次 token 生成的最後一步
7 最後一層 hidden → logit（每個 vocab token 一個實數分數）
8 softmax(logits / temperature) → 機率分佈
9 從這個分佈 sample 出下一個 token

兩個位置的關鍵差異：

位置	softmax 的作用	影響
Attention	把 attention score 正規化成「該關注多少」	影響模型怎麼整合 context 資訊
Sampling 端	把 logit 變機率、配合 temperature 調分佈陡度	影響輸出的多樣性 / 確定性

Temperature 在 sampling 端跟 softmax 結合：softmax(logits / T)、T 越小分佈越尖（接近 greedy）、T 越大分佈越平（接近隨機）。

設計責任

理解 softmax 後可以判讀幾件事：temperature 為什麼影響輸出多樣性（改的是 softmax 前的縮放）、為什麼 logit bias / logit warping 等技巧能控制輸出（直接動 softmax 的輸入）、為什麼 structured output 的 grammar-constrained sampling 是「把不合法 token 的機率歸零」（在 softmax 後或前做 masking）。

Special Tokens

Tue, 12 May 2026 00:00:00 +0000

Special tokens（特殊 token）的核心概念是「在 vocab 中保留給控制 / 邊界 / 結構用途的 token」、不是正常字面意義的詞。常見如 <bos>（begin of sequence）、<eos>（end of sequence）、<pad>（padding）、<|user|>、<|assistant|>、<|tool_call|> 等。

概念位置

LLM 中 special tokens 的常見類型：

Token	用途	範例
`<bos>` / `<s>`	序列開頭	Llama、Mistral
`<eos>` / `</s>`	序列結尾、模型輸出這個就停	所有 LLM
`<pad>`	把 batch 內不同長度 sequence 填齊	訓練 / batched 推論時用
`<unk>`	遇到 vocab 外的 token（byte-level BPE 已不需要）	早期 tokenizer
`<\|user\|>` / `<\|assistant\|>`	Chat template 角色標記	Llama 3 chat、Qwen chat
`<\|im_start\|>` / `<\|im_end\|>`	ChatML 格式的對話邊界	OpenAI、Qwen 系列
`<\|tool_call\|>` / `<\|tool_response\|>`	Tool use / function calling 訊號	Llama 3.1+ 等支援 tool use 的模型
`<think>` / `</think>`	Chain-of-thought 標記	DeepSeek-R1、O1 風格模型

關鍵特性：

訓練時用特殊 token ID 標記：模型透過大量範例學會「看到 <\|user\|> 後面是使用者輸入、看到 <\|assistant\|> 後面要生成回答」。
Chat template 把這些組合起來：把使用者輸入 + 系統 prompt + 對話歷史依特定格式插入這些 token、組成模型訓練時看過的格式。
<eos> 的 sampling 行為：模型輸出 <eos> 後、推論伺服器停止生成、所以「為什麼回答突然停了」很多時候就是模型決定發 EOS。

設計責任

讀 tokenizer config（tokenizer_config.json）看到 bos_token、eos_token、chat_template 等就是這組設定。寫 code 場景的判讀：用 Continue.dev / Ollama 時、伺服器會自動套用模型的 chat template、把使用者輸入轉成正確的 special tokens 格式；自己寫 inference code 時、要呼叫 tokenizer.apply_chat_template() 避免格式錯亂導致模型輸出爛。

Subagent

Tue, 12 May 2026 00:00:00 +0000

Subagent 的核心概念是「把 coding agent 切成多個專責子 agent、每個有獨立 context window 跟 system prompt、由 main agent 透過 handoff 機制調度」。代表設計：Claude Code 的 Task agent、OpenAI Agents SDK 的 handoff、Anthropic multi-agent research。是「context budget 不夠 + 任務跨多個 specialty」場景的工程選擇。

概念位置

Single agent vs subagent 架構的對比：

 1Single agent（無 subagent）：
 2 Main agent context：
 3 [system prompt + tool schema + 跨所有 specialty 的 history + 所有 file content]
 4 ↓ 容易爆 context、specialty 互相干擾
 5
 6Subagent 架構：
 7 Main agent context（路由 + 高階決策）：
 8 [main system prompt + handoff tool spec + 高階任務歷史]
 9 ↓ 路由到 subagent
10
11 Subagent A context（如「跑測試」專家）：
12 [test-runner system prompt + 測試 tool + 測試相關 file]
13
14 Subagent B context（如「寫 docs」專家）：
15 [docs system prompt + 寫 docs tool + 相關 docs 檔案]

主要好處：

Context budget 隔離：每個 subagent 只看自己 specialty 相關 context、不被別的 specialty 污染
System prompt 專門化：寫 docs 的 system prompt 跟跑測試的 system prompt 不同、各自最佳化
Specialty 路由：main agent 只決定「這個任務該交給哪個 subagent」、不直接做 specialty 工作

主要挑戰：

Handoff 設計：main agent 要怎麼選 subagent、怎麼傳 context、怎麼接 result
跨 subagent 共享狀態：codebase 知識、history、要避免重複 work
失敗模式：subagent 之間互相 deadlock、main agent 失去 high-level view、subagent 邊界劃錯

設計責任

讀 multi-agent / subagent paper / coding agent docs 看到「subagent」「handoff」「Task tool」「specialist agent」就是這 framing。寫 code 場景的判讀：

何時用 subagent：單一 agent context 不夠用、specialty 邊界清楚（如 search / coding / testing / documentation）、main agent 的 system prompt 已太長
何時不用：任務簡單、specialty 邊界模糊（強行拆會增加 handoff overhead）、本地小模型（handoff 機制對小模型不穩）
跟 agent loop 的關係：每個 subagent 內部仍是 agent loop（perceive / reason / act / observe / terminate）、只是 loop 範圍縮窄
跟 scaffold vs harness 的關係：subagent 註冊在 scaffold（建構時）、handoff 在 harness（runtime）執行

System Prompt

Tue, 12 May 2026 00:00:00 +0000

System prompt 的核心概念是「LLM application 中、由開發者預設、放在每次 conversation 最前面、不直接顯示給使用者的指令層」。常見用途包括設定模型角色（如「你是 senior Python engineer」）、規範輸出格式（如「always return JSON」）、加入 safety guideline。Chat-based LLM API（OpenAI、Anthropic 等）通常有專門的 role: "system" message type。

概念位置

LLM API call 的訊息結構：

1messages = [
2 {role: "system", content: "你是專業 code reviewer..."}, ← system prompt
3 {role: "user", content: "請 review 這段 code: ..."},
4 {role: "assistant", content: "..."}, ← 模型回答
5 {role: "user", content: "..."}, ← 後續對話
6 ...
7]

System prompt 在 application 設計中的角色：

用途	例子
角色定義	“你是 senior Python engineer、專長 async / typing”
輸出格式約束	“always return JSON with keys: title, body, tags”
行為規範	“若不確定、明確說『我不知道』、不要編造”
工具使用指引	“When user asks about weather, call get_weather tool”
安全約束	“Do not generate executable shell commands”
上下文注入	“Current date: 2026-05-12; User language: zh-TW”

事實查核註：不同 LLM vendor 對 system prompt 的處理機制不同（如部分模型把 system 跟 user 視為相同優先級、部分模型有特殊訓練讓 system 較高優先）、具體行為以該模型的官方文件為準。

設計責任

理解 system prompt 後可以解釋兩個現象：為什麼同一個模型在不同 LLM 應用中的「個性」差很多（system prompt 不同）、為什麼 prompt injection 的主要目標是繞過 system prompt 的約束（攻擊者想讓模型不照原本指令走）。

實務上、設計 LLM application 時、system prompt 是行為約束的第一層、但不是唯一防線（容易被 injection 繞過）；critical 行為應該在 application 層（如 tool call 的權限白名單、輸出驗證）加第二層防護。詳見 6.3 IDE 場景的 prompt injection。

Tensor

Tue, 12 May 2026 00:00:00 +0000

Tensor（張量）的核心概念是「N 維陣列」。Scalar 是 0D tensor、vector 是 1D、matrix 是 2D、再往上加維度就是 3D、4D。PyTorch、MLX、JAX、TensorFlow 等所有深度學習 framework 的核心型別都叫 Tensor、所有 LLM 內部運算（matrix multiplication、softmax、layer norm 等）都對 tensor 做。

概念位置

LLM 中常見的 tensor 維度：

維度	shape	意義	出現在
1D	`(vocab_size,)`	一個 token 位置的 logit 向量	Output layer 輸出
2D	`(seq_len, hidden_dim)`	一個 sequence 的 hidden state	每個 Transformer block 內部
3D	`(batch_size, seq_len, hidden_dim)`	一個 batch 的多個 sequence	Batched 推論 / 訓練
4D	`(batch_size, num_heads, seq_len, head_dim)`	Multi-head attention 的並行結構	Self-attention 內部
5D+	`(batch, heads, seq, head_dim, ...)`	罕見、特殊架構	MoE expert dispatch、特殊 attention

關鍵運算：

Reshape：改 shape 但不變資料總量、如 (batch, seq, hidden) → (batch * seq, hidden)。
Transpose / permute：交換維度順序、attention 計算前後常用。
Broadcasting：不同 shape 的 tensor 自動擴展配對、如 (seq, hidden) + (hidden,)。
Indexing / slicing：抽出子 tensor、如 tensor[:, -1, :] 取最後一個 token 的 hidden。

設計責任

讀 PyTorch / MLX 推論 / 訓練 code 看到 torch.Tensor、mx.array、tf.Tensor 等就是這個型別、所有 LLM 運算都建在它上面。寫 code 場景的判讀：報錯訊息看到 shape mismatch / size of dimension X 通常是 tensor 維度配錯；KV cache 內部存的就是 4D tensor (num_layers, 2, batch, num_kv_heads, seq, head_dim) 之類的結構、量化 KV cache 就是改這個 tensor 的 dtype。

Test-Time Compute

Tue, 12 May 2026 00:00:00 +0000

Test-time compute（推論時計算）的核心概念是「在推論階段花更多計算量、換取更高品質的答案」、不是只在訓練時投入算力。是 2024-2026 LLM 的 paradigm shift：GPT-3 → GPT-4 主要靠「更大模型 + 更多訓練資料」；o1 / DeepSeek-R1 → 主要靠「同模型、推論時想更久」。

概念位置

LLM 算力分配的兩條軸：

 1Training compute（訓練算力）：
 2 pre-training 大量 GPU-hour → 模型參數
 3 一次性投入、後續推論不變
 4 → GPT-3 → 4 的主要 paradigm
 5
 6Test-time compute（推論算力）：
 7 每次推論時、視任務難度動態增加算力
 8 難題想 30 秒（生 5000 token reasoning trace）
 9 簡單問題 1 秒結束（直接答）
10 → o1 / R1 / Claude thinking 的新 paradigm

Test-time compute 的常見實作形式：

形式	機制	代表
Chain-of-thought 內建	模型訓練成「自然」用長 reasoning trace、直接生 thinking + answer	o1、DeepSeek-R1、Qwen-QwQ、Claude thinking
Best-of-N sampling	同 prompt 跑 N 次、reward model 選最好的	OpenAI early experiments、verifier-based
Tree search	結構化探索多條 reasoning path	AlphaCode、tree of thoughts
Self-consistency	多次 sample reasoning、投票選最常見答案	早期 CoT prompting 技巧
Tool use + verification	模型呼叫 calculator / interpreter 驗證自己	Coding agent、math 解題 agent

DeepSeek-R1 paper 顯示「reasoning trace 長度跟 benchmark 表現正相關、可透過 RL 拉長」— 把 test-time compute 變成可訓練、可 scale 的維度。

設計責任

讀 paper / benchmark 看到「pass@1 vs pass@10」「budget tokens」「thinking time」等就跟 test-time compute 相關。寫 code 場景的判讀：

Reasoning model 算成本翻倍：同一個 prompt、reasoning model 生 5000 token thinking + 500 token answer、傳統 model 直接生 500 token answer、推論成本差 ~10 倍
本地跑 reasoning model 的痛點：需要長 context window 容納 thinking trace、生成時間長
適用任務挑選：複雜 reasoning（math、debug、long horizon planning）值得花 test-time compute；簡單任務（autocomplete、查詢）不值得
混用策略：日常用 instruct model、困難任務切到 reasoning model、是個人 dev 常見模式

Tool Use

Tue, 12 May 2026 00:00:00 +0000

Tool use 的核心概念是「LLM 不只生成文字、還能透過結構化呼叫外部工具來執行讀檔、查資料庫、發 API request、跑程式等動作」。它擴展 LLM 從「對話模型」變成「能影響真實世界的 agent」。實作上常見透過 function calling 或 MCP 協定。

概念位置

Tool use 的典型流程：

11. 開發者定義 tools（每個 tool 含 name、description、parameters schema）
22. LLM 收到 user message 跟 tools 清單
33. LLM 決定要呼叫哪個 tool、生成結構化 tool call（JSON）
44. LLM client（不是模型本身）執行 tool call、得到結果
55. tool 結果回灌進 conversation、模型基於結果繼續生成或再呼叫

關鍵特性：

模型本身不執行 tool：模型只生成 tool call JSON、實際執行由 client 或 MCP server 完成。
權限由 OS / user / sandbox 決定：模型再「同意」執行 rm -rf /、實際能不能跑取決於跑 tool 的 process 權限。
副作用範圍跟 tool 設計強相關：tool 寫得越通用（如 run_shell）、攻擊面越大；tool 寫得越窄（如 read_workspace_file）、攻擊面越小。

Tool use 跟 function calling、MCP 的關係：

層次	角色
Tool use（概念）	廣義概念、LLM 能呼叫工具
Function calling	OpenAI 提出的 API 規範、用 JSON schema 定義 function
MCP	Anthropic 推動的開放協議、定義 LLM client 跟 tool server 之間的通訊格式

設計責任

理解 tool use 後可以解釋三個現象：為什麼 LLM 「能跑 shell」其實是 client 跑、不是模型跑（職責切分）、為什麼 tool spec 設計直接影響攻擊面（spec 越鬆、injection 後果越大）、為什麼 agent loop 比單次 tool call 危險（多步 tool use 中 injection 累積）。

設計 tool 跟 MCP server 時、權限白名單 + 副作用可逆性 + confirm 機制是基本配置；production 場景見 LLM Agent Prompt Injection 後果治理跟 6.2 tool use 與 MCP server 的權限模型。

Top-K / Top-P / Min-P Sampling

Tue, 12 May 2026 00:00:00 +0000

Top-K、Top-P（nucleus sampling）、Min-P 的核心概念是「從 softmax 出來的機率分佈中、先過濾掉低機率 token、再從剩餘候選隨機取樣」。三者是 LLM 對話 / 寫 code 場景的主流 sampling 策略、跟 greedy 對比保留隨機多樣性、跟 beam search 對比計算成本低。

概念位置

三種策略的篩選方式：

策略	機制	直覺
Top-K	只保留機率前 K 個 token、其餘設 0	固定候選數量、簡單
Top-P	把 token 依機率排序、保留「累積機率達到 P」的最小集合	動態候選數量、適應分佈尖銳度
Min-P	只保留機率 ≥ (P × max_probability) 的 token	相對閾值、避免低品質 token

範例（vocab 前 10 個 token 的機率）：

1token: A B C D E F G H I J
2prob: 0.45 0.30 0.12 0.05 0.03 0.02 0.01 0.01 0.005 0.005
3
4Top-K=3：保留 A、B、C（前 3 個）
5Top-P=0.9：累積機率達 0.9、保留 A、B、C、D（0.45+0.30+0.12+0.05 = 0.92）
6Min-P=0.1：max=0.45、閾值=0.045、保留 A、B、C、D（≥ 0.045）

三者實務上常組合使用（如 top_k=40, top_p=0.9, temperature=0.7）、各自處理不同形狀的分佈。

參數情境	適合策略
分佈非常尖（模型很確定）	Top-P / Min-P 動態縮小、Top-K 可能太大
分佈平（模型不確定）	Top-K 限制最大候選、避免取到極低品質 token
寫 code / 嚴謹任務	低 temperature (0.2 ~ 0.5) + 較緊的 Top-P (0.8 ~ 0.9)
創意 / 多樣寫作	高 temperature (0.7 ~ 1.0) + 寬鬆的 Top-P (0.95+)

設計責任

讀 inference config / Continue.dev 設定看到 top_k、top_p、min_p、temperature 就是這組參數。寫 code 場景的判讀：嚴謹任務（code generation、structured output）用低 temperature + 緊 Top-P 取「最可能對的少數 token」；創意 / 對話用高 temperature + 寬 Top-P 取多樣性。Min-P 是 2023 後流行的新策略、實務上比 Top-P 更穩、避免「分佈很尖時 Top-P 仍納入長尾低品質 token」的問題。

Vector Database

Tue, 12 May 2026 00:00:00 +0000

Vector Database 的核心概念是「為高維向量設計的儲存系統 + 近似最近鄰 (Approximate Nearest Neighbor, ANN) 檢索引擎」。是 RAG 系統從 prototype 跨到 production 的關鍵元件——當 embedding index 大到記憶體裝不下、或並發 query 量超過單機處理能力、就要從 pickle / in-memory 升級到 vector DB。

概念位置

Vector DB 跟傳統 SQL / NoSQL database 並列、但專精「向量相似度搜尋」這個操作。它不取代傳統 DB——通常 LLM 應用是兩者並用：傳統 DB 存結構化資料（user / metadata）、vector DB 存 embedding + chunk text。實作上、近期主流是「向量加進去現有 DB」（如 Postgres 的 pgvector extension）或「專用服務」（如 Pinecone、Weaviate、Qdrant）。

可觀察訊號與例子

主流選擇分類：

類別	例子	適合
Hosted SaaS	Pinecone、Weaviate Cloud、Qdrant Cloud	不想 maintain、流量大
Self-host service	Weaviate、Qdrant、Milvus	內部部署、控制 cost
Embedded library	FAISS、HNSWLib、Annoy	嵌進應用、單機規模
DB extension	pgvector、SQLite + vec	已有 SQL DB、加 vector 能力

關鍵 ANN 演算法：

HNSW（Hierarchical Navigable Small World）：主流、sublinear 查詢、犧牲少許精度
IVF（Inverted File Index）：分組索引、適合超大規模
Flat（exhaustive search）：精確但 O(n)、小資料集 OK

scale 對照（基於 4.9 production 跟 RAG/MCP resources 章節）：

Corpus 規模	適合
< 10K chunks	Python pickle / in-memory list（本 blog demo）
10K-100K	FAISS / embedded library
100K-10M	Self-host vector DB
> 10M	Hosted SaaS 或分散式 cluster

設計責任

選 vector DB 之前回答四個問題：

Corpus 規模：決定 hosted vs self-host 取捨。
Update 頻率：每天一次（適合 batch rebuild）vs 即時（要 incremental update 支援）。
Latency 目標：< 50ms 要 in-memory HNSW、可接受 200ms 用 disk-based。
Hybrid search 需求：純向量 vs 向量 + filter（如「embedding 相似 + tag = code」），影響 schema 設計。

衍生產物管理上、vector DB 屬於 external 類別——index content 不進 git、用 manifest（如 schema definition + ingest script + version tag）描述。Build pipeline 從 source corpus 自動 rebuild。

不適合 vector DB 的情境：knowledge 高度結構化（直接 SQL）、corpus 小（pickle 就好）、單次 retrieval（off-line 跑、不開 server）。

Storage 升級判讀（什麼規模該從 in-memory 升級到 vector DB）、index 生命週期、dependency 約束的工程分析見 4.22 RAG storage 工程。

Vector Norm

Tue, 12 May 2026 00:00:00 +0000

Vector norm（向量範數）的核心概念是「衡量向量「大小」的純量值」。最常用的 L2 norm（歐式長度）= 把每個分量平方加總再開根號；但 L1、L∞ 等其他 norm 也在不同場景出現。Norm 在 LLM 中支撐 cosine similarity、layer normalization、gradient clipping 等核心機制。

概念位置

主流 norm 的定義與用途：

Norm	定義	LLM 中的用途
L1（Manhattan）	`sum(	v_i	)`	L1 regularization、稀疏化
L2（Euclidean）	`sqrt(sum(v_i²))`	預設「向量長度」、cosine similarity 的分母
L∞（max）	`max(	v_i	)`	Gradient clipping by max value、某些 attention scaling

L2 norm 在 LLM 中的關鍵應用：

Cosine similarity：cos(a, b) = (a · b) / (||a||₂ × ||b||₂)、衡量兩個向量的方向相似度、是 RAG / semantic search 的核心指標。
Embedding model 正規化：通常把 embedding 正規化到 L2 norm = 1、之後 cosine similarity 退化成單純內積（dot product）、計算更快。
Gradient clipping：訓練時若 gradient 的 L2 norm 超過閾值（如 1.0）、整體縮放回去、避免 explosion。
Layer normalization：RMSNorm 用 L2 norm（root mean square）做正規化。

設計責任

讀 RAG / embedding 教學看到「normalize embeddings」「cosine similarity」就是 L2 相關運算。寫 code 場景的判讀：用 vector database 時、若 embedding 已 L2-normalized、距離指標選 dot product 比 cosine 快（結果相同）；訓練 / fine-tune 自己 model 時、gradient_clip: 1.0 是常見預設、防止 gradient 偶發爆炸。

Vision Encoder

Tue, 12 May 2026 00:00:00 +0000

Vision encoder（視覺編碼器）的核心概念是「VLM 內部把圖片轉成向量序列的模組」。主流做法是「把圖片切成 patch、每個 patch 過 ViT（Vision Transformer）變一個向量」、再進入 LLM 的 Transformer 層。Vision encoder 通常用 CLIP 預訓練的權重起始、再跟 LLM 一起 fine-tune。

概念位置

Vision encoder 在 VLM 中的位置：

1Input image（如 1024×1024 RGB）
2 ↓ 切 patch（如 14×14 patch、每張圖 ~5000 個 patch）
3 ↓ Vision encoder（ViT 或 CLIP image encoder）
4Image feature vectors（每個 patch 對應一個 768/1024 維向量）
5 ↓ Projection layer（vision dim → LLM hidden dim）
6[Image tokens](/llm/knowledge-cards/image-token/)（變成 LLM 可吃的「視覺 token」）
7 ↓
8跟 text token 混合 → Transformer → output token

主流 vision encoder 設計：

設計	機制	代表 VLM
CLIP ViT-L/14（或變體）	OpenAI CLIP 的 image encoder 直接用	LLaVA-1.5、Qwen2-VL、Pixtral
SigLIP	Google 的 sigmoid-loss CLIP 變體、訓得更穩	Gemma 3 Vision、Idefics2
自訓 / 多解析度 ViT	從頭訓、支援動態解析度（不固定 224×224）	Qwen2.5-VL、GPT-4V
Native multimodal（單一網路）	圖跟文字共用 Transformer、不分開 encoder	Chameleon（Meta 研究）

Vision encoder 的關鍵設計取捨：

解析度：固定（224×224 / 336×336）vs 動態（依輸入圖大小）
參數量：vision encoder 0.3B-1B 是主流；太小辨識能力差、太大拖累整體推論速度
Pretrain 來源：用 CLIP / SigLIP 預訓練的權重起始、加上 multimodal fine-tune；少數從頭訓
跟 LLM 結合方式：見 multimodal fusion 卡

設計責任

讀 VLM model card 看到「vision tower」「ViT backbone」「image encoder」就是這部分。寫 code 場景的判讀：

解析度影響細節辨識：低解析度（224）對「截圖中的小字 / 細邊框」可能模糊、看不清；高解析度（1024+）能看清楚但 token 用量大
Token 用量估算：一張 1024×1024 圖經過 vision encoder 後、產出 ~500-2500 image tokens（依設計）、相當於一段中等長度的文字 prompt
動態解析度模型更實用：Qwen2.5-VL / GPT-4V 等支援動態解析度、不會把高清截圖縮成 224 失去細節
Vision encoder 不能單獨 fine-tune：通常跟 LLM 一起訓、單獨換 vision encoder 會破壞 alignment

VLM（Vision-Language Model）

Tue, 12 May 2026 00:00:00 +0000

VLM（Vision-Language Model、視覺語言模型）的核心概念是「同時接受圖片 + 文字輸入、產生文字輸出的 LLM 變體」。內部結構是「vision encoder 把圖片轉成 image token、跟文字 token 一起進 Transformer」。寫 code 場景的 VLM 用途：看截圖 debug、看 mockup 寫前端 code、看 architecture 白板照片寫文件。

概念位置

VLM 跟純文字 LLM 的差異：

1純文字 LLM：
2  text → tokenizer → token IDs → embedding → Transformer → output token
3
4VLM：
5  text → tokenizer → text token IDs ─┐
6                                     ├→ 統一 token sequence → Transformer → output token
7  image → vision encoder → image tokens ─┘

主流 VLM family（2026/5）：

Family	商業 / 開源	本地可跑	Coding 場景強項
GPT-4o / GPT-5 vision	商業 API	不可	截圖理解、OCR、UI 推理
Claude 3.7 / 4 Sonnet vision	商業 API	不可	截圖 debug、code from mockup
Gemini 2.5 Pro vision	商業 API	不可	長視訊 / 多張圖
Qwen2.5-VL / Qwen3-VL	開源	7B / 32B / 72B 可本地	中英 OCR、UI 元素辨識
Llama 3.2 Vision	開源	11B / 90B	通用 vision、英文場景
Gemma 3 Vision	開源	4B / 12B / 27B	多語、輕量本地
LLaVA / InternVL / Pixtral	開源	7B-34B	研究 / 特定 use case

事實查核註：主流 VLM family、本地可跑狀態、coding 場景強項在 2026/5 是估計、依模型更新跟推論伺服器支援度持續變化、引用前以對應 model card 跟 Hugging Face leaderboard 為準。

設計責任

讀 model card 看到「vision」「VL」「multimodal」「-VL」「visual」就是 VLM。寫 code 場景的判讀：

任務適合用 vision 才用：純文字描述夠清楚就別塞圖、image token 多、context 跟推論成本上升
本地跑 VLM 比純文字 LLM 吃資源：vision encoder 通常 0.3-1B 參數、image 處理階段算力需求大、TTFT 變長
OCR-heavy 任務不一定要 VLM：純 OCR（識別截圖中文字）用專門 OCR 工具（Tesseract / PaddleOCR）可能更穩、VLM 強項在「理解圖 + 推理」
影片不是免費：「VLM 看影片」本質是抽 frames 變多張圖、token 用量爆炸、效益看任務

Vocabulary Size

Tue, 12 May 2026 00:00:00 +0000

Vocabulary size（詞彙表大小）的核心概念是「tokenizer 詞彙表中 token 的總數」。是模型訓練時就決定的 hyperparameter、後續不能改。Vocabulary size 影響 embedding layer 大小、單一文字對應的 token 數、多語言處理品質。

概念位置

主流 LLM 的 vocab size 演化：

模型	Vocab size	設計考量
GPT-2	50,257	早期 byte-level BPE、英文為主
Llama 1 / 2	32,000	緊湊、英文 + 部分多語言
Llama 3	128,256	大幅擴張、改善多語言（特別是非拉丁語系）
Gemma 4	256,000	進一步擴大、強化多語言 + code tokenization
Qwen3	151,936	中文 + 多語言友善
DeepSeek-V3	129,280	中英 + code、跟 Llama 3 同量級

Vocabulary size 的取捨：

Vocab 小（如 32K）	Vocab 大（如 256K）
Embedding 矩陣小、模型參數少	Embedding 矩陣大、模型參數多
罕見字 / 多語言被拆很細、token 數多	高頻多語言整詞當一 token、token 數少
推論計算每步輸出 softmax 較快	每步 softmax 較慢（vocab × hidden 矩陣大）
API 計費 token 數量較多	API 計費 token 數量較少

範例：同段中文「你好、世界」、Llama 1 (vocab 32K) 約 6 token、Gemma 4 (vocab 256K) 約 2-3 token、差距不小。

設計責任

讀 model card 看到 vocab_size 就是這個值。寫 code 場景的判讀：跑同個 prompt、不同模型實際處理的 token 數差很多、影響 context window 利用率跟雲端 API 計費；換 tokenizer = 換 vocab = 整個 embedding layer 失效、所以 fine-tune 通常不動 tokenizer、想增加新語言的最簡單方式是 extend embedding（加新 row 不動既有 row、再 fine-tune）。

VRAM

Tue, 12 May 2026 00:00:00 +0000

VRAM（Video RAM）的核心概念是「顯卡晶片上的高速記憶體、跟系統主機板上的 RAM 是物理上獨立的兩塊預算」。獨立 GPU 場景下、模型權重要載入 VRAM 才能用 GPU 高速計算；VRAM 容量直接決定能跑多大模型。跟 Apple Silicon 的統一記憶體不同、PC 上 VRAM 跟系統 RAM 兩塊預算要分開規劃。

概念位置

VRAM 同時影響「能載入什麼」跟「跑多快」兩個維度：

容量（GB）：決定能放多少模型權重 + KV cache + 推論中間結果。容量不夠則跑不起來、需透過 MoE CPU 卸載把部分權重放系統 RAM。
頻寬（GB/s）：影響每 token 生成速度上限、見 memory bandwidth 卡片。

常見消費級 GPU 的 VRAM 規格（廠商標稱、依世代與型號變化）：

GPU	VRAM 容量	VRAM 類型
RTX 5060 / 4060	8GB	GDDR6/7
RTX 5060 Ti / 4060 Ti	16GB	GDDR6/7
RTX 5070 Ti / 4070 Ti	16GB	GDDR6/7
RTX 4090	24GB	GDDR6X
RTX 5090	32GB	GDDR7

VRAM 容量是選 GPU 跑本地 LLM 的第一決策軸、頻寬是第二決策軸。同容量下、頻寬接近 2 倍的卡（如 5070 Ti 對 5060 Ti）生字速度差異明顯。

事實查核註：上表是 2026 年 5 月主流消費級 NVIDIA GPU 規格的數量級對照、實際 VRAM 容量、頻寬、GDDR 版本依特定型號、廠商 / SKU、製造時間變化、引用前以 NVIDIA 官方規格頁為準。

設計責任

理解 VRAM 後可以解釋三個現象：為什麼同樣 16GB 容量、不同卡的生字速度差很多（頻寬不同）；為什麼 MoE 模型在 16GB VRAM 上跑得了 30B 級模型（透過卸載）；為什麼 PCIe 頻寬在 PC 場景影響 MoE 卸載的速度（系統 RAM 跟 VRAM 之間的橋）。

選 PC 規劃本地 LLM 時、VRAM 容量決定能跑的模型上限、VRAM 頻寬決定生字速度上限、系統 RAM 容量決定 MoE 卸載空間。詳見 5.0 VRAM + RAM 分層預算。

Autoregressive

Mon, 11 May 2026 00:00:00 +0000

Diffusion 模型一次處理整張圖、用「去噪 N 步」的方式生成；跟 Transformer 的「一個 token 接一個 token」生成方式根本不同。記憶體需求、硬體最適規格、生態系都是平行宇宙。

可觀察訊號與例子

Diffusion 跟 Transformer 工具鏈完全不通用：

維度	Transformer LLM	Diffusion
主流模型	Gemma 4、Qwen3、Llama 3.3、GPT-5	Stable Diffusion、Flux、SDXL
推論伺服器	Ollama、LM Studio、llama.cpp、oMLX	ComfyUI、Draw Things、AUTOMATIC1111、Diffusers
推論時間	每秒幾十 tok（autoregressive）	整張圖 15 ~ 60 秒（一次到位）
硬體最適	記憶體大、頻寬高	GPU 算力高、VRAM 頻寬高
Prompt 風格	instruction 形式	descriptive + negative prompt
量化技術	GGUF、MLX	各家不同、Diffusers 為主

設計責任

聽到「換 model 就能產圖」的說法時、回到本卡確認：產圖是另一個領域、要切換到 Diffusion 工具鏈、而非在 Ollama 上下載產圖模型。寫 code 工作流跟產圖工作流分開學、避免兩邊半生不熟。對 Mac 使用者來說、Draw Things（macOS 原生 app）是產圖入門的最低門檻路徑。

Drafter Model

Mon, 11 May 2026 00:00:00 +0000

Drafter Model 的核心概念是「speculative decoding 中用來快速預測未來幾個 token 的小模型」。它跑得比 target model 快很多倍、每次跑一個 forward pass 猜 N 個 token、再交給 target model 並行驗證。

概念位置

Drafter 與 target 形成一對：drafter 快但較不準、target 慢但準確、兩者組合得到「跑得快的近似 target」。drafter 在記憶體中跟 target 一起載入、佔額外記憶體。Gemma 4 31B + 官方 drafter 的記憶體佔用約「target 18GB + drafter 1GB」、需要 32GB+ Mac 才順暢。

可觀察訊號與例子

匹配的 drafter / target 對：

Target	Drafter	來源
Gemma 4 31B	Gemma 4 E4B	Google 官方釋出
Llama 3.3 70B	Llama 3.2 1B	社群配對
Qwen3-Coder 30B	（尚未有官方）	Alibaba 還未釋出 drafter

關鍵限制：drafter 與 target 必須用相同 tokenizer。Gemma 系列只能配 Gemma 系列、Llama 系列只能配 Llama 系列、跨家族沒有相容性。LM Studio 的 UI 在挑 drafter 時會自動過濾相容候選。

設計責任

寫 code 場景的多數使用者透過預先打包的 model tag（如 Ollama 的 MTP 版本）取得 drafter、不用自己配對。想用其他模型的 speculative decoding 時、要確認社群是否有匹配的 drafter；找不到的情況下、預設用沒 speculative decoding 的版本是合理選擇、加速收益跟「找 drafter、自己配置」的成本比起來通常不划算。

Embedding Model

Mon, 11 May 2026 00:00:00 +0000

Embedding Model 的核心概念是「把文字轉成固定維度向量、讓相似內容在向量空間中靠近」。Continue.dev 等工具用 embedding model 把 codebase 索引成向量資料庫、再用語意相似度搜尋相關片段。

概念位置

Embedding model 跟 chat model 是兩種不同的模型、有各自的權重檔。Chat model 用於對話與生成、embedding model 用於 retrieval。同一個推論伺服器（如 Ollama）可以同時載入兩種模型、為不同用途服務。

可觀察訊號與例子

寫 code 場景常用的 embedding 模型：

模型	大小	用途
`nomic-embed-text`	274MB	英文為主、Continue.dev 預設
`mxbai-embed-large`	670MB	較強的英文 embedding
`bge-m3`	1.2GB	多語言（含中文）embedding

向量維度通常 384 ~ 1024、不同模型不同；切換 embedding 模型要重建索引、向量空間互不相容。

設計責任

Continue.dev 的 @codebase 命令依賴 embedding 模型；要先 ollama pull nomic-embed-text 並在 config.json 設 embeddingsProvider。Embedding 模型對 codebase 搜尋品質有影響、但邊際效益遠小於 chat model；先用預設 nomic-embed-text、需求出現再換更大模型。

Function Calling

Mon, 11 May 2026 00:00:00 +0000

Agent 是應用層的工作流模式、建立在 tool use、function calling、structured output、autoregressive 生成之上。Agent loop 五步骨架（感知 → 推理 → 行動 → 觀察 → 判斷終止）是所有 agent framework 的共通結構、不論具體實作。本地 LLM 受 tool use 訓練不足、長 context prefill 痛點（見 TTFT、prefill）、規劃能力弱等限制、跑 agent 現階段失敗率高於雲端旗艦。

可觀察訊號與例子

寫 code 場景的代表 agent：aider、Cline、Cursor Agent。判讀 agent 失敗訊號分三類：context drift（累積偏離原目標）、目標漂移（子目標完成就停、原任務沒完成）、tool 結果誤判（tool 回 error 模型 hallucinate「成功」繼續推）。

設計責任

決定該用 agent 還是 single-call、看任務是否有明確子步驟 + 客觀驗證訊號（test 通過、file 寫入）。模糊探索性任務不適合 agent。Agent 跑高風險任務時、人類審查粒度應該配合工具的副作用範圍——可逆任務全自動、不可逆任務 step-by-step approval。詳細展開見 4.4 Agent 架構原理。

MCP（Model Context Protocol）

Mon, 11 May 2026 00:00:00 +0000

MCP（Model Context Protocol、2024 年由 Anthropic 提出）的核心概念是「LLM application 跟外部 tool server 之間的標準化協議」。它解的是 LLM application 生態的 N×M 整合問題：N 個 application 接 M 個 tool、不標準化要寫 N×M 個 adapter；MCP 把這個成本拆成 N+M（application 端跟 server 端各實作協議一次）。

概念位置

MCP 在架構協議層、跟 function calling（模型能力層）、structured output（sampling 約束層）正交。它跟模型怎麼呼叫工具無關、只管「工具怎麼被暴露給 application」。複用 OpenAI 相容 API 的標準化模式：定義最小可用標準、讓生態繞著標準長、所有 player 受益。

可觀察訊號與例子

MCP 涵蓋 server 該提供什麼：tool 註冊、tool schema、tool 呼叫協議、resource 暴露、prompt template 共享。2026/5 主要 LLM application（Claude Desktop、Cursor 等）支援 MCP；社群維護的 MCP server 數量快速增長（檔案系統、Git、Slack、各種 API 等）；本地推論伺服器（Ollama、LM Studio）仍以 OpenAI 相容 API 為主、MCP 接入較慢。

設計責任

需不需要用 MCP 看應用規模：小型 in-process 應用（直接 Python function）用 function calling + 簡單 dispatcher 就夠、不需 MCP。要跨 application 共用 tool、或想接入既有 MCP server 生態（如標準化的 git / filesystem tools）才需要 MCP。詳細展開見 4.6 應用層協議。

Memory Bandwidth

Mon, 11 May 2026 00:00:00 +0000

Memory Bandwidth（記憶體頻寬）的核心概念是「每秒能從記憶體讀寫多少 bytes」。對 LLM 推論而言、它是「真正的瓶頸」、決定 tokens per second 的理論上限；CPU / GPU 算力反而很少成為瓶頸。

概念位置

Autoregressive 模型每生一個 token 都要把整個模型權重從記憶體讀到處理器一次。模型多大、頻寬多快、決定每秒能讀過幾次完整權重、也就決定每秒生幾個 token。

可觀察訊號與例子

各代 Apple Silicon 的記憶體頻寬：

晶片	頻寬
M2 / M3	100 GB/s
M2 Pro	200 GB/s
M4 Max	546 GB/s
M2 / M3 Ultra	800+ GB/s
H100（雲端）	3,300 GB/s

理論上限算式：頻寬 / 模型大小 = 最大 tok/s。M4 Max 跑 Q4 量化的 31B 模型（約 18GB）、理論上限約 546 / 18 ≈ 30 tok/s。實際值會比理論低 30 ~ 50%（KV cache 讀寫、attention 中間結果等開銷）。

H100 頻寬是 M4 Max 的 6 倍、這就是雲端旗艦速度比本地快這麼多的根本原因。

設計責任

評估「換更快 Mac 能加速多少」要看頻寬而不是 CPU 核心數。M2 升 M4 Max 對 LLM 推論的速度收益主要來自頻寬升級（200 → 546 GB/s）、約 2.7 倍。看到「N 倍加速」報導時、把頻寬與模型大小代進公式對一下、能識破不合理的數字。

MLX

Mon, 11 May 2026 00:00:00 +0000

MLX（Machine Learning eXchange）的核心概念是「Apple 為 Apple Silicon 設計的數值運算 framework」，2023 年由 Apple 釋出。它提供 Python API、自動排程 CPU / GPU / Neural Engine、利用統一記憶體架構避免在不同記憶體層之間搬資料。

概念位置

MLX 屬於基底設施層、跟 PyTorch、JAX、NumPy 並列、是「跑神經網路用的底層數值庫」。它本身不是推論伺服器、不是模型、也不是加速技巧；上層工具站在 MLX 這塊地基上做封裝。

通用世界	Apple 世界
PyTorch / JAX	MLX
CUDA	Metal（MLX 在 GPU 上經 Metal）
NumPy	`mlx.core`
Transformers	`mlx-lm`、`mlx-community`

可觀察訊號與例子

直接用 MLX 跑模型：

1pip install mlx-lm
2mlx_lm.generate --model mlx-community/Llama-3.2-3B-Instruct-4bit --prompt "hi"

這段命令會載入 MLX format 權重、用 MLX framework 在 Apple Silicon 上跑推論。需要再 wrap 成 HTTP server 才能讓 IDE 連、mlx_lm.server 是輕量選擇、oMLX 是建在 MLX 之上的完整推論伺服器。

設計責任

寫 code 場景的多數使用者透過 Ollama（用 llama.cpp 當引擎、跟 MLX 無關）、體驗已足夠。直接用 MLX 適合三種情境：想跑 Apple 釋出的 MLX format 模型、想用 MLX 寫研究 code、想試 MLX backend 的推論伺服器（oMLX）。看到「Ollama 用 MLX 加速」這類說法時、回到本卡確認 Ollama 內部 backend 是 llama.cpp 而非 MLX。

Multi-Token Prediction (MTP)

Mon, 11 May 2026 00:00:00 +0000

Multi-Token Prediction（MTP）的核心概念是「speculative decoding 的工程化實作」，特指 Google 為 Gemma 4 釋出的官方版本。它包含預訓練好的 drafter、target 模型整合、以及優化過的推論流程。

概念位置

MTP 屬於模型推論優化層、跟 autoregressive 基底並列。它是技巧、不是模型架構、也不是 framework；任何推論伺服器都可以選擇實作或忽略 MTP、模型可以選擇有沒有官方 drafter。三件事彼此獨立。

可觀察訊號與例子

2026 年 5 月 MTP 在各推論伺服器的支援狀態：

伺服器	Gemma 4 MTP 支援
Ollama	v0.23.1（2026/5/7）一鍵支援
LM Studio	支援、需手動配置 draft model
llama.cpp	speculative decoding 框架在 beta、Gemma 4 官方 drafter 整合仍是 feature request
oMLX	支援

啟用 MTP 的速度收益主要在寫 code 場景。Google 官方數據 coding 任務 2 ~ 3 倍加速；純文字寫作、創意任務的加速幅度約 1.5 ~ 2 倍、因為 pattern 預測度較低。

設計責任

寫 code 場景的多數使用者透過 Ollama 一行啟用 MTP：ollama run gemma4:31b-coding-mtp-bf16。看到「N 倍加速」報導時要追問來源與任務：官方 Google 數據是 2 ~ 3 倍；「40%」這類數字常常來源不明、可能是社群文章作者的估算。判讀加速幅度時、回到本卡與 speculative decoding 的官方來源比對。

OpenAI 相容 API

Mon, 11 May 2026 00:00:00 +0000

OpenAI 相容 API 的核心概念是「實作 OpenAI 在 2023 年定義的 POST /v1/chat/completions 介面、讓介面層工具不改一行 code 就能切換本地與雲端」。它是事實標準、後來幾乎所有本地推論伺服器都實作這份規格。

概念位置

OpenAI 相容 API 是介面層與伺服器層之間的標準介面。它承諾 API 形狀（request / response schema、streaming 格式、錯誤碼）一致；對「模型能力」「效能特性」「進階參數」等不承諾等價。本地 Gemma 4 跟雲端 GPT-5 都能用同一套 API 呼叫、但回答品質天差地遠。

可觀察訊號與例子

最小可用請求：

1curl http://localhost:11434/v1/chat/completions \
2 -H "Content-Type: application/json" \
3 -d '{
4 "model": "gemma4:31b-coding-mtp-bf16",
5 "messages": [{"role": "user", "content": "Hello"}],
6 "stream": false
7 }'

切換本地與雲端只改三個欄位：

欄位	雲端 OpenAI	本地 Ollama
API base	`https://api.openai.com/v1`	`http://localhost:11434/v1`
API key	`sk-xxxxxxx`	任意字串、本地多半略過驗證
Model name	`gpt-5`	本地 model tag

進階功能參差不齊：response_format、tool_choice、reasoning effort 等在本地伺服器的支援度視模型而定；雲端有的功能、本地未必能用。

設計責任

寫程式接 LLM 時、把 OpenAI 相容當預設選擇。多家 SDK（OpenAI Python SDK、Vercel AI SDK 等）都支援設定 base_url、改 endpoint 就能接本地。寫 IDE plugin 或 CLI 工具時、優先支援這份 API、能同時跟雲端、Ollama、LM Studio、llama.cpp、oMLX 對接。

Prefill

Mon, 11 May 2026 00:00:00 +0000

Prefill 的核心概念是「LLM 首次處理 prompt 時、把整段輸入跑過模型一次的計算階段」。Prefill 階段會為 prompt 中每個 token 算出 attention 中間結果並存進 KV cache，之後生成新 token 時可以直接讀 cache。

概念位置

Prefill 是 TTFT 的主要構成部分。Prefill 結束後系統進入 decode 階段、開始一個一個生 token。兩階段的瓶頸不同：prefill 是「算力 bound」（並行處理整段 prompt）、decode 是「記憶體頻寬 bound」。

可觀察訊號與例子

短 prompt（500 tokens）：prefill 通常 < 1 秒、感覺不到。

中等 prompt（4K tokens）：M4 Max 跑 31B 模型約 3 ~ 8 秒、開始有感。

長 prompt（10K+ tokens）：本地 prefill 拉到 30 ~ 90 秒、是 coding agent 場景最痛的點。

雲端旗艦 prefill 速度快得多，因為 H100 / TPU 的算力遠高於 Apple Silicon，且常用大批次平行 prefill。

設計責任

判讀「為何本地 LLM 在塞長 context 時這麼慢」要追到 prefill 階段。緩解方法有三條：縮短 prompt（移除不必要 context）、用支援 prefix cache 的伺服器（如 oMLX 的 paged SSD KV cache 可重用之前 prefill 過的結果）、切到雲端旗艦（資料中心 prefill 算力遠高於 Mac）。

Quantization

Mon, 11 May 2026 00:00:00 +0000

Quantization（量化）的核心概念是「把模型權重從高精度（如 16-bit float）改用較低精度（如 4-bit integer）表示」。權重數量不變，但每個權重佔的 bytes 變少；模型總大小變小、每秒能讀過的權重變多，生字速度直接變快。

概念位置

量化是讓 LLM 跑在 consumer 等級硬體上的關鍵技術。沒有量化、Apple Silicon Mac 跑不動 30B+ 模型，因為原始 bf16 權重會超出記憶體預算。量化方法主要分兩類：GGUF 系統用的 K-quants（Q4_K_M、Q5_K_M 等）、以及 MLX 等系統用的 4-bit / 8-bit 量化。

可觀察訊號與例子

常見量化等級的取捨：

量化	每權重 bits	相對 bf16 大小	品質衰減	適合場景
bf16 / F16	16	1x	無（基準）	開發、評估、大記憶體機器
Q8	8	0.5x	幾乎察覺不到	32GB+ Mac、品質敏感任務
Q5_K_M	5.5	0.34x	輕微	24GB Mac、日常使用
Q4_K_M	4.5	0.28x	可察覺、實用	多數場景的甜蜜點
Q3	3	0.19x	明顯、code 任務開始崩	較大模型強塞較小機器時備用

「_K_M」的 K 指 K-quants（較新的量化方法）、M 指 mixed-medium（不同層用不同量化）。Q3 70B 模型在 coding 任務上常輸給 Q5 14B 模型；模型大小跟模型實用品質是兩件事。

設計責任

選量化等級時看三個維度：記憶體預算（量化後是否塞得進）、體感速度（量化越激進、tok/s 越高）、品質容忍度（過低量化會明顯衰減）。寫 code 場景的甜蜜點通常是 Q4_K_M；想再換更激進量化前、先用同等記憶體預算下的較小模型 Q5 對比，常會發現後者品質更好。

RAG

Mon, 11 May 2026 00:00:00 +0000

32GB Mac 跑 Q4 量化的 Gemma 4 31B 模型順暢（佔 18GB）、同等價位 PC（16GB VRAM 等級）跑不動同一模型、要降到 14B Q4 才行。70B 模型在 64GB Mac 上可行、PC 需要兩張 24GB VRAM GPU 配 NVLink、成本高得多。

設計責任

買 Mac 跑本地 LLM 時、把記憶體當第一順位考量、超過 CPU 規格與儲存空間。32GB 是寫 code 場景的甜蜜點（跑得起 Gemma 4 31B MTP）、48 ~ 64GB 進階配置（跑得起 70B 或同時跑兩個模型）、96GB+ 對寫 code 場景多半過度配置。MLX 等 framework 利用 UMA 的方式跟 Metal backend 略有差異、但對使用者都透明、選伺服器時無需考量 UMA 細節。

GNU Stow

Mon, 29 Jun 2026 00:00:00 +0000

GNU Stow 是一個 symlink farm manager，原本設計給軟體安裝用（把 /usr/local/stow/program/ 下的檔案 symlink 到 /usr/local/），在 dotfile 管理場景被借來做「把 repo 裡的配置檔 symlink 到家目錄」。

核心規則

Stow 的核心規則只有一條：package 目錄內的路徑結構，就是安裝後相對於目標目錄的路徑結構。

1~/dotfiles/zsh/.zshrc → ~/.zshrc
2~/dotfiles/nvim/.config/nvim/ → ~/.config/nvim/
3~/dotfiles/git/.gitconfig → ~/.gitconfig

每個頂層目錄（zsh/、nvim/、git/）是一個 stow package，可以獨立安裝或移除。

常用指令

 1cd ~/dotfiles
 2
 3# 安裝：在目標目錄（預設 $HOME 的上一層，通常用 --target）建立 symlink
 4stow zsh # 安裝 zsh package
 5stow zsh git nvim tmux # 批次安裝多個 package
 6stow */ # 安裝所有 package
 7
 8# 移除：刪除該 package 建立的 symlink
 9stow -D nvim
10
11# 重新安裝（移除 + 安裝）
12stow -R zsh
13
14# 收養：如果目標位置已有檔案，--adopt 把它移進 repo 再建 symlink
15stow --adopt zsh

--adopt 是首次把現有配置納入 dotfile 管理時的關鍵操作——它把家目錄的既有檔案「收養」進 repo（移動過去），然後建 symlink。之後 git diff 就能看到 repo 版本跟原版的差異。

Folding 與 Unfolding

Stow 會自動判斷要 symlink 整個目錄還是逐一 symlink 檔案：

Folding：目標目錄不存在、或目錄內所有檔案都由同一個 package 管理 → symlink 整個目錄
Unfolding：目標目錄已有其他來源的檔案 → 展開成逐檔 symlink，保留既有檔案不受影響

這個機制讓多個 package 可以共存於同一個目標目錄（如 ~/.config/）。

限制

只管 symlink 映射，不管套件安裝（套件由 Brewfile 或 packages.txt 處理）
不管 file permission——需要 0600 的 secret 檔靠 symlink 繼承來源權限，無法在部署時自動 chmod
沒有 template 機制——同一份配置在不同機器要不同內容時，需要在配置檔內用 shell 的 OS 判斷處理

完整選型比較見管理策略與選型。

State（IaC 狀態檔）

Fri, 26 Jun 2026 00:00:00 +0000

State 是 IaC 工具用來記錄「上一次 apply 之後，每個資源在雲端長什麼樣」的快照。它的作用是讓工具能算出「程式碼描述的目標」與「雲端上的現況」之間的最小差異。沒有 state，工具每次都得把所有資源重新查一遍才知道該不該動，而且無法分辨「這個資源是我建的、該由我管」還是「別人手動建的、不歸我管」。

State 裡通常含有資源的真實 ID、相依關係，以及部分敏感屬性（例如資料庫的初始密碼、private key 的輸出值）。這帶來兩條硬邊界：state 不能進 git（含敏感值，推進版控等於把密碼寫進每個 clone 的歷史）、state 不能只放本地（本地 state 的失敗模式是記憶綁在一台筆電上，多人並行 apply 會互相覆蓋）。

概念位置

State 是 IaC 的記憶機制。模組一：最小可行 IaC 的核心主題就是怎麼把 state 管好——remote backend、加密、鎖機制。State 管不好，後續所有 IaC 操作都建立在不可靠的記憶上。

可觀察訊號

State 出問題的訊號包括：terraform plan 顯示大量非預期的變更（state 與現實不一致）、兩個人同時 apply 後環境出現矛盾狀態、state list 的資源數與 Console 上看到的不一致。

設計責任

管理 state 時要決定：

存放位置：S3 + DynamoDB（自管）vs Terraform Cloud（託管），取捨在維運負擔 vs 控制權
加密：state 含敏感值，落地加密（S3 SSE）是底線
版本保留：bucket versioning 讓 state 損壞時能回捲到上一個正確版本
鎖機制：防止兩個人同時 apply 互相覆蓋
分割策略：一個大 state vs 多個小 state，取捨在引用便利性 vs 影響範圍控制

鄰卡

IaC — state 是 IaC 工具的核心依賴
Drift — state 與現實的落差

Vertical SaaS

Tue, 19 May 2026 00:00:00 +0000

Vertical SaaS 的核心概念是「服務單一行業的 SaaS」—專做牙醫診所、律師事務所、餐廳 POS、保險經紀人等特定行業的軟體。相對概念是 Horizontal SaaS（跨行業通用，例如 Slack、Notion）。

概念位置

Vertical SaaS 的設計前提是該行業的工作流程足夠特殊，通用工具解決不了。它的護城河來自對行業隱性知識的編碼，不來自技術領先。Vertical SaaS 通常待在利基市場—市場天花板低，但 retention 極高。

可觀察訊號與例子

判斷一個產品是不是 Vertical SaaS，看它的功能列表是否包含行業特有概念—例如牙醫 SaaS 會有「治療計畫」「保險理賠申請」「X 光圖檔管理」等通用 SaaS 沒有的模組。客戶教育成本低（醫師看完就知道在做什麼）也是訊號。Procore（建築業）、Toast（餐廳）、Veeva（藥廠）都是 Vertical SaaS 代表。

判讀方式

Vertical SaaS 的優勢是高黏著度、高切換成本、客戶懂行業；劣勢是市場天花板低，難以擴張到其他行業。AI 時代它面臨「上游毛利壓縮」的壓力—因為要付 AI 模型費用給基礎模型供應商，原本接近零的邊際成本變高，估值跟著被擠壓。

Rice（桌面視覺客製化）

Mon, 29 Jun 2026 00:00:00 +0000

Rice 在 Linux 桌面社群指的是桌面視覺客製化——把系統外觀調教成個人化的美學呈現。動詞 ricing 是「正在美化桌面」，名詞 a rice 是「一套美化成果/配置」，做這件事的人叫 ricer。

詞源

最被廣泛接受的說法是源自汽車改裝文化的 “rice burner” / “ricer”——原本指對（通常是日系的）平價車裝上浮誇外觀套件（大尾翼、炫光、貼紙），看起來拉風但實際性能沒提升。後來 Linux 社群借用這個概念：把桌面打扮得花俏好看，本質也是「外觀的炫技」。

也有人提出 “Race Inspired Cosmetic Enhancements” 的逆向縮寫，但普遍被認為是事後湊的解釋。

在 Linux 圈裡，rice 的原始貶意和種族色彩已經淡化，變成中性甚至帶自豪的自稱——r/unixporn 社群就是圍繞 ricing 成果的分享運轉的。

Rice 涵蓋的範圍

配色方案：Catppuccin、Tokyo Night、Gruvbox、Nord 等跨工具統一的色彩定義
狀態列：Waybar、Eww 的模組設計和 CSS 外觀
啟動器：Wofi、Rofi 的搜尋框外觀
通知：Mako、Dunst 的通知氣泡樣式
鎖屏：Hyprlock 的登入畫面設計
桌布：靜態桌布或動態桌布（Swww）
終端機配色：Alacritty / Kitty / Foot 的 ANSI 色碼
字型：Nerd Font 的 icon glyph

Caelestia 這類「desktop shell」專案把上述元件統一設計出貨，是「打包好的 rice」。手動逐一挑選和調教各元件是「DIY rice」。兩者的目標相同——視覺上協調、好看、符合個人美學。

完整的 rice 配置實務見桌面 Rice 設計。

Drift（設定漂移）

Fri, 26 Jun 2026 00:00:00 +0000

Drift 指的是 IaC 的 state 記錄與雲端上的實際資源狀態之間的不一致。最常見的來源是有人繞過 IaC、直接在 Console 手動修改資源設定——state 不知道這次改動發生了，下一次 plan 時工具會把手動改的設定判定為「不在我的記憶裡、要修正回程式碼的版本」。

Drift 的代價會延遲浮現。手動改的當下看起來沒問題——設定改了、服務正常。問題出在後續某次不相關的 apply：工具用過時的 state 去比對，把手動改的設定覆蓋掉，服務因此斷線，而且在 PR 裡看不到這件事發生過。Drift 累積越多，每次 apply 的不確定性越高，最終團隊會開始害怕跑 apply，IaC 名存實亡。

概念位置

Drift 是 Console 唯讀鐵律存在的根本理由。模組一：Console 唯讀鐵律用權限機制（人類身分唯讀、寫入權限留給自動化身分）讓「在 Console 改不動」成為預設狀態，從源頭消除 drift 的產生。

可觀察訊號

Drift 存在的訊號：terraform plan 在沒人改過程式碼的情況下顯示變更（代表有人在 Console 動了東西）、團隊開始說「跑 plan 前先看看有沒有奇怪的差異」、某次例行 apply 意外改掉了不該改的設定。

偵測 drift 的主動方式是定期跑 terraform plan 但不 apply，把 diff 輸出當成 drift 偵測的報告。Terraform Cloud 有內建的 drift detection 功能，定期比對 state 與雲端現實。

設計責任

處理 drift 時要決定：

偵測頻率：每次 PR 觸發 plan（被動偵測）vs 定期排程 plan（主動偵測）
修正方向：把雲端改回程式碼的版本（apply），還是把程式碼改成雲端的版本（更新 HCL）——取捨在「程式碼是 source of truth」vs「手動改的設定有它的理由」
預防機制：Console 唯讀權限、CI gate 攔截未經 review 的 apply

鄰卡

State — drift 是 state 與現實的落差
IaC — drift 破壞 IaC 的 source of truth 地位

Horizontal SaaS

Tue, 19 May 2026 00:00:00 +0000

Horizontal SaaS 的核心概念是「跨行業通用的 SaaS」—不分產業都能用，例如 Slack（溝通）、Notion（文件）、Zoom（會議）、Salesforce（CRM）。相對概念是 Vertical SaaS。Horizontal SaaS 依賴分發優勢與網絡效應做護城河。

概念位置

Horizontal SaaS 的設計前提是有一個通用工作流程（溝通、寫文件、開會、管理客戶）跨產業都有需求。它不靠行業隱性知識做護城河，而是靠普及度、整合生態系與分發規模。

可觀察訊號與例子

Horizontal SaaS 的客戶名單通常涵蓋從新創到財星 500 的各種行業；功能列表是「給所有人都能用的工具集」而非特定行業流程。Slack 的客戶包括醫院、銀行、廣告公司、遊戲工作室—這就是 horizontal 的訊號。它通常走 PLG 上手，因為產品要簡單到任何行業的人都能用。

判讀方式

Horizontal SaaS 的優勢是市場天花板高、可以走 PLG 快速擴張；劣勢是面對特定行業的對手（Vertical SaaS）容易被打—因為通用工具不會比專做這行的軟體更貼合該行業的工作流程。Big Tech（Microsoft、Google）做 horizontal SaaS 最有分發優勢，新創很難正面對抗。

VPC（Virtual Private Cloud）

Fri, 26 Jun 2026 00:00:00 +0000

VPC（Virtual Private Cloud）是雲端帳號內的一塊邏輯隔離私有網段，是其餘所有網路切分的起點。在 VPC 裡開出來的所有資源預設只看得到同一個 VPC 內的成員，與其他 VPC、與其他帳號的網路天然隔離。沒有 VPC，subnet 與 security group 無處依附。

VPC 用 CIDR 區塊定義地址空間。建立時的 CIDR 大小是一次性決策——事後擴張地址空間在多數雲端平台上是麻煩且容易出錯的操作（AWS 允許追加 secondary CIDR，但追加的網段在 routing 與服務相容性上有限制）。

概念位置

VPC 是模組三：網路地基的最外層邊界。Infra 系列的網路設計從 VPC 開始：先圈定地址空間，再往內切 subnet、掛 route table、設 security group。環境之間的 VPC 怎麼分（每個環境一個 VPC），屬於模組四：環境分離的設計決策。

可觀察訊號

VPC 設計需要關注的訊號：CIDR 空間快用完（subnet 切不出新的子網段）、需要跟其他 VPC 或地端互連時發現 CIDR 重疊（peering 無法建立）、服務被放在預設 VPC 裡（預設 VPC 是所有人共享的、CIDR 不可控的、security group 預設全通的）。

設計責任

規劃 VPC 時要決定：

CIDR 大小：/16 提供約六萬五千個位址，對多數單一環境足夠
不重疊：多個 VPC（不同環境或產品線）用連續但不重疊的大段分配
DNS 設定：enable_dns_support 和 enable_dns_hostnames 在多數場景都該開啟
預設 VPC 的處理：正式服務不該放在預設 VPC，新帳號的預設 VPC 可以刪除或保留唯讀

鄰卡

Subnet — VPC 內按可用區與暴露程度切出的子網段
Security Group — 掛在資源上的有狀態防火牆
CIDR — VPC 的地址空間定義方式
NAT — 讓 private subnet 出站的地址轉換機制

CDP

Tue, 19 May 2026 00:00:00 +0000

CDP 的核心概念是「Customer Data Platform，客戶資料平台」—把分散在各系統的客戶資料（網站、App、電商、客服、廣告）集中起來，建立統一客戶檔案，給行銷、銷售、客服使用。代表公司是 Segment（已被 Twilio 收購）、mParticle、Tealium。CDP 是「應用層 SaaS」的典型代表。

概念位置

CDP 位於資料庫與行銷工具之間的整合層，承擔中間的資料整合與啟用平台角色——既非底層基礎設施（如 AWS），也非終端應用（如 Mailchimp）。它常被當成「應用層 SaaS」的代表來跟基礎設施做對比—基礎設施想賺底層資源錢，應用層想賺工作流程錢，兩者邏輯不同。

可觀察訊號與例子

CDP 客戶通常是有多個資料來源、又想做精準行銷的中大型企業。判斷某個工具是不是 CDP，看它是否同時做三件事：跨來源資料整合、統一客戶身份識別（identity resolution）、把整合後的資料推送給下游行銷工具。

判讀方式

CDP 是「垂直 / 應用層 SaaS」的代表案例—寫商業分析的人常用 CDP 跟 AWS 做對比，說明應用層 SaaS 跟基礎設施的不同。讀到「CDP」這個詞時，注意它通常被當成「特定行業之外的應用層 SaaS 例子」使用，不一定是文章主題。

Subnet（子網路）

Fri, 26 Jun 2026 00:00:00 +0000

Subnet 是 VPC 內部按可用區（Availability Zone）與暴露程度切出來的子網段。一塊資源對外暴露到什麼程度，取決於它被放進哪個 subnet——技術上的差別在於該 subnet 關聯的 route table 裡有沒有一條指向 Internet Gateway 的預設路由。

Subnet 分兩類：

Public subnet：route table 有 0.0.0.0/0 → Internet Gateway，讓資源能被外部 IP 直接觸及。典型住戶是對外負載平衡器、NAT Gateway。
Private subnet：route table 把 0.0.0.0/0 指向 NAT Gateway，外部無法主動連入。典型住戶是應用伺服器、資料庫、快取。

Public subnet 的真實樣貌是「薄薄一層」——它通常只住入口設施，業務邏輯跟資料儲存都在 private subnet。

概念位置

Subnet 是模組三：網路地基的中層邊界。VPC 定好地址空間後，subnet 決定「哪些資源能被外網碰到、哪些只能在內網存取」。每個 subnet 綁定單一可用區，高可用設計通常是每種角色跨至少兩個可用區各開一個 subnet。

可觀察訊號

Subnet 配置有問題的訊號：應用伺服器被放在 public subnet 並配了公網 IP（管理埠暴露在掃描流量下）、private subnet 的服務拉不到外部套件（route table 沒指向健康的 NAT）、新服務上線時找不到適合的 subnet（CIDR 切得太小、空間不夠）。

設計責任

規劃 subnet 時要決定：

CIDR 切法：VPC 是 /16 時，每個 subnet 用 /20（約四千位址）可以在三個可用區各開 public + private 共六個 subnet
跨可用區對稱：每種角色至少跨兩個 AZ，讓單一 AZ 故障時另一區能承接
public 的住戶限制：只放入口設施，業務邏輯一律放 private

鄰卡

VPC — subnet 的容器
NAT — 讓 private subnet 出站的機制
Security Group — 掛在資源上的埠級存取控制

Enterprise License

Tue, 19 May 2026 00:00:00 +0000

Enterprise License 的核心概念是「賣給整家公司的軟體授權」—跟企業簽長期合約，按員工數、用量承諾、整合深度收費，有別於按使用者自助訂閱。ChatGPT Enterprise、Claude Enterprise、Microsoft 365 E5 都是這種模式。它的核心吸引力是極強 Lock-in。

概念位置

Enterprise License 是 SaaS 的高階變體，相對於 PLG 自助訂閱。它的訂價模式不只是「軟體本身」，還包括資料整合、權限管理、安全控管、SLA、專屬支援、長期用量承諾。這些加值內容堆出來的切換成本是 lock-in 的具體形式。

可觀察訊號與例子

判斷一個產品是不是走 enterprise license 模式，看它的官網是否有「Contact Sales」按鈕但沒有透明定價；客戶是否是百人以上的公司而非個人；合約是否多年期而非月付。Salesforce、Palantir、Snowflake 都是典型例子。AI Labs 近期推出的 Enterprise 版本走的就是這條路。

判讀方式

Enterprise License 對賣方來說每個合約金額大、收入可預測、retention 接近 100%；對買方來說等於把核心工作流程綁定到單一供應商。AI Labs 的策略重心正是這個—不想只當「按 token 計費的模型供應商」，要直接賣 enterprise license 進企業，藉此建立 Lock-in 並穩定營收。

Security Group

Fri, 26 Jun 2026 00:00:00 +0000

Security group 是掛在資源網卡（ENI）層級的有狀態防火牆，規則描述的是「哪些來源能連到這個資源的哪個埠」。「有狀態」的意思是放行一條入站連線後，對應的回應出站自動允許——規則只需描述入站方向想開放什麼。

設計原則是最小開放：每條規則只開「這個服務確實需要被誰連的那個埠」。資料庫的 security group 入站只允許來自應用層 security group 的資料庫埠（如 5432），而不是某個 IP 範圍。用 security group 互相引用（source 指向另一個 group 而非 CIDR）讓規則跟著成員身分走、不跟著位址走——應用節點會隨擴縮而換 IP，引用 group 不會因此失效。

概念位置

Security group 是模組三：網路地基的最內層邊界——貼著服務的最後一道網路防線。即使封包順著 route table 抵達了 private subnet，security group 仍能逐埠決定放不放行。模組七：infra 走 PR 流程用 tfsec / checkov 在 CI 攔截 0.0.0.0/0 全開的規則。

可觀察訊號

Security group 需要收斂的訊號：入站來源是 0.0.0.0/0（允許全網連入），且目標埠是資料庫（5432、3306、6379）或管理埠（22、3389）——合理出現 0.0.0.0/0 的位置只有對外負載平衡器的 80 / 443。盤點方式是列出所有 source 為 0.0.0.0/0 的規則，逐條問「這個埠需要全世界都連得到嗎」。

設計責任

設計 security group 時要決定：

引用方式：用 group 互相引用（推薦）vs 用 CIDR 限定範圍
開放範圍：只開需要的埠與來源，0.0.0.0/0 只給對外 LB
管理埠存取：SSH（22）改用 SSM Session Manager 取代，從公網清單上拿掉
與 NACL 的分工：security group 是主力（有狀態、group 引用），NACL 留給少數需要 subnet 層顯式 deny 的情境

鄰卡

VPC — security group 依附的網路容器
Subnet — security group 與 subnet 各守不同層級的邊界

NAT Gateway

Fri, 26 Jun 2026 00:00:00 +0000

NAT Gateway（Network Address Translation Gateway）的核心職責是讓 private subnet 的資源能主動發起對外連線（拉套件、呼叫第三方 API、下載 OS 更新），同時不開放任何外部主動發起的入站連線。它借用一個公網 IP 把出站封包送出去，再把回應導回原請求者。

概念位置

NAT Gateway 在網路地基裡的角色是 private subnet 的出站閘道。它解決的問題是：private subnet 的設計意圖是「外部連不進來」，但服務仍需要主動對外。沒有 NAT，private subnet 的資源完全無法對外通訊 — 連 apt update 或 pip install 都做不到。

NAT Gateway 是綁定單一可用區的資源，活在某個 public subnet 裡。這帶來一個架構取捨：共享一個 NAT（成本低、出站方向有單點）還是每個可用區各放一個（成本高、出站與 subnet 冗餘對齊）。

可觀察訊號

以下狀況指向 NAT 相關問題：

Private subnet 的服務拉不到外部套件或第三方 API 全部逾時 — 先查 route table 有沒有指向健康的 NAT
只有某一個可用區的節點受影響 — 該區的 NAT 或其所在 subnet 可能故障
雲帳單裡 NAT Gateway 的流量費用異常高 — 大量走 NAT 的流量（S3 備份、跨區同步）可用 VPC Endpoint 繞過

設計責任

使用 NAT Gateway 時要決定：

數量：每個可用區一個（可用性優先）還是全 VPC 共享一個（成本優先）。每個 NAT 固定月費約 $32 加流量費 $0.045/GB
高流量路徑：對 AWS 自家服務的流量（S3、DynamoDB）改用 Gateway Endpoint 直連，繞過 NAT 省流量費
route table 關聯：每個 private subnet 的 route table 要明確指向哪個 NAT

鄰卡

Subnet — NAT 放在 public subnet、服務放在 private subnet
VPC — NAT 屬於 VPC 內部的出站路徑設施

OIDC 聯合

Fri, 26 Jun 2026 00:00:00 +0000

OIDC（OpenID Connect）聯合的核心職責是讓跑在雲外的 CI/CD 平台（GitHub Actions、GitLab CI）用每次執行才簽發、幾分鐘後就失效的短期憑證存取雲端資源，從根本上消除「在 CI 環境裡存放長期 access key」這個攻擊面。

概念位置

OIDC 聯合在身分與憑證地基裡的角色是「雲外機器身分的認證機制」。跑在雲上的 workload（EC2、ECS task）可以用平台原生的 instance profile 或 task role 取得短期憑證；跑在雲外的 CI/CD 沒有這個管道，OIDC 就是替代方案。

運作方式是建立信任關係：雲端帳號信任某個外部 identity provider（如 GitHub Actions 的 OIDC issuer），CI 執行時平台簽發一個帶 claim 的 token（描述哪個 repo、哪個 branch、哪個 workflow），雲端用這個 token 換出一段臨時憑證。

可觀察訊號

以下狀況指向 OIDC 相關問題：

CI pipeline 裡有 AWS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY 環境變數 — 這是長期 key，應該替換成 OIDC
Trust policy 只驗 issuer 不驗 repo — 任何掛在同一個 CI 平台的專案都能假扮這個 role
Pipeline 突然無法取得權限 — 可能是 trust policy 的 condition 跟 token claim 不匹配（常見於 repo 改名或 branch 改名後）

設計責任

設定 OIDC 聯合時要決定：

Trust policy 的 claim 收斂：限定 issuer + audience + 特定 repo + 特定 branch，每個條件都收到最緊
Role 的權限範圍：OIDC 換到的 role 仍然要遵循最小權限 — 只給 pipeline 需要的 action
Plan 與 apply 分開的 role：plan 只需要 read 權限、apply 需要 write 權限，用兩個 role 降低 PR 階段的風險

鄰卡

IAM — OIDC 是 IAM 身分系統的一種外部身分來源
Security Group — OIDC 解的是身分層的認證問題，跟網路層的 security group 正交

環境分離

Fri, 26 Jun 2026 00:00:00 +0000

環境分離的核心職責是讓 dev 的實驗、staging 的驗證、production 的真實流量彼此不可見也不可達 — 在 dev 跑壞一個資料庫、套錯一條 security group 規則時，production 完全無感。

概念位置

環境分離在 infra 成熟度階梯上對應第三階。它建立在宣告式 IaC（第二階）的基礎上 — 有了 state 追蹤和模組化描述之後，才能用「同一份 code、不同參數」的方式複製出多個隔離環境。

分離的實作方式有一條隔離強度光譜：從帳號級（不同雲端帳號，最強隔離）到目錄級（同一 repo 內各環境一個目錄，各自持有 state）到 workspace 級（同一份 code 用執行期切換 state，隔離最弱）。多數早期團隊在目錄級落腳，因為它在顯式邊界與維運成本之間取得平衡。

可觀察訊號

以下狀況指向環境分離不足：

在 staging 測試的變更意外影響了 production 的資源 — dev 跟 prod 共用同一份 state
某人的 terraform apply 把另一個環境的資源改掉了 — workspace 的隱性狀態切換導致打錯環境
dev 與 prod 的設定差異散落在 code 裡的 if env == "prod" 判斷 — 環境差異沒有集中在參數值裡

設計責任

環境分離的設計要決定：

隔離層級：帳號級、目錄級、還是 workspace 級。判斷依據是團隊規模、合規要求、與維運餘裕
參數化邊界：dev 與 prod 之間的差異全部用參數表達（instance size、multi-AZ、backup retention），module 內部不寫環境判斷
state 位址分離：每個環境的 state backend 位址獨立，互不交叉

鄰卡

IaC — 環境分離的前提是有可重用的 IaC 描述
State — 每個環境持有獨立的 state 檔
Drift — 環境分離降低 drift 的跨環境影響範圍

CloudTrail

Fri, 26 Jun 2026 00:00:00 +0000

CloudTrail 的核心職責是把 AWS 帳號內每一個 API 呼叫記錄成可查詢的稽核日誌 — 哪個身分、在什麼時間、對哪個資源、呼叫了哪個 API、結果是成功還是拒絕。它是事故排查和合規稽核的事實來源。

概念位置

CloudTrail 在 infra 治理裡的角色是「發生了什麼」的最後防線。人工變更日誌記錄「為什麼改」，CloudTrail 記錄「改了什麼」— 兩者一起才能從事故回推到可回退的操作。

CloudTrail 預設記錄 management event（建立、修改、刪除資源的 API 呼叫）並保留 90 天可查閱。要長期保存或記錄 data event（S3 物件存取、Lambda 呼叫等更細粒度的操作），需要建立 trail 並指定 S3 bucket 儲存。

可觀察訊號

以下狀況指向 CloudTrail 的使用場景：

事故排查需要回答「誰在過去 24 小時改過這個 security group」— CloudTrail 的 LookupEvents API 可以按事件名稱、資源類型或使用者名稱查詢
安全稽核要求提供「過去 90 天內所有 IAM policy 變更的紀錄」— CloudTrail 是標準的證據來源
發現不預期的資源變更（drift），需要確認是人為操作還是自動化觸發 — CloudTrail 的 userIdentity 欄位區分人類使用者和 assume-role 的服務

設計責任

使用 CloudTrail 時要決定：

保留期限：預設 90 天免費查閱；超過需要建 trail 存到 S3，費用是 S3 儲存成本
事件範圍：management event 預設開啟；data event（S3 物件讀寫、Lambda invoke）要額外設定，且量大時儲存成本可觀
跨帳號整合：多帳號架構下，Organization trail 可以把所有帳號的事件集中到一個 S3 bucket
存取控制：CloudTrail 的 S3 bucket 本身要限制存取 — 能修改稽核日誌等於能掩蓋操作痕跡

鄰卡

IAM — CloudTrail 記錄的是 IAM 身分的 API 呼叫
Drift — CloudTrail 是追查 drift 來源（誰手動改了什麼）的工具

COGS

Tue, 19 May 2026 00:00:00 +0000

COGS 的核心概念是「Cost of Goods Sold，銷售成本」—賣出產品時直接發生的成本。製造業的 COGS 包括原料、加工、運送；SaaS 的 COGS 包括雲端基礎設施、第三方 API、客戶支援人力；AI 產品的 COGS 主要是模型推論的算力支出。COGS 高低決定毛利結構。

概念位置

COGS 是計算毛利的扣除項—收入扣掉 COGS 等於毛利。它不包括銷售、行銷、研發、管理費用，那些是營業費用（OpEx）。COGS 的特性決定單位經濟是否成立—COGS 接近零的商業模式才能走 PLG。

可觀察訊號與例子

判斷一家公司的 COGS 結構，看它賣一筆訂單時要支付多少給上游。傳統 SaaS 賣 100 元，COGS 可能只有 20 元（伺服器費用）；AI 產品賣 100 元，COGS 可能高達 50 元（給 OpenAI / Anthropic 的 token 費用）。COGS 結構差異直接造成毛利率差三十個百分點。

判讀方式

讀到「COGS 上升」「COGS 不再接近零」這類描述時，代表該行業的毛利結構正在改變。AI 公司面對的核心議題就是 COGS 從接近零變成可觀的成本—這就是為什麼分析師說「AI 的毛利不會像傳統 SaaS 那麼高」，連帶估值跟著被壓縮。

ECS

Fri, 26 Jun 2026 00:00:00 +0000

ECS（Elastic Container Service）的核心職責是把容器映像排程到運算資源上執行，並管理它們的生命週期 — 健康檢查、失敗重啟、滾動更新。它是 AWS 上容器工作負載的預設起點，心智負擔低於 Kubernetes（EKS），但編排彈性也較受限。

概念位置

ECS 在核心服務層裡的角色是「應用程式的執行載體」。它跑在 VPC 的 private subnet 裡，用 IAM task role 存取其他 AWS 資源，前面掛 ALB 接收流量。IaC 描述 ECS 時，重點在「接線」（subnet、security group、IAM role、target group）而非容器映像版本 — 映像版本由 CI/CD 在部署期注入。

ECS 的執行模式分 EC2 launch type（自己管運算實例、要管 AMI 更新與 capacity provider）和 Fargate launch type（AWS 代管運算、不需管實例）。Fargate 進一步降低運維面，代價是單位成本較高（同規格約多 20-40%）且不支援 GPU workload。

可觀察訊號

以下狀況指向 ECS 相關問題：

Task 頻繁被 kill 後重啟 — 健康檢查失敗或 OOM，先看 task 的 stopped reason 和 CloudWatch log
部署後新版本遲遲不上線 — rolling update 的 minimum healthy percent 設太高，新 task 啟動空間不足
Task 無法拉到 ECR image — 通常是 private subnet 沒有 NAT 或 VPC Endpoint 到 ECR

設計責任

使用 ECS 時要決定：

Launch type：Fargate（低運維、較高成本）還是 EC2（低成本、要管實例）。多數 web API 的初始選擇是 Fargate，流量穩定後再評估 EC2
Task IAM role：task execution role（拉 image 和寫 log 用）和 task role（應用程式存取其他 AWS 資源用）是兩個不同的 role，不要混用
映像版本解耦：task definition 裡的 image tag 由 CI/CD 部署期注入，infra code 不寫死版本號
Auto-scaling 指標：用 CPU / memory 還是 ALB request count，取決於服務是計算密集還是 IO 密集

鄰卡

Subnet — ECS task 跑在 private subnet 裡
Security Group — ECS service 套用 security group 控制入站
IAM — task role 與 execution role 是 ECS 的兩個身分接線
ALB — 流量透過 ALB target group 導入 ECS task

Gross Margin

Tue, 19 May 2026 00:00:00 +0000

Gross Margin 的核心概念是「毛利率」—收入扣掉 COGS 後的比例，公式 (收入 - COGS) ÷ 收入。傳統 SaaS 毛利率通常在 70-80%，製造業在 20-40%，AI 產品商目前預估在 50% 出頭。

概念位置

Gross Margin 是判斷商業模式健康度的核心指標。它決定一家公司能撐多少行銷預算、能給投資人多高的估值、能在價格戰中撐多久。毛利不夠厚的商業模式很難長期擴張，因為單位經濟算不過來。

可觀察訊號與例子

判讀毛利率：低於 30% 通常是重資產業務（製造、物流），需要規模效應撐獲利；50-60% 是混合型（顧問、整合服務）；70% 以上是純軟體或高槓桿生意。AI 新創的 50% 毛利意味著「比 SaaS 差三十個百分點」—這個差距不是調漲價格能補的，PLG 的數學算不過來。

判讀方式

讀到「毛利壓縮」「毛利下滑」這類描述時，意味著該公司的商業模式正在從「軟體模式」滑向「服務模式」。毛利下滑直接傷估值（投資人給的倍數會降）、限制行銷支出、壓縮燒錢空間。AI 時代 SaaS 公司面對的就是這個結構性壓力，是 Valuation Compression 的根因。

ALB

Fri, 26 Jun 2026 00:00:00 +0000

ALB（Application Load Balancer）的核心職責是接收外部流量、根據規則（path、host header）把請求路由到後端的 target group，並用健康檢查持續驗證後端是否能服務。它是系統對外的第一個接觸點，跑在 public subnet 裡。

概念位置

ALB 在核心服務層裡的角色是「入口設施」。它掛在 public subnet 的 security group 上（入站允許 80/443），把流量導向 private subnet 裡的 ECS task 或 EC2 instance。ALB 本身是 stateless 的 — 重建一個 ALB 不會遺失資料，但會換掉它的 DNS 名稱，所以對外服務通常在 ALB 前面掛一個穩定的 Route 53 alias record。

TLS 終結是 ALB 的標準職責：HTTPS listener 引用 ACM（AWS Certificate Manager）簽發的憑證，ALB 處理加解密，後端收到的是 HTTP 明文。憑證由 ACM 自動續期，IaC 用 DNS 驗證方式描述憑證 — 讓「憑證存在、續期、掛載」整條鏈都進版本控制。

可觀察訊號

以下狀況指向 ALB 相關問題：

使用者看到 502 — ALB 轉發請求但後端回應異常（健康檢查可能通過但實際請求處理失敗），查 target group 的健康狀態和後端 log
使用者看到 503 — target group 裡沒有健康的後端，通常是部署期間所有舊 task 停了但新 task 還沒通過健康檢查
HTTPS 憑證過期警告 — 如果用 ACM 搭配 DNS 驗證，憑證自動續期；看到過期警告代表 DNS 驗證記錄被刪了或 ACM 服務異常

設計責任

使用 ALB 時要決定：

健康檢查參數：檢查路徑（用應用層的 health endpoint、不用根路徑）、間隔、閾值。閾值太寬鬆會把壞掉的後端留在輪替裡，太嚴格會在部署瞬間誤判
HTTP → HTTPS redirect：port 80 的 listener 設定固定回應 301 redirect 到 443，確保所有流量走加密
TLS 憑證：用 ACM 搭配 DNS 驗證，讓憑證的簽發和續期自動化
穩定 DNS：ALB 前面掛 Route 53 alias record，對外暴露的是自己的 domain name 而非 ALB 的隨機 hostname

鄰卡

Subnet — ALB 跑在 public subnet，後端跑在 private subnet
Security Group — ALB 的 security group 是系統對外唯一合理開放 0.0.0.0/0 的位置（僅限 80/443）
ECS — ALB 透過 target group 把流量導向 ECS task

Marginal Cost

Tue, 19 May 2026 00:00:00 +0000

Marginal Cost 的核心概念是「多服務一個客戶要多花多少錢」。傳統軟體寫一次賣無數次，每多一個客戶幾乎沒成本（邊際成本接近零）。AI 推論每跑一次都燒實際算力，邊際成本是真實的線性支出。邊際成本特性決定 PLG 是否可行。

概念位置

Marginal Cost 是 SaaS 模式之所以能擴張的根基。零邊際成本讓 PLG 數學算得過去—免費試用、口碑擴散、自助上手都不會傷成本。一旦邊際成本不再是零，PLG 模式就會撐不住，要回到傳統的高接觸銷售。

可觀察訊號與例子

判讀邊際成本：軟體下載一份檔案，邊際成本近零；雲端 API 每次呼叫，邊際成本等於底層運算成本；AI 模型每次推論，邊際成本是 GPU 時間。Netflix 多一個觀眾的邊際成本接近零（CDN 已經攤平）；Uber 多一筆訂單的邊際成本可觀（要付司機）。前者能擴張到全球同樣便宜，後者規模再大邊際還是要花錢。

判讀方式

當分析師說「邊際成本不再是零」時，通常在指出某個原本被視為 SaaS 的賽道其實更接近服務業。AI 產品就是典型例子—它看起來像軟體，但每次回答都是真實算力支出。這個訊號直接影響商業模式選擇、毛利結構與估值邏輯。

CIDR（Classless Inter-Domain Routing）

Fri, 26 Jun 2026 00:00:00 +0000

CIDR（Classless Inter-Domain Routing）用前綴長度表示一段 IP 地址範圍。10.0.0.0/16 表示前 16 bit 是網路位址、後 16 bit 是主機位址，提供約六萬五千個可用位址。前綴越短、範圍越大：/16 比 /24（約 256 個位址）大 256 倍。VPC 和 subnet 的地址空間都用 CIDR 表示。

概念位置

CIDR 是 VPC 規劃的起點決策。建立 VPC 時指定的 CIDR 區塊決定了這個 VPC 能容納多少 subnet 和多少資源。這個決策在建立後難以修改——事後擴張意味著追加 secondary CIDR，而追加的網段在 routing 與服務相容性上有限制。

在 infra 系列中，CIDR 規劃出現在模組三：網路地基的 VPC 段落。Terraform 的 cidrsubnet 函式可以從 VPC 的 CIDR 自動切出 subnet 的子網段，避免手動計算。

可觀察訊號

CIDR 規劃出問題的訊號有兩類。第一類是地址耗盡：subnet 切不出新的子網段、或 subnet 內的 IP 分配用完，新資源無法取得位址。第二類是網段衝突：需要透過 VPC peering、Transit Gateway 或 VPN 互連兩個 VPC 時，發現兩端的 CIDR 重疊，路由無法解析，peering 建立失敗。

設計責任

規劃 CIDR 時要決定：

大小：單一環境用 /16 通常足夠寬裕，切成 /20 的 subnet 可分配 16 個子網段
不重疊：多個環境（dev 10.0.0.0/16、staging 10.1.0.0/16、prod 10.2.0.0/16）用連續但不重疊的區段，為日後互連預留空間
與地端的協調：如果未來可能接 VPN 回地端機房，CIDR 要避開地端已使用的私有網段

鄰卡

VPC — 用 CIDR 區塊定義的邏輯隔離網段
Subnet — 從 VPC CIDR 切出的子網段

P&L

Tue, 19 May 2026 00:00:00 +0000

P&L 的核心概念是「Profit and Loss，損益表」—一段期間內的收入、成本、費用與利潤的財務報表。標準結構：收入 → 扣 COGS → 毛利 → 扣營業費用 → 營業利益 → 扣稅 → 淨利。

概念位置

P&L 是判讀一家公司是否賺錢的核心報表。投資人看 P&L 判斷毛利是否健康、燒錢速度是否合理、單位經濟是否成立。新創討論「P&L 跑不過去」通常指收入扣完成本費用後仍是大幅虧損。

可觀察訊號與例子

判讀 P&L 的關鍵欄位：毛利率（看商業模式效率）、營業費用比（看銷售行銷研發是否過大）、淨利率（看最終盈利能力）。SaaS 新創早期通常毛利高但因為獲客成本大導致淨利為負，這是正常的；如果毛利就低、淨利又負，那是商業模式有問題。

判讀方式

分析師說「P&L 更難跑」時，通常指該行業的毛利、CAC、retention 三個面向結構性惡化，連業績好的公司都難擠出淨利。AI 新創就是這個訊號—就算產品做得比大廠好，因為要付 token 費給上游 Labs，P&L 表現會比傳統 SaaS 弱很多，連帶估值被壓縮。

字型的可用集合在 process 啟動時決定

Wed, 01 Jul 2026 00:00:00 +0000

一個 process 能用哪些字型，是在它啟動的當下由 fontconfig（Linux 上統一管理字型搜尋與匹配的底層服務）決定並載入記憶體的。之後往系統裝新字型，不會回頭改變已經在跑的 process——它手上那份字型清單是啟動時的快照。「裝了字型卻還是豆腐」多數時候指向的是這個時序問題，而非安裝本身失敗。

這個機制發生在 fontconfig + process 記憶體層，跟顯示協議無關——Wayland 和 X11 下的行為相同。

同一時刻、兩種查詢結果

裝完新字型後，在終端機用 fontconfig 的查詢工具 fc-match（每次執行都是新 process）去查：

1fc-match ":lang=zh-tw"
2# Noto Sans CJK → 系統快取已有這支字

查得到。但同時間，一直開著的狀態列或通知 daemon 仍顯示豆腐。矛盾的根源是兩者的啟動時間不同：fc-match 剛啟動、讀到的是最新系統快取；那個豆腐的 daemon 是在裝字型之前啟動的，記憶體裡的字型清單沒有這支字。

套件管理器安裝字型時，post-install hook 通常已更新 fontconfig 的系統快取（pacman 會印 Updating fontconfig cache）。手動把字型檔放進 ~/.local/share/fonts/ 的情況下，需要自己跑 fontconfig 的快取重建工具 fc-cache：

1fc-cache -fv
2# -f 忽略時間戳、強制全部重建
3# -v 印出處理了哪些目錄

fc-cache 只更新系統快取層——磁碟上的索引檔。它不會觸及任何已啟動 process 的記憶體，跑再多次也改變不了舊 process 的字型清單。

判讀與操作

判讀訊號：fc-match 在命令列回得出正確字型，但某個一直開著的程式仍顯示豆腐，幾乎可確定是「那個程式啟動早於裝字型」。

修法是重啟該程式，不是 reload。reload 類指令（如 makoctl reload、送 SIGHUP）重讀的是設定檔——能換到 daemon 啟動時已可見的字型（例如從 A 字族改成 B 字族），但看不到啟動後才新裝的字型檔。根源是 reload 不重建記憶體裡的字型清單，只有重啟 process 才會從系統快取重新載入。

重啟的範圍取決於受影響的程式數量。單一 daemon（通知、狀態列）重啟那一個即可；由 compositor exec-once 拉起的一批元件要同時吃到新字型，最乾淨的做法是重新登入，讓它們全部重新啟動。

正常開機不會踩到這個坑——字型在開機早期就裝好，exec-once 啟動的元件從一開始就看得到完整字型集合。這個時序問題集中在「系統已經在跑、中途才補裝字型」的除錯情境。

延伸閱讀：Nerd Font 不含 CJK、需另裝 fallback 字型的具體案例見桌面 Shell 元件：狀態列、啟動器與通知；字型安裝方式見終端機與編輯器配置的字型管理段。

邊界與例外

fc-match 也查不到：連新 process 都找不到剛裝的字型，問題在系統快取層（fontconfig 索引未更新），跑 fc-cache -fv 解決。兩層的修法不同，fc-match 是分辨在哪一層的第一步。

部分應用程式支援熱載入：瀏覽器等有獨立字型服務的程式可能在開新分頁時重新掃描字型，不需要重啟整個 process。長駐 daemon（mako、waybar）與狀態列預設是啟動時載入一次。

Flatpak / Snap 的字型隔離是不同問題：沙箱化應用程式看不到 host 的字型目錄，重啟 process 也無法解決——原因不是時序，而是沙箱的檔案系統隔離。需要透過 Flatpak 的 filesystem override 或把字型放進沙箱可存取的路徑。

IAM（Identity and Access Management）

Fri, 26 Jun 2026 00:00:00 +0000

IAM（Identity and Access Management）是雲端平台用來回答「某個身分能不能對某個資源做某件事」的授權系統。它把授權拆成三個獨立的元件：identity（身分，發起動作的主體）、policy（政策，描述「允許或拒絕對哪些資源做哪些動作」的規則）、role（角色，一組可以被臨時取得的權限集合）。這三者的分工是後面所有憑證決策的前提。

概念位置

IAM 是模組二：身分與憑證地基的核心機制。它決定了誰能動什麼——人、服務、CI pipeline 各拿剛好夠用的權限（最小權限），憑證有明確的生命週期。身分層失守的代價在五個 infra 責任面向中最高，因為它是其他所有資源的閘門。

在 infra 系列中，IAM 的設計從三個維度展開：最小權限的持續收斂（不是一次設定就結束）、用 OIDC 短期憑證取代長期 access key、以及跨帳號的權限邊界（SCP + Permissions Boundary）。

可觀察訊號

IAM 需要關注的訊號：某個 role 的 policy 有 *:* 或 AdministratorAccess（權限過大）；credential report 顯示有長期 access key 超過 90 天未輪替（憑證散落風險）；Access Analyzer 顯示某個 role 的實際使用 action 遠少於授予的 action（權限擴散）；dev 環境的 CI role 能列出 production 的資源（環境隔離失效）。

設計責任

IAM 設計時要決定：

身分類型區分：人用 SSO 登入（強制 MFA）、雲上服務用 instance profile / task role、雲外 CI 用 OIDC 聯合
權限分級：admin / operator / viewer 三級，見團隊權限分級
環境隔離：每個環境的 role 不能存取其他環境的資源
收斂節奏：定期用 Access Analyzer 觀察實際使用的 action，收掉沒用到的權限

鄰卡

OIDC — 用短期 token 取代長期 access key 的聯合機制
Security Group — 網路層的存取控制（IAM 是 API 層的存取控制）
CloudTrail — 記錄 IAM 身分的 API 呼叫歷史

Burn Rate

Tue, 19 May 2026 00:00:00 +0000

Burn Rate 的核心概念是「燒錢速度」—公司每月淨支出（支出減收入）。新創靠融資活著，融到的錢除以 burn rate 等於 runway（還能撐多久）。月燒 100 萬、帳上 1200 萬，runway 是 12 個月。

概念位置

Burn Rate 是新創生存判斷的核心數字。它決定何時要再融資、能不能挺過下一輪、有沒有空間做長線投資。連 burn rate 都壓不住的新創，做技術領先也沒意義—錢燒完就死。判讀時要跟毛利與營收成長率一起看。

可觀察訊號與例子

判讀 burn rate 的健康度：要看跟「收入成長率」「毛利」搭配。月燒 100 萬但月營收成長 30%，是正向訊號；月燒 100 萬但營收不動，是危險訊號。早期新創燒錢搶市佔合理；C 輪後還在重燒就要懷疑商業模式。

判讀方式

分析師說「burn rate 撐不住」時，通常指該公司的單位經濟算不過來，融資環境也轉冷。AI 新創面對的是「毛利被壓縮 + 估值被壓縮 + 融資變難」三重夾擊，burn rate 就算不變，runway 也會縮短—因為下輪融資金額會比預期低。

Wayland Session Lock（鎖屏安全狀態）

Wed, 01 Jul 2026 00:00:00 +0000

鎖屏是 compositor 持有的安全狀態

Wayland 下的 compositor（如 Hyprland、Sway）同時管理視窗排列與畫面輸出。鎖屏工具（Hyprlock、Swaylock）一旦啟動，桌面的「鎖定」狀態就由 compositor 透過 ext-session-lock-v1（Wayland 生態系的跨 compositor 鎖屏協議）持有。解鎖的正常動作是鎖屏 client 通過認證後呼叫 unlock_and_destroy（協議定義的 request），compositor 收到這個信號才釋放鎖定。

這個責任邊界在自動化測試、VM 演練、遠端操作時最容易出事，因為這些情境常用「殺 process」當「關掉一個東西」的通用手段。殺掉鎖屏 client 跳過了認證，compositor 不會釋放鎖——畫面會卡在失效保護狀態而非回到桌面。

logind 提示與 compositor 鎖的值可以不一致

鎖屏狀態牽涉兩個獨立的層，觸發方向和持有者不同：

層	持有者	查看方式	語意
logind 會話鎖	systemd-logind	`loginctl show-session <id> -p LockedHint`	會話的鎖定提示，給登入管理器 / 螢幕保護程式
compositor 鎖	Wayland compositor	畫面是否進得去、鎖屏 surface 是否在最上層	實際擋住畫面的那層

loginctl lock-session 走 logind 層觸發鎖屏，鎖屏 client 收到信號後啟動、再向 compositor 取得 session lock。觸發方向是 logind → client → compositor；持有與強制執行方向是 compositor → 畫面。兩者方向相反，正好印證兩層是獨立的。

實測會遇到 LockedHint=no（logind 層說沒鎖）但畫面仍進不去——因為擋住畫面的是 compositor 的 ext-session-lock，跟 logind 提示是兩回事。判斷畫面進不進得去，看 compositor 層，不看 logind 層。

鎖屏 client 非正常結束時的失效保護

鎖屏 client 在持有鎖的狀態下死掉（被 kill、crash），compositor 沒有收到認證通過的信號，只能維持鎖定並顯示失效保護畫面。Hyprland 的失效保護畫面會直接給恢復指令：

1hyprctl --instance 0 'keyword misc:allow_session_lock_restore 1'
2hyprctl --instance 0 'dispatch exec hyprlock'

allow_session_lock_restore 允許新的鎖屏 client 接管既有的鎖（否則新 client 會因「已經鎖了」被拒）。接管後是乾淨的鎖屏 prompt，用密碼正常解鎖。

備好 restore 路徑時，殺掉無回應的鎖屏 client 是合理操作——問題不在「殺」、在「以為殺完就回桌面」。restore 的前提是有另一個可操作的 session：另一個 TTY 或 SSH 連線。ext-session-lock 的安全語意允許 compositor 攔截 VT 切換快捷鍵（Ctrl+Alt+Fn），遇到 TTY 切不過去的情況，SSH 是替代救援通道（事先配好 SSH server，見常見故障場景與恢復操作的 GPU hang 段）。

判讀與操作

判讀鎖定狀態：loginctl show-session $(loginctl show-user $USER -p Display --value) -p LockedHint 查 logind 層；compositor 層看畫面能否操作。兩層不一致時以 compositor 層為準。
正常解鎖：通過鎖屏 client 的認證（密碼 / 指紋），client 呼叫 unlock_and_destroy，compositor 釋放鎖。
失效保護恢復：從另一個 TTY 或 SSH 執行 hyprctl --instance 0 'keyword misc:allow_session_lock_restore 1' + hyprctl --instance 0 'dispatch exec hyprlock'，重新拉起鎖屏 prompt 後認證解鎖。
自動化流程的代價：啟動鎖屏後，畫面會留在鎖定狀態直到有人通過認證。自動化測試若會觸發鎖屏，要把「需人工解鎖」算進代價。
診斷路由：「畫面卡住 / 螢幕鎖了沒」當成一般 Linux 狀態判讀問題（跟判程式活著、判服務歸屬同類）時，見程序、服務與狀態怎麼判——它把「判 session 有沒有被鎖」放進「讀權威狀態、別看畫面猜」的通用診斷紀律裡。
延伸閱讀：鎖屏的視覺配置（背景、輸入框、時鐘 label）見配色系統、鎖屏與 GTK 主題的 Hyprlock 段；桌面故障恢復流程見常見故障場景與恢復操作。持鎖的那個 compositor 到底是什麼、還握著哪些系統狀態，見 Compositor 術語卡。

邊界條件

正常認證解鎖（走 unlock_and_destroy）後鎖屏 client 結束，compositor 已回到非鎖定狀態，不觸發失效保護。失效保護只在「持鎖中非正常結束」時出現。

Route Table

Fri, 26 Jun 2026 00:00:00 +0000

Route table 是一組轉送規則，掛在 subnet 上，定義「目的地是某個網段的封包該往哪送」。每個 subnet 關聯一張 route table，封包離開 subnet 時逐條比對規則、走最長前綴匹配的那一條。

概念位置

Route table 決定了一個 subnet 是 public 還是 private。技術上的差別只有一行：route table 裡有沒有一條 0.0.0.0/0 → Internet Gateway 的預設路由。有這條路由的 subnet 是 public（封包可以直接出網、外部也可以連入）；把預設路由指向 NAT Gateway 的 subnet 是 private（只能主動出站、外部無法入站）。subnet 本身的屬性不含 public/private 標記，性質完全由關聯的 route table 賦予。

可觀察訊號

private subnet 的服務突然拉不到外部套件或第三方 API 全部逾時時，排查路徑的第一步是檢查該 subnet 關聯的 route table：預設路由是否指向健康的 NAT Gateway。如果只有某一個可用區的節點受影響，通常是那一區的 NAT Gateway 或其所在 subnet 出狀況。

另一個常見訊號是新建的 subnet 沒有手動關聯 route table，被 VPC 的 main route table 自動關聯——main route table 的預設設定可能跟預期不符。

設計責任

使用 route table 時要決定：每個 subnet 的預設路由指向什麼（Internet Gateway / NAT Gateway / Transit Gateway / 無）、VPC 內部流量是否需要自訂路由（peering、endpoint）、以及 main route table 是否該保持空白以避免新 subnet 意外取得對外路由。每一條路由的目的地網段和目標要在 IaC 裡明確描述，讓 route table 的語意可被 review。

鄰卡

Subnet — route table 掛在 subnet 上
NAT — private subnet 的預設路由目標
VPC — route table 存在於 VPC 內

Runway

Tue, 19 May 2026 00:00:00 +0000

Runway 的核心概念是「現金能撐多久」—公司現有現金除以每月燒錢速度，得到剩餘月數。Runway 6 個月代表半年內必須融資或開始賺錢，不然倒閉。Runway 是新創融資節奏的計時器。

概念位置

Runway 是新創生存的時間軸。多數新創會在 runway 還剩 9-12 個月時開始準備下輪融資—因為融資本身要 3-6 個月，留安全邊際避免燒到斷糧。Runway 跟 burn rate 是一體兩面，控制其中一個就控制另一個。

可觀察訊號與例子

判讀 runway：12 個月以上是健康，6-12 個月是要開始準備融資，6 個月以下進入緊張期—投資人聞到味道會壓估值。創辦人說「我們有 24 個月 runway」通常是想展示「不急著融資、不會被壓估值」，是談判姿態。

判讀方式

讀到「runway 縮短」「runway 燒完」這類描述時，往往隱含商業環境惡化或公司本身的單位經濟出問題。AI 新創面臨估值壓縮時，runway 會雙重壓縮—現金照樣燒，但下輪融資金額變少。創辦人此時的選擇是提早融資、裁員壓 burn rate、或快速找買家。

fontconfig — 字型搜尋、匹配與 fallback 服務

Wed, 01 Jul 2026 00:00:00 +0000

fontconfig 是 Linux 上統一管理字型搜尋、匹配與 fallback 的底層服務。應用程式透過 fontconfig 的 API 查詢可用字型，而非自行掃描字型目錄——無論是終端機、狀態列、通知 daemon 還是瀏覽器，底層都走同一套查詢介面。

fc-* 工具分工

fontconfig 附帶一組命令列工具，各自負責一件事：

工具	用途	常用情境
`fc-list`	列出系統已知的所有字型（字族名、檔案路徑）	確認某支字型有沒有裝、查實際字族名
`fc-match`	查詢指定條件的最佳匹配結果	確認 config 裡寫的字族名會匹配到哪支字
`fc-cache`	重建 fontconfig 的系統快取	手動放字型檔後更新快取（套件安裝通常自動跑）
`fc-pattern`	印出字型的完整屬性（除錯用）	查字型支援的語言、字重、字形變體

fc-list 和 fc-match 每次執行都是新 process，讀到的是當下最新的系統快取。這跟已啟動的長駐程式不同——長駐程式的字型清單是啟動時的快照，詳見 font-availability-at-startup。

1fc-list | grep -i meslo
2# 確認 MesloLGS Nerd Font 有沒有裝、實際字族名是什麼
3
4fc-match "MesloLGS Nerd Font"
5# 查 config 裡寫的名字會匹配到哪支字型檔
6
7fc-match ":lang=zh-tw"
8# 查系統有沒有可用的繁體中文字型

Fallback chain

應用程式在 config 裡指定字族名（如 MesloLGS Nerd Font），fontconfig 依以下順序處理：

在已知字型中找完全匹配的字族
找不到就沿 fallback chain 往下找候選——fontconfig 的預設 fallback 規則定義在 /etc/fonts/conf.d/ 的 XML 設定檔中
CJK fallback 依語言優先序決定——fc-match ":lang=zh-tw" 回的是 fontconfig 認為最適合該語言的字型

Nerd Font（MesloLGS、JetBrainsMono 等）只含 Latin 字元與圖示 glyph，CJK 字元靠 fallback 到另一支字型（如 noto-fonts-cjk）補齊。fontconfig 的 fallback 對應用程式透明——應用程式只指定主字型，缺字時 fontconfig 自動補。

系統快取

fontconfig 把字型目錄的掃描結果存成快取檔，避免每次查詢都重新掃描整個檔案系統：

系統層快取：/var/cache/fontconfig/
使用者層快取：~/.cache/fontconfig/

套件管理器安裝字型時，post-install hook 會自動執行 fc-cache 更新系統快取（pacman 安裝完會印 Updating fontconfig cache）。手動把字型檔放進 ~/.local/share/fonts/ 時需要自己跑 fc-cache——不跑的話 fontconfig 看不到新字型。

fc-cache -f 的 -f 是 force，忽略時間戳全部重建；不加 -f 只更新有變動的目錄。兩者都只動系統快取層——已啟動的 process 記憶體中的字型清單不受影響，那是另一個層級的問題（見 font-availability-at-startup）。

下一步路由

字型安裝方式：終端機與編輯器的字型管理段
裝了字型但應用程式還是看不到：font-availability-at-startup（process 啟動時快照的時序問題）

SCP (Service Control Policy)

Fri, 26 Jun 2026 00:00:00 +0000

Service Control Policy（SCP）是 AWS Organizations 裡套用在 OU 或帳號上的權限上限。SCP 不授予權限——它設定一個天花板，限制該範圍內的 IAM 能做什麼。即使帳號內有 AdministratorAccess 的 IAM role，SCP deny 的操作仍然被擋下。

概念位置

SCP 跟 IAM policy 的關係是交集而非覆蓋：一個操作要同時被 SCP 允許且被 IAM policy 允許才會生效。SCP 的設計目的是讓組織管理者設定「即使帳號管理員也做不了」的護欄，常見的 day-1 SCP 包括：禁止關閉 CloudTrail、禁止離開指定 region、禁止刪除 VPC Flow Logs。

SCP 套用在 OU 上時會繼承給 OU 下所有帳號和子 OU。Management account（Organizations 的根帳號）不受 SCP 約束——這是設計上的逃生門，也是 management account 應該盡量不跑 workload 的原因。

可觀察訊號

當帳號內的 IAM role 執行某個操作時收到 AccessDeniedException、但該 role 的 IAM policy 確實允許該操作，SCP 是第一個要檢查的位置。另一個訊號是新帳號加入 OU 後某些原本能用的服務突然不可用——通常是繼承了 OU 的 SCP deny list。

設計責任

SCP 的設計要決定：用 deny-list 策略（預設全開、明確列出禁止項）還是 allow-list 策略（預設全關、明確列出允許項）。Deny-list 較常見也較易維護——只需要管「哪些該禁」。Allow-list 更嚴格但維護成本高——每次有新服務需求都要更新 SCP。

套用 SCP 前要確認不會擋到正在運作的服務——先在 sandbox OU 測試，確認既有 workload 不受影響再推到 workload OU。SCP 的變更跟 IAM 一樣要走 PR review。跨帳號策略的完整設計見跨帳號策略文章。

鄰卡

IAM — SCP 是 IAM policy 的上層天花板
環境分離 — SCP 靠 OU 結構實現環境之間的權限隔離

Remote State Backend

Fri, 26 Jun 2026 00:00:00 +0000

Remote state backend 是 IaC 工具用來存放 state 的共享儲存機制。它要同時滿足三件事：持久保存（不會因為某台筆電故障而遺失）、防止並行寫入衝突（兩個人不能同時 apply）、以及保護敏感內容（state 內含資源的真實屬性，可能包含密碼或 key）。

概念位置

State 是 IaC 工具對現實的唯一記憶。把它放在本地檔案系統等於把整個基礎設施的記憶綁在一台機器上——換人接手、換台電腦、或兩人同時 apply，記憶就分裂了。Remote state backend 解決的是「讓 state 變成團隊共用的、有保護的事實來源」。

典型的自管組合是 S3（存放 state 檔、開 versioning 和加密）加上 DynamoDB（提供 apply 時的並行鎖）。託管服務（Terraform Cloud、Spacelift）把存放、鎖和加密包在一起，用月費換掉配置和維運負擔。

可觀察訊號

本地 state 的失敗訊號是：跑 terraform plan 時出現「想刪掉」明知存在的資源——通常代表本地 state 跟雲端實際狀態已經脫節。另一個訊號是兩個人同時跑 apply 但沒有任何鎖機制阻擋——結果是互相覆蓋對方的變更，state 進入不一致狀態。

Remote backend 設定後，如果 terraform init 提示 state 遷移確認，代表正在從本地搬到遠端——這是正確的一次性操作，但搬遷過程中不能有其他人在 apply。

設計責任

選擇 remote state backend 時要決定：自管還是託管（取決於團隊規模和維運餘裕）、state bucket 的加密與存取控制（誰能讀 state 等於誰能看到所有資源的敏感屬性）、versioning 是否開啟（是 state 回捲的唯一退路）、以及鎖表的設定（DynamoDB 的表名和 partition key）。

State 絕不能進 git——它含明文敏感值，推進版控等於把密碼寫進每個 clone 的歷史裡。Backend 設定本身（bucket name、region、鎖表名稱）寫在 HCL 裡進 git，state 檔本身只存在 backend 裡。

鄰卡

State — remote backend 存放的對象
Drift — state 與現實不一致時的現象
IaC — remote state backend 是 IaC 工具的基礎設施

Trust Policy

Fri, 26 Jun 2026 00:00:00 +0000

Trust policy 是附加在 IAM role 上的一份 JSON 文件，定義「誰被允許臨時取得（assume）這個 role 的權限」。跟 IAM policy 的差別是：IAM policy 描述「這個 role 能做什麼」，trust policy 描述「誰能變成這個 role」。兩者合在一起才構成完整的授權——先過 trust policy 的門、再受 IAM policy 的限。

概念位置

Trust policy 是 OIDC 聯合的核心配件。當 CI/CD 平台（GitHub Actions、GitLab CI）要用短期憑證存取雲端資源時，trust policy 用 OIDC token 裡的 claim（issuer、audience、subject）決定「這個 token 代表的身分能不能 assume 這個 role」。

Trust policy 的設計要點是 claim 的收斂程度。只驗 issuer 而不驗 repo 和 branch，等於同一個 CI 平台上所有專案都能 assume 這個 role——這是常見的設定陷阱。收到最緊意味著限定到「某個 org 的某個 repo 的某個 branch 或 environment」。

可觀察訊號

sts:AssumeRoleWithWebIdentity 呼叫失敗、回傳 AccessDenied 時，問題通常在 trust policy 的 condition 比對不上。排查路徑是把 CI 平台簽發的 OIDC token decode（JWT 的 payload 部分），逐一比對 token 裡的 iss、aud、sub 跟 trust policy 的 condition 值。

另一個訊號是 trust policy 的 condition 用了 StringLike 但 pattern 太寬（如 repo:my-org/*），讓非預期的 repo 也能 assume——這類過寬的 trust policy 在安全稽核時會被標記。

設計責任

設計 trust policy 時要決定：允許哪些外部身分 assume（issuer + subject 的精確匹配）、audience 是否需要額外驗證（AWS 預設 sts.amazonaws.com）、以及是否把 plan role 和 apply role 分開（plan 只需 read-only、apply 需要 write，用兩個 role 各自設不同 trust condition 來區分 branch 或 environment）。

Trust policy 的變更跟 IAM policy 一樣要走 PR review——因為改寬一個 condition 就等於給更多外部身分開門。設定指南見 OIDC Trust Policy 設定指南。

鄰卡

IAM — trust policy 是 IAM role 的一部分
OIDC — trust policy 用 OIDC token 的 claim 做 assume 判斷

Deletion Protection

Fri, 26 Jun 2026 00:00:00 +0000

Deletion protection 是雲端平台在資源層級提供的防護機制：開啟後，任何刪除該資源的操作（Console 點按、CLI 指令、IaC 的 destroy）都會被擋下，必須先顯式關閉保護才能執行刪除。這個額外步驟的目的是防止手滑、批次操作誤傷、以及 Terraform plan 裡意外出現的 destroy。

概念位置

Deletion protection 是 stateful 資源保護的第一道防線。運算節點可以隨時重建，資料一旦遺失通常無法重來——這條分界線決定了哪些資源該開保護。對 stateful 資源（資料庫、持久化儲存）來說，這是 day-1 該開的設定，不是「等穩定再開」的選項。

不同 AWS 服務的保護機制名稱不同但行為一致：

服務	屬性名稱	保護對象
RDS	`deletion_protection`	資料庫 instance
EC2	`disable_api_termination`	運算 instance
S3	MFA delete	bucket 版本控制
DynamoDB	`deletion_protection_enabled`	表格

可觀察訊號

需要開啟 deletion protection 的訊號是資源承載了不可重建的狀態。判斷方式是問一個問題：「這個資源被刪除後，能不能在 10 分鐘內從程式碼或備份完整恢復？」不能的就該開。

terraform plan 輸出裡出現 destroy 或 forces replacement（-/+）時，deletion protection 是阻擋意外資料遺失的最後一道閘門。有保護的資源在 apply 時會報錯而非直接刪除，讓操作者有機會停下來確認。

設計責任

用 IaC 描述 stateful 資源時，把 deletion protection 寫進程式碼而非手動在 Console 開啟——這讓保護策略本身成為可審查、可追蹤的設定。同時搭配 skip_final_snapshot = false（RDS）確保刪除前自動做最後一份快照。

Deletion protection 擋的是刪除操作，不擋資料覆寫或邏輯損壞——一段錯誤的 UPDATE 不會被 deletion protection 攔截。資料層的完整防線還需要備份保留與時間點還原（PITR），跟 deletion protection 正交。

鄰卡

State — deletion protection 在 state 裡記錄為資源屬性，plan 會顯示保護狀態
IaC — 保護策略寫進 IaC 讓它可審查

checkov

Fri, 26 Jun 2026 00:00:00 +0000

checkov 是一個開源的靜態分析工具，掃描 Terraform / CloudFormation / Kubernetes 等 IaC 程式碼，比對內建的規則庫找出安全漏洞與合規違規。它在 plan 之前或之後執行、不建立任何雲端資源，所以是 CI pipeline 裡最便宜的安全檢查之一。

概念位置

checkov 在 infra PR 流程裡的位置是 fmt → validate → checkov / tfsec → plan。前兩步檢查語法正確，checkov 檢查語意安全，plan 檢查實際差異。checkov 補的是 reviewer 肉眼容易漏的盲區——一條 security group 規則寫成 0.0.0.0/0 在 HCL 裡只是一行字串，人會看漏，規則不會。

三個常見的 IaC 掃描工具各有側重：

工具	側重	維護方
checkov	安全 + 合規	Prisma Cloud (Palo Alto)
tfsec	安全	Aqua Security
tflint	provider 正確性	社群

checkov 的規則庫最廣（涵蓋 CIS Benchmark、SOC 2、PCI DSS 等合規框架），tfsec 的規則更聚焦安全面，tflint 偏向「這個 instance type 在這個 region 存不存在」的 provider 正確性。三者可疊加使用。

可觀察訊號

需要引入 checkov 的訊號是 PR review 開始漏掉安全問題——S3 bucket 缺 public access block、RDS 沒開加密、IAM policy 過寬。這些問題的 pattern 是固定的、可以用規則比對，不應該靠人記憶來擋。

checkov 命中後要區分「真漏洞」和「情境合理的例外」。ALB 的 HTTPS listener 在 port 443 開 0.0.0.0/0 是設計本意，不是漏洞。豁免用行內註解標記並寫理由：#checkov:skip=CKV_AWS_260:ALB public HTTPS listener。詳細的規則配置與豁免管理見 checkov 與 tfsec 規則配置。

設計責任

引入 checkov 時要決定兩件事：啟用哪些規則（全部 vs 漸進啟用），以及命中時 CI 要不要擋（hard fail vs warning）。常見的漸進策略是先從高嚴重度規則開始、設為 hard fail，中低嚴重度設為 warning，隨團隊習慣逐步收緊。

鄰卡

IaC — checkov 掃描的對象
Security Group — checkov 最常攔截的 0.0.0.0/0 全開規則

GTM

Tue, 19 May 2026 00:00:00 +0000

GTM 的核心概念是「Go-To-Market，進入市場策略」—公司怎麼把產品賣到市場上的整套打法，包括定位、定價、銷售管道、目標客戶、行銷訊息、組織安排。GTM 不只是行銷或銷售，是從產品到收入的完整路徑設計。GTM 選擇決定 CAC 結構。

概念位置

GTM 是商業模式的執行層。同一個產品可以走不同 GTM—例如 PLG（產品自助）、Sales-led（業務驅動）、Channel（通路夥伴）、FDE（前線駐點）、Enterprise License（企業合約）。GTM 選擇直接影響 CAC、銷售週期、客戶輪廓。

可觀察訊號與例子

判讀一家公司的 GTM：看它的銷售團隊比例（PLG 銷售很少，Enterprise 銷售人數比工程師多）、客戶簽約週期（PLG 幾分鐘，Enterprise 幾個月）、定價公開程度（PLG 全公開，Enterprise 需要 contact sales）。同一家公司在不同產品線可能走不同 GTM。

判讀方式

讀「重新設計 GTM」「FDE 是新的 GTM」這類論述時，意味著該公司認為原本的進市場路徑不可行，需要結構性換打法。AI Labs 共同的 GTM 轉向就是從「賣 API 給開發者」變成「派工程師進企業」—這是 GTM 層的重大判斷，不只是業務團隊增員，而是商業模式的重新定位。

Fargate

Fri, 26 Jun 2026 00:00:00 +0000

Fargate 是 AWS ECS 的一種 launch type，把容器的運算實例交給 AWS 代管。使用 Fargate 時不需要配 EC2 instance、不需要管 capacity provider 的 scaling、不需要更新 AMI——只描述 task 需要多少 vCPU 和記憶體，AWS 負責分配運算資源。

概念位置

ECS 有兩種 launch type，差別在運算層的管理責任：

Launch type	運算層管理	適用情境
Fargate	AWS 代管	web API、微服務、批次任務
EC2	自管 instance	GPU workload、高密度排程、成本敏感

Fargate 降低的是運維面（不用管 OS patch、不用管 instance 容量），代價是單位成本較高（同規格約比 EC2 高 20-40%）和啟動延遲（cold start 通常在 30-60 秒，EC2 上的 task 因為 instance 已在所以秒級啟動）。多數 web API 的初始選擇是 Fargate，流量穩定且成本壓力大時再切回 EC2 launch type。

可觀察訊號

評估是否從 Fargate 切到 EC2 的訊號是月費曲線。Fargate 按 vCPU-hour 和 memory-hour 計費，task 數量少時費用低、管理簡單。當 task 數量穩定在 10-20 個以上且流量模式可預測時，EC2 launch type 搭配 reserved instance 或 Savings Plans 的成本優勢開始顯著——但要承擔 instance 管理的運維負擔。詳細的成本分析見 ECS Fargate 成本分析與優化。

Fargate Spot 是介於兩者之間的選項：費用約為 on-demand Fargate 的 30%，但 AWS 可以隨時中斷 task（提前 2 分鐘通知）。適合可容忍中斷的 workload（批次處理、非即時的資料轉換），不適合面對使用者的即時 API。常見的混合策略是用 on-demand Fargate 跑基線流量、Fargate Spot 跑彈性擴張的部分。

設計責任

選 Fargate 時要決定三件事：task 的 vCPU / memory 規格（Fargate 的可選組合是固定的，不是任意搭配）、是否混用 Spot、以及 health check 的 grace period（Fargate 的 cold start 比 EC2 長，health check 太早判定失敗會讓 task 反覆重啟）。

task 規格的 rightsizing 靠 CloudWatch Container Insights 的 CPU / memory utilization 決定——p95 使用率低於 30% 代表規格過大、持續高於 80% 代表該升級。

鄰卡

ECS — Fargate 是 ECS 的 launch type 之一
ALB — Fargate task 通常掛在 ALB 的 target group 後面

PLG

Tue, 19 May 2026 00:00:00 +0000

PLG 的核心概念是「Product-Led Growth，產品自助成長」—讓使用者自己註冊、自己上手、自己付費，不靠業務團隊推銷。Slack、Notion、Figma、Zoom 都是經典 PLG。PLG 是 GTM 策略的一種，前提是極低 CAC 與接近零邊際成本。

概念位置

PLG 跟 Sales-led（業務驅動）相對。PLG 依賴極低的 CAC、接近零的邊際成本、產品本身有自帶傳播力（同事看到就會用）。三者中任何一個鬆動，PLG 數學就難跑—這是 AI 時代 PLG 不再萬靈丹的結構原因。

可觀察訊號與例子

判斷一個產品走 PLG：免費試用無需信用卡、註冊到啟用只要幾分鐘、定價公開且自助購買、產品內建分享機制（邀請同事、共用文件）。Calendly 的 PLG 經典—被約會的人看到別人用就會自己去註冊，產品本身就是行銷管道。

判讀方式

PLG 的數學前提是「毛利夠高 + 邊際成本夠低」—這樣免費使用者也不傷成本，付費轉化能彌補。AI 產品因為推論成本真實存在，免費試用會直接燒錢，PLG 就難跑—這就是為什麼 AI Labs 都在從 PLG 轉向 Enterprise License 與 FDE。

phpMyAdmin

Fri, 26 Jun 2026 00:00:00 +0000

phpMyAdmin 是一套透過瀏覽器操作 MySQL 和 MariaDB 的 Web 應用程式。它提供圖形介面執行 SQL 查詢、瀏覽資料表、匯出與匯入資料庫、修改 schema（新增欄位、改索引、刪表）、以及管理使用者權限。多數主機商在安裝 cPanel 或 Plesk 時會一併預裝，讓租用主機的使用者不需要 SSH 就能管理資料庫。

概念位置

在無 SSH 的主機環境裡，phpMyAdmin 通常是唯一可用的資料庫管理入口。它取代了 mysql CLI client 和 mysqldump 指令的角色——查詢用 SQL 編輯器、匯出用匯出頁面、匯入用上傳 SQL 檔。接手維運時，phpMyAdmin 是拍下資料庫現況（SQL dump）的主要工具。

可觀察訊號

以下情境會遇到 phpMyAdmin：主機面板（cPanel / Plesk）裡有「phpMyAdmin」按鈕可以進入；接手的專案的資料庫操作文件提到「在 phpMyAdmin 裡執行」；或者專案的部署流程包含「登入 phpMyAdmin 匯入 SQL」。

設計責任

使用 phpMyAdmin 時要處理三個限制。第一是匯出 timeout：大資料庫（50MB 以上）的匯出可能因為 PHP 的 max_execution_time 限制而中斷，需要分表匯出或調整 phpMyAdmin 設定。第二是沒有 CLI 可腳本化：所有操作都要手動點擊，無法排程自動備份。第三是安全暴露：phpMyAdmin 掛在 web 上、可被外部存取，如果沒有設密碼保護或 IP 白名單，等於把資料庫管理介面開給全世界。

如果主機允許遠端 MySQL 連線（port 3306 開放），可以改用桌面工具（DBeaver、TablePlus、HeidiSQL）直連資料庫，繞過 phpMyAdmin 的 timeout 限制。

鄰卡

cPanel：phpMyAdmin 通常內嵌在 cPanel 裡

FDE

Tue, 19 May 2026 00:00:00 +0000

FDE 的核心概念是「Forward Deployed Engineer，前線部署工程師」—工程師直接派駐到客戶公司，跟客戶一起把產品塞進工作流程，不是賣完軟體就走。Palantir 是 FDE 模式的鼻祖，OpenAI、Anthropic、Google 近年都在大規模採用。FDE 是 GTM 策略的一種，與 PLG 相對。

概念位置

FDE 的成立條件是客戶有大量隱性知識寫不進 SOP，產品需要現場萃取這些知識才能落地。Palantir 過去獨佔 FDE 模式是因為 unit economics 算不過來—現在 AI 編程工具改變了這個前提，FDE 可以下沉到中型企業市場。

可觀察訊號與例子

FDE 模式的訊號：客戶簽約後工程師長駐客戶辦公室幾週到幾個月、產品高度客製化、合約金額大、續約率極高。Palantir 一個 FDE 一年原本只能服務一兩個大客戶；Vibe Code 工具把原型開發時間從幾週壓到幾小時後，FDE 產能變成過去三到五倍。

判讀方式

讀到「某家公司轉向 FDE」時，意味著該行業的需求不能靠語言描述清楚—客戶說「我要一個 agent」這句資訊量太低，必須現場跟業務人員一起跑真實案例。FDE 是這波 AI 商業化的 enabler，因為它能把客戶的隱性知識編碼進 evaluation set。是長期結構還是過渡狀態目前無解。

FileZilla

Fri, 26 Jun 2026 00:00:00 +0000

FileZilla 是一套開源的 FTP / SFTP / FTPS client，支援 Windows、macOS 和 Linux。它的介面分成本地和遠端兩側的檔案瀏覽器，讓使用者透過拖放或右鍵選單在本機與伺服器之間傳輸檔案。在無 SSH 的主機環境裡，FileZilla 是上傳程式碼和下載備份的主要工具。

概念位置

FTP 是無 SSH 環境裡傳輸檔案的主要協定。FileZilla 把 FTP 操作從 CLI（如 ftp 或 lftp 指令）包裝成圖形介面，降低操作門檻。接手維運時，FileZilla 的角色是「把整個站台拉回本地」和「把改好的檔案推上 prod」。

可觀察訊號

以下情境會用到 FileZilla：接手的專案只有 FTP 帳密沒有 SSH key；部署方式是「FTP 上傳改過的檔案」；或者需要對比本地版本和伺服器版本的差異。

設計責任

使用 FileZilla 時有三個關鍵功能和注意事項。

站台管理員：儲存多組 FTP 連線設定（主機、帳號、密碼、port），避免每次手動輸入。接手時第一步是在站台管理員建好 prod 的連線，並確認協定選擇正確（FTP 明文、FTPS 加密、SFTP 走 SSH）。

目錄比較：「檢視 → 目錄比較 → 啟用」功能會標示本地與遠端的檔案差異——哪些本地較新、哪些遠端較新、哪些只存在於一邊。上傳前先跑目錄比較可以看到即將改動的範圍。

隱藏檔：預設不顯示以 . 開頭的檔案（如 .htaccess、.env、.user.ini）。要在「伺服器 → 強制顯示隱藏檔案」啟用，否則接手時會漏拉這些關鍵設定檔。

FTP 傳輸是逐檔覆寫、沒有原子性——上傳到一半斷線會讓伺服器上同時存在新舊版本的混合狀態。對關鍵檔案（index.php、.htaccess）的上傳需要額外小心。

鄰卡

無。FileZilla 是獨立工具。替代工具包括 WinSCP（Windows）、Cyberduck（macOS）、Transmit（macOS）。

JV

Tue, 19 May 2026 00:00:00 +0000

JV 的核心概念是「Joint Venture，合資企業」—兩家或多家公司一起出資成立新公司或合作專案，共享風險與收益。Anthropic 跟 Blackstone、高盛合資進企業市場，就是 JV 模式。JV 是進入新市場的一種 GTM 結構。

概念位置

JV 適用於需要對方的客戶基礎、行業知識或法律授權，但又不想被完全併購的場景。相對於自建（greenfield）或併購（acquisition），JV 共擔風險、共享資源，但決策複雜度高。常跟 FDE 一起出現—JV 提供客戶基礎、FDE 提供現場落地能力。

可觀察訊號與例子

JV 常見訊號：合作雙方有互補資源（A 有技術、B 有客戶）、新公司有獨立董事會與管理層、股權比例與決策權設計複雜。Anthropic + Blackstone 的 JV—Anthropic 出 AI 技術，Blackstone 出 PE 投資組合公司當客戶基礎。

判讀方式

看到 AI Labs 大規模做 JV，意味著它們判斷單靠自己進企業市場效率太低，需要借力行業既有玩家。這跟 FDE 一起出現的訊號是「PLG 模式不適合 AI 進企業」—得用更重、更貼客戶的方式做 GTM。JV 的潛在風險是文化衝突、決策慢、利益分配難算清楚。

cPanel

Fri, 26 Jun 2026 00:00:00 +0000

cPanel 是最常見的 Web 主機管理面板，讓租用主機的使用者透過瀏覽器管理伺服器的常用功能——PHP 版本切換、cron job 排程、email 帳號管理、SSL 憑證安裝、檔案管理、資料庫管理、以及完整備份。Plesk 是同類產品，功能範圍相似但介面和設定路徑不同。

概念位置

cPanel 是無 SSH 環境裡的「控制中心」。它整合了多種工具的圖形入口：phpMyAdmin（資料庫）、檔案管理員（web 版 FTP）、PHP 設定、cron 編輯器、SSL/TLS 管理。接手維運時，第一步是確認有沒有 cPanel 存取權——有的話很多操作（備份、PHP 版本、cron）可以在面板裡完成，不需要 SSH。

可觀察訊號

以下情境代表環境有 cPanel：主機商提供了 cPanel 登入 URL（通常是 domain:2083）；接手時收到的帳密包含「cPanel 帳號」；或者主機商的服務說明提到 cPanel / WHM。

設計責任

接手維運時，cPanel 有幾個關鍵功能要確認：

完整備份：「備份精靈」可以一次打包整個帳號（檔案 + 資料庫 + email + cron + DNS 設定）。這是最快的「拍下現況」方式——比 FTP 逐檔拉 + phpMyAdmin 匯出快得多。但完整備份通常只能下載、不能自動排程到外部儲存（部分主機商限制）。

PHP 版本選擇器：可以切換整個帳號或單一域名的 PHP 版本。升級 PHP 時，可以先在 staging 子域名切到新版本測試、確認沒問題再切主域名。這是無 SSH 環境裡最安全的 PHP 升級方式。

cron job 管理：圖形介面設定排程任務，語法是 cron 標準格式。接手時要截圖或匯出所有 cron——它們可能是系統運作的隱性依賴（定期清快取、寄報表、同步資料）。

SSL/TLS：管理 HTTPS 憑證。部分主機商整合了 Let’s Encrypt 自動簽發，部分需要手動上傳憑證。

鄰卡

phpMyAdmin：通常內嵌在 cPanel 的「資料庫」區塊裡

CAC

Tue, 19 May 2026 00:00:00 +0000

CAC 的核心概念是「Customer Acquisition Cost，獲客成本」—拉一個新客戶進來總共要花多少錢，包括行銷費、業務人力、廣告投放、銷售獎金等所有成本除以新客數。CAC 是單位經濟的核心參數。

概念位置

CAC 跟 LTV 一起構成單位經濟的兩端。LTV/CAC > 3 通常被視為健康，意思是一個客戶帶來的總收入要至少是獲取成本的三倍。CAC 由 GTM 選擇決定—不同 GTM 對應不同 CAC 量級。

可觀察訊號與例子

不同 GTM 的 CAC 差異極大：PLG 的 CAC 可以很低（幾十美金，靠口碑），Sales-led 的 CAC 從幾百到幾千美金，Enterprise / FDE 的 CAC 可達幾萬到幾十萬美金（要派工程師駐點）。

判讀方式

讀到「CAC 上升」「PLG 數學算不過來」時，通常指該行業面臨毛利下滑或 LTV 下降，導致原本能撐的 CAC 變成負擔。AI 時代許多新創要把 GTM 從 PLG 改成 Sales-led 或 FDE，意味著 CAC 會大幅上升—這直接擠壓 P&L 與估值。

.htaccess

Fri, 26 Jun 2026 00:00:00 +0000

.htaccess（Hypertext Access）是 Apache Web Server 的目錄層級設定檔。它讓使用者在沒有伺服器管理員權限的情況下，覆寫 Apache 的部分全域設定——包括 URL 重寫規則、目錄存取控制、PHP 設定覆寫、HTTPS 強制跳轉、以及 HTTP 安全標頭。每個目錄可以有自己的 .htaccess，Apache 處理請求時會從根目錄到目標目錄逐層讀取並套用。

概念位置

在 Apache 為主的主機環境（多數共享主機和部分 VPS），.htaccess 是不需要重啟伺服器就能調整行為的設定機制。WordPress、Laravel、Drupal 等 PHP 框架都依賴 .htaccess 的 URL rewrite 規則來實現 pretty URL（把 /blog/post-title 轉成 index.php?page=post-title）。

可觀察訊號

站台根目錄有 .htaccess 檔案（注意它是隱藏檔，FTP client 要啟用「顯示隱藏檔案」才看得到）。上傳目錄（uploads/）、後台目錄（admin/、wp-admin/）可能各有一份獨立的 .htaccess 做額外的存取控制。

設計責任

接手維運時，.htaccess 要注意四件事：

URL rewrite 規則：這些規則決定了站台的 URL 結構。亂改或刪除會讓所有內頁都回 404。修改前先備份原始版本。

安全設定：Options -Indexes 禁止目錄列表、php_flag engine off 禁止上傳目錄執行 PHP、Require all denied 禁止存取 .env 等機密檔案。這些設定分散在多個目錄的 .htaccess 裡，接手時要全部找出來。

PHP 設定覆寫：部分 PHP 設定（如 upload_max_filesize、max_execution_time）可以在 .htaccess 裡用 php_value 或 php_flag 指令覆寫。這些覆寫可能不在 php.ini 裡，只存在於 .htaccess。

遷移到 nginx 的影響：nginx 沒有 .htaccess 的對等機制——所有設定都在集中的 nginx 設定檔裡。從 Apache 遷移到 nginx 時，.htaccess 裡的每一條規則都要手動轉換成 nginx 語法。

鄰卡

php.ini / .user.ini：.htaccess 管 Apache 行為，.user.ini 管 PHP 行為，兩者互補

.env

Fri, 26 Jun 2026 00:00:00 +0000

.env 是一個純文字檔案，每行一組 KEY=VALUE 的環境變數定義。它的用途是把機密值（資料庫密碼、API key、SMTP 憑證）和環境專屬設定（資料庫 host、debug 模式開關）從程式碼分離出來，讓同一份程式碼在不同環境（開發、staging、production）用不同的設定值，而且機密值不進版本控制。

概念位置

.env 是跨語言的設定分離慣例。PHP 用 vlucas/phpdotenv 套件讀取、Node.js 用 dotenv 套件、Python 用 python-dotenv、Go 用 godotenv。這些套件的行為相同：程式啟動時讀 .env 檔案，把裡面的變數載入到執行環境的環境變數裡，讓程式碼用 $_ENV['KEY']（PHP）或 process.env.KEY（Node）存取。

可觀察訊號

站台根目錄有 .env 或 .env.production 檔案；.gitignore 裡有 .env 這一行；repo 裡有 .env.example 或 .env.sample 列出所有需要的變數但不填實際值。如果接手的專案沒有 .env 但 config.php 裡直接寫了資料庫密碼，代表設定分離還沒做——這是接手後應該處理的事。

設計責任

使用 .env 時有三個紀律：

不進 Git：.env 包含明文密碼，進了 Git 就跟著每一次 clone、fork、CI 快取擴散。.gitignore 必須排除 .env。如果 .env 已經在 Git 歷史裡，刪掉那一行不夠——密碼留在 history 裡，要輪替所有外洩的密碼。

範本檔進 Git：repo 裡放一份 .env.example，列出所有必要的環境變數但不填實際值。新接手的人複製 .env.example 成 .env，再填入自己環境的值。

不用 .env 管非機密設定：應用程式的功能開關、UI 設定、feature flag 不屬於 .env——這些設定沒有機密性、應該進版本控制。.env 只放「換一個環境就要改的值」和「不能被看到的值」。

鄰卡

php.ini / .user.ini：.env 管應用程式設定、php.ini 管 PHP runtime 設定

php.ini / .user.ini

Fri, 26 Jun 2026 00:00:00 +0000

php.ini 是 PHP 的全域設定檔，控制 PHP 的 runtime 行為——記憶體上限、檔案上傳大小、最大執行時間、錯誤報告層級、時區、session 處理方式。.user.ini 是 PHP 5.3 之後支援的目錄層級覆寫機制，放在站台目錄裡可以覆寫部分 php.ini 的設定，不需要伺服器管理員權限。

概念位置

php.ini 由伺服器管理員管理，租用主機的使用者通常不能直接修改。.user.ini 是使用者層級的設定覆寫——功能上類似 .htaccess 對 Apache 的角色，但只管 PHP 設定。在 cPanel 環境裡，部分設定也可以透過「PHP 選擇器」的圖形介面調整。

可觀察訊號

PHP 行為異常時要檢查的第一個地方。常見的情境：上傳檔案失敗（upload_max_filesize 太小）、長時間運算被中斷（max_execution_time 太短）、記憶體不足錯誤（memory_limit 太低）、看不到錯誤訊息（display_errors 關閉）。用 phpinfo() 可以看到每一項設定的目前值和來源（php.ini / .user.ini / .htaccess）。

設計責任

接手維運時要知道的關鍵設定：

設定	作用	常見預設值	接手時要確認的事
`memory_limit`	PHP 程式的記憶體上限	128M	大型操作（匯出、圖片處理）是否夠用
`upload_max_filesize`	單檔上傳大小上限	2M	是否符合業務需求
`post_max_size`	POST 請求的總大小上限	8M	要大於 upload_max_filesize
`max_execution_time`	PHP 腳本最大執行秒數	30	長時間操作（備份、匯入）是否需要加長
`error_reporting`	顯示哪些層級的錯誤	E_ALL	開發時開到 E_ALL、production 時關 display_errors
`display_errors`	是否在頁面上顯示錯誤	Off	production 應該關閉（錯誤寫 log 不顯示給使用者）

.user.ini 的修改不需要重啟 Apache/nginx，但有快取時間（預設 300 秒）——改完後要等最多 5 分鐘才生效。php.ini 的修改在多數環境需要重啟 web server。

鄰卡

.htaccess：.htaccess 管 Apache 行為（URL rewrite、存取控制），.user.ini 管 PHP 行為（記憶體、執行時間），兩者互補
.env：.env 管應用程式設定（DB 密碼、API key），php.ini 管 PHP runtime 設定（記憶體、上傳大小）

DNS

Fri, 26 Jun 2026 00:00:00 +0000

DNS（Domain Name System）是把人類可讀的域名（example.com）轉成機器可達的 IP 位址（93.184.216.34）的分散式查詢系統。瀏覽器輸入網址後，作業系統先查本地快取、再逐層查詢 DNS server，最終拿到 IP 才能建立連線。

概念位置

DNS 在 infra 裡扮演「服務的門牌」角色。平台遷移、環境切換、TLS 憑證驗證都經過 DNS。ALB 或 CDN 前面通常掛一層 DNS record 作為穩定入口——IP 會隨資源重建而變，DNS 名稱不變。

常見的記錄類型

類型	指向什麼	典型用途
A	IPv4 位址	主要的域名 → IP 對應
AAAA	IPv6 位址	IPv6 環境
CNAME	另一個域名	別名（`www` → `example.com`）
NS	負責管理的 DNS server	子域委派（dev.example.com）
MX	郵件伺服器	email routing
TXT	任意文字	SPF / DKIM / 域名驗證（ACM）
Alias	AWS 特有，指向 ALB 等	跟 A record 等效但支援 zone apex

可觀察訊號

平台遷移時 DNS 切換是最後一步也是最不可控的一步——TTL（Time To Live）決定舊記錄被各地 DNS resolver 快取多久。TTL 300 秒代表切換後最多 5 分鐘全部 client 會指向新 IP；TTL 86400（1 天）代表最慢要等一天。遷移前 48 小時先降 TTL 到 300 秒，讓快取過期後所有 resolver 都拿到短 TTL 版本，切換時才能快速生效。

設計責任

DNS 設定要決定：誰管這個域名的 zone（Route 53 / Cloudflare / 域名商）、子域怎麼委派（dev / staging 用 NS delegation 交給不同 zone）、TTL 設多少（平常 3600 秒夠用、遷移前降到 300）。ACM 的 DNS 驗證也依賴 DNS——建立 TXT 或 CNAME 記錄證明域名歸屬。

鄰卡

ALB — DNS 記錄通常指向 ALB 作為流量入口
SSL/TLS — TLS 憑證的 DNS 驗證依賴 DNS record

SSL / TLS

Fri, 26 Jun 2026 00:00:00 +0000

TLS（Transport Layer Security）加密 client 與 server 之間的通訊，防止中間人竊聽或竄改。HTTPS 就是 HTTP 加上 TLS 加密層。SSL 是 TLS 的前身、所有版本都已被棄用，但「SSL 憑證」這個稱呼仍然廣泛使用——實際上指的是 TLS 憑證。

概念位置

TLS 在 infra 裡負責「傳輸安全」。ALB 的 HTTPS listener 需要掛一張 TLS 憑證；ACM（AWS Certificate Manager）提供免費的憑證申請與自動續期；Let’s Encrypt 是跨平台的免費 CA（Certificate Authority，憑證簽發機構）。

可觀察訊號

TLS 憑證有到期日。過期的憑證會讓瀏覽器顯示安全警告、部分 client 直接拒絕連線。ACM 管理的憑證會自動續期（前提是 DNS 驗證記錄仍然存在）；手動上傳的憑證需要人工追蹤到期日。接手維運時要確認：憑證的簽發者是誰、到期日是什麼時候、續期是自動還是手動。

用 CLI 查看遠端憑證資訊：

1echo | openssl s_client -connect example.com:443 2>/dev/null | openssl x509 -noout -dates -issuer

設計責任

TLS 設定要決定：憑證從哪裡來（ACM 免費但只能用在 AWS 服務上、Let’s Encrypt 免費且跨平台）、驗證方式（DNS 驗證適合自動化、email 驗證較手動）、是否需要多域名的 SAN 憑證（一張憑證涵蓋 example.com + *.example.com）、HTTP → HTTPS 的強制跳轉怎麼設。

鄰卡

DNS — TLS 憑證的 DNS 驗證依賴 DNS record
ALB — HTTPS listener 需要掛 TLS 憑證

SSH

Fri, 26 Jun 2026 00:00:00 +0000

SSH（Secure Shell）是加密的遠端 shell 連線協定，讓操作者在本地終端機執行遠端伺服器上的指令。連線建立後，操作者看到的是遠端伺服器的命令列——可以跑任何該伺服器上安裝的 CLI 工具。

概念位置

SSH 在接手維運的情境裡是一條關鍵分界線：有 SSH 存取就能用 mysqldump、git、systemctl 等 CLI 工具操作伺服器；沒有 SSH 就只能用 FTP 傳檔案、用 phpMyAdmin 管資料庫、用 cPanel 改設定。兩種情境的操作流程和可用工具完全不同。

可觀察訊號

判斷有沒有 SSH 存取：嘗試 ssh user@host。如果連線成功進入命令列就有；如果 timeout 或被拒，可能是主機不開放 SSH（共享主機常見）、或 port 不是預設的 22、或需要 IP 白名單。cPanel 的「終端機」功能有時提供 web-based SSH，但功能受限。

設計責任

SSH 的認證方式有兩種：密碼（簡單但不安全，容易被暴力嘗試）和 SSH key pair（公鑰放在 server 的 ~/.ssh/authorized_keys，私鑰留在 client）。生產環境應該用 key 認證並關閉密碼登入。

接手維運時要確認：SSH 的登入帳號是什麼、用密碼還是 key、key 在哪裡、有沒有其他人也有存取權限。前任維護者的 SSH key 如果還在 authorized_keys 裡，離職後應該移除。

1# 產生 SSH key pair
2ssh-keygen -t ed25519 -C "your-email@example.com"
3
4# 把公鑰加到遠端 server
5ssh-copy-id -i ~/.ssh/id_ed25519.pub user@host

鄰卡

FTP — 沒有 SSH 時的檔案傳輸替代方案

Lock-in

Tue, 19 May 2026 00:00:00 +0000

Lock-in 的核心概念是「客戶離不開的結構」—使用某個產品越久越難換掉，因為資料、流程、權限、整合、習慣都綁定在上面。Salesforce、SAP、Oracle 都是 lock-in 大師。Lock-in 是護城河的核心機制。

概念位置

Lock-in 跟 Switching Cost 是一體兩面—lock-in 是結構，switching cost 是讓客戶面臨換掉時的痛點。強 lock-in 帶來高 retention 與高估值。Enterprise License 是 lock-in 的高階形式。

可觀察訊號與例子

判讀 lock-in 強度，看四個維度：客戶的核心資料是否儲存在你這（資料 lock-in）、客戶的多個系統是否依賴你做整合中樞（整合 lock-in）、客戶的員工訓練是否花費巨大（操作 lock-in）、客戶的客製化邏輯是否難以遷移（流程 lock-in）。四個維度的綜合決定強度。

判讀方式

讀到「lock-in 是 AI Labs 真正想要的」時，意味著它們不滿足於 API 計費，而要把 AI 接進企業的文件、系統、流程，讓企業無法輕易換掉。這也是為什麼從賣 token 轉向賣 Enterprise License—後者的 lock-in 強度高得多，能撐起更穩定的營收與更高的估值。

FTP

Fri, 26 Jun 2026 00:00:00 +0000

FTP（File Transfer Protocol）是把檔案在本地電腦與遠端伺服器之間上傳/下載的協定。操作者透過 FTP client（如 FileZilla）連線到伺服器，看到遠端的目錄結構，用拖放或指令傳輸檔案。

概念位置

FTP 在無 SSH 的環境裡是唯一的檔案管理途徑——程式碼部署靠 FTP 上傳、備份靠 FTP 下載、檔案比對靠 FTP client 的目錄比較功能。它是接手維運模組「無 SSH 環境」路線的核心工具。

FTP 的變體

協定	加密方式	常見情境
FTP	無加密（明文傳輸）	老舊主機、內部網路
FTPS	FTP + TLS 加密	支援 SSL 的主機
SFTP	走 SSH 通道（完全不同協定）	有 SSH 存取的伺服器

多數 FTP client（FileZilla、WinSCP）同時支援三種協定。如果伺服器有 SSH，用 SFTP 比 FTP 安全且功能更多。

可觀察訊號

FTP 操作的三個限制在接手維運時要意識到：第一，非原子操作——檔案逐一上傳，上傳過程中伺服器上同時存在新舊版本的混合狀態。第二，不支援指令執行——只能傳檔案、不能跑腳本或重啟服務。第三，沒有版本控制——上傳覆蓋就是覆蓋，沒有 diff、沒有 rollback。

設計責任

用 FTP 部署時要建立的紀律：本地先 Git commit 再上傳（Git 提供版本控制、FTP 只負責傳輸）；上傳前用目錄比較確認差異；關鍵檔案（index.php、.htaccess）上傳前先從 server 下載一份備份。

鄰卡

SSH — 有 SSH 時用 SFTP 或 SCP 替代 FTP
FileZilla — 最常用的 FTP client

Switching Cost

Tue, 19 May 2026 00:00:00 +0000

Switching Cost 的核心概念是「換到競爭對手的總成本」—包括資料搬遷、系統整合、員工再訓練、流程重設計、舊系統停用的風險。Switching cost 越高，客戶越不會走。它是 Lock-in 的可量化面向。

概念位置

Switching Cost 跟 Lock-in 互為表裡，也是 Retention 的結構性原因。它不只是金錢成本，還包括時間成本、風險成本與機會成本—換錯了可能整個業務癱瘓。對賣方來說，主動設計切換成本是長期策略；對買方來說，避免被高切換成本綁定是採購紀律。

可觀察訊號與例子

判讀 switching cost 高低：搬資料要幾週還是幾分鐘？員工再訓練要幾天還是幾個月？舊系統能保留多久當保險？這些都是訊號。SAP 的 switching cost 是業界傳奇—多數公司換 ERP 要花兩三年，多數老闆寧願忍下去也不敢換。

判讀方式

當分析師說「AI 模型之間的 switching cost 下降」時，意味著模型 API 規格越來越標準化、prompt 也可以稍微改一改就跨模型用，客戶換成本變低。這對 AI Labs 是壞消息—它們必須靠 Lock-in 的其他維度（資料整合、企業合約、權限管理）來補回 switching cost，這就是為什麼要做 Enterprise License。

cron

Fri, 26 Jun 2026 00:00:00 +0000

cron 是 Unix/Linux 系統內建的排程工作管理器，按預定的時間表自動執行指令。一個 cron job 定義「什麼時間跑什麼指令」，系統背景的 cron daemon 負責到時間就執行。

概念位置

cron 在接手維運時是容易被忽略的隱藏工作——它不像 web 服務有明顯的入口，但可能負責資料庫備份、快取清除、報表產出、日誌清理等關鍵任務。漏掉一個 cron job 可能讓備份停止、快取永不過期、報表不再更新，而且不會立刻有人發現。

crontab 格式

1# 分 時 日 月 週 指令
20 3 * * * /usr/bin/php /var/www/backup.php
3*/5 * * * * /usr/bin/curl -s https://example.com/cron/heartbeat
40 0 1 * * /usr/bin/find /tmp -mtime +7 -delete

五個時間欄位依序是分鐘（0-59）、小時（0-23）、日（1-31）、月（1-12）、星期幾（0-7，0 和 7 都是星期日）。* 代表「每一個」，*/5 代表「每 5 個」。

可觀察訊號

接手維運時盤點 cron job：

 1# 當前使用者的 crontab
 2crontab -l
 3
 4# 所有使用者的 crontab（需要 root）
 5for user in $(cut -f1 -d: /etc/passwd); do
 6 crontab -u "$user" -l 2>/dev/null && echo "=== $user ==="
 7done
 8
 9# 系統級 cron
10cat /etc/crontab
11ls /etc/cron.d/

沒有 SSH 時（cPanel 環境），在 cPanel 的「Cron 工作」頁面查看和匯出。

設計責任

cron job 要決定：排程頻率、執行失敗時的通知方式（cron 預設把輸出寄 email，但 email 常沒配好）、日誌記錄（指令的 stdout/stderr 導到 log 檔）。遷移或升級時，cron job 要隨著遷移——忘了搬等於停掉排程但沒人知道。

雲端替代品：AWS CloudWatch Events / EventBridge、GCP Cloud Scheduler、Azure Logic Apps。這些服務提供 web UI 管理、失敗通知、執行歷史，但需要額外設定。

鄰卡

SSH — 盤點和管理 cron 需要 SSH 存取

Retention

Tue, 19 May 2026 00:00:00 +0000

Retention 的核心概念是「客戶留存率」—簽下來的客戶在 N 期後還繼續付費的比例。SaaS 業界常用 net revenue retention（NRR）—不只算續約，還算現有客戶是否升級加購。NRR 120% 代表現有客戶不流失還反向擴張。Retention 是單位經濟的核心放大器。

概念位置

Retention 是 Lock-in 與 Switching Cost 的結果指標。同樣的 CAC，retention 100% 跟 retention 80% 對應的 LTV 差距巨大。Retention 也是估值計算的核心參數—NRR 越高，估值倍數越高。

可觀察訊號與例子

判讀 retention 的健康度：SaaS 業界 90%+ 是優秀，80-90% 是健康，低於 80% 要懷疑產品價值或競爭力。Palantir 的 retention 高到誇張，就是 FDE 模式深度嵌入客戶流程的結果—一旦工程師把整套東西嵌進客戶流程，客戶根本拔不掉。

判讀方式

讀到「retention 下降」時，往往是商業模式或競爭環境惡化的早期訊號—客戶不續約不一定是因為產品變差，可能是因為切換成本變低或競爭對手出現。Retention 下降會放大估值壓縮，因為投資人計算 LTV 時會用更保守的留存假設。

nginx

Fri, 26 Jun 2026 00:00:00 +0000

nginx 是高效能的 Web Server 和 Reverse Proxy，以非同步事件驅動架構處理大量並發連線。它在全球 web server 市場佔有率與 Apache 並列前二，新部署的伺服器多數選 nginx。

概念位置

nginx 在 infra 裡常見的角色有三種：作為 reverse proxy 把請求轉給後端應用（Node.js、PHP-FPM、Python WSGI）、作為靜態檔案伺服器、作為 TLS 終結點處理 HTTPS。ALB 在雲端環境承擔了部分 nginx 的職責（負載平衡、TLS 終結），但 VPS 環境裡 nginx 仍然是標準選擇。

跟 Apache 的關鍵差別

面向	nginx	Apache
設定模式	集中式（`/etc/nginx/` 下的設定檔）	支援 .htaccess 分散式設定
並發模型	事件驅動、非阻塞	預設 prefork（每個請求一個 process）
PHP 整合	透過 FastCGI（PHP-FPM）	mod_php（直接嵌入）或 FastCGI
URL rewrite	`location` + `rewrite` 區塊	`.htaccess` 的 `RewriteRule`

可觀察訊號

OS 升級或平台遷移時，如果從 Apache 換成 nginx，所有 .htaccess 規則要手動轉成 nginx 設定：URL rewrite、目錄保護、PHP 設定覆寫、安全標頭。nginx 沒有 .htaccess 的等價物——所有設定都在集中的設定檔裡，需要 reload nginx 才能生效（Apache 的 .htaccess 每次請求都重新讀取）。

設計責任

nginx 設定要決定：server block（類似 Apache 的 VirtualHost）怎麼組織、upstream 指向哪個 app server、靜態檔案的 root 路徑、TLS 憑證掛在哪裡、access log 和 error log 的路徑。設定改完跑 nginx -t 驗證語法後再 nginx -s reload。

鄰卡

.htaccess — Apache 的分散設定，遷移到 nginx 時需要轉換
ALB — 雲端環境裡承擔部分 nginx 職責

Thin Wrapper

Tue, 19 May 2026 00:00:00 +0000

Thin Wrapper 的核心概念是「在底層服務外只包一層薄殼就拿出來賣」—沒有自己的資料、沒有自己的工作流、沒有隱性知識。GPT 出來後一年，大量「ChatGPT 套殼」產品都是 thin wrapper，相對概念是有 Fat Data / Fat Skill 的產品。

概念位置

Thin Wrapper 是護城河缺席的具體表現。它沒有 Fat Data（獨家資料）也沒有 Fat Skill（行業隱性能力），所以底層服務一旦出官方版就被輾平。它的另一個命運是被收編成 Connector。

可觀察訊號與例子

判斷一個產品是不是 thin wrapper：拿掉底層 AI 模型後還剩下什麼？如果只剩 UI 跟 prompt，那就是 thin wrapper。如果還有獨家資料、行業特定工作流、客戶累積的歷史脈絡—那不是 thin wrapper。同樣是 Chat UI，問答機器人是 thin wrapper，但保險核保副駕駛因為內建公司歷史核保資料就不是。

判讀方式

讀到「thin wrapper 會被殺死」時，意味著該類產品在 AI Labs 推出官方版功能後沒有抵抗力。AI 新創想活下去得在 Fat Data 或 Fat Skill 上累積—只靠 prompt 工程或 UI 設計不夠。投資人判讀 AI 新創第一個過濾條件就是「拿掉底層模型還剩什麼」。

MySQL

Fri, 26 Jun 2026 00:00:00 +0000

MySQL 是最廣泛使用的開源關聯式資料庫，多數 PHP 應用、WordPress、以及大量 web 服務的資料層都跑在 MySQL 上。MariaDB 是 MySQL 被 Oracle 收購後社群分支出來的相容實作，多數 Linux 發行版已經把預設的 mysql 套件指向 MariaDB。

概念位置

MySQL 在 infra 裡是典型的 stateful 資源——資料不可重建、備份和刪除保護是 day-1 需求。接手維運時，MySQL 的版本、備份設定、認證方式是第一批要確認的項目。雲端環境裡 MySQL 常以 RDS 形式運行（受管服務、代管備份與 failover）。

大版本升級的關鍵差異

MySQL 5.7 → 8.0 的 breaking change 在接手和升級情境裡經常遇到：

變更項	5.7 行為	8.0 行為
預設認證方式	`mysql_native_password`	`caching_sha2_password`
`GROUP BY` 隱式排序	有（按 group 欄位排）	無（需要明確 `ORDER BY`）
預設字元集	`utf8`（3 byte）	`utf8mb4`（4 byte、支援 emoji）
`GRANT` 同時建使用者	允許	必須先 `CREATE USER`

可觀察訊號

接手維運時的確認清單：SELECT VERSION(); 查版本、SHOW DATABASES; 看有哪些資料庫、SHOW VARIABLES LIKE 'character_set%'; 確認字元集、SHOW VARIABLES LIKE 'max_connections'; 看連線上限。

CLI 工具

工具	功能
`mysql`	互動式 SQL 查詢
`mysqldump`	匯出資料庫為 SQL 文字檔
`mysqlcheck`	檢查、修復、優化資料表
`mysqlimport`	匯入 CSV / TSV 資料

mysqldump 是備份的核心工具——一行指令把整個資料庫匯出成可還原的 SQL。phpMyAdmin 的匯出功能底層也是類似的邏輯，但受 web server timeout 限制，大資料庫更適合用 CLI。

設計責任

MySQL 的 infra 設計要決定：備份頻率和保留天數（RDS 預設 7 天自動備份）、是否開 multi-AZ（failover 保護）、連線池設定（RDS Proxy 或應用層 pool）、慢查詢日誌是否開啟。

鄰卡

RDS — AWS 的受管 MySQL 服務
phpMyAdmin — Web 介面的 MySQL 管理工具

Fat Data / Fat Skill

Tue, 19 May 2026 00:00:00 +0000

Fat Data / Fat Skill 的核心概念是「AI 時代仍能撐住的兩種護城河」。Fat Data 是別人沒有的獨家資料—例如十年的判決書資料庫、保險理賠歷史、醫院影像標註。Fat Skill 是深度嵌入行業的工作流知識—例如保險核保流程、銀行合規要求、醫院動線設計。相對概念是 Thin Wrapper。

概念位置

Fat Data / Fat Skill 承擔的責任是：當底層 AI 模型不斷進步時，這層資料 / 知識仍然只有你有，所以你的產品不會被基礎模型供應商直接輾平。Fat Skill 通常需要 FDE 才能萃取出來，因為它是隱性知識的編碼。

可觀察訊號與例子

Fat Data 的判讀訊號：資料是不是花了多年才累積、是不是來自獨家管道、能不能被簡單爬取或重建。Fat Skill 的判讀訊號：是否依賴 FDE 才能服務、是否需要長期在客戶端駐點才能學會、客戶離開後員工是否會被別家挖走整套搬家。Bloomberg Terminal 同時有 Fat Data（獨家金融資料）跟 Fat Skill（交易員工作流），是兩種護城河疊加的典型。

判讀方式

看到「沒有 fat data 或 fat skill 的會被殺到地板」這類論斷時，意味著該分析師認為 AI 時代差異化只剩這兩條路。判讀一家 AI 新創的存活機率，看它累積的是 fat data、fat skill、還是純粹的 Thin Wrapper。這也是 VC 投資 AI 新創時的核心過濾條件。

RDS

Fri, 26 Jun 2026 00:00:00 +0000

RDS（Relational Database Service）是 AWS 提供的受管關聯式資料庫服務。它在 EC2 instance 上跑資料庫引擎（MySQL、PostgreSQL、MariaDB、Oracle、SQL Server），但把作業系統更新、自動備份、跨可用區 failover、磁碟擴容這些運維工作交給 AWS 代管。使用者操作的是資料庫層級的設定（schema、query、parameter group），不需要 SSH 進機器管 OS。

概念位置

RDS 是 infra 系列中 stateful 資源的代表。它持有不可重建的資料，所以它的 IaC 描述、備份策略、刪除保護、變更審查都比 stateless 資源（如 EC2 web server）嚴格。模組五（核心服務）和接手維運模組的資料庫相關段落都以 RDS 為主要範例。

可觀察訊號

需要理解 RDS 的情境包括：接手一個已經在跑的 production 資料庫、評估要不要從自建 MySQL 遷移到 RDS、設定資料庫的備份和高可用、或在 IaC 裡描述資料庫資源。

設計責任

使用 RDS 時要決定的關鍵設定：

設定	決定什麼	影響
instance class	CPU / 記憶體規格	效能與成本
multi-AZ	是否跨可用區部署 standby	可用性（failover 分鐘級）vs 成本（約 2 倍）
backup retention	自動備份保留天數（1-35）	可回溯的時間窗口
deletion protection	是否允許刪除	防誤刪（production 必開）
parameter group	資料庫引擎參數（max_connections 等）	效能調校
engine version	資料庫版本	功能與相容性

跟自建 MySQL on EC2 的取捨：RDS 省去 OS 層運維，但 parameter group 和 option group 的可調整範圍比直接操作 my.cnf 窄。需要完全控制 OS 層（如自訂 plugin、特殊檔案系統）時，自建較合理。

鄰卡

Connector

Tue, 19 May 2026 00:00:00 +0000

Connector 的核心概念是「被收編進大平台的生態系變成上面的整合工具」。原本是獨立產品的公司，被併購或主動加入後變成大平台的 plug-in 或 integration。Zapier 的數千個 connector、Salesforce AppExchange 的 app 都屬此類。Connector 是 Thin Wrapper 不被殺死的另一條路。

概念位置

Connector 化是新創生命週期的一種終局狀態—雖然失去獨立生意，但保住一部分用戶與營收。它的反面是真正獨立的產品（有自己的 Fat Data / Fat Skill 護城河）。整併週期後段大量公司會走上 connector 化的路。

可觀察訊號與例子

Connector 化的訊號：產品從 standalone app 變成「某某平台的 add-on」、定價變成按平台分潤、行銷渠道改成從平台市集導流、產品演進方向被大平台 roadmap 牽著走。許多被大平台併購的小新創走的就是這條路。

判讀方式

讀到「會被收進 ecosystem 變成 connector」時，意味著該產品還有一定價值（不至於被完全殺死），但獨立公司的空間沒了。對新創創辦人來說，這是「被併購」的另一種說法；對使用者來說，意味著該工具的長期演進會被大平台的優先順序綁定，創新速度通常會慢下來。

S3

Fri, 26 Jun 2026 00:00:00 +0000

S3（Simple Storage Service）是 AWS 的物件儲存服務。每個檔案（object）放在一個 bucket 裡、用 key（路徑）定址。S3 的持久性設計為 99.999999999%（11 個 9），資料自動跨多個可用區複製，不需要手動備份 S3 本身——要保護的是「物件被覆寫或刪除」的風險，而非「S3 服務掛掉」的風險。

概念位置

S3 在 infra 系列裡有三個角色：Terraform state 的存放處（remote state backend）、應用程式的靜態檔案儲存（上傳內容、備份歸檔）、以及 log 的長期保存目的地。模組一（state backend）、模組五（storage）、模組八（治理）都涉及 S3。

可觀察訊號

需要理解 S3 的情境包括：設定 Terraform 的 remote state backend、管理使用者上傳的檔案、設計備份歸檔策略、或評估儲存成本。

設計責任

使用 S3 時要決定的關鍵設定：

設定	決定什麼	影響
versioning	是否保留物件的歷史版本	覆寫或刪除後能回溯（state bucket 必開）
encryption	靜態加密方式（SSE-S3 / SSE-KMS）	合規與金鑰管理
public access block	是否封鎖公開存取	安全（預設全封鎖）
lifecycle rules	自動移到低成本儲存類或過期刪除	成本控制（如 30 天後移到 Glacier）
bucket policy	跨帳號或跨服務的存取規則	權限邊界

versioning 開啟後，刪除物件只是加一個 delete marker、實際資料還在。要真正刪除需要刪除 delete marker 和所有歷史版本。這是保護 state 檔的關鍵機制——誤寫 state 後可以回捲到上一個版本。

鄰卡

EC2

Fri, 26 Jun 2026 00:00:00 +0000

EC2（Elastic Compute Cloud）是 AWS 提供的虛擬機器服務。每一台 EC2 instance 是一台完整的虛擬伺服器——有自己的 OS、CPU、記憶體、磁碟和網路介面。使用者可以 SSH 進去、安裝軟體、跑應用程式，跟操作一台實體伺服器的體驗相似。

概念位置

EC2 是 infra 系列中「運算」面向的基礎單位。容器服務（ECS、EKS）底層也跑在 EC2 上（除非用 Fargate）。模組五（核心服務）的運算段落、接手維運（雲端篇）的 VM 快照、升級模組的 OS 遷移都以 EC2 為操作對象。

可觀察訊號

需要理解 EC2 的情境包括：接手一個跑在 VM 上的應用程式、評估容器化 vs VM 部署、設定 auto-scaling、或建立 AMI 快照作為備份。

設計責任

一台 EC2 instance 由五個組件構成：

組件	角色	選型判準
AMI	作業系統映像（Ubuntu、Amazon Linux 等）	OS 偏好、軟體預裝需求
Instance type	CPU / 記憶體規格（t3.micro、m6i.large 等）	工作負載的 CPU 和記憶體需求
EBS	持久化磁碟	容量、IOPS、是否需要加密
Security group	網路防火牆規則	哪些 port 開放、來源限制
IAM role	instance 的雲端權限	需要存取哪些 AWS 服務

跟容器（ECS / EKS）的差別：EC2 管整台 VM（含 OS 更新、安全性修補、磁碟管理），容器只管應用程式及其依賴。EC2 的運維負擔較高、但控制粒度也較高。

鄰卡

EBS

Fri, 26 Jun 2026 00:00:00 +0000

EBS（Elastic Block Store）是 AWS 提供的區塊儲存服務——可以把它理解為掛在 EC2 instance 上的虛擬硬碟。EBS volume 跟 EC2 instance 的生命週期獨立：instance 停止或終止時，EBS volume 上的資料不會消失（除非明確設定 DeleteOnTermination）。

概念位置

EBS 是 infra 系列中儲存面向的底層組件。RDS 的資料實際存在 EBS 上（由 AWS 代管）、EC2 的根磁碟和附加磁碟都是 EBS volume。接手維運時對 VM 做快照（AMI），背後就是在對 EBS volume 做 snapshot。

可觀察訊號

需要理解 EBS 的情境包括：EC2 instance 的磁碟快滿了需要擴容、要對 VM 做快照備份、評估磁碟效能（IOPS）是否足夠、或清理不再掛載的孤立 volume（殭屍 volume 持續計費）。

設計責任

設定	決定什麼	影響
Volume type	gp3（通用）/ io2（高 IOPS）/ st1（高吞吐）	效能與成本
Size	磁碟容量（GB）	線上擴容可行、但縮小不行
Encryption	是否加密	合規（建立後不可更改，要加密只能建新的複製過去）
Snapshot	快照備份	EBS snapshot 是增量的（只存變更的區塊）
DeleteOnTermination	instance 終止時是否跟著刪除	根磁碟預設 true、附加磁碟預設 false

跟 instance store 的差別：instance store 是 EC2 實體主機上的臨時磁碟，效能高但 instance 停止資料就消失。EBS 是持久化儲存，instance 停止資料仍在。

鄰卡

HCL

Fri, 26 Jun 2026 00:00:00 +0000

HCL（HashiCorp Configuration Language）是 Terraform 和 OpenTofu 使用的設定語言。它用宣告式的 resource block 描述「環境應該長什麼樣」，由工具負責比對現況與描述、算出差異再套用。寫 HCL 的人描述目標狀態，不描述達到目標的步驟。

概念位置

HCL 是 infra 系列中 IaC 程式碼的語言層。IaC 卡講的是「用程式碼管理基礎設施」的概念，HCL 是這個概念落地時最常用的語言。模組一到八的所有 HCL 範例都用這個語言寫成。

可觀察訊號

需要理解 HCL 的情境包括：第一次打開一份 .tf 檔案、要讀懂 Terraform 的 plan 輸出、要修改或新增一個 resource 定義、或要 review 別人的 infra PR。

設計責任

HCL 的基本結構：

1resource "aws_s3_bucket" "example" {
2 bucket = "my-bucket"
3 tags = { env = "prod" }
4}

resource：宣告一個雲端資源
"aws_s3_bucket"：資源類型（由 provider 決定）
"example"：這個資源在程式碼裡的名稱（用來引用）
{}：這個資源的屬性

跟其他格式的差別：

格式	特性	適合場景
JSON / YAML	純資料格式、沒有邏輯	設定值、資料交換
HCL	支援變數、函式、條件、迴圈	基礎設施描述
TypeScript / Python	通用程式語言、完整邏輯	複雜的 infra 抽象（CDK / Pulumi）

HCL 的定位在 JSON 和通用語言之間——比 JSON 有表達力（能做迴圈和條件）、比通用語言好 review（diff 直觀、不需要在腦中「執行」程式碼才知道結果）。

鄰卡

IaC
State

terraform plan / apply

Fri, 26 Jun 2026 00:00:00 +0000

terraform plan 和 terraform apply 是 Terraform 操作基礎設施的兩個核心指令。plan 比對三方（state 檔、雲端現況、HCL 描述）產出差異報告，告訴使用者「如果 apply 會發生什麼」，但不做任何改動。apply 執行 plan 算出的差異，在雲端建立、修改或刪除資源。

概念位置

plan/apply 的分離是 IaC 可審查性的基礎。模組七（PR 流程）的核心機制就是「PR 觸發 plan → plan 結果貼回 PR → reviewer 看 plan 再決定要不要 apply」。這個「先看再動」的流程跟手動操作（直接在 Console 改）的根本差別。

可觀察訊號

需要理解 plan/apply 的情境包括：第一次跑 Terraform、review 別人的 infra PR（看 plan 輸出）、排查 drift（plan 在沒有 code 變更的情況下顯示差異）、或決定一次 apply 是否安全。

設計責任

plan 輸出的三種動作標記：

標記	意義	風險
`+`	新增資源	低（新建不影響現有）
`~`	修改資源（in-place update）	中（看改什麼，改 tag 低風險、改 instance type 可能重啟）
`-/+`	先刪後建（forces replacement）	高（stateful 資源如 RDS 代表資料遺失）
`-`	刪除資源	高（不可逆）

review plan 時最需要警惕的是 -/+（forces replacement）——看起來只是改一個屬性，但某些屬性的修改會觸發資源重建（例如 RDS 的 identifier 改名）。

plan 與 apply 之間可能有時間差。如果 plan 之後、apply 之前有人手動改了雲端資源，apply 時的實際行為可能跟 plan 預期的不同。多數團隊在 apply 階段會重跑一次 plan 並要求結果一致。

鄰卡

Red Ocean / Blue Ocean

Tue, 19 May 2026 00:00:00 +0000

Red Ocean / Blue Ocean 的核心概念是「賽道狀態的比喻」。Red Ocean（紅海）是已經被大家搶得頭破血流的成熟市場—價格戰、毛利低、整併進行中。Blue Ocean（藍海）是還沒人在的空白市場—需求待開發、利潤厚、競爭少。紅海後段會進入整併週期。

概念位置

Red / Blue Ocean 是市場動態的時間切片。藍海會隨時間變紅—第一個進入者吃到豐厚利潤後吸引競爭者，最終進入整併週期。判讀「現在進這個賽道」要先判讀它在哪個階段—紅海後段對新進者很不友善，除非有特殊分發優勢或 Fat Data / Fat Skill。

可觀察訊號與例子

紅海訊號：玩家數量多、客戶選擇豐富、價格戰激烈、毛利持續下降、開始出現整併新聞。串流訊息（Kafka 生態系）目前就是紅海—多家提供商打到開始互相收購。藍海訊號：客戶有需求但找不到產品、玩家少且不專業、毛利高得反常。

判讀方式

看到「打打發現餅其實沒那麼大」「進入殘酷的整併週期」時，是紅海後段的明確訊號。對新進者來說，紅海後段很難贏；對既有玩家來說，紅海是賣公司或被收購的時點。創業者要警覺「藍海可能比想像中更快變紅」—別把短期沒競爭者誤判成長期藍海。

AMI

Fri, 26 Jun 2026 00:00:00 +0000

AMI（Amazon Machine Image）是 EC2 instance 的完整映像快照。它包含作業系統、已安裝的軟體、設定檔、磁碟內容——從一個 AMI 啟動新的 instance，得到的是跟拍照時完全一樣的環境。

概念位置

AMI 在 infra 系列裡有兩個角色。第一個是接手維運時的保險——對 VM 建一個 AMI 等於把整台機器拍下來，做任何改動前都有一個可回退的基線。第二個是環境標準化——把裝好軟體的 instance 做成 AMI（golden image），之後開新機器都從這個 AMI 啟動，確保每台機器的基線一致。

可觀察訊號

需要理解 AMI 的情境包括：接手一台不確定裡面裝了什麼的 EC2（先拍 AMI 再動）、要在另一個 region 或帳號複製一台同樣的機器、OS 升級時要保留舊環境作為 rollback、或設計 auto-scaling 的 launch template（需要指定 AMI）。

設計責任

操作	用途	注意事項
建立 AMI	對現有 instance 拍照	`--no-reboot` 避免服務中斷，但檔案系統一致性略低
從 AMI 啟動 instance	複製環境	新 instance 有新的 IP、hostname、instance ID
跨 region 複製 AMI	災難復原或多 region 部署	複製是非同步的、完成後才能在目標 region 使用
共享 AMI	跨帳號使用同一個映像	需要設定 AMI 的 launch permission

AMI 包含 EBS snapshot——AMI 的儲存成本就是底層 EBS snapshot 的成本（按儲存量計費）。不再使用的 AMI 要記得 deregister 並刪除對應的 snapshot，否則持續計費。

跟 container image 的差別：AMI 是整台 VM 的映像（含 OS、kernel、系統套件），container image 只包含應用程式和它的依賴（共用 host OS 的 kernel）。AMI 以 GB 計（通常 8-50 GB），container image 以 MB 計（通常 50-500 MB）。

鄰卡

Consolidation Cycle

Tue, 19 May 2026 00:00:00 +0000

Consolidation Cycle 的核心概念是「產業整併週期」—市場成熟後玩家數量會從多到少、大公司併購小公司或小公司互相合併。早期百家爭鳴 → 成長放緩 → 小玩家活不下去 → 大公司整併 → 剩下少數幾家。整併是 Red Ocean 的後段階段。

概念位置

Consolidation Cycle 通常伴隨毛利壓縮、CAC 上升、融資環境變冷。整併本身會加速—因為被併購的小玩家會減少競爭、釋出客戶給剩下的玩家。整併後剩下的玩家通常有更強定價權。

可觀察訊號與例子

整併週期的訊號：產業新聞密集出現 M&A、新公司獲得融資的金額下降、私募基金（PE）開始進場整合、剩下的玩家都在強調自己是「最後幾家」。Kafka 生態系的 Bufstream 被 CoreWeave 收購、WarpStream 被 Confluent 收購，就是典型整併訊號。

判讀方式

讀到「進入殘酷的整併週期」時，對新創創辦人是「該找買家還是該收掉」的訊號；對投資人是「現在進場估值會更便宜還是會被套」的判斷；對既有玩家是「該主動整合還是該被整合」的決策。整併週期過後，剩下的玩家通常能享受寡占的高毛利—但要先撐過整併本身。

Composer

Fri, 26 Jun 2026 00:00:00 +0000

Composer 是 PHP 的套件管理工具，角色等同於 Node.js 的 npm、Python 的 pip、Go 的 go mod。它負責宣告專案需要哪些第三方套件、鎖定每個套件的確切版本、以及把套件安裝到專案目錄裡。

概念位置

接手 PHP 專案時，Composer 是判斷「專案依賴了什麼、版本有沒有已知漏洞」的入口。專案根目錄通常有三個 Composer 相關的檔案：

檔案	角色	進 Git？
`composer.json`	宣告依賴（套件名稱 + 版本範圍）	是
`composer.lock`	鎖定確切版本（含所有 transitive 依賴）	是
`vendor/`	安裝的套件目錄	否（.gitignore 排除、由 `composer install` 重建）

可觀察訊號

接手專案時如果根目錄有 composer.json 但沒有 vendor/，代表需要先跑 composer install 才能讓專案運作。如果連 composer.lock 都沒有，代表套件版本沒有鎖定——每次安裝可能拿到不同版本。

設計責任

兩個常用指令的差別：

composer install：按 composer.lock 安裝確切版本。用於部署和接手——確保每台機器安裝的版本一致。
composer update：重新解析 composer.json 的版本範圍、更新到最新的符合版本、改寫 composer.lock。用於主動升級依賴。

接手時的關鍵操作：

composer audit：掃描已安裝套件的已知安全漏洞
composer outdated：列出可更新的套件及其最新版本

鄰卡

.env：Composer 管套件、.env 管設定值，兩者都是 PHP 專案的基礎設施
php.ini / .user.ini：Composer 需要 PHP CLI 執行，php.ini 的 memory_limit 和 max_execution_time 會影響 Composer 能不能跑完

Niche Market

Tue, 19 May 2026 00:00:00 +0000

Niche Market 的核心概念是「利基市場」—不是大眾市場，但有特定需求、特定客戶輪廓、競爭較少的小眾領域。利基市場通常單一賽道規模小，但客戶願意付不錯的價格，且競爭者少。它是 Vertical SaaS 的天然舞台。

概念位置

Niche Market 的特徵是「高價值 + 高黏著度 + 小但夠用的市場」。它的毛利通常比大眾市場高，因為對手少、客戶替代品少。對投資人來說，niche market 的優點是競爭少、毛利高、retention 高；缺點是天花板低，難以長到 IPO 規模。

可觀察訊號與例子

判讀利基市場的健康度：客戶數量是不是太少（總可服務市場太小）、單客單價是否能撐起一家公司、進入者是否被行業特殊性擋在外。Buf 的 Protobuf 工具就是利基市場—使用 Protobuf 的公司有限，但這些公司願意為專業工具付不錯的價格。Veeva（藥廠 SaaS）也是—藥廠數量有限，但每家年費上千萬美金。

判讀方式

看到「在高價值、高黏著度的利基市場站穩腳步」這類描述時，意味著該公司不打算搶大眾市場，而是在小但深的領域建立優勢。對 VC 來說 niche market 不一定有興趣（看天花板）；對 PE 來說 niche market 反而很有吸引力（現金流穩定）。

mysqldump

Fri, 26 Jun 2026 00:00:00 +0000

mysqldump 是 MySQL 和 MariaDB 內建的命令列備份工具，把整個資料庫（或指定的表）匯出成一份包含 CREATE TABLE 和 INSERT 語句的 SQL 純文字檔。還原時把這份檔案餵給 mysql client 就能重建資料。

概念位置

mysqldump 是有 SSH 存取（或 remote MySQL 存取）時的主要備份手段。比 phpMyAdmin 的匯出更可靠——不受 web server 的 timeout 和記憶體限制影響，可以處理數 GB 的資料庫。沒有 SSH 的環境只能退回 phpMyAdmin 匯出。

可觀察訊號

接手時如果 server 上有 cron job 在跑 mysqldump，代表前任有做自動備份——確認輸出的 dump 檔案存在哪、保留幾天、有沒有被驗證過能還原。如果沒有任何 mysqldump cron，代表備份可能只靠 phpMyAdmin 手動匯出或完全沒做。

設計責任

常用的 flag 組合：

1mysqldump -u user -p \
2 --single-transaction \
3 --routines \
4 --triggers \
5 dbname > dump-$(date +%Y%m%d).sql

Flag	作用
`--single-transaction`	InnoDB 表不鎖表匯出（用一致性快照），生產備份必備
`--routines`	含 stored procedure 和 function
`--triggers`	含 trigger
`--quick`	逐行讀取、不把整個表載入記憶體，大表必備

還原指令：

1mysql -u user -p dbname < dump-20260626.sql

mysqldump 產出的是邏輯備份（SQL 語句），還原速度取決於資料量——幾百 MB 以內分鐘級，數 GB 可能要半小時以上。需要更快的備份/還原（物理備份），要用 Percona XtraBackup 或 MySQL Enterprise Backup。

鄰卡

phpMyAdmin：無 SSH 時的替代備份手段
cron：搭配 cron 做定期自動備份

High Stickiness

Tue, 19 May 2026 00:00:00 +0000

High Stickiness 的核心概念是「高黏著度」—客戶一旦用了就很難換掉。High stickiness 通常由 Lock-in、Switching Cost 與深度整合構成；它的結果指標是高 Retention。

概念位置

Stickiness 跟 Retention、Lock-in、Switching Cost 是同一組概念群。Stickiness 是質性描述（客戶離不開），retention 是量化結果（續約率高），lock-in 是結構機制（為什麼離不開），switching cost 是換掉的痛點。四個概念合起來描述同一件事的不同面向。

可觀察訊號與例子

判讀 stickiness：客戶用該產品多久？多少資料儲存在那？工作流程多深度依賴它？員工要多久訓練才會用？這些訊號加起來判讀 stickiness 強度。GitHub 的 stickiness 很高—工程師整個職涯的 commit history 都在那，要換到 GitLab 不只是搬程式碼，是搬掉個人品牌的一部分。

判讀方式

讀到「高價值、高黏著度的利基市場」時，意味著該市場進去就很難被打掉，但也意味著新進者進不去（客戶不會輕易換）。對既有玩家來說 high stickiness 是好消息；對新進者是壞消息—除非有顛覆性差異化（Frontier Capability 或全新工作流）。

Reverse Proxy

Fri, 26 Jun 2026 00:00:00 +0000

Reverse proxy 是一個坐在後端服務前面、代替它接收外部請求的中介層。外部 client 連的是 reverse proxy 的位址，reverse proxy 根據規則把請求轉發到實際處理的內部服務，再把回應傳回給 client。Client 不知道（也不需要知道）後面有幾台服務、跑在哪裡。

概念位置

nginx 和 ALB 都扮演 reverse proxy 角色。差別在層級：nginx 通常部署在應用層（跟應用伺服器同一台或同一個 VPC 內），ALB 是雲端平台提供的受管服務。兩者的核心功能相同——接收外部流量、轉發到後端、回傳結果。

跟 forward proxy 的方向相反：forward proxy 代替 client 發送請求（client 在內網、proxy 幫它出去）；reverse proxy 代替 server 接收請求（server 在內網、proxy 幫它面對外部）。

可觀察訊號

接手時如果 server 上跑著 nginx 但應用程式用的是 PHP-FPM 或 Node.js，nginx 多半扮演 reverse proxy——它接 HTTP/HTTPS 請求、轉發給後端的 application server。設定檔裡的 proxy_pass（nginx）或 ProxyPass（Apache）就是 reverse proxy 的轉發規則。

設計責任

reverse proxy 常承擔的功能：

功能	說明
TLS 終結	HTTPS 的加解密在 proxy 層處理，後端服務只收 HTTP
負載平衡	把請求分配到多台後端（round-robin、least-connection）
路由分流	依 URL path 導到不同後端服務（/api → backend、/ → frontend）
靜態檔案快取	圖片、CSS、JS 由 proxy 直接回應、不轉發到後端
安全過濾	擋掉異常請求、限制請求速率、加安全標頭

鄰卡

ALB：雲端的受管 reverse proxy + 負載平衡器
nginx：最常見的 reverse proxy 軟體

Rigid Demand

Tue, 19 May 2026 00:00:00 +0000

Rigid Demand 的核心概念是「剛需」—客戶非要不可的需求，價格彈性低，砍預算時是最後砍的項目。相對概念是 nice-to-have（有更好、沒也不會死）。Rigid demand 是商業模式可持續性的根本。

概念位置

Rigid Demand 是判斷產品市場契合（PMF）的核心訊號。賣 rigid demand 的公司即使在景氣差時也活得下來，因為客戶不會省這筆錢。產品經理找方向時，「rigid demand 還是 nice-to-have」是必問問題；VC 評估新創時也用這個維度做過濾。

可觀察訊號與例子

判讀 rigid demand 的訊號：客戶在景氣差時是否仍續約、客戶是否願意接受漲價、客戶是否會主動推薦同行用。Buf 觀察到大客戶都「為了確保格式對而自己搭代理層」—這個自建行為本身就是 rigid demand 的訊號（如果不重要他們不會自己花人力做）。會計軟體、合規工具、薪資系統都是典型 rigid demand。

判讀方式

讀到「客戶有這個剛需」時，意味著該產品的需求被驗證是必要的，不是可選的。創辦人找產品方向時應該追 rigid demand，避開 nice-to-have；投資人評估新創時看「客戶用這產品多久」「砍預算時會不會砍」來判讀。Rigid demand 通常配高 retention 與穩定毛利。

Database Migration

Fri, 26 Jun 2026 00:00:00 +0000

Database migration 是用版本化的腳本管理資料庫 schema 變更的做法。每次 schema 變更（加欄位、改索引、拆表、改資料型別）寫成一份獨立的 migration 檔案，按順序套用。這讓 schema 的演進跟程式碼一樣有版本歷史、可追蹤、可在新環境重現。

概念位置

migration 解決的問題是「資料庫的 schema 怎麼從 A 狀態安全地變成 B 狀態」。沒有 migration 時，schema 變更靠在 phpMyAdmin 或 CLI 手動執行 SQL，改了什麼只存在操作者的記憶裡。有 migration 時，每次變更都是 repo 裡的一份檔案，跟程式碼一起 commit、一起 review。

可觀察訊號

接手專案時，如果 repo 裡有 migrations/ 目錄（或框架特定的路徑如 Laravel 的 database/migrations/、Rails 的 db/migrate/），代表專案使用 migration。如果 repo 裡只有一份 schema.sql 或完全沒有 schema 相關檔案，代表 schema 變更是手動的——這時候建立 migration 紀律是接手後的優先事項之一。

設計責任

每份 migration 檔案包含兩個方向：

UP（套用）：執行 schema 變更的 SQL
DOWN（回退）：撤銷這次變更的 SQL（不是所有變更都能完美回退，如刪除欄位後資料就沒了）

1-- migrations/2026-06-26-001-add-users-email-verified.sql
2
3-- UP
4ALTER TABLE users ADD COLUMN email_verified BOOLEAN DEFAULT FALSE;
5
6-- DOWN
7ALTER TABLE users DROP COLUMN email_verified;

常用的 migration 工具：

工具	語言 / 框架
Laravel Migration	PHP / Laravel
Rails Migration	Ruby / Rails
Flyway	Java / 跨語言（純 SQL）
Liquibase	Java / 跨語言（XML / YAML / SQL）
golang-migrate	Go
手動 SQL 檔案	無框架時的最低限度方案

沒有框架時，用日期 + 序號命名 SQL 檔案（2026-06-26-001-描述.sql），搭配一張 migration_log 表記錄哪些已經套用過，就是最低限度的 migration 系統。

鄰卡

RDS：migration 在 production 資料庫上執行時要格外小心——大表的 ALTER TABLE 可能鎖表
mysqldump：執行 migration 前先做一次完整備份

Frontier Capability

Tue, 19 May 2026 00:00:00 +0000

Frontier Capability 的核心概念是「前沿能力」—在某個領域做到最尖端、最領先的水平。AI 領域常用 frontier model 指最強大的最新模型（GPT、Claude 最新一代）。Frontier 差距決定技術領先是否足以撐起毛利溢價。

概念位置

Frontier Capability 是判讀技術賽道領先差距的關鍵。如果 frontier 領先很多（差距持續拉大），落後者很難追；如果 frontier 領先有限（很快被追上），技術領先就不是護城河，要靠分發或 Fat Data / Fat Skill。

可觀察訊號與例子

判讀 frontier 差距：benchmark 分數差多少、實際使用體感差多少、客戶願意為差距付多少溢價。OpenAI 押的是「frontier 差距會繼續拉開」，所以投資巨額算力做下一代模型；Google 押的是「分發勝過 frontier」，所以利用 Cloud 跟 Workspace 既有客戶慢慢轉。

判讀方式

讀到「押 frontier 能力差距」時，意味著該公司賭的是技術領先足以撐起溢價。讀到「frontier 差距收斂」「模型能力差不多」時，意味著該分析師認為技術差異化不夠，要看其他維度（行業 know-how、分發）。三家 AI Labs 的策略差異反映的就是對 frontier 走向的不同押注。

Prometheus

Fri, 26 Jun 2026 00:00:00 +0000

Prometheus 是開源的 metrics 收集與告警系統。它用 pull 模式運作——定期從被監控的 target（應用程式、伺服器、資料庫）的 HTTP endpoint 拉取指標，存進本地的時序資料庫。

概念位置

Prometheus 在 infra 監控層負責「收集與儲存指標」。它搭配 Grafana 做視覺化（Prometheus 自己的 UI 只有基礎的 query 介面）、搭配 Alertmanager 做告警路由（Prometheus 偵測異常、Alertmanager 決定通知誰）。斷網環境裡它是取代 Datadog / New Relic 的預設方案——不需要連外、self-hosted、社群龐大。

可觀察訊號

系統需要 Prometheus 的訊號是：需要追蹤隨時間變化的數值指標（CPU 使用率、request 延遲、佇列深度、錯誤率），且這些指標要能查詢歷史趨勢和設定告警閾值。如果只需要 log（文字紀錄），Loki 或 ELK 更適合；Prometheus 處理的是結構化的數值 metrics。

設計責任

使用 Prometheus 時要決定：scrape interval（多久拉一次、預設 15 秒）、retention（資料保留多久、預設 15 天）、哪些 target 要監控（service discovery 或靜態設定）、告警規則的閾值和評估窗口。斷網環境的額外考量是 storage capacity——所有資料留在本地磁碟、沒有 cloud auto-scale。

鄰卡

Grafana：視覺化 Prometheus 的指標

Distribution

Tue, 19 May 2026 00:00:00 +0000

Distribution 的核心概念是「分發優勢」—公司能不能把產品送到客戶眼前的能力，依靠既有客戶基礎、銷售通路、平台優勢、品牌信任。Microsoft、Google、Apple 的 distribution 是它們的核心競爭力。Distribution 是 GTM 的長期積累。

概念位置

Distribution 跟 Frontier Capability 是兩種對立的押注策略。新創通常 distribution 弱（沒有客戶基礎），要靠 PLG 或產品差異化突圍；大公司 distribution 強（有既有客戶與通路），即使產品稍弱也能慢慢轉化客戶過來。Distribution 是降低 CAC 的長期資產。

可觀察訊號與例子

判讀 distribution：公司有多少現成的客戶能交叉銷售？有多少銷售人員與通路夥伴？品牌在目標客群中是否被信任？Microsoft Copilot 的優勢就是 distribution—Office 已經在每家公司，加 Copilot 只是 upgrade。Google 把 AI 接進 Search 與 Workspace 同樣不需要說服客戶換工具。

判讀方式

讀到「分發優勢勝過一切」時，意味著該分析師認為現有大公司會贏，因為新創產品就算好也賣不過去。AI 時代 Big Tech 的 distribution 優勢被多次討論—它們不需要 PLG 拉新客戶，只要把 AI 功能塞進既有產品就直接觸及幾億用戶。新創若沒有差異化的 Fat Data / Fat Skill，很難對抗 distribution 優勢。

Grafana

Fri, 26 Jun 2026 00:00:00 +0000

Grafana 是開源的監控視覺化平台。它本身不收集或儲存資料——它連接外部資料源（Prometheus、Loki、Elasticsearch、MySQL 等），提供查詢介面和可自訂的儀表板。

概念位置

Grafana 在監控體系裡負責「讓指標和 log 變成人可以讀的畫面」。Prometheus 收集指標、Loki 收集 log、Grafana 把兩者的資料用圖表、表格、熱力圖呈現。不同角色看不同 dashboard——DevOps 看資源健康、開發者看應用指標、管理層看 SLA 達成率。

可觀察訊號

系統需要 Grafana 的訊號是：已經有 Prometheus 或其他資料源在收集指標，但需要一個視覺化介面來建 dashboard、設告警（Grafana 也有自己的告警功能）、分享給團隊。如果只需要 CLI 查詢，PromQL 直接在 Prometheus 跑就好。

設計責任

使用 Grafana 時要決定：dashboard 的組織（按服務、按環境、按角色）、資料源的連線設定、使用者權限（viewer / editor / admin）、告警通知管道（email / Slack / webhook）。斷網環境裡 Grafana 的 plugin 需要離線安裝（grafana-cli --pluginUrl 指向本地檔案）。

鄰卡

Prometheus：Grafana 最常見的 metrics 資料源

HashiCorp Vault

Fri, 26 Jun 2026 00:00:00 +0000

HashiCorp Vault 是機密管理系統，集中存放和控制對敏感資料（密碼、API key、TLS 私鑰、資料庫憑證）的存取。每一次讀取都有稽核紀錄、每一份機密都有存取政策、憑證可以設定自動輪替。

概念位置

Vault 在 infra 裡負責「機密值的集中管理」。跟直接把密碼寫在環境變數或設定檔的差別是：Vault 提供存取控制（只有被授權的身分能讀特定 secret）、稽核軌跡（誰在什麼時候讀了什麼）、以及動態 secret（每次請求產生一組臨時憑證、用完即銷毀）。

連網環境通常用雲端的 secret manager（AWS Secrets Manager、GCP Secret Manager）。斷網環境沒有雲端服務可用、Vault 是 self-hosted 的替代方案。

可觀察訊號

系統需要 Vault 的訊號是：多個服務共用同一組資料庫密碼且密碼寫在設定檔裡、沒有人知道上次輪替是什麼時候、或是稽核要求「列出誰能存取哪些機密」而答不出來。

設計責任

使用 Vault 時要決定：unseal 方式（連網用 cloud auto-unseal、斷網用 Shamir’s secret sharing——需要 N 把 key 中的 M 把才能解鎖）、storage backend（Consul、PostgreSQL、filesystem）、認證方式（人用 LDAP/OIDC、機器用 AppRole）、secret engine 的選擇（KV 存靜態值、PKI 簽發憑證、database 動態產生 DB 帳號）。

鄰卡

IAM：Vault 的存取政策跟 IAM 的 policy 概念類似
SSL/TLS：Vault 的 PKI engine 可以當內部 CA 簽發憑證

Harbor

Fri, 26 Jun 2026 00:00:00 +0000

Harbor 是開源的 container image registry，由 CNCF 孵化。它在 Docker Registry 的基礎上加了企業級功能：Web UI、角色型存取控制（RBAC）、映像漏洞掃描（內建 Trivy）、映像簽章驗證、以及跨 registry 的映像複製。

概念位置

Harbor 在容器生態裡負責「映像的儲存、分發和安全把關」。連網環境裡這個角色通常由 Docker Hub、AWS ECR 或 GCR 擔任。斷網環境沒有公開 registry 可用、Harbor 是 self-hosted 的替代——所有 base image 和應用 image 都推進 Harbor、所有 docker pull 都從 Harbor 拉。

可觀察訊號

系統需要 Harbor 的訊號是：團隊開始用容器部署服務、且環境無法連到公開 registry（斷網或受限網路）、或需要在 pull 時自動掃描漏洞。如果只是幾個人在開發機上用 Docker、Docker Registry（無 UI、無掃描）就夠了。

設計責任

使用 Harbor 時要決定：project 的組織（按團隊、按環境、按產品線）、使用者認證（本地帳號 or LDAP 整合）、漏洞掃描政策（push 時自動掃、block 有 Critical CVE 的 image）、映像保留政策（保留最近 N 個 tag、自動清理舊 image）、以及 storage backend（本地磁碟或 NFS）。

鄰卡

ECS：ECS task 從 registry 拉 image
Fargate：Fargate task 同樣需要 registry

Helm

Fri, 26 Jun 2026 00:00:00 +0000

讀到「junior buffer 沒了」時，意味著該作者認為 AI 不只是取代基層工作，還影響組織的判斷風險分布。對組織來說要重新設計「沒有 junior 的判斷流程」—例如多層交叉複核、AI 跑多種選項給資深選、保留小規模 junior 純粹作為訓練資深的管道。長遠看，AI 時代的職涯階梯可能從金字塔變成沙漏—中段消失、頭尾留存。

Dotfile 術語卡

Mon, 29 Jun 2026 00:00:00 +0000

本系列使用的關鍵術語。各卡片會在對應章節深入說明、這裡提供快速查閱入口。

術語卡會隨教材擴展逐步補充。

語言與工具

卡片	主題
Lua 腳本語言	Hyprland / Neovim 配置檔使用的腳本語言，配置檔需要的最小知識
GNU Stow	symlink farm manager，dotfile 管理的核心工具之一

系統概念

卡片	主題
TTY	Linux 核心的純文字終端機介面，桌面故障時的救生通道
initramfs	開機初期掛真 root 之前的臨時根檔系統，ESP 大小要算進它
UEFI 開機鏈	韌體到 kernel 的交棒過程，bootloader 選型與開機故障的依據
分區識別（PARTUUID / FSUUID）	分區的穩定識別方式，fstab / bootloader 怎麼指涉分區
字型的可用集合在 process 啟動時決定	裝了字型但畫面還是豆腐時的判讀依據
Session Lock	鎖屏是 compositor 持有的安全狀態，殺 process 不等於解鎖
Compositor（合成器）	Wayland 下把畫面合成與視窗管理合一的核心程式，多個系統狀態的持有者
fontconfig	字型搜尋、匹配與 fallback 的底層服務，fc-* 工具分工

文化與術語

卡片	主題
Rice（桌面視覺客製化）	Linux 桌面社群的視覺客製化文化，詞源和涵蓋範圍

Infra 知識卡

Fri, 26 Jun 2026 00:00:00 +0000

Infra 知識卡收錄基礎設施領域的核心術語。每張卡自包含、可獨立閱讀，讀者可以從任何一張卡進入、透過鄰卡連結導航到相關概念。

知識卡的職責是建立術語的語意錨點。教學模組負責情境推導與操作判準，知識卡負責「這個詞是什麼、什麼時候會碰到、使用時要決定什麼」。兩者互相引用但各自完整。

卡片清單

卡片	說明
ALB	Application Load Balancer — 流量進入系統的第一站，負責 listener 路由、健康檢查與 TLS 終結
CIDR	用前綴長度表示 IP 地址範圍的表示法，決定 VPC 與 subnet 的地址空間大小
CloudTrail	AWS 的 API 層稽核日誌服務，記錄誰在什麼時候對什麼資源做了什麼操作
Drift	IaC 的 state 與雲端實際狀態之間的不一致，通常因為繞過 IaC 直接在 Console 改設定
ECS	AWS 受管容器編排服務，用 task definition 描述容器配置、由平台負責排程與健康管理
IAM	雲端平台的授權系統，回答「某個身分能不能對某個資源做某件事」
IaC	用程式碼描述基礎設施的最終狀態，由工具負責收斂現實與描述的差異
NAT Gateway	讓 private subnet 的資源主動對外連線、同時不被外部入站觸及
OIDC 聯合	讓 CI/CD 平台用短期 token 取代長期 access key 存取雲端資源
Security Group	掛在資源網卡層級的有狀態防火牆，逐埠決定哪些來源能連進這個資源
State	IaC 工具用來記錄每個納管資源在雲端真實樣貌的快照
Subnet	VPC 內按可用區與暴露程度切出的子網段，決定資源有沒有通往網際網路的路徑
VPC	雲端帳號內的一塊邏輯隔離私有網段，是所有網路切分的起點與容器
checkov	IaC 靜態安全掃描工具，比對 HCL 裡的已知壞寫法與安全反模式
Deletion Protection	防止誤刪 stateful 資源的平台級保護機制，開啟後刪除需先顯式關閉保護
Fargate	AWS ECS 的無伺服器容器執行模式，不需管理 EC2 instance
Remote State Backend	團隊共享、有鎖、有加密的 state 存放機制
Route Table	subnet 的流量轉送規則，決定封包離開 subnet 後往哪走
SCP	Organizations 層級的權限天花板，連管理員都越不過
Trust Policy	IAM role 的信任關係設定，控制誰能 assume 這個 role
環境分離	把同一套基礎設施定義複製成多份隔離的執行實例，各有獨立 state 與故障半徑
phpMyAdmin	Web 介面的 MySQL / MariaDB 管理工具，無 SSH 環境的主要 DB 管理入口
FileZilla	跨平台 FTP/SFTP client，提供目錄同步瀏覽和檔案比較功能
cPanel	Web 主機管理面板，整合 PHP 版本切換、cron、email、SSL、備份的圖形介面
.htaccess	Apache 的目錄層級設定檔，控制 URL rewrite、存取權限、PHP 設定覆寫
.env	存放環境變數的純文字檔案，把機密值從程式碼分離出來
php.ini / .user.ini	PHP 的執行期設定檔，控制記憶體上限、上傳大小、錯誤報告等 runtime 行為
Composer	PHP 的套件管理工具，管理第三方依賴、版本鎖定與安全掃描
mysqldump	MySQL/MariaDB 的 CLI 備份工具，把資料庫匯出成 SQL 純文字檔
Reverse Proxy	代替後端服務接收外部請求的中介層，承擔 TLS 終結、負載平衡與路由分流
Database Migration	用版本化的 SQL 腳本管理資料庫 schema 的變更歷程
Prometheus	開源的 metrics 收集與告警系統，用 pull 模式從 target 拉取指標
Grafana	開源的監控視覺化平台，從 Prometheus / Loki 等資料源建立 dashboard
HashiCorp Vault	機密管理系統，集中存放密碼與 API key，提供存取控制與稽核
Harbor	開源的 container image registry，支援映像掃描、RBAC、複製
Helm	Kubernetes 的套件管理工具，用 chart 打包一組 K8s 資源部署定義

Monitoring 知識卡片

Fri, 19 Jun 2026 00:00:00 +0000

監控體系教學中出現的關鍵術語卡片。每張卡片說明一個語意責任，跨情境變義的概念拆成獨立卡片。

Testing 知識卡片

Fri, 19 Jun 2026 00:00:00 +0000

測試策略教學中出現的關鍵術語卡片。每張卡片說明一個語意責任，跨情境變義的概念拆成獨立卡片。

UX Design 知識卡片

Fri, 19 Jun 2026 00:00:00 +0000

UX 設計教學中出現的關鍵術語卡片。每張卡片說明一個語意責任，跨情境變義的概念拆成獨立卡片。

Knowledge Cards

Wed, 06 May 2026 00:00:00 +0000

CI/CD 知識卡片的核心責任是建立共同語言。流程文章會使用 pipeline、gate、artifact、rollout、rollback、environment protection 等術語；卡片負責定義它們在系統中的位置、可觀察訊號與設計責任。

核心術語

卡片	核心問題	常見出現位置
CI Pipeline	變更如何在合併前被自動驗證	lint、test、build、security check
CD Pipeline	驗證後產物如何被安全推進到目標環境	deploy、promotion、release workflow
Required Checks	PR 合併條件如何由檢查結果定義	branch protection、status checks
Artifact	交付產物如何被追溯、保存與發布	build output、image、app bundle
Artifact Handoff	測試與發布如何共用同一份產物	build artifact、package、deploy
Migration	狀態變更如何在相容窗口內受控推進	schema change、backfill、release
Branch Protection	主線合併條件如何由規則強制保護	required checks、review policy
Readiness / Health Check	部署放行如何區分存活與可接流量訊號	rollout、probe、traffic switch
Container Registry	image 供應鏈如何被保存與推進	push、retention、promotion
App Signing	行動與桌面發版能力如何由簽章維持	certificate、profile、keystore
Flaky Test	非決定性測試如何影響 gate 信任度	rerun noise、test governance
Environment Protection	目標環境如何設置審核與發布保護	production、staging、review gate
Preview Environment	PR 變更如何在隔離環境中被提前驗證	frontend preview URL、review app
Rollout Strategy	新版本如何分批推進以控制風險	rolling、canary、phased rollout
Rollback Strategy	發布異常時如何回到已知可用狀態	deploy rollback、hotfix、forward fix
Deployment Dry Run	發布前如何先驗證流程條件與權限	preflight check、artifact check、permission
Backfill	歷史資料如何受控補算	migration、data pipeline、repair
Checkpoint	長時間任務如何保存接續位置	backfill、stream processor、rerun
Rerun	重跑流程如何避免擴大副作用	flaky test、data repair、pipeline recovery
Image Digest	container image 如何取得不可變身分	registry、scan、runtime handoff
SBOM	artifact 內含元件如何被揭露	image scan、release evidence、compliance
Release Channel	版本如何依使用者範圍分流	app、desktop、beta、stable
Update Feed	已安裝客戶端如何取得新版本	desktop auto-update、rollback channel
Infrastructure Drift	真實環境與 IaC 宣告如何分叉	Terraform、Pulumi、manual hotfix
State Lock	IaC apply 如何避免併發覆寫 state	Terraform backend、workspace、apply
Function Alias	serverless 入口如何指向特定版本	alias rollback、traffic shift
Event Source	事件來源如何影響 retry 與回復	queue、topic、HTTP trigger、scheduler

卡片與流程文章分工清楚。卡片負責名詞與邊界，流程文章負責情境判讀與操作路由。