Training on Tarragon

In-Context Learning

Thu, 14 May 2026 00:00:00 +0000

In-context learning（ICL）的核心概念是「模型在不更新權重的情況下，從 context window 內資訊臨時學會任務格式與判準」。它是 LLM 跟傳統模型最不同的能力之一：任務規則可以放在 context 裡，而不是一定要 fine-tune 進權重。

概念位置

ICL 是推論時行為，不是訓練流程。Few-shot prompting 是 ICL 最常見的操作方式；SFT、LoRA、QLoRA 則是修改權重的訓練或微調方式。

可觀察訊號與例子

給模型三個分類範例後，第四個樣本就按同一標準分類，這是 ICL。把專案命名規則、輸出格式、review rubric 放進 prompt，模型在當次回合遵守，也屬於 ICL。

設計責任

ICL 適合快速迭代與少量範例；當範例多到吃滿 context window、每天重複使用且標準穩定時，再考慮 fine-tune。需要穩定輸出格式時，ICL 應搭配 structured output 或 validator。

Training Example Coverage

Thu, 14 May 2026 00:00:00 +0000

Training example coverage（訓練範例覆蓋度）的核心概念是「模型在訓練時看過的任務情境是否足以支撐部署時遇到的變化」。LLM 的能力宣稱常寫成支援某功能，但實際穩定性取決於範例是否覆蓋工具數量、參數形狀、語言變體、錯誤情境與 edge cases。

概念位置

Coverage 是訓練資料分佈的問題，常在 SFT、偏好資料、tool-use data、domain fine-tune 裡出現。它跟 prompt 範例不同：few-shot 範例只存在於當次 context，training examples 會透過訓練更新模型權重，影響模型「自然」傾向怎麼回答。

1訓練資料有覆蓋 → 模型自然輸出穩定
2訓練資料缺口大 → 靠 prompt / structured output / validator 兜底

可觀察訊號與例子

Function calling 的 coverage 可從四個面向判讀：該呼叫時是否呼叫、工具選擇是否正確、參數型別是否正確、巢狀 schema 與多工具情境是否穩定。小模型常在單一工具 + 平坦 schema 表現可用，但一進到多工具、optional field、nested object、跨語言 query 就明顯掉分，這通常是 coverage 不足而不是單純 parser 問題。

Coverage 的陷阱是只看 happy path。訓練範例如果只有成功呼叫工具，模型會傾向每次都呼叫；如果缺少「資訊不足時先追問」「使用者要求超出權限時拒絕」「工具錯誤時重試或回退」這類範例，部署後會在安全與可靠性邊界失敗。

設計責任

評估模型能力時，把支援功能改問成覆蓋範圍：支援哪些 tool schema 複雜度、哪些語言、哪些錯誤路徑、哪些反例。下一步路由是用 eval set 補齊代表性情境；如果 coverage 無法補在模型訓練層，就用 structured output、validator、retry 與 fallback 降低失敗成本。

Adam / AdamW

Tue, 12 May 2026 00:00:00 +0000

Adam（Adaptive Moment Estimation、Kingma & Ba, 2014）的核心概念是「對每個參數維護兩個 EMA（gradient 的一階矩 = 平均、二階矩 = 變異）、用這兩個值自適應地縮放每個參數的更新步長」。AdamW（Loshchilov & Hutter, 2017）是 Adam 加上「decoupled weight decay」的修正版、是現代 LLM 訓練的標準 optimizer。

概念位置

Adam 更新規則（簡化）：

1m_t = β₁ × m_{t-1} + (1 - β₁) × g_t ← gradient 的 EMA（一階矩、方向）
2v_t = β₂ × v_{t-1} + (1 - β₂) × g_t² ← gradient² 的 EMA（二階矩、變動率）
3W -= lr × m_t / (sqrt(v_t) + ε)
4 └──────┬──────┘
5 每個參數獨立縮放
6 經常變動的方向減小步長、穩定方向加大

跟其他 optimizer 對比：

對比	SGD	SGD + Momentum	Adam	AdamW
每參數自適應	否	否	是	是
記憶體開銷	1× W（就 gradient）	2× W	3× W	3× W
Hyperparameter	lr	lr + μ	lr + β₁、β₂	lr + β₁、β₂ + weight_decay
LLM 訓練主流	否	否	早期	現在主流

關鍵：AdamW 對 weight decay 跟 lr 解耦、修正了 Adam 在「lr × weight_decay」交互上的 bug、是 GPT、Llama、Gemma 等系列訓練的標配。

設計責任

讀 LLM training paper / config 看到 optimizer: AdamW、betas: [0.9, 0.95]、weight_decay: 0.1 等就是這個 optimizer 的標準設定。記憶體佔用 = 模型權重 × 3（model + m + v）、加上 backpropagation 的 activation、是訓練 vs 推論記憶體差距的主要來源。

Backpropagation

Tue, 12 May 2026 00:00:00 +0000

Backpropagation（反向傳播）的核心概念是「從輸出端的 loss 開始、用 chain rule 一層層往輸入端遞推、算出每個權重的 gradient」。它是訓練神經網路的核心演算法、沒有它就無法在合理時間內訓練深度模型。

概念位置

Backpropagation 是訓練 loop 的中段、夾在 forward pass 跟權重更新之間：

1[forward pass]：input → layer1 → layer2 → ... → output → loss
2 ↓
3[backpropagation]：把 loss 對最後一層權重的偏微分算出來
4 ←─ chain rule ─ 再往前傳播一層、算前一層的 gradient
5 ←─ chain rule ─ ...一路傳回輸入層
6 ↓
7[optimizer step]：每個權重 w 用對應的 gradient 更新

關鍵特性：

計算成本 ≈ forward pass 的 2~3 倍：每個 layer 都要存 forward 階段的中間值（activation）、反向時拿來算 gradient。所以訓練比推論貴一個量級。
記憶體佔用 = forward 階段 activation 的累計：這是訓練比推論吃 VRAM 的主因、不是「權重變大」、是「activation 要存著」。
數值穩定性敏感：long chain 的 chain rule 容易導致 gradient 爆炸或消失、見 gradient 卡。

設計責任

推論階段完全不用 backpropagation。理解這點能解釋幾個現象：為什麼同樣模型訓練要 8 卡 H100 一週、推論單卡就跑得動（差幾十倍的計算與記憶體需求）；為什麼 LoRA / QLoRA 等 parameter-efficient fine-tuning 能大幅降低訓練成本（凍住大部分權重、只對少數 LoRA 矩陣做 backpropagation）；為什麼 inference framework（llama.cpp、vLLM）跟 training framework（PyTorch、JAX）的設計重點完全不同。

Catastrophic Forgetting

Tue, 12 May 2026 00:00:00 +0000

Catastrophic forgetting（災難遺忘）的核心概念是「Fine-tune 模型時、新訓練資料的 gradient 更新破壞了模型原本學到的能力」。在 LLM fine-tuning 場景特別常見：在自己 domain 資料上 fine-tune、結果模型在原 benchmark / 通用任務上分數大幅下降。

概念位置

Catastrophic forgetting 在 LLM fine-tuning 的典型表現：

 1Before fine-tune（base instruct model）：
 2  HumanEval: 75
 3  MMLU: 70
 4  自己 domain 任務 hit rate: 40%
 5
 6After fine-tune（在自己 domain 資料上跑 SFT、3 epochs）：
 7  HumanEval: 55  ← 下降 20 點
 8  MMLU: 50       ← 下降 20 點
 9  自己 domain 任務 hit rate: 70%  ← 提升 30 點
10
11→ 自己 domain 強了、但通用能力崩了

成因：

Gradient 在新資料上對 base 權重做大更新：原本 base 的權重對通用任務有用、被覆蓋掉
資料分佈差距大：自己 domain 跟 pretrain corpus 分佈差距大、學新的 = 忘舊的
訓練 epoch 太多：模型 over-fit 到新資料、舊能力衰退更嚴重
Learning rate 太高：每步更新幅度大、舊權重變化快

緩解策略

策略	機制	適用情境
LoRA / QLoRA	凍住 base 權重、只訓 adapter、舊能力完全保留	多數 fine-tune 場景的 default
資料 mixing	訓練 batch 內 mix 通用資料 + domain 資料、避免分佈完全偏移	跟 LoRA 結合使用
Lower learning rate	用較小 lr（如 5e-6 vs 1e-5）、減慢更新	全參數 fine-tune 必選
Fewer epochs	訓 1-2 epoch 就停、不過度擬合	同上
Regularization（KL constraint）	Loss 加「不能偏離 base 太遠」的約束	RLHF / DPO 已內建
EWC（Elastic Weight Consolidation）	對重要權重加更強懲罰、防止它們被改	研究用、實務罕見

主流 fine-tuning 配置（避免 catastrophic forgetting）：

1方法：QLoRA fine-tune
2參數：
3  - rank: 16-64（看資料量）
4  - alpha: 32（typical）
5  - lr: 1e-4 ~ 5e-4（LoRA 適合較大 lr）
6  - epochs: 1-3（不過度訓）
7  - 資料：80% in-domain + 20% 通用 instruction data（保留通用能力）

設計責任

讀 fine-tune paper / 報告看到「forgetting」「retention」「regression」就是這現象。寫 code 場景的判讀：

Fine-tune 前先建 baseline benchmark：把 base model 在通用 benchmark + 自己 domain 都跑一遍、fine-tune 後對比看 regression
用 LoRA / QLoRA 是 default：除非有特殊理由要 full fine-tune、不然優先 LoRA
不要把通用 chat 能力 fine-tune 掉：如果 fine-tune 後模型不會聊天、只會答自己 domain 問題、就是 forgetting 過頭
Iterative fine-tune 風險疊加：在 fine-tuned 模型上再 fine-tune（如 SFT → DPO）、forgetting 風險加倍、要小心評估
Reasoning 能力特別容易 forget：reasoning 是後期訓練的、fine-tune 一輪 SFT 容易破壞、reasoning model 不建議再 fine-tune

Contrastive Learning

Tue, 12 May 2026 00:00:00 +0000

Contrastive learning（對比學習）的核心概念是「訓練模型讓相關樣本的 embedding 在向量空間中靠近、無關樣本遠離」。是現代 embedding model 的標準訓練 paradigm、跟 LLM pretrain 的 next-token prediction 完全不同的訓練目標。

概念位置

Contrastive learning 的核心訓練形態：

 1正向對（positive pair）：
 2 (query, relevant_doc) — 應該在 embedding 空間靠近
 3 例：("Python how to read file", "Python file reading tutorial...")
 4
 5負向對（negative pair）：
 6 (query, irrelevant_doc) — 應該在 embedding 空間遠離
 7 例：("Python how to read file", "CSS flexbox guide...")
 8
 9Loss（簡化的 InfoNCE loss）：
10 pull positive pair 靠近
11 push negative pair 遠離（多個 negative samples 對比）

主流形式：

形式	Loss 設計	代表模型
Triplet loss	(anchor, positive, negative)、要求 anchor-positive 距離 < anchor-negative	早期 sentence-BERT
InfoNCE / NCE	Cross-entropy over batch、把 batch 內其他樣本當 hard negative	OpenAI ada-002、bge 系列
MultipleNegativesRankingLoss	上述變體、用 batch 內隨機其他樣本當 negative	Sentence-Transformers 主流

關鍵特性：

資料量需求大：contrastive learning 需要億級的正向對才能訓出好 embedding；資料來源是 query-doc click log、StackExchange QA pair、CC-paraphrase 等
Hard negative mining 是品質關鍵：隨機選 negative 容易（從 batch 取就行）、找「看似相關但實際無關」的 hard negative 更挑戰、是 embedding quality 提升的關鍵
不能直接拿 pretrained LLM 用：LLM 的 hidden state 不是「為 retrieval 優化」的、要再 fine-tune 一輪 contrastive learning 才能當 embedding model

設計責任

讀 embedding model paper / 訓練 code 看到「InfoNCE」「triplet」「hard negatives」「mining strategy」就是這 paradigm。寫 code 場景的判讀：

挑 embedding model 看訓練資料 domain：通用 retrieval（如 bge-large、nomic-embed）vs code-specific（如 jina-embeddings-v2-code、CodeT5+）、訓練資料分佈影響大
不能拿任意 LLM 抽 hidden state 當 embedding：如「Llama 的 last hidden state 當 embedding」這類做法在 retrieval 上通常顯著輸給專門 contrastive-trained embedding model
Fine-tune embedding model 通常用 LoRA + contrastive loss：在自己 domain 資料上 fine-tune、提升 in-domain retrieval；標準 pipeline 是 sentence-transformers + LoRA

Cross-Entropy

Tue, 12 May 2026 00:00:00 +0000

Cross-entropy（交叉熵）的核心概念是「衡量兩個機率分佈的距離」。LLM 預訓練的標準 loss function 是 cross-entropy：對每個 token、把模型預測的 vocab 機率分佈跟「真實答案是 one-hot 分佈」做 cross-entropy、加總。

概念位置

Cross-entropy 在 next-token prediction 訓練裡的具體計算：

1模型預測：p = softmax(logits) ← shape: (vocab_size,)
2真實答案：y = one-hot(true_token) ← shape: (vocab_size,)、只有真實 token 那位是 1
3
4cross-entropy = -sum(y_i × log(p_i))
5 = -log(p_true_token) ← 因為 y 是 one-hot、只剩這項

所以實作上 cross-entropy 就退化成「真實 token 預測機率的負對數」、機率越接近 1、loss 越接近 0；機率越接近 0、loss 越接近 ∞。

跟相關概念的關係：

概念	跟 cross-entropy 的關係
Perplexity	`perplexity = exp(cross-entropy)`、cross-entropy 的指數形式、人類直覺較好讀
KL divergence	Cross-entropy = entropy(真實) + KL(真實 ‖ 預測)、訓練時 entropy 是常數、所以 minimize cross-entropy 等於 minimize KL
Softmax	Cross-entropy 通常吃 softmax 的輸出當「預測機率」

設計責任

讀 LLM 訓練 / paper 時看到「training loss」幾乎都是 cross-entropy。實務判讀：cross-entropy 直接代表「模型對真實 token 的預測機率有多差」、loss = 2 大致對應「真實 token 被預測機率 ≈ 0.135」（exp(-2)）。模型在 pretrain 階段 cross-entropy 從約 11（純隨機）降到約 2-3（成熟模型）、SFT 階段再略降。

DPO（Direct Preference Optimization）

Tue, 12 May 2026 00:00:00 +0000

DPO（Direct Preference Optimization、直接偏好最佳化）的核心概念是「用人類偏好資料直接 fine-tune LLM、不訓 reward model、不用 RL」。Rafailov et al. (2023) 提出、用數學變形把 RLHF 的「reward model + PPO」兩階段合併成單一個 supervised loss、訓練流程大幅簡化。

概念位置

DPO vs RLHF 的對比：

維度	RLHF	DPO
需要 reward model	是	否
訓練步驟	收偏好 → 訓 RM → PPO	收偏好 → 直接 DPO loss fine-tune
訓練穩定性	PPO 對 hyperparameter 敏感、容易不穩	像 supervised learning、相對穩
記憶體	三個模型同時運作（policy / RM / reference）	兩個（policy / reference frozen）
KL 約束	顯式加 β × KL term	內嵌在 loss 公式裡、不用顯式
流行度（2026）	商業大廠（OpenAI / Anthropic）	開源社群（Llama / Qwen / Gemma 系列許多用 DPO）

DPO 的 loss 形式（簡化）：

1loss = -log σ( β · (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x)) )
2                └─ 偏好 response 在 policy 跟 ref 的 ratio ─┘
3                                                            └─ 拒絕 response 的同樣 ratio ─┘

直覺：讓 policy 對偏好 response 的機率增加（相對 ref）、對拒絕 response 的機率降低（相對 ref）。

設計責任

讀開源 LLM 的 paper / model card 看到「DPO-tuned」「preference fine-tuning」就是這個流程。實務上 DPO 訓練成本只是 RLHF 的一小部分、許多 fine-tune 平台（如 Hugging Face TRL）內建支援。後續還有 IPO、KTO、ORPO 等變體、都是「直接用偏好 fine-tune、不訓 reward」這條路線的進一步演化。

Forward Pass

Tue, 12 May 2026 00:00:00 +0000

Forward pass（前向傳播）的核心概念是「input 從第一層算到最後一層、得到 output 的單向計算流程」。LLM 推論時生成一個 token、就是跑一次 forward pass；訓練時、每個 batch 也都先跑 forward pass 算出 loss、再跑 backpropagation 算 gradient。

概念位置

LLM 一次 forward pass 的大略流程：

 1input token IDs
 2 ↓ embedding layer：整數 → 向量
 3sequence of vectors
 4 ↓ Transformer block 1（attention + FFN）
 5 ↓ Transformer block 2
 6 ↓ ...
 7 ↓ Transformer block N
 8final hidden state
 9 ↓ output projection（hidden → vocab）
10logits（每個 vocab token 一個分數）
11 ↓ softmax（推論時）
12probability distribution → 挑下一個 token

跟相關概念的對比：

概念	跟 forward pass 的關係
Prefill	Prompt 階段的「一次性 forward pass」、所有 prompt token 並行
Decode 階段	每生一個 token 跑一次 forward pass、序列化、慢
Speculative decoding	一次 forward pass 同時驗證多個猜測 token
Backpropagation	訓練時 forward pass 的反向延伸、推論不需要

設計責任

理解 forward pass 後可以判讀 LLM 的記憶體與速度：每次 forward pass 都要把整份模型權重從記憶體讀到處理器一次、所以 memory bandwidth 是推論瓶頸；KV cache 的存在是為了避免每次 forward pass 重算前面 token 的 K/V；MTP / speculative decoding 都是「一次 forward pass 攤平多個 token 成本」的優化路徑。

Gradient

Tue, 12 May 2026 00:00:00 +0000

Gradient（梯度）的核心概念是「loss function 對每個權重的偏微分組成的向量」。每個分量回答「這個權重往正方向動一單位、loss 會變多少」、整個 gradient 向量指向「loss 上升最快的方向」、所以訓練時往反方向走、就是讓 loss 下降最快的方向。

概念位置

Gradient 連接「loss」跟「該怎麼更新權重」兩件事、是 backpropagation 算出來的東西、也是 SGD / Adam 等 optimizer 消費的輸入：

1[forward pass] → 算出 loss
2 ↓
3[backpropagation] → 算出 gradient（每個權重一個值）
4 ↓
5[optimizer] → 用 gradient 更新權重：w_new = w_old - lr × gradient

Gradient 在 LLM 訓練中的兩個常見問題：

問題	訊號	處理
Gradient 爆炸	loss 突然變 NaN、梯度 norm > 1000	Gradient clipping（截斷 norm 上限）、降 learning rate
Gradient 消失	深層權重幾乎不更新、loss 停在某 plateau	Residual connection、Layer normalization、改 activation function

設計責任

推論階段（拿訓練好的模型生 token）不需要算 gradient、只有 forward pass；gradient 只在訓練 / fine-tuning 階段出現。所以本地跑 LLM 寫 code 的場景不會碰到 gradient、但讀懂訓練流程、理解「為什麼 SFT / RLHF 需要 GPU、推論不一定要」這類判讀就要先理解 gradient 的角色。

Gradient Explosion / Vanishing

Tue, 12 May 2026 00:00:00 +0000

Gradient explosion（爆炸）跟 gradient vanishing（消失）的核心概念是「深層網路的 backpropagation 透過 chain rule 一層層相乘、若每層 gradient > 1、累乘到輸入層會指數爆炸；若每層 gradient < 1、累乘到輸入層會衰減到接近 0」。兩者是深層網路訓不起來的典型病因、現代 Transformer 用 residual connection + layer normalization 解決。

概念位置

兩種失敗模式的訊號跟處理：

模式	訊號	主要成因	處理
Gradient explosion	loss 突然變 NaN、gradient norm > 1000+	Learning rate 太大、初始化不當、loss 函數有奇點	Gradient clipping（截斷 norm 上限、如 1.0）、降低 lr、檢查資料 outliers
Gradient vanishing	深層權重幾乎不更新、loss 卡 plateau	層數深、activation 飽和區（sigmoid、tanh）、缺 skip connection	Residual connection + layer norm + 換 activation（ReLU / GELU / SwiGLU）

數學直覺（簡化）：

1深 N 層的 chain rule：
2∂loss/∂W_input = ∂loss/∂out × ∂out/∂h_N × ∂h_N/∂h_{N-1} × ... × ∂h_1/∂W_input
3 └──────────── N 個 factor 連乘 ──────────────┘
4
5若每個 factor ≈ 0.5、N=100：累乘 ≈ 0.5^100 ≈ 0 → vanishing
6若每個 factor ≈ 1.5、N=100：累乘 ≈ 1.5^100 ≈ 4e17 → explosion

Residual connection 讓 gradient 有「捷徑」可走、不全靠 chain rule 一層層乘、是深層 Transformer 訓得起來的核心結構之一。

設計責任

讀訓練 log 看到 loss: nan、grad_norm: inf 就是 explosion；看到 loss 平穩、幾個 epoch 都不降就是可能的 vanishing。寫 code 場景幾乎不會碰到（推論不算 gradient）、但自己 fine-tune 時要會判讀。LLM 用的 SwiGLU / GELU 都是 saturation 較不嚴重的 activation、加上 residual + pre-norm、現代 Transformer 訓 100+ 層相對穩定。

KL Divergence

Tue, 12 May 2026 00:00:00 +0000

KL divergence（Kullback-Leibler divergence、KL 散度）的核心概念是「衡量兩個機率分佈 P 跟 Q 的差距」：KL(P ‖ Q) = sum(P(x) × log(P(x) / Q(x)))。它不對稱（KL(P ‖ Q) ≠ KL(Q ‖ P)）、所以不算「距離」、是「散度」。在 LLM 訓練中是 alignment 階段防止模型「為了 reward 偏離太遠」的關鍵約束。

概念位置

KL divergence 在 LLM 中的兩個主要角色：

跟 cross-entropy 的關係：
```
1cross-entropy(P, Q) = entropy(P) + KL(P ‖ Q)
```
訓練時 P（真實分佈）固定、entropy(P) 是常數、所以「minimize cross-entropy」等於「minimize KL」。
RLHF / DPO 的「KL 約束」：

alignment 階段不能只 maximize reward、否則模型會「為了 reward 把語言能力毀掉」。所以加 KL 約束：
```
1objective = E[reward] - β × KL(π_new ‖ π_ref)
2 └─ 不讓新模型偏離 ref（通常是 SFT 後的 base）太遠 ─┘
```
β 控制「reward 追求」vs「不偏離原始模型」的平衡。

跟相關概念的對比：

指標	對稱？	主要用途
Cross-entropy	否	訓練 loss、衡量預測機率分佈跟真實分佈
KL divergence	否	Alignment 訓練的偏離約束
JS divergence	是	兩個分佈的對稱差距、研究比較多

設計責任

讀 alignment paper 看到 β、KL penalty、KL coefficient 等詞、知道這些是控制「模型在追 reward 時偏離 base 多遠的容忍度」。β 太小、模型容易 reward hacking（找 reward 高但實質爛的輸出）；β 太大、模型動不了、reward 升不上去。DPO 把 KL 約束內嵌進 loss、不像 RLHF 需要顯式 KL term、是 DPO 比 RLHF 簡單的原因之一。

Layer Normalization

Tue, 12 May 2026 00:00:00 +0000

Layer normalization（LayerNorm）的核心概念是「對單一 token 的 hidden state 向量做正規化」——把該向量的 mean 移到 0、std 縮到 1、再用兩個可學參數做仿射變換。它是 Transformer 穩定深層訓練的關鍵元件、跟 batch normalization 的差別是「正規化軸不同」、LayerNorm 對單個 sample 內部做、不依賴 batch 統計。

概念位置

LayerNorm 在 Transformer block 內的位置（現代主流是 pre-norm）：

1Transformer block（pre-norm 配置）：
2 x
3 ↓ LayerNorm
4 ↓ Self-Attention
5 ↓ + 跟 x 做 residual connection
6 ↓ LayerNorm
7 ↓ FFN
8 ↓ + 跟前一步輸出做 residual connection

主流變體比較：

變體	計算	出現在
LayerNorm	`(x - mean) / std × γ + β`	早期 Transformer（GPT-2、BERT）
RMSNorm	`x / rms(x) × γ`（不減 mean、不加 β）	Llama、Gemma、Qwen 等主流

RMSNorm 比 LayerNorm 簡單、實測訓練穩定性接近、推論更快（少算 mean 跟加 β）、所以現代 LLM 多用 RMSNorm。讀 paper 看到「RMSNorm」就是 LayerNorm 的這個簡化變體。

Pre-norm vs post-norm：

Pre-norm（LayerNorm 在 attention / FFN 之前）：深度模型訓練較穩、現代主流。
Post-norm（LayerNorm 在 residual add 之後）：原始 Transformer paper 的設計、深層訓練不穩定。

設計責任

理解 LayerNorm 後可以判讀「深層 LLM 為什麼訓得起來」的部分答案：residual connection + LayerNorm 是讓梯度能穩定流過幾十層 Transformer 的兩根支柱。讀 model card 看到「RMSNorm」「pre-norm」等詞、知道對應的設計選擇跟訓練穩定性意涵。

Learning Rate

Tue, 12 May 2026 00:00:00 +0000

Learning rate（學習率、lr、α、η）的核心概念是「gradient 每步更新權重時、被乘上的純量縮放因子」。更新公式 W_new = W_old - lr × gradient 裡的 lr 就是它。是訓練最敏感的單一 hyperparameter — 太大會 diverge（loss 飛走）、太小會訓得超慢或卡 local minimum。

概念位置

LLM 訓練 learning rate 的常見模式：

階段	典型 lr	理由
Pre-training	1e-4 ~ 3e-4	訓 trillion token、需要溫和的 lr 避免 diverge
SFT	1e-5 ~ 5e-5	base model 已收斂、用小 lr 微調避免 overshoot
RLHF / DPO	1e-7 ~ 1e-6	又比 SFT 更小、避免破壞 SFT 學到的對話能力
LoRA fine-tune	1e-4 ~ 5e-4	只訓小 adapter、可用較大 lr

Learning rate schedule（lr 隨訓練步數調整）的主流模式：

Warmup：訓練最初幾百 ~ 幾千 step、lr 從 0 線性升到目標值。避免初期 gradient 大、模型瞬間 diverge。
Cosine decay：warmup 後、lr 用 cosine 函數從目標值降到接近 0。訓練後期細調。
WSD（Warmup-Stable-Decay）：近期變體、中間維持高 lr 更久。

設計責任

讀 training config 看到 learning_rate、lr_scheduler_type: cosine、warmup_steps: 1000 等就是這組設定。Fine-tune 時 lr 設太大、模型會「忘記」pre-training 學到的能力（catastrophic forgetting）；太小則訓不進新資料、loss 不降。實務除錯：fine-tune 時 loss 第一個 epoch 就 NaN、十之八九是 lr 太大；loss 完全不降、十之八九是 lr 太小或 gradient 沒流到要訓的權重。

LoRA

Tue, 12 May 2026 00:00:00 +0000

LoRA（Low-Rank Adaptation、低秩適配）的核心概念是「凍住原模型所有權重、在指定 layer 旁邊掛兩個小矩陣 A、B（rank 很低、如 r=8）、只訓 A、B」。Hu et al. (2021) 提出、是現在 fine-tuning 的主流選擇、大幅降低訓練成本與記憶體需求。

概念位置

LoRA 的數學形式：

1原 layer 輸出：y = W × x （W 凍住）
2加 LoRA 後： y = W × x + B × A × x
3 └──┬──┘
4 LoRA update（rank r）
5 A shape: (r, hidden_dim)
6 B shape: (hidden_dim, r)

關鍵特性：

維度	完整 fine-tuning	LoRA fine-tuning（r=16）
可訓練參數	全部（如 7B、70B）	~0.1% ~ 1%（只 A、B）
GPU 記憶體	高（要存所有 gradient）	大幅降低
Adapter 檔案大小	跟原模型同大	幾 MB ~ 幾百 MB
訓練成本	全模型 backprop	只算 A、B 的 gradient
部署	載入新模型	載入原模型 + adapter、推論時合併
多任務切換	載入不同模型	切換 adapter 即可（同個底）

QLoRA（Dettmers et al., 2023）進一步把原模型量化到 4-bit、LoRA 訓在量化模型上、消費級 GPU 也能 fine-tune 大模型。

設計責任

讀 fine-tuning 教學 / Hugging Face PEFT 看到 LoRA、QLoRA 是現在主流。寫 code 場景的判讀：LoRA 適合「在現有模型上加領域知識 / 風格」（如教模型用特定 codebase 慣例）、不適合「教模型新世界知識」（仍要 pre-training 級資料）；adapter 形式讓「多客戶 / 多風格」場景可以共用 base model、只切換 adapter、節省 GPU 記憶體。

Loss Function

Tue, 12 May 2026 00:00:00 +0000

Loss function（損失函數、目的函數）的核心概念是「把模型預測跟正確答案的差距、壓成一個純量數值」。訓練的整個目標就是「最小化這個數值」、所有 gradient / backpropagation / optimizer step 都在做這件事。

概念位置

LLM 各訓練階段用不同的 loss function：

階段	主要 loss	衡量的東西
Pre-training	Cross-entropy（next-token prediction）	模型預測的下個 token 機率跟真實答案的距離
SFT	Cross-entropy（同上、但 only on assistant response）	模型回答跟人類示範回答的距離
Reward model	Pairwise ranking loss	「人類偏好 A 大於 B」這個訊號的擬合度
RLHF / DPO	KL-constrained reward loss / DPO loss	reward 高 + 不偏離 base 模型太遠

評估時用的指標（perplexity、accuracy、BLEU 等）跟訓練 loss 是不同概念：loss 是「訓練要 minimize 的東西」、指標是「給人看模型好不好的數字」、兩者不一定一致（loss 降但指標不一定升、反之亦然）。

設計責任

選 loss function 等於選「訓練要把模型推往哪個方向」。Cross-entropy 推「機率分佈接近真實 token」、reward model 推「人類偏好高的回應」、DPO 推「偏好回應 vs 拒絕回應的對比」— 每種 loss 對應的模型行為不同。讀 paper 看到「我們用 X loss」、要回問「這 loss 把模型推往哪個方向」、才能判斷模型訓練出來的特性是否符合預期。

Pre-training

Tue, 12 May 2026 00:00:00 +0000

Pre-training（預訓練）的核心概念是「在大量未標註文字上、用 next-token prediction 當目標訓練一個語言模型」。產出的權重稱為 base model、是後續 SFT / RLHF 的起點。Pre-training 是 LLM 三階段訓練流程中最貴、最耗時、最決定模型上限的階段。

概念位置

Pre-training 在 LLM 訓練 pipeline 的位置：

1[網路文字 / 書籍 / code / 論文]（trillion token 級）
2 ↓ Pre-training（next-token prediction、cross-entropy loss）
3[Base model]：會接龍但不會對話
4 ↓ SFT（指令-回答對資料）
5[Instruction-tuned model]：會跟指令走
6 ↓ RLHF / DPO（人類偏好資料）
7[Aligned model]：對話風格 / 安全性對齊

Pre-training 的特性：

維度	典型數字（2026 年主流大模型）
資料量	數兆 token（Common Crawl、RefinedWeb、The Pile、Stack 等）
GPU 用量	數百到數萬張 H100 / B200、並行訓練
訓練時間	數週到數月
成本級別	數百萬到數億美元
Loss	Cross-entropy on next-token
結果	「會接龍」的 base model、可用 perplexity 評估

設計責任

理解 pre-training 後可以判讀幾件事：模型的「世界知識」絕大部分在 pre-training 時就決定了、SFT / RLHF 只是「教模型怎麼用這些知識回答」、不會大幅增加新知識；模型 cutoff date 就是 pre-training 資料的截止；想做新領域知識引入、RAG 比繼續 fine-tune 划算（pre-training 太貴、且 fine-tune 容易讓既有能力退化）。

Residual Connection

Tue, 12 May 2026 00:00:00 +0000

Residual connection（殘差連接、skip connection）的核心概念是「把 layer 的輸入直接加到輸出上」、形式是 output = layer(x) + x。這個簡單加法解決了深層網路的訓練退化問題：沒有 residual、模型加深會反而變差（不是過擬合、是 gradient 在反向傳播中衰減太多）；有 residual、訓練幾十甚至上百層都穩。

概念位置

Residual connection 在 Transformer block 中出現兩次：

 1Transformer block：
 2 x
 3 ├──────────────┐ ← skip connection（保留原始 x）
 4 ↓ │
 5 LayerNorm │
 6 ↓ │
 7 Self-Attention │
 8 ↓ │
 9 +←─────────────┘ ← residual add：attention output + x
10 │
11 ├──────────────┐ ← skip connection（保留 attention 後的值）
12 ↓ │
13 LayerNorm │
14 ↓ │
15 FFN │
16 ↓ │
17 +←─────────────┘ ← residual add：FFN output + previous
18 ↓
19 進入下一個 block

關鍵性質：

Gradient 可以走捷徑：Backpropagation 時、gradient 能透過 skip connection 直接傳回淺層、避免 chain rule 累積衰減。
Layer 學「殘差」而不是「完整轉換」：每層學「該怎麼微調輸入」、不用學「從零生成輸出」、優化更容易。
跟 LayerNorm 配對：兩者一起是深層 Transformer 訓得起來的基礎。

設計責任

理解 residual connection 後可以判讀 Transformer 能堆幾十層的根本原因（不是因為 attention、是因為 residual + LayerNorm 讓深層仍可訓練）；也能看懂 ResNet、ViT 等其他用 residual 架構的設計。LLM 推論時 residual 不算 bottleneck、但在訓練 / fine-tune 時、residual 是 gradient flow 健康度的關鍵。

RLHF

Tue, 12 May 2026 00:00:00 +0000

RLHF（Reinforcement Learning from Human Feedback、人類反饋強化學習）的核心概念是「讓人類比較兩個模型回答的好壞、訓一個 reward model 學會這個偏好、再用 RL 把 LLM 推往 reward model 給高分的方向」。RLHF 是 LLM 對話品質飛躍的關鍵（從 GPT-3 base 到 ChatGPT 的差別主要是 RLHF）。

概念位置

RLHF 在訓練流程的位置與步驟：

 1[SFT 後的模型]
 2 ↓
 3Step 1：收集人類偏好
 4 對同個 prompt 讓模型生 A、B 兩個 response、人類標「我較喜歡 A」
 5 ↓
 6Step 2：訓 reward model
 7 輸入 (prompt, response)、輸出一個分數
 8 目標：人類偏好的 response 分數高
 9 ↓
10Step 3：用 PPO 等 RL 演算法 fine-tune LLM
11 讓模型輸出讓 reward model 給高分的 response
12 加 [KL constraint](/llm/knowledge-cards/kl-divergence/)：不能偏離 SFT model 太遠
13 ↓
14[Aligned model]：回答更貼近人類偏好

關鍵特性與挑戰：

三個模型同時運作：policy（LLM）、reward model、reference model（SFT 後 frozen 那份）、訓練時記憶體吃緊。
Reward hacking：模型可能找到 reward model 的弱點、生成「reward 高但實質爛」的輸出（如冗長 boilerplate）。
訓練不穩：PPO 對 hyperparameter 敏感、需要小心調 β（KL 約束強度）、learning rate 等。

設計責任

RLHF 是 ChatGPT / Claude / Gemini 等商業 LLM 對話品質的核心。讀 model card 看到「RLHF-tuned」「helpfulness fine-tuning」就是這個階段。DPO 是 2023 年後出現的簡化替代方案、跳過 reward model、直接用偏好資料 fine-tune、訓練流程簡單很多、是現代許多開源模型的主流選擇。

SFT（Supervised Fine-Tuning）

Tue, 12 May 2026 00:00:00 +0000

SFT（Supervised Fine-Tuning、指令微調）的核心概念是「在 base model 上、用人類示範的『指令-回答』成對資料做監督式 fine-tune、讓模型從『接龍』變成『跟指令走』」。SFT 是 pre-training 跟 alignment（RLHF / DPO）之間的橋。

概念位置

SFT 在訓練 pipeline 的位置與資料形態：

1資料格式（典型）：
2 {"instruction": "寫一個 Python fibonacci",
3 "response": "def fib(n): ..."}
4
5訓練：
6 把 instruction + response 連起來、跑跟 pre-training 一樣的 next-token prediction
7 但 loss 只算 response token 上的 cross-entropy（instruction 部分不算）

SFT 後同一個模型行為大改：

問同樣問題「寫一個 Python fibonacci」	Base model（pre-training 後）	Instruction-tuned model（SFT 後）
行為	純文字接龍：「寫一個 Python fibonacci。寫一個 JavaScript fibonacci。寫一個 Rust…」	直接給出 fibonacci 函式實作

關鍵特性：

資料量遠小於 pre-training：幾萬到幾百萬筆指令-回答對、相對 pre-training 的兆級 token 是小數字。
訓練成本相對低：通常幾百到幾千 GPU-hour、可在單機完成。
容易過擬合 / 災難遺忘：SFT 資料太少 / 太特化時、模型可能丟掉 pre-training 學到的能力、見 LoRA 的設計動機。

設計責任

讀 model card 看到「instruct」「chat」「-it」「sft」等 suffix、就是經過 SFT 的版本。寫 code 場景用的模型幾乎都是 SFT 後的（base model 對話能力差、實用度低）。Coding-tuned 模型（如 Qwen3-Coder）是 SFT 階段大量加入 code 對話資料的特化版本、跟通用 instruct 模型在 code 任務上有可觀差距。

SGD

Tue, 12 May 2026 00:00:00 +0000

SGD（Stochastic Gradient Descent、隨機梯度下降）的核心概念是「每次只用一小批資料（mini-batch）算 gradient、更新權重」。對比的是 vanilla gradient descent（用全部資料算一次 gradient）：full-batch 在 trillion-token 級資料下完全不可行、SGD 用 mini-batch 把記憶體跟計算成本拉到可行範圍。

概念位置

SGD 的更新公式：

1W_new = W_old - learning_rate × gradient_of_loss_on_minibatch

跟其他 optimizer 的對比：

Optimizer	更新規則	特性
SGD	`W -= lr × g`	簡單、慢、容易卡 local minimum
SGD + Momentum	加速度項：`v = μv + g; W -= lr × v`	衝過 saddle point、收斂較穩
Adam / AdamW	對每個參數自適應 lr、用 gradient 的 EMA 跟二階矩	對 lr 較不敏感、LLM 訓練主流

LLM 訓練幾乎都用 Adam / AdamW、不是純 SGD。但 SGD 仍出現在：

小模型 / 簡單任務：fine-tune 小 vision 模型、SGD + momentum 仍是合理選擇。
理論分析 / 教學：SGD 是最簡單的 optimizer、用來解釋 gradient descent 概念。
某些 fine-tuning 場景：LoRA 或 SFT 偶爾用 SGD（避免 Adam 改變 base model 太多）。

設計責任

讀 paper / training script 看到 optimizer 選擇、SGD 是基線、其他 optimizer 通常是「對 SGD 的改進」。寫 code 場景的判讀：訓練自己的小模型可以從 SGD + momentum 開始；fine-tune 大 LLM 沒理由不用 AdamW。

3.4 訓練流程：pre-train → SFT → RLHF

Mon, 11 May 2026 00:00:00 +0000

現代 LLM 的訓練分三個階段：pre-training（預訓練）、supervised fine-tuning（SFT、指令微調）、alignment（傳統用 RLHF、近年也用 DPO 等替代方案）。每個階段目標不同、資料不同、loss function 不同。理解這條鏈、能解釋為什麼「Gemma 4 31B base」跟「Gemma 4 31B instruct」是兩個版本、為什麼 fine-tuning 需要慎重、為什麼 RLHF 對對話品質這麼關鍵。

本章從預訓練的 next-token prediction 開始、進入 instruction tuning、最後展開 RLHF 與其替代方案。寫 code 場景的使用者通常不會自己跑這些訓練、但理解流程能解釋模型行為跟版本差異。

本章目標

讀完本章後、你應該能：

解釋 base model 跟 instruction-tuned model 的訓練差異。
解釋 RLHF 為什麼影響 LLM 的對話風格。
區分 SFT、RLHF、DPO、LoRA 在訓練流程中的位置。
理解「fine-tuning 為什麼可能讓模型變差」。

階段 1：Pre-training（預訓練）

Pre-training 的核心目標是「從大量未標註文字學語言模型」、用 next-token prediction 當訓練 objective。

流程

資料：trillion token 級別的網路文字、書籍、code、論文。常見資料集如 Common Crawl、RefinedWeb、The Pile、Stack、Wikipedia。
任務：「給前 N 個 token、預測第 N+1 個 token」。
Loss：cross-entropy loss、衡量模型預測機率分佈跟實際下一個 token（one-hot）的差距、由 backpropagation 算出 gradient 更新權重。詳細展開見 2.1 機率與資訊論。
訓練量：數十億 GPU-hour、數百到數萬個 GPU 並行、訓練數週到數月。
結果：base model、會做文字接龍、但對話能力有限。

為什麼 next-token prediction 這麼有效

「給前文預測下一個 token」看起來是簡單任務、但要做好需要：

理解語法、文法。
理解語意、世界知識。
理解 reasoning（推理鏈中的下一步是 token、模型要會推理才能準確預測）。
理解 multi-step task（複雜程式碼跟複雜文章的下一個 token 也是 next-token problem）。

LLM 的「智能」很大程度是 next-token prediction 在大資料上的 emergent property（湧現特性）。

預訓練成本

訓練前沿 LLM 的成本：

模型	估計訓練成本（美元）	訓練資料量
GPT-3 (2020)	~$5M	300B tokens
Llama 3 70B	~$30M	15T tokens
GPT-4 (估)	$100M+	不公開
訓練前沿模型	數億美元	10T+ tokens

預訓練是 LLM 訓練成本的 95%+。後續 fine-tuning 跟 RLHF 的成本是預訓練的零頭。

階段 2：Supervised Fine-Tuning（SFT、指令微調）

SFT 的核心目標是「在 base model 上、用「指令-回答」對資料微調、讓模型會跟著指令走」。

流程

資料：人類標註或 AI 生成的「prompt - response」對、數萬到數百萬個樣本。
任務：跟 pre-training 同樣是 next-token prediction、但只對 response 部分算 loss（prompt 部分不算）。
Loss：cross-entropy、只在 response token 上計算。
訓練量：相對小、幾天到一週、單機可訓。
結果：instruction-tuned model、會跟著 prompt 走、回答使用者問題。

SFT 的關鍵性

Base model 雖然有大量知識、但「問問題、給答案」的交互模式對它不自然。SFT 後同一個模型行為大改：

Base model：問「寫一個 Python fibonacci」可能得到「寫一個 Python fibonacci。寫一個 JavaScript fibonacci。寫一個…」（純文字接龍）。
Instruction-tuned：問同樣問題、得到實際 function。

寫 code 場景的所有模型都是 instruction-tuned 後的版本。Coding-tuned（如 Qwen3-Coder）是 SFT 階段大量加入 code 對話資料的特化版本。

Instruction Tuning 的資料來源

Human-annotated：人類寫 prompt + 回答、品質高但成本高。Anthropic、OpenAI、Meta 都有自己的標註團隊。
AI-generated：用更強的 model（如 GPT-4）生成 prompt + 回答、品質依賴 source model。Alpaca、Vicuna 是早期例子。
Synthetic：規則生成 + LLM 改寫。Magpie、Self-Instruct 等方法。

主流模型多半混合上述三種來源。

階段 3：Alignment（對齊）

Alignment 的核心目標是「進一步調整模型、讓回答符合「helpful、harmless、honest」三個維度」。SFT 後的模型可能說出有害內容、誇大事實、給平庸答案；alignment 階段解決這些問題。

RLHF：Reinforcement Learning from Human Feedback

RLHF 是 alignment 的經典方法（Ouyang et al., 2022、InstructGPT 論文）、三步驟：

Step 1：Reward Model

收集 prompt、用模型生成多個 response。
人類對 response 做 pairwise 排序（「A 比 B 好」）。
訓練一個 reward model、輸入 (prompt, response)、輸出一個分數、最大化「人類偏好高的 response 拿高分」。

Step 2：用 PPO 最佳化模型

Policy = 當前的 LLM（在 RL 框架下、模型輸出的 token 分佈被視為「策略」、所以稱為 policy）。
用 RL（通常用 PPO 演算法、Proximal Policy Optimization、一種限制每步參數更新幅度的 RL 演算法、訓練比較穩）最佳化 policy、讓 reward model 給的分數最大化。
加 KL constraint：policy 不能偏離 base SFT model 太遠（用 KL divergence、推導見 2.1 機率與資訊論）、避免 reward hacking。

Step 3：迭代

可以再收集人類反饋、再訓 reward model、再 RL；多輪迭代。

RLHF 後的模型在 helpfulness、harmlessness 上明顯提升、但流程複雜、訓練不穩、reward model 易被 hack。

DPO：Direct Preference Optimization

DPO（Rafailov et al., 2023）是 RLHF 的替代方案、跳過 reward model、直接用人類偏好資料 fine-tune policy：

1loss = -log(σ(β × (log π(y_w|x)/π_ref(y_w|x) - log π(y_l|x)/π_ref(y_l|x))))

其中：

y_w：人類偏好的 response。
y_l：人類較不喜歡的 response。
π：當前 policy。
π_ref：reference model（通常 SFT model）。

公式的直觀解讀：對每對 (好回答, 差回答)、拉高 π 給好回答的相對機率（比 π_ref 高）、壓低 π 給差回答的相對機率（比 π_ref 低）、β 控制偏離 π_ref 的力度。σ 是 sigmoid、把整體 score 壓到 (0, 1) 區間。

DPO 比 RLHF 簡單、不用訓 reward model、不用 RL 演算法、訓練穩定、在「離線偏好資料量充足 + 偏好相對穩定」的場景是 2024 ~ 2026 主流選擇。Llama 3、Gemma 4 等都用 DPO 或變體。

其他替代方案

方法	特性
RLAIF	把 RLHF 中的「human feedback」換成「AI feedback」、由更強 model 評分
ORPO	把 SFT 跟 alignment 合併成一步、簡化流程
KTO	用 binary preference（好 / 不好）而非 pairwise
RPO	RLHF + DPO 混合方案

主流前沿 LLM 用 SFT + DPO（或變體）的組合；資料量足夠 + 偏好穩定時 DPO 較佳、需要 online 人類反饋或 reward shaping（複雜環境互動、多輪偏好調整）的場景下 PPO 仍有實際空間、特別是 reasoning model（DeepSeek-R1 等）的後訓練階段。

Fine-tuning：在 instruction-tuned model 上做特化

「Fine-tuning」這個詞在 LLM 社群有兩層意思：

SFT 階段（前面提的）：base model → instruction-tuned model。
下游 fine-tuning：使用者在 instruction-tuned model 上、用自己的資料再 fine-tune、做特定領域特化。

下游 fine-tuning 的常見方法：

Full Fine-tuning

更新模型所有參數。需要大量 GPU、Gemma 4 31B 全參數 fine-tune 要 8 × H100 起。品質好、但成本高、容易過擬合小資料。

LoRA（Low-Rank Adaptation）

LoRA（Hu et al., 2021）的核心想法是「凍結 base model 權重、只訓練一組小的 adapter 矩陣」：

1W_new = W_frozen + α × A @ B

其中 A、B 是低秩矩陣（rank=4 ~ 64）、總參數遠少於 full fine-tune。

優點：

記憶體佔用 1/10 ~ 1/100。
訓練快得多。
多個 LoRA adapter 可以共用同一個 base model、推論時切換。
不會破壞 base model（凍結）。

LoRA 是 consumer 級硬體做 fine-tuning 的主流選擇。32GB Mac + MLX 可以跑 7B / 14B 模型的 LoRA fine-tuning。

LoRA 何時不適用 / 必須走 full fine-tune：

大幅行為改變：要把模型從通用 chat 轉成完全不同的人設 / 風格 / 領域。LoRA rank 容量有限（rank=4 ~ 64 對應幾百萬 ~ 幾千萬參數）、裝不下整體行為的大幅改寫；rank 拉到 256+ 後 LoRA 的記憶體優勢消失。
跨 domain transfer：base model 是 general English、想 fine-tune 到醫學 / 法律等需要重學 vocab 跟結構的 domain。LoRA 只調整現有 layer 的偏移、難以從零學新 domain；通常要先做 continued pre-training（full fine-tune）再 LoRA。
跟量化推論的相容性：base model 用 Q4 推論時、要先 dequantize 才能加上 LoRA delta、會導致 latency / memory 增加；production 場景常用 QLoRA + 在推論時 merge 回 base、避免每次推論都拆兩段。

QLoRA

QLoRA = Quantized LoRA、把 base model 量化到 4-bit、再做 LoRA。記憶體進一步降低、犧牲少量品質。

為什麼 fine-tuning 可能讓模型變差

下游 fine-tuning 對寫 code 場景的多數使用者價值有限、原因：

過擬合：fine-tune 資料量小、模型可能學到 spurious pattern、在 fine-tune 領域外能力下降。
Catastrophic forgetting：學新資料時忘記舊知識、原本會的東西變差。
資料品質決定上限：fine-tune 資料品質低、模型學到低品質回答。
Alignment 退化：fine-tune 可能破壞 RLHF / DPO 階段建立的「helpful、harmless」性質。

寫 code 場景優先用 instruction-tuned 通用模型（Gemma 4、Qwen3-Coder 等）、需要特化再評估 RAG 或 prompt engineering、最後才考慮 fine-tuning。三條路的取捨判讀見 4.1 RAG 原理。

In-Context Learning：fine-tuning 的替代品

In-context learning（ICL）的核心想法是「不更新模型權重、只在 prompt 中給範例、讓模型 generalize」。

Zero-shot：直接給任務描述、不給範例。
Few-shot：給幾個 input-output 範例、再給新 input。
Chain-of-thought：要求模型把推理過程寫出來、再給答案。

GPT-3 paper 顯示大模型有強 ICL 能力、不用 fine-tune 就能做新任務。現代 LLM 進一步強化 ICL、加上 long context、agent loop、function calling 等技術、覆蓋大部分原本需要 fine-tune 的場景。

實務啟示：「想做新任務、先試 prompt engineering、不夠再試 RAG、最後才考慮 fine-tuning」。fine-tuning 是最重的投資、適合放在最後驗證、prompt engineering 跟 RAG 跑完仍不夠才動。

訓練資料污染（Data Contamination）

訓練資料污染指「benchmark 的測試集出現在預訓練資料中」、模型「記住答案」而非真正能解問題。

問題：

公開 benchmark（SWE-bench、MMLU 等）的測試題常出現在 GitHub / 論壇、進入預訓練資料。
模型在這些 benchmark 上分數可能高估真實能力。

解決：

SWE-bench Verified：OpenAI 篩選過、相對乾淨的子集。
HELM：Stanford 的 holistic 評估、含污染檢測。
新 benchmark：每隔一段時間出新 benchmark、用尚未被 LLM「看過」的資料。
自己跑 benchmark：用自己工作流的真實任務評估、繞過所有污染問題。

詳見 SWE-bench 卡片跟模組零 0.6 判讀框架的框架二（量化宣稱三變數）。

下一章：3.5 sampling 與 decoding 策略、模型輸出後怎麼挑下一個 token。