"Training"
- In-Context Learning
模型在不更新權重的情況下,從 prompt 內範例、規則與上下文臨時對齊任務的能力
- Training Example Coverage
訓練資料中的任務範例是否覆蓋足夠情境,決定模型在 function calling、格式輸出與邊界案例上的穩定性
- Adam / AdamW
對每個參數自適應 learning rate 的 optimizer、LLM 訓練主流選擇
- Backpropagation
從 output loss 反向遞推、用 chain rule 算出每個權重的 gradient 的演算法
- Catastrophic Forgetting
Fine-tune 模型時、新訓練資料覆蓋掉原本學到的能力的現象、LoRA / 資料 mixing 是主要緩解
- Contrastive Learning
用「相關 vs 不相關」成對 / 三元組樣本訓練 embedding 的方法、現代 embedding model 的核心訓練 paradigm
- Cross-Entropy
衡量「預測機率分佈」跟「真實分佈」距離的指標、LLM 預訓練的主要 loss
- DPO(Direct Preference Optimization)
RLHF 的簡化替代:跳過 reward model、直接從人類偏好資料 fine-tune LLM
- Forward Pass
input 經過所有 layer 的計算、得到 output 的單向流程;推論跟訓練都會跑、訓練多一個反向階段
- Gradient
loss function 對權重的偏微分向量、指出「該往哪個方向調權重才能讓 loss 下降最快」
- Gradient Explosion / Vanishing
深層網路訓練中 gradient 透過 chain rule 累乘、容易爆炸或衰減到 0 的兩種失敗模式
- KL Divergence
衡量「兩個機率分佈差距」的非對稱指標、RLHF / DPO 等 alignment 訓練的關鍵約束
- Layer Normalization
在每個 token 的 hidden state 上做正規化(減 mean、除 std)、穩定深層網路訓練
- Learning Rate
gradient descent 每步更新權重的幅度、訓練中最敏感的 hyperparameter
- LoRA
Low-Rank Adaptation:凍住原模型權重、只訓兩個小矩陣的 parameter-efficient fine-tuning
- Loss Function
把「模型預測」跟「正確答案」的差距量化成一個純量、訓練的最佳化目標
- Pre-training
LLM 訓練的第一階段:用 trillion-token 級網路文字做 next-token prediction、得到 base model
- Residual Connection
把 layer 的輸入直接加到輸出上的「跳接」、讓深層網路的梯度能穩定回流
- RLHF
Reinforcement Learning from Human Feedback:用人類偏好訓練的 reward model 透過 RL 對齊 LLM
- SFT(Supervised Fine-Tuning)
在 base model 上用「指令-回答」對資料微調、讓模型會跟著指令走
- SGD
Stochastic Gradient Descent:每次用 mini-batch 算 gradient 更新權重的基礎 optimizer
- 3.4 訓練流程:pre-train → SFT → RLHF
LLM 的三階段訓練:預訓練、指令微調、人類反饋強化學習;各階段目標與最新替代方案