Training

"Training"

2026-05-14 In-Context Learning 模型在不更新權重的情況下，從 prompt 內範例、規則與上下文臨時對齊任務的能力
2026-05-14 Training Example Coverage 訓練資料中的任務範例是否覆蓋足夠情境，決定模型在 function calling、格式輸出與邊界案例上的穩定性
2026-05-12 Adam / AdamW 對每個參數自適應 learning rate 的 optimizer、LLM 訓練主流選擇
2026-05-12 Backpropagation 從 output loss 反向遞推、用 chain rule 算出每個權重的 gradient 的演算法
2026-05-12 Catastrophic Forgetting Fine-tune 模型時、新訓練資料覆蓋掉原本學到的能力的現象、LoRA / 資料 mixing 是主要緩解
2026-05-12 Contrastive Learning 用「相關 vs 不相關」成對 / 三元組樣本訓練 embedding 的方法、現代 embedding model 的核心訓練 paradigm
2026-05-12 Cross-Entropy 衡量「預測機率分佈」跟「真實分佈」距離的指標、LLM 預訓練的主要 loss
2026-05-12 DPO（Direct Preference Optimization） RLHF 的簡化替代：跳過 reward model、直接從人類偏好資料 fine-tune LLM
2026-05-12 Forward Pass input 經過所有 layer 的計算、得到 output 的單向流程；推論跟訓練都會跑、訓練多一個反向階段
2026-05-12 Gradient loss function 對權重的偏微分向量、指出「該往哪個方向調權重才能讓 loss 下降最快」
2026-05-12 Gradient Explosion / Vanishing 深層網路訓練中 gradient 透過 chain rule 累乘、容易爆炸或衰減到 0 的兩種失敗模式
2026-05-12 KL Divergence 衡量「兩個機率分佈差距」的非對稱指標、RLHF / DPO 等 alignment 訓練的關鍵約束
2026-05-12 Layer Normalization 在每個 token 的 hidden state 上做正規化（減 mean、除 std）、穩定深層網路訓練
2026-05-12 Learning Rate gradient descent 每步更新權重的幅度、訓練中最敏感的 hyperparameter
2026-05-12 LoRA Low-Rank Adaptation：凍住原模型權重、只訓兩個小矩陣的 parameter-efficient fine-tuning
2026-05-12 Loss Function 把「模型預測」跟「正確答案」的差距量化成一個純量、訓練的最佳化目標
2026-05-12 Pre-training LLM 訓練的第一階段：用 trillion-token 級網路文字做 next-token prediction、得到 base model
2026-05-12 Residual Connection 把 layer 的輸入直接加到輸出上的「跳接」、讓深層網路的梯度能穩定回流
2026-05-12 RLHF Reinforcement Learning from Human Feedback：用人類偏好訓練的 reward model 透過 RL 對齊 LLM
2026-05-12 SFT（Supervised Fine-Tuning）在 base model 上用「指令-回答」對資料微調、讓模型會跟著指令走
2026-05-12 SGD Stochastic Gradient Descent：每次用 mini-batch 算 gradient 更新權重的基礎 optimizer
2026-05-11 3.4 訓練流程：pre-train → SFT → RLHF LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案