Adam / AdamW

Tue, 12 May 2026 00:00:00 +0000

Adam（Adaptive Moment Estimation、Kingma & Ba, 2014）的核心概念是「對每個參數維護兩個 EMA（gradient 的一階矩 = 平均、二階矩 = 變異）、用這兩個值自適應地縮放每個參數的更新步長」。AdamW（Loshchilov & Hutter, 2017）是 Adam 加上「decoupled weight decay」的修正版、是現代 LLM 訓練的標準 optimizer。

概念位置

Adam 更新規則（簡化）：

1m_t = β₁ × m_{t-1} + (1 - β₁) × g_t ← gradient 的 EMA（一階矩、方向）
2v_t = β₂ × v_{t-1} + (1 - β₂) × g_t² ← gradient² 的 EMA（二階矩、變動率）
3W -= lr × m_t / (sqrt(v_t) + ε)
4 └──────┬──────┘
5 每個參數獨立縮放
6 經常變動的方向減小步長、穩定方向加大

跟其他 optimizer 對比：

對比	SGD	SGD + Momentum	Adam	AdamW
每參數自適應	否	否	是	是
記憶體開銷	1× W（就 gradient）	2× W	3× W	3× W
Hyperparameter	lr	lr + μ	lr + β₁、β₂	lr + β₁、β₂ + weight_decay
LLM 訓練主流	否	否	早期	現在主流

關鍵：AdamW 對 weight decay 跟 lr 解耦、修正了 Adam 在「lr × weight_decay」交互上的 bug、是 GPT、Llama、Gemma 等系列訓練的標配。

設計責任

讀 LLM training paper / config 看到 optimizer: AdamW、betas: [0.9, 0.95]、weight_decay: 0.1 等就是這個 optimizer 的標準設定。記憶體佔用 = 模型權重 × 3（model + m + v）、加上 backpropagation 的 activation、是訓練 vs 推論記憶體差距的主要來源。

SGD

Tue, 12 May 2026 00:00:00 +0000

SGD（Stochastic Gradient Descent、隨機梯度下降）的核心概念是「每次只用一小批資料（mini-batch）算 gradient、更新權重」。對比的是 vanilla gradient descent（用全部資料算一次 gradient）：full-batch 在 trillion-token 級資料下完全不可行、SGD 用 mini-batch 把記憶體跟計算成本拉到可行範圍。

概念位置

SGD 的更新公式：

1W_new = W_old - learning_rate × gradient_of_loss_on_minibatch

跟其他 optimizer 的對比：

Optimizer	更新規則	特性
SGD	`W -= lr × g`	簡單、慢、容易卡 local minimum
SGD + Momentum	加速度項：`v = μv + g; W -= lr × v`	衝過 saddle point、收斂較穩
Adam / AdamW	對每個參數自適應 lr、用 gradient 的 EMA 跟二階矩	對 lr 較不敏感、LLM 訓練主流

LLM 訓練幾乎都用 Adam / AdamW、不是純 SGD。但 SGD 仍出現在：

小模型 / 簡單任務：fine-tune 小 vision 模型、SGD + momentum 仍是合理選擇。
理論分析 / 教學：SGD 是最簡單的 optimizer、用來解釋 gradient descent 概念。
某些 fine-tuning 場景：LoRA 或 SFT 偶爾用 SGD（避免 Adam 改變 base model 太多）。

設計責任

讀 paper / training script 看到 optimizer 選擇、SGD 是基線、其他 optimizer 通常是「對 SGD 的改進」。寫 code 場景的判讀：訓練自己的小模型可以從 SGD + momentum 開始；fine-tune 大 LLM 沒理由不用 AdamW。

Optimizer on Tarragon

Adam / AdamW

概念位置

設計責任

SGD

概念位置

設計責任