"Theory"
- 9.1 壓測理論與系統行為
Little's Law、queueing theory、USL、saturation curve 在容量規劃中的角色
- 3.1 Embedding 空間
token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的
- 3.2 Attention 機制
Query / Key / Value、scaled dot-product attention、multi-head attention:Transformer 的核心運算
- 3.3 Transformer 架構細節
Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream
- 3.4 訓練流程:pre-train → SFT → RLHF
LLM 的三階段訓練:預訓練、指令微調、人類反饋強化學習;各階段目標與最新替代方案
- 3.5 Sampling 與 Decoding 策略
Greedy、beam search、top-k、top-p、temperature、min-p:模型輸出後怎麼挑下一個 token
- 3.6 Tokenization:BPE、SentencePiece、Tiktoken
把文字切成 token 的算法:為什麼不同模型切出不同 token 數、tokenizer 選擇對能力的影響
- 3.7 跨語言場景的 tokenizer 與訓練分佈原理
為什麼模型對不同語言表現不一致:tokenizer + 訓練資料分佈雙因素、語言選擇取捨
- 3.8 Reasoning models:test-time compute paradigm
Chain-of-thought 從 prompting 技巧演化成訓練 paradigm、reasoning model 的內部運作、本地可跑的選項與適用任務
- 3.9 Speculative decoding 內部:drafter / 驗證 / 加速上限
speculative decoding 的演算法細節、drafter 跟 target 怎麼配對、acceptance rate 怎麼決定實際加速、MTP 跟 EAGLE 等變體
- 3.10 Constrained decoding 內部:grammar mask 跟性能取捨
Constrained decoding 的內部運作:token mask 計算、JSON schema / regex / CFG 三種 grammar、XGrammar pre-compile 機制、性能反而加速
- 3.11 想學更深:推薦公開課程
Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face:LLM 理論深入學習的完整路線
- 3.0 神經網路基礎
從單一 neuron 到 multi-layer:weights、activation function、forward / backward pass 的角色