Theory

"Theory"

2026-05-12 9.1 壓測理論與系統行為 Little's Law、queueing theory、USL、saturation curve 在容量規劃中的角色
2026-05-11 3.1 Embedding 空間 token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的
2026-05-11 3.2 Attention 機制 Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算
2026-05-11 3.3 Transformer 架構細節 Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream
2026-05-11 3.4 訓練流程：pre-train → SFT → RLHF LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案
2026-05-11 3.5 Sampling 與 Decoding 策略 Greedy、beam search、top-k、top-p、temperature、min-p：模型輸出後怎麼挑下一個 token
2026-05-11 3.6 Tokenization：BPE、SentencePiece、Tiktoken 把文字切成 token 的算法：為什麼不同模型切出不同 token 數、tokenizer 選擇對能力的影響
2026-05-11 3.7 跨語言場景的 tokenizer 與訓練分佈原理為什麼模型對不同語言表現不一致：tokenizer + 訓練資料分佈雙因素、語言選擇取捨
2026-05-12 3.8 Reasoning models：test-time compute paradigm Chain-of-thought 從 prompting 技巧演化成訓練 paradigm、reasoning model 的內部運作、本地可跑的選項與適用任務
2026-05-12 3.9 Speculative decoding 內部：drafter / 驗證 / 加速上限 speculative decoding 的演算法細節、drafter 跟 target 怎麼配對、acceptance rate 怎麼決定實際加速、MTP 跟 EAGLE 等變體
2026-05-12 3.10 Constrained decoding 內部：grammar mask 跟性能取捨 Constrained decoding 的內部運作：token mask 計算、JSON schema / regex / CFG 三種 grammar、XGrammar pre-compile 機制、性能反而加速
2026-05-11 3.11 想學更深：推薦公開課程 Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face：LLM 理論深入學習的完整路線
2026-05-11 3.0 神經網路基礎從單一 neuron 到 multi-layer：weights、activation function、forward / backward pass 的角色