模組二：LLM 的數學基礎

Mon, 11 May 2026 00:00:00 +0000

本模組整理 LLM 推論背後的數學概念。寫 code 場景的使用者通常無需親自實作這些公式、但理解它們的存在與意義、能讓「為什麼模型佔這麼多記憶體」「為什麼量化會衰減品質」「為什麼長 prompt 的 prefill 成本特別高」等現象從黑箱變成可推導的工程現實。

本模組假設讀者熟悉中學以上的數學、但無需具備機器學習背景。每個概念給出定義、在 LLM 中扮演的角色、以及實務上會怎麼遇到它。深度推導與練習題交給公開課程；本模組的責任是把名詞跟用途連起來。

章節列表

章節	主題	關鍵收穫
2.0	線性代數：向量、矩陣、空間	LLM 內部所有運算都是矩陣乘法、為什麼維度匹配是常見錯誤源頭
2.1	機率與資訊論	softmax、cross-entropy、KL divergence、perplexity 的角色
2.2	微積分與最佳化	gradient、chain rule、SGD / Adam 在訓練流程中的位置
2.3	數值精度與量化的數學依據	floating point、bf16 vs fp32、量化能在哪裡省 bits
2.4	想學更深：推薦公開課程	MIT、Stanford、Harvard、3Blue1Brown 等系統教材路線

模組零（基礎知識與心智模型）的責任是「裝模型、用模型」需要的操作層概念；本模組的責任是這些操作層概念背後的數學基礎。兩者各自獨立、可分開讀：

讀過本模組後、回頭看模組零會發現「為什麼這個現象成立」變得清楚。

模組二（本模組）給數學工具、模組三（LLM 的理論基礎）用這些工具拼出完整 LLM 的運作機制。兩個模組可以並讀：遇到陌生數學概念時跳回本模組補完。

本模組（工具）	模組三（用法）
矩陣乘法	attention 的 Q × K^T、output 的 W × x
softmax	attention 權重正規化、輸出 token 機率分佈
cross-entropy	訓練時的 loss function、衡量模型預測品質
gradient descent	訓練時更新權重的演算法
floating point	bf16 / fp16 / fp32 在訓練與推論時的取捨

本模組固定下列翻譯：

英文原文在第一次出現時保留括號錨點、後續用中文。