"Math"
- Activation Function
在 linear layer 之間插入的非線性函數、讓神經網路能表達非線性關係
- Backpropagation
從 output loss 反向遞推、用 chain rule 算出每個權重的 gradient 的演算法
- Cross-Entropy
衡量「預測機率分佈」跟「真實分佈」距離的指標、LLM 預訓練的主要 loss
- Dot Product
兩個向量對應位置相乘再加總、attention score 跟相似度判讀的基礎
- Entropy
資訊論衡量「分佈的不確定性」的指標、cross-entropy / KL divergence 的基底
- Floating Point(FP32 / FP16 / BF16)
fp32 / fp16 / bf16 浮點格式的位元結構與 LLM 訓練 / 推論的精度取捨
- Gradient
loss function 對權重的偏微分向量、指出「該往哪個方向調權重才能讓 loss 下降最快」
- Gradient Explosion / Vanishing
深層網路訓練中 gradient 透過 chain rule 累乘、容易爆炸或衰減到 0 的兩種失敗模式
- KL Divergence
衡量「兩個機率分佈差距」的非對稱指標、RLHF / DPO 等 alignment 訓練的關鍵約束
- Logit
softmax 之前的原始實數分數、每個 vocab token 一個值、可正可負
- Loss Function
把「模型預測」跟「正確答案」的差距量化成一個純量、訓練的最佳化目標
- Matrix Multiplication
LLM 推論最頻繁的單一運算、forward pass 每層的核心、memory bandwidth 瓶頸的根源
- Perplexity
cross-entropy 的指數形式、直覺意義為「模型平均覺得下個 token 有多少種可能」
- Softmax
把任意實數向量正規化成「總和為 1、每個分量 ∈ [0,1]」的機率分佈
- Tensor
多維陣列、矩陣是 2D 特例、PyTorch / MLX / JAX 等 framework 的核心型別
- Vector Norm
衡量向量大小的純量值、L1 / L2 / L∞ 各有用途、cosine similarity 的基礎
- 2.1 機率與資訊論
LLM 輸出的本質是機率分佈:softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色
- 2.2 微積分與最佳化
從 gradient、chain rule 到 SGD / Adam:LLM 訓練如何更新數十億參數
- 2.3 數值精度與量化的數學依據
fp32 / bf16 / fp16 / int8 / int4 的差別、量化能省哪些 bits、品質衰減從哪裡來
- 2.4 想學更深:推薦公開課程
MIT、Stanford、Harvard 等公開課程:數學基礎跟 LLM 預備知識的完整學習路線
- 2.0 線性代數:向量、矩陣、空間
LLM 內部運算的基底:向量、矩陣、向量空間、內積、norm、矩陣乘法的角色