Math | Tarragon

"Math"

2026-05-12 Activation Function 在 linear layer 之間插入的非線性函數、讓神經網路能表達非線性關係
2026-05-12 Backpropagation 從 output loss 反向遞推、用 chain rule 算出每個權重的 gradient 的演算法
2026-05-12 Cross-Entropy 衡量「預測機率分佈」跟「真實分佈」距離的指標、LLM 預訓練的主要 loss
2026-05-12 Dot Product 兩個向量對應位置相乘再加總、attention score 跟相似度判讀的基礎
2026-05-12 Entropy 資訊論衡量「分佈的不確定性」的指標、cross-entropy / KL divergence 的基底
2026-05-12 Floating Point（FP32 / FP16 / BF16） fp32 / fp16 / bf16 浮點格式的位元結構與 LLM 訓練 / 推論的精度取捨
2026-05-12 Gradient loss function 對權重的偏微分向量、指出「該往哪個方向調權重才能讓 loss 下降最快」
2026-05-12 Gradient Explosion / Vanishing 深層網路訓練中 gradient 透過 chain rule 累乘、容易爆炸或衰減到 0 的兩種失敗模式
2026-05-12 KL Divergence 衡量「兩個機率分佈差距」的非對稱指標、RLHF / DPO 等 alignment 訓練的關鍵約束
2026-05-12 Logit softmax 之前的原始實數分數、每個 vocab token 一個值、可正可負
2026-05-12 Loss Function 把「模型預測」跟「正確答案」的差距量化成一個純量、訓練的最佳化目標
2026-05-12 Matrix Multiplication LLM 推論最頻繁的單一運算、forward pass 每層的核心、memory bandwidth 瓶頸的根源
2026-05-12 Perplexity cross-entropy 的指數形式、直覺意義為「模型平均覺得下個 token 有多少種可能」
2026-05-12 Softmax 把任意實數向量正規化成「總和為 1、每個分量 ∈ [0,1]」的機率分佈
2026-05-12 Tensor 多維陣列、矩陣是 2D 特例、PyTorch / MLX / JAX 等 framework 的核心型別
2026-05-12 Vector Norm 衡量向量大小的純量值、L1 / L2 / L∞ 各有用途、cosine similarity 的基礎
2026-05-11 2.1 機率與資訊論 LLM 輸出的本質是機率分佈：softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色
2026-05-11 2.2 微積分與最佳化從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數
2026-05-11 2.3 數值精度與量化的數學依據 fp32 / bf16 / fp16 / int8 / int4 的差別、量化能省哪些 bits、品質衰減從哪裡來
2026-05-11 2.4 想學更深：推薦公開課程 MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線
2026-05-11 2.0 線性代數：向量、矩陣、空間 LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色