2.4 想學更深：推薦公開課程

2026-05-11

本模組前三章把 LLM 推論需要的數學概念走過一遍、給定義跟用途、保留實務脈絡。想看完整推導、跟練習題、跟系統教學、公開課程是更有效率的路徑。本章整理「為 LLM 打數學基礎」這條學習路線上的高品質公開課與書籍、並標出每門課的定位、適合的讀者、跟前置依賴。

選課的原則：先從跟 LLM 連結最緊密的開始、由近至遠。3Blue1Brown 的視覺化系列適合入門複習、MIT / Stanford 的正式課程適合認真打底、Karpathy 的 YouTube 系列適合「想直接看 LLM 怎麼從零實作」（需要階段 1 ~ 3 的數學基礎才能順暢跟上、所以排在路線後段）。

路線總覽

階段	內容	前置依賴	適合誰
1	視覺化複習	任何工程背景	入門 / 概念複習
2	線性代數正式課	高中代數	想紮實打底
3	機率論 + 統計	大學一年級數學	想懂機率論完整體系
4	資訊論	機率論 + 微積分	想懂 entropy / KL 數學起源
5	最佳化	多變數微積分 + 線代	想懂 SGD / Adam 數學起源
6	深度學習 + LLM	階段 2 + 3 的線代 / 機率	想做研究 / 自己訓練
7	從零實作 LLM	階段 6 或 Python ML 經驗	想直接接觸完整系統實作

階段 1：3Blue1Brown 的視覺化系列（YouTube 免費）

Grant Sanderson 的 3Blue1Brown 頻道是入門 / 複習數學概念最有效率的選擇。動畫品質高、講解直觀、每集 15 ~ 30 分鐘。

系列	涵蓋內容	直接相關章節
Essence of Linear Algebra（15 集）	向量、矩陣、線性變換、特徵值、向量空間	2.0
Essence of Calculus（12 集）	導數、積分、chain rule、Taylor series	2.2
Neural Networks（4 集）	神經網路怎麼學、backpropagation、gradient descent	2.2 + 3.0
But what is a GPT?（多集系列）	Transformer 內部、attention、embedding 視覺化	3.2 + 3.3

為什麼從這裡開始：3Blue1Brown 的影片不依賴背景知識、用視覺直觀傳達核心概念、適合在進入正式課之前對齊直覺。看完 Essence of Linear Algebra 跟 Neural Networks 兩個系列、本模組大部分概念都能 grasp 到直覺層。

階段 2：線性代數正式課

MIT 18.06 Linear Algebra by Gilbert Strang（OCW 免費）

教授 Gilbert Strang 的線性代數課是公開課的金標準、涵蓋向量空間、特徵值、SVD、最小平方等完整內容。課程網站包含影片、講義、作業、教科書。

教科書：Introduction to Linear Algebra by Gilbert Strang（也有 PDF 可下載）
課程連結：ocw.mit.edu 站內搜尋 18.06 或 18.06SC
時長：18 ~ 35 講、每講 50 分鐘、約 30 小時
適合：認真打底、想做完整作業
跟本模組關係：完整補完 2.0 的數學深度

MIT 18.06SC Linear Algebra（Self-Paced 版本）

同樣 Gilbert Strang、但設計成自學版本、有 problem sessions 補講解。建議自學選擇這版而非原始 18.06。

階段 3：機率論 + 統計

Harvard Stat 110 Probability by Joe Blitzstein（YouTube 免費）

Harvard 教授 Joe Blitzstein 的機率論課、是 LLM 機率基礎最完整的公開課。涵蓋條件機率、貝氏定理、各種分佈、generating function、Markov chain 等。

課程連結：projects.iq.harvard.edu/stat110（YouTube 有對應錄影）
教科書：Introduction to Probability by Blitzstein & Hwang
時長：35 講、每講 50 分鐘、約 30 小時
適合：想懂機率論完整體系
跟本模組關係：補完 2.1 的數學深度

MIT 6.041 Probabilistic Systems Analysis（OCW 免費）

工程取向、比 Stat 110 更貼近應用。涵蓋 Bayes、Markov、隨機過程等。適合工程師背景的讀者。

Stanford CS109 Probability for Computer Scientists

Stanford 的 CS 系開設、機率論 + 程式應用、適合想直接看「機率在 ML 中怎麼用」的讀者。課程材料在 Stanford CS109 網站。

階段 4：資訊論

MIT 6.050J Information and Entropy（OCW 免費）

涵蓋 entropy、cross-entropy、KL divergence、Shannon coding theorem、channel capacity 等資訊論完整基礎。

教科書：Information Theory, Inference, and Learning Algorithms by David MacKay（也免費 PDF）
適合：想懂 2.1 中 entropy / KL 的數學起源
跟 LLM 的連結：cross-entropy 為什麼是訓練 LLM 的標準 loss、perplexity 的資訊論意義

Stanford EE376A Information Theory

Stanford 的 EE 系開設、跟通訊工程結合、適合 EE 背景讀者。

階段 5：最佳化

Stanford EE364A Convex Optimization by Stephen Boyd（YouTube + 教科書免費）

凸最佳化的金標準課程。涵蓋 gradient descent、Lagrangian、duality、KKT 條件等。雖然 LLM 訓練是非凸最佳化、但凸最佳化的觀念是基礎。

教科書：Convex Optimization by Boyd & Vandenberghe（線上 PDF 免費）
適合：想懂 SGD、Adam、Lagrangian 等最佳化技術的數學起源
跟本模組關係：補完 2.2 的最佳化理論深度

階段 6：深度學習與 LLM

MIT 6.S191 Introduction to Deep Learning（每年更新、YouTube 免費）

MIT 的入門 deep learning 課、每年寒假開課並錄影上傳、涵蓋 RNN、Transformer、Diffusion、LLM。

課程連結：introtodeeplearning.com
時長：每集 1 小時、約 7 ~ 10 集
適合：deep learning 全面 overview、跟最新主題對齊

Stanford CS229 Machine Learning by Andrew Ng（Stanford Online + YouTube）

ML 基礎金標準、涵蓋 linear regression、logistic regression、SVM、CNN、強化學習等。雖然較舊（沒有最新 Transformer）、但基礎扎實。CS229 的免費影片版在 Stanford Online 跟 YouTube（cs229.stanford.edu 有講義跟舊版錄影連結）；OCW 沒有 CS229 官方版本。

新版：Coursera 上有付費版「Machine Learning Specialization」、更新且互動性強
適合：想完整懂 ML 數學基礎

Stanford CS224N Natural Language Processing with Deep Learning

NLP + Transformer 的標杆課程。涵蓋 word embedding、RNN、attention、Transformer、BERT、GPT 等。每年更新材料。

適合：3.2 attention 機制與 3.3 Transformer 架構的最佳補完
連結：Stanford CS224N 課程網站、YouTube 有錄影

Stanford CS25 Transformers United

Stanford 的 Transformer 專題課、每集邀請業界與學界專家、涵蓋 Transformer 在不同領域的應用與進展。

適合：想跟最新 Transformer 研究進度
連結：YouTube 上搜尋「Stanford CS25」

Stanford CS336 Language Modeling from Scratch（2024 新開、後續每年更新）

Stanford 新開的 LLM 從零訓練課程、涵蓋資料、tokenization、模型架構、訓練、評估、部署整條鏈。課程材料逐年更新、引用時請註明你看的是哪一年的版本（2026 年後內容可能跟本章引用時有差異）。

適合：想懂 LLM 完整 lifecycle
連結：Stanford CS336 課程網站

階段 7：直接動手實作

Andrej Karpathy 的 Neural Networks: Zero to Hero（YouTube 免費）

OpenAI 前研究員 Andrej Karpathy 的系列影片、從手刻 micrograd 到實作 GPT-2、是「想動手懂 LLM」的最佳路徑。每集 1 ~ 4 小時、邊講邊寫 code。

核心集數：
- Micrograd（自己刻 autograd）
- Makemore 系列（從 bigram 到 Transformer）
- Let’s build GPT（從零實作 GPT-2）
- Let’s reproduce GPT-2（更完整的訓練 pipeline）
- Let’s build the GPT Tokenizer（BPE 詳細實作）
適合：完成階段 1-3、想直接接觸完整系統實作
連結：YouTube 搜尋「Karpathy zero to hero」

Hugging Face NLP Course

Hugging Face 官方教材、涵蓋 Transformers library、tokenizer、訓練、推論、deployment。實作取向、適合工程師。

連結：huggingface.co/learn

書籍補充

書名	涵蓋	免費 PDF
Mathematics for Machine Learning by Deisenroth et al.	線性代數、機率、最佳化、PCA、SVM	是
Deep Learning by Goodfellow, Bengio, Courville	DL 全面教科書、ML 基礎到 Transformer 出現前	是
Information Theory, Inference, and Learning Algorithms by MacKay	機率 + 資訊論 + ML 整合	是
Convex Optimization by Boyd & Vandenberghe	最佳化理論金標準	是
The Elements of Statistical Learning by Hastie et al.	統計學習方法	是

這幾本書的官方免費 PDF 來源（避免落到盜版站）：

Mathematics for Machine Learning：mml-book.github.io
Deep Learning（Goodfellow）：deeplearningbook.org
Information Theory, Inference, and Learning Algorithms：inference.org.uk/mackay/itila/
Convex Optimization（Boyd）：stanford.edu/~boyd/cvxbook/
The Elements of Statistical Learning：hastie.su.domains/ElemStatLearn/

何時不適用本路線

本路線假設「想紮實打底數學跟 LLM 內部、之後做研究或寫 LLM-related code」。以下情境的路線需求不同：

情境	該怎麼安排
直接做 LLM application（RAG / agent）	階段 1（3B1B）即可、不需要 MIT 18.06 完整 30 小時；應用層 paper 看得懂就夠
已具備 ML 背景（修過 CS229 / 同等）	跳過階段 1 ~ 5、直接進階段 6 ~ 7
純使用本地 LLM、不寫 ML code	模組零 + 模組一已足夠、本路線可全跳過
想 fine-tune 模型	階段 1（複習）+ 階段 6 ~ 7 為主、最佳化 / 資訊論可後補
想懂 paper 但不打算實作	階段 1（3B1B）+ Karpathy zero-to-hero 前兩集已足夠
學術研究 / 想自己 propose 架構	全路線 + Stanford CS336 / CS25 持續追蹤新論文

建議的時間投入

目標	預估時間（投入 5 ~ 10 小時 / 週）
看完 3Blue1Brown 三個系列	2 ~ 4 週
完成 MIT 18.06 線性代數	8 ~ 12 週
完成 Stat 110 機率	8 ~ 12 週
完成 Karpathy zero-to-hero	4 ~ 8 週
完成 Stanford CS224N	10 週
完成 Stanford CS336 LLM from scratch	10 週

機會成本提醒：本系列文章在「Mac 上跑本地 LLM 寫 code」場景中、不需要完整跑完上述課程。3Blue1Brown 三系列 + Karpathy zero-to-hero 已經涵蓋「能讀懂 LLM paper、能看懂模型架構討論」的程度、約 6 ~ 10 週投入。想做研究或自己訓練模型、再進入 MIT / Stanford 正式課程。

下一個模組

下一個模組：模組三 LLM 的理論基礎、把本模組的數學工具拼成完整的 LLM 運作機制。

#llm #math #courses