<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Courses on Tarragon</title><link>https://tarrragon.github.io/blog/tags/courses/</link><description>Recent content in Courses on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Mon, 11 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/courses/index.xml" rel="self" type="application/rss+xml"/><item><title>2.4 想學更深：推薦公開課程</title><link>https://tarrragon.github.io/blog/llm/02-math-foundations/going-deeper-math/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/02-math-foundations/going-deeper-math/</guid><description>&lt;p>本模組前三章把 LLM 推論需要的數學概念走過一遍、給定義跟用途、保留實務脈絡。想看完整推導、跟練習題、跟系統教學、公開課程是更有效率的路徑。本章整理「為 LLM 打數學基礎」這條學習路線上的高品質公開課與書籍、並標出每門課的定位、適合的讀者、跟前置依賴。&lt;/p>
&lt;p>選課的原則：先從跟 LLM 連結最緊密的開始、由近至遠。3Blue1Brown 的視覺化系列適合入門複習、MIT / Stanford 的正式課程適合認真打底、Karpathy 的 YouTube 系列適合「想直接看 LLM 怎麼從零實作」（需要階段 1 ~ 3 的數學基礎才能順暢跟上、所以排在路線後段）。&lt;/p>
&lt;h2 id="路線總覽">路線總覽&lt;/h2>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>階段&lt;/th>
 &lt;th>內容&lt;/th>
 &lt;th>前置依賴&lt;/th>
 &lt;th>適合誰&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>1&lt;/td>
 &lt;td>視覺化複習&lt;/td>
 &lt;td>任何工程背景&lt;/td>
 &lt;td>入門 / 概念複習&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>2&lt;/td>
 &lt;td>線性代數正式課&lt;/td>
 &lt;td>高中代數&lt;/td>
 &lt;td>想紮實打底&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>3&lt;/td>
 &lt;td>機率論 + 統計&lt;/td>
 &lt;td>大學一年級數學&lt;/td>
 &lt;td>想懂機率論完整體系&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>4&lt;/td>
 &lt;td>資訊論&lt;/td>
 &lt;td>機率論 + 微積分&lt;/td>
 &lt;td>想懂 entropy / KL 數學起源&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>5&lt;/td>
 &lt;td>最佳化&lt;/td>
 &lt;td>多變數微積分 + 線代&lt;/td>
 &lt;td>想懂 SGD / Adam 數學起源&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>6&lt;/td>
 &lt;td>深度學習 + LLM&lt;/td>
 &lt;td>階段 2 + 3 的線代 / 機率&lt;/td>
 &lt;td>想做研究 / 自己訓練&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>7&lt;/td>
 &lt;td>從零實作 LLM&lt;/td>
 &lt;td>階段 6 或 Python ML 經驗&lt;/td>
 &lt;td>想直接接觸完整系統實作&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h2 id="階段-13blue1brown-的視覺化系列youtube-免費">階段 1：3Blue1Brown 的視覺化系列（YouTube 免費）&lt;/h2>
&lt;p>Grant Sanderson 的 3Blue1Brown 頻道是入門 / 複習數學概念最有效率的選擇。動畫品質高、講解直觀、每集 15 ~ 30 分鐘。&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>系列&lt;/th>
 &lt;th>涵蓋內容&lt;/th>
 &lt;th>直接相關章節&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>Essence of Linear Algebra（15 集）&lt;/td>
 &lt;td>向量、矩陣、線性變換、特徵值、向量空間&lt;/td>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">2.0&lt;/a>&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Essence of Calculus（12 集）&lt;/td>
 &lt;td>導數、積分、chain rule、Taylor series&lt;/td>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2&lt;/a>&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Neural Networks（4 集）&lt;/td>
 &lt;td>神經網路怎麼學、backpropagation、gradient descent&lt;/td>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2&lt;/a> + &lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/neural-network-basics/" data-link-title="3.0 神經網路基礎" data-link-desc="從單一 neuron 到 multi-layer：weights、activation function、forward / backward pass 的角色">3.0&lt;/a>&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>But what is a GPT?（多集系列）&lt;/td>
 &lt;td>Transformer 內部、attention、embedding 視覺化&lt;/td>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/attention-mechanism/" data-link-title="3.2 Attention 機制" data-link-desc="Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算">3.2&lt;/a> + &lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3&lt;/a>&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>為什麼從這裡開始&lt;/strong>：3Blue1Brown 的影片不依賴背景知識、用視覺直觀傳達核心概念、適合在進入正式課之前對齊直覺。看完 Essence of Linear Algebra 跟 Neural Networks 兩個系列、本模組大部分概念都能 grasp 到直覺層。&lt;/p></description><content:encoded><![CDATA[<p>本模組前三章把 LLM 推論需要的數學概念走過一遍、給定義跟用途、保留實務脈絡。想看完整推導、跟練習題、跟系統教學、公開課程是更有效率的路徑。本章整理「為 LLM 打數學基礎」這條學習路線上的高品質公開課與書籍、並標出每門課的定位、適合的讀者、跟前置依賴。</p>
<p>選課的原則：先從跟 LLM 連結最緊密的開始、由近至遠。3Blue1Brown 的視覺化系列適合入門複習、MIT / Stanford 的正式課程適合認真打底、Karpathy 的 YouTube 系列適合「想直接看 LLM 怎麼從零實作」（需要階段 1 ~ 3 的數學基礎才能順暢跟上、所以排在路線後段）。</p>
<h2 id="路線總覽">路線總覽</h2>
<table>
  <thead>
      <tr>
          <th>階段</th>
          <th>內容</th>
          <th>前置依賴</th>
          <th>適合誰</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>1</td>
          <td>視覺化複習</td>
          <td>任何工程背景</td>
          <td>入門 / 概念複習</td>
      </tr>
      <tr>
          <td>2</td>
          <td>線性代數正式課</td>
          <td>高中代數</td>
          <td>想紮實打底</td>
      </tr>
      <tr>
          <td>3</td>
          <td>機率論 + 統計</td>
          <td>大學一年級數學</td>
          <td>想懂機率論完整體系</td>
      </tr>
      <tr>
          <td>4</td>
          <td>資訊論</td>
          <td>機率論 + 微積分</td>
          <td>想懂 entropy / KL 數學起源</td>
      </tr>
      <tr>
          <td>5</td>
          <td>最佳化</td>
          <td>多變數微積分 + 線代</td>
          <td>想懂 SGD / Adam 數學起源</td>
      </tr>
      <tr>
          <td>6</td>
          <td>深度學習 + LLM</td>
          <td>階段 2 + 3 的線代 / 機率</td>
          <td>想做研究 / 自己訓練</td>
      </tr>
      <tr>
          <td>7</td>
          <td>從零實作 LLM</td>
          <td>階段 6 或 Python ML 經驗</td>
          <td>想直接接觸完整系統實作</td>
      </tr>
  </tbody>
</table>
<h2 id="階段-13blue1brown-的視覺化系列youtube-免費">階段 1：3Blue1Brown 的視覺化系列（YouTube 免費）</h2>
<p>Grant Sanderson 的 3Blue1Brown 頻道是入門 / 複習數學概念最有效率的選擇。動畫品質高、講解直觀、每集 15 ~ 30 分鐘。</p>
<table>
  <thead>
      <tr>
          <th>系列</th>
          <th>涵蓋內容</th>
          <th>直接相關章節</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Essence of Linear Algebra（15 集）</td>
          <td>向量、矩陣、線性變換、特徵值、向量空間</td>
          <td><a href="/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">2.0</a></td>
      </tr>
      <tr>
          <td>Essence of Calculus（12 集）</td>
          <td>導數、積分、chain rule、Taylor series</td>
          <td><a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2</a></td>
      </tr>
      <tr>
          <td>Neural Networks（4 集）</td>
          <td>神經網路怎麼學、backpropagation、gradient descent</td>
          <td><a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2</a> + <a href="/blog/llm/03-theoretical-foundations/neural-network-basics/" data-link-title="3.0 神經網路基礎" data-link-desc="從單一 neuron 到 multi-layer：weights、activation function、forward / backward pass 的角色">3.0</a></td>
      </tr>
      <tr>
          <td>But what is a GPT?（多集系列）</td>
          <td>Transformer 內部、attention、embedding 視覺化</td>
          <td><a href="/blog/llm/03-theoretical-foundations/attention-mechanism/" data-link-title="3.2 Attention 機制" data-link-desc="Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算">3.2</a> + <a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3</a></td>
      </tr>
  </tbody>
</table>
<p><strong>為什麼從這裡開始</strong>：3Blue1Brown 的影片不依賴背景知識、用視覺直觀傳達核心概念、適合在進入正式課之前對齊直覺。看完 Essence of Linear Algebra 跟 Neural Networks 兩個系列、本模組大部分概念都能 grasp 到直覺層。</p>
<h2 id="階段-2線性代數正式課">階段 2：線性代數正式課</h2>
<h3 id="mit-1806-linear-algebra-by-gilbert-strangocw-免費">MIT 18.06 Linear Algebra by Gilbert Strang（OCW 免費）</h3>
<p>教授 Gilbert Strang 的線性代數課是公開課的金標準、涵蓋向量空間、特徵值、SVD、最小平方等完整內容。課程網站包含影片、講義、作業、教科書。</p>
<ul>
<li><strong>教科書</strong>：Introduction to Linear Algebra by Gilbert Strang（也有 PDF 可下載）</li>
<li><strong>課程連結</strong>：ocw.mit.edu 站內搜尋 18.06 或 18.06SC</li>
<li><strong>時長</strong>：18 ~ 35 講、每講 50 分鐘、約 30 小時</li>
<li><strong>適合</strong>：認真打底、想做完整作業</li>
<li><strong>跟本模組關係</strong>：完整補完 <a href="/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">2.0</a> 的數學深度</li>
</ul>
<h3 id="mit-1806sc-linear-algebraself-paced-版本">MIT 18.06SC Linear Algebra（Self-Paced 版本）</h3>
<p>同樣 Gilbert Strang、但設計成自學版本、有 problem sessions 補講解。建議自學選擇這版而非原始 18.06。</p>
<h2 id="階段-3機率論--統計">階段 3：機率論 + 統計</h2>
<h3 id="harvard-stat-110-probability-by-joe-blitzsteinyoutube-免費">Harvard Stat 110 Probability by Joe Blitzstein（YouTube 免費）</h3>
<p>Harvard 教授 Joe Blitzstein 的機率論課、是 LLM 機率基礎最完整的公開課。涵蓋條件機率、貝氏定理、各種分佈、generating function、Markov chain 等。</p>
<ul>
<li><strong>課程連結</strong>：projects.iq.harvard.edu/stat110（YouTube 有對應錄影）</li>
<li><strong>教科書</strong>：Introduction to Probability by Blitzstein &amp; Hwang</li>
<li><strong>時長</strong>：35 講、每講 50 分鐘、約 30 小時</li>
<li><strong>適合</strong>：想懂機率論完整體系</li>
<li><strong>跟本模組關係</strong>：補完 <a href="/blog/llm/02-math-foundations/probability-and-information/" data-link-title="2.1 機率與資訊論" data-link-desc="LLM 輸出的本質是機率分佈：softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色">2.1</a> 的數學深度</li>
</ul>
<h3 id="mit-6041-probabilistic-systems-analysisocw-免費">MIT 6.041 Probabilistic Systems Analysis（OCW 免費）</h3>
<p>工程取向、比 Stat 110 更貼近應用。涵蓋 Bayes、Markov、隨機過程等。適合工程師背景的讀者。</p>
<h3 id="stanford-cs109-probability-for-computer-scientists">Stanford CS109 Probability for Computer Scientists</h3>
<p>Stanford 的 CS 系開設、機率論 + 程式應用、適合想直接看「機率在 ML 中怎麼用」的讀者。課程材料在 Stanford CS109 網站。</p>
<h2 id="階段-4資訊論">階段 4：資訊論</h2>
<h3 id="mit-6050j-information-and-entropyocw-免費">MIT 6.050J Information and Entropy（OCW 免費）</h3>
<p>涵蓋 entropy、cross-entropy、KL divergence、Shannon coding theorem、channel capacity 等資訊論完整基礎。</p>
<ul>
<li><strong>教科書</strong>：Information Theory, Inference, and Learning Algorithms by David MacKay（也免費 PDF）</li>
<li><strong>適合</strong>：想懂 <a href="/blog/llm/02-math-foundations/probability-and-information/" data-link-title="2.1 機率與資訊論" data-link-desc="LLM 輸出的本質是機率分佈：softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色">2.1</a> 中 entropy / KL 的數學起源</li>
<li><strong>跟 LLM 的連結</strong>：cross-entropy 為什麼是訓練 LLM 的標準 loss、perplexity 的資訊論意義</li>
</ul>
<h3 id="stanford-ee376a-information-theory">Stanford EE376A Information Theory</h3>
<p>Stanford 的 EE 系開設、跟通訊工程結合、適合 EE 背景讀者。</p>
<h2 id="階段-5最佳化">階段 5：最佳化</h2>
<h3 id="stanford-ee364a-convex-optimization-by-stephen-boydyoutube--教科書免費">Stanford EE364A Convex Optimization by Stephen Boyd（YouTube + 教科書免費）</h3>
<p>凸最佳化的金標準課程。涵蓋 gradient descent、Lagrangian、duality、KKT 條件等。雖然 LLM 訓練是非凸最佳化、但凸最佳化的觀念是基礎。</p>
<ul>
<li><strong>教科書</strong>：Convex Optimization by Boyd &amp; Vandenberghe（線上 PDF 免費）</li>
<li><strong>適合</strong>：想懂 SGD、Adam、Lagrangian 等最佳化技術的數學起源</li>
<li><strong>跟本模組關係</strong>：補完 <a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2</a> 的最佳化理論深度</li>
</ul>
<h2 id="階段-6深度學習與-llm">階段 6：深度學習與 LLM</h2>
<h3 id="mit-6s191-introduction-to-deep-learning每年更新youtube-免費">MIT 6.S191 Introduction to Deep Learning（每年更新、YouTube 免費）</h3>
<p>MIT 的入門 deep learning 課、每年寒假開課並錄影上傳、涵蓋 RNN、Transformer、Diffusion、LLM。</p>
<ul>
<li><strong>課程連結</strong>：introtodeeplearning.com</li>
<li><strong>時長</strong>：每集 1 小時、約 7 ~ 10 集</li>
<li><strong>適合</strong>：deep learning 全面 overview、跟最新主題對齊</li>
</ul>
<h3 id="stanford-cs229-machine-learning-by-andrew-ngstanford-online--youtube">Stanford CS229 Machine Learning by Andrew Ng（Stanford Online + YouTube）</h3>
<p>ML 基礎金標準、涵蓋 linear regression、logistic regression、SVM、CNN、強化學習等。雖然較舊（沒有最新 Transformer）、但基礎扎實。CS229 的免費影片版在 Stanford Online 跟 YouTube（cs229.stanford.edu 有講義跟舊版錄影連結）；OCW 沒有 CS229 官方版本。</p>
<ul>
<li><strong>新版</strong>：Coursera 上有付費版「Machine Learning Specialization」、更新且互動性強</li>
<li><strong>適合</strong>：想完整懂 ML 數學基礎</li>
</ul>
<h3 id="stanford-cs224n-natural-language-processing-with-deep-learning">Stanford CS224N Natural Language Processing with Deep Learning</h3>
<p>NLP + Transformer 的標杆課程。涵蓋 word embedding、RNN、attention、Transformer、BERT、GPT 等。每年更新材料。</p>
<ul>
<li><strong>適合</strong>：<a href="/blog/llm/03-theoretical-foundations/attention-mechanism/" data-link-title="3.2 Attention 機制" data-link-desc="Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算">3.2 attention 機制</a> 與 <a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 Transformer 架構</a> 的最佳補完</li>
<li><strong>連結</strong>：Stanford CS224N 課程網站、YouTube 有錄影</li>
</ul>
<h3 id="stanford-cs25-transformers-united">Stanford CS25 Transformers United</h3>
<p>Stanford 的 Transformer 專題課、每集邀請業界與學界專家、涵蓋 Transformer 在不同領域的應用與進展。</p>
<ul>
<li><strong>適合</strong>：想跟最新 Transformer 研究進度</li>
<li><strong>連結</strong>：YouTube 上搜尋「Stanford CS25」</li>
</ul>
<h3 id="stanford-cs336-language-modeling-from-scratch2024-新開後續每年更新">Stanford CS336 Language Modeling from Scratch（2024 新開、後續每年更新）</h3>
<p>Stanford 新開的 LLM 從零訓練課程、涵蓋資料、tokenization、模型架構、訓練、評估、部署整條鏈。課程材料逐年更新、引用時請註明你看的是哪一年的版本（2026 年後內容可能跟本章引用時有差異）。</p>
<ul>
<li><strong>適合</strong>：想懂 LLM 完整 lifecycle</li>
<li><strong>連結</strong>：Stanford CS336 課程網站</li>
</ul>
<h2 id="階段-7直接動手實作">階段 7：直接動手實作</h2>
<h3 id="andrej-karpathy-的-neural-networks-zero-to-heroyoutube-免費">Andrej Karpathy 的 Neural Networks: Zero to Hero（YouTube 免費）</h3>
<p>OpenAI 前研究員 Andrej Karpathy 的系列影片、從手刻 micrograd 到實作 GPT-2、是「想動手懂 LLM」的最佳路徑。每集 1 ~ 4 小時、邊講邊寫 code。</p>
<ul>
<li><strong>核心集數</strong>：
<ul>
<li>Micrograd（自己刻 autograd）</li>
<li>Makemore 系列（從 bigram 到 Transformer）</li>
<li>Let&rsquo;s build GPT（從零實作 GPT-2）</li>
<li>Let&rsquo;s reproduce GPT-2（更完整的訓練 pipeline）</li>
<li>Let&rsquo;s build the GPT Tokenizer（BPE 詳細實作）</li>
</ul>
</li>
<li><strong>適合</strong>：完成階段 1-3、想直接接觸完整系統實作</li>
<li><strong>連結</strong>：YouTube 搜尋「Karpathy zero to hero」</li>
</ul>
<h3 id="hugging-face-nlp-course">Hugging Face NLP Course</h3>
<p>Hugging Face 官方教材、涵蓋 Transformers library、tokenizer、訓練、推論、deployment。實作取向、適合工程師。</p>
<ul>
<li><strong>連結</strong>：huggingface.co/learn</li>
</ul>
<h2 id="書籍補充">書籍補充</h2>
<table>
  <thead>
      <tr>
          <th>書名</th>
          <th>涵蓋</th>
          <th>免費 PDF</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Mathematics for Machine Learning by Deisenroth et al.</td>
          <td>線性代數、機率、最佳化、PCA、SVM</td>
          <td>是</td>
      </tr>
      <tr>
          <td>Deep Learning by Goodfellow, Bengio, Courville</td>
          <td>DL 全面教科書、ML 基礎到 Transformer 出現前</td>
          <td>是</td>
      </tr>
      <tr>
          <td>Information Theory, Inference, and Learning Algorithms by MacKay</td>
          <td>機率 + 資訊論 + ML 整合</td>
          <td>是</td>
      </tr>
      <tr>
          <td>Convex Optimization by Boyd &amp; Vandenberghe</td>
          <td>最佳化理論金標準</td>
          <td>是</td>
      </tr>
      <tr>
          <td>The Elements of Statistical Learning by Hastie et al.</td>
          <td>統計學習方法</td>
          <td>是</td>
      </tr>
  </tbody>
</table>
<p>這幾本書的官方免費 PDF 來源（避免落到盜版站）：</p>
<ul>
<li>Mathematics for Machine Learning：mml-book.github.io</li>
<li>Deep Learning（Goodfellow）：deeplearningbook.org</li>
<li>Information Theory, Inference, and Learning Algorithms：inference.org.uk/mackay/itila/</li>
<li>Convex Optimization（Boyd）：stanford.edu/~boyd/cvxbook/</li>
<li>The Elements of Statistical Learning：hastie.su.domains/ElemStatLearn/</li>
</ul>
<h2 id="何時不適用本路線">何時不適用本路線</h2>
<p>本路線假設「想紮實打底數學跟 LLM 內部、之後做研究或寫 LLM-related code」。以下情境的路線需求不同：</p>
<table>
  <thead>
      <tr>
          <th>情境</th>
          <th>該怎麼安排</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>直接做 LLM application（RAG / agent）</td>
          <td>階段 1（3B1B）即可、不需要 MIT 18.06 完整 30 小時；應用層 paper 看得懂就夠</td>
      </tr>
      <tr>
          <td>已具備 ML 背景（修過 CS229 / 同等）</td>
          <td>跳過階段 1 ~ 5、直接進階段 6 ~ 7</td>
      </tr>
      <tr>
          <td>純使用本地 LLM、不寫 ML code</td>
          <td>模組零 + 模組一已足夠、本路線可全跳過</td>
      </tr>
      <tr>
          <td>想 fine-tune 模型</td>
          <td>階段 1（複習）+ 階段 6 ~ 7 為主、最佳化 / 資訊論可後補</td>
      </tr>
      <tr>
          <td>想懂 paper 但不打算實作</td>
          <td>階段 1（3B1B）+ Karpathy zero-to-hero 前兩集已足夠</td>
      </tr>
      <tr>
          <td>學術研究 / 想自己 propose 架構</td>
          <td>全路線 + Stanford CS336 / CS25 持續追蹤新論文</td>
      </tr>
  </tbody>
</table>
<h2 id="建議的時間投入">建議的時間投入</h2>
<table>
  <thead>
      <tr>
          <th>目標</th>
          <th>預估時間（投入 5 ~ 10 小時 / 週）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>看完 3Blue1Brown 三個系列</td>
          <td>2 ~ 4 週</td>
      </tr>
      <tr>
          <td>完成 MIT 18.06 線性代數</td>
          <td>8 ~ 12 週</td>
      </tr>
      <tr>
          <td>完成 Stat 110 機率</td>
          <td>8 ~ 12 週</td>
      </tr>
      <tr>
          <td>完成 Karpathy zero-to-hero</td>
          <td>4 ~ 8 週</td>
      </tr>
      <tr>
          <td>完成 Stanford CS224N</td>
          <td>10 週</td>
      </tr>
      <tr>
          <td>完成 Stanford CS336 LLM from scratch</td>
          <td>10 週</td>
      </tr>
  </tbody>
</table>
<p><strong>機會成本提醒</strong>：本系列文章在「Mac 上跑本地 LLM 寫 code」場景中、不需要完整跑完上述課程。3Blue1Brown 三系列 + Karpathy zero-to-hero 已經涵蓋「能讀懂 LLM paper、能看懂模型架構討論」的程度、約 6 ~ 10 週投入。想做研究或自己訓練模型、再進入 MIT / Stanford 正式課程。</p>
<h2 id="下一個模組">下一個模組</h2>
<p>下一個模組：<a href="/blog/llm/03-theoretical-foundations/" data-link-title="模組三：LLM 的理論基礎" data-link-desc="從神經網路、embedding、attention、Transformer 架構、訓練到 sampling：LLM 內部運作的完整理論圖像">模組三 LLM 的理論基礎</a>、把本模組的數學工具拼成完整的 LLM 運作機制。</p>
]]></content:encoded></item><item><title>3.11 想學更深：推薦公開課程</title><link>https://tarrragon.github.io/blog/llm/03-theoretical-foundations/going-deeper-theory/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/03-theoretical-foundations/going-deeper-theory/</guid><description>&lt;p>本模組前十章把 LLM 理論基礎走過一遍：神經網路、embedding、attention、Transformer 架構、訓練流程、sampling、tokenization、cross-language、reasoning models、speculative decoding 內部。深入學習需要更系統的課程、實作練習、跟 paper 閱讀。本章整理「LLM 理論深入」這條學習路線上的高品質資源、標出每門課的定位與適合的讀者。&lt;/p>
&lt;p>本章跟&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">模組二 2.4 數學基礎公開課&lt;/a> 互補：那邊是數學工具、這邊是 LLM 理論機制。兩者組合涵蓋從零基礎到能跟業界研究接軌的完整路線。&lt;/p>
&lt;h2 id="路線總覽">路線總覽&lt;/h2>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>階段&lt;/th>
 &lt;th>內容&lt;/th>
 &lt;th>適合背景&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>1&lt;/td>
 &lt;td>視覺化 + 直觀理解&lt;/td>
 &lt;td>任何工程背景&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>2&lt;/td>
 &lt;td>動手實作 LLM&lt;/td>
 &lt;td>想直接看完整系統&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>3&lt;/td>
 &lt;td>NLP + Transformer 系統課&lt;/td>
 &lt;td>想紮實打底&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>4&lt;/td>
 &lt;td>LLM 完整 lifecycle&lt;/td>
 &lt;td>想做 LLM 應用 / 訓練&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>5&lt;/td>
 &lt;td>最新研究進展&lt;/td>
 &lt;td>想跟業界 / 學界進度&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h2 id="階段-13blue1brown-llm-視覺化系列">階段 1：3Blue1Brown LLM 視覺化系列&lt;/h2>
&lt;p>Grant Sanderson 的「Neural Networks」+「But what is a GPT?」系列、視覺化動畫解釋 Transformer 內部運作。&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>影片&lt;/th>
 &lt;th>涵蓋&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>What is a neural network? (Chapter 1)&lt;/td>
 &lt;td>Neural network 基礎、forward / backward 直覺&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Gradient descent (Chapter 2)&lt;/td>
 &lt;td>梯度下降直觀&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>What is backpropagation? (Chapter 3-4)&lt;/td>
 &lt;td>Backprop 完整推導&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>But what is a GPT? (Chapter 5)&lt;/td>
 &lt;td>Transformer / GPT 高層次運作&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>Attention in Transformers (Chapter 6)&lt;/td>
 &lt;td>Attention 機制的視覺化&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>How LLMs might store facts (Chapter 7)&lt;/td>
 &lt;td>FFN 在 Transformer 中的角色、模型怎麼「記住」事實&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>為什麼從這裡開始&lt;/strong>：影片把抽象的 attention、embedding、residual stream 變成可視覺化的幾何運動。看完這個系列、本模組前 4 章的概念都能 grasp 到直觀層次。&lt;/p>
&lt;p>&lt;strong>前置條件&lt;/strong>：高中代數 + 對矩陣有基本概念。已有 ML / Neural Network 基礎的讀者可跳過 Essence of Linear Algebra、直接看 Neural Networks 5 集系列。&lt;/p>
&lt;p>連結：YouTube 上搜尋 &lt;code>3Blue1Brown Neural Networks&lt;/code>、官方頻道是 youtube.com/c/3blue1brown。每集 15 ~ 30 分鐘、總共約 4 小時。&lt;/p>
&lt;h2 id="階段-2andrej-karpathy-的-neural-networks-zero-to-hero">階段 2：Andrej Karpathy 的 Neural Networks: Zero to Hero&lt;/h2>
&lt;p>Andrej Karpathy（OpenAI 前研究員、Tesla 前 AI 主管）的 YouTube 系列、在「動手實作 LLM」場景下是最完整的公開教材之一。完整實作從 micrograd（自己刻 autograd）到 GPT-2 訓練。&lt;/p>
&lt;p>&lt;strong>前置條件&lt;/strong>：Python 基礎、PyTorch 基本語法、看懂模組二的 chain rule 與 backprop 概念（&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2 calculus&lt;/a>）。沒寫過 PyTorch 的讀者建議先做完 PyTorch 60 分鐘 tutorial 再進。&lt;/p></description><content:encoded><![CDATA[<p>本模組前十章把 LLM 理論基礎走過一遍：神經網路、embedding、attention、Transformer 架構、訓練流程、sampling、tokenization、cross-language、reasoning models、speculative decoding 內部。深入學習需要更系統的課程、實作練習、跟 paper 閱讀。本章整理「LLM 理論深入」這條學習路線上的高品質資源、標出每門課的定位與適合的讀者。</p>
<p>本章跟<a href="/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">模組二 2.4 數學基礎公開課</a> 互補：那邊是數學工具、這邊是 LLM 理論機制。兩者組合涵蓋從零基礎到能跟業界研究接軌的完整路線。</p>
<h2 id="路線總覽">路線總覽</h2>
<table>
  <thead>
      <tr>
          <th>階段</th>
          <th>內容</th>
          <th>適合背景</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>1</td>
          <td>視覺化 + 直觀理解</td>
          <td>任何工程背景</td>
      </tr>
      <tr>
          <td>2</td>
          <td>動手實作 LLM</td>
          <td>想直接看完整系統</td>
      </tr>
      <tr>
          <td>3</td>
          <td>NLP + Transformer 系統課</td>
          <td>想紮實打底</td>
      </tr>
      <tr>
          <td>4</td>
          <td>LLM 完整 lifecycle</td>
          <td>想做 LLM 應用 / 訓練</td>
      </tr>
      <tr>
          <td>5</td>
          <td>最新研究進展</td>
          <td>想跟業界 / 學界進度</td>
      </tr>
  </tbody>
</table>
<h2 id="階段-13blue1brown-llm-視覺化系列">階段 1：3Blue1Brown LLM 視覺化系列</h2>
<p>Grant Sanderson 的「Neural Networks」+「But what is a GPT?」系列、視覺化動畫解釋 Transformer 內部運作。</p>
<table>
  <thead>
      <tr>
          <th>影片</th>
          <th>涵蓋</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>What is a neural network? (Chapter 1)</td>
          <td>Neural network 基礎、forward / backward 直覺</td>
      </tr>
      <tr>
          <td>Gradient descent (Chapter 2)</td>
          <td>梯度下降直觀</td>
      </tr>
      <tr>
          <td>What is backpropagation? (Chapter 3-4)</td>
          <td>Backprop 完整推導</td>
      </tr>
      <tr>
          <td>But what is a GPT? (Chapter 5)</td>
          <td>Transformer / GPT 高層次運作</td>
      </tr>
      <tr>
          <td>Attention in Transformers (Chapter 6)</td>
          <td>Attention 機制的視覺化</td>
      </tr>
      <tr>
          <td>How LLMs might store facts (Chapter 7)</td>
          <td>FFN 在 Transformer 中的角色、模型怎麼「記住」事實</td>
      </tr>
  </tbody>
</table>
<p><strong>為什麼從這裡開始</strong>：影片把抽象的 attention、embedding、residual stream 變成可視覺化的幾何運動。看完這個系列、本模組前 4 章的概念都能 grasp 到直觀層次。</p>
<p><strong>前置條件</strong>：高中代數 + 對矩陣有基本概念。已有 ML / Neural Network 基礎的讀者可跳過 Essence of Linear Algebra、直接看 Neural Networks 5 集系列。</p>
<p>連結：YouTube 上搜尋 <code>3Blue1Brown Neural Networks</code>、官方頻道是 youtube.com/c/3blue1brown。每集 15 ~ 30 分鐘、總共約 4 小時。</p>
<h2 id="階段-2andrej-karpathy-的-neural-networks-zero-to-hero">階段 2：Andrej Karpathy 的 Neural Networks: Zero to Hero</h2>
<p>Andrej Karpathy（OpenAI 前研究員、Tesla 前 AI 主管）的 YouTube 系列、在「動手實作 LLM」場景下是最完整的公開教材之一。完整實作從 micrograd（自己刻 autograd）到 GPT-2 訓練。</p>
<p><strong>前置條件</strong>：Python 基礎、PyTorch 基本語法、看懂模組二的 chain rule 與 backprop 概念（<a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2 calculus</a>）。沒寫過 PyTorch 的讀者建議先做完 PyTorch 60 分鐘 tutorial 再進。</p>
<h3 id="核心集數">核心集數</h3>
<table>
  <thead>
      <tr>
          <th>集數</th>
          <th>時長</th>
          <th>涵蓋</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>The spelled-out intro to neural networks and backpropagation</td>
          <td>2.5 hr</td>
          <td>從零實作 autograd、理解 backprop</td>
      </tr>
      <tr>
          <td>The spelled-out intro to language modeling</td>
          <td>2.5 hr</td>
          <td>Bigram model、character-level 預測</td>
      </tr>
      <tr>
          <td>Building makemore: MLP</td>
          <td>1.5 hr</td>
          <td>簡單 MLP 做 character 預測</td>
      </tr>
      <tr>
          <td>Building makemore: Activations &amp; BatchNorm</td>
          <td>1 hr</td>
          <td>訓練深度網路的細節</td>
      </tr>
      <tr>
          <td>Building makemore: Backprop from scratch</td>
          <td>2 hr</td>
          <td>手刻 backprop 跑通</td>
      </tr>
      <tr>
          <td>Building makemore: WaveNet</td>
          <td>1 hr</td>
          <td>Hierarchical 結構</td>
      </tr>
      <tr>
          <td>Let&rsquo;s build GPT from scratch</td>
          <td>2 hr</td>
          <td><strong>從零實作 GPT、Transformer 完整 forward + backward</strong></td>
      </tr>
      <tr>
          <td>Let&rsquo;s build the GPT Tokenizer</td>
          <td>2 hr</td>
          <td>BPE tokenizer 詳細實作</td>
      </tr>
      <tr>
          <td>Let&rsquo;s reproduce GPT-2 (124M)</td>
          <td>4 hr</td>
          <td>完整訓練 pipeline、跑出 GPT-2 級別模型</td>
      </tr>
      <tr>
          <td>Let&rsquo;s build LLaMA from scratch</td>
          <td>進行中</td>
          <td>Llama 架構、RoPE、SwiGLU 等</td>
      </tr>
  </tbody>
</table>
<h3 id="為什麼這系列重要">為什麼這系列重要</h3>
<ul>
<li><strong>講者深度高</strong>：Karpathy 講解的節奏細到可以跟著手刻、實作完能對 Transformer 每個 module 的角色有具體理解。</li>
<li><strong>完整可執行 code</strong>：每個影片都有 GitHub repo、可跟著跑。</li>
<li><strong>從零實作</strong>：不依賴黑箱 framework、所有東西都自己刻、理解深度。</li>
<li><strong>涵蓋完整</strong>：autograd → MLP → CNN → Transformer → 完整 GPT-2 訓練。</li>
</ul>
<p>完成這系列、你能：</p>
<ul>
<li>對應到模組三 <a href="/blog/llm/03-theoretical-foundations/attention-mechanism/" data-link-title="3.2 Attention 機制" data-link-desc="Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算">3.2 attention</a> 跟 <a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 transformer-architecture</a> 的每個 module、解釋它在 code 中的角色。</li>
<li>用 PyTorch 從零實作一個簡單 LLM。</li>
<li>看懂主流 LLM 的 architecture code（Llama、Mistral 等）。</li>
</ul>
<p>連結：YouTube 搜尋 <code>Karpathy Neural Networks Zero to Hero</code>、官方索引在 karpathy.ai。</p>
<p>預估時間：完整跑完 30 ~ 50 小時（含跟著寫 code）、4 ~ 8 週投入。</p>
<h2 id="階段-3stanford-cs224n-natural-language-processing-with-deep-learning">階段 3：Stanford CS224N Natural Language Processing with Deep Learning</h2>
<p>Stanford 的 NLP + Deep Learning 旗艦課、由 Chris Manning、Tatsu Hashimoto 等講授。每年更新材料、在「LLM 系統教學」場景下是最完整的學術課程之一。</p>
<p><strong>前置條件</strong>：微積分（chain rule、partial derivative）、線性代數（matrix multiplication、eigenvalue）、Python + PyTorch。沒有這些基礎建議先補完模組二再進。</p>
<h3 id="內容">內容</h3>
<ul>
<li>Word vectors（word2vec、GloVe）</li>
<li>RNN、LSTM、GRU</li>
<li>Attention、Transformer</li>
<li>BERT、GPT、T5</li>
<li>預訓練、fine-tuning、RLHF</li>
<li>Multimodal、tool use、agent</li>
<li>最新 LLM 進展</li>
</ul>
<h3 id="為什麼選這門">為什麼選這門</h3>
<ul>
<li><strong>教材深度</strong>：每堂課有 slides + 推薦 paper、可深入研究。</li>
<li><strong>作業扎實</strong>：5 個 programming assignment、從 word2vec 到實作 Transformer。</li>
<li><strong>每年更新</strong>：跟最新研究進展對齊。</li>
</ul>
<p>連結：Stanford CS224N 課程網站。YouTube 上有歷年錄影。</p>
<p>預估時間：跟著影片 + 作業約 80 ~ 120 小時、10 週投入。</p>
<h2 id="階段-4stanford-cs336-language-modeling-from-scratch">階段 4：Stanford CS336 Language Modeling from Scratch</h2>
<p>2024 年 Stanford 新開的 LLM 從零訓練課、後續每年更新。Percy Liang、Tatsu Hashimoto 講授、涵蓋從資料到部署的完整 LLM lifecycle。引用時請註明你看的是哪一年的版本（內容逐年更新、跨年版本可能有差異）。</p>
<p><strong>前置條件</strong>：完成 CS224N 或同等課程、有 distributed training 概念、了解 GPU memory hierarchy。屬於進階課、不適合作為 LLM 入門起點。</p>
<h3 id="內容-1">內容</h3>
<ul>
<li>訓練資料：收集、過濾、deduplication</li>
<li>Tokenizer 訓練</li>
<li>模型架構選擇</li>
<li>大規模分散式訓練</li>
<li>評估方法</li>
<li>Alignment（SFT、DPO、RLHF）</li>
<li>Inference 優化</li>
<li>部署、安全</li>
</ul>
<h3 id="為什麼這門特別">為什麼這門特別</h3>
<ul>
<li><strong>完整 lifecycle</strong>：少數涵蓋「資料 → 訓練 → 評估 → 部署」全鏈的課。</li>
<li><strong>業界視角</strong>：講者跟前沿實驗室（Anthropic、Stanford CRFM 等）合作密切。</li>
<li><strong>最新內容</strong>：2024 開課、覆蓋最新 LLM 技術。</li>
</ul>
<p>連結：Stanford CS336 課程網站。YouTube 上有錄影。</p>
<p>預估時間：80 ~ 100 小時、10 週投入。</p>
<h2 id="階段-5stanford-cs25-transformers-united">階段 5：Stanford CS25 Transformers United</h2>
<p>Stanford 的 Transformer 專題課、每集邀請業界 / 學界專家、涵蓋 Transformer 在不同領域的應用。每年更新、講者更迭。</p>
<h3 id="涵蓋領域">涵蓋領域</h3>
<ul>
<li>Transformer 各種變體（Vision Transformer、Audio Transformer 等）</li>
<li>Diffusion + Transformer</li>
<li>Long context 技術</li>
<li>Mixture of Experts</li>
<li>多模態 LLM</li>
<li>Agent / Tool use</li>
<li>最新研究進展</li>
</ul>
<h3 id="為什麼有價值">為什麼有價值</h3>
<ul>
<li><strong>業界視角</strong>：講者多是 OpenAI、Anthropic、Google DeepMind、Meta 等實驗室的核心研究員。</li>
<li><strong>跟前沿同步</strong>：每年內容隨主題更新。</li>
<li><strong>適合「想知道現在發生什麼」</strong>：補課堂教學跟不上的最新進展。</li>
</ul>
<p>連結：YouTube 搜尋 <code>Stanford CS25 Transformers United</code>。</p>
<p>預估時間：每集 1 小時、可挑感興趣的看、不一定看完整系列。</p>
<h2 id="階段-6mit-6s191-introduction-to-deep-learning">階段 6：MIT 6.S191 Introduction to Deep Learning</h2>
<p>MIT 入門 DL 課、每年寒假開課並錄影上傳。涵蓋 RNN、CNN、Transformer、Diffusion、LLM 等廣度。</p>
<ul>
<li><strong>深度</strong>：較 Stanford CS224N 淺、適合入門。</li>
<li><strong>廣度</strong>：覆蓋 DL 所有主要分支、不只 NLP。</li>
<li><strong>更新頻率</strong>：每年新版、跟最新進展。</li>
</ul>
<p>連結：introtodeeplearning.com。</p>
<p>預估時間：每集 1 小時、約 7 ~ 10 集、總時數 10 ~ 15 小時。</p>
<h2 id="階段-7deeplearningai-specializations">階段 7：DeepLearning.AI Specializations</h2>
<p>Andrew Ng 創辦的 DeepLearning.AI 提供多個 LLM 相關 specialization、Coursera 上有付費 + 免費 audit 選項。</p>
<h3 id="推薦課程">推薦課程</h3>
<table>
  <thead>
      <tr>
          <th>Specialization</th>
          <th>涵蓋</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Deep Learning Specialization</td>
          <td>DL 基礎、CNN、RNN、Sequence Models</td>
      </tr>
      <tr>
          <td>Natural Language Processing Specialization</td>
          <td>NLP 從基礎到 Transformer</td>
      </tr>
      <tr>
          <td>Generative AI with Large Language Models</td>
          <td>LLM lifecycle、prompt、fine-tuning、RLHF</td>
      </tr>
      <tr>
          <td>各種 short courses（免費 audit）</td>
          <td>1 ~ 2 小時的專題、LangChain、RAG、Agents 等</td>
      </tr>
  </tbody>
</table>
<p><strong>Short courses 特別推薦</strong>：免費 + 短、跟最新工具同步。例：</p>
<ul>
<li><code>ChatGPT Prompt Engineering for Developers</code></li>
<li><code>LangChain for LLM Application Development</code></li>
<li><code>Building Systems with the ChatGPT API</code></li>
<li><code>Functions, Tools and Agents with LangChain</code></li>
<li><code>Fine-tuning LLMs</code></li>
<li><code>Pretraining LLMs</code></li>
</ul>
<p>連結：deeplearning.ai 的 short courses 頁面。</p>
<h2 id="階段-8hugging-face-nlp-course">階段 8：Hugging Face NLP Course</h2>
<p>Hugging Face 官方教材、實作取向。涵蓋 Transformers library、tokenizer 訓練、模型 fine-tuning、deployment。</p>
<ul>
<li><strong>連結</strong>：huggingface.co/learn/nlp-course</li>
<li><strong>特性</strong>：免費、用 Hugging Face 生態系實作、適合工程師</li>
<li><strong>章節</strong>：12 章、約 30 ~ 40 小時</li>
</ul>
<p>完成這門課、你能用 Transformers library 做：</p>
<ul>
<li>載入跟用任何 Hugging Face 模型</li>
<li>自己訓練 tokenizer</li>
<li>Fine-tune 模型（含 LoRA）</li>
<li>部署到 Inference Endpoints</li>
</ul>
<h2 id="必讀-papers">必讀 Papers</h2>
<p>讀完課程後、跟最新研究進度的方式是讀 paper。以下是 LLM 領域的「必讀經典」、按時間順序：</p>
<table>
  <thead>
      <tr>
          <th>Paper</th>
          <th>重要性</th>
          <th>對應模組三章節</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Attention Is All You Need (Vaswani et al., 2017)</td>
          <td>Transformer 原始 paper</td>
          <td><a href="/blog/llm/03-theoretical-foundations/attention-mechanism/" data-link-title="3.2 Attention 機制" data-link-desc="Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算">3.2 attention</a></td>
      </tr>
      <tr>
          <td>BERT (Devlin et al., 2018)</td>
          <td>Bidirectional pretraining</td>
          <td><a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 transformer architecture</a></td>
      </tr>
      <tr>
          <td>GPT-2 paper (Radford et al., 2019)</td>
          <td>Decoder-only 規模化的開端</td>
          <td><a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 transformer architecture</a></td>
      </tr>
      <tr>
          <td>Scaling Laws (Kaplan et al., 2020)</td>
          <td>模型 / 資料 / 算力之間的 scaling 關係</td>
          <td><a href="/blog/llm/03-theoretical-foundations/training-pipeline/" data-link-title="3.4 訓練流程：pre-train → SFT → RLHF" data-link-desc="LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案">3.4 training pipeline</a></td>
      </tr>
      <tr>
          <td>GPT-3 paper (Brown et al., 2020)</td>
          <td>In-context learning 的湧現</td>
          <td><a href="/blog/llm/03-theoretical-foundations/training-pipeline/" data-link-title="3.4 訓練流程：pre-train → SFT → RLHF" data-link-desc="LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案">3.4 training pipeline</a></td>
      </tr>
      <tr>
          <td>Chinchilla (Hoffmann et al., 2022)</td>
          <td>修正 scaling laws、改變訓練配比</td>
          <td><a href="/blog/llm/03-theoretical-foundations/training-pipeline/" data-link-title="3.4 訓練流程：pre-train → SFT → RLHF" data-link-desc="LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案">3.4 training pipeline</a></td>
      </tr>
      <tr>
          <td>InstructGPT (Ouyang et al., 2022)</td>
          <td>RLHF 的標誌性實作</td>
          <td><a href="/blog/llm/03-theoretical-foundations/training-pipeline/" data-link-title="3.4 訓練流程：pre-train → SFT → RLHF" data-link-desc="LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案">3.4 training pipeline</a></td>
      </tr>
      <tr>
          <td>LLaMA (Touvron et al., 2023)</td>
          <td>Open-weight 大模型的標竿</td>
          <td><a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 transformer architecture</a></td>
      </tr>
      <tr>
          <td>LLaMA 2 (Touvron et al., 2023)</td>
          <td>Open chat model</td>
          <td><a href="/blog/llm/03-theoretical-foundations/training-pipeline/" data-link-title="3.4 訓練流程：pre-train → SFT → RLHF" data-link-desc="LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案">3.4 training pipeline</a></td>
      </tr>
      <tr>
          <td>DPO (Rafailov et al., 2023)</td>
          <td>RLHF 的簡化替代</td>
          <td><a href="/blog/llm/03-theoretical-foundations/training-pipeline/" data-link-title="3.4 訓練流程：pre-train → SFT → RLHF" data-link-desc="LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案">3.4 training pipeline</a></td>
      </tr>
      <tr>
          <td>Mixture of Experts (Shazeer et al., 2017、Mixtral 2024)</td>
          <td>MoE 路線</td>
          <td><a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 transformer architecture</a></td>
      </tr>
      <tr>
          <td>RoPE (Su et al., 2021)</td>
          <td>現代 LLM 主流位置編碼</td>
          <td><a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 transformer architecture</a></td>
      </tr>
      <tr>
          <td>Flash Attention (Dao et al., 2022)</td>
          <td>Attention 高效實作</td>
          <td><a href="/blog/llm/03-theoretical-foundations/attention-mechanism/" data-link-title="3.2 Attention 機制" data-link-desc="Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算">3.2 attention</a></td>
      </tr>
  </tbody>
</table>
<p>讀 paper 的順序建議：先讀 abstract + intro + conclusion 抓研究問題與結論、再看 method 細節、最後看 experiment 與 ablation。初學者可優先讀 Transformer 原始 paper + GPT-2 + Chinchilla + InstructGPT 四篇、覆蓋「架構 / 預訓練 / scaling / alignment」骨架；Flash Attention、MoE 等工程細節 paper 可後補。</p>
<p>訂閱 arXiv <code>cs.CL</code>、<code>cs.LG</code> daily list、或關注 Hugging Face Daily Papers、X / Twitter 上的 ML researcher、能持續跟最新進展。</p>
<h2 id="書籍補充">書籍補充</h2>
<table>
  <thead>
      <tr>
          <th>書名</th>
          <th>涵蓋</th>
          <th>免費</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Speech and Language Processing by Jurafsky &amp; Martin</td>
          <td>NLP 完整教科書、第 3 版含 LLM</td>
          <td>是</td>
      </tr>
      <tr>
          <td>Build a Large Language Model From Scratch by Sebastian Raschka</td>
          <td>從零實作 GPT-style LLM</td>
          <td>否（紙本）</td>
      </tr>
      <tr>
          <td>Hands-On Large Language Models by Jay Alammar</td>
          <td>視覺化 + 實作</td>
          <td>否</td>
      </tr>
      <tr>
          <td>The Illustrated Transformer by Jay Alammar</td>
          <td>部落格文章、視覺化解釋 Transformer</td>
          <td>是</td>
      </tr>
  </tbody>
</table>
<p>Jay Alammar 的 <code>The Illustrated Transformer</code>、<code>The Illustrated GPT-2</code> 等部落格文章、是視覺化解釋的經典。免費、google 直接搜尋。</p>
<h2 id="建議的時間投入">建議的時間投入</h2>
<table>
  <thead>
      <tr>
          <th>目標</th>
          <th>預估時間（投入 5 ~ 10 小時 / 週）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>看完 3Blue1Brown GPT 系列</td>
          <td>1 ~ 2 週</td>
      </tr>
      <tr>
          <td>完成 Karpathy zero-to-hero</td>
          <td>4 ~ 8 週</td>
      </tr>
      <tr>
          <td>完成 Stanford CS224N</td>
          <td>10 週</td>
      </tr>
      <tr>
          <td>完成 Stanford CS336</td>
          <td>10 週</td>
      </tr>
      <tr>
          <td>完成 Hugging Face NLP Course</td>
          <td>4 ~ 6 週</td>
      </tr>
      <tr>
          <td>讀完上面 12 篇必讀 paper</td>
          <td>4 ~ 8 週</td>
      </tr>
  </tbody>
</table>
<p>寫 code 場景的使用者通常用「3Blue1Brown + Karpathy zero-to-hero + 跟最新 paper」這個組合就能跟 LLM 進展接軌、約 6 ~ 12 週投入。想做研究 / 自己訓練模型、再進入 Stanford CS336、CS224N、必讀 paper 等正式學習路徑。</p>
<h2 id="建議的學習順序">建議的學習順序</h2>
<p>對「想理解 LLM 內部、不打算自己訓練」的工程師：</p>
<ol>
<li>看 3Blue1Brown GPT 系列（1 ~ 2 週）</li>
<li>看 Karpathy <code>Let's build GPT from scratch</code>（1 週）</li>
<li>看 Karpathy <code>Let's reproduce GPT-2</code>（2 週）</li>
<li>看 Stanford CS25 感興趣的集數（自由）</li>
</ol>
<p>對「想做 LLM 應用開發」的工程師：</p>
<ol>
<li>同上</li>
<li>
<ul>
<li>DeepLearning.AI short courses（LangChain、RAG、Agents、Prompt Engineering）</li>
</ul>
</li>
<li>
<ul>
<li>Hugging Face NLP Course</li>
</ul>
</li>
</ol>
<p>對「想做 LLM 訓練 / fine-tuning」的研究者：</p>
<ol>
<li>同上</li>
<li>
<ul>
<li>Karpathy 完整 zero-to-hero 系列</li>
</ul>
</li>
<li>
<ul>
<li>Stanford CS224N（系統補課）</li>
</ul>
</li>
<li>
<ul>
<li>Stanford CS336（完整 lifecycle）</li>
</ul>
</li>
<li>
<ul>
<li>必讀 paper</li>
</ul>
</li>
</ol>
<h2 id="小結">小結</h2>
<p>讀到這裡、本系列指南就完整收尾。你應該能：</p>
<ul>
<li>在 Mac 上跑本地 LLM 寫 code（模組零 + 模組一）</li>
<li>判讀任何 LLM 相關資訊（模組零 0.6 五個框架）</li>
<li>理解 LLM 推論的數學基礎（模組二）</li>
<li>理解 LLM 內部運作機制（模組三）</li>
<li>知道想再深入該往哪走（本章 + <a href="/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">模組二 2.4</a>）</li>
</ul>
<p>回到 <a href="/blog/llm/" data-link-title="LLM 寫 code 工程實務指南：從心智模型到應用架構" data-link-desc="以寫 code 場景為主、涵蓋本地推論（Mac / PC）、雲端混用、LLM 數學與理論基礎、應用層架構（RAG / tool use / agent / VLM / 靜態 deployment）、reasoning model 與 speculative decoding、本地 dev 安全、跨工具世代不變的原理">LLM 寫 code 實務指南首頁</a> 看完整地圖。</p>
]]></content:encoded></item></channel></rss>