<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Math-Foundations on Tarragon</title><link>https://tarrragon.github.io/blog/tags/math-foundations/</link><description>Recent content in Math-Foundations on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Mon, 11 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/math-foundations/index.xml" rel="self" type="application/rss+xml"/><item><title>模組二：LLM 的數學基礎</title><link>https://tarrragon.github.io/blog/llm/02-math-foundations/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/02-math-foundations/</guid><description>&lt;p>本模組整理 LLM 推論背後的數學概念。寫 code 場景的使用者通常無需親自實作這些公式、但理解它們的存在與意義、能讓「為什麼模型佔這麼多記憶體」「為什麼量化會衰減品質」「為什麼長 prompt 的 prefill 成本特別高」等現象從黑箱變成可推導的工程現實。&lt;/p>
&lt;p>本模組假設讀者熟悉中學以上的數學、但無需具備機器學習背景。每個概念給出定義、在 LLM 中扮演的角色、以及實務上會怎麼遇到它。深度推導與練習題交給&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">公開課程&lt;/a>；本模組的責任是把名詞跟用途連起來。&lt;/p>
&lt;h2 id="章節列表">章節列表&lt;/h2>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>章節&lt;/th>
 &lt;th>主題&lt;/th>
 &lt;th>關鍵收穫&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">2.0&lt;/a>&lt;/td>
 &lt;td>線性代數：向量、矩陣、空間&lt;/td>
 &lt;td>LLM 內部所有運算都是矩陣乘法、為什麼維度匹配是常見錯誤源頭&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/probability-and-information/" data-link-title="2.1 機率與資訊論" data-link-desc="LLM 輸出的本質是機率分佈：softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色">2.1&lt;/a>&lt;/td>
 &lt;td>機率與資訊論&lt;/td>
 &lt;td>softmax、cross-entropy、KL divergence、perplexity 的角色&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2&lt;/a>&lt;/td>
 &lt;td>微積分與最佳化&lt;/td>
 &lt;td>gradient、chain rule、SGD / Adam 在訓練流程中的位置&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/numerical-precision/" data-link-title="2.3 數值精度與量化的數學依據" data-link-desc="fp32 / bf16 / fp16 / int8 / int4 的差別、量化能省哪些 bits、品質衰減從哪裡來">2.3&lt;/a>&lt;/td>
 &lt;td>數值精度與量化的數學依據&lt;/td>
 &lt;td>floating point、bf16 vs fp32、量化能在哪裡省 bits&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">2.4&lt;/a>&lt;/td>
 &lt;td>想學更深：推薦公開課程&lt;/td>
 &lt;td>MIT、Stanford、Harvard、3Blue1Brown 等系統教材路線&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h2 id="跟模組零的分工">跟模組零的分工&lt;/h2>
&lt;p>模組零（&lt;a href="https://tarrragon.github.io/blog/llm/00-foundations/" data-link-title="模組零：基礎知識與心智模型" data-link-desc="建立本地 LLM 的心智模型、釐清 MLX / MTP / oMLX 等常被混淆的術語、Apple Silicon 記憶體現實">基礎知識與心智模型&lt;/a>）的責任是「裝模型、用模型」需要的操作層概念；本模組的責任是這些操作層概念背後的數學基礎。兩者各自獨立、可分開讀：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>模組零問的問題&lt;/th>
 &lt;th>本模組問的問題&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>32GB Mac 能跑多大模型&lt;/td>
 &lt;td>為什麼模型大小 ≈ 參數數 × bits / 8&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>量化怎麼選&lt;/td>
 &lt;td>量化在數學上做了什麼、哪裡會衰減品質&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>為什麼長 prompt 的 TTFT 高&lt;/td>
 &lt;td>prefill 階段在做什麼運算&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>為什麼 MTP 對寫 code 加速明顯&lt;/td>
 &lt;td>為什麼 attention 的驗證可以並行&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>讀過本模組後、回頭看模組零會發現「為什麼這個現象成立」變得清楚。&lt;/p>
&lt;h2 id="跟模組三的分工">跟模組三的分工&lt;/h2>
&lt;p>模組二（本模組）給數學工具、模組三（&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/" data-link-title="模組三：LLM 的理論基礎" data-link-desc="從神經網路、embedding、attention、Transformer 架構、訓練到 sampling：LLM 內部運作的完整理論圖像">LLM 的理論基礎&lt;/a>）用這些工具拼出完整 LLM 的運作機制。兩個模組可以並讀：遇到陌生數學概念時跳回本模組補完。&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>本模組（工具）&lt;/th>
 &lt;th>模組三（用法）&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>矩陣乘法&lt;/td>
 &lt;td>attention 的 Q × K^T、output 的 W × x&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>softmax&lt;/td>
 &lt;td>attention 權重正規化、輸出 token 機率分佈&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>cross-entropy&lt;/td>
 &lt;td>訓練時的 loss function、衡量模型預測品質&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>gradient descent&lt;/td>
 &lt;td>訓練時更新權重的演算法&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>floating point&lt;/td>
 &lt;td>bf16 / fp16 / fp32 在訓練與推論時的取捨&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h2 id="適合的讀者">適合的讀者&lt;/h2>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>你的背景&lt;/th>
 &lt;th>適合程度&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>工程師、會用過雲端 LLM、想懂底層&lt;/td>
 &lt;td>直接適合、可從 2.0 依序讀&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>學過大學線性代數 + 機率、但忘得差不多了&lt;/td>
 &lt;td>直接適合、本模組是有效的複習索引&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>完全沒碰過矩陣 / 機率&lt;/td>
 &lt;td>可以讀、但會略吃力；建議搭配 &lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">2.4 公開課&lt;/a>&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>想跳過數學、直接用 LLM&lt;/td>
 &lt;td>跳過本模組無妨、模組零跟模組一已足夠日常使用&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h2 id="用語約定">用語約定&lt;/h2>
&lt;p>本模組固定下列翻譯：&lt;/p></description><content:encoded><![CDATA[<p>本模組整理 LLM 推論背後的數學概念。寫 code 場景的使用者通常無需親自實作這些公式、但理解它們的存在與意義、能讓「為什麼模型佔這麼多記憶體」「為什麼量化會衰減品質」「為什麼長 prompt 的 prefill 成本特別高」等現象從黑箱變成可推導的工程現實。</p>
<p>本模組假設讀者熟悉中學以上的數學、但無需具備機器學習背景。每個概念給出定義、在 LLM 中扮演的角色、以及實務上會怎麼遇到它。深度推導與練習題交給<a href="/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">公開課程</a>；本模組的責任是把名詞跟用途連起來。</p>
<h2 id="章節列表">章節列表</h2>
<table>
  <thead>
      <tr>
          <th>章節</th>
          <th>主題</th>
          <th>關鍵收穫</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><a href="/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">2.0</a></td>
          <td>線性代數：向量、矩陣、空間</td>
          <td>LLM 內部所有運算都是矩陣乘法、為什麼維度匹配是常見錯誤源頭</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/02-math-foundations/probability-and-information/" data-link-title="2.1 機率與資訊論" data-link-desc="LLM 輸出的本質是機率分佈：softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色">2.1</a></td>
          <td>機率與資訊論</td>
          <td>softmax、cross-entropy、KL divergence、perplexity 的角色</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">2.2</a></td>
          <td>微積分與最佳化</td>
          <td>gradient、chain rule、SGD / Adam 在訓練流程中的位置</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/02-math-foundations/numerical-precision/" data-link-title="2.3 數值精度與量化的數學依據" data-link-desc="fp32 / bf16 / fp16 / int8 / int4 的差別、量化能省哪些 bits、品質衰減從哪裡來">2.3</a></td>
          <td>數值精度與量化的數學依據</td>
          <td>floating point、bf16 vs fp32、量化能在哪裡省 bits</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">2.4</a></td>
          <td>想學更深：推薦公開課程</td>
          <td>MIT、Stanford、Harvard、3Blue1Brown 等系統教材路線</td>
      </tr>
  </tbody>
</table>
<h2 id="跟模組零的分工">跟模組零的分工</h2>
<p>模組零（<a href="/blog/llm/00-foundations/" data-link-title="模組零：基礎知識與心智模型" data-link-desc="建立本地 LLM 的心智模型、釐清 MLX / MTP / oMLX 等常被混淆的術語、Apple Silicon 記憶體現實">基礎知識與心智模型</a>）的責任是「裝模型、用模型」需要的操作層概念；本模組的責任是這些操作層概念背後的數學基礎。兩者各自獨立、可分開讀：</p>
<table>
  <thead>
      <tr>
          <th>模組零問的問題</th>
          <th>本模組問的問題</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>32GB Mac 能跑多大模型</td>
          <td>為什麼模型大小 ≈ 參數數 × bits / 8</td>
      </tr>
      <tr>
          <td>量化怎麼選</td>
          <td>量化在數學上做了什麼、哪裡會衰減品質</td>
      </tr>
      <tr>
          <td>為什麼長 prompt 的 TTFT 高</td>
          <td>prefill 階段在做什麼運算</td>
      </tr>
      <tr>
          <td>為什麼 MTP 對寫 code 加速明顯</td>
          <td>為什麼 attention 的驗證可以並行</td>
      </tr>
  </tbody>
</table>
<p>讀過本模組後、回頭看模組零會發現「為什麼這個現象成立」變得清楚。</p>
<h2 id="跟模組三的分工">跟模組三的分工</h2>
<p>模組二（本模組）給數學工具、模組三（<a href="/blog/llm/03-theoretical-foundations/" data-link-title="模組三：LLM 的理論基礎" data-link-desc="從神經網路、embedding、attention、Transformer 架構、訓練到 sampling：LLM 內部運作的完整理論圖像">LLM 的理論基礎</a>）用這些工具拼出完整 LLM 的運作機制。兩個模組可以並讀：遇到陌生數學概念時跳回本模組補完。</p>
<table>
  <thead>
      <tr>
          <th>本模組（工具）</th>
          <th>模組三（用法）</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>矩陣乘法</td>
          <td>attention 的 Q × K^T、output 的 W × x</td>
      </tr>
      <tr>
          <td>softmax</td>
          <td>attention 權重正規化、輸出 token 機率分佈</td>
      </tr>
      <tr>
          <td>cross-entropy</td>
          <td>訓練時的 loss function、衡量模型預測品質</td>
      </tr>
      <tr>
          <td>gradient descent</td>
          <td>訓練時更新權重的演算法</td>
      </tr>
      <tr>
          <td>floating point</td>
          <td>bf16 / fp16 / fp32 在訓練與推論時的取捨</td>
      </tr>
  </tbody>
</table>
<h2 id="適合的讀者">適合的讀者</h2>
<table>
  <thead>
      <tr>
          <th>你的背景</th>
          <th>適合程度</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>工程師、會用過雲端 LLM、想懂底層</td>
          <td>直接適合、可從 2.0 依序讀</td>
      </tr>
      <tr>
          <td>學過大學線性代數 + 機率、但忘得差不多了</td>
          <td>直接適合、本模組是有效的複習索引</td>
      </tr>
      <tr>
          <td>完全沒碰過矩陣 / 機率</td>
          <td>可以讀、但會略吃力；建議搭配 <a href="/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">2.4 公開課</a></td>
      </tr>
      <tr>
          <td>想跳過數學、直接用 LLM</td>
          <td>跳過本模組無妨、模組零跟模組一已足夠日常使用</td>
      </tr>
  </tbody>
</table>
<h2 id="用語約定">用語約定</h2>
<p>本模組固定下列翻譯：</p>
<table>
  <thead>
      <tr>
          <th>英文</th>
          <th>中文</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Vector</td>
          <td>向量</td>
      </tr>
      <tr>
          <td>Matrix</td>
          <td>矩陣</td>
      </tr>
      <tr>
          <td>Tensor</td>
          <td>張量</td>
      </tr>
      <tr>
          <td>Dot product / Inner product</td>
          <td>內積</td>
      </tr>
      <tr>
          <td>Norm</td>
          <td>範數（norm）</td>
      </tr>
      <tr>
          <td>Probability distribution</td>
          <td>機率分佈</td>
      </tr>
      <tr>
          <td>Cross-entropy</td>
          <td>交叉熵（cross-entropy）</td>
      </tr>
      <tr>
          <td>KL divergence</td>
          <td>KL 散度</td>
      </tr>
      <tr>
          <td>Entropy</td>
          <td>熵</td>
      </tr>
      <tr>
          <td>Gradient</td>
          <td>梯度（gradient）</td>
      </tr>
      <tr>
          <td>Partial derivative</td>
          <td>偏導數</td>
      </tr>
      <tr>
          <td>Chain rule</td>
          <td>連鎖律</td>
      </tr>
      <tr>
          <td>Floating point</td>
          <td>浮點數</td>
      </tr>
  </tbody>
</table>
<p>英文原文在第一次出現時保留括號錨點、後續用中文。</p>
<h2 id="不在本模組內的主題">不在本模組內的主題</h2>
<ol>
<li><strong>完整數學證明</strong>：本模組只給定義跟用途、不展開推導。完整證明交給 <a href="/blog/llm/02-math-foundations/going-deeper-math/" data-link-title="2.4 想學更深：推薦公開課程" data-link-desc="MIT、Stanford、Harvard 等公開課程：數學基礎跟 LLM 預備知識的完整學習路線">2.4</a> 推薦的公開課。</li>
<li><strong>數值分析的進階主題</strong>：條件數、誤差累積、迭代法收斂等屬於數值分析專門課程的範圍。</li>
<li><strong>機率論進階</strong>：測度論、隨機過程等屬於數學系的範圍、跟 LLM 推論的關聯較淡。</li>
<li><strong>最佳化理論</strong>：凸最佳化、二階方法等深度主題交給 Stanford CS229 / Boyd 的最佳化課程。</li>
</ol>
]]></content:encoded></item></channel></rss>