<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Theoretical-Foundations on Tarragon</title><link>https://tarrragon.github.io/blog/tags/theoretical-foundations/</link><description>Recent content in Theoretical-Foundations on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Mon, 11 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/theoretical-foundations/index.xml" rel="self" type="application/rss+xml"/><item><title>模組三：LLM 的理論基礎</title><link>https://tarrragon.github.io/blog/llm/03-theoretical-foundations/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/03-theoretical-foundations/</guid><description>&lt;p>本模組整理 LLM 內部運作的理論機制。模組零（&lt;a href="https://tarrragon.github.io/blog/llm/00-foundations/" data-link-title="模組零：基礎知識與心智模型" data-link-desc="建立本地 LLM 的心智模型、釐清 MLX / MTP / oMLX 等常被混淆的術語、Apple Silicon 記憶體現實">基礎知識與心智模型&lt;/a>）回答「裝跟用」的問題、模組二（&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/" data-link-title="模組二：LLM 的數學基礎" data-link-desc="整理 LLM 推論背後需要理解的線性代數、機率與資訊論、最佳化、數值精度等數學概念">數學基礎&lt;/a>）提供數學工具；本模組把數學工具組合起來、解釋「LLM 內部到底發生什麼事」。&lt;/p>
&lt;p>讀完本模組後、看到 attention head、positional encoding、residual stream、layer norm 等 LLM paper 中的術語、能知道每個概念在整體運作中扮演什麼角色。看到「為什麼模型會 hallucinate」「為什麼 instruction tuning 改變模型行為」「為什麼 RLHF 的 reward model 是關鍵」等討論、能回到具體機制追問。&lt;/p>
&lt;p>本模組的目標是建立完整理論圖像、不是讓讀者能自己訓練 LLM。完整訓練流程、實作細節、最新研究進展交給&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/going-deeper-theory/" data-link-title="3.11 想學更深：推薦公開課程" data-link-desc="Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face：LLM 理論深入學習的完整路線">模組末尾的公開課程&lt;/a>；本模組的責任是把術語跟機制連起來。&lt;/p>
&lt;h2 id="章節列表">章節列表&lt;/h2>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>章節&lt;/th>
 &lt;th>主題&lt;/th>
 &lt;th>關鍵收穫&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/neural-network-basics/" data-link-title="3.0 神經網路基礎" data-link-desc="從單一 neuron 到 multi-layer：weights、activation function、forward / backward pass 的角色">3.0&lt;/a>&lt;/td>
 &lt;td>神經網路基礎&lt;/td>
 &lt;td>layer、weights、activation function、forward / backward pass&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/embedding-spaces/" data-link-title="3.1 Embedding 空間" data-link-desc="token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的">3.1&lt;/a>&lt;/td>
 &lt;td>Embedding 空間&lt;/td>
 &lt;td>為什麼相似 token 在向量空間靠近、embedding 是怎麼學出來的&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/attention-mechanism/" data-link-title="3.2 Attention 機制" data-link-desc="Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算">3.2&lt;/a>&lt;/td>
 &lt;td>Attention 機制&lt;/td>
 &lt;td>Query / Key / Value、scaled dot-product、multi-head attention&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3&lt;/a>&lt;/td>
 &lt;td>Transformer 架構細節&lt;/td>
 &lt;td>Decoder-only、positional encoding、layer norm、residual stream&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/training-pipeline/" data-link-title="3.4 訓練流程：pre-train → SFT → RLHF" data-link-desc="LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案">3.4&lt;/a>&lt;/td>
 &lt;td>訓練流程：pre-train → SFT → RLHF&lt;/td>
 &lt;td>三階段訓練、各階段目標、為什麼這順序&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/sampling-and-decoding/" data-link-title="3.5 Sampling 與 Decoding 策略" data-link-desc="Greedy、beam search、top-k、top-p、temperature、min-p：模型輸出後怎麼挑下一個 token">3.5&lt;/a>&lt;/td>
 &lt;td>Sampling 與 decoding 策略&lt;/td>
 &lt;td>Greedy、beam、top-k、top-p、temperature、min-p&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/tokenization-algorithms/" data-link-title="3.6 Tokenization：BPE、SentencePiece、Tiktoken" data-link-desc="把文字切成 token 的算法：為什麼不同模型切出不同 token 數、tokenizer 選擇對能力的影響">3.6&lt;/a>&lt;/td>
 &lt;td>Tokenization：BPE、SentencePiece&lt;/td>
 &lt;td>為什麼不同 model 切出來的 token 數不同、tokenizer 的選擇影響&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/cross-language-tokenization/" data-link-title="3.7 跨語言場景的 tokenizer 與訓練分佈原理" data-link-desc="為什麼模型對不同語言表現不一致：tokenizer &amp;#43; 訓練資料分佈雙因素、語言選擇取捨">3.7&lt;/a>&lt;/td>
 &lt;td>跨語言 tokenizer 與訓練分佈原理&lt;/td>
 &lt;td>雙因素：tokenizer + 訓練資料分佈、語言選擇取捨&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/reasoning-models/" data-link-title="3.8 Reasoning models：test-time compute paradigm" data-link-desc="Chain-of-thought 從 prompting 技巧演化成訓練 paradigm、reasoning model 的內部運作、本地可跑的選項與適用任務">3.8&lt;/a>&lt;/td>
 &lt;td>Reasoning models 與 test-time compute&lt;/td>
 &lt;td>CoT 從 prompting 變訓練 paradigm、本地 reasoning model 選型&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/speculative-decoding-internals/" data-link-title="3.9 Speculative decoding 內部：drafter / 驗證 / 加速上限" data-link-desc="speculative decoding 的演算法細節、drafter 跟 target 怎麼配對、acceptance rate 怎麼決定實際加速、MTP 跟 EAGLE 等變體">3.9&lt;/a>&lt;/td>
 &lt;td>Speculative decoding 內部&lt;/td>
 &lt;td>Drafter / target 配對、acceptance rate、MTP / EAGLE 變體&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/constrained-decoding-internals/" data-link-title="3.10 Constrained decoding 內部：grammar mask 跟性能取捨" data-link-desc="Constrained decoding 的內部運作：token mask 計算、JSON schema / regex / CFG 三種 grammar、XGrammar pre-compile 機制、性能反而加速">3.10&lt;/a>&lt;/td>
 &lt;td>Constrained decoding 內部&lt;/td>
 &lt;td>Grammar mask、JSON / regex / CFG、XGrammar pre-compile、反而加速&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>&lt;a href="https://tarrragon.github.io/blog/llm/03-theoretical-foundations/going-deeper-theory/" data-link-title="3.11 想學更深：推薦公開課程" data-link-desc="Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face：LLM 理論深入學習的完整路線">3.11&lt;/a>&lt;/td>
 &lt;td>想學更深：推薦公開課程&lt;/td>
 &lt;td>Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;h2 id="跟其他模組的分工">跟其他模組的分工&lt;/h2>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>模組&lt;/th>
 &lt;th>角度&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>模組零&lt;/td>
 &lt;td>操作層：怎麼跑、怎麼選工具&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>模組一&lt;/td>
 &lt;td>工具層：怎麼裝 Ollama / Continue.dev / 怎麼挑模型&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>模組二&lt;/td>
 &lt;td>數學工具：線性代數、機率、最佳化、數值精度&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>模組三&lt;/td>
 &lt;td>理論機制：模組二的數學怎麼組合成完整 LLM&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>模組二跟模組三設計成可以並讀。模組三會引用模組二的概念（softmax、cross-entropy、矩陣乘法等）；遇到陌生數學詞時跳回模組二補完、再回模組三繼續。&lt;/p></description><content:encoded><![CDATA[<p>本模組整理 LLM 內部運作的理論機制。模組零（<a href="/blog/llm/00-foundations/" data-link-title="模組零：基礎知識與心智模型" data-link-desc="建立本地 LLM 的心智模型、釐清 MLX / MTP / oMLX 等常被混淆的術語、Apple Silicon 記憶體現實">基礎知識與心智模型</a>）回答「裝跟用」的問題、模組二（<a href="/blog/llm/02-math-foundations/" data-link-title="模組二：LLM 的數學基礎" data-link-desc="整理 LLM 推論背後需要理解的線性代數、機率與資訊論、最佳化、數值精度等數學概念">數學基礎</a>）提供數學工具；本模組把數學工具組合起來、解釋「LLM 內部到底發生什麼事」。</p>
<p>讀完本模組後、看到 attention head、positional encoding、residual stream、layer norm 等 LLM paper 中的術語、能知道每個概念在整體運作中扮演什麼角色。看到「為什麼模型會 hallucinate」「為什麼 instruction tuning 改變模型行為」「為什麼 RLHF 的 reward model 是關鍵」等討論、能回到具體機制追問。</p>
<p>本模組的目標是建立完整理論圖像、不是讓讀者能自己訓練 LLM。完整訓練流程、實作細節、最新研究進展交給<a href="/blog/llm/03-theoretical-foundations/going-deeper-theory/" data-link-title="3.11 想學更深：推薦公開課程" data-link-desc="Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face：LLM 理論深入學習的完整路線">模組末尾的公開課程</a>；本模組的責任是把術語跟機制連起來。</p>
<h2 id="章節列表">章節列表</h2>
<table>
  <thead>
      <tr>
          <th>章節</th>
          <th>主題</th>
          <th>關鍵收穫</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/neural-network-basics/" data-link-title="3.0 神經網路基礎" data-link-desc="從單一 neuron 到 multi-layer：weights、activation function、forward / backward pass 的角色">3.0</a></td>
          <td>神經網路基礎</td>
          <td>layer、weights、activation function、forward / backward pass</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/embedding-spaces/" data-link-title="3.1 Embedding 空間" data-link-desc="token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的">3.1</a></td>
          <td>Embedding 空間</td>
          <td>為什麼相似 token 在向量空間靠近、embedding 是怎麼學出來的</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/attention-mechanism/" data-link-title="3.2 Attention 機制" data-link-desc="Query / Key / Value、scaled dot-product attention、multi-head attention：Transformer 的核心運算">3.2</a></td>
          <td>Attention 機制</td>
          <td>Query / Key / Value、scaled dot-product、multi-head attention</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3</a></td>
          <td>Transformer 架構細節</td>
          <td>Decoder-only、positional encoding、layer norm、residual stream</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/training-pipeline/" data-link-title="3.4 訓練流程：pre-train → SFT → RLHF" data-link-desc="LLM 的三階段訓練：預訓練、指令微調、人類反饋強化學習；各階段目標與最新替代方案">3.4</a></td>
          <td>訓練流程：pre-train → SFT → RLHF</td>
          <td>三階段訓練、各階段目標、為什麼這順序</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/sampling-and-decoding/" data-link-title="3.5 Sampling 與 Decoding 策略" data-link-desc="Greedy、beam search、top-k、top-p、temperature、min-p：模型輸出後怎麼挑下一個 token">3.5</a></td>
          <td>Sampling 與 decoding 策略</td>
          <td>Greedy、beam、top-k、top-p、temperature、min-p</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/tokenization-algorithms/" data-link-title="3.6 Tokenization：BPE、SentencePiece、Tiktoken" data-link-desc="把文字切成 token 的算法：為什麼不同模型切出不同 token 數、tokenizer 選擇對能力的影響">3.6</a></td>
          <td>Tokenization：BPE、SentencePiece</td>
          <td>為什麼不同 model 切出來的 token 數不同、tokenizer 的選擇影響</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/cross-language-tokenization/" data-link-title="3.7 跨語言場景的 tokenizer 與訓練分佈原理" data-link-desc="為什麼模型對不同語言表現不一致：tokenizer &#43; 訓練資料分佈雙因素、語言選擇取捨">3.7</a></td>
          <td>跨語言 tokenizer 與訓練分佈原理</td>
          <td>雙因素：tokenizer + 訓練資料分佈、語言選擇取捨</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/reasoning-models/" data-link-title="3.8 Reasoning models：test-time compute paradigm" data-link-desc="Chain-of-thought 從 prompting 技巧演化成訓練 paradigm、reasoning model 的內部運作、本地可跑的選項與適用任務">3.8</a></td>
          <td>Reasoning models 與 test-time compute</td>
          <td>CoT 從 prompting 變訓練 paradigm、本地 reasoning model 選型</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/speculative-decoding-internals/" data-link-title="3.9 Speculative decoding 內部：drafter / 驗證 / 加速上限" data-link-desc="speculative decoding 的演算法細節、drafter 跟 target 怎麼配對、acceptance rate 怎麼決定實際加速、MTP 跟 EAGLE 等變體">3.9</a></td>
          <td>Speculative decoding 內部</td>
          <td>Drafter / target 配對、acceptance rate、MTP / EAGLE 變體</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/constrained-decoding-internals/" data-link-title="3.10 Constrained decoding 內部：grammar mask 跟性能取捨" data-link-desc="Constrained decoding 的內部運作：token mask 計算、JSON schema / regex / CFG 三種 grammar、XGrammar pre-compile 機制、性能反而加速">3.10</a></td>
          <td>Constrained decoding 內部</td>
          <td>Grammar mask、JSON / regex / CFG、XGrammar pre-compile、反而加速</td>
      </tr>
      <tr>
          <td><a href="/blog/llm/03-theoretical-foundations/going-deeper-theory/" data-link-title="3.11 想學更深：推薦公開課程" data-link-desc="Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face：LLM 理論深入學習的完整路線">3.11</a></td>
          <td>想學更深：推薦公開課程</td>
          <td>Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI</td>
      </tr>
  </tbody>
</table>
<h2 id="跟其他模組的分工">跟其他模組的分工</h2>
<table>
  <thead>
      <tr>
          <th>模組</th>
          <th>角度</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>模組零</td>
          <td>操作層：怎麼跑、怎麼選工具</td>
      </tr>
      <tr>
          <td>模組一</td>
          <td>工具層：怎麼裝 Ollama / Continue.dev / 怎麼挑模型</td>
      </tr>
      <tr>
          <td>模組二</td>
          <td>數學工具：線性代數、機率、最佳化、數值精度</td>
      </tr>
      <tr>
          <td>模組三</td>
          <td>理論機制：模組二的數學怎麼組合成完整 LLM</td>
      </tr>
  </tbody>
</table>
<p>模組二跟模組三設計成可以並讀。模組三會引用模組二的概念（softmax、cross-entropy、矩陣乘法等）；遇到陌生數學詞時跳回模組二補完、再回模組三繼續。</p>
<h2 id="適合的讀者">適合的讀者</h2>
<table>
  <thead>
      <tr>
          <th>你的背景</th>
          <th>適合程度</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>工程師、會用過 LLM、想懂內部</td>
          <td>直接適合、可從 3.0 依序讀</td>
      </tr>
      <tr>
          <td>有 ML 背景但沒碰過 Transformer</td>
          <td>可從 3.2 attention 開始</td>
      </tr>
      <tr>
          <td>想做 LLM 應用開發（RAG、agent 等）</td>
          <td>重點讀 3.1、3.2、3.5、3.6</td>
      </tr>
      <tr>
          <td>想做 fine-tuning</td>
          <td>重點讀 3.4、再進 <a href="/blog/llm/03-theoretical-foundations/going-deeper-theory/" data-link-title="3.11 想學更深：推薦公開課程" data-link-desc="Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI、Hugging Face：LLM 理論深入學習的完整路線">3.7 公開課</a></td>
      </tr>
      <tr>
          <td>完全沒碰過機器學習</td>
          <td>建議先讀 <a href="/blog/llm/02-math-foundations/" data-link-title="模組二：LLM 的數學基礎" data-link-desc="整理 LLM 推論背後需要理解的線性代數、機率與資訊論、最佳化、數值精度等數學概念">模組二 數學基礎</a> 後再進本模組</td>
      </tr>
  </tbody>
</table>
<h2 id="為什麼這順序">為什麼這順序</h2>
<p>本模組章節順序的設計：</p>
<ol>
<li><strong>3.0 神經網路基礎</strong>：建立 layer、weight、activation 等基本詞彙、是後續章節的底層概念。</li>
<li><strong>3.1 embedding 空間</strong>：解釋 token 怎麼變成向量、是 LLM 輸入端的核心。</li>
<li><strong>3.2 attention 機制</strong>：Transformer 的招牌技術、解釋「LLM 怎麼決定該注意哪些 token」。</li>
<li><strong>3.3 Transformer 架構</strong>：把 embedding + attention 組裝成完整 forward pass。</li>
<li><strong>3.4 訓練流程</strong>：解釋這些權重怎麼學出來、三階段訓練的角色。</li>
<li><strong>3.5 sampling</strong>：模型輸出後怎麼挑下一個 token、temperature / top-p 等參數的意義。</li>
<li><strong>3.6 tokenization</strong>：補完 input / output 端的細節。</li>
<li><strong>3.7 跨語言原理</strong>：tokenizer + 訓練分佈雙因素、語言選擇取捨。</li>
<li><strong>3.8 reasoning models</strong>：CoT 從 prompting 變訓練 paradigm、test-time compute 是新軸。</li>
<li><strong>3.9 speculative decoding 內部</strong>：另一條推論加速軸、drafter / MTP / EAGLE 細節。</li>
<li><strong>3.10 constrained decoding 內部</strong>：sampling 階段的 grammar mask、structured output 跟 function calling 的內部機制。</li>
<li><strong>3.11 公開課</strong>：完整學習路線。</li>
</ol>
<p>每章可以單獨讀、但若你是第一次接觸 LLM 內部運作、照順序讀最不容易迷路。</p>
<h2 id="用語約定">用語約定</h2>
<table>
  <thead>
      <tr>
          <th>英文</th>
          <th>中文</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>Layer</td>
          <td>層（layer）</td>
      </tr>
      <tr>
          <td>Weight</td>
          <td>權重</td>
      </tr>
      <tr>
          <td>Activation</td>
          <td>激活值（activation）</td>
      </tr>
      <tr>
          <td>Embedding</td>
          <td>嵌入向量（embedding）</td>
      </tr>
      <tr>
          <td>Attention</td>
          <td>注意力（attention）</td>
      </tr>
      <tr>
          <td>Self-attention</td>
          <td>自注意力</td>
      </tr>
      <tr>
          <td>Query / Key / Value</td>
          <td>Q / K / V（保留原文）</td>
      </tr>
      <tr>
          <td>Positional encoding</td>
          <td>位置編碼</td>
      </tr>
      <tr>
          <td>Layer normalization</td>
          <td>層正規化（layer norm）</td>
      </tr>
      <tr>
          <td>Residual connection</td>
          <td>殘差連接</td>
      </tr>
      <tr>
          <td>Forward pass</td>
          <td>前向傳播</td>
      </tr>
      <tr>
          <td>Backward pass / Backprop</td>
          <td>反向傳播</td>
      </tr>
      <tr>
          <td>Pre-training</td>
          <td>預訓練</td>
      </tr>
      <tr>
          <td>Fine-tuning</td>
          <td>微調</td>
      </tr>
      <tr>
          <td>RLHF</td>
          <td>RLHF（保留原文）</td>
      </tr>
  </tbody>
</table>
<p>英文原文在第一次出現時保留括號錨點、後續用中文。</p>
<h2 id="不在本模組內的主題">不在本模組內的主題</h2>
<ol>
<li><strong>完整實作 code</strong>：本模組給概念與機制、不展開完整 PyTorch / MLX 實作。Karpathy 的 zero-to-hero 系列是更直接的實作學習路徑。</li>
<li><strong>最新研究進展</strong>：本模組整理截至 2026 年 5 月相對穩定的概念。最新進展（如 mixture of experts 新變體、長 context 技術新方法、agentic LLM 等）交給 Stanford CS25。</li>
<li><strong>多模態的理論細節</strong>：vision encoder 內部架構、speech / audio LLM、video LLM 等理論深度交給專門課程；應用層的 vision 在 coding 工作流的設計見 <a href="/blog/llm/04-applications/vision-in-coding-workflow/" data-link-title="4.15 Vision in coding workflow：本地 VLM 怎麼接寫 code" data-link-desc="VLM 在 coding 工作流的 use cases、本地 VLM 選型、跟雲端 VLM 的分工、Continue.dev / Ollama 整合現狀">4.15 Vision in coding workflow</a>。</li>
<li><strong>訓練的工程細節</strong>：data parallelism、tensor parallelism、pipeline parallelism、ZeRO、FlashAttention 等訓練工程主題交給專門課程與 paper。</li>
</ol>
]]></content:encoded></item></channel></rss>