<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Neural-Network on Tarragon</title><link>https://tarrragon.github.io/blog/tags/neural-network/</link><description>Recent content in Neural-Network on Tarragon</description><generator>Hugo -- gohugo.io</generator><language>zh-TW</language><copyright>Tarragon (CC BY 4.0)</copyright><lastBuildDate>Mon, 11 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://tarrragon.github.io/blog/tags/neural-network/index.xml" rel="self" type="application/rss+xml"/><item><title>3.0 神經網路基礎</title><link>https://tarrragon.github.io/blog/llm/03-theoretical-foundations/neural-network-basics/</link><pubDate>Mon, 11 May 2026 00:00:00 +0000</pubDate><guid>https://tarrragon.github.io/blog/llm/03-theoretical-foundations/neural-network-basics/</guid><description>&lt;p>神經網路（Neural Network、NN）是 LLM 的底層架構。完整描述需要從「單一 neuron 怎麼算」開始、堆疊成 layer、串成 multi-layer network、再加上訓練機制（forward pass 跑預測、backward pass 算 gradient）。本章把這條鏈走過一遍、為後續章節的 embedding、attention、Transformer 架構建立詞彙基底。&lt;/p>
&lt;p>本章預設讀者熟悉&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">線性代數&lt;/a>（矩陣乘法、向量內積）跟&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">微積分&lt;/a>（gradient、chain rule）。沒讀過模組二的讀者、可以先讀本章看哪些術語陌生再回頭補。&lt;/p>
&lt;h2 id="本章目標">本章目標&lt;/h2>
&lt;p>讀完本章後、你應該能：&lt;/p>
&lt;ol>
&lt;li>解釋「一個 layer 在做什麼」用線性代數的話。&lt;/li>
&lt;li>區分 activation function 的常見選擇（ReLU、GELU、SiLU）的差異。&lt;/li>
&lt;li>解釋為什麼神經網路需要非線性 activation。&lt;/li>
&lt;li>看到「N-layer Transformer」時、能對應到模型結構。&lt;/li>
&lt;/ol>
&lt;h2 id="單一-neuronlinear--activation">單一 neuron：linear + activation&lt;/h2>
&lt;p>單一 neuron（神經元）的核心定義是「對輸入做線性組合、再經過非線性函式」：&lt;/p>





&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-text" data-lang="text">&lt;span class="line">&lt;span class="ln">1&lt;/span>&lt;span class="cl">output = activation(w · x + b)&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>其中：&lt;/p>
&lt;ul>
&lt;li>&lt;code>x&lt;/code>：輸入向量&lt;/li>
&lt;li>&lt;code>w&lt;/code>：權重向量&lt;/li>
&lt;li>&lt;code>b&lt;/code>：bias（純量）&lt;/li>
&lt;li>&lt;code>w · x&lt;/code>：&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">內積&lt;/a>&lt;/li>
&lt;li>&lt;code>activation&lt;/code>：非線性函式（如 ReLU、sigmoid、tanh）&lt;/li>
&lt;/ul>
&lt;p>直覺：先把輸入做加權求和、再用非線性函式扭曲一下。沒有非線性、堆 N 個 neuron 等同於一個線性變換、表達能力有限。&lt;/p>
&lt;h2 id="layer把-n-個-neuron-並排">Layer：把 N 個 neuron 並排&lt;/h2>
&lt;p>Layer（層）的核心定義是「把多個 neuron 並排處理同一個輸入」、結構上等同於矩陣乘法 + 向量加 bias + 逐元素 activation：&lt;/p>





&lt;div class="highlight">&lt;pre tabindex="0" class="chroma">&lt;code class="language-text" data-lang="text">&lt;span class="line">&lt;span class="ln">1&lt;/span>&lt;span class="cl">output = activation(W @ x + b)&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>其中：&lt;/p>
&lt;ul>
&lt;li>&lt;code>W&lt;/code>：權重矩陣、shape &lt;code>(output_dim, input_dim)&lt;/code>&lt;/li>
&lt;li>&lt;code>x&lt;/code>：輸入向量、shape &lt;code>(input_dim,)&lt;/code>&lt;/li>
&lt;li>&lt;code>b&lt;/code>：bias 向量、shape &lt;code>(output_dim,)&lt;/code>&lt;/li>
&lt;li>&lt;code>W @ x&lt;/code>：&lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">矩陣乘法&lt;/a>&lt;/li>
&lt;li>結果 &lt;code>output&lt;/code>：shape &lt;code>(output_dim,)&lt;/code>&lt;/li>
&lt;/ul>
&lt;p>例：input dim = 4096、output dim = 4096 的 layer、權重矩陣有 16,777,216 個參數。&lt;/p>
&lt;p>這種「&lt;code>activation(W @ x + b)&lt;/code>」結構叫 &lt;strong>linear layer&lt;/strong>、&lt;strong>fully-connected layer&lt;/strong>、或 &lt;strong>dense layer&lt;/strong>、是神經網路最基本的 building block。&lt;/p>
&lt;h2 id="activation-function引入非線性">Activation Function：引入非線性&lt;/h2>
&lt;p>Activation function（激活函式）的核心責任是「在每個 layer 後引入非線性、讓網路能表達複雜函式」。沒有它、N 個線性 layer 等同於一個線性 layer。&lt;/p>
&lt;p>主流 activation function：&lt;/p>
&lt;table>
 &lt;thead>
 &lt;tr>
 &lt;th>函式&lt;/th>
 &lt;th>公式&lt;/th>
 &lt;th>特性&lt;/th>
 &lt;/tr>
 &lt;/thead>
 &lt;tbody>
 &lt;tr>
 &lt;td>ReLU&lt;/td>
 &lt;td>max(0, x)&lt;/td>
 &lt;td>簡單、快、深度網路標準選擇&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>GELU&lt;/td>
 &lt;td>x × Φ(x)、Φ 是高斯 CDF&lt;/td>
 &lt;td>ReLU 的平滑版、Transformer 內 FFN 常用&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>SiLU / Swish&lt;/td>
 &lt;td>x × sigmoid(x)&lt;/td>
 &lt;td>跟 GELU 類似、Llama 系列用&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>sigmoid&lt;/td>
 &lt;td>1 / (1 + e^{-x})&lt;/td>
 &lt;td>早期常用、現在多半被 ReLU 系取代&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>tanh&lt;/td>
 &lt;td>(e^x - e^{-x}) / (e^x + e^{-x})&lt;/td>
 &lt;td>早期 RNN 常用、輸出在 -1 到 1 之間&lt;/td>
 &lt;/tr>
 &lt;tr>
 &lt;td>softmax&lt;/td>
 &lt;td>exp(xᵢ) / Σⱼ exp(xⱼ)&lt;/td>
 &lt;td>不是逐元素 activation、用在輸出層轉機率分佈&lt;/td>
 &lt;/tr>
 &lt;/tbody>
&lt;/table>
&lt;p>Transformer 內部主要用 GELU 或 SiLU。Sigmoid 跟 tanh 在深度 30+ 的網路中容易造成 &lt;a href="https://tarrragon.github.io/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">gradient vanishing&lt;/a>、Transformer 系列因此採用 GELU / SiLU；淺層網路（&amp;lt; 10 層）兩者影響較小、Sigmoid / tanh 仍可用。&lt;/p></description><content:encoded><![CDATA[<p>神經網路（Neural Network、NN）是 LLM 的底層架構。完整描述需要從「單一 neuron 怎麼算」開始、堆疊成 layer、串成 multi-layer network、再加上訓練機制（forward pass 跑預測、backward pass 算 gradient）。本章把這條鏈走過一遍、為後續章節的 embedding、attention、Transformer 架構建立詞彙基底。</p>
<p>本章預設讀者熟悉<a href="/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">線性代數</a>（矩陣乘法、向量內積）跟<a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">微積分</a>（gradient、chain rule）。沒讀過模組二的讀者、可以先讀本章看哪些術語陌生再回頭補。</p>
<h2 id="本章目標">本章目標</h2>
<p>讀完本章後、你應該能：</p>
<ol>
<li>解釋「一個 layer 在做什麼」用線性代數的話。</li>
<li>區分 activation function 的常見選擇（ReLU、GELU、SiLU）的差異。</li>
<li>解釋為什麼神經網路需要非線性 activation。</li>
<li>看到「N-layer Transformer」時、能對應到模型結構。</li>
</ol>
<h2 id="單一-neuronlinear--activation">單一 neuron：linear + activation</h2>
<p>單一 neuron（神經元）的核心定義是「對輸入做線性組合、再經過非線性函式」：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">output = activation(w · x + b)</span></span></code></pre></div><p>其中：</p>
<ul>
<li><code>x</code>：輸入向量</li>
<li><code>w</code>：權重向量</li>
<li><code>b</code>：bias（純量）</li>
<li><code>w · x</code>：<a href="/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">內積</a></li>
<li><code>activation</code>：非線性函式（如 ReLU、sigmoid、tanh）</li>
</ul>
<p>直覺：先把輸入做加權求和、再用非線性函式扭曲一下。沒有非線性、堆 N 個 neuron 等同於一個線性變換、表達能力有限。</p>
<h2 id="layer把-n-個-neuron-並排">Layer：把 N 個 neuron 並排</h2>
<p>Layer（層）的核心定義是「把多個 neuron 並排處理同一個輸入」、結構上等同於矩陣乘法 + 向量加 bias + 逐元素 activation：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">output = activation(W @ x + b)</span></span></code></pre></div><p>其中：</p>
<ul>
<li><code>W</code>：權重矩陣、shape <code>(output_dim, input_dim)</code></li>
<li><code>x</code>：輸入向量、shape <code>(input_dim,)</code></li>
<li><code>b</code>：bias 向量、shape <code>(output_dim,)</code></li>
<li><code>W @ x</code>：<a href="/blog/llm/02-math-foundations/linear-algebra-for-llm/" data-link-title="2.0 線性代數：向量、矩陣、空間" data-link-desc="LLM 內部運算的基底：向量、矩陣、向量空間、內積、norm、矩陣乘法的角色">矩陣乘法</a></li>
<li>結果 <code>output</code>：shape <code>(output_dim,)</code></li>
</ul>
<p>例：input dim = 4096、output dim = 4096 的 layer、權重矩陣有 16,777,216 個參數。</p>
<p>這種「<code>activation(W @ x + b)</code>」結構叫 <strong>linear layer</strong>、<strong>fully-connected layer</strong>、或 <strong>dense layer</strong>、是神經網路最基本的 building block。</p>
<h2 id="activation-function引入非線性">Activation Function：引入非線性</h2>
<p>Activation function（激活函式）的核心責任是「在每個 layer 後引入非線性、讓網路能表達複雜函式」。沒有它、N 個線性 layer 等同於一個線性 layer。</p>
<p>主流 activation function：</p>
<table>
  <thead>
      <tr>
          <th>函式</th>
          <th>公式</th>
          <th>特性</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>ReLU</td>
          <td>max(0, x)</td>
          <td>簡單、快、深度網路標準選擇</td>
      </tr>
      <tr>
          <td>GELU</td>
          <td>x × Φ(x)、Φ 是高斯 CDF</td>
          <td>ReLU 的平滑版、Transformer 內 FFN 常用</td>
      </tr>
      <tr>
          <td>SiLU / Swish</td>
          <td>x × sigmoid(x)</td>
          <td>跟 GELU 類似、Llama 系列用</td>
      </tr>
      <tr>
          <td>sigmoid</td>
          <td>1 / (1 + e^{-x})</td>
          <td>早期常用、現在多半被 ReLU 系取代</td>
      </tr>
      <tr>
          <td>tanh</td>
          <td>(e^x - e^{-x}) / (e^x + e^{-x})</td>
          <td>早期 RNN 常用、輸出在 -1 到 1 之間</td>
      </tr>
      <tr>
          <td>softmax</td>
          <td>exp(xᵢ) / Σⱼ exp(xⱼ)</td>
          <td>不是逐元素 activation、用在輸出層轉機率分佈</td>
      </tr>
  </tbody>
</table>
<p>Transformer 內部主要用 GELU 或 SiLU。Sigmoid 跟 tanh 在深度 30+ 的網路中容易造成 <a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">gradient vanishing</a>、Transformer 系列因此採用 GELU / SiLU；淺層網路（&lt; 10 層）兩者影響較小、Sigmoid / tanh 仍可用。</p>
<p><a href="/blog/llm/02-math-foundations/probability-and-information/" data-link-title="2.1 機率與資訊論" data-link-desc="LLM 輸出的本質是機率分佈：softmax、cross-entropy、KL divergence、perplexity 在訓練與推論中的角色">Softmax</a> 是特殊 activation、用在輸出層把 logits 轉成機率分佈、不在中間 layer 用。</p>
<h2 id="multi-layer-network串接-n-個-layer">Multi-Layer Network：串接 N 個 layer</h2>
<p>Multi-layer network（多層網路）的核心結構是「N 個 layer 串接、前一層的 output 是下一層的 input」：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">h₁ = activation₁(W₁ @ x + b₁)
</span></span><span class="line"><span class="ln">2</span><span class="cl">h₂ = activation₂(W₂ @ h₁ + b₂)
</span></span><span class="line"><span class="ln">3</span><span class="cl">...
</span></span><span class="line"><span class="ln">4</span><span class="cl">output = activation_N(W_N @ h_{N-1} + b_N)</span></span></code></pre></div><p>「深度」（depth）指 layer 數量。Transformer LLM 的 layer 數通常 30 ~ 80：</p>
<table>
  <thead>
      <tr>
          <th>模型</th>
          <th>Layer 數</th>
          <th>Hidden Dim</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>GPT-2 small</td>
          <td>12</td>
          <td>768</td>
      </tr>
      <tr>
          <td>Llama 3.3 8B</td>
          <td>32</td>
          <td>4096</td>
      </tr>
      <tr>
          <td>Llama 3.3 70B</td>
          <td>80</td>
          <td>8192</td>
      </tr>
      <tr>
          <td>Gemma 4 31B</td>
          <td>約 50</td>
          <td>約 5120</td>
      </tr>
  </tbody>
</table>
<p>每層都是線性變換 + activation；堆疊起來表達能力強。但深度高也意味著訓練難度高（<a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">gradient vanishing / explosion</a>）、需要 residual connection 跟 layer norm 等技術配合。</p>
<h2 id="forward-pass從-input-算到-output">Forward Pass：從 input 算到 output</h2>
<p>Forward pass（前向傳播）的核心定義是「資料從 input 流經各層、產生 output 的計算過程」。每個 layer 順序做矩陣乘法 + activation。</p>
<p>LLM 的 forward pass 概略流程：</p>





<div class="highlight"><pre tabindex="0" class="chroma"><code class="language-text" data-lang="text"><span class="line"><span class="ln">1</span><span class="cl">input tokens → embedding layer → 數十個 Transformer block → output layer → logits</span></span></code></pre></div><p>每個 Transformer block 內部又包含 attention + feed-forward + 兩個 layer norm。詳細展開見 <a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 Transformer 架構</a>。</p>
<p>寫 code 場景的推論完全是 forward pass、不涉及 backward pass。每生一個 token 跑一次 forward pass、由 <a href="/blog/llm/knowledge-cards/memory-bandwidth/" data-link-title="Memory Bandwidth" data-link-desc="記憶體每秒能讀寫多少 bytes：決定本地 LLM 生字速度的真正瓶頸">memory bandwidth</a> 決定速度上限。</p>
<h2 id="backward-pass從-loss-算-gradient">Backward Pass：從 loss 算 gradient</h2>
<p>Backward pass（反向傳播）的核心定義是「用 <a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">chain rule</a>、從 loss 倒推每個權重的 gradient」。它是訓練神經網路的基礎。</p>
<p>流程：</p>
<ol>
<li><strong>Forward</strong>：input → output → loss。</li>
<li><strong>Backward</strong>：從 loss 開始、逐層算 local gradient、用 chain rule 累積。</li>
<li><strong>Update</strong>：用 gradient 更新權重（<a href="/blog/llm/02-math-foundations/calculus-and-optimization/" data-link-title="2.2 微積分與最佳化" data-link-desc="從 gradient、chain rule 到 SGD / Adam：LLM 訓練如何更新數十億參數">gradient descent</a>）。</li>
</ol>
<p>實作上、PyTorch / MLX 等 framework 用 autograd 自動算 backward、開發者只寫 forward。</p>
<p>推論時無 backward pass、所以推論的記憶體跟算力需求遠低於訓練。</p>
<h2 id="bias可選的常數項">Bias：可選的常數項</h2>
<p>Bias 的核心定義是「neuron 的 <code>w · x + b</code> 中的 <code>+ b</code>」、讓 neuron 的輸出可以平移。</p>
<p>在 hidden_dim ≥ 4096 規模下、bias 對品質的邊際貢獻被觀察為近零、近年大型 LLM 普遍取消 bias 參數：</p>
<ul>
<li>Llama 系列、Gemma 系列、Qwen 系列都把 bias 設為 0、不訓練 bias 參數。</li>
<li>理由：實驗發現此規模下拿掉 bias 對品質影響微小、但能省記憶體與計算。</li>
</ul>
<p>某些早期 LLM（GPT-2 等）跟舊架構仍用 bias、小規模網路 / 特殊任務下 bias 仍有實際貢獻。看模型 config 可知這個模型是否含 bias 參數。</p>
<h2 id="hidden-layer-與-hidden-dimension">Hidden Layer 與 Hidden Dimension</h2>
<p>Hidden layer 的核心定義是「介於 input layer 跟 output layer 之間的中間 layer」。Hidden dimension（hidden_dim、d_model）是這些 layer 的輸出向量維度、規格見前一節 <a href="#multi-layer-network%e4%b8%b2%e6%8e%a5-n-%e5%80%8b-layer">Multi-Layer Network</a> 的表格。</p>
<p>Hidden dim 是模型「表達能力」的主要維度之一。每個 token 在模型內部都是一個 hidden_dim 維向量、layer 越大越能編碼複雜資訊。</p>
<h2 id="為什麼需要這麼多-parameter">為什麼需要這麼多 parameter</h2>
<p>LLM 參數量主要來自 layer 數 × 每層權重矩陣大小、其中 FFN 層約佔 2/3。每個 layer 的權重矩陣大小是 <code>hidden_dim × hidden_dim</code>（feed-forward layer 通常 <code>hidden_dim × 4 × hidden_dim</code>、4 倍的由來見 <a href="/blog/llm/03-theoretical-foundations/transformer-architecture/" data-link-title="3.3 Transformer 架構細節" data-link-desc="Decoder-only 結構、Transformer block、positional encoding、layer norm、residual stream">3.3 Transformer 架構</a>）、加上 attention 的 Q/K/V projection 等、單一 layer 已有上億參數。</p>
<p>Gemma 4 31B 約 50 layer、每層約 600M 參數、合計約 31B。70B / 405B 模型也是類似結構放大。</p>
<p>參數數量越多、模型「能學到的 pattern」越多。預訓練資料 trillion token 級別、需要大模型才能完整「記住」這些 pattern。實務上邊際收益隨參數量遞減（同代架構下參數翻倍、benchmark 提升通常 &lt; 5%）、且推論成本線性增加；這就是為什麼 31B / 70B 級別停滯一段時間後、業界把焦點轉向 <a href="/blog/llm/knowledge-cards/moe-cpu-offload/" data-link-title="MoE CPU 卸載" data-link-desc="把 Mixture-of-Experts 模型不活躍的專家層權重放在系統 RAM、用到再走 PCIe 拉回 GPU、讓有限 VRAM 跑得了更大模型">MoE</a> 等「不增加每 token 算量」的擴張路徑。</p>
<h2 id="何時這套基礎不適用">何時這套基礎不適用</h2>
<p>本章的「neuron → linear layer → forward / backward pass」假設「純 dense Transformer」架構、實務上有幾類架構走不同的計算路徑、判讀新架構時要對應調整：</p>
<table>
  <thead>
      <tr>
          <th>架構</th>
          <th>跟本章基礎的差異</th>
      </tr>
  </thead>
  <tbody>
      <tr>
          <td>MoE（Mixture of Experts）</td>
          <td>每個 token 只啟用部分專家層、forward pass 中 router 動態決定哪些 dense layer 跑</td>
      </tr>
      <tr>
          <td>SSM（如 Mamba）</td>
          <td>用 state-space 遞迴取代 attention、forward 結構跟「層層 dense」不同</td>
      </tr>
      <tr>
          <td>Diffusion 模型</td>
          <td>U-Net 結構含 down-sampling + up-sampling、跟純 stack 的 Transformer 拓撲不同</td>
      </tr>
      <tr>
          <td>Recurrent LLM 變體（如 RWKV）</td>
          <td>走 recurrent state、不純做 forward stack</td>
      </tr>
  </tbody>
</table>
<p>判讀新架構時、先把它跟本章的 dense Transformer baseline 對照、找出在哪一步岔開（哪個 layer 結構、forward 順序、parameter sharing）、再深入差異點。</p>
<h2 id="下一章">下一章</h2>
<p>下一章：<a href="/blog/llm/03-theoretical-foundations/embedding-spaces/" data-link-title="3.1 Embedding 空間" data-link-desc="token 怎麼變成向量、為什麼相似 token 在向量空間中靠近、embedding 是怎麼學出來的">3.1 embedding 空間</a>、從「token 怎麼變成向量」開始。</p>
]]></content:encoded></item></channel></rss>