Transformer on Tarragon

Positional Encoding

Thu, 14 May 2026 00:00:00 +0000

Positional encoding（位置編碼）的核心概念是「把序列中的位置資訊提供給 Transformer」。純 attention 對 token 集合本身近似不帶順序感，位置編碼讓模型能分辨 cat bites dog 與 dog bites cat。

概念位置

位置資訊通常在 embedding 進入 Transformer block 前或 attention 計算中注入。常見路線包含 sinusoidal positional encoding、learned positional embedding、RoPE 與 ALiBi；現代 decoder-only LLM 多使用 RoPE 或其長 context scaling 變體。

可觀察訊號與例子

讀 model architecture 看到 max_position_embeddings、RoPE base、RoPE scaling、ALiBi、YaRN、NTK-aware scaling，就是位置編碼相關設定。長 context 擴展常卡在位置編碼外推能力，而不是只把 context window 數字調大。

設計責任

評估長 context 模型時，要分清楚「宣稱 context 長度」與「位置編碼在該長度仍可靠」。超過訓練長度太多時，即使能載入，模型對遠距關係也可能退化。完整章節見 Transformer architecture。

Residual Stream

Thu, 14 May 2026 00:00:00 +0000

Residual stream 的核心概念是「Transformer block 之間持續傳遞、被各層逐步修改的 hidden state 通道」。它是整個模型中資訊流動的主幹，涵蓋範圍超過單一殘差連接。

概念位置

Residual connection 是局部結構：把 layer input 加回 output。Residual stream 是整體視角：token representation 在每層 attention、FFN、normalization 作用後沿著主通道前進。

可觀察訊號與例子

讀 Transformer 架構或 mechanistic interpretability 文章看到「write to residual stream」「read from residual stream」「logit lens」時，討論的是各層如何在同一條 hidden state 通道上累積特徵。

設計責任

一般使用者不用調 residual stream，但理解它能幫助區分 layer、block、hidden state 與 residual connection。進一步閱讀可回到 Transformer 與 Residual Connection。

Attention

Tue, 12 May 2026 00:00:00 +0000

Attention 的核心概念是「Transformer 中讓每個 token 對其他 token 加權平均、產生 context-aware 表示」的計算機制。具體運作是用 Query（Q）、Key（K）、Value（V）三組向量算 attention score、再用 softmax 把 score 變成權重、最後加權平均 V。這個機制是 KV cache 概念的源頭、也是 context window 上限的計算瓶頸。

概念位置

Attention 在 Transformer block 中的位置：

1Transformer block：
2 ├── Layer Norm
3 ├── Attention（本卡聚焦）
4 │ ├── Q · K^T → attention score
5 │ ├── softmax → weight
6 │ └── weight · V → output
7 ├── Layer Norm
8 └── FFN 層（或 MoE）

簡化的計算公式：

1attention(Q, K, V) = softmax(Q · K^T / √d) · V

Attention 的常見變體（影響 KV cache 體積跟推論性能）：

變體	描述
MHA（Multi-Head Attention）	原始 Transformer 設計、每 head 獨立 Q / K / V
GQA（Grouped-Query Attention）	head group 共用 K / V、KV cache 體積減小、推論較快
MLA（Multi-head Latent Attention）	DeepSeek 提出、KV cache 壓縮更激進
Flash Attention	演算法層的優化實作、跟變體獨立

設計責任

理解 attention 後可以解釋三個現象：為什麼 LLM 推論的記憶體用量隨 context 長度線性增加（KV cache 是 attention 暫存）、為什麼 KV cache 量化對品質影響有不對稱性（K 用於 score 比較、V 用於加權平均、誤差累積方式不同）、為什麼不同 attention 變體在同等模型大小下推論速度差異明顯（KV cache 體積跟卡間頻寬需求不同）。

工程實務上、Attention 是 LLM 推論性能跟記憶體需求的最大來源、量化策略、context 上限、併發數設計都圍繞 attention 跟 KV cache 展開。

Causal Mask

Tue, 12 May 2026 00:00:00 +0000

Causal mask（因果遮罩）的核心概念是「在 self-attention 計算時、把 token i 看 token j (j > i) 的 attention 分數設成 -∞、softmax 後機率為 0」。直覺：LLM 是 autoregressive 的、生成 token N 時不能看到 N+1 以後（後面還沒生）、causal mask 強制這個約束、是 decoder-only Transformer 的標誌。

概念位置

Causal mask 在 attention 計算中的位置：

 1score = Q @ K^T / sqrt(d) ← shape (seq_len, seq_len)、每對 token 一個分數
 2score = score + causal_mask ← 加上 mask
 3attention = softmax(score) @ V
 4
 5causal_mask 長這樣（lower triangular、上三角全是 -∞）：
 6 K_0 K_1 K_2 K_3
 7Q_0 [ 0 -∞ -∞ -∞ ] ← token 0 只能看自己
 8Q_1 [ 0 0 -∞ -∞ ] ← token 1 能看 0~1
 9Q_2 [ 0 0 0 -∞ ]
10Q_3 [ 0 0 0 0 ]

關鍵特性：

訓練時並行有效：所有 token 同時跑 forward pass、causal mask 確保每個 token 只看到該看的範圍。沒 mask 就會「偷看未來」、訓出 cheating 模型。
推論時自動成立：自回歸生成本來就是一個一個生、後面不存在、mask 是隱式的。
跟 KV cache 結合：推論時 cache 只存「過去」的 K/V、causal mask 自然滿足。

跟其他 attention 變體的關係：

架構	是否用 causal mask
Decoder-only LLM（GPT / Llama / Gemma）	用、是標配
Encoder-only（BERT）	不用、可以看雙向 context
Encoder-decoder（T5）	Decoder 部分用、Encoder 部分不用

設計責任

讀 paper / model card 看到「causal」「decoder-only」「auto-regressive」這幾組詞、就是這個機制。實務上、寫 code 場景的所有主流 LLM 都用 causal mask、所以這個概念是隱式 default、不會主動暴露給使用者；但理解它能解釋為什麼 LLM 是「接龍」、為什麼 bidirectional context 在 LLM 裡不存在（要 bidirectional 要用 encoder 架構）。

Embedding Layer

Tue, 12 May 2026 00:00:00 +0000

Embedding layer（嵌入層）的核心概念是「Transformer 第一層的查表結構：把整數 token ID 對應到一個可訓練向量（embedding）」。本質上是 vocab_size × hidden_dim 的權重矩陣、每個 token ID 取對應 row 當該 token 的向量表示。後續所有 Transformer block 都對這些向量做運算。

概念位置

Embedding layer 在 forward pass 的位置：

1input："Hello world"
2 ↓ tokenizer
3token IDs: [9906, 1917] ← 整數序列
4 ↓ embedding layer（vocab × hidden 查表）
5embeddings: [[0.1, -0.3, ...], [0.5, 0.2, ...]] ← 向量序列、(seq_len, hidden_dim)
6 ↓ Transformer block × N
7 ↓ output projection
8logits

跟 embedding model 的差別：

概念	用途	是否獨立訓練 / 部署
Embedding layer（本卡）	LLM 內部第一層、把 token ID 轉向量	否、是 LLM 的一部分
Embedding model	獨立模型、把整段文字轉向量、用於 RAG / 相似度	是、獨立模型

兩者「都產出向量」、但層級跟用途完全不同：embedding layer 是 LLM 內部結構（per-token、給模型 forward pass 用）、embedding model 是外部工具（per-text、給檢索系統用）。

Embedding layer 的大小：

Gemma 4 31B：vocab=256K、hidden=5120、embedding matrix ≈ 256K × 5120 = 1.3B 參數
Llama 3 8B：vocab=128K、hidden=4096、embedding matrix ≈ 0.5B 參數

通常跟 output projection（hidden → vocab）相同大小、有些模型 tied（共用權重）、有些 untied。

設計責任

讀模型架構圖看到「token embedding」「embed_tokens」就是這一層。實務意涵：模型大小有非小比例來自 embedding（vocab 越大、embedding 越大）；換 tokenizer 等於整個 embedding 重訓、是 fine-tune 時通常不動的部分。

FFN（Feed-Forward Network）

Tue, 12 May 2026 00:00:00 +0000

FFN（Feed-Forward Network、前饋網路）的核心概念是「Transformer block 中 attention 後面的兩層 linear + activation function 結構」。FFN 是 LLM 中參數量最大的元件、典型 Transformer block 裡 FFN 約佔 2/3 參數、attention 約佔 1/3。

概念位置

標準 FFN 的計算：

1input（hidden_dim）
2 ↓ W_up（linear、hidden_dim → intermediate_dim、通常放大 4x）
3intermediate vector
4 ↓ activation function（ReLU / GELU / SwiGLU）
5 ↓ W_down（linear、intermediate_dim → hidden_dim）
6output（hidden_dim）

Intermediate dim 通常是 hidden dim 的 4 倍（例如 hidden=4096、intermediate=16384）、所以 FFN 的參數量是 hidden × intermediate × 2 ≈ 8 × hidden²、遠大於 attention 的 4 × hidden²（Q/K/V/O 四個 hidden × hidden 矩陣）。

FFN 變體：

變體	結構特性	出現在
標準 FFN	兩個 linear + 一個 activation	早期 Transformer、BERT、GPT-2
SwiGLU FFN	三個 linear（gate + up + down）+ Swish	Llama、Gemma、Qwen 主流
MoE FFN	多個「expert」FFN、每個 token 只啟用幾個	MoE 模型

設計責任

理解 FFN 是參數大頭、能解釋幾件事：MoE 為什麼是「把 FFN 換成多個專家、只啟用部分」（因為 FFN 是最值得稀疏化的部分）、MoE CPU offload 為什麼是「把 expert FFN 卸到 RAM」（FFN 大、卸下來省 VRAM）、為什麼模型大小用「參數量」算（FFN 主導）。LoRA fine-tuning 時、通常選擇對 attention 的 Q/V 投影做 LoRA、不對 FFN 動、因為 FFN 太大、LoRA 收益相對小。

Multi-Head Attention

Tue, 12 May 2026 00:00:00 +0000

Multi-Head Attention（MHA、多頭注意力）的核心概念是「把 self-attention 的 Q/K/V 投影切成多個獨立的 head、各自算 attention、最後再 concat 起來」。直覺：每個 head 可以學會關注不同類型的關係（語法 / 語意 / 位置 / 共指 etc.）、比單一 attention 表達能力強。

概念位置

MHA 的計算結構：

1輸入 hidden state（dim = 4096）
2 ↓ 投影成 Q/K/V、每個切成 h 個 head（如 h=32、每個 head 128 維）
3Head 1：Q_1、K_1、V_1 → attention_1（128 維）
4Head 2：Q_2、K_2、V_2 → attention_2
5...
6Head h：Q_h、K_h、V_h → attention_h
7 ↓ concat 所有 head 輸出（h × 128 = 4096）
8 ↓ output projection（4096 → 4096）
9最終輸出

多頭變體：MHA → GQA → MLA 是 KV cache 體積壓縮的演化方向。

變體	Q head 數	K/V head 數	KV cache 體積	出現在
MHA（Multi-Head Attention）	h	h	100%（基準）	原始 Transformer、GPT-3、Llama 1
MQA（Multi-Query Attention）	h	1（所有 head 共用）	1/h	PaLM、Falcon
GQA（Grouped-Query Attention）	h	h/g（每 g 個 Q head 共用一組 K/V）	1/g	Llama 2 / 3、Mistral、Gemma
MLA（Multi-head Latent Attention）	h	用 latent 壓縮再展開	更激進壓縮	DeepSeek-V2 / V3

設計責任

讀 model card 看到 num_attention_heads: 32、num_key_value_heads: 8 等就是 MHA / GQA 設定（Q=32、K/V=8 表示 GQA、g=4）。寫 code 場景的意涵：GQA / MLA 的 KV cache 體積小、長 context / 高併發場景更友善、是現代 LLM 大量採用的設計。

RoPE（Rotary Position Embedding）

Tue, 12 May 2026 00:00:00 +0000

RoPE（Rotary Position Embedding、旋轉位置編碼、Su et al., 2021）的核心概念是「把 token 在序列中的位置資訊用旋轉矩陣直接旋轉進 Q 跟 K 向量裡、不是用加法疊加另一個 embedding」。RoPE 是 Llama、Gemma、Qwen、Mistral 等現代 LLM 的標配、相對早期的 absolute / learned positional embedding 有更好的長 context 推廣性。

概念位置

位置編碼的演化路線：

方法	機制	主要問題
Absolute（原 Transformer）	用 sin/cos 函數產生固定 position embedding、加到 token embedding	訓練長度外推性差
Learned absolute（GPT-2）	每個位置學一個可訓練向量、加到 token embedding	超過訓練長度完全沒對應 embedding
Relative	attention 算分數時加上「相對位置」的 bias	實作複雜、跟 KV cache 兼容性差
RoPE	用旋轉矩陣把位置旋轉進 Q/K（不動 V）	主流、長 context 推廣性好（配 scaling）

RoPE 的核心數學（簡化）：

1傳統：token at position m 的 Q 是 Q_m = x_m @ W_Q
2RoPE：Q_m = R(m) × (x_m @ W_Q) ← R(m) 是依位置 m 決定的旋轉矩陣
3
4attention score = Q_m @ K_n^T
5 = R(m) × q × (R(n) × k)^T
6 = q × R(m - n) × k^T ← 只依賴相對位置 (m-n)！

關鍵性質：RoPE 算出的 attention score 只依賴相對位置、所以推廣到比訓練長度更長的 context 時有自然的數學基礎、配合 RoPE scaling（YaRN、NTK-aware、Position Interpolation）就能把 8K 訓練的模型擴展到 128K / 1M context。

設計責任

讀 model card 看到 rope_theta: 10000、rope_scaling: {type: yarn, factor: 8} 等就是 RoPE 配置。寫 code 場景的意涵：long context 模型（如 Llama 3 128K）的推廣能力主要靠 RoPE + scaling、不是直接訓練 128K 全長；但聲稱 context 跟「實用 context」仍有差距、長 context 上模型表現會逐步衰減。

Self-Attention

Tue, 12 May 2026 00:00:00 +0000

Self-attention 的核心概念是「Query / Key / Value 三組向量都從同一個 sequence 投影出來的 attention」。對比下、cross-attention 的 Q 來自一個 sequence、K/V 來自另一個 sequence（如 encoder-decoder 的 decoder 看 encoder）。LLM（decoder-only）每層都是 self-attention、self-attention 是 Transformer 「讓每個 token 看到序列其他 token」的機制本身。

概念位置

Self-attention 的計算步驟：

 1輸入 sequence: x_1, x_2, ..., x_n（每個是向量）
 2
 3對每個 token i：
 4 Q_i = x_i × W_Q ← Query：「我要找什麼樣的資訊」
 5 K_i = x_i × W_K ← Key：「我提供什麼樣的資訊」
 6 V_i = x_i × W_V ← Value：「我的實際內容」
 7
 8attention(Q_i, K, V) = softmax(Q_i · K^T / √d) · V
 9 └─ Q 跟所有 K 算分數、決定權重 ─┘
10 └─ 加權平均所有 V ─┘

關鍵特性：

Q / K / V 來源相同：跟 cross-attention 區分；都從同一個輸入 sequence 投影。
每個 token 都跟所有 token 算一次：複雜度 O(n²)、是 long context 痛點根源。
Causal mask 在 self-attention 內生效：LLM 的 decoder-only self-attention 加 causal mask、token i 只能看 1~i、不能看 i+1 以後（不能偷看未來）。

設計責任

理解 self-attention 後可以判讀幾件 LLM 設計事：KV cache 為什麼有效（自回歸生成時、過去 token 的 K/V 不變、存下來下次直接用）；MHA / GQA / MLA 等變體在動什麼（共享 / 壓縮 K/V 投影、不動 Q）；為什麼長 context 推論慢（self-attention 的 O(n²) 計算）。

3.3 Transformer 架構細節

Mon, 11 May 2026 00:00:00 +0000

Transformer 把 embedding 與 attention 組合成完整 forward pass 結構。LLM 用的是「decoder-only Transformer」、跟原始 paper（Vaswani et al., 2017）的 encoder-decoder 結構不同。本章把現代 LLM（Llama / Gemma / Qwen 系列）的 Transformer 架構走過一遍、解釋每個組件的角色。

理解整個架構後、看 LLM paper 中的「residual stream」「pre-norm vs post-norm」「FFN」「MoE」等術語都能對到具體位置。

本章目標

讀完本章後、你應該能：

畫出一個 Transformer block 的結構。
解釋 positional encoding 的角色與選擇。
看到 RMSNorm、SwiGLU 等術語時、知道是 layer norm / activation 的變體。
解釋為什麼現代 LLM 普遍用 decoder-only 架構。

Encoder vs Decoder：兩種 Transformer

原始 Transformer paper 提出 encoder-decoder 結構、用於機器翻譯：

Encoder：處理 input sequence、產生 contextual embedding。雙向 attention（每個 token 可看所有 token）。
Decoder：根據 encoder 輸出 + 已生成 tokens、產生下一個 token。Causal attention（只看前面）。

後續發展出三種主流變體：

類型	例子	適合任務
Encoder-only	BERT、RoBERTa	分類、實體識別、retrieval
Decoder-only	GPT、Llama、Gemma	生成、對話、寫 code
Encoder-Decoder	T5、BART	翻譯、摘要、seq-to-seq

寫 code 場景接觸到的所有主流 LLM（GPT、Claude、Gemma、Llama、Qwen）都是 decoder-only、只用 causal attention、用「文字接龍」方式做所有任務（chat、寫 code、翻譯都統一成「給前面文字、生成後面文字」）。

本章其他部分聚焦 decoder-only 結構。

整體 forward pass

Decoder-only Transformer 的 forward pass：

 1input tokens [t1, t2, ..., tn]
 2  ↓ embedding lookup
 3embeddings [e1, e2, ..., en]   (shape: seq_len × hidden_dim)
 4  ↓ + positional encoding（如 RoPE）
 5positioned embeddings
 6  ↓ Transformer block 1
 7  ↓ Transformer block 2
 8  ↓ ...
 9  ↓ Transformer block N（30 ~ 80 層）
10final hidden states
11  ↓ final layer norm
12normalized states
13  ↓ output projection
14logits [vocab_size]
15  ↓ softmax
16下個 token 的機率分佈

每個 Transformer block 內部結構（後面展開）。

Transformer Block：架構核心

一個 Transformer block 包含兩個 sub-layer、各自前後加 layer norm 跟 residual connection。現代 LLM 用的「pre-norm」結構：

 1input x
 2  ↓
 3norm 1 (RMSNorm)
 4  ↓
 5multi-head attention（causal）
 6  ↓
 7+ x（residual connection）
 8  ↓
 9中間結果 y
10  ↓
11norm 2 (RMSNorm)
12  ↓
13FFN（feed-forward network）
14  ↓
15+ y（residual connection）
16  ↓
17output

兩個關鍵組件：

Multi-head attention：見 3.2、Q/K/V 來源同 sequence 的部分見 self-attention 卡。
FFN（feed-forward network）：兩層 linear layer + 非線性 activation。

每個 sub-layer 前後加 residual connection：把 sub-layer 的輸出加回 input、形成「主流」。這個結構讓 gradient 容易在深層網路中傳遞、解決 gradient vanishing 問題。

Feed-Forward Network（FFN）

符號 legend：以下公式中 @ 表矩陣乘法、⊙ 表逐元素乘（Hadamard product）、x 是 hidden vector。

FFN 是 Transformer block 中的第二個 sub-layer、結構是「升維 → activation → 降維」：

1FFN(x) = activation(x @ W1) @ W2

其中：

W1 shape: (hidden_dim, intermediate_dim)
W2 shape: (intermediate_dim, hidden_dim)
intermediate_dim 通常是 hidden_dim 的 2.5 ~ 4 倍

例：Llama 3 8B、hidden_dim 4096、intermediate_dim 14336（約 3.5x）。FFN 是模型大部分參數的來源（attention 的 W_Q/K/V 只佔少數）。

intermediate_dim 比例的邊界：低於 2.5x 時 FFN 的「升維 → 過 activation → 降維」表達能力不足、模型 capacity 跟訓練資料 fit 變差；高於 4x 時邊際參數收益遞減、且推論成本線性增加、不划算。SwiGLU / GeGLU 因為內部有兩個 projection、實作上 intermediate_dim 會略低（約 2/3）抵消多出來的參數量。

Activation 選擇：

模型	FFN Activation
GPT-2	GELU
Llama 系列	SwiGLU
Gemma 系列	GeGLU
Qwen3 系列	SwiGLU

SwiGLU / GeGLU 屬於 gated linear unit (GLU) 家族、用兩個 linear projection、其中一個過 activation 當 gate：

1SwiGLU(x) = (x @ W1) ⊙ SiLU(x @ W3) @ W2

SiLU(x) = x × sigmoid(x)（Swish 的別名）、產出「平滑版的 ReLU」。實驗發現 GLU 家族比純 GELU 略好、是現代 LLM 主流。

Layer Normalization：穩定訓練

Layer normalization（layer norm）的核心定義是「把每個 token 的 hidden vector 重新正規化到 mean=0、variance=1、再用 learnable scale / shift 調整」：

1LayerNorm(x) = γ ⊙ (x - mean(x)) / sqrt(var(x) + ε) + β

其中 γ、β 是 learnable 參數。

LLM 用的變體：

變體	機制	用在
LayerNorm	mean + variance 都正規化	GPT-2
RMSNorm	只用 root-mean-square、不算 mean	Llama / Gemma / Qwen 系列

RMSNorm 比標準 LayerNorm 簡單、計算稍快、品質接近、在大型 LLM（>7B）上是主流；小模型 / 訓練不穩定需要強正規化的場景下、LayerNorm 仍有實際貢獻。

Pre-Norm vs Post-Norm

Layer norm 的位置有兩個選擇：

Post-norm（原始 Transformer paper）：先做 attention / FFN、再加 residual、再 layer norm。深層網路訓練不穩、但搭配特殊 init / warmup / 較淺層數（< 12 層）仍可用、encoder-only 模型（BERT）跟特定 transformer variant 仍走這條。
Pre-norm（現代 LLM 主流）：先 layer norm、再做 attention / FFN、再加 residual。訓練穩定、深層網路才能訓得起來。

大型現代 LLM（Llama / Gemma / Qwen / GPT-3+）幾乎都用 pre-norm。Post-norm 在淺層 encoder 或需要 strict bottleneck 的場景仍有實際用途。

Residual Connection（殘差連接）

Residual connection 的核心定義是「sub-layer 的輸出加回它的 input」：output = sublayer(x) + x。這個結構由 ResNet（He et al., 2015）首先廣泛採用、Transformer 跟現代深度網路都用。跨層持續傳遞的 hidden state 主通道見 residual stream。

效果：

Gradient 直接傳遞：backward pass 中 gradient 可直接從深層流回淺層、避免 vanishing。
Identity 是 default：若 sub-layer 學壞、residual 確保至少不退步（output = x）。
Residual stream 概念：模型內部可視為一個「主流」、每層 sub-layer 對它做 incremental update。這個視角是現代可解釋性研究（mechanistic interpretability）的核心。

Positional Encoding：把順序加進去

Embedding 章節提到 attention 機制本身沒有順序資訊。Positional encoding 把位置資訊注入、讓 [cat, dog] 跟 [dog, cat] 有區別。主流方法：

Sinusoidal（原始 Transformer）

用 sin / cos 不同頻率生成位置向量、加進 token embedding：

1PE(pos, 2i) = sin(pos / 10000^(2i/d_model))
2PE(pos, 2i+1) = cos(pos / 10000^(2i/d_model))

固定值、不訓練。早期 GPT 用、後續被學習式取代。

Learned Positional Embedding

訓練一個 (max_seq_len, hidden_dim) 的矩陣、每個位置一個 embedding、加進 token embedding。GPT-2 用、簡單但有 max_seq_len 限制。

Rotary Position Embedding（RoPE）

RoPE（Su et al., 2021）的核心想法是「不加位置 embedding、而是把 Q 跟 K 在每個 attention head 內做位置相關的旋轉」：

1RoPE(Q, position) = 把 Q 的 2D 子空間按 position 旋轉特定角度

旋轉的直覺：兩個 token 在 RoPE 旋轉後做內積、結果只跟「兩者的位置差」相關、跟「絕對位置」無關。所以 RoPE 的內積天然編碼相對位置、attention 看到的是「token i 跟 token j 相隔多遠」、不是「token i 在第 N 個位置」。

優點：

相對位置：attention 看的是兩個 token 的相對距離、不是絕對位置。
無 max_seq_len：理論上可外推到任意長度（實務 degradation：超過訓練長度 4x 後品質明顯下降、超過 8x 後幾乎無用、要搭配 RoPE scaling / YaRN 等技巧）。
可訓練 + 不需要額外參數：旋轉角度固定、不增加模型參數。

Llama 系列、Gemma 系列、Qwen 系列都用 RoPE、目前主流。

ALiBi（Attention with Linear Biases）

ALiBi 的核心想法是「在 attention scores 加一個位置 bias、距離越遠 bias 越負」、attention 自然傾向關注近處。MosaicML 的 MPT 系列用、長 context 外推性質佳。

長 Context 的擴展技巧

LLM 在訓練長度（如 8K）以外的 context 上品質會 degradation。擴展長 context 的方法：

方法	機制
RoPE scaling	把 RoPE 的旋轉頻率縮小、attention 看「更遠」
YaRN	RoPE scaling 的改進、保留近距精度
NTK-aware scaling	另一種 RoPE 頻率調整方法
Position interpolation	把位置 ID 縮放到訓練範圍內

主流 LLM 在預訓練後做這些 scaling、把 context window 從 8K / 32K 擴展到 128K / 1M。代價是長 context 上的精度逐步下降、實用上界 < 聲稱上界。

詳見 context window 卡片。

Output Projection：從 hidden 到 logits

Forward pass 最後一步是把最終 hidden states 投射到 vocab size、得到 logits：

1logits = final_hidden_states @ W_output

W_output shape: (hidden_dim, vocab_size)。

Gemma 4 31B 的 output projection 參數約 1.3B（hidden 5120 × vocab 256,000）、跟 input embedding 同量級。如果 tied（共用權重）就只算一次；現代 LLM 多半 untied、兩者獨立。

Output 後接 softmax 轉成下個 token 的機率分佈、進入 sampling 流程。

Mixture of Experts（MoE）

Mixture of Experts 是 FFN 的擴展、把單個 FFN 換成 N 個 expert、每個 token 只 route 到 K 個 expert（K « N）。例如 Mixtral 8x7B：

每層有 8 個 expert FFN。
每個 token 由 router 選 2 個 expert 處理。
總參數約 47B、但每個 token 只啟動 12B 左右。

優點：總參數可超大、推論時實際算力只用一小部分。缺點：記憶體仍要載入全部 expert、訓練更複雜。

DeepSeek-V3、Qwen2-MoE、Mixtral 等是知名 MoE 模型。寫 code 場景的 Apple Silicon Mac 上 MoE 較少當主力、原因是「總參數要塞進統一記憶體（容量壓力大）」但「速度受限的是啟用權重的頻寬（速度反而可能還好）」、容量 vs 頻寬的 trade-off 跟 dense 模型不同。PC 獨立 GPU 場景可以走 CPU 卸載專家層的路徑、見 MoE CPU 卸載。

MoE 的常見失敗模式：

Router collapse：訓練時所有 token 都 route 到同幾個 expert、其他 expert 完全沒學到東西。修法是加 auxiliary loss 鼓勵 load balancing。
Load imbalance：推論時某些 expert 太熱門、batch 內排隊；某些 expert 閒置浪費。Production deployment 要監控 per-expert utilization。
Memory 壓力高於 dense：總參數塞滿記憶體、但推論時實際算量只用其中一部分、容量利用率低。記憶體預算吃緊時 dense 模型反而較合適。

為什麼 LLM 是 decoder-only

現代 LLM 普遍用 decoder-only 架構、背後有幾個理由：

任務統一性：「文字接龍」框架可以包進對話、寫 code、翻譯、摘要等所有任務。
訓練效率：causal mask 讓所有位置可以並行訓練（每個 token 都當訓練目標）。
In-context learning：decoder-only 在 few-shot prompting 上特別強。

GPT-3 證明這套之後、整個產業靠攏 decoder-only。Encoder-decoder（T5 系列）仍有研究價值、但商業 LLM 主流都是 decoder-only。

下一章：3.4 訓練流程、解釋這些權重怎麼學出來。

LLM 寫 code 工程實務指南：從心智模型到應用架構

Tue, 12 May 2026 00:00:00 +0000

本指南的核心目標是把「LLM 在寫 code 工作流的完整工程地圖」拆成可決策、可實作、可期望管理的工程問題。範圍覆蓋四條讀者旅程：(1) 在自己機器跑本地 LLM 寫 code 的最短可行路徑（Mac 或 PC）、(2) 想懂 LLM 內部運作機制（數學 + 理論基礎）、(3) 想做 LLM 應用開發（RAG / agent / tool use / VLM / benchmarking / 靜態 deployment）、(4) 關心 LLM 工作流的安全議題（本地 dev 視角 + 靜態網站視角）。網路上的 LLM 文章常把推論框架、加速技巧、應用模式、安全議題混為一談；本指南先把這些名詞放回正確的層級、再回答各層的具體取捨。

本指南預設讀者已經會用過雲端 LLM（ChatGPT、Claude）、熟悉終端機操作、想以工程視角理解 LLM。寫 code 場景是主要使用例、但模組二 / 三 / 四 / 六多數章節跨場景通用：想懂 reasoning model / RAG / embedding model 內部、即使不裝本地 LLM 也能讀。硬體前提分兩條路線：Apple Silicon Mac（M1 ~ M4、統一記憶體）走模組一；Windows / Linux + 獨立 GPU（NVIDIA / AMD、獨立 VRAM + 系統 RAM）走模組五。文章不販賣 LLM 焦慮、也不誇大本地能取代雲端的程度；它的責任是給每條讀者旅程的最短可行路徑、並標出每個階段的取捨。

模組零（心智模型）是所有讀者旅程的共同前置。模組一跟模組五是「裝本地 LLM」的兩條硬體路線、依平台選一條；想懂底層走模組二跟模組三（跟硬體無關、含 reasoning model / speculative decoding 等推論細節）；想看 LLM 作為系統元件走模組四（12 章涵蓋 RAG、tool use、agent、應用層協議、workflow、production resource、long context、embedding model、benchmarking、vision、靜態 deployment）；本地工作流跑穩想看安全議題走模組六（個人 dev 視角的供應鏈、伺服器綁定、tool use 權限、prompt injection、跨雲端邊界、production routing）。

教材邊界

類型	放在本指南	不放在本指南
心智模型	本地 vs 雲端的差異、為何 LLM 生字慢、三層架構（介面 / 伺服器 / 模型）、OpenAI 相容 API	雲端 GPU 租用、AGI 預測
術語澄清	MLX、MTP、oMLX、speculative decoding、量化、KV cache、TTFT、MoE CPU 卸載	post-training fine-tuning 細節
Mac 硬體現實	記憶體預算與模型大小、量化選擇、首字延遲、風扇與功耗	雲端 GPU 租用、資料中心訓練
PC 硬體現實	VRAM + RAM 分層預算、MoE 專家層 CPU 卸載、KV cache 量化、PCIe 頻寬限制	多卡 NVLink、資料中心級分散式推論
本地推論伺服器	Ollama、LM Studio、llama.cpp（Mac + PC 通用）	vLLM、TGI、Triton 等資料中心級 inference server
編輯器整合	Continue.dev + VS Code、Cursor 對應關係	JetBrains 全套整合、Vim / Emacs 進階 plugin
模型挑選	coding 場景的模型優先順序、量化等級對體感影響	benchmark 跑分方法論的完整推導
期望管理	本地 LLM 的擅長領域與分工、混用雲端的時機	LLM 通用能力評估、AGI 預測
數學基礎	線性代數、機率與資訊論、最佳化、數值精度在 LLM 中的角色	完整數學證明、測度論等屬於數學系範圍的主題
理論基礎	神經網路、embedding、attention、Transformer、訓練流程、sampling、tokenization、跨語言原理	多模態擴展、最新研究細節交給 Stanford CS25
應用層原理	RAG、Tool use、Agent 架構、應用層協議、Workflow 編排、Production resource、Artifact 管理	具體 framework 教學（LangChain / LlamaIndex）、prompt engineering
進階理論	Reasoning models（o1 / R1 / QwQ 風格）、Speculative decoding 內部（drafter / MTP / EAGLE）	完整 paper 推導、最新研究 frontier
進階應用	Long context engineering、Embedding model 內部、Benchmarking、Vision in coding、靜態 / serverless RAG deployment	完整 LangChain / LlamaIndex 教學
Fine-tuning	原理（LoRA / QLoRA / catastrophic forgetting）+ 本機 hands-on	完整資料工程、large-scale distributed fine-tune
隱私 / 安全	隱私資料流、本地 dev 安全模組（供應鏈 / 伺服器綁定 / tool use / prompt injection / 跨雲端邊界 / production routing）、靜態網站 RAG 資安、排錯方法論	企業合規逐條檢核、SOC 2 / HIPAA 流程
進一步學習	數學公開課推薦、LLM 理論公開課推薦	（交給推薦的課程跟書籍）

學習路線

本指南分成七個模組加一組前置卡片（111 張）。讀者依目的選讀、不需要從頭到尾全讀：

想用 Apple Silicon Mac 裝本地 LLM 寫 code：讀模組零 + 模組一（最短路徑）
想用 Windows / Linux + 獨立 GPU 裝：讀模組零 + 模組五
想懂 LLM 內部原理：模組二（數學） + 模組三（理論、含 reasoning models / speculative decoding）— 跟硬體無關
想做 LLM 應用開發（含 RAG / agent / VLM / 靜態 deployment）：模組四（12 章、跨工具世代不變的原理）— 跟硬體無關
想懂本地工作流的安全議題：模組一 / 五跑穩後接模組六（個人 dev 視角）
想選 RAG 的 storage 方案（pickle / vector DB / hosted SaaS）：直接看 4.22 RAG storage 工程
想在靜態網站加 RAG / 智能搜尋：直接看 4.16 靜態 / serverless RAG deployment
想在本機 fine-tune 模型：模組三 3.4 訓練流程原理 → 本機 QLoRA hands-on
想跟最新進展接軌：讀完模組後進推薦的公開課程跟 paper（模組二 2.4 + 模組三 3.10）

前置知識卡片

用原子化卡片整理 token、自回歸、KV cache、量化、speculative decoding、MTP、MLX、推論伺服器、OpenAI 相容 API、memory bandwidth、統一記憶體、TTFT、prefill、context window、Transformer、Diffusion 等核心概念。章節文章專注情境推導、術語背景交由卡片維持一致。

模組零：基礎知識與心智模型

整理本地 vs 雲端 LLM 的差異、自回歸架構與記憶體頻寬瓶頸、介面 / 伺服器 / 模型三層心智模型、OpenAI 相容 API 為何重要、MLX / MTP / oMLX 三個容易搞混的術語、Apple Silicon Mac 記憶體與模型大小的對應關係、判讀本地 LLM 資訊的五個框架。

模組一：本地 LLM 服務的安裝與應用

整理 Ollama、LM Studio、llama.cpp 三個主流推論伺服器的現況差異與安裝路徑、用 Continue.dev 把本地 LLM 接到 VS Code 的完整步驟、寫 code 場景下模型選型的優先順序、本地模型的期望管理、想進一步玩 coding agent、Web UI、產圖時的延伸方向。

模組二：LLM 的數學基礎

整理 LLM 推論背後的數學工具：線性代數（向量、矩陣、空間）、機率與資訊論（softmax、cross-entropy、KL、perplexity）、微積分與最佳化（gradient、SGD / Adam）、數值精度（fp32 / bf16 / Q4 / Q8 的取捨）。每章末尾接到公開課推薦。

模組三：LLM 的理論基礎

整理 LLM 內部運作機制、共 11 章：神經網路基礎、embedding 空間、attention 機制、Transformer 架構、訓練流程（pre-train → SFT → RLHF / DPO）、sampling 策略、tokenization 算法、跨語言場景原理、Reasoning models（o1 / R1 / QwQ 等 test-time compute paradigm）、Speculative decoding 內部（drafter / MTP / EAGLE）。每章末尾接到公開課推薦（Karpathy、Stanford CS224N / CS25 / CS336、DeepLearning.AI）。

模組四：LLM 應用層原理

整理 LLM 作為系統元件的設計原理、共 12 章：RAG、tool use、agent 架構、應用層協議、workflow 編排模式、Production resource planning、衍生產物管理、Long context engineering、Embedding model 內部、Benchmarking 方法論、Vision in coding workflow（本地 VLM 接 IDE）、靜態 / serverless RAG deployment（沒 backend 場景）。本模組刻意只寫跨工具世代不變的原理、避開 LangChain / LlamaIndex 等具體 framework 教學。

模組五：Windows / Linux + 獨立 GPU

整理消費級 PC（Windows / Linux + NVIDIA / AMD 獨立 GPU）跑本地 LLM 的硬體判讀模型與工程選項：VRAM + RAM 分層預算、MoE 模型的 CPU 卸載策略（--n-cpu-moe）、KV cache 量化（K=Q8 / V=Q4）跟 context 長度的權衡、llama.cpp 在 PC 上的調參空間。本模組跟模組一是平行的硬體路線、共用模組零的心智模型跟卡片。

模組六：本地 LLM 的安全與權限

整理個人 dev 在自己機器上跑本地 LLM 的安全議題：模型供應鏈與信任邊界、推論伺服器的綁定與暴露範圍、tool use 與 MCP server 的權限模型、IDE 場景的 prompt injection、跨雲端 / 本地的資料邊界、跨進 production 的 routing 中樞。framing 是個人 dev 視角、不是 enterprise 資安管理；production / 多租戶 LLM 服務的特殊資安議題見 Backend 模組七資安與資料保護的 LLM 相關章節。

模組之間怎麼配合

模組	角度	跟其他模組的關係
模組零	操作層心智模型	是模組一跟模組五的共同前置
模組一	工具層、Mac 實際安裝	用模組零的詞彙、跟模組三的理論互補
模組二	數學工具	提供模組三需要的數學詞彙、跟硬體平台無關
模組三	理論機制	用模組二的工具拼出完整 LLM、跟硬體平台無關
模組四	應用層原理	用前面模組建的詞彙、看 LLM 作為系統元件
模組五	工具層、PC 獨立 GPU	跟模組一平行、用模組零的詞彙、處理 VRAM 場景
模組六	安全層、個人 dev 視角	在模組一 / 五的工作流上加安全判讀、cross-link backend/07 通用資安卡片

模組二跟模組三可並讀。閱讀模組三遇到陌生數學詞時跳回模組二補完、再回模組三繼續。模組四在前面模組之上、但讀者熟悉 LLM 應用詞彙也可直接從這裡讀起。模組一跟模組五依硬體選一條主路線、共用模組零的心智模型與 knowledge-cards。模組六在模組一 / 五跑穩後接、處理「跑起來後該注意什麼」。

適合的讀者

背景	適合程度	建議起點
用過 ChatGPT / Claude、沒碰過本地模型	直接適合	模組零從頭讀
裝過 Ollama 但被網路上的術語混淆	直接適合	MLX / MTP / oMLX 區分 + 判讀框架
想知道 24GB / 32GB Mac 該選哪個模型	直接適合	硬體記憶體預算 + 模型選型
想用本地 LLM 完全取代 Claude / GPT-5	部分適合	期望管理先看完再決定
想懂 LLM 內部運作機制	直接適合	模組三理論基礎從頭讀（含 reasoning models / speculative decoding）
想懂背後的數學	直接適合	模組二數學基礎從頭讀
想懂 o1 / DeepSeek-R1 等 reasoning model 怎麼運作	直接適合	3.8 Reasoning models 從頭讀
想做 LLM 應用開發（RAG / agent / tool use）	直接適合	模組四從 4.0 RAG 依序讀
想在自家 Hugo / Astro 等靜態網站加 RAG	直接適合	4.16 靜態 / serverless RAG deployment（含資安取捨）
想用 VLM 看截圖 / 設計稿輔助寫 code	直接適合	4.15 Vision in coding workflow
想評估 LLM benchmark 數字、做 in-house eval	直接適合	4.14 Benchmarking 方法論
想在本機 fine-tune 模型懂自家 codebase 慣例	直接適合	3.4 訓練流程原理 + QLoRA hands-on
想做 large-scale fine-tune / 從頭訓練	部分適合	讀完模組三後進入推薦的公開課程跟 Stanford CS336
用 Windows / Linux + NVIDIA / AMD 獨立 GPU 跑本地 LLM	直接適合	模組零建心智模型 + 模組五處理 VRAM 預算、MoE 卸載、KV cache 量化
想知道本地 LLM 跑起來後的安全議題	直接適合	模組六個人 dev 視角的安全與權限
想把 LLM 部署成 production 服務、處理服務化資安	部分適合	個人視角見模組六；production 場景見 Backend 模組七資安的 LLM 相關章節
想在資料中心級 GPU（H100 / H200 / B200）部署	部分適合	心智模型跟 knowledge-cards 通用；vLLM / TGI / Triton 等資料中心 inference server 另尋專門教材
想跑 Stable Diffusion / Midjourney 等產圖	跟主題不同	產圖是 Diffusion 架構、見 Diffusion 卡片、另尋 ComfyUI / Draw Things 教材

用語約定

本指南使用的關鍵術語在第一次出現時都附原文。為避免歧義，下列詞彙在本指南內固定指涉：

本地 LLM：跑在使用者自己機器（Mac 或 PC）上的大型語言模型推論、prompt 留在本機。
推論伺服器（inference server）：負責載入模型權重、處理 prompt、產生 token 的常駐程式、例如 Ollama、LM Studio 內建 server、llama.cpp server。
介面層：使用者實際打字互動的工具、例如 VS Code + Continue.dev、CLI、Web UI。介面層透過 API 跟推論伺服器溝通。
模型（model）：權重檔本身、例如 gemma4:31b、qwen3-coder:30b。模型可以在不同推論伺服器之間共用、前提是格式相容。
量化（quantization）：把模型權重從高精度（如 bf16）壓成低精度（如 Q4）以減少記憶體佔用、代價是少許品質下降。

不在本指南內的主題

本指南不討論：

Speech / audio LLM：跟核心文字 LLM 是不同方向、本指南不涵蓋。Vision（VLM）原本不放、但因 coding 工作流的 vision use case 進入主流、補上 4.15 Vision in coding workflow；video LLM 仍不放。
資料中心訓練的工程細節：data parallelism、ZeRO、tensor parallelism 等屬於專門課程的範圍。
向量資料庫的 vendor 比較（Pinecone vs Weaviate vs Chroma 等）：vendor 格局半年一變、不適合寫入教材。RAG 的 storage 工程原理（升級判讀、index 生命週期、dependency 約束）見 4.22 RAG storage 工程。
Kubernetes / 資料中心級分散式推論：跟個人機器本地 LLM 方向不同、需另尋專門教材。
多卡 NVLink、tensor parallelism：消費級 PC 場景通常單卡、本指南不涵蓋多卡分散式推論。

若讀完本指南後想往這些方向走：

想做 RAG 應用：先把 Ollama + Continue.dev 跑穩、再讀模組四 4.1 RAG 原理建立設計取捨判讀、或模組三 3.8 推薦的 DeepLearning.AI short courses。
想跑 coding agent：先讀 4.4 Agent 架構原理建立判讀、再看 1.6 延伸方向了解 aider、Cline 等工具的定位差異。
想跑產圖模型：Diffusion 跟 Transformer 是不同架構、請另尋 ComfyUI / Draw Things / Diffusers 教材。
想自己訓練 / fine-tune：讀完模組三、進入 Karpathy zero-to-hero、Stanford CS336、Hugging Face NLP Course 等推薦資源。

文件版本：v0.7.0 最後更新：2026-05-12 系列狀態：七個模組 + 125 張知識卡片。模組零（9 章）/ 一（10 章 + hands-on、含 QLoRA + judge harness）/ 二（5 章）/ 三（12 章、含 reasoning / speculative / constrained decoding）/ 四（17 章、含 long context / embedding / benchmarking / VLM / 靜態 deployment / coding agent harness / prompt caching / agent memory / tracing / LLM-as-judge）/ 五（7 章）/ 六（7 章、含 OWASP 對照）。