Attention on Tarragon

Grouped-Query Attention

Thu, 14 May 2026 00:00:00 +0000

Grouped-query attention（GQA）的核心概念是「多個 query head 共用較少的 key/value head」。它介於 Multi-Head Attention 與 Multi-Query Attention 之間，用較小的品質代價換取更小的 KV cache 與更好的長 context serving 效率。

概念位置

GQA 是 multi-head attention 的推論友善變體。MHA 是每個 query head 都有自己的 K/V；MQA 是所有 query head 共用一組 K/V；GQA 則把 query head 分組，每組共用 K/V。

可觀察訊號與例子

在 model config 裡看到 num_attention_heads: 32、num_key_value_heads: 8，代表 32 個 Q head 共用 8 組 K/V head，group size 是 4。這會讓 KV cache 約縮到 MHA 的四分之一，長 context 與高併發更友善。

設計責任

選模型或估算 serving 成本時，要看 num_key_value_heads，而不是只看總參數。GQA 對本地推論特別重要，因為 context window 與併發數常被 KV cache 卡住。

Positional Encoding

Thu, 14 May 2026 00:00:00 +0000

Positional encoding（位置編碼）的核心概念是「把序列中的位置資訊提供給 Transformer」。純 attention 對 token 集合本身近似不帶順序感，位置編碼讓模型能分辨 cat bites dog 與 dog bites cat。

概念位置

位置資訊通常在 embedding 進入 Transformer block 前或 attention 計算中注入。常見路線包含 sinusoidal positional encoding、learned positional embedding、RoPE 與 ALiBi；現代 decoder-only LLM 多使用 RoPE 或其長 context scaling 變體。

可觀察訊號與例子

讀 model architecture 看到 max_position_embeddings、RoPE base、RoPE scaling、ALiBi、YaRN、NTK-aware scaling，就是位置編碼相關設定。長 context 擴展常卡在位置編碼外推能力，而不是只把 context window 數字調大。

設計責任

評估長 context 模型時，要分清楚「宣稱 context 長度」與「位置編碼在該長度仍可靠」。超過訓練長度太多時，即使能載入，模型對遠距關係也可能退化。完整章節見 Transformer architecture。

Flash Attention

Tue, 12 May 2026 00:00:00 +0000

Flash Attention 的核心概念是「重新組織 Attention 計算的順序、把中間結果留在 GPU 高速 cache、減少對 GPU memory 的讀寫往返」。它不改變 attention 的數學定義（輸出跟原始實作在浮點誤差範圍內一致）、但實作層面對長 context 推論吞吐有明顯提升、且是部分 KV cache 量化組合在 llama.cpp 上的必要前置。

概念位置

Flash Attention 在推論架構中的角色：

1推論時的 attention 計算：
2 ├── 原始實作：Q · K^T 整個算完、寫進 memory、再讀出來做 softmax、再算 · V
3 │ └── 多次 memory 讀寫、長 context 下 IO 成為瓶頸
4 └── Flash Attention：用 tiling 把計算切塊、中間結果留在 SRAM / register
5 └── 減少 memory 讀寫、長 context 加速明顯

跟 attention 變體的關係：

Flash Attention 是實作層的優化、跟 MHA / GQA / MLA 等架構層變體是兩個獨立維度。
不同變體都能搭配 Flash Attention 的實作技巧。

在 llama.cpp 中的旗標：

1llama-server -fa # 啟用 flash attention
2# 或
3llama-server --flash-attn

事實查核註：Flash Attention 的版本演進快（Flash Attention 1 / 2 / 3）、不同推論引擎的支援度依版本變化。具體限制（如「V cache Q4 量化要 -fa 才能啟用」）依 llama.cpp 版本變動、引用前以 llama-server --help 跟 release notes 為準。

設計責任

理解 Flash Attention 後可以解釋兩個現象：為什麼啟用 -fa 後長 context 推論速度提升明顯（IO bound 變 compute bound）、為什麼部分 KV cache 量化組合（如 V=Q4_0）在 llama.cpp 上需要 flash attention 才能跑（實作層面的耦合）。

工程實務上、啟用 flash attention 通常沒副作用（數學上等價、品質不變）、是 PC 場景長 context 推論的預設啟用旗標。詳見 5.2 KV cache 量化策略的 flash attention 段落。

3.2 Attention 機制

Mon, 11 May 2026 00:00:00 +0000

Attention（注意力）是 Transformer 的核心創新、也是 LLM 能處理長 context 的關鍵。它的核心想法是「每個 token 決定該關注前面哪幾個 token」、用 embedding 之間的內積量化「相關性」。理解 attention 後、Multi-head、KV cache、Flash Attention、attention sink 等術語都能放到正確位置。

本章從「為什麼需要 attention」開始、拆 scaled dot-product attention 公式、再展開 multi-head attention 跟 causal masking、最後接到 KV cache 與長 context 場景。

本章目標

讀完本章後、你應該能：

用 Q / K / V 三個角色解釋 attention 在算什麼。
看到 attention 公式時、能解讀每個運算的角色。
解釋 multi-head attention 跟 single-head 的取捨。
把 KV cache 跟 attention 公式對上。

為什麼需要 attention

LLM 處理「下一個 token 該是什麼」、需要綜合 prompt 中前面所有 token 的資訊。早期解法（RNN、LSTM）用「序列狀態」串接、每個 token 只看到上一步的 hidden state。缺點：

長距離依賴難：訊息傳遞要跑過所有中間 token、容易遺失。
無法並行：每步依賴上一步、訓練速度有瓶頸。

Attention 的核心突破是「每個 token 直接看所有前面的 token、無需透過中間 hidden state 傳遞」。每個 token 用 attention scores 決定「該關注哪些前面 token」、用這些 token 的向量加權求和、形成自己的 context-aware 表示。

Attention 帶來三個性質：兩個是優勢、一個是代價：

優勢一、長距離依賴變直接：attention 直接連到任何位置、不再需要透過 RNN 的中間 hidden state 接力。
優勢二、可以並行：不同 token 的 attention 計算彼此獨立、訓練時整段序列一次跑完。
代價、O(n²) 計算複雜度：seq_len = n 時要算 n × n 個 attention scores、長 context 場景成本暴增、見後面的 KV cache 與 Flash Attention 段。

Q / K / V 三個角色

Attention 給每個 token 三個向量、各自有不同角色：

角色	直覺	數學
Query (Q)	「我在找什麼」	Q = X @ W_Q
Key (K)	「我有什麼可以被找到」	K = X @ W_K
Value (V)	「找到我之後、要傳出去什麼」	V = X @ W_V

其中 X 是 input embedding、W_Q、W_K、W_V 是三個 learnable 權重矩陣。

直覺：

每個 token 同時當「找東西的人」（query）跟「被找的東西」（key + value）。
Query 跟其他 token 的 Key 內積、得到「該關注每個 token 多少」的分數。
用這些分數對所有 token 的 Value 加權求和、得到當前 token 的 context-aware 表示。

Scaled Dot-Product Attention：核心公式

Attention（Vaswani et al., 2017）的核心公式：

1Attention(Q, K, V) = softmax(Q @ K^T / sqrt(d_k)) @ V

逐步拆解：

Q @ K^T：所有 query 跟所有 key 兩兩內積、得到 (seq_len, seq_len) 矩陣。矩陣 [i][j] 等於「token i 該關注 token j 多少」的原始分數。
/ sqrt(d_k)：scale by sqrt of key dimension。若沒有這步、d_k 大時 softmax 會極端化、訓練不穩。
softmax(...)：對每一 row 做 softmax、把分數正規化成機率分佈、保證「每個 token 對所有前面 token 的注意力總和 = 1」。
@ V：用 attention 機率對所有 token 的 V 加權求和、得到 (seq_len, d_v) 的輸出。每個輸出 row 是該 token 整合了前面所有 token 資訊的 context-aware 表示。

這個公式叫 scaled dot-product attention、是 Transformer 的核心運算。

Multi-Head Attention：多個 attention 並行

Multi-head attention 的核心想法是「跑 N 個獨立的 attention、每個 head 各自有自己的 W_Q / W_K / W_V、結果 concatenate 再過一個線性層」：

1head_i = Attention(Q W_Q_i, K W_K_i, V W_V_i)
2MultiHead(Q, K, V) = Concat(head_1, ..., head_h) @ W_O

幾何意義：每個 head 學「關注一種 pattern」。例如：

Head 1 可能學到「關注名詞的修飾語」。
Head 2 可能學到「關注前後標點」。
Head 3 可能學到「關注 quotation 邊界」。

實驗發現不同 head 確實學到可解釋的功能（雖然多數 head 的功能難以直觀標籤）。在主流規模（hidden_dim ≥ 768、num_heads ≥ 8）下、multi-head 比 single-head 表達能力強；極小模型（hidden_dim < 256）下 multi-head 收益遞減、有時 single-head 更穩定。

主流 LLM 的 head 數：

模型	num_heads	head_dim	hidden_dim
GPT-2 small	12	64	768
Llama 3 8B	32	128	4096
Llama 3 70B	64	128	8192
Gemma 4 31B	約 40	約 128	約 5120

關係：hidden_dim = num_heads × head_dim。每個 head 處理 head_dim 維、parallel 跑完再 concatenate 回 hidden_dim。

Causal Mask：只看前面、不看後面

LLM 是 autoregressive、生成 token N 時只能看 token 0 到 N-1、不能看後面（後面還沒生）。Attention 機制要「擋掉未來位置」、用 causal mask 實現：

1masked_scores[i][j] = scores[i][j]   if j ≤ i
2                    = -∞              if j > i

把未來位置的 attention score 設為 -∞、softmax 後機率為 0、等於完全忽略未來。

實作上 mask 是一個下三角矩陣、訓練跟推論時都套用、但角色不同：

訓練時的 causal mask：讓 decoder 能「一次 forward pass 算所有 N 個 token 的 loss」、parallel 訓練。沒有 mask 就要對每個位置跑 N 次 forward（位置 i 只給 token 0 ~ i-1）、訓練速度掉一個量級。這是 Transformer 取代 RNN 在訓練效率上的關鍵。
推論時的 causal mask：每生新 token 只看前面已生的 token、不能 peek 未來。實際因為 token 是按順序生成的、未來位置本來就還沒存在、mask 更像是「沿用訓練階段的同套運算結構、避免訓練 / 推論 mismatch」。

「Decoder-only LLM」（GPT、Llama 系列）用 causal mask 做自回歸生成；「Encoder-only LLM」（BERT 等）不用 causal mask、可看雙向 context、適合分類 / NER 等理解任務、不走自回歸生成路徑；「Encoder-Decoder」（T5、BART）encoder 看雙向、decoder 用 causal mask、可生成、是另一條典型架構。

KV Cache：避免重複計算

KV Cache 是 attention 機制下的關鍵優化。回到 attention 公式：

1Attention(Q, K, V) = softmax(Q @ K^T / sqrt(d_k)) @ V

生成 token N 時：

Q 是 token N 對應的 query（新的）。
K、V 是 token 0 到 N-1 的 key / value（前面都算過）。

如果每生一個 token 都重新算 K、V、會浪費大量計算。KV cache 把 K、V 存起來、下次生 token N+1 時：

Q 是 token N+1 的新 query。
K、V 是 cache + 新 token 的 K、V。

只算 token N+1 對應的 K、V 新值、跟既有 cache concat。每生一個 token 的計算量從 O(n²) 降到 O(n)。

代價是 KV cache 隨 context window 線性增長、長 context 場景吃記憶體。Gemma 4 31B 在 32GB Mac 上實用 context 約 8 ~ 16K tokens、超過會 swap。記憶體吃緊時的 KV cache 量化（K=Q8 / V=Q4）原理與 context / 併發取捨見模組五 5.2 KV cache 量化策略、整體 VRAM 預算見 5.0 VRAM + RAM 分層預算。

Flash Attention：記憶體高效實作

Flash Attention（Dao et al., 2022）是 attention 的 GPU 高效實作。標準 attention 在記憶體中具體實作 (seq_len, seq_len) 矩陣、長 context 時記憶體爆炸（10K context = 100M 個 float）。

Flash Attention 用「tiling + recompute」技巧、把 attention 拆成 block 算、不具體實作完整 attention matrix。記憶體佔用從 O(n²) 降到 O(n)、速度也快 2 ~ 4 倍。

Apple Silicon 上的對應實作可能稱為 Metal FlashAttention 或類似名稱、Ollama、LM Studio、oMLX 等本地推論伺服器逐步整合。

Flash Attention 何時收益有限：

短 context 場景：seq_len < 1K 時、attention matrix 本身就小、Flash Attention 的記憶體節省無感。
CPU 推論：Flash Attention 的 tiling 設計針對 GPU memory hierarchy（HBM ↔ SRAM）、CPU 上的記憶體層級不同、收益遠小於 GPU。
配合 GQA 的場景：GQA 已大幅減少 KV cache、Flash Attention 的相對收益縮小。

Grouped Query Attention（GQA）

Grouped Query Attention 是 multi-head attention 的變體、減少 KV cache 佔用。核心想法：「不同 head 共用 K、V、只有 Q 各自獨立」。

變體	Q heads	K/V heads	特性
Multi-Head Attention (MHA)	N	N	標準、各 head 完全獨立
Multi-Query Attention (MQA)	N	1	所有 head 共用一組 K/V、最省記憶體
Grouped Query Attention (GQA)	N	K (K < N)	折衷、品質接近 MHA、KV cache 較小

Llama 3 / Gemma 4 / Qwen3 都用 GQA、把 KV cache 大小減半到三分之一、長 context 場景受益。

為什麼 speculative decoding 在 code 場景加速明顯：attention 並行性的支撐

加速本身來自 speculative decoding / MTP、attention 在這條路徑上的角色是「提供並行驗證所需的計算結構」：

Speculative decoding 一次驗證 N 個 token、需要 attention 同時處理 N 個 query 對前面所有 K/V。
Attention 機制天生可並行、一次 forward pass 驗證 N 個 token 跟驗證 1 個 token 的時間接近（瓶頸是讀權重而非算 attention）。
寫 code 場景 drafter 接受率高（code 的 pattern 容易預測）、加速明顯。

理解這點、能解釋為什麼 MTP 對 coding 比創意寫作加速更明顯：差別不在 attention 本身、在「drafter 預測的接受率」這個 sampling 層的變數。

下一章：3.3 Transformer 架構、把 attention 跟 embedding 組裝成完整模型。