Linear-Algebra on Tarragon

Dot Product

Tue, 12 May 2026 00:00:00 +0000

Dot product（內積、inner product）的核心概念是「兩個向量對應位置相乘再加總」：a · b = a₁b₁ + a₂b₂ + ... + aₙbₙ。幾何意義是「a 在 b 方向上的投影長度 × b 的長度」。Dot product 是 LLM 中最頻繁出現的運算之一：attention 的核心是 dot product、cosine similarity 的本體也是 dot product。

概念位置

Dot product 在 LLM 中的核心應用：

應用	公式 / 機制	角色
Attention score	`Q · K^T`	算「該 token 跟其他 token 的相關性」
Cosine similarity	`dot(a, b) / (norm(a) × norm(b))`	RAG / semantic search
L2-normalized similarity	normalize 後直接用 `a · b`	Vector database 高效檢索
Logits → token 機率	output_projection 本質是「最後 hidden state · token embedding」	算每個 vocab token 的「匹配度」

幾何直覺：

1兩個向量方向接近時：dot product 大（正值大）
2兩個向量垂直時： dot product = 0
3兩個向量方向相反時：dot product 大負值
4
5a · b = |a| × |b| × cos(θ)
6 ↑
7 θ 是兩向量夾角

LLM 推論性能上、dot product 是「matrix multiplication 的基本單元」、整個 forward pass 可以看成大量 dot product 的批次運算；這是為什麼 GPU / Apple Silicon Neural Engine 都針對 dot product 做硬體優化。

設計責任

讀 attention / RAG 相關內容看到「inner product」「dot product」「QK^T」就是這個運算。寫 code 場景的判讀：用 vector database 時、選 distance metric 看：cosine 適合未 normalized 的 embedding、dot product 適合 L2-normalized 的 embedding（兩者結果同、後者較快）；attention 的 KV cache 量化（K=Q8 / V=Q4）對品質的不對稱影響、根本原因是 K 用於 dot product（誤差累積快）、V 用於加權平均（誤差被平均化）。

Matrix Multiplication

Tue, 12 May 2026 00:00:00 +0000

Matrix multiplication（矩陣乘法、matmul、@）的核心概念是「左矩陣的每個 row 跟右矩陣的每個 column 做 dot product、結果填進新矩陣」。對 A (m × k) 跟 B (k × n)、結果 C (m × n)、其中 C[i][j] = A 第 i row · B 第 j column。Matmul 是 LLM 推論最頻繁的運算、整個 forward pass 可以看成幾百次 matmul 串起來。

概念位置

LLM 中 matmul 出現的關鍵位置：

位置	形狀（簡化）	角色
Embedding lookup	`(seq_len, vocab) @ (vocab, hidden)` ≡ 查表	Token ID → embedding
Q/K/V 投影	`(seq_len, hidden) @ (hidden, hidden)`	Self-attention 第一步
Attention score	`(seq_len, head_dim) @ (head_dim, seq_len)`	Q · K^T、O(n²)、long context 痛點
Attention output	`(seq_len, seq_len) @ (seq_len, head_dim)`	attention weight · V
FFN up	`(seq_len, hidden) @ (hidden, 4×hidden)`	FFN 升維、參數大頭
FFN down	`(seq_len, 4×hidden) @ (4×hidden, hidden)`	FFN 降維
Output projection	`(seq_len, hidden) @ (hidden, vocab)`	Hidden → logits

關鍵尺寸規則：左矩陣 column 數 = 右矩陣 row 數、即 (m × k) @ (k × n) = (m × n)。Dimension mismatch 是訓練 / 推論最常見的 PyTorch 報錯之一。

為什麼 matmul 是 memory bandwidth bound

LLM 推論每生一個 token、要把整份模型權重從記憶體讀到處理器一次（每個權重在當輪 forward pass 的某個 matmul 都用得到）；現代 GPU / Apple Silicon 的算力遠超頻寬、所以「讀權重要多久」變主要瓶頸。這就是為什麼：

31B 模型 Q4_K_M 約 18GB、M4 Max 頻寬 546 GB/s、理論上限 ≈ 30 tok/s
量化加速主要是「權重變小、每秒能讀過更多次完整模型」
Batching / speculative decoding 加速主要是「一次讀權重、攤平到多個 token」

設計責任

讀 paper / model card 看到模型參數量、可以反推總 matmul 工作量；看到 inference benchmark 看到 tok/s、可以用「模型大小 / memory bandwidth」算理論上限對照。寫 code 場景無需直接寫 matmul、但理解這個運算的成本結構、能看懂量化 / batching / speculative decoding 等加速技巧為什麼有效。

Tensor

Tue, 12 May 2026 00:00:00 +0000

Tensor（張量）的核心概念是「N 維陣列」。Scalar 是 0D tensor、vector 是 1D、matrix 是 2D、再往上加維度就是 3D、4D。PyTorch、MLX、JAX、TensorFlow 等所有深度學習 framework 的核心型別都叫 Tensor、所有 LLM 內部運算（matrix multiplication、softmax、layer norm 等）都對 tensor 做。

概念位置

LLM 中常見的 tensor 維度：

維度	shape	意義	出現在
1D	`(vocab_size,)`	一個 token 位置的 logit 向量	Output layer 輸出
2D	`(seq_len, hidden_dim)`	一個 sequence 的 hidden state	每個 Transformer block 內部
3D	`(batch_size, seq_len, hidden_dim)`	一個 batch 的多個 sequence	Batched 推論 / 訓練
4D	`(batch_size, num_heads, seq_len, head_dim)`	Multi-head attention 的並行結構	Self-attention 內部
5D+	`(batch, heads, seq, head_dim, ...)`	罕見、特殊架構	MoE expert dispatch、特殊 attention

關鍵運算：

Reshape：改 shape 但不變資料總量、如 (batch, seq, hidden) → (batch * seq, hidden)。
Transpose / permute：交換維度順序、attention 計算前後常用。
Broadcasting：不同 shape 的 tensor 自動擴展配對、如 (seq, hidden) + (hidden,)。
Indexing / slicing：抽出子 tensor、如 tensor[:, -1, :] 取最後一個 token 的 hidden。

設計責任

讀 PyTorch / MLX 推論 / 訓練 code 看到 torch.Tensor、mx.array、tf.Tensor 等就是這個型別、所有 LLM 運算都建在它上面。寫 code 場景的判讀：報錯訊息看到 shape mismatch / size of dimension X 通常是 tensor 維度配錯；KV cache 內部存的就是 4D tensor (num_layers, 2, batch, num_kv_heads, seq, head_dim) 之類的結構、量化 KV cache 就是改這個 tensor 的 dtype。

Vector Norm

Tue, 12 May 2026 00:00:00 +0000

Vector norm（向量範數）的核心概念是「衡量向量「大小」的純量值」。最常用的 L2 norm（歐式長度）= 把每個分量平方加總再開根號；但 L1、L∞ 等其他 norm 也在不同場景出現。Norm 在 LLM 中支撐 cosine similarity、layer normalization、gradient clipping 等核心機制。

概念位置

主流 norm 的定義與用途：

Norm	定義	LLM 中的用途
L1（Manhattan）	`sum(	v_i	)`	L1 regularization、稀疏化
L2（Euclidean）	`sqrt(sum(v_i²))`	預設「向量長度」、cosine similarity 的分母
L∞（max）	`max(	v_i	)`	Gradient clipping by max value、某些 attention scaling

L2 norm 在 LLM 中的關鍵應用：

Cosine similarity：cos(a, b) = (a · b) / (||a||₂ × ||b||₂)、衡量兩個向量的方向相似度、是 RAG / semantic search 的核心指標。
Embedding model 正規化：通常把 embedding 正規化到 L2 norm = 1、之後 cosine similarity 退化成單純內積（dot product）、計算更快。
Gradient clipping：訓練時若 gradient 的 L2 norm 超過閾值（如 1.0）、整體縮放回去、避免 explosion。
Layer normalization：RMSNorm 用 L2 norm（root mean square）做正規化。

設計責任

讀 RAG / embedding 教學看到「normalize embeddings」「cosine similarity」就是 L2 相關運算。寫 code 場景的判讀：用 vector database 時、若 embedding 已 L2-normalized、距離指標選 dot product 比 cosine 快（結果相同）；訓練 / fine-tune 自己 model 時、gradient_clip: 1.0 是常見預設、防止 gradient 偶發爆炸。

2.0 線性代數：向量、矩陣、空間

Mon, 11 May 2026 00:00:00 +0000

線性代數是 LLM 內部運算的基底。每一次模型 forward pass、本質上都是一連串矩陣乘法；每個 token 在模型內部都是一個向量；attention 機制計算「相關性」的方式就是向量內積。理解這幾個概念、能讓「為什麼模型有 31B 個參數」「為什麼推論需要這麼多記憶體」「為什麼 memory bandwidth 是瓶頸」從口號變成可推導的事實。

本章假設你看過向量這個詞、知道矩陣有 row 跟 column、但忘記中間細節。每個概念給出定義、在 LLM 中的角色、實務上會怎麼遇到它。

本章目標

讀完本章後、你應該能：

用向量描述「token 在語意空間中的位置」。
用矩陣乘法解釋「模型一個 layer 在做什麼」。
估算「31B 模型佔多少記憶體」（除了量化外的計算依據）。
看到「dimension mismatch」錯誤時、知道是維度沒對齊。

向量：有方向有長度的數列

向量（vector）的核心定義是「有序的數字序列」。在 LLM 中、每個 token 對應一個向量、稱為 embedding；向量的維度（dimension）通常是幾百到幾千、例如 Gemma 4 的 hidden size 約 4096。

向量可以幾何解釋成「N 維空間中的一個箭頭」、方向跟長度都重要：

方向：表示「token 的語意特徵」。語意相近的 token（如 cat 跟 kitten）向量方向接近、語意無關的（如 cat 跟 algorithm）方向遠。
長度（norm）：表示「token 在這個維度上的強度」、計算方式有 L1（絕對值總和）、L2（平方和開根號、最常用）、L∞（最大絕對值）等。

實務上會遇到向量的地方：

Embedding 模型把文字轉成向量、Continue.dev 的 @codebase 用這個機制找相關片段。
KV cache 存的就是每個 token 在每個 layer 算出來的向量。
模型內部所有 token 都以向量形式流動、token 本身的整數 ID 只在輸入跟輸出端用到。

內積：衡量兩個向量的相關性

內積（dot product / inner product）的核心定義是「兩個向量對應位置相乘再相加」。a · b = a₁b₁ + a₂b₂ + ... + aₙbₙ。

內積的幾何意義是「投影」：a 在 b 方向上的長度乘以 b 的長度。對 LLM 而言、它最重要的用途是衡量兩個向量的相似度：

兩個向量方向接近、內積大（正值）。
兩個向量垂直、內積為 0。
兩個向量方向相反、內積大負值。

Attention 機制就是用內積算「當前 token 該關注前面哪幾個 token」：

1attention_score = query · key  ← 內積

每一對 (query, key) 算一次內積、得到一個分數；分數高表示「這個 token 該注意那個位置」。詳細展開見 3.2 attention 機制。

Norm：向量的長度

Norm（範數）的核心定義是「衡量向量大小的純量值」。最常用的 L2 norm（也叫 Euclidean norm）：

1||v||₂ = sqrt(v₁² + v₂² + ... + vₙ²)

LLM 中 norm 的用途：

Layer normalization：每個 layer 結束後把 activation（每層輸出的數值、見 3.0 神經網路基礎）重新正規化、避免數值爆炸或消失。
Embedding normalization：embedding 模型常把向量正規化到 L2 norm = 1、讓內積等同於 cosine similarity。
Gradient clipping：訓練時若 gradient（訓練階段更新權重用的方向、詳見 2.2 微積分與最佳化）的 norm 太大、截斷到合理範圍、避免訓練不穩。

Cosine similarity（餘弦相似度）= 兩個向量的內積除以兩者 norm 的乘積、結果落在 -1 到 1 之間、是 RAG / semantic search 最常用的相似度指標。實務上常先把 embedding 正規化到 L2 norm = 1、之後 cosine similarity 退化為單純內積、可直接套用 dot-product 比對。

使用 cosine similarity 時的兩個邊界：

Anisotropy（向量集中在某方向）：訓練不充分或 embedding 維度太低時、所有向量會擠在一個窄錐裡、cosine 分數普遍偏高、相對排序失準。判讀訊號：抽樣 100 對隨機 query、cosine score 平均 > 0.7。修法：換較強的 embedding model、或對 embedding 做 mean-centering / whitening。
不同 embedding space 不可比：nomic、OpenAI、bge 訓練 objective 不同、向量空間不同源、跨模型算 cosine 沒意義。修法：同一個 retrieval pipeline 鎖一個 embedding model、換模型時整批重算 index。

矩陣：把向量打包成 2D 結構

矩陣（matrix）的核心定義是「向量的有序集合、以 2D table 形式組織」。一個 m × n 矩陣有 m row、n column；每個 row 或 column 可以視為向量。

LLM 中的矩陣到處都是：

權重矩陣：每個 linear layer 對應一個權重矩陣 W、shape 是 (input_dim, output_dim)。
Batched inputs：把多個 token 的 embedding 打包成 (seq_len, embed_dim) 矩陣、一次處理。
Attention scores：每對 (query, key) 算內積、得到 (seq_len, seq_len) 矩陣。

模型權重數量的算法：把所有 layer 的權重矩陣大小加總、就是 31B / 70B 等參數規模。例如一個 hidden size = 4096 的 linear layer、權重矩陣大小 4096 × 4096 = 16,777,216、約 16.8M 參數。31B 模型的數字推導：~1800 個這個量級的權重矩陣相加（attention 的 Q / K / V / O 矩陣 + FFN 的兩個矩陣 × 數十個 transformer block）、總和約 31B 個參數；bf16 每權重 2 bytes、整份權重約 62GB；Q4 量化後每權重 0.5 bytes、約 18GB。完整的記憶體預算判讀見 0.5 Apple Silicon 記憶體預算。

矩陣乘法：LLM 推論的核心運算

矩陣乘法（matrix multiplication）的核心定義是「左矩陣的 row 跟右矩陣的 column 做內積、結果填進對應位置」。對 A (m × k) 跟 B (k × n) 相乘、得到 C (m × n)、其中 C[i][j] = A 的第 i row 跟 B 的第 j column 的內積。

LLM 推論的每個 layer 都是矩陣乘法 + 非線性 activation。例如一個 feed-forward 層的計算是：

1output = activation(input @ W₁) @ W₂

其中 @ 是矩陣乘法、W₁、W₂ 是權重矩陣。一個 31B 模型跑一次 forward pass、會做數百次矩陣乘法、總運算量是「token 數 × 模型參數數 × 2」的量級。

矩陣乘法的維度規則：左矩陣的 column 數要等於右矩陣的 row 數。(m × k) @ (k × n) = (m × n)。遇到 dimension mismatch 錯誤的定位流程：讀 traceback 找到 mat1 / mat2 各自的 shape、檢查倒數第二維（左）跟倒數第一維（右）是否相等；常見來源是 batch dim 沒 squeeze、或 transpose 順序錯。理論上限 ≈ 30 tok/s 是 dense 模型 + 單請求 + 無 batching / 無 speculative decoding 的純 memory-bound 情境下的估算、實際數字隨量化、framework、batch 配置浮動。

為什麼這對 memory bandwidth 重要

Memory bandwidth 是 LLM 推論的真實瓶頸、原因落在矩陣乘法本身：

每生成一個新 token、需要把整個模型權重（所有矩陣）從記憶體讀到處理器一次。
算力（FLOPs）在現代 GPU / Apple Silicon 上充足、瓶頸落在「讀權重要多久」。
31B 模型約 18GB（Q4 量化）、M4 Max 頻寬 546 GB/s、理論上限 ≈ 30 tok/s。

這就是為什麼量化能加速：權重變小、每秒能讀過更多次完整模型、tok/s 變高。也是為什麼 speculative decoding 能加速：一次 forward pass 就把權重讀過一次、驗證多個 token、攤平單 token 成本。

張量（Tensor）：多維度的矩陣

張量（tensor）的核心定義是「N 維陣列、矩陣是 N=2 的特例」。LLM 內部常用 3D / 4D tensor：

3D：(batch_size, seq_len, hidden_dim)、表示「N 個句子、每個句子 M 個 token、每個 token 是 D 維向量」。
4D：(batch_size, num_heads, seq_len, head_dim)、表示 multi-head attention 的並行計算結構。

PyTorch、MLX 等 framework 的核心型別都叫 Tensor、所有運算（矩陣乘法、norm、softmax 等）都對 tensor 做。

想看完整推導跟練習、見 2.4 公開課推薦的 MIT 18.06、3Blue1Brown 線性代數系列等資源。

下一章：2.1 機率與資訊論。