Memory Bandwidth(記憶體頻寬)的核心概念是「每秒能從記憶體讀寫多少 bytes」。對 LLM 推論而言、它是「真正的瓶頸」、決定 tokens per second 的理論上限;CPU / GPU 算力反而很少成為瓶頸。

概念位置

Autoregressive 模型每生一個 token 都要把整個模型權重從記憶體讀到處理器一次。模型多大、頻寬多快、決定每秒能讀過幾次完整權重、也就決定每秒生幾個 token。

可觀察訊號與例子

各代 Apple Silicon 的記憶體頻寬:

晶片頻寬
M2 / M3100 GB/s
M2 Pro200 GB/s
M4 Max546 GB/s
M2 / M3 Ultra800+ GB/s
H100(雲端)3,300 GB/s

理論上限算式:頻寬 / 模型大小 = 最大 tok/s。M4 Max 跑 Q4 量化的 31B 模型(約 18GB)、理論上限約 546 / 18 ≈ 30 tok/s。實際值會比理論低 30 ~ 50%(KV cache 讀寫、attention 中間結果等開銷)。

H100 頻寬是 M4 Max 的 6 倍、這就是雲端旗艦速度比本地快這麼多的根本原因。

設計責任

評估「換更快 Mac 能加速多少」要看頻寬而不是 CPU 核心數。M2 升 M4 Max 對 LLM 推論的速度收益主要來自頻寬升級(200 → 546 GB/s)、約 2.7 倍。看到「N 倍加速」報導時、把頻寬與模型大小代進公式對一下、能識破不合理的數字。