VRAM(Video RAM)的核心概念是「顯卡晶片上的高速記憶體、跟系統主機板上的 RAM 是物理上獨立的兩塊預算」。獨立 GPU 場景下、模型權重要載入 VRAM 才能用 GPU 高速計算;VRAM 容量直接決定能跑多大模型。跟 Apple Silicon 的 統一記憶體 不同、PC 上 VRAM 跟系統 RAM 兩塊預算要分開規劃。

概念位置

VRAM 同時影響「能載入什麼」跟「跑多快」兩個維度:

  1. 容量(GB):決定能放多少模型權重 + KV cache + 推論中間結果。容量不夠則跑不起來、需透過 MoE CPU 卸載 把部分權重放系統 RAM。
  2. 頻寬(GB/s):影響每 token 生成速度上限、見 memory bandwidth 卡片。

常見消費級 GPU 的 VRAM 規格(廠商標稱、依世代與型號變化):

GPUVRAM 容量VRAM 類型
RTX 5060 / 40608GBGDDR6/7
RTX 5060 Ti / 4060 Ti16GBGDDR6/7
RTX 5070 Ti / 4070 Ti16GBGDDR6/7
RTX 409024GBGDDR6X
RTX 509032GBGDDR7

VRAM 容量是選 GPU 跑本地 LLM 的第一決策軸、頻寬是第二決策軸。同容量下、頻寬接近 2 倍的卡(如 5070 Ti 對 5060 Ti)生字速度差異明顯。

事實查核註:上表是 2026 年 5 月主流消費級 NVIDIA GPU 規格的數量級對照、實際 VRAM 容量、頻寬、GDDR 版本依特定型號、廠商 / SKU、製造時間變化、引用前以 NVIDIA 官方規格頁 為準。

設計責任

理解 VRAM 後可以解釋三個現象:為什麼同樣 16GB 容量、不同卡的生字速度差很多(頻寬不同);為什麼 MoE 模型在 16GB VRAM 上跑得了 30B 級模型(透過卸載);為什麼 PCIe 頻寬在 PC 場景影響 MoE 卸載的速度(系統 RAM 跟 VRAM 之間的橋)。

選 PC 規劃本地 LLM 時、VRAM 容量決定能跑的模型上限、VRAM 頻寬決定生字速度上限、系統 RAM 容量決定 MoE 卸載空間。詳見 5.0 VRAM + RAM 分層預算