llama.cpp Tensor Split
llama.cpp Tensor Split
llama.cpp tensor split 的核心概念是「在多 GPU 推論時,把模型張量按比例分配到不同 GPU」。它解的是單張卡 VRAM 不足或多卡容量不均時的模型權重擺放問題。
概念位置
Tensor split 位在 inference server / GPU serving 層,跟 NVLink 或 PCIe 是不同責任:互連決定卡間傳輸成本,tensor split 決定權重怎麼分布。
可觀察訊號與例子
在 llama.cpp 看到 --tensor-split 或 -ts,通常是在手動指定多卡分配比例。兩張 VRAM 不同的卡可以用不同比例,避免小卡先 OOM。
設計責任
只有多 GPU 且需要手動控制分配時才需要它。單卡消費級 PC 通常不用;多卡沒有高速互連時,分割模型可能降低速度,需用實際 benchmark 校準。