"Discrete-Gpu"
- 5.0 VRAM + RAM 分層預算
PC 獨立 GPU 場景的記憶體預算判讀:VRAM 是快的世界、RAM 是大的世界、PCIe 把兩個世界連起來
- MoE CPU 卸載
把 Mixture-of-Experts 模型不活躍的專家層權重放在系統 RAM、用到再走 PCIe 拉回 GPU、讓有限 VRAM 跑得了更大模型
- 5.1 MoE 模型與 CPU 卸載策略
PC 場景把 MoE 不活躍專家層留在系統 RAM 的判讀:何時值得卸載、卸幾層、對 prefill 跟生成的影響各自不同
- 5.2 KV cache 量化策略
PC 場景用 K=Q8 / V=Q4 等量化把 KV cache 壓縮、騰出 VRAM 開大 context window 或加併發數的判讀
- 5.3 llama.cpp 在 PC 上
CUDA / ROCm build 取得、核心旗標地圖、llama-bench 校準、多卡 tensor split 的入門設定
- 5.4 LM Studio 在 Windows
Windows + 獨立 GPU 場景用 LM Studio:CUDA / ROCm backend 選擇、GUI 內對應 -ngl / cache-type / cpu-moe 的設定位置
- 5.5 PC 場景的模型選型優先順序
PC 獨立 GPU 場景下、MoE 卸載讓「全載小模型 vs 卸載大 MoE」變成主要的選型軸;對應不同 VRAM 容量的模型推薦
- 5.6 GPU 廠商差異
NVIDIA CUDA、AMD ROCm、Intel ARC 在 llama.cpp 生態的相對位置、選卡時的判讀軸