"Llama-Cpp"
- llama.cpp Tensor Split llama.cpp 多 GPU 場景中把模型張量按比例切到多張卡上的權重分配機制
- 5.1 MoE 模型與 CPU 卸載策略 PC 場景把 MoE 不活躍專家層留在系統 RAM 的判讀:何時值得卸載、卸幾層、對 prefill 跟生成的影響各自不同
- 1.2 llama.cpp:底層推論引擎 GGUF 格式、量化、MTP 仍 beta;多數讀者不需要直接接觸,Ollama 已經包好
- 5.3 llama.cpp 在 PC 上 CUDA / ROCm build 取得、核心旗標地圖、llama-bench 校準、多卡 tensor split 的入門設定