Llama-Cpp

2026-05-14 llama.cpp Tensor Split llama.cpp 多 GPU 場景中把模型張量按比例切到多張卡上的權重分配機制
2026-05-12 5.1 MoE 模型與 CPU 卸載策略 PC 場景把 MoE 不活躍專家層留在系統 RAM 的判讀：何時值得卸載、卸幾層、對 prefill 跟生成的影響各自不同
2026-05-11 1.2 llama.cpp：底層推論引擎 GGUF 格式、量化、MTP 仍 beta；多數讀者不需要直接接觸，Ollama 已經包好
2026-05-12 5.3 llama.cpp 在 PC 上 CUDA / ROCm build 取得、核心旗標地圖、llama-bench 校準、多卡 tensor split 的入門設定