"Moe"
- Active Parameter MoE 模型每生成一個 token 實際參與計算的參數量、跟模型總參數量不同、影響推論速度上限
- Mixture of Experts (MoE) 把 transformer 的 FFN 層拆成多個專家、每 token 只啟用少數、總參數大但每 token 計算量小的架構
- MoE CPU 卸載 把 Mixture-of-Experts 模型不活躍的專家層權重放在系統 RAM、用到再走 PCIe 拉回 GPU、讓有限 VRAM 跑得了更大模型
- 5.1 MoE 模型與 CPU 卸載策略 PC 場景把 MoE 不活躍專家層留在系統 RAM 的判讀:何時值得卸載、卸幾層、對 prefill 跟生成的影響各自不同
- 5.5 PC 場景的模型選型優先順序 PC 獨立 GPU 場景下、MoE 卸載讓「全載小模型 vs 卸載大 MoE」變成主要的選型軸;對應不同 VRAM 容量的模型推薦