Mixture of Experts (MoE)

2026-05-12

MoE（Mixture of Experts）的核心概念是「把 transformer block 內的 FFN 層拆成多個專家網路、router 為每個 token 動態挑選少數啟用」。結果是模型總參數可以擴張到很大、但每個 token 實際計算量保持在「active parameter」這個較小的數目；同硬體下 MoE 模型常比同總參數的 Dense 模型跑得快、且能力強於同 active parameter 的 Dense 模型。

概念位置

MoE 在 transformer 架構中的位置：

1transformer block：
2  ├── attention 層（所有 token 共用）
3  ├── layer norm
4  └── FFN 層
5        ├── Dense 架構：所有 token 走同一組 FFN
6        └── MoE 架構：FFN 拆成多個 expert、router 挑選 top-k 個啟用

主流 MoE 模型的設計選擇（依模型而異）：

expert 數量：通常 8 ~ 256 個
每 token 啟用 expert 數：通常 1 ~ 2 個（top-k routing）
shared expert：部分模型保留少數所有 token 共用的 expert
total / active parameter 比：常見 5x ~ 10x（如 Qwen3-30B-A3B：30B total / 3B active）

事實查核註：MoE 架構的具體實作（router 演算法、load balancing loss、expert 並行策略等）依模型快速演進、引用前以該模型的技術報告或 paper 為準。

代表性 MoE 模型（依公開資訊）：Mixtral 8x7B、DeepSeek V3、Qwen3-30B-A3B、Llama 4 Scout 等。

設計責任

理解 MoE 後可以解釋三個現象：為什麼 MoE 模型的「30B 總參數」跟「3B active parameter」是兩個獨立指標（前者影響記憶體需求、後者影響速度）、為什麼 MoE 適合 CPU 卸載（不活躍的 expert 可以留在系統 RAM）、為什麼 MoE 在多 GPU 場景的並行策略跟 Dense 模型不同（expert 可以分到不同卡）。

選 MoE 模型 vs Dense 模型、需考慮：MoE 對 RAM 容量要求較高（要放所有 expert 權重）、對 GPU 算力要求較低（每 token 走 active parameter）；Dense 對 VRAM 容量要求較低（可全載中型模型）、對 GPU 算力要求較高。詳見 5.1 MoE 模型與 CPU 卸載策略跟 5.5 PC 場景的模型選型優先順序。

#llm #knowledge-cards #model-architecture #moe