Active parameter 的核心概念是「MoE 模型每生成一個 token 實際參與 forward pass 的參數量」。跟模型總參數量是兩個獨立指標:總參數影響記憶體需求(要全部載入)、active parameter 影響推論速度上限(每 token 走的計算量)。Dense 模型的 active parameter 等於總參數;MoE 模型的 active parameter 通常只有總參數的 10% ~ 20%。

概念位置

模型命名中的 active parameter 線索:

命名範例解讀
Qwen3-30B-A3B30B 總參數、A3B 表示 active 約 3B
Mixtral-8x7B8 個 7B expert、每 token top-2 啟用 ≈ 14B active(含 shared)
Llama-3.3-70BDense、active = total = 70B
DeepSeek-V3671B 總參數、active 約 37B(依官方文件)

模型在不同維度的影響:

維度受影響因素
記憶體需求總參數 × 每權重 bytes
生字速度上限active parameter × 每 token 讀取量 / memory bandwidth
模型能力(社群常見回報)較強相關於總參數、但 active parameter 是底線

事實查核註:active parameter 跟模型能力的關係是社群常見回報、不是嚴格定理;具體模型在 coding / reasoning / 對話等任務的表現依訓練資料、RLHF、prompt 風格變化、需以 SWE-bench 等公開 benchmark 跟自己工作流校準。

設計責任

理解 active parameter 後可以解釋兩個現象:為什麼 30B MoE 跟 30B Dense 在同硬體下生字速度差很多(前者每 token 只走 3B active)、為什麼 MoE 模型能力對應的「等價 Dense 大小」不是簡單線性(社群常見回報接近總參數的 60% ~ 80% 等價 Dense 能力、但 case-by-case)。

選 MoE 模型時、active parameter 是速度判讀軸、總參數是記憶體判讀軸、能力判讀靠自己工作流的 benchmark;不要直接拿「30B」跟 Dense 30B 作能力對等。