Active Parameter

2026-05-12

Active parameter 的核心概念是「MoE 模型每生成一個 token 實際參與 forward pass 的參數量」。跟模型總參數量是兩個獨立指標：總參數影響記憶體需求（要全部載入）、active parameter 影響推論速度上限（每 token 走的計算量）。Dense 模型的 active parameter 等於總參數；MoE 模型的 active parameter 通常只有總參數的 10% ~ 20%。

概念位置

模型命名中的 active parameter 線索：

命名範例	解讀
`Qwen3-30B-A3B`	30B 總參數、A3B 表示 active 約 3B
`Mixtral-8x7B`	8 個 7B expert、每 token top-2 啟用 ≈ 14B active（含 shared）
`Llama-3.3-70B`	Dense、active = total = 70B
`DeepSeek-V3`	671B 總參數、active 約 37B（依官方文件）

模型在不同維度的影響：

維度	受影響因素
記憶體需求	總參數 × 每權重 bytes
生字速度上限	active parameter × 每 token 讀取量 / memory bandwidth
模型能力（社群常見回報）	較強相關於總參數、但 active parameter 是底線

事實查核註：active parameter 跟模型能力的關係是社群常見回報、不是嚴格定理；具體模型在 coding / reasoning / 對話等任務的表現依訓練資料、RLHF、prompt 風格變化、需以 SWE-bench 等公開 benchmark 跟自己工作流校準。

設計責任

理解 active parameter 後可以解釋兩個現象：為什麼 30B MoE 跟 30B Dense 在同硬體下生字速度差很多（前者每 token 只走 3B active）、為什麼 MoE 模型能力對應的「等價 Dense 大小」不是簡單線性（社群常見回報接近總參數的 60% ~ 80% 等價 Dense 能力、但 case-by-case）。

選 MoE 模型時、active parameter 是速度判讀軸、總參數是記憶體判讀軸、能力判讀靠自己工作流的 benchmark；不要直接拿「30B」跟 Dense 30B 作能力對等。

#llm #knowledge-cards #moe #performance