Tarragon
搜尋
文章
標籤
Now
RSS
"Model-Architecture"
2026-05-12
Mixture of Experts (MoE)
把 transformer 的 FFN 層拆成多個專家、每 token 只啟用少數、總參數大但每 token 計算量小的架構