Tarragon

搜尋文章標籤 Now RSS

"Model-Architecture"

2026-05-12 Mixture of Experts (MoE) 把 transformer 的 FFN 層拆成多個專家、每 token 只啟用少數、總參數大但每 token 計算量小的架構

Tarragon (CC BY 4.0) | 使用 hugo 製作