Tokens Per Second(tok/s)的核心概念是「LLM 每秒能輸出多少個 token」,是生字速度的標準指標。生字速度由 memory bandwidth 跟模型大小共同決定,而非 CPU / GPU 算力。

概念位置

Tok/s 量度的是 autoregressive 主要生成階段的吞吐量,跟 TTFT(首字延遲)是兩個獨立指標。一個系統可能 TTFT 高但 tok/s 還行,也可能 TTFT 低但 tok/s 慢;兩者都要看才能完整描述體感。

可觀察訊號與例子

實務經驗值(僅供量級參考、視硬體與量化等級而定):

場景大致 tok/s
Claude Sonnet 雲端80 ~ 120
GPT-5 雲端70 ~ 100
Gemma 4 31B MTP / M4 Max25 ~ 40
Qwen3-Coder 30B / M2 Pro15 ~ 25

體感分界:低於 10 tok/s 像 dial-up 般卡頓、20 tok/s 以上接近流暢閱讀速度、40 tok/s 以上感覺即時。

設計責任

評估本地 LLM 是否堪用時,tok/s 是核心指標之一。理論上限可用「memory bandwidth ÷ 模型大小」估算,實際值會比理論低 30 ~ 50%。看到「N tok/s」的報告時要追問模型、量化 等級、硬體,三者缺一個就無法比較。