Context Window

2026-05-11

Context Window 的核心概念是「模型一次能處理的最大 token 序列長度」，包含 prompt 與生成內容的總和。超過上限時，較早的 token 會被截掉、模型「看不到」前面的對話。

概念位置

Context window 是模型訓練時決定的硬性限制，跟 KV cache 共同決定推論時的記憶體佔用。較大的 context window 讓模型能讀整個 repo 或長對話，但代價是 TTFT 升高與記憶體吃緊。

2026 年 5 月各模型典型 context window：

「支援 128K」跟「實用 128K」是兩件事。本地跑長 context 時 KV cache 會吃掉大量記憶體，例如 32GB Mac 跑 31B 模型實用 context 大約 8 ~ 16K tokens；硬塞 128K 會 swap、跑成蝸牛。

評估「能不能塞整個 repo 進 prompt」要綜合三個指標：模型聲稱的 context window、實際記憶體預算、可接受的 TTFT。寫 prompt 時若反覆達到上限、考慮整理 prompt 結構（移除不必要 context）或改用支援更大 context 的雲端模型，而非硬塞。