SWE-bench

2026-05-11

SWE-bench 的核心概念是「用真實開源專案的 GitHub issue 與 PR 當測試集、評量 LLM 解程式碼問題的能力」。它把 LLM 放在「給一個 issue 描述、看能否生成解決它的 patch」的任務上、跑完用 patch 是否能讓既有測試通過作為通過率。

概念位置

SWE-bench 比早期的 HumanEval（單一 function 生成）難得多、涵蓋多檔案理解、需求拆解、實際 patch 生成。它是 2026 年量化 coding LLM 能力最常被引用的指標。SWE-bench Verified 是 OpenAI 篩選過的子集、確保任務描述清楚、是現在報告主流。

可觀察訊號與例子

2026 年 5 月各模型在 SWE-bench Verified 上的大致表現（僅供量級參考、實際數字以官方報告為準）：

模型	SWE-bench Verified
Claude Sonnet 4.6	80+ 分
GPT-5	80+ 分
Qwen3-Coder 30B（本地）	77.2 分
Gemma 4 31B（本地）	70+ 分
Qwen3 14B	50+ 分

「分數」是百分比、代表通過率。本地最強模型在 SWE-bench 上跟雲端旗艦仍有差距、但對寫 code 場景已堪用。

設計責任

評估模型適合不適合本地寫 code 時、SWE-bench Verified 是核心指標之一。換新模型前看分數差距：5 分以上才值得試（適應新 prompt 風格的成本不低）。看到「新模型超越 GPT-X」報導時、確認是哪個 SWE-bench 變體（Lite / Verified / Full）；變體間分數差很多、混為一談會誤判。

#llm #knowledge-cards