返回首頁

標籤

SWE-Bench

SWE-bench 是用真實 GitHub issue 評估程式修復能力的基準,常分成 Verified、Lite 等版本。它反映模型與 agent 是否能讀懂程式庫、定位 bug、修改測試並維持可重現性,也常被用來比較 coding agent 的成本與效率。

4 篇文章