標籤

SWE-Bench

SWE-bench 是用真實 GitHub issue 評估程式修復能力的基準，常分成 Verified、Lite 等版本。它反映模型與 agent 是否能讀懂程式庫、定位 bug、修改測試並維持可重現性，也常被用來比較 coding agent 的成本與效率。

4 篇文章

我測了 Devin 10 個任務，只做完 3 個

Devin 在 SWE-bench 只拿 13.86%，實測 10 個真實任務也只完成 3 個。這篇拆解它在哪些工作能用、哪些地方會亂掉。

MiMo 2026 三款模型分工很清楚：Flash 主打開源與 coding，Pro 提供 1M context，Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。

小米推出 MiMo-V2-Pro，總參數超過 1T、每 token 啟用 42B，還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6，價格卻低很多。

小米一次推出三款 MiMo AI 模型，涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文，逼近 Claude Opus 4.6 的表現。