標籤
SWE-Bench
SWE-bench 是用真實 GitHub issue 評估程式修復能力的基準,常分成 Verified、Lite 等版本。它反映模型與 agent 是否能讀懂程式庫、定位 bug、修改測試並維持可重現性,也常被用來比較 coding agent 的成本與效率。
4 篇文章

AI Agent/4月3日
我測了 Devin 10 個任務,只做完 3 個
Devin 在 SWE-bench 只拿 13.86%,實測 10 個真實任務也只完成 3 個。這篇拆解它在哪些工作能用、哪些地方會亂掉。

模型發布/4月2日
MiMo V2 Pro、Omni、Flash 怎麼選
MiMo 2026 三款模型分工很清楚:Flash 主打開源與 coding,Pro 提供 1M context,Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。

模型發布/3月28日
小米 MiMo-V2-Pro 登場:1T MoE 模型
小米推出 MiMo-V2-Pro,總參數超過 1T、每 token 啟用 42B,還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6,價格卻低很多。

模型發布/3月28日
小米 MiMo 三模型瞄準代理、機器人與語音
小米一次推出三款 MiMo AI 模型,涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文,逼近 Claude Opus 4.6 的表現。