標籤

SWE-Bench

SWE-bench 是用真實 GitHub issue 評估程式修復能力的基準，常分成 Verified、Lite 等版本。它反映模型與 agent 是否能讀懂程式庫、定位 bug、修改測試並維持可重現性，也常被用來比較 coding agent 的成本與效率。

6 篇文章

LLM 基準別對職能，不再看單一分數

把 2026 LLM 基準分數翻成工作適配度，並附可直接複製的自訂評測模板。

Xiaomi 的 MiMo-V2-Flash 以 309B MoE 架構登場，OpenRouter 標價每 1M Token 只要 $0.10 / $0.30，並在開源 SWE-bench 分數上衝到前段班。

Kili Technology 整理 2026 垂直 LLM 基準，涵蓋醫療、法律、金融、程式與資安。重點是通用榜單已不足以分出模型差距，採購與合規開始看專業評測。

Devin 在 SWE-bench 只拿 13.86%，實測 10 個真實任務也只完成 3 個。這篇拆解它在哪些工作能用、哪些地方會亂掉。

MiMo 2026 三款模型分工很清楚：Flash 主打開源與 coding，Pro 提供 1M context，Omni 則處理圖像、音訊與影片。這篇直接比 benchmark、價格與適用場景。

小米推出 MiMo-V2-Pro，總參數超過 1T、每 token 啟用 42B，還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6，價格卻低很多。