標籤

SWE-Bench Verified

SWE-bench Verified 是用真實 GitHub issue 與測試來評估模型修補程式碼能力的基準，常用來看 agentic coding、除錯與工具使用表現。它之所以重要，在於分數背後還牽涉 token 成本、上下文長度與部署可行性。

9 篇文章

為什麼 LLM 排行榜常常選錯模型品質

LLM 排行榜有參考價值，但不適合拿來決定生產環境要用哪個模型。

Kimi K2.6 和 Qwen 3.6 這兩個 open-weight 模型，已經在 coding 和 agent 任務上逼近閉源模型。

這篇研究看 SWE-bench Verified 上的代理式寫程式，發現 token 花費可比一般 code chat 高出 1000 倍，且多半是 input 在燒錢，成本還很難預測。

Qwen3.6-27B 是 27B dense multimodal 模型，在 SWE-bench Verified 拿到 77.2，還贏過更大的 Qwen3.5-397B-A17B。對開發團隊來說，這代表更好部署，也更適合 agentic coding。

史丹佛 2026 AI Index 用圖表拆解 AI 現況：模型變快、成本變高、美中差距縮小，但評測和治理都追不上。

Gemini 3.1 Pro 以 77.1% ARC-AGI-2、94.3% GPQA Diamond、1M token 上下文登場，價格仍維持 Gemini 3。這次重點不是噱頭，而是長文檔、程式碼與 agent 工作流的實戰成本。

GLM-5 是 Z.AI 的新旗艦模型。744B 總參數、200K context、SWE-bench Verified 77.8、Terminal Bench 2.0 56.2，直接挑戰頂級 coding 模型。

Qwen 3.5、GLM-5、DeepSeek R1、Llama 4 讓開源 LLM 進入實戰。這篇整理 2026 年主流模型的 benchmark、上下文長度、授權條款與自架表現。

Anthropic 傳出 Mythos 測試分數高於 Claude Opus 4.6。若 SWE-bench、推理與資安數字屬實，開發者會感受到明顯差距。