返回首頁

標籤

SWE-Bench Verified

SWE-bench Verified 是用真實 GitHub issue 與測試來評估模型修補程式碼能力的基準,常用來看 agentic coding、除錯與工具使用表現。它之所以重要,在於分數背後還牽涉 token 成本、上下文長度與部署可行性。

9 篇文章

為什麼 LLM 排行榜常常選錯模型品質
產業動態/5月14日

為什麼 LLM 排行榜常常選錯模型品質

LLM 排行榜有參考價值,但不適合拿來決定生產環境要用哪個模型。

Kimi K2.6 與 Qwen 3.6 拉近差距
模型發布/5月4日

Kimi K2.6 與 Qwen 3.6 拉近差距

Kimi K2.6 和 Qwen 3.6 這兩個 open-weight 模型,已經在 coding 和 agent 任務上逼近閉源模型。

AI 代理寫程式:token 比 chat 多燒 1000 倍
技術研究/4月27日

AI 代理寫程式:token 比 chat 多燒 1000 倍

這篇研究看 SWE-bench Verified 上的代理式寫程式,發現 token 花費可比一般 code chat 高出 1000 倍,且多半是 input 在燒錢,成本還很難預測。

Qwen3.6-27B:更小卻更準的寫碼路線
模型發布/4月27日

Qwen3.6-27B:更小卻更準的寫碼路線

Qwen3.6-27B 是 27B dense multimodal 模型,在 SWE-bench Verified 拿到 77.2,還贏過更大的 Qwen3.5-397B-A17B。對開發團隊來說,這代表更好部署,也更適合 agentic coding。

史丹佛 2026 AI Index 圖表解讀
技術研究/4月17日

史丹佛 2026 AI Index 圖表解讀

史丹佛 2026 AI Index 用圖表拆解 AI 現況:模型變快、成本變高、美中差距縮小,但評測和治理都追不上。

Gemini 3.1 Pro 數字看真實力
模型發布/4月3日

Gemini 3.1 Pro 數字看真實力

Gemini 3.1 Pro 以 77.1% ARC-AGI-2、94.3% GPQA Diamond、1M token 上下文登場,價格仍維持 Gemini 3。這次重點不是噱頭,而是長文檔、程式碼與 agent 工作流的實戰成本。

GLM-5 登場:Z.AI 的寫程式旗艦
模型發布/4月2日

GLM-5 登場:Z.AI 的寫程式旗艦

GLM-5 是 Z.AI 的新旗艦模型。744B 總參數、200K context、SWE-bench Verified 77.8、Terminal Bench 2.0 56.2,直接挑戰頂級 coding 模型。

2026 開源 LLM 誰領先
模型發布/4月2日

2026 開源 LLM 誰領先

Qwen 3.5、GLM-5、DeepSeek R1、Llama 4 讓開源 LLM 進入實戰。這篇整理 2026 年主流模型的 benchmark、上下文長度、授權條款與自架表現。

Claude Mythos 跟 Opus 4.6 差多少
模型發布/4月2日

Claude Mythos 跟 Opus 4.6 差多少

Anthropic 傳出 Mythos 測試分數高於 Claude Opus 4.6。若 SWE-bench、推理與資安數字屬實,開發者會感受到明顯差距。