標籤
BenchLM
3 篇文章

技術研究/5月13日
為什麼程式碼基準測試終於開始說實話
BenchLM 的程式碼排行榜顯示,真正有用的訊號只剩 LiveCodeBench 與 SWE-bench Pro;HumanEval 已經不適合拿來選模型。

模型發布/5月4日
Kimi K2.6:BenchLM 2026 成績解析
Kimi K2.6 在 BenchLM 2026 排第 12,Coding 和 Agentic 表現強,還有 256K context 與 open weights。

模型發布/4月13日
GPT-5.4 知識測驗拿 97.6 分
GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分,總榜暫列第 2,還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。