標籤

BenchLM

3 篇文章

為什麼程式碼基準測試終於開始說實話

技術研究/5月13日

為什麼程式碼基準測試終於開始說實話

BenchLM 的程式碼排行榜顯示，真正有用的訊號只剩 LiveCodeBench 與 SWE-bench Pro；HumanEval 已經不適合拿來選模型。

Kimi K2.6：BenchLM 2026 成績解析

模型發布/5月4日

Kimi K2.6：BenchLM 2026 成績解析

Kimi K2.6 在 BenchLM 2026 排第 12，Coding 和 Agentic 表現強，還有 256K context 與 open weights。

GPT-5.4 知識測驗拿 97.6 分

模型發布/4月13日

GPT-5.4 知識測驗拿 97.6 分

GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分，總榜暫列第 2，還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。