標籤
LLM benchmark
3 篇文章

模型發布/5月4日
Kimi K2.6:BenchLM 2026 成績解析
Kimi K2.6 在 BenchLM 2026 排第 12,Coding 和 Agentic 表現強,還有 256K context 與 open weights。

模型發布/4月13日
GPT-5.4 知識測驗拿 97.6 分
GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分,總榜暫列第 2,還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

模型發布/4月2日
Claude Mythos 跟 Opus 4.6 差多少
Anthropic 傳出 Mythos 測試分數高於 Claude Opus 4.6。若 SWE-bench、推理與資安數字屬實,開發者會感受到明顯差距。