標籤

LLM benchmark

3 篇文章

Kimi K2.6：BenchLM 2026 成績解析

模型發布/5月4日

Kimi K2.6：BenchLM 2026 成績解析

Kimi K2.6 在 BenchLM 2026 排第 12，Coding 和 Agentic 表現強，還有 256K context 與 open weights。

GPT-5.4 知識測驗拿 97.6 分

模型發布/4月13日

GPT-5.4 知識測驗拿 97.6 分

GPT-5.4 在 BenchLM 知識與理解拿到 97.6 分，總榜暫列第 2，還有 1.05M token 長上下文。這篇拆解它適合哪些工作、和其他模型怎麼比。

Claude Mythos 跟 Opus 4.6 差多少

模型發布/4月2日

Claude Mythos 跟 Opus 4.6 差多少

Anthropic 傳出 Mythos 測試分數高於 Claude Opus 4.6。若 SWE-bench、推理與資安數字屬實，開發者會感受到明顯差距。