標籤

推理模型

2 篇文章

AIME 2026 排行榜：Qwen 先拿下數學測試

AIME 2026 排行榜只有 8 個模型，但分數差很大。Qwen3.6 Plus 以 0.953 領先，最低只有 0.375。這份數學基準很適合看 LLM 的推理穩定度。

ARC Prize 排行榜把成本和分數放在同一張圖上，ARC-AGI-3 也把任務拉進互動環境。這篇看它怎麼逼 AI 團隊正視算力、Token 和實際可部署性。