標籤
2 篇文章
AIME 2026 排行榜只有 8 個模型,但分數差很大。Qwen3.6 Plus 以 0.953 領先,最低只有 0.375。這份數學基準很適合看 LLM 的推理穩定度。
ARC Prize 排行榜把成本和分數放在同一張圖上,ARC-AGI-3 也把任務拉進互動環境。這篇看它怎麼逼 AI 團隊正視算力、Token 和實際可部署性。