標籤

AI benchmark

AI benchmark 是用來比較模型能力、成本與可靠性的評測方法，從 ARC Prize 這類把分數與算力攤開的排行榜，到語言、推理與互動任務，都影響模型選型、部署成本與研究方向。

2 篇文章

史丹佛 2026 AI Index 圖表解讀

史丹佛 2026 AI Index 用圖表拆解 AI 現況：模型變快、成本變高、美中差距縮小，但評測和治理都追不上。

ARC Prize 排行榜把成本和分數放在同一張圖上，ARC-AGI-3 也把任務拉進互動環境。這篇看它怎麼逼 AI 團隊正視算力、Token 和實際可部署性。