標籤
AI benchmark 是用來比較模型能力、成本與可靠性的評測方法,從 ARC Prize 這類把分數與算力攤開的排行榜,到語言、推理與互動任務,都影響模型選型、部署成本與研究方向。
2 篇文章
史丹佛 2026 AI Index 用圖表拆解 AI 現況:模型變快、成本變高、美中差距縮小,但評測和治理都追不上。
ARC Prize 排行榜把成本和分數放在同一張圖上,ARC-AGI-3 也把任務拉進互動環境。這篇看它怎麼逼 AI 團隊正視算力、Token 和實際可部署性。