Tag

AI benchmark

AI benchmarks compare model quality, cost, and reliability across tasks, from score-vs-compute leaderboards like ARC Prize to language, reasoning, and interactive evaluations. They shape model selection, deployment budgets, and research priorities.

1 articles

Research/Apr 2

ARC Prize leaderboard shows cost still matters

ARC Prize’s leaderboard tracks how AI systems trade cost for score, and ARC-AGI-3 pushes agents into interactive tasks.