標籤

AI benchmarks

AI 基準測試用來比較模型在推理、知識問答、程式能力與長上下文等面向的表現，像 ARC-AGI-2、GPQA、MMLU 這類分數常被拿來判斷新模型是否真的進步，也能看出各家在成本與能力之間的取捨。

1 篇文章

5 個最值得先看的 AI 基準

300+ 個 AI 基準集中比較，先看 5 項就能判斷模型在推理、寫碼、視覺與工具呼叫上的實力。