標籤
AI 基準測試用來比較模型在推理、知識問答、程式能力與長上下文等面向的表現,像 ARC-AGI-2、GPQA、MMLU 這類分數常被拿來判斷新模型是否真的進步,也能看出各家在成本與能力之間的取捨。
1 篇文章
300+ 個 AI 基準集中比較,先看 5 項就能判斷模型在推理、寫碼、視覺與工具呼叫上的實力。