返回首頁

標籤

AI benchmarks

AI 基準測試用來比較模型在推理、知識問答、程式能力與長上下文等面向的表現,像 ARC-AGI-2、GPQA、MMLU 這類分數常被拿來判斷新模型是否真的進步,也能看出各家在成本與能力之間的取捨。

1 篇文章