返回首頁

標籤

LLM benchmarks

LLM 基準測試用來比較模型在知識、數學推理、幻覺率、長上下文與對話品質上的表現,像 BenchLM、AIME 這類榜單常反映模型升級的實際差異,也影響選型與部署判斷。

1 篇文章