標籤
LLM 基準測試用來比較模型在知識、數學推理、幻覺率、長上下文與對話品質上的表現,像 BenchLM、AIME 這類榜單常反映模型升級的實際差異,也影響選型與部署判斷。
1 篇文章
5 個基準測試幫你判斷模型強弱、看懂分數失真,並選出最適合商務採購的測試。