標籤
LLM 評估關注模型是否真的理解與推理,而不只是答對單題。常見面向包括長鏈推理、ASR 轉寫品質判定、與人類標註一致性,以及在多步驟任務中維持穩定表現的能力。
1 篇文章
LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。