返回首頁

標籤

LLM evaluation

LLM 評估關注模型是否真的理解與推理,而不只是答對單題。常見面向包括長鏈推理、ASR 轉寫品質判定、與人類標註一致性,以及在多步驟任務中維持穩定表現的能力。

1 篇文章