標籤
1 篇文章
這篇論文提醒:LLM 當評審時,平均表現看起來穩,不代表每個輸入都可靠。作者用 transitivity 檢查與 conformal prediction sets,抓出輸入層級的不一致與不確定性。