標籤
2 篇文章
這篇論文做了一個壓力測試工具,檢查 LLM 當評審時,會不會因為格式、改寫、篇幅或標籤翻轉而判斷不一致。
這篇論文提醒:LLM 當評審時,平均表現看起來穩,不代表每個輸入都可靠。作者用 transitivity 檢查與 conformal prediction sets,抓出輸入層級的不一致與不確定性。