標籤

reliability

2 篇文章

LLM 評審也會不穩

這篇論文做了一個壓力測試工具，檢查 LLM 當評審時，會不會因為格式、改寫、篇幅或標籤翻轉而判斷不一致。

這篇論文提醒：LLM 當評審時，平均表現看起來穩，不代表每個輸入都可靠。作者用 transitivity 檢查與 conformal prediction sets，抓出輸入層級的不一致與不確定性。