[RSCH] 7 分鐘閱讀OraCore 編輯部

BAS 讓 LLM 信心分數更會拒答

BAS 用答覆/拒答的決策模型評估 LLM 信心,主打看模型是否真的知道何時該開口、何時該閉嘴。

分享 LinkedIn
BAS 讓 LLM 信心分數更會拒答

大型語言模型最麻煩的地方,不一定是答錯,而是答錯時還講得很肯定。對很多實際系統來說,真正安全的選項不是「一定要答」,而是「不確定就先拒答」。這篇論文 BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence 就是在處理這個問題:既然模型可以選擇回答或 abstain,那我們評估它的 confidence 時,能不能直接看這個信心分數,是否真的幫助模型做出更好的決策。

作者的核心主張很直接。傳統 confidence 指標,常常只在乎分數看起來準不準、校不校準,但沒有把「拒答」這件事放進決策裡。BAS,也就是 Behavioral Alignment Score,試著把 confidence 拉回到實際用途:不是看它漂不漂亮,而是看它能不能讓模型在不同風險偏好下,做出更合理的答或不答。

這篇論文想解的痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

多數 LLM 評估方式,預設模型一定要輸出答案。這在很多 benchmark 裡很常見,因為題目設計就是要你答。但一旦進到真實產品,情況就不一樣了。客服、醫療分流、法遵審核、程式輔助,這些場景裡「不回答」有時候比「自信地亂答」更好。

BAS 讓 LLM 信心分數更會拒答

問題是,現有指標很難完整反映這種決策層。模型可能在 calibration 類指標上看起來還行,實際上卻在最危險的案例裡特別過度自信。也就是說,你看到的是平均表現,但你真正想抓的,是那些會害系統做錯決策的高風險錯誤。

這也是 BAS 想補上的缺口。它不是只問「模型信心有沒有對齊真實正確率」,而是問「這個信心分數,能不能真的幫助系統決定要不要回答」。對要做 escalation、人工覆核、或拒答機制的開發者來說,這個問題比單純的 calibration 更貼近上線需求。

BAS 到底怎麼算

BAS 的設計,來自一個明確的 decision-theoretic utility model。模型在每個情境下只有兩個動作:回答,或拒答。然後系統會根據風險偏好,去看這個決策帶來的效用。簡單講,BAS 不是把 confidence 當成一個孤立數字來打分,而是看它在「答或不答」的選擇上,能不能帶來更好的結果。

這個做法的重點,在於它把 confidence 和 decision 直接綁在一起。信心分數只有在能幫你分辨「該講」和「該閉嘴」的時候才有價值。BAS 評估的,就是這個分辨能力。它會沿著一段風險閾值的範圍去看實際效用,所以它不是只抓單一門檻,而是看整體 decision-aware 的表現。

論文還提出一個理論上的主張:真實的 confidence 估計,會在這個框架下唯一最大化期望效用。白話說,如果模型的信心是誠實的,那在 BAS 的定義裡,這就是最好的策略。作者也把這件事和 calibration 連起來看,但 BAS 並不只是另一個校準分數。它更像是把校準問題,改寫成「決策是否合理」的版本。

和 log loss 這類 proper scoring rule 相比,BAS 的味道也不太一樣。log loss 對高估和低估都有處罰,但 BAS 更明顯偏向避免過度自信的錯誤。這個非對稱性很重要,因為在拒答場景裡,最糟的通常不是保守,而是明明不確定,卻還硬要答。

論文實際證明了什麼

作者把 BAS 跟常見指標一起用,像是 ECE 和 AURC,去建立一個跨多個 LLM 與任務的 confidence reliability benchmark。不過要先講清楚:這份 abstract 沒有公開完整 benchmark 表格,也沒有提供具體數字,所以這篇文章能確認的是趨勢與方向,不是精確分數。

BAS 讓 LLM 信心分數更會拒答

從摘要能看到的第一個結果,是較大、也較準的模型,通常會拿到較高的 BAS。這個結果不意外,因為能力更強的模型,理論上更有機會把 confidence 和實際正確率對齊。但作者也明確指出,這不代表問題已經解決。即使是前沿模型,仍然會出現嚴重的 overconfidence,也就是說,模型本身很強,不代表它在「知道自己何時該拒答」這件事上就可靠。

第二個值得注意的發現,是 BAS 跟 ECE、AURC 之間,可能會出現明顯落差。兩個模型如果在 calibration 或 ranking 類指標上看起來差不多,BAS 卻可能差很多。這對實務很關鍵,因為它代表你不能只看傳統指標,就假設兩個系統在拒答決策上會有相近表現。

第三個結果,是一些簡單的介入手段,確實能改善 confidence reliability。摘要點名的做法包括 top-k confidence elicitation 和 post-hoc calibration,而且都能讓 BAS 變好。這裡同樣沒有公開細節數字,但訊息很明確:就算不改模型本體,只改信心的取得方式,或在事後做校準,仍然可能對拒答品質有幫助。

這對開發者有什麼影響

如果你在做的產品需要安全拒答、人工轉接,或 selective answering,BAS 比一般 confidence metric 更接近真正的產品問題。因為它看的不是「分數好不好看」,而是「這個分數有沒有幫系統做對答或不答的選擇」。

這件事對開發流程的影響很實際。你可以把 BAS 當成一個檢查點,去比較不同模型、不同 confidence elicitation 方法、或不同 calibration 策略,在 abstain 情境下到底誰比較有用。這比單純追 calibration 分數更貼近部署現場,因為部署時你關心的通常不是平均準不準,而是錯誤會不會在高風險案例裡爆掉。

  • 它適合用來比較有拒答機制的 LLM 系統。
  • 它能抓出 ECE 或 AURC 看不出來的過度自信錯誤。
  • 它提醒團隊,confidence 不是裝飾數字,而是決策訊號。
  • 它也暗示 calibration 應該跟下游效用一起看,而不是單獨看。

如果把這個框架放到實作上,開發者會更自然地問一個問題:這個 confidence 分數,真的有幫助模型在我們在意的風險條件下,做出更好的 answer-versus-abstain 決策嗎?這個問題很適合客服、醫療分流、程式輔助、合規工作流這類場景。因為在這些地方,錯答往往比不答更糟。

限制與還沒回答完的問題

這篇論文的方向很清楚,但 abstract 也留下不少空白。首先,摘要沒有給出完整 benchmark 細節,所以我們看不到任務清單、測試設定、或更細的數字比較。這代表目前只能確定 BAS 的概念與部分趨勢,還不能直接從摘要判斷它在各領域的泛化能力。

其次,BAS 雖然把風險閾值納進來,但真實產品的風險成本通常很難被單一曲線完整描述。不同產業、不同任務,對錯答與拒答的代價都不一樣。這意味著 BAS 很適合當作一個原則清楚的評估工具,但未必能直接取代每個場景的部署政策。

另外,摘要雖然提到 top-k confidence elicitation 和 post-hoc calibration 有幫助,但沒有說明哪些任務改善最多,也沒有說明提升幅度。對工程團隊來說,這些細節會影響你要不要真的導入某個方法。不過即便如此,論文已經傳達出一個很重要的訊號:只要你把 confidence 放進決策目標裡,評估方式就會跟傳統 calibration 指標很不一樣。

總結來說,BAS 的價值不在於又發明了一個漂亮的新分數,而在於它把問題問對了。對 LLM 來說,真正重要的不只是「會不會答」,而是「知不知道什麼時候不該答」。如果你的系統有拒答需求,這篇論文提供了一個比單純校準更實用的評估方向。