BAS 讓 LLM 信心分數更會拒答

OraCore Editors

返回首頁

[RSCH] 2026年4月6日7 分鐘閱讀OraCore 編輯部

BAS 讓 LLM 信心分數更會拒答

BAS 用答覆／拒答的決策模型評估 LLM 信心，主打看模型是否真的知道何時該開口、何時該閉嘴。

decision theory abstention LLM confidence calibration BAS

分享 LinkedIn

大型語言模型最麻煩的地方，不一定是答錯，而是答錯時還講得很肯定。對很多實際系統來說，真正安全的選項不是「一定要答」，而是「不確定就先拒答」。這篇論文 BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence 就是在處理這個問題：既然模型可以選擇回答或 abstain，那我們評估它的 confidence 時，能不能直接看這個信心分數，是否真的幫助模型做出更好的決策。

作者的核心主張很直接。傳統 confidence 指標，常常只在乎分數看起來準不準、校不校準，但沒有把「拒答」這件事放進決策裡。BAS，也就是 Behavioral Alignment Score，試著把 confidence 拉回到實際用途：不是看它漂不漂亮，而是看它能不能讓模型在不同風險偏好下，做出更合理的答或不答。

這篇論文想解的痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

多數 LLM 評估方式，預設模型一定要輸出答案。這在很多 benchmark 裡很常見，因為題目設計就是要你答。但一旦進到真實產品，情況就不一樣了。客服、醫療分流、法遵審核、程式輔助，這些場景裡「不回答」有時候比「自信地亂答」更好。

問題是，現有指標很難完整反映這種決策層。模型可能在 calibration 類指標上看起來還行，實際上卻在最危險的案例裡特別過度自信。也就是說，你看到的是平均表現，但你真正想抓的，是那些會害系統做錯決策的高風險錯誤。

這也是 BAS 想補上的缺口。它不是只問「模型信心有沒有對齊真實正確率」，而是問「這個信心分數，能不能真的幫助系統決定要不要回答」。對要做 escalation、人工覆核、或拒答機制的開發者來說，這個問題比單純的 calibration 更貼近上線需求。

BAS 到底怎麼算

BAS 的設計，來自一個明確的 decision-theoretic utility model。模型在每個情境下只有兩個動作：回答，或拒答。然後系統會根據風險偏好，去看這個決策帶來的效用。簡單講，BAS 不是把 confidence 當成一個孤立數字來打分，而是看它在「答或不答」的選擇上，能不能帶來更好的結果。

這個做法的重點，在於它把 confidence 和 decision 直接綁在一起。信心分數只有在能幫你分辨「該講」和「該閉嘴」的時候才有價值。BAS 評估的，就是這個分辨能力。它會沿著一段風險閾值的範圍去看實際效用，所以它不是只抓單一門檻，而是看整體 decision-aware 的表現。

論文還提出一個理論上的主張：真實的 confidence 估計，會在這個框架下唯一最大化期望效用。白話說，如果模型的信心是誠實的，那在 BAS 的定義裡，這就是最好的策略。作者也把這件事和 calibration 連起來看，但 BAS 並不只是另一個校準分數。它更像是把校準問題，改寫成「決策是否合理」的版本。

和 log loss 這類 proper scoring rule 相比，BAS 的味道也不太一樣。log loss 對高估和低估都有處罰，但 BAS 更明顯偏向避免過度自信的錯誤。這個非對稱性很重要，因為在拒答場景裡，最糟的通常不是保守，而是明明不確定，卻還硬要答。

論文實際證明了什麼

作者把 BAS 跟常見指標一起用，像是 ECE 和 AURC，去建立一個跨多個 LLM 與任務的 confidence reliability benchmark。不過要先講清楚：這份 abstract 沒有公開完整 benchmark 表格，也沒有提供具體數字，所以這篇文章能確認的是趨勢與方向，不是精確分數。

從摘要能看到的第一個結果，是較大、也較準的模型，通常會拿到較高的 BAS。這個結果不意外，因為能力更強的模型，理論上更有機會把 confidence 和實際正確率對齊。但作者也明確指出，這不代表問題已經解決。即使是前沿模型，仍然會出現嚴重的 overconfidence，也就是說，模型本身很強，不代表它在「知道自己何時該拒答」這件事上就可靠。

第二個值得注意的發現，是 BAS 跟 ECE、AURC 之間，可能會出現明顯落差。兩個模型如果在 calibration 或 ranking 類指標上看起來差不多，BAS 卻可能差很多。這對實務很關鍵，因為它代表你不能只看傳統指標，就假設兩個系統在拒答決策上會有相近表現。

第三個結果，是一些簡單的介入手段，確實能改善 confidence reliability。摘要點名的做法包括 top-k confidence elicitation 和 post-hoc calibration，而且都能讓 BAS 變好。這裡同樣沒有公開細節數字，但訊息很明確：就算不改模型本體，只改信心的取得方式，或在事後做校準，仍然可能對拒答品質有幫助。

這對開發者有什麼影響

如果你在做的產品需要安全拒答、人工轉接，或 selective answering，BAS 比一般 confidence metric 更接近真正的產品問題。因為它看的不是「分數好不好看」，而是「這個分數有沒有幫系統做對答或不答的選擇」。

這件事對開發流程的影響很實際。你可以把 BAS 當成一個檢查點，去比較不同模型、不同 confidence elicitation 方法、或不同 calibration 策略，在 abstain 情境下到底誰比較有用。這比單純追 calibration 分數更貼近部署現場，因為部署時你關心的通常不是平均準不準，而是錯誤會不會在高風險案例裡爆掉。

它適合用來比較有拒答機制的 LLM 系統。
它能抓出 ECE 或 AURC 看不出來的過度自信錯誤。
它提醒團隊，confidence 不是裝飾數字，而是決策訊號。
它也暗示 calibration 應該跟下游效用一起看，而不是單獨看。

如果把這個框架放到實作上，開發者會更自然地問一個問題：這個 confidence 分數，真的有幫助模型在我們在意的風險條件下，做出更好的 answer-versus-abstain 決策嗎？這個問題很適合客服、醫療分流、程式輔助、合規工作流這類場景。因為在這些地方，錯答往往比不答更糟。

限制與還沒回答完的問題

這篇論文的方向很清楚，但 abstract 也留下不少空白。首先，摘要沒有給出完整 benchmark 細節，所以我們看不到任務清單、測試設定、或更細的數字比較。這代表目前只能確定 BAS 的概念與部分趨勢，還不能直接從摘要判斷它在各領域的泛化能力。

其次，BAS 雖然把風險閾值納進來，但真實產品的風險成本通常很難被單一曲線完整描述。不同產業、不同任務，對錯答與拒答的代價都不一樣。這意味著 BAS 很適合當作一個原則清楚的評估工具，但未必能直接取代每個場景的部署政策。

另外，摘要雖然提到 top-k confidence elicitation 和 post-hoc calibration 有幫助，但沒有說明哪些任務改善最多，也沒有說明提升幅度。對工程團隊來說，這些細節會影響你要不要真的導入某個方法。不過即便如此，論文已經傳達出一個很重要的訊號：只要你把 confidence 放進決策目標裡，評估方式就會跟傳統 calibration 指標很不一樣。

總結來說，BAS 的價值不在於又發明了一個漂亮的新分數，而在於它把問題問對了。對 LLM 來說，真正重要的不只是「會不會答」，而是「知不知道什麼時候不該答」。如果你的系統有拒答需求，這篇論文提供了一個比單純校準更實用的評估方向。

// 相關文章

BAS 讓 LLM 信心分數更會拒答

這篇論文想解的痛點

訂閱 AI 趨勢週報

BAS 到底怎麼算

論文實際證明了什麼

這對開發者有什麼影響

限制與還沒回答完的問題

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維