VPO 讓搜尋更會找答案

OraCore Editors

返回首頁

[RSCH] 2026年5月22日6 分鐘閱讀OraCore 編輯部

VPO 讓搜尋更會找答案

VPO 把語言模型訓練成會產生多樣解法，讓 test-time search 在多候選搜尋時更容易挑到好答案。

vector reward policy optimization GRPO diversity test-time search

分享 LinkedIn

VPO 把語言模型訓練成會產生多樣解法，讓 test-time search 在多候選搜尋時更容易挑到好答案。

研究機構：arXiv 摘要未明確標註
核心數據：四個任務
突破點：向量獎勵訓練策略

這篇論文在處理一個很實際的問題：LLM 不再只是一次吐一個答案，而是要進到搜尋迴圈裡，先生成一批候選，再交給後面的搜尋流程去篩選、排名或組合。這時候，模型的價值不只在「答對」，還在「能不能提供夠多、夠有差異的候選」。

作者認為，傳統的後訓練方式其實和這個使用情境不太合。因為多數方法還是在優化單一標量 reward，模型很容易被推向低熵、低多樣性的輸出。對單次生成來說，這未必是壞事；但對 test-time search 來說，候選太像，搜尋空間就會變窄。

VPO，Vector Policy Optimization，想補上的就是這個缺口。它不是只把模型訓練成「最會拿高分」，而是訓練成「能產生一組彼此有差異、但都可能有用的解法」。

它要解的痛點是什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這篇摘要最重要的背景，不是某個新架構，而是 LLM 的使用方式正在改變。現在很多系統會把模型放進搜尋流程裡，像是依照多個任務相關的 reward 來挑 rollout。這代表模型不再只面對一個固定分數，而是要對多種下游偏好都保有可用性。

問題在於，標準的 LLM 後訓練通常只會最大化預先定義好的 scalar reward。摘要指出，這種做法容易把模型往狹窄的行為推，輸出雖然穩定，但變化少。對需要多候選的搜尋系統來說，這會讓後面的 search 沒什麼材料可以挑。

所以這篇論文的核心張力很明確：如果推理階段會靠搜尋在很多候選裡找答案，那訓練階段就不該只把模型往單一最佳解推，而是要讓它學會覆蓋更多解空間。作者把 diversity 當成特性，不是副作用。

VPO 到底怎麼做

VPO 的全名是 Vector Policy Optimization。從摘要看，方法本身的概念很直接：把 reward 從單一數字改成向量。這比較符合真實任務，因為很多情境本來就不是只有一個評分維度，例如程式生成裡的 per-test-case correctness，或是多個 user persona、不同 reward model 的偏好。

論文還提到，VPO 基本上可以視為 GRPO advantage estimator 的 drop-in replacement。這句很關鍵，因為它表示作者不是要整套重寫 RL 後訓練框架，而是希望能接到既有流程裡。對實作團隊來說，這種設計通常比全新系統更容易試。

方法的另一個重點，是它會訓練模型輸出一組解，而不是只追單一最優答案。這些解會在向量 reward 空間裡對不同 trade-off 做專門化。白話一點說，就是模型學會提供「不同路線」的候選，讓後面的搜尋有更大的操作空間。

這也解釋了為什麼這篇不是單純在談生成品質，而是在談「搜尋友善度」。如果 inference-time search 會從一堆候選裡找最好的，那訓練目標就應該和這個流程對齊。VPO 的設計，就是把這件事拉回訓練階段處理。

論文實際證明了什麼

摘要說 VPO 在四個任務上做了評估。不過，提供的文字沒有列出任務名稱，也沒有公開完整 benchmark 數字，所以這篇摘要本身沒有可直接引用的數值細節。

它能確認的是方向性結果：在那四個任務裡，VPO 在 test-time search 指標上，表現可與最強的 scalar RL baseline 持平或更好。摘要特別點出像 pass@k 和 best@k 這類指標，表示它看的不是單次輸出，而是多候選搜尋後的結果。

更值得注意的是，摘要還說這個差距會隨著 search budget 增加而變大。這很符合直覺：搜尋越有空間，候選之間的差異就越重要。如果模型訓練時就學會提供更多元的解，後面的搜尋通常更容易撿到高品質答案。

摘要還提到一個更強的說法：VPO 模型能解開 GRPO 模型無法解的問題，尤其是在 evolutionary search 的情境裡。這代表 diversity 不只是讓排名更漂亮，還可能直接改變「能不能找到可行解」這件事。

不過，也要老實說，因為摘要沒有附表格，這些提升的幅度、各任務的差異、以及計算成本，都無法從這份 raw 資料裡看出來。能確定的是方向，不是完整量化。

對開發者有什麼意義

如果你在做 agent、code generator，或任何會先採樣很多候選、再做選擇的系統，這篇的訊息其實很直接：訓練時不要只想著 final answer，還要想你之後怎麼 search。模型在單一分數下看起來可能沒那麼漂亮，但一旦進到搜尋流程，反而會更有用。

程式生成是摘要裡明確提到的例子，因為 per-test-case correctness 天然就是向量 reward 的情境。除此之外，多 persona 助手、多目標排序、或任何「最佳答案取決於下游準則」的系統，也都會碰到類似問題。

從工程角度看，VPO 還有一個實際價值：如果它真的是 GRPO advantage estimator 的替代品，那對已經在用 RL 後訓練的團隊來說，導入門檻可能不算太高。它不是要取代 inference-time search，而是讓模型更適合當搜尋的上游供應器。

這個觀點很重要。很多團隊會把搜尋當成推理階段的補丁，但這篇論文提醒的是，搜尋能不能發揮，往往在訓練階段就決定了。你如果只把模型訓練成單一答案機器，後面再強的 search 也可能沒材料可用。

限制與還沒回答的問題

這份摘要講清楚了方向，但沒有把方法細節全部攤開。像是具體訓練配方、算力成本、資料組成、以及各 benchmark 的數字，在提供的內容裡都沒有出現。

另一個限制是，摘要只說評估了四個任務，沒有說這個方法能不能穩定泛化到更廣的場景。尤其「多樣性」這件事很吃任務定義，不同問題裡的 diversity 可能代表完全不同的東西。

還有一個實作上的問題是：如果團隊想用 VPO，訓練時到底該暴露哪些 reward 維度？摘要提到向量 reward 很常見，但沒有給出一套通用的建構方式。這表示它更像是一個方向明確的訓練原則，而不是現成的萬用公式。

所以，這篇論文最值得記住的不是某個漂亮數字，而是它在改變一個默認前提：當推理越來越依賴搜尋時，模型訓練就不能只追單一分數。你要的是一組可搜尋、可比較、可組合的答案。

總結

VPO 的重點，是把 LLM 的後訓練從「單一最佳分數」拉向「多候選、多目標、可搜尋」的思路。對做搜尋式推理系統的開發者來說，這是一個很實際的設計提醒。

它把 reward 從 scalar 改成 vector，對齊真實任務。
它強調輸出多樣性，讓 test-time search 有更多可用候選。
摘要顯示它在四個任務上優於或持平 scalar RL baseline，但未公開完整 benchmark 數字。

// 相關文章

VPO 讓搜尋更會找答案

它要解的痛點是什麼

訂閱 AI 趨勢週報

VPO 到底怎麼做

論文實際證明了什麼

對開發者有什麼意義

限制與還沒回答的問題

總結

CRDT 讓副本不用鎖也能同步

後決定性分散系：自治基礎設施新框架

用因果法量化任務可學性

RL 先接管再放手

OmniGameArena 讓 VLM 遊戲代理更好比

TurboQuant 在 Google 測試中省下 6x KV 快取