VPO 讓搜尋更會找答案
VPO 把語言模型訓練成會產生多樣解法,讓 test-time search 在多候選搜尋時更容易挑到好答案。

VPO 把語言模型訓練成會產生多樣解法,讓 test-time search 在多候選搜尋時更容易挑到好答案。
- 研究機構:arXiv 摘要未明確標註
- 核心數據:四個任務
- 突破點:向量獎勵訓練策略
這篇論文在處理一個很實際的問題:LLM 不再只是一次吐一個答案,而是要進到搜尋迴圈裡,先生成一批候選,再交給後面的搜尋流程去篩選、排名或組合。這時候,模型的價值不只在「答對」,還在「能不能提供夠多、夠有差異的候選」。
作者認為,傳統的後訓練方式其實和這個使用情境不太合。因為多數方法還是在優化單一標量 reward,模型很容易被推向低熵、低多樣性的輸出。對單次生成來說,這未必是壞事;但對 test-time search 來說,候選太像,搜尋空間就會變窄。
VPO,Vector Policy Optimization,想補上的就是這個缺口。它不是只把模型訓練成「最會拿高分」,而是訓練成「能產生一組彼此有差異、但都可能有用的解法」。
它要解的痛點是什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
這篇摘要最重要的背景,不是某個新架構,而是 LLM 的使用方式正在改變。現在很多系統會把模型放進搜尋流程裡,像是依照多個任務相關的 reward 來挑 rollout。這代表模型不再只面對一個固定分數,而是要對多種下游偏好都保有可用性。

問題在於,標準的 LLM 後訓練通常只會最大化預先定義好的 scalar reward。摘要指出,這種做法容易把模型往狹窄的行為推,輸出雖然穩定,但變化少。對需要多候選的搜尋系統來說,這會讓後面的 search 沒什麼材料可以挑。
所以這篇論文的核心張力很明確:如果推理階段會靠搜尋在很多候選裡找答案,那訓練階段就不該只把模型往單一最佳解推,而是要讓它學會覆蓋更多解空間。作者把 diversity 當成特性,不是副作用。
VPO 到底怎麼做
VPO 的全名是 Vector Policy Optimization。從摘要看,方法本身的概念很直接:把 reward 從單一數字改成向量。這比較符合真實任務,因為很多情境本來就不是只有一個評分維度,例如程式生成裡的 per-test-case correctness,或是多個 user persona、不同 reward model 的偏好。
論文還提到,VPO 基本上可以視為 GRPO advantage estimator 的 drop-in replacement。這句很關鍵,因為它表示作者不是要整套重寫 RL 後訓練框架,而是希望能接到既有流程裡。對實作團隊來說,這種設計通常比全新系統更容易試。
方法的另一個重點,是它會訓練模型輸出一組解,而不是只追單一最優答案。這些解會在向量 reward 空間裡對不同 trade-off 做專門化。白話一點說,就是模型學會提供「不同路線」的候選,讓後面的搜尋有更大的操作空間。
這也解釋了為什麼這篇不是單純在談生成品質,而是在談「搜尋友善度」。如果 inference-time search 會從一堆候選裡找最好的,那訓練目標就應該和這個流程對齊。VPO 的設計,就是把這件事拉回訓練階段處理。
論文實際證明了什麼
摘要說 VPO 在四個任務上做了評估。不過,提供的文字沒有列出任務名稱,也沒有公開完整 benchmark 數字,所以這篇摘要本身沒有可直接引用的數值細節。

它能確認的是方向性結果:在那四個任務裡,VPO 在 test-time search 指標上,表現可與最強的 scalar RL baseline 持平或更好。摘要特別點出像 pass@k 和 best@k 這類指標,表示它看的不是單次輸出,而是多候選搜尋後的結果。
更值得注意的是,摘要還說這個差距會隨著 search budget 增加而變大。這很符合直覺:搜尋越有空間,候選之間的差異就越重要。如果模型訓練時就學會提供更多元的解,後面的搜尋通常更容易撿到高品質答案。
摘要還提到一個更強的說法:VPO 模型能解開 GRPO 模型無法解的問題,尤其是在 evolutionary search 的情境裡。這代表 diversity 不只是讓排名更漂亮,還可能直接改變「能不能找到可行解」這件事。
不過,也要老實說,因為摘要沒有附表格,這些提升的幅度、各任務的差異、以及計算成本,都無法從這份 raw 資料裡看出來。能確定的是方向,不是完整量化。
對開發者有什麼意義
如果你在做 agent、code generator,或任何會先採樣很多候選、再做選擇的系統,這篇的訊息其實很直接:訓練時不要只想著 final answer,還要想你之後怎麼 search。模型在單一分數下看起來可能沒那麼漂亮,但一旦進到搜尋流程,反而會更有用。
程式生成是摘要裡明確提到的例子,因為 per-test-case correctness 天然就是向量 reward 的情境。除此之外,多 persona 助手、多目標排序、或任何「最佳答案取決於下游準則」的系統,也都會碰到類似問題。
從工程角度看,VPO 還有一個實際價值:如果它真的是 GRPO advantage estimator 的替代品,那對已經在用 RL 後訓練的團隊來說,導入門檻可能不算太高。它不是要取代 inference-time search,而是讓模型更適合當搜尋的上游供應器。
這個觀點很重要。很多團隊會把搜尋當成推理階段的補丁,但這篇論文提醒的是,搜尋能不能發揮,往往在訓練階段就決定了。你如果只把模型訓練成單一答案機器,後面再強的 search 也可能沒材料可用。
限制與還沒回答的問題
這份摘要講清楚了方向,但沒有把方法細節全部攤開。像是具體訓練配方、算力成本、資料組成、以及各 benchmark 的數字,在提供的內容裡都沒有出現。
另一個限制是,摘要只說評估了四個任務,沒有說這個方法能不能穩定泛化到更廣的場景。尤其「多樣性」這件事很吃任務定義,不同問題裡的 diversity 可能代表完全不同的東西。
還有一個實作上的問題是:如果團隊想用 VPO,訓練時到底該暴露哪些 reward 維度?摘要提到向量 reward 很常見,但沒有給出一套通用的建構方式。這表示它更像是一個方向明確的訓練原則,而不是現成的萬用公式。
所以,這篇論文最值得記住的不是某個漂亮數字,而是它在改變一個默認前提:當推理越來越依賴搜尋時,模型訓練就不能只追單一分數。你要的是一組可搜尋、可比較、可組合的答案。
總結
VPO 的重點,是把 LLM 的後訓練從「單一最佳分數」拉向「多候選、多目標、可搜尋」的思路。對做搜尋式推理系統的開發者來說,這是一個很實際的設計提醒。
- 它把 reward 從 scalar 改成 vector,對齊真實任務。
- 它強調輸出多樣性,讓 test-time search 有更多可用候選。
- 摘要顯示它在四個任務上優於或持平 scalar RL baseline,但未公開完整 benchmark 數字。