[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-vector-policy-optimization-search-diversity-zh":3,"article-related-vector-policy-optimization-search-diversity-zh":31,"series-research-bc5e34d0-1e65-4ce0-a130-424da873bd5a":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":23,"views":27,"created_at":28,"published_at":29,"topic_cluster_id":30},"bc5e34d0-1e65-4ce0-a130-424da873bd5a","vector-policy-optimization-search-diversity-zh","VPO 讓搜尋更會找答案","\u003Cp data-speakable=\"summary\">VPO 把語言模型訓練成會產生多樣解法，讓 test-time search 在多候選搜尋時更容易挑到好答案。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：四個任務\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：向量獎勵訓練策略\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文在處理一個很實際的問題：\u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 不再只是一次吐一個答案，而是要進到搜尋迴圈裡，先生成一批候選，再交給後面的搜尋流程去篩選、排名或組合。這時候，模型的價值不只在「答對」，還在「能不能提供夠多、夠有差異的候選」。\u003C\u002Fp>\u003Cp>作者認為，傳統的後訓練方式其實和這個使用情境不太合。因為多數方法還是在優化單一標量 reward，模型很容易被推向低熵、低多樣性的輸出。對單次生成來說，這未必是壞事；但對 test-time search 來說，候選太像，搜尋空間就會變窄。\u003C\u002Fp>\u003Cp>VPO，Vector Policy Optimization，想補上的就是這個缺口。它不是只把模型訓練成「最會拿高分」，而是訓練成「能產生一組彼此有差異、但都可能有用的解法」。\u003C\u002Fp>\u003Ch2>它要解的痛點是什麼\u003C\u002Fh2>\u003Cp>這篇摘要最重要的背景，不是某個新架構，而是 LLM 的使用方式正在改變。現在很多系統會把模型放進搜尋流程裡，像是依照多個任務相關的 reward 來挑 rollout。這代表模型不再只面對一個固定分數，而是要對多種下游偏好都保有可用性。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779432361030-ief3.png\" alt=\"VPO 讓搜尋更會找答案\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題在於，標準的 LLM 後訓練通常只會最大化預先定義好的 scalar reward。摘要指出，這種做法容易把模型往狹窄的行為推，輸出雖然穩定，但變化少。對需要多候選的搜尋系統來說，這會讓後面的 search 沒什麼材料可以挑。\u003C\u002Fp>\u003Cp>所以這篇論文的核心張力很明確：如果推理階段會靠搜尋在很多候選裡找答案，那訓練階段就不該只把模型往單一\u003Ca href=\"\u002Fnews\u002Fconvextok-tokenisation-convex-relaxations-zh\">最佳\u003C\u002Fa>解推，而是要讓它學會覆蓋更多解空間。作者把 diversity 當成特性，不是副作用。\u003C\u002Fp>\u003Ch2>VPO 到底怎麼做\u003C\u002Fh2>\u003Cp>VPO 的全名是 Vector Policy Optimization。從摘要看，方法本身的概念很直接：把 reward 從單一數字改成向量。這比較符合真實任務，因為很多情境本來就不是只有一個評分維度，例如程式生成裡的 per-test-case correctness，或是多個 user persona、不同 reward model 的偏好。\u003C\u002Fp>\u003Cp>論文還提到，VPO 基本上可以視為 GRPO advantage estimator 的 drop-in replacement。這句很\u003Ca href=\"\u002Fnews\u002F5-reasons-timnit-gebru-matters-ai-ethics-zh\">關鍵\u003C\u002Fa>，因為它表示作者不是要整套重寫 RL 後訓練框架，而是希望能接到既有流程裡。對實作團隊來說，這種設計通常比全新系統更容易試。\u003C\u002Fp>\u003Cp>方法的另一個重點，是它會訓練模型輸出一組解，而不是只追單一最優答案。這些解會在向量 reward 空間裡對不同 trade-off 做專門化。白話一點說，就是模型學會提供「不同路線」的候選，讓後面的搜尋有更大的操作空間。\u003C\u002Fp>\u003Cp>這也解釋了為什麼這篇不是單純在談生成品質，而是在談「搜尋友善度」。如果 inference-time search 會從一堆候選裡找最好的，那訓練目標就應該和這個流程對齊。VPO 的設計，就是把這件事拉回訓練階段處理。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要說 VPO 在四個任務上做了評估。不過，提供的文字沒有列出任務名稱，也沒有公開完整 benchmark 數字，所以這篇摘要本身沒有可直接引用的數值細節。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779432359596-4q4r.png\" alt=\"VPO 讓搜尋更會找答案\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>它能確認的是方向性結果：在那四個任務裡，VPO 在 test-time search 指標上，表現可與最強的 scalar RL baseline 持平或更好。摘要特別點出像 pass@k 和 best@k 這類指標，表示它看的不是單次輸出，而是多候選搜尋後的結果。\u003C\u002Fp>\u003Cp>更值得注意的是，摘要還說這個差距會隨著 search budget 增加而變大。這很符合直覺：搜尋越有空間，候選之間的差異就越重要。如果模型訓練時就學會提供更多元的解，後面的搜尋通常更容易撿到高品質答案。\u003C\u002Fp>\u003Cp>摘要還提到一個更強的說法：VPO 模型能解開 GRPO 模型無法解的問題，尤其是在 evolutionary search 的情境裡。這代表 diversity 不只是讓排名更漂亮，還可能直接改變「能不能找到可行解」這件事。\u003C\u002Fp>\u003Cp>不過，也要老實說，因為摘要沒有附表格，這些提升的幅度、各任務的差異、以及計算成本，都無法從這份 raw 資料裡看出來。能確定的是方向，不是完整量化。\u003C\u002Fp>\u003Ch2>對開發者有什麼意義\u003C\u002Fh2>\u003Cp>如果你在做 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>、code generator，或任何會先採樣很多候選、再做選擇的系統，這篇的訊息其實很直接：訓練時不要只想著 final answer，還要想你之後怎麼 search。模型在單一分數下看起來可能沒那麼漂亮，但一旦進到搜尋流程，反而會更有用。\u003C\u002Fp>\u003Cp>程式生成是摘要裡明確提到的例子，因為 per-test-case correctness 天然就是向量 reward 的情境。除此之外，多 persona 助手、多目標排序、或任何「最佳答案取決於下游準則」的系統，也都會碰到類似問題。\u003C\u002Fp>\u003Cp>從工程角度看，VPO 還有一個實際價值：如果它真的是 GRPO advantage estimator 的替代品，那對已經在用 RL 後訓練的團隊來說，導入門檻可能不算太高。它不是要取代 inference-time search，而是讓模型更適合當搜尋的上游供應器。\u003C\u002Fp>\u003Cp>這個觀點很重要。很多團隊會把搜尋當成推理階段的補丁，但這篇論文提醒的是，搜尋能不能發揮，往往在訓練階段就決定了。你如果只把模型訓練成單一答案機器，後面再強的 search 也可能沒材料可用。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>這份摘要講清楚了方向，但沒有把方法細節全部\u003Ca href=\"\u002Fnews\u002Fnvidia-full-ai-stack-website-overview-zh\">攤開\u003C\u002Fa>。像是具體訓練配方、算力成本、資料組成、以及各 benchmark 的數字，在提供的內容裡都沒有出現。\u003C\u002Fp>\u003Cp>另一個限制是，摘要只說評估了四個任務，沒有說這個方法能不能穩定泛化到更廣的場景。尤其「多樣性」這件事很吃任務定義，不同問題裡的 diversity 可能代表完全不同的東西。\u003C\u002Fp>\u003Cp>還有一個實作上的問題是：如果團隊想用 VPO，訓練時到底該暴露哪些 reward 維度？摘要提到向量 reward 很常見，但沒有給出一套通用的建構方式。這表示它更像是一個方向明確的訓練原則，而不是現成的萬用公式。\u003C\u002Fp>\u003Cp>所以，這篇論文最值得記住的不是某個漂亮數字，而是它在改變一個默認前提：當推理越來越依賴搜尋時，模型訓練就不能只追單一分數。你要的是一組可搜尋、可比較、可組合的答案。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>VPO 的重點，是把 LLM 的後訓練從「單一最佳分數」拉向「多候選、多目標、可搜尋」的思路。對做搜尋式推理系統的開發者來說，這是一個很實際的設計提醒。\u003C\u002Fp>\u003Cul>\u003Cli>它把 reward 從 scalar 改成 vector，對齊真實任務。\u003C\u002Fli>\u003Cli>它強調輸出多樣性，讓 test-time search 有更多可用候選。\u003C\u002Fli>\u003Cli>摘要顯示它在四個任務上優於或持平 scalar RL baseline，但未公開完整 benchmark 數字。\u003C\u002Fli>\u003C\u002Ful>","VPO 把語言模型訓練成會產生多樣解法，讓 test-time search 在多候選搜尋時更容易挑到好答案。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.22817",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779432361030-ief3.png","research","zh","08e121ad-d16a-4f61-a124-0530101f4665",[17,18,19,20,21,22],"vector reward","policy optimization","test-time search","diversity","GRPO","LLM post-training",[24,25,26],"VPO 把訓練目標改成向量獎勵，讓模型學會產生多樣候選。","它的設計是為了配合 test-time search，而不是只追單次輸出分數。","摘要聲稱它在四個任務上優於或持平 scalar RL baseline，但沒有公開完整 benchmark 數字。",3,"2026-05-22T06:45:29.893413+00:00","2026-05-22T06:45:29.881+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":32,"relatedLang":42,"relatedPosts":46},[33,35,37,39,40],{"name":17,"slug":34},"vector-reward",{"name":18,"slug":36},"policy-optimization",{"name":21,"slug":38},"grpo",{"name":20,"slug":20},{"name":19,"slug":41},"test-time-search",{"id":15,"slug":43,"title":44,"language":45},"vector-policy-optimization-search-diversity-en","Vector Policy Optimization boosts search diversity","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]