[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-veritas-robot-policy-visual-verification-zh":3,"article-related-veritas-robot-policy-visual-verification-zh":30,"series-research-956f7918-ff9c-4c2d-b8a5-e12b4ad361f2":73},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"956f7918-ff9c-4c2d-b8a5-e12b4ad361f2","veritas-robot-policy-visual-verification-zh","VERITAS 讓機器人邊跑邊驗證","\u003Cp data-speakable=\"summary\">VERITAS 把視覺驗證器接到機器人策略上，讓模型在推論時就能修正動作，還能用驗證過的自生成軌跡繼續改進。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：摘要無公開 benchmark 數字\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：推論時視覺驗證\u003C\u002Fli>\u003C\u002Ful>\u003Cp>機器人不是訓練完就會一直進步。真實環境裡，場景會變、物件擺法會變，原本沒見過的失敗模式也會冒出來。這篇論文想處理的，就是部署之後怎麼讓策略不要停在原地。\u003C\u002Fp>\u003Cp>VERITAS 的核心想法很直接：先讓機器人自己提議動作，再用視覺驗證器檢查，保留好的，丟掉差的，最後把這些被驗證過的軌跡拿去做後續改進。它不是要把訓練和部署切得很死，而是把「邊跑邊學」\u003Ca href=\"\u002Fnews\u002Fnewcore-turns-ai-agents-into-managed-identities-zh\">變成\u003C\u002Fa>系統的一部分。\u003C\u002Fp>\u003Cp>對開發者來說，這種設計的吸引力在於，它嘗試把人類示範的依賴降下來。不是每次都要重新蒐集資料、重新標註、重新訓練，才能讓策略多撐一點。這篇摘要提供的是一個更務實的方向：讓機器人先在推論\u003Ca href=\"\u002Fnews\u002Fsolana-unchained-stage-2-presale-007-enterprise-sdk-zh\">階段\u003C\u002Fa>自己過濾，再把過濾後的結果變成下一輪學習素材。\u003C\u002Fp>\u003Ch2>這篇論文要解的痛點\u003C\u002Fh2>\u003Cp>機器人策略常見的問題，不是「能不能在實驗室跑」，而是「出了實驗室還能不能用」。一旦環境換了，原本訓練得很好的 policy 也可能開始出錯。這篇摘要把這個問題講得很清楚：如果想要機器人持續變好，就需要某種機制，讓它能練習、判斷自己的嘗試，然後從回饋裡學到東西。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677082980-g8km.png\" alt=\"VERITAS 讓機器人邊跑邊驗證\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>傳統\u003Ca href=\"\u002Fnews\u002Fkimi-k27-review-copyable-coding-playbook-zh\">流程\u003C\u002Fa>通常是兩段式。先訓練，再部署。部署之後要改進，往往得靠更多示範、更多資料、更多重新訓練。這對機器人系統來說很傷，因為每次收資料都不便宜。VERITAS 想做的是把這條界線模糊掉，讓推論時的行為本身就能參與學習。\u003C\u002Fp>\u003Cp>摘要裡特別提到 generalist robot policies。這代表作者不是只盯單一任務，而是想改善一類可跨任務、跨環境運作的策略。這也讓方法比較像一個系統層級的補強，而不是只針對某個狹窄場景的技巧。\u003C\u002Fp>\u003Ch2>VERITAS 到底怎麼運作\u003C\u002Fh2>\u003Cp>這個方法可以先想成「生成器 + 驗證器」架構。生成器就是一個預訓練好的 generalist robot policy，負責提出動作。驗證器則是視覺模型，負責在推論當下判斷這個動作看起來好不好。\u003C\u002Fp>\u003Cp>白話一點，就是策略先出主意，驗證器再幫忙把關。這個驗證器是 gradient-free，意思是它不是拿來當可微分的訓練損失，也不是直接回傳梯度去改主模型。它比較像一個 runtime judge，在執行時就能影響策略選擇。\u003C\u002Fp>\u003Cp>摘要把這件事稱為 \u003Ca href=\"\u002Ftag\u002Finference\">inference\u003C\u002Fa>-time policy steering。重點在於，驗證不是事後評分，而是決策流程的一部分。模型在還沒真正做出動作前，就已經被往比較好的方向推了一把。\u003C\u002Fp>\u003Cp>而且這個驗證機制不只用在當下。摘要也提到 verified rollouts 會被拿去做後續的 offline policy improvement。也就是說，系統會先收集被驗證過的軌跡，再用它們去微調策略。這讓整個迴圈變成：先跑、再驗、再學。\u003C\u002Fp>\u003Cp>這種設計的好處是，資料品質不再完全依賴人類介入。只要驗證器能分辨哪些 rollout 比較好，機器人就能自己產生下一輪訓練資料。從工程角度看，這比每次都重新找示範更像是可持續的資料生產線。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>根據摘要，推論時的驗證可以持續優於沒有額外示範資料訓練的 vanilla generalist policies。這是 runtime 端最重要的訊號：VERITAS 不是只在離線訓練階段有用，而是能在執行當下直接改善表現。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677081519-j33i.png\" alt=\"VERITAS 讓機器人邊跑邊驗證\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>摘要也說，拿驗證過的自生成軌跡去微調之後，策略會得到持續的性能提升。這代表機器人可以自己產生某種訓練訊號，不必完全靠人類示範。對資料昂貴的機器人領域來說，這個方向很實際。\u003C\u002Fp>\u003Cp>另一個重點是，摘要宣稱用 verified rollouts 做 post-training，可以達到和 expert demonstrations 相近的效率，而且不需要 human interventions。這句話很關鍵，因為專家示範通常就是機器人資料管線裡最貴、最慢的那一段。\u003C\u002Fp>\u003Cp>不過，摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 數字，所以我們看得到趨勢，看不到精確幅度。它沒列出任務清單、測試設定、驗證器細節，也沒有提供各項比較的量化結果。換句話說，這篇摘要告訴你方法有效，但還不足以讓你直接評估它在你自己的系統裡會有多大收益。\u003C\u002Fp>\u003Ch2>對開發者有什麼啟發\u003C\u002Fh2>\u003Cp>如果你在做 robot policy，這篇最值得記住的不是某個單點技巧，而是一個架構分工。生成器負責提案，驗證器負責品質控制。這比把所有責任都塞進單一模型裡，更容易理解，也更容易在系統上做調整。\u003C\u002Fp>\u003Cp>它也提供了一條「少靠人、先靠自己」的改進路線。機器人不必等到人類重新標註完資料，才有下一次進步機會。只要驗證器夠好，系統就能把自己的嘗試變成下一輪訓練素材，慢慢把策略往前推。\u003C\u002Fp>\u003Cp>這對部署在複雜環境的團隊很有吸引力。因為現實世界的變動，不會照著訓練集的節奏來。與其每次環境一變就整套重訓，不如在推論時先加一道檢查，讓策略先更穩，再慢慢累積更好的軌跡。\u003C\u002Fp>\u003Cp>從系統設計角度看，VERITAS 也像是一種把驗證前移的做法。很多安全或品質機制都放在事後評估，但這篇摘要主張，推論時就能插入驗證，可能比每次重新訓練 base model 更可擴充。它沒有宣稱完全自治，也沒說能保證零失誤，但它指出了一個很實用的改良路徑。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>先講最明顯的：摘要沒有 benchmark 數字，所以沒辦法直接比較提升幅度。也沒有看到任務種類、機器人平台、或視覺驗證器的具體架構。這些資訊缺了之後，外部讀者只能知道方向，還不能精準判斷適用範圍。\u003C\u002Fp>\u003Cp>另外，推論時多一個 verifier，通常也代表多一層計算與延遲。這篇摘要沒有說 steering 的成本是多少，也沒說它能不能跑在很緊的控制迴圈裡。對真正要上線的系統來說，這會是很現實的問題。\u003C\u002Fp>\u003Cp>還有一個問題是魯棒性。視覺驗證器要能看懂場景，才能判斷 rollout 好不好。但摘要沒有提失敗案例，也沒有說驗證器在場景變化下會不會失準。這表示它是個有潛力的機制，但不是可以直接拿來當萬靈丹。\u003C\u002Fp>\u003Cp>即便如此，這篇論文的核心訊息還是很清楚：如果機器人能在推論時驗證自己的嘗試，再把驗證過的結果拿去訓練，它就有機會建立一個更接近真實部署情境的改進迴圈。這不是大張旗鼓的突破口號，而是一個很工程、很實作導向的想法。\u003C\u002Fp>\u003Cp>對台灣做機器人、邊緣 AI、或自動化系統的開發者來說，VERITAS 值得注意的點在於，它把「模型會不會自己變好」這件事，從訓練室搬到部署現場。這個方向未必便宜，也未必容易，但它很符合真實世界裡系統演進的方式。\u003C\u002Fp>","VERITAS 把視覺驗證器接到機器人策略上，讓模型在推論時就能修正動作，還能用驗證過的自生成軌跡繼續改進。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.18247",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677082980-g8km.png","research","zh","2f8d825d-5520-4fb6-b1dc-a309b0193f3e",[17,18,19,20,21],"robot policy","visual verification","inference-time steering","generalist robots","self-generated rollouts",[23,24,25],"VERITAS 把視覺驗證器放進推論流程，讓機器人策略能在執行當下被修正。","摘要主張，驗證過的自生成軌跡可用來做後續微調，減少對人類示範的依賴。","這篇沒有公開完整 benchmark 數字，因此更適合把它當成方法方向與系統設計參考。",0,"2026-06-17T06:17:37.525843+00:00","2026-06-17T06:17:37.519+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":32,"relatedPosts":36},[],{"id":15,"slug":33,"title":34,"language":35},"veritas-robot-policy-visual-verification-en","VERITAS lets robots verify and improve at runtime","en",[37,43,49,55,61,67],{"id":38,"slug":39,"title":40,"cover_image":41,"image_url":41,"created_at":42,"category":13},"f0501097-0bec-43ec-b310-56fc442ab53c","arxiv-ai-papers-agents-memory-data-zh","ArXiv這批 AI 論文都在補三件事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685180920-w8wl.png","2026-06-17T08:32:36.427824+00:00",{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"a11f0446-10ed-4065-b079-fd59f9d7e6e1","reprorepo-github-issues-reproducibility-audits-zh","ReproRepo 用 GitHub issues 做可重現性稽核","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678882881-amo7.png","2026-06-17T06:47:34.915676+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"7cd85acd-4f96-43b7-a980-db5092ece240","variable-width-transformers-cut-wasted-capacity-zh","可變寬度 Transformer 省算力","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677978302-5pqn.png","2026-06-17T06:32:32.22399+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"60d92b7d-73c4-4da6-a3d8-3de30d8ada82","phase-noise-information-aging-massive-mimo-zh","相位雜訊讓大規模MIMO資訊老化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781641075077-kuxz.png","2026-06-16T20:17:27.875482+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"83b83aaf-90bf-44d6-a2c8-74665bfe99b8","ai-model-benchmarks-gpt-55-claude-gemini-en-zh","18 項 AI 基準更新：GPT-5.5、Claude、Gemini 同場比拼","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781636583869-5rox.png","2026-06-16T19:02:23.356505+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"4c04ff19-06b6-4917-92df-189e6a34886b","exact-posterior-scores-inverse-problems-zh","精確後驗分數解線性反問題","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781591581223-cx37.png","2026-06-16T06:32:31.505084+00:00",[74,79,84,89,94,99,104,109,114,119],{"id":75,"slug":76,"title":77,"created_at":78},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":80,"slug":81,"title":82,"created_at":83},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]