VERITAS 讓機器人邊跑邊驗證
VERITAS 把視覺驗證器接到機器人策略上,讓模型在推論時就能修正動作,還能用驗證過的自生成軌跡繼續改進。

VERITAS 把視覺驗證器接到機器人策略上,讓模型在推論時就能修正動作,還能用驗證過的自生成軌跡繼續改進。
- 研究機構:arXiv 摘要未明確標註
- 核心數據:摘要無公開 benchmark 數字
- 突破點:推論時視覺驗證
機器人不是訓練完就會一直進步。真實環境裡,場景會變、物件擺法會變,原本沒見過的失敗模式也會冒出來。這篇論文想處理的,就是部署之後怎麼讓策略不要停在原地。
VERITAS 的核心想法很直接:先讓機器人自己提議動作,再用視覺驗證器檢查,保留好的,丟掉差的,最後把這些被驗證過的軌跡拿去做後續改進。它不是要把訓練和部署切得很死,而是把「邊跑邊學」變成系統的一部分。
對開發者來說,這種設計的吸引力在於,它嘗試把人類示範的依賴降下來。不是每次都要重新蒐集資料、重新標註、重新訓練,才能讓策略多撐一點。這篇摘要提供的是一個更務實的方向:讓機器人先在推論階段自己過濾,再把過濾後的結果變成下一輪學習素材。
這篇論文要解的痛點
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
機器人策略常見的問題,不是「能不能在實驗室跑」,而是「出了實驗室還能不能用」。一旦環境換了,原本訓練得很好的 policy 也可能開始出錯。這篇摘要把這個問題講得很清楚:如果想要機器人持續變好,就需要某種機制,讓它能練習、判斷自己的嘗試,然後從回饋裡學到東西。

傳統流程通常是兩段式。先訓練,再部署。部署之後要改進,往往得靠更多示範、更多資料、更多重新訓練。這對機器人系統來說很傷,因為每次收資料都不便宜。VERITAS 想做的是把這條界線模糊掉,讓推論時的行為本身就能參與學習。
摘要裡特別提到 generalist robot policies。這代表作者不是只盯單一任務,而是想改善一類可跨任務、跨環境運作的策略。這也讓方法比較像一個系統層級的補強,而不是只針對某個狹窄場景的技巧。
VERITAS 到底怎麼運作
這個方法可以先想成「生成器 + 驗證器」架構。生成器就是一個預訓練好的 generalist robot policy,負責提出動作。驗證器則是視覺模型,負責在推論當下判斷這個動作看起來好不好。
白話一點,就是策略先出主意,驗證器再幫忙把關。這個驗證器是 gradient-free,意思是它不是拿來當可微分的訓練損失,也不是直接回傳梯度去改主模型。它比較像一個 runtime judge,在執行時就能影響策略選擇。
摘要把這件事稱為 inference-time policy steering。重點在於,驗證不是事後評分,而是決策流程的一部分。模型在還沒真正做出動作前,就已經被往比較好的方向推了一把。
而且這個驗證機制不只用在當下。摘要也提到 verified rollouts 會被拿去做後續的 offline policy improvement。也就是說,系統會先收集被驗證過的軌跡,再用它們去微調策略。這讓整個迴圈變成:先跑、再驗、再學。
這種設計的好處是,資料品質不再完全依賴人類介入。只要驗證器能分辨哪些 rollout 比較好,機器人就能自己產生下一輪訓練資料。從工程角度看,這比每次都重新找示範更像是可持續的資料生產線。
論文實際證明了什麼
根據摘要,推論時的驗證可以持續優於沒有額外示範資料訓練的 vanilla generalist policies。這是 runtime 端最重要的訊號:VERITAS 不是只在離線訓練階段有用,而是能在執行當下直接改善表現。

摘要也說,拿驗證過的自生成軌跡去微調之後,策略會得到持續的性能提升。這代表機器人可以自己產生某種訓練訊號,不必完全靠人類示範。對資料昂貴的機器人領域來說,這個方向很實際。
另一個重點是,摘要宣稱用 verified rollouts 做 post-training,可以達到和 expert demonstrations 相近的效率,而且不需要 human interventions。這句話很關鍵,因為專家示範通常就是機器人資料管線裡最貴、最慢的那一段。
不過,摘要沒有公開完整 benchmark 數字,所以我們看得到趨勢,看不到精確幅度。它沒列出任務清單、測試設定、驗證器細節,也沒有提供各項比較的量化結果。換句話說,這篇摘要告訴你方法有效,但還不足以讓你直接評估它在你自己的系統裡會有多大收益。
對開發者有什麼啟發
如果你在做 robot policy,這篇最值得記住的不是某個單點技巧,而是一個架構分工。生成器負責提案,驗證器負責品質控制。這比把所有責任都塞進單一模型裡,更容易理解,也更容易在系統上做調整。
它也提供了一條「少靠人、先靠自己」的改進路線。機器人不必等到人類重新標註完資料,才有下一次進步機會。只要驗證器夠好,系統就能把自己的嘗試變成下一輪訓練素材,慢慢把策略往前推。
這對部署在複雜環境的團隊很有吸引力。因為現實世界的變動,不會照著訓練集的節奏來。與其每次環境一變就整套重訓,不如在推論時先加一道檢查,讓策略先更穩,再慢慢累積更好的軌跡。
從系統設計角度看,VERITAS 也像是一種把驗證前移的做法。很多安全或品質機制都放在事後評估,但這篇摘要主張,推論時就能插入驗證,可能比每次重新訓練 base model 更可擴充。它沒有宣稱完全自治,也沒說能保證零失誤,但它指出了一個很實用的改良路徑。
限制與還沒回答的問題
先講最明顯的:摘要沒有 benchmark 數字,所以沒辦法直接比較提升幅度。也沒有看到任務種類、機器人平台、或視覺驗證器的具體架構。這些資訊缺了之後,外部讀者只能知道方向,還不能精準判斷適用範圍。
另外,推論時多一個 verifier,通常也代表多一層計算與延遲。這篇摘要沒有說 steering 的成本是多少,也沒說它能不能跑在很緊的控制迴圈裡。對真正要上線的系統來說,這會是很現實的問題。
還有一個問題是魯棒性。視覺驗證器要能看懂場景,才能判斷 rollout 好不好。但摘要沒有提失敗案例,也沒有說驗證器在場景變化下會不會失準。這表示它是個有潛力的機制,但不是可以直接拿來當萬靈丹。
即便如此,這篇論文的核心訊息還是很清楚:如果機器人能在推論時驗證自己的嘗試,再把驗證過的結果拿去訓練,它就有機會建立一個更接近真實部署情境的改進迴圈。這不是大張旗鼓的突破口號,而是一個很工程、很實作導向的想法。
對台灣做機器人、邊緣 AI、或自動化系統的開發者來說,VERITAS 值得注意的點在於,它把「模型會不會自己變好」這件事,從訓練室搬到部署現場。這個方向未必便宜,也未必容易,但它很符合真實世界裡系統演進的方式。