[RSCH] 7 分鐘閱讀OraCore 編輯部

MoRight 讓影片控制更有因果感

MoRight 把相機運動和物件運動拆開,還把動作分成主動與被動兩段,讓影片生成不只會動,還能更像真的有因果關係。

分享 LinkedIn
MoRight 讓影片控制更有因果感

把影片生成做成「可控制」不難,難的是控制得合理。使用者可能想移動物件、切換鏡頭,還希望畫面裡的其他元素會像真實世界一樣跟著反應。MoRight: Motion Control Done Right 這篇論文就直接點出問題:很多現有方法把相機運動和物件運動混在一起,還把 motion 當成單純位移,結果能動,卻不一定有脈絡,也不一定有因果。

這個方向對開發者很實際。只要你在做可互動影片生成、機器人模擬、場景編輯器,或任何需要使用者輸入能驅動畫面變化的系統,就會碰到同一個痛點:畫面要能被編輯,還要能維持世界觀一致。MoRight 想處理的,就是這個落差。

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

論文聚焦的是 motion-controlled videos,也就是使用者先指定動作,模型再從選定視角生成看起來合理的場景動態。作者認為,這類系統至少要同時滿足兩件事。第一,要能把 motion control 拆開,避免相機變化和物件移動互相干擾。第二,要有 motion causality,也就是一個物件的動作,能合理引發另一個物件的反應,而不是只把像素搬來搬去。

MoRight 讓影片控制更有因果感

原始摘要也很直接地說,現有方法在這兩點上都不夠好。它們常把 camera motion 和 object motion 壓成同一條 tracking 訊號。這會讓編輯變得很卡,因為你只想改視角,卻可能連原本要控制的動作一起弄亂。另一個問題是,很多方法把 motion 當成 kinematic displacement,能描述位置怎麼變,卻沒有明講「為什麼會變」。

這就是 MoRight 想補的洞。它不是只在追求影片看起來會動,而是希望控制訊號本身就有結構。對生成模型來說,這差很多。只會跟著輸入動,和真的理解輸入會帶來什麼後果,是兩種不同層次的控制。

MoRight 的方法到底怎麼運作

MoRight 被描述成一個統一框架,核心是 disentangled motion modeling。白話一點說,它先把物件的 motion 放到 canonical static view 裡面表示,也就是先在一個固定、標準化的視角中定義動作,再把這個動作轉移到使用者指定的相機視角。這個轉移是透過 temporal cross-view attention 完成的,而摘要指出,這樣可以把 camera motion 和 object motion 分開控制。

這個設計的重要性在於,它避免模型把「物件怎麼動」和「鏡頭怎麼看」綁成同一件事。從實作角度看,這代表使用者可以分別指定兩件不同的事:一個是什麼在動,另一個是從哪個角度看。模型則負責把動作映射到目標視角,而不是把視角本身塞進 motion 表示裡。

第二個重點是 causality。MoRight 把 motion 拆成 active 和 passive 兩種成分。active motion 是使用者驅動的動作;passive motion 則是這個動作所帶來的後果。摘要說,模型會從資料中學 motion causality,讓它不只知道「有東西移動了」,還能表示「因為某個動作發生,所以另一個反應跟著出現」。

這裡的差別很關鍵。很多生成模型可以做出看起來順的運動軌跡,但那只是表面上的連續性。MoRight 嘗試把行為和反應拆開,讓場景中的事件關係更像有順序、有原因,也有結果。

在推論階段,摘要提到 MoRight 支援兩種模式。forward reasoning 是使用者先給 active motion,模型再推測後續的結果。inverse reasoning 則相反,使用者先指定想要的 passive outcome,模型回推可能的驅動行為。兩種模式下,相機視角都還是可以自由調整。

這讓它不只是影片生成器,也有點像一個互動式的動作推理系統。你不一定非得從「我要怎麼動」開始,也可以從「我想看到什麼結果」倒推回去。對產品設計來說,這會打開更多控制介面,也更接近使用者在真實工作流中的思考方式。

論文實際證明了什麼

根據摘要,作者把 MoRight 放到三個 benchmark 上評估,並宣稱在 generation quality、motion controllability、interaction awareness 這三個面向都達到 state-of-the-art。這代表它不是只在單一指標上好看,而是同時想兼顧畫面品質、動作可控性,以及場景互動理解。

MoRight 讓影片控制更有因果感

不過,摘要沒有公開完整 benchmark 細節。裡面沒有 benchmark 名稱,也沒有數字、提升幅度或 metric 值。所以就目前這份來源來看,我們只能知道它有做三組評估,而且結果被作者描述為領先,但還不能判斷領先多少,也不能知道是在什麼資料設定下達成。

即便如此,這個結果方向還是有意義。因為這三個面向本來就很容易互相拉扯。畫面品質高,不代表控制性好。控制性好,也不代表場景互動自然。互動看起來合理,又不一定能維持整體生成品質。MoRight 的摘要主張它能同時往三個方向前進,這至少說明它不是只在做單點優化。

但限制也很明顯。沒有完整 benchmark 數字,我們無法從摘要判斷改善幅度。也不知道它在不同場景複雜度下是否穩定,或是需要多少計算成本才能維持這種控制能力。摘要沒有提供這些資訊,所以不能替它補答案。

  • 摘要只說有三個 benchmark,沒有列出名稱
  • 結果被描述為 state-of-the-art
  • 主打三個面向:generation quality、motion controllability、interaction awareness
  • 沒有公開數值、提升幅度或完整評測設定

對開發者有什麼影響

如果你在做可控生成,MoRight 最值得注意的不是它會不會動,而是它怎麼把控制拆開。把 camera control 和 object motion 分離,對編輯器、互動式創作工具、模擬系統都很重要。因為使用者通常不是想「讓整張圖亂動」,而是想精準改某個元素,並且保留其他部分的穩定。

另一個實用點是 active/passive 的分解。這種設計讓系統不只是接受指令,還能表達反應。對需要互動感的產品來說,這很有價值。你可以把它想成:使用者輸入一個動作,模型不只回傳畫面變化,還回傳一種更接近「事件鏈」的結果。這比單純的位移預測更接近真實世界的互動邏輯。

如果放到應用層,這種能力特別適合那些需要回答「如果我這樣做,會發生什麼」的場景。像是內容創作工具、教學模擬、互動場景編輯,或任何需要從動作推結果、再從結果反推動作的系統。MoRight 提供的 forward reasoning 和 inverse reasoning,剛好對應這兩種需求。

但開發者也要注意摘要沒說清楚的地方。它沒有交代長距離依賴怎麼處理,也沒有說在擁擠場景、複雜互動、或少見事件上表現如何。canonical static view 這個表示方式雖然很有想法,但也可能帶來新的失真或限制;只是摘要沒有細節,不能替它腦補。

所以比較務實的看法是:MoRight 提供了一個很清楚的架構方向。它提醒大家,motion control 不該只看「有沒有動」,而要看「誰在動、從哪裡看、為什麼動、接下來會怎麼反應」。對可控影片生成來說,這個拆解很有參考價值。

總結

MoRight 的重點,不是把影片做得更花俏,而是把控制做得更像真的世界。它嘗試把相機和物件運動分開,並把動作拆成主動與被動兩段,讓影片生成同時具備可編輯性和因果感。

根據摘要,這個方法在三個 benchmark 上拿到領先結果,但沒有公開完整數字與設定。即便如此,論文傳達的方向已經很清楚:如果你要的是可控、可互動、而且反應合理的影片生成,單純把畫面動起來還不夠,還得把 motion 的結構一起建起來。