MoRight 讓影片控制更有因果感

OraCore Editors

返回首頁

[RSCH] 2026年4月9日7 分鐘閱讀OraCore 編輯部

MoRight 讓影片控制更有因果感

MoRight 把相機運動和物件運動拆開，還把動作分成主動與被動兩段，讓影片生成不只會動，還能更像真的有因果關係。

video generation

分享 LinkedIn

把影片生成做成「可控制」不難，難的是控制得合理。使用者可能想移動物件、切換鏡頭，還希望畫面裡的其他元素會像真實世界一樣跟著反應。MoRight: Motion Control Done Right 這篇論文就直接點出問題：很多現有方法把相機運動和物件運動混在一起，還把 motion 當成單純位移，結果能動，卻不一定有脈絡，也不一定有因果。

這個方向對開發者很實際。只要你在做可互動影片生成、機器人模擬、場景編輯器，或任何需要使用者輸入能驅動畫面變化的系統，就會碰到同一個痛點：畫面要能被編輯，還要能維持世界觀一致。MoRight 想處理的，就是這個落差。

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

論文聚焦的是 motion-controlled videos，也就是使用者先指定動作，模型再從選定視角生成看起來合理的場景動態。作者認為，這類系統至少要同時滿足兩件事。第一，要能把 motion control 拆開，避免相機變化和物件移動互相干擾。第二，要有 motion causality，也就是一個物件的動作，能合理引發另一個物件的反應，而不是只把像素搬來搬去。

原始摘要也很直接地說，現有方法在這兩點上都不夠好。它們常把 camera motion 和 object motion 壓成同一條 tracking 訊號。這會讓編輯變得很卡，因為你只想改視角，卻可能連原本要控制的動作一起弄亂。另一個問題是，很多方法把 motion 當成 kinematic displacement，能描述位置怎麼變，卻沒有明講「為什麼會變」。

這就是 MoRight 想補的洞。它不是只在追求影片看起來會動，而是希望控制訊號本身就有結構。對生成模型來說，這差很多。只會跟著輸入動，和真的理解輸入會帶來什麼後果，是兩種不同層次的控制。

MoRight 的方法到底怎麼運作

MoRight 被描述成一個統一框架，核心是 disentangled motion modeling。白話一點說，它先把物件的 motion 放到 canonical static view 裡面表示，也就是先在一個固定、標準化的視角中定義動作，再把這個動作轉移到使用者指定的相機視角。這個轉移是透過 temporal cross-view attention 完成的，而摘要指出，這樣可以把 camera motion 和 object motion 分開控制。

這個設計的重要性在於，它避免模型把「物件怎麼動」和「鏡頭怎麼看」綁成同一件事。從實作角度看，這代表使用者可以分別指定兩件不同的事：一個是什麼在動，另一個是從哪個角度看。模型則負責把動作映射到目標視角，而不是把視角本身塞進 motion 表示裡。

第二個重點是 causality。MoRight 把 motion 拆成 active 和 passive 兩種成分。active motion 是使用者驅動的動作；passive motion 則是這個動作所帶來的後果。摘要說，模型會從資料中學 motion causality，讓它不只知道「有東西移動了」，還能表示「因為某個動作發生，所以另一個反應跟著出現」。

這裡的差別很關鍵。很多生成模型可以做出看起來順的運動軌跡，但那只是表面上的連續性。MoRight 嘗試把行為和反應拆開，讓場景中的事件關係更像有順序、有原因，也有結果。

在推論階段，摘要提到 MoRight 支援兩種模式。forward reasoning 是使用者先給 active motion，模型再推測後續的結果。inverse reasoning 則相反，使用者先指定想要的 passive outcome，模型回推可能的驅動行為。兩種模式下，相機視角都還是可以自由調整。

這讓它不只是影片生成器，也有點像一個互動式的動作推理系統。你不一定非得從「我要怎麼動」開始，也可以從「我想看到什麼結果」倒推回去。對產品設計來說，這會打開更多控制介面，也更接近使用者在真實工作流中的思考方式。

論文實際證明了什麼

根據摘要，作者把 MoRight 放到三個 benchmark 上評估，並宣稱在 generation quality、motion controllability、interaction awareness 這三個面向都達到 state-of-the-art。這代表它不是只在單一指標上好看，而是同時想兼顧畫面品質、動作可控性，以及場景互動理解。

不過，摘要沒有公開完整 benchmark 細節。裡面沒有 benchmark 名稱，也沒有數字、提升幅度或 metric 值。所以就目前這份來源來看，我們只能知道它有做三組評估，而且結果被作者描述為領先，但還不能判斷領先多少，也不能知道是在什麼資料設定下達成。

即便如此，這個結果方向還是有意義。因為這三個面向本來就很容易互相拉扯。畫面品質高，不代表控制性好。控制性好，也不代表場景互動自然。互動看起來合理，又不一定能維持整體生成品質。MoRight 的摘要主張它能同時往三個方向前進，這至少說明它不是只在做單點優化。

但限制也很明顯。沒有完整 benchmark 數字，我們無法從摘要判斷改善幅度。也不知道它在不同場景複雜度下是否穩定，或是需要多少計算成本才能維持這種控制能力。摘要沒有提供這些資訊，所以不能替它補答案。

摘要只說有三個 benchmark，沒有列出名稱
結果被描述為 state-of-the-art
主打三個面向：generation quality、motion controllability、interaction awareness
沒有公開數值、提升幅度或完整評測設定

對開發者有什麼影響

如果你在做可控生成，MoRight 最值得注意的不是它會不會動，而是它怎麼把控制拆開。把 camera control 和 object motion 分離，對編輯器、互動式創作工具、模擬系統都很重要。因為使用者通常不是想「讓整張圖亂動」，而是想精準改某個元素，並且保留其他部分的穩定。

另一個實用點是 active/passive 的分解。這種設計讓系統不只是接受指令，還能表達反應。對需要互動感的產品來說，這很有價值。你可以把它想成：使用者輸入一個動作，模型不只回傳畫面變化，還回傳一種更接近「事件鏈」的結果。這比單純的位移預測更接近真實世界的互動邏輯。

如果放到應用層，這種能力特別適合那些需要回答「如果我這樣做，會發生什麼」的場景。像是內容創作工具、教學模擬、互動場景編輯，或任何需要從動作推結果、再從結果反推動作的系統。MoRight 提供的 forward reasoning 和 inverse reasoning，剛好對應這兩種需求。

但開發者也要注意摘要沒說清楚的地方。它沒有交代長距離依賴怎麼處理，也沒有說在擁擠場景、複雜互動、或少見事件上表現如何。canonical static view 這個表示方式雖然很有想法，但也可能帶來新的失真或限制；只是摘要沒有細節，不能替它腦補。

所以比較務實的看法是：MoRight 提供了一個很清楚的架構方向。它提醒大家，motion control 不該只看「有沒有動」，而要看「誰在動、從哪裡看、為什麼動、接下來會怎麼反應」。對可控影片生成來說，這個拆解很有參考價值。

總結

MoRight 的重點，不是把影片做得更花俏，而是把控制做得更像真的世界。它嘗試把相機和物件運動分開，並把動作拆成主動與被動兩段，讓影片生成同時具備可編輯性和因果感。

根據摘要，這個方法在三個 benchmark 上拿到領先結果，但沒有公開完整數字與設定。即便如此，論文傳達的方向已經很清楚：如果你要的是可控、可互動、而且反應合理的影片生成，單純把畫面動起來還不夠，還得把 motion 的結構一起建起來。

// 相關文章

MoRight 讓影片控制更有因果感

這篇論文在解什麼痛點

訂閱 AI 趨勢週報

MoRight 的方法到底怎麼運作

論文實際證明了什麼

對開發者有什麼影響

總結

VLM 描述複雜場景變準了

視覺預訓練勝過純文字

PHINN-EEG 用拓撲看夢境 EEG

Android Bench 更新，Gemini 掉到第五

2026 年挑 LLM，別再把 benchmark 當答案

Rust 進入 TIOBE 前十的判讀筆記