ActCam 讓鏡頭和動作一起控
ActCam 用零樣本方式,同時控制影片生成中的角色動作與攝影機路徑,重點是不必重新訓練新模型。

ActCam 用零樣本方式,同時控制影片生成中的角色動作與攝影機路徑。
ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation 盯上的,是影片生成裡一個很實際的痛點:你可以叫模型生一段場景,但要它同時聽懂「角色怎麼動」和「鏡頭怎麼走」,就沒那麼容易。對影像創作、VFX,或任何想把生成影片變成可導演工具的人來說,這種雙重控制不是加分而已,而是能不能真的拿來用的關鍵。
這篇論文的切入點很務實。它不是從頭訓練一個新模型,而是把控制能力疊加在既有的預訓練 image-to-video diffusion model 上。也就是說,模型本來就懂一些場景深度和角色姿態,ActCam 做的是把這些訊號重新編排,讓它在零樣本情境下,同時照顧動作與鏡頭運動。
它想解的問題是什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
現有影片生成系統常見的狀況是:你想控角色,就比較像在控姿態;你想控鏡頭,就得再加另一層條件。但一旦兩者一起上,尤其是視角變化很大時,模型很容易顧此失彼。角色動作要保持一致,鏡頭路徑又不能亂跑,這對生成模型來說本來就是高難度題目。

作者把這件事講得很直接:對創作工作流來說,影片生成不是只要「看起來像真的」,而是要能對齊 shot plan。換句話說,生成結果要符合導演想要的構圖、運鏡和角色表演,而不是只產出一段勉強合理的動態畫面。
論文也點出既有控制方法的典型限制。只看 pose 的方法,通常能保住動作,但鏡頭遵循度不夠;如果把 camera control 硬塞進去,生成又可能變得不穩,或被過度約束。ActCam 就是要處理這個取捨,讓兩種控制不要互相打架。
ActCam 到底怎麼做
ActCam 的流程,起點是一段來源影片,裡面有角色動作;另一個輸入則是目標攝影機運動。系統會從這兩個輸入產生兩類條件:pose 與 depth。重點不是單純抽出條件,而是要讓這些條件在各個 frame 之間保持幾何一致,避免模型在時間序列中收到彼此矛盾的指令。
接著,ActCam 不是一次把所有條件丟到底,而是用一個 two-phase conditioning schedule。前面的 denoising 步驟會同時用 pose 和 sparse depth,先把整體場景結構鎖住。等到後面,depth 會被移除,只留下 pose guidance,讓模型可以把高頻細節補齊,而不必一直被粗粒度的幾何限制綁死。
這個設計其實是整篇最核心的工程思路。它不是要求模型「永遠都要完全服從所有條件」,而是先把大方向穩住,再把限制放鬆,讓細節有空間長出來。作者主張,這樣的分段式引導,能在不重新訓練模型的前提下,提升 joint control 的效果。
另一個關鍵字是 zero-shot。這代表 ActCam 不是靠額外訓練去學會新能力,而是設計成可以直接套在既有的預訓練 image-to-video diffusion models 上,只要模型本身能吃 scene depth 和 character pose 這類條件即可。對實作端來說,這讓它更像一層控制管線,而不是整個模型架構重做。
論文實際證明了什麼
摘要提到,作者把 ActCam 放到多個 benchmark 上測試,範圍涵蓋不同角色動作與具挑戰性的視角變化。不過,這篇摘要沒有公開完整 benchmark 細節,也沒有列出具體數字,所以目前不能從摘要直接讀出提升幅度。

能確定的是,作者聲稱 ActCam 相較於只做 pose control,以及其他 pose-and-camera 方法,在 camera adherence 和 motion fidelity 兩個面向都有改善。這表示它不是只讓鏡頭更聽話,也不是只讓動作更穩,而是試圖把兩者一起拉起來。
摘要還提到一個重要的使用者評估結果:在大幅視角變化的情況下,ActCam 更受人類偏好。這點很有意思,因為生成影片在創作場景裡,最後常常不是看分數,而是看人眼覺得順不順、像不像真的鏡頭語言。若鏡頭變化一大就容易崩,工具就很難進到實際工作流程。
從摘要能讀到的另一個訊號是,改善並不是來自新訓練,而是來自幾何一致的條件設計和分段式引導。也就是說,這篇的貢獻重點更像是「怎麼把既有訊號組織好」,而不是「發明一個全新的生成架構」。
- 零樣本:直接建立在預訓練 image-to-video diffusion model 上。
- 雙重控制:同時處理角色動作與攝影機路徑。
- 幾何一致:pose 與 depth 在各 frame 間保持對齊。
- 兩階段引導:先穩結構,再放鬆條件補細節。
對開發者有什麼影響
如果你在做影片生成工具,ActCam 提供了一個很實用的方向:更強的控制,不一定要靠更大模型或重新訓練,可能是靠更好的 conditioning schedule。這對想延伸既有 diffusion 系統能力的團隊來說,很有參考價值。
它也暗示了一條比較低門檻的整合路線。因為這是 zero-shot 方法,而且目標是已經支援 depth 和 pose conditioning 的模型,所以實驗成本可能比重訓整套模型低。對產品團隊來說,這種方式更適合先做原型驗證,再決定要不要投入更大工程。
放到應用場景看,像 motion editing、virtual production、storyboarding 這些工具,都很在意一件事:角色表演要保留,鏡頭構圖又要變。ActCam 嘗試把這件事做得更可靠,尤其是在鏡頭移動幅度很大的時候。
但限制也要講清楚。摘要沒有說 benchmark 的完整規模、詳細指標、推論成本,也沒有交代它在什麼樣的模型設定下最穩。換句話說,現在還不能只憑摘要就判斷它是否比所有方法都快、都省、都泛化得更好。
另外,這篇的方法前提也很明確:它是建立在本來就能接受 pose 和 depth 條件的 image-to-video diffusion models 之上。也就是說,ActCam 比較像一個可插拔的控制層,不是對所有影片生成系統都通用的魔法解法。
結論
ActCam 的目標很明確:把影片生成從「只能大概生成一段動態」推向「能像拍片一樣控制鏡頭和表演」。它透過從驅動影片轉移角色動作,再配合目標攝影機路徑,讓生成結果更接近真正可導演的 shot。
對工程師來說,這篇最值得記住的不是某個漂亮名詞,而是它的控制策略:先維持幾何一致,前段用結構條件把畫面穩住,後段再放鬆約束補細節。這種思路未必只適用在這篇論文,未來也可能成為更多生成式影片控制方法的基礎。
總結一句話:ActCam 不是在做更會「畫」的模型,而是在做更會「聽導演」的模型。