ActCam 讓鏡頭和動作一起控

OraCore Editors

返回首頁

[RSCH] 2026年5月8日6 分鐘閱讀OraCore 編輯部

ActCam 讓鏡頭和動作一起控

ActCam 用零樣本方式，同時控制影片生成中的角色動作與攝影機路徑，重點是不必重新訓練新模型。

diffusion model motion control camera control zero-shot video generation

分享 LinkedIn

ActCam 用零樣本方式，同時控制影片生成中的角色動作與攝影機路徑。

ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation 盯上的，是影片生成裡一個很實際的痛點：你可以叫模型生一段場景，但要它同時聽懂「角色怎麼動」和「鏡頭怎麼走」，就沒那麼容易。對影像創作、VFX，或任何想把生成影片變成可導演工具的人來說，這種雙重控制不是加分而已，而是能不能真的拿來用的關鍵。

這篇論文的切入點很務實。它不是從頭訓練一個新模型，而是把控制能力疊加在既有的預訓練 image-to-video diffusion model 上。也就是說，模型本來就懂一些場景深度和角色姿態，ActCam 做的是把這些訊號重新編排，讓它在零樣本情境下，同時照顧動作與鏡頭運動。

它想解的問題是什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

現有影片生成系統常見的狀況是：你想控角色，就比較像在控姿態；你想控鏡頭，就得再加另一層條件。但一旦兩者一起上，尤其是視角變化很大時，模型很容易顧此失彼。角色動作要保持一致，鏡頭路徑又不能亂跑，這對生成模型來說本來就是高難度題目。

作者把這件事講得很直接：對創作工作流來說，影片生成不是只要「看起來像真的」，而是要能對齊 shot plan。換句話說，生成結果要符合導演想要的構圖、運鏡和角色表演，而不是只產出一段勉強合理的動態畫面。

論文也點出既有控制方法的典型限制。只看 pose 的方法，通常能保住動作，但鏡頭遵循度不夠；如果把 camera control 硬塞進去，生成又可能變得不穩，或被過度約束。ActCam 就是要處理這個取捨，讓兩種控制不要互相打架。

ActCam 到底怎麼做

ActCam 的流程，起點是一段來源影片，裡面有角色動作；另一個輸入則是目標攝影機運動。系統會從這兩個輸入產生兩類條件：pose 與 depth。重點不是單純抽出條件，而是要讓這些條件在各個 frame 之間保持幾何一致，避免模型在時間序列中收到彼此矛盾的指令。

接著，ActCam 不是一次把所有條件丟到底，而是用一個 two-phase conditioning schedule。前面的 denoising 步驟會同時用 pose 和 sparse depth，先把整體場景結構鎖住。等到後面，depth 會被移除，只留下 pose guidance，讓模型可以把高頻細節補齊，而不必一直被粗粒度的幾何限制綁死。

這個設計其實是整篇最核心的工程思路。它不是要求模型「永遠都要完全服從所有條件」，而是先把大方向穩住，再把限制放鬆，讓細節有空間長出來。作者主張，這樣的分段式引導，能在不重新訓練模型的前提下，提升 joint control 的效果。

另一個關鍵字是 zero-shot。這代表 ActCam 不是靠額外訓練去學會新能力，而是設計成可以直接套在既有的預訓練 image-to-video diffusion models 上，只要模型本身能吃 scene depth 和 character pose 這類條件即可。對實作端來說，這讓它更像一層控制管線，而不是整個模型架構重做。

論文實際證明了什麼

摘要提到，作者把 ActCam 放到多個 benchmark 上測試，範圍涵蓋不同角色動作與具挑戰性的視角變化。不過，這篇摘要沒有公開完整 benchmark 細節，也沒有列出具體數字，所以目前不能從摘要直接讀出提升幅度。

能確定的是，作者聲稱 ActCam 相較於只做 pose control，以及其他 pose-and-camera 方法，在 camera adherence 和 motion fidelity 兩個面向都有改善。這表示它不是只讓鏡頭更聽話，也不是只讓動作更穩，而是試圖把兩者一起拉起來。

摘要還提到一個重要的使用者評估結果：在大幅視角變化的情況下，ActCam 更受人類偏好。這點很有意思，因為生成影片在創作場景裡，最後常常不是看分數，而是看人眼覺得順不順、像不像真的鏡頭語言。若鏡頭變化一大就容易崩，工具就很難進到實際工作流程。

從摘要能讀到的另一個訊號是，改善並不是來自新訓練，而是來自幾何一致的條件設計和分段式引導。也就是說，這篇的貢獻重點更像是「怎麼把既有訊號組織好」，而不是「發明一個全新的生成架構」。

零樣本：直接建立在預訓練 image-to-video diffusion model 上。
雙重控制：同時處理角色動作與攝影機路徑。
幾何一致：pose 與 depth 在各 frame 間保持對齊。
兩階段引導：先穩結構，再放鬆條件補細節。

對開發者有什麼影響

如果你在做影片生成工具，ActCam 提供了一個很實用的方向：更強的控制，不一定要靠更大模型或重新訓練，可能是靠更好的 conditioning schedule。這對想延伸既有 diffusion 系統能力的團隊來說，很有參考價值。

它也暗示了一條比較低門檻的整合路線。因為這是 zero-shot 方法，而且目標是已經支援 depth 和 pose conditioning 的模型，所以實驗成本可能比重訓整套模型低。對產品團隊來說，這種方式更適合先做原型驗證，再決定要不要投入更大工程。

放到應用場景看，像 motion editing、virtual production、storyboarding 這些工具，都很在意一件事：角色表演要保留，鏡頭構圖又要變。ActCam 嘗試把這件事做得更可靠，尤其是在鏡頭移動幅度很大的時候。

但限制也要講清楚。摘要沒有說 benchmark 的完整規模、詳細指標、推論成本，也沒有交代它在什麼樣的模型設定下最穩。換句話說，現在還不能只憑摘要就判斷它是否比所有方法都快、都省、都泛化得更好。

另外，這篇的方法前提也很明確：它是建立在本來就能接受 pose 和 depth 條件的 image-to-video diffusion models 之上。也就是說，ActCam 比較像一個可插拔的控制層，不是對所有影片生成系統都通用的魔法解法。

結論

ActCam 的目標很明確：把影片生成從「只能大概生成一段動態」推向「能像拍片一樣控制鏡頭和表演」。它透過從驅動影片轉移角色動作，再配合目標攝影機路徑，讓生成結果更接近真正可導演的 shot。

對工程師來說，這篇最值得記住的不是某個漂亮名詞，而是它的控制策略：先維持幾何一致，前段用結構條件把畫面穩住，後段再放鬆約束補細節。這種思路未必只適用在這篇論文，未來也可能成為更多生成式影片控制方法的基礎。

總結一句話：ActCam 不是在做更會「畫」的模型，而是在做更會「聽導演」的模型。

// 相關文章

ActCam 讓鏡頭和動作一起控

它想解的問題是什麼

訂閱 AI 趨勢週報

ActCam 到底怎麼做

論文實際證明了什麼

對開發者有什麼影響

結論

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維