Gemini Omni 影片模型怎麼了
Gemini Omni 外流測試顯示它在影片文字渲染與聊天室編輯上很強,但配額和安全限制可能讓實用性打折。

Gemini Omni 是 Google 外流的影片模型,主打影片文字渲染強,還能在聊天內直接改片。
說真的,這東西蠻有意思。外流測試發生在 Google I/O 2026 前幾天。畫面、提示詞、對照結果都被放出來了。重點很直接:Gemini Omni 在影片裡顯示文字,比 Seedance 2.0 和 Kling 3.0 更穩。它還加了聊天室內編輯,這點不少工具還做不到。
如果你做教學片、產品示範,或任何有字的畫面,這能力很實用。因為 AI 影片最常翻車的地方,不是人物走路。是字會歪掉、糊掉,甚至直接消失。這次外流剛好打到痛點。
| 項目 | Gemini Omni | Seedance 2.0 | Kling 3.0 |
|---|---|---|---|
| 文字渲染 | 測試最佳 | 約 3 秒內開始壞掉 | 表現較弱 |
| 聊天室內編輯 | 有 | 沒有 | 沒有 |
| 每日配額影響 | 2 支影片吃掉 86% | 一般使用 | 一般使用 |
| 公開可用性 | 尚未 | 已可用 | 已可用 |
Gemini Omni 到底是什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
Gemini Omni 是 Google 放進 Gemini app 的整合式影片生成和編輯模型。它走的是聊天式流程。你先丟文字生成影片,再在同一串對話裡改片。也能用模板重混,或替換畫面中的物件。

講白了,Google 想把「生片」和「改片」塞進同一個介面。這種設計很現實。因為多數影片工具還是把建立和編輯拆成兩個產品。使用者要切來切去,流程很煩。
外流內容也顯示,它很可能在正式發表前就先露面。這很 Google。功能常常先跑進公開介面,再慢慢補說明。這次剛好卡在 Google I/O 2026 前夕,時間點很微妙。
- 可直接在聊天內生成影片
- 可做物件替換與浮水印移除
- 可用模板把素材重混成不同版本
- 生成和修改都留在同一串對話
為什麼文字渲染最重要
AI 影片模型可以讓人走路、坐下、轉頭。這些都還算能看。真正難的是,畫面裡的字要一直保持可讀。只要鏡頭一動,字母、間距、筆畫就很容易崩。
這次最清楚的 demo,是一位教授在黑板上寫三角函數公式。模型把公式撐住了。像 sin²(x) + cos²(x) = 1 這種內容,還能維持到可讀。人物動作和粉筆痕跡也沒有亂掉。
“Generative video models are hitting a ceiling on temporal coherence, and text is one of the first places that ceiling shows up.” — Rowan Cheung, The Rundown AI 創辦人
這句話很準。影片模型卡住的地方,常常先出現在文字。不是臉不夠像,而是字撐不住時間軸。Gemini Omni 看起來像是先把文字當語言問題處理,再轉成視覺問題。
Seedance 2.0 的對照就很明顯。它一開始還行,但幾秒後公式就亂了。Kling 3.0 在同樣比較裡更差。這就是為什麼黑板片段很重要。它不是秀肌肉而已。它直接測出模型能不能用在教學、簡報、產品說明。
- 文字穩定度,決定能不能做教學片
- 可讀字幕,決定能不能做產品示範
- 符號和公式,最容易抓出模型弱點
- 字撐得住,影片才有實用價值
聊天室內編輯,才是 Google 能收費的地方
文字渲染會吸睛,但編輯功能才可能變成商業重點。外流內容顯示,Gemini Omni 有三種編輯模式:物件替換、浮水印移除、模板式重混。這些都不是單純修圖而已。

有個 demo 把海邊餐桌上的義大利麵,換成泰式湯品。燈光、人物位置、桌面關係還能維持。這代表模型不只是在換一個物件。它還要理解那個物件跟整個場景怎麼互動。
另一個 demo 是把 Sora 生成影片上的浮水印移掉。這件事很實際。如果正式版也能做到,Gemini Omni 就不只是生成器。它會變成一層後製工具。Google 很可能想卡這個位置。
- 物件替換要維持場景連貫
- 浮水印移除可處理第三方輸出
- 模板可把原始片段變成固定格式
- 整個流程都在同一串聊天裡完成
這種流程差很多。你不用開一堆軟體。先叫它生一支,再要求改道具,再來一版。對創作者來說,省下的不是一分鐘而已,是整個切換成本。
跟 Seedance 2.0、Kling 3.0 比起來怎樣
從外流測試看,Gemini Omni 在有文字的場景很強。這點很明確。但如果拉到其他類型,優勢就沒那麼乾脆。Seedance 2.0 在吃東西、食物移動這類畫面上更穩。Kling 3.0 則是在文字和整體一致性上都比較弱。
所以實際上可以這樣切。你要做教學、標示、字幕很多的內容,Gemini Omni 比較適合。你要拍食物、料理、物理互動,Seedance 2.0 可能更安全。這不是誰比較潮的問題,是誰比較不會翻車。
如果是旅遊、生活、產品影片,差距可能沒那麼大。這時候價格、配額、開放時間就比畫質更重要。說白了,Google 如果把門開太小,模型再強也只是 demo。
- Gemini Omni:文字最好,編輯強,安全限制也多
- Seedance 2.0:食物動作較穩,文字較弱
- Kling 3.0:在這次測試裡整體較弱
- 對多數人來說,配額可能比畫質更重要
它還有哪些明顯短板
餐桌那個測試也暴露了老問題:食物物理還是不太行。影片裡的義大利麵會出現、消失、又再出現。人看起來是自然的,但盤子上的東西不穩。
這不是 Google 才有的毛病。吃東西本來就是 AI 影片很難的題目。因為它要同時追蹤物件變形、材質變化、還有每一幀的狀態。Seedance 2.0 在這裡反而更好,所以食物創作者別急著站隊。
安全層也帶來摩擦。外流測試的人不能直接用完整的「Will Smith eating spaghetti」名稱,系統會擋。只能改成描述式提示詞。這種限制對一般用戶也許還行,但做惡搞、引用、娛樂內容的人會很煩。
更麻煩的是配額。外流顯示,兩支影片就吃掉 86% 的 AI Pro 每日額度。如果正式版也差不多,那很多人一天只能玩幾次。尤其同一訂閱還要分給文字、圖片、程式碼工作。
Google I/O 2026 要看什麼
重點不是這次外流看起來多猛。它確實猛。重點是 Google 上線時會不會給合理配額、放寬安全限制,還有定出創作者能接受的價格。
如果 Google 把影片額度從一般 AI Pro 池子拆開,Omni 就比較像真的工作工具。如果不拆,使用者很快就會撞牆。那它最後可能只適合偶爾 demo,或內部流程用。
我會盯三件事。第一,公開日期。第二,配額政策。第三,編輯功能會留在 Gemini 裡,還是拆成獨立產品。這三個答案,會直接決定它是日常工具,還是發表會素材。
講白了,Gemini Omni 現在最像一個解痛點的影片模型。它不是只拼真實感。它先解決「字能不能留住」這件事。接下來就看 Google 會不會真的讓人用得夠多。
接下來我會怎麼看
如果你是開發者,先別急著只看畫面好不好看。你要問的是 API、配額、延遲、價格,還有輸出能不能穩定重現。這些才是能不能接進產品的核心。
如果你是內容創作者,先盯字幕、標示、教學片這三種場景。這些地方最吃文字穩定度。只要 Gemini Omni 真能把字撐住,它就會比很多只會做漂亮鏡頭的模型更實用。
我猜 Google 會把它包得很保守。先小量開放,再慢慢放寬。你可以先把這次外流當成一個訊號。影片模型的下一場競爭,不只是誰畫面更真。是誰能把字、編輯、配額一起做好。