AdaCodec 用預測碼壓縮影片 token

OraCore Editors

返回首頁

[RSCH] 2026年6月2日5 分鐘閱讀OraCore 編輯部

AdaCodec 用預測碼壓縮影片 token

AdaCodec 用預測式視覺碼只編碼難預測畫面與幀間變化，讓影片 MLLM 在更少 token 下維持表現，還能降低首 token 延遲。

reference frame predictive coding visual tokens video MLLM P-tokens

分享 LinkedIn

AdaCodec 只編碼難預測的畫面與幀間變化，讓影片 MLLM 用更少 token 還能維持表現。

研究機構：arXiv 摘要未明確標註
核心數據：32k tokens 對比 224k baseline
突破點：預測式視覺碼

影片模型一直有個老問題：重複資訊太多。相鄰幀常常只是背景、物件位置或局部動作在變，但很多系統還是把每一幀都當成新的 RGB 圖像來編碼。結果就是 token 花得快，推理也變重。

AdaCodec: A Predictive Visual Code for Video MLLMs 想處理的就是這種浪費。它不是把每一幀都完整送進模型，而是先判斷這一幀能不能從前文預測出來。能預測的，就只傳幀間變化；難預測的，才送 reference frame。

這篇在解什麼痛點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這篇論文鎖定的是影片 MLLM 的輸入效率問題。現在常見做法，是把抽樣出的每一幀都獨立編成視覺 token。這樣做很直觀，但也很粗暴，因為影片本來就有很強的時間冗餘。

對開發者來說，冗餘不是抽象名詞，而是直接反映在成本上。token 預算更高、推理更慢、能塞進上下文的影片也更少。當影片內容越長，這個問題越明顯。

作者的觀點很直接：影片的輸入方式應該跟影片本身的結構一致。也就是說，不要每次都重新描述整張圖，而是優先描述「這一幀相對前文改了什麼」。

AdaCodec 的做法是什麼

AdaCodec 可以理解成一種預測式視覺碼。它的核心不是壓縮單張圖，而是壓縮影片序列中的可預測部分。

具體來說，AdaCodec 會在 conditional predictive cost 高的時候，才使用完整 reference frame。若場景其實很好預測，就改用幀間變化來表示，包含 motion 和 prediction residual，並把這些資訊包成更精簡的 P-tokens。

白話一點，它不是在重建每一幀，而是在問：下一幀到底新增了什麼。這個思路跟傳統「每幀都是獨立圖片」的管線很不一樣，因為它把編碼重心從內容本身，轉到內容之間的差異。

這種設計對系統工程很有吸引力。只要模型能保留足夠的影片資訊，卻少吃很多重複 token，就有機會同時換到更長上下文、更低延遲，或更低推理成本。

論文實際證明了什麼

摘要提到，作者在 11 個 benchmark 上做了評估。它的比較對象是 Qwen3-VL-8B 的 per-frame RGB baseline，而且是在 matched visual-token budget 下比較，也就是盡量把 token 條件拉齊。

最醒目的數字是 token 效率。摘要寫到，即使只有 one-seventh 的 budget，AdaCodec 用 32k tokens 仍然能在所有 long-video benchmarks 上超過 224k baseline。這代表它不是只靠多吃 token 換分數，而是真的把冗餘壓掉了。

在五個 general-video benchmarks 上，摘要說 AdaCodec 提升了平均分數，同時把 time-to-first-token 從 9.26 秒降到 1.62 秒。這個差距很實際，因為對互動式產品來說，使用者最先感受到的常常不是最終分數，而是模型多久開始回應。

不過，摘要沒有公開完整 benchmark 表格，所以看不到每個任務的細部分數差，也沒有把 11 個 benchmark 的完整清單與設定全部列出來。就摘要能確認的範圍來看，AdaCodec 的訊號很明確：更少 token、更低延遲，而且表現沒有跟著掉下去。

這對開發者代表什麼

如果你在做影片問答、會議摘要、監控分析，或任何要吃影片的 MLLM 產品，token 效率都不是小事。它會直接影響你能處理多長的影片、一次能塞多少上下文，以及每次請求的成本。

AdaCodec 提供的是一種更務實的輸入層設計。它不是一味擴大模型，而是重新定義影片該怎麼進模型。對重複性高的影片資料來說，這種 predictive coding 比 per-frame RGB encoding 更貼近資料本身的樣子。

這也提醒一件事：有時候性能提升不一定只靠更大的模型，還可能來自更聰明的資料介面。AdaCodec 的重點就在這裡。它是在輸入端做優化，但摘要聲稱這個改動已經能同時帶來分數與延遲上的改善。

還有哪些限制要注意

摘要雖然給了方向，但還沒有把細節講滿。它沒有說 predictive cost 具體怎麼算，也沒有交代 P-tokens 的內部形成方式。

另外，摘要也沒有說 AdaCodec 是否需要特殊訓練資料，是否能直接跨模型家族使用，或是在快速切鏡、鏡頭晃動、嚴重遮擋這些情境下會不會變得不穩定。這些都是真正在產品裡會遇到的狀況。

所以現在比較適合的解讀，不是「影片 MLLM 已經被解決」，而是「這篇提出了一條更省 token 的路」。從摘要看，它至少在幾類 benchmark 上證明了這條路可行。

總結

AdaCodec 把影片理解重新包裝成一個預測問題：能預測的內容就少傳，真的變動了再補上。摘要顯示，這個做法能在較低 token 預算下維持甚至提升表現，還能明顯縮短首 token 延遲。

對開發者來說，這個方向的價值很直接。如果後續完整論文與實作細節能站得住腳，預測式視覺碼有機會讓影片 MLLM 變得更便宜、更快，也更容易擴到長影片場景。

它把影片冗餘從輸入端先壓掉。
它用 reference frame 搭配 P-tokens 表示變化。
它在摘要中同時給出效率與延遲改善訊號。

// 相關文章

AdaCodec 用預測碼壓縮影片 token

這篇在解什麼痛點

訂閱 AI 趨勢週報

AdaCodec 的做法是什麼

論文實際證明了什麼

這對開發者代表什麼

還有哪些限制要注意

總結

CRDT 讓副本不用鎖也能同步

後決定性分散系：自治基礎設施新框架

用因果法量化任務可學性

RL 先接管再放手

OmniGameArena 讓 VLM 遊戲代理更好比

TurboQuant 在 Google 測試中省下 6x KV 快取