[TOOLS] 11 分鐘閱讀OraCore 編輯部

Magenta RealTime 2 讓你在 DAW 裡即時改曲

我拆 Magenta RealTime 2 怎麼把生成音樂塞回 DAW 內即時改,重點是 200ms 延遲、AU 外掛、雙模型與可直接抄的工作流模板。

分享 LinkedIn
Magenta RealTime 2 讓你在 DAW 裡即時改曲

Magenta RealTime 2 讓你在 DAW 裡即時生成、調整和混音,不用再來回匯出匯入。

我盯音樂 AI 工具有一陣子了,老實說,大多數都像是給不在 session 裡的人做的。你丟一句 prompt,等它跑完,匯出,匯入,播放,覺得不對,再重來一次。這流程拿來做 demo 還行,真要拿來配畫面就很煩,因為你要的不是「等一下給我結果」,你要的是「現在就跟著畫面動」。

所以我會注意到 GoogleMagenta RealTime 2,不是因為它又會生音樂,而是它終於像個樂器,不像批次任務。模型權重也放在 Hugging Face,而且它不是只給你一個網頁玩具,還有能塞進 DAW 的外掛路線。這點我很在意,因為我不想再多開一個分頁來折磨自己。

我先看的是延遲,不是音色

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

“The model generates 48 kHz stereo audio with a control latency of roughly 200 milliseconds on consumer Apple Silicon hardware.”

翻譯一下就是:它不是那種你下完指令要去倒咖啡的工具。200 毫秒這個數字很重要,因為它代表我改方向之後,幾乎立刻就能聽到回應。這不是「AI 很快」那種空話,這是創作迴圈裡能不能待得住的差別。

Magenta RealTime 2 讓你在 DAW 裡即時改曲

我以前碰過一些生成音樂工具,聲音其實不差,但只要進到配畫面場景就整個失去價值。你在剪對白底下的 cue,情緒只想往右偏一點點,結果它要你等三秒、五秒,等你回來,腦子裡那個場景感早就散了。那時候工具再會吹也沒用,因為它把你踢出工作流了。

原文還提到早期版本大概有 3 秒控制延遲,現在壓到約 200 毫秒,內部 frame size 也從 2 秒縮到 40ms。這種細節平常很容易被跳過,但其實就是它為什麼能像即時樂器的原因。不是玄學,是回饋迴路夠短。

實操上我會這樣看:先別把它當「生成器」,把它當「可即時反應的樂器」。如果工具不能在畫面還在跑的時候跟著變,那它就還是在做離線產物,不是在幫你配樂。

兩個模型大小,因為不是每個人都拿 M3 Max 在上班

Google 這次放了兩個版本:Base 是 24 億參數,Small 是 2.3 億參數。Base 至少要 M2 Max 或 M3 Pro;Small 則是任何 Apple Silicon 都能跑,連基本款 MacBook Air 都算在內。這比很多「可用」的 AI 發布誠實多了,因為它直接告訴你門檻在哪,不會先把你騙進來再說「啊你機器不夠」。

也就是說,這不是只有一個大模型硬塞給所有人。它把用途分開了:Base 比較適合你真的要做比較完整的 cue,Small 比較適合拿來試流程、驗外掛、測 latency。這種分法我反而比較買單,因為它承認開發和正式製作本來就是兩件事。

我最怕那種「人人可用」的 AI 工具,結果背後偷偷要求工作站等級 GPU,或者乾脆把你導去雲端帳單。那不叫可用,那叫先把門打開,再在門口收過路費。這裡至少清楚很多:Small 大概 450MB,Apple Silicon 就能碰,對已經有 MacBook 的人來說算是實際。

  • 做外掛或流程驗證時,用 Small 先跑通。
  • 真要做配樂、要顧輸出品質時,再切 Base
  • 兩個都留著,前者拿來測,後者拿來做正式 pass。

實操寫法很簡單:不要先選最大顆的模型,先選跟工作階段對得上的模型。你現在是在做概念驗證,還是在做可交付的 cue,這兩件事不該用同一個標準硬壓。

它不是 prompt in、audio out 那麼無聊

原文說 MRT2 可以同時吃文字 prompt、短音訊片段,還有 MIDI。這點我覺得比「它會生音樂」本身更重要,因為它終於沒有假裝文字可以解決一切。你可以給它風格描述、參考聲音、還有實際的旋律手勢,三個一起進去,模型再去融合。

Magenta RealTime 2 讓你在 DAW 裡即時改曲
“Describe a style in text, provide a reference clip, and play a MIDI melody.”

白話翻成開發者能懂的話,就是它比較像協作者,不像抽卡機。你改 MIDI,輸出就跟著變;你換 reference clip,質地會移;你重寫 prompt,風格會偏。這比「寫一句話然後祈禱它懂你」實際太多了。

我以前被 text-only 的音樂工具氣過很多次。它們很會講 vibe,像什麼 dark、warm、cinematic,講得頭頭是道,結果一碰到真正的旋律結構就整個掉漆。配樂不是只有 mood,還有節奏、起伏、進場點,還有那個 scene 為什麼需要它。MIDI 的價值就在這裡,它讓模型碰得到骨架。

實作上我會建議你分層丟資料:先用文字定風格,再補一段 reference clip 給 texture,最後用 MIDI 放真正的主體。不要把所有東西塞成一句 prompt,然後怪模型不會讀心。模型不是通靈,它只是比較會接資料。

AU 外掛才是重點,不是旁邊那個小註腳

Google 這次還給了 Audio Unit 外掛,可以直接跑在 Logic Pro、GarageBand 這類 AU 相容 DAW 裡。這件事比模型本身還實際,因為大多數音樂 AI 工具都還停在「先離開 DAW,生成完,再拖回來」這種老流程,像大家都很喜歡自己折騰檔案一樣。

翻譯一下就是:它終於進到 session 裡了。不是另一個 app,不是瀏覽器分頁,也不是雲端排隊系統。你可以讓畫面持續播放、改 style、改 MIDI,然後在同一個地方聽結果。這才叫真的能用,不然只是多一個會講話的輸出盒子。

我做過夠多音訊工具,太清楚 context switch 有多傷。你一離開 DAW,就會開始管檔案、管匯出、管命名,然後忘記自己剛剛到底在聽哪個鏡頭。這也是為什麼外掛比模型名稱更重要。模型再強,放錯地方,一樣只是多一層摩擦。

  • Logic Pro 裡,你可以邊播畫面邊改 cue。
  • GarageBand 裡,它比較像低門檻的即時實驗室。
  • 在任何 AU host 裡,它都能少掉來回匯出的那一段。

實操寫法:如果你在做音訊 AI 工具,先別做 web app。先想使用者工作發生在哪裡,音樂大多數時候就是在 DAW 裡發生。你把工具塞回那裡,才有機會真的被用。

Collider 不是炫技,是拿來做轉場的

這次 launch app 裡有一個叫 Collider 的東西,主打即時混兩種 style input。原文把它講成在 session 中生成介於不同 tonal register 之間的混合質地。聽起來有點學術,但放到配樂現場就很直白:很多時候最難的不是做一段 mood,而是把兩個情緒狀態接起來,還不能讓剪接點很明顯。

“Collider blends two style inputs in real time, generating hybrid textures between tonal registers during a session.”

也就是說,Collider 比較像轉場工具,不是單純的「幫我變酷」。它能幫你從 tension 走到 release,或者從 sparse 走到 dense,中間不要硬折。這種東西在生成音樂裡其實很少見,因為很多工具只會端出一個 mood,卻不會處理中間那段最煩的過渡。

我自己以前手工補這種 bridge 補到很煩。先做一段緊張,再做一段放鬆,然後花半小時去找兩段之間的橋,聽起來還是像硬接。能即時混兩種風格的工具,反而更像真的在幫你做配樂,而不是幫你做素材庫。

實操寫法:把 style blending 用在情緒轉場,不要拿它來取代完整 cue。把它當草圖工具,專門處理 arc 的中段,通常省下來的時間最多。

開源是真的開,但 license 先看清楚

原文說 codeApache 2.0,weights 則是 CC-BY-4.0。這個拆法很關鍵。程式碼授權讓你可以接著改 inference stack,權重授權則允許商用但要標註來源。這不是小字,是你能不能真的拿去做產品的分水嶺。

白話講,Google 這次不是只丟一個 demo 給你看,而是給了一個能延伸的底層。原文還提到 magenta-rt 這個 Python library,有 JAX 和 MLX backend,另外還有一條 C++ inference engine 路線,專門處理 Apple Silicon 的低延遲播放。這個架構我看了是有點舒服,因為它知道研究和 runtime 本來就不是同一件事。

我看過太多 AI repo,整包都塞在 Python 裡,連該下沉到原生層的部分也一起塞,然後大家又假裝 latency 只是小問題。不是。你如果要做的是外掛、即時播放、或任何跟使用者手感有關的東西,runtime 路徑就不該把 Python 當主角。

  • Google Magenta GitHub 可以看整個專案脈絡。
  • JAX 對 Python 端實驗很有用。
  • MLX 對 Apple Silicon 原生工作流比較對味。

實操寫法:你要接這種模型前,先把 license 看完。這很無聊,但也最現實。原型能跑,不代表能上線;能跑,不代表你敢發給法務看。

可抄的模板

# Magenta RealTime 2 即時配樂工作流模板

## 目標
把 Magenta RealTime 2 放進 DAW 裡,在畫面播放時即時生成、修改和整理 cue。

## 你需要的東西
- Apple Silicon Mac
- Logic Pro、GarageBand,或其他 AU host
- Magenta RealTime 2 外掛或推論庫
- MIDI 鍵盤或 pad controller
- 一段短 reference clip
- 一個清楚的 style prompt

## Session 設定
1. 打開 DAW,載入影片剪輯。
2. 在 instrument track 上插入 Magenta RealTime 2 AU 外掛。
3. 選模型版本:
   - Small:先測流程、驗 latency、做原型
   - Base:正式配樂、要求較高輸出品質
4. 把 MIDI controller 路由到外掛。
5. 讓 timeline 在要配的鏡頭上循環播放。

## Prompt 分層
- Text prompt:描述 genre、情緒、tempo、編制
- Audio reference:給 texture 或混音方向
- MIDI input:放真正的 motif 或和聲想法

## 實際工作法
1. 先只丟 style prompt。
2. 如果太空,再補 reference clip。
3. 彈一段簡單 MIDI,聽模型怎麼回應。
4. 一次只改一個輸入。
5. 當 cue 往對的方向走時就存版本。

## 什麼時候用 Collider
把 style blending 用在情緒轉場:
- tension 到 relief
- sparse 到 dense
- acoustic 到 synthetic
- intimate 到 wide

## 你要盯的事
- 幾百毫秒以上的延遲會破壞即時感
- prompt 太複雜,迭代會變慢
- Small 很適合原型,不一定適合最終 cue
- 如果要商用,license 先確認

## 開發備註
如果你要延伸 library,盡量不要把 runtime 路徑卡在 Python。
低延遲播放走原生推論,Python 留給 orchestration。

## 可以直接貼進你自己的流程文件
- 先在 DAW 裡配
- 用 MIDI 管結構
- 用文字管風格
- 用音訊片段管 texture
- 用即時混合管轉場
- 確認 cue 在情境裡成立再匯出

這份模板不是要你照抄 Google 的 setup,而是給你一個比較正常的即時配樂起點。只要你的流程還得一直離開 DAW 才能改一次,你就在付一筆工具本來可以幫你省掉的稅。

我這篇的原始參考是 AI FILMS Studio 的 Magenta RealTime 2 文章,另外也對照了 Google MagentaHugging Face 頁面。上面關於延遲、模型大小、外掛、license 與 workflow 的拆解,有一部分是原文整理,有一部分是我自己從開發者角度重寫的。