Magenta RealTime 2 讓你在 DAW 裡即時改曲
我拆 Magenta RealTime 2 怎麼把生成音樂塞回 DAW 內即時改,重點是 200ms 延遲、AU 外掛、雙模型與可直接抄的工作流模板。

Magenta RealTime 2 讓你在 DAW 裡即時生成、調整和混音,不用再來回匯出匯入。
我盯音樂 AI 工具有一陣子了,老實說,大多數都像是給不在 session 裡的人做的。你丟一句 prompt,等它跑完,匯出,匯入,播放,覺得不對,再重來一次。這流程拿來做 demo 還行,真要拿來配畫面就很煩,因為你要的不是「等一下給我結果」,你要的是「現在就跟著畫面動」。
所以我會注意到 Google 的 Magenta RealTime 2,不是因為它又會生音樂,而是它終於像個樂器,不像批次任務。模型權重也放在 Hugging Face,而且它不是只給你一個網頁玩具,還有能塞進 DAW 的外掛路線。這點我很在意,因為我不想再多開一個分頁來折磨自己。
我先看的是延遲,不是音色
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
“The model generates 48 kHz stereo audio with a control latency of roughly 200 milliseconds on consumer Apple Silicon hardware.”
翻譯一下就是:它不是那種你下完指令要去倒咖啡的工具。200 毫秒這個數字很重要,因為它代表我改方向之後,幾乎立刻就能聽到回應。這不是「AI 很快」那種空話,這是創作迴圈裡能不能待得住的差別。

我以前碰過一些生成音樂工具,聲音其實不差,但只要進到配畫面場景就整個失去價值。你在剪對白底下的 cue,情緒只想往右偏一點點,結果它要你等三秒、五秒,等你回來,腦子裡那個場景感早就散了。那時候工具再會吹也沒用,因為它把你踢出工作流了。
原文還提到早期版本大概有 3 秒控制延遲,現在壓到約 200 毫秒,內部 frame size 也從 2 秒縮到 40ms。這種細節平常很容易被跳過,但其實就是它為什麼能像即時樂器的原因。不是玄學,是回饋迴路夠短。
實操上我會這樣看:先別把它當「生成器」,把它當「可即時反應的樂器」。如果工具不能在畫面還在跑的時候跟著變,那它就還是在做離線產物,不是在幫你配樂。
兩個模型大小,因為不是每個人都拿 M3 Max 在上班
Google 這次放了兩個版本:Base 是 24 億參數,Small 是 2.3 億參數。Base 至少要 M2 Max 或 M3 Pro;Small 則是任何 Apple Silicon 都能跑,連基本款 MacBook Air 都算在內。這比很多「可用」的 AI 發布誠實多了,因為它直接告訴你門檻在哪,不會先把你騙進來再說「啊你機器不夠」。
也就是說,這不是只有一個大模型硬塞給所有人。它把用途分開了:Base 比較適合你真的要做比較完整的 cue,Small 比較適合拿來試流程、驗外掛、測 latency。這種分法我反而比較買單,因為它承認開發和正式製作本來就是兩件事。
我最怕那種「人人可用」的 AI 工具,結果背後偷偷要求工作站等級 GPU,或者乾脆把你導去雲端帳單。那不叫可用,那叫先把門打開,再在門口收過路費。這裡至少清楚很多:Small 大概 450MB,Apple Silicon 就能碰,對已經有 MacBook 的人來說算是實際。
- 做外掛或流程驗證時,用 Small 先跑通。
- 真要做配樂、要顧輸出品質時,再切 Base。
- 兩個都留著,前者拿來測,後者拿來做正式 pass。
實操寫法很簡單:不要先選最大顆的模型,先選跟工作階段對得上的模型。你現在是在做概念驗證,還是在做可交付的 cue,這兩件事不該用同一個標準硬壓。
它不是 prompt in、audio out 那麼無聊
原文說 MRT2 可以同時吃文字 prompt、短音訊片段,還有 MIDI。這點我覺得比「它會生音樂」本身更重要,因為它終於沒有假裝文字可以解決一切。你可以給它風格描述、參考聲音、還有實際的旋律手勢,三個一起進去,模型再去融合。

“Describe a style in text, provide a reference clip, and play a MIDI melody.”
白話翻成開發者能懂的話,就是它比較像協作者,不像抽卡機。你改 MIDI,輸出就跟著變;你換 reference clip,質地會移;你重寫 prompt,風格會偏。這比「寫一句話然後祈禱它懂你」實際太多了。
我以前被 text-only 的音樂工具氣過很多次。它們很會講 vibe,像什麼 dark、warm、cinematic,講得頭頭是道,結果一碰到真正的旋律結構就整個掉漆。配樂不是只有 mood,還有節奏、起伏、進場點,還有那個 scene 為什麼需要它。MIDI 的價值就在這裡,它讓模型碰得到骨架。
實作上我會建議你分層丟資料:先用文字定風格,再補一段 reference clip 給 texture,最後用 MIDI 放真正的主體。不要把所有東西塞成一句 prompt,然後怪模型不會讀心。模型不是通靈,它只是比較會接資料。
AU 外掛才是重點,不是旁邊那個小註腳
Google 這次還給了 Audio Unit 外掛,可以直接跑在 Logic Pro、GarageBand 這類 AU 相容 DAW 裡。這件事比模型本身還實際,因為大多數音樂 AI 工具都還停在「先離開 DAW,生成完,再拖回來」這種老流程,像大家都很喜歡自己折騰檔案一樣。
翻譯一下就是:它終於進到 session 裡了。不是另一個 app,不是瀏覽器分頁,也不是雲端排隊系統。你可以讓畫面持續播放、改 style、改 MIDI,然後在同一個地方聽結果。這才叫真的能用,不然只是多一個會講話的輸出盒子。
我做過夠多音訊工具,太清楚 context switch 有多傷。你一離開 DAW,就會開始管檔案、管匯出、管命名,然後忘記自己剛剛到底在聽哪個鏡頭。這也是為什麼外掛比模型名稱更重要。模型再強,放錯地方,一樣只是多一層摩擦。
- 在 Logic Pro 裡,你可以邊播畫面邊改 cue。
- 在 GarageBand 裡,它比較像低門檻的即時實驗室。
- 在任何 AU host 裡,它都能少掉來回匯出的那一段。
實操寫法:如果你在做音訊 AI 工具,先別做 web app。先想使用者工作發生在哪裡,音樂大多數時候就是在 DAW 裡發生。你把工具塞回那裡,才有機會真的被用。
Collider 不是炫技,是拿來做轉場的
這次 launch app 裡有一個叫 Collider 的東西,主打即時混兩種 style input。原文把它講成在 session 中生成介於不同 tonal register 之間的混合質地。聽起來有點學術,但放到配樂現場就很直白:很多時候最難的不是做一段 mood,而是把兩個情緒狀態接起來,還不能讓剪接點很明顯。
“Collider blends two style inputs in real time, generating hybrid textures between tonal registers during a session.”
也就是說,Collider 比較像轉場工具,不是單純的「幫我變酷」。它能幫你從 tension 走到 release,或者從 sparse 走到 dense,中間不要硬折。這種東西在生成音樂裡其實很少見,因為很多工具只會端出一個 mood,卻不會處理中間那段最煩的過渡。
我自己以前手工補這種 bridge 補到很煩。先做一段緊張,再做一段放鬆,然後花半小時去找兩段之間的橋,聽起來還是像硬接。能即時混兩種風格的工具,反而更像真的在幫你做配樂,而不是幫你做素材庫。
實操寫法:把 style blending 用在情緒轉場,不要拿它來取代完整 cue。把它當草圖工具,專門處理 arc 的中段,通常省下來的時間最多。
開源是真的開,但 license 先看清楚
原文說 code 是 Apache 2.0,weights 則是 CC-BY-4.0。這個拆法很關鍵。程式碼授權讓你可以接著改 inference stack,權重授權則允許商用但要標註來源。這不是小字,是你能不能真的拿去做產品的分水嶺。
白話講,Google 這次不是只丟一個 demo 給你看,而是給了一個能延伸的底層。原文還提到 magenta-rt 這個 Python library,有 JAX 和 MLX backend,另外還有一條 C++ inference engine 路線,專門處理 Apple Silicon 的低延遲播放。這個架構我看了是有點舒服,因為它知道研究和 runtime 本來就不是同一件事。
我看過太多 AI repo,整包都塞在 Python 裡,連該下沉到原生層的部分也一起塞,然後大家又假裝 latency 只是小問題。不是。你如果要做的是外掛、即時播放、或任何跟使用者手感有關的東西,runtime 路徑就不該把 Python 當主角。
- Google Magenta GitHub 可以看整個專案脈絡。
- JAX 對 Python 端實驗很有用。
- MLX 對 Apple Silicon 原生工作流比較對味。
實操寫法:你要接這種模型前,先把 license 看完。這很無聊,但也最現實。原型能跑,不代表能上線;能跑,不代表你敢發給法務看。
可抄的模板
# Magenta RealTime 2 即時配樂工作流模板
## 目標
把 Magenta RealTime 2 放進 DAW 裡,在畫面播放時即時生成、修改和整理 cue。
## 你需要的東西
- Apple Silicon Mac
- Logic Pro、GarageBand,或其他 AU host
- Magenta RealTime 2 外掛或推論庫
- MIDI 鍵盤或 pad controller
- 一段短 reference clip
- 一個清楚的 style prompt
## Session 設定
1. 打開 DAW,載入影片剪輯。
2. 在 instrument track 上插入 Magenta RealTime 2 AU 外掛。
3. 選模型版本:
- Small:先測流程、驗 latency、做原型
- Base:正式配樂、要求較高輸出品質
4. 把 MIDI controller 路由到外掛。
5. 讓 timeline 在要配的鏡頭上循環播放。
## Prompt 分層
- Text prompt:描述 genre、情緒、tempo、編制
- Audio reference:給 texture 或混音方向
- MIDI input:放真正的 motif 或和聲想法
## 實際工作法
1. 先只丟 style prompt。
2. 如果太空,再補 reference clip。
3. 彈一段簡單 MIDI,聽模型怎麼回應。
4. 一次只改一個輸入。
5. 當 cue 往對的方向走時就存版本。
## 什麼時候用 Collider
把 style blending 用在情緒轉場:
- tension 到 relief
- sparse 到 dense
- acoustic 到 synthetic
- intimate 到 wide
## 你要盯的事
- 幾百毫秒以上的延遲會破壞即時感
- prompt 太複雜,迭代會變慢
- Small 很適合原型,不一定適合最終 cue
- 如果要商用,license 先確認
## 開發備註
如果你要延伸 library,盡量不要把 runtime 路徑卡在 Python。
低延遲播放走原生推論,Python 留給 orchestration。
## 可以直接貼進你自己的流程文件
- 先在 DAW 裡配
- 用 MIDI 管結構
- 用文字管風格
- 用音訊片段管 texture
- 用即時混合管轉場
- 確認 cue 在情境裡成立再匯出這份模板不是要你照抄 Google 的 setup,而是給你一個比較正常的即時配樂起點。只要你的流程還得一直離開 DAW 才能改一次,你就在付一筆工具本來可以幫你省掉的稅。
我這篇的原始參考是 AI FILMS Studio 的 Magenta RealTime 2 文章,另外也對照了 Google Magenta 與 Hugging Face 頁面。上面關於延遲、模型大小、外掛、license 與 workflow 的拆解,有一部分是原文整理,有一部分是我自己從開發者角度重寫的。