[MODEL] 7 分鐘閱讀OraCore 編輯部

MiniMax Speech 2.6 盯上即時語音代理

MiniMax Speech 2.6 把端到端延遲壓到 250 毫秒內,還能更好讀網址、電話和金額,主打即時語音代理與多語音色複製。

分享 LinkedIn
MiniMax Speech 2.6 盯上即時語音代理

MiniMax Speech 2.6 是一個低延遲語音模型,主打即時語音代理。

說真的,這次更新很直球。MiniMax 說,Speech 2.6 的端到端延遲壓到 250 毫秒以下。它也更會讀亂格式文字,像網址、電話、日期和金額。

更重要的是,它已經上線。開發者可以直接從平台用。對做語音客服、車載助理、智慧眼鏡的人來說,這種更新比花俏 demo 實在多了。

FeatureSpeech 2.6 claimWhy it matters
LatencyUnder 250 ms end-to-endLive voice apps 回話更順
Format handlingURLs, emails, phone numbers, dates, money少做前處理,少出錯
Voice cloningFluent LoRA with 40+ languages多語系輸出更自然

MiniMax 先打最難的場景

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

語音模型很會做 demo。真的上線,就常常翻車。只要進到客服、車機、穿戴裝置,延遲和發音錯誤就會被放大。

MiniMax Speech 2.6 盯上即時語音代理

MiniMax 這次直接把焦點放在 voice agents。講白了,它不是只想做一般 TTS。它想做的是,使用者講完一句,系統很快接話,整段對話才像人在聊天。

這種定位很務實。因為語音產品真正的痛點,不是聲音漂不漂亮,而是能不能穩定回應。你可能會想問,250 毫秒到底有多重要?在即時對話裡,這就是體感差很多的門檻。

MiniMax 也把 speech 當成基礎設施在推。它點名 LiveKitPipecatVapi,還有 Haivivi Bubble PalFuzozoRokid Glasses 這些硬體案子。

  • MiniMax 說模型已經上線。
  • 主打即時語音代理流程。
  • 同時瞄準軟體堆疊與智慧硬體。
  • 定位很明確,就是要搶實際部署。

250 毫秒以下是這次的主菜

MiniMax 說,它把音訊生成管線整個重做。結果是端到端延遲低於 250 毫秒。這個數字很重要,因為語音助理一旦卡太久,使用者就會覺得像在等伺服器,不是在對話。

實務上,延遲低,短句互動就順。像客服系統、訂位助手、車內語音控制,少掉半拍空白,整個體感就會好很多。這不是抽象優化,是真能影響產品留存的東西。

MiniMax 在公告裡直接寫:「We have completely optimized the audio generation pipeline, achieving an end-to-end latency of under 250 milliseconds.」這句話很硬,也很適合工程師看。

它還說,新版把音訊生成器從嚴格即時場景的瓶頸移掉了。這話很敢講,但至少方向對了。做 live speech,不看延遲,只看聲音好不好聽,通常會踩雷。

“We have completely optimized the audio generation pipeline, achieving an end-to-end latency of under 250 milliseconds,” MiniMax wrote in its announcement.

很多 speech 系統在 demo 裡很漂亮。真上線後,反應慢就會露餡。MiniMax 這次就是在搶那條線,想讓開發者先注意回應速度,再看音色細節。

  • Speech 2.6:MiniMax 宣稱低於 250 毫秒。
  • Fluent LoRA:支援 40+ 種語言。
  • 直接處理:網址、Email、電話、日期、金額。
  • 目標場景:即時語音代理與硬體裝置。

它也處理了很煩的格式問題

這次更新裡,最實用的其實不是炫技功能,而是格式處理。MiniMax 說,Speech 2.6 可以直接讀網址、Email、電話、日期和貨幣,不用開發者先寫一堆前處理規則。

MiniMax Speech 2.6 盯上即時語音代理

這件事很接地氣。真實資料本來就亂。客服可能一次要唸帳號、日期、金額,還有回撥電話。如果語音引擎卡在其中一個格式,整段對話就會很尷尬。

MiniMax 舉的例子包含 +1 415 415 9921$1,234.56192.168.1.1。你不用先把它們改寫成怪怪的拼字稿,模型就能直接讀。

這種改動看起來不性感,但對軟體團隊很有感。少寫前處理,代表少維護規則。也代表少一個地方在正式上線時爆炸。

  • 網址、Email、電話都能直接讀。
  • 日期與金額不用額外轉譯。
  • 減少前處理規則,少掉維護成本。
  • 對客服與金融場景特別有用。

Fluent LoRA 才是聲音複製的重點

另一個大更新是 Fluent LoRA。MiniMax 把它拿來做更自然的 voice cloning。公司說,Speech 2.5 已經能保留口音和說話習慣,Speech 2.6 則進一步把原始錄音裡的卡頓修順。

這點很實際。真實世界的錄音,常常有雜音、口音、停頓,甚至語氣不穩。如果模型把這些缺點也一起複製,結果就會很像本人,但不好聽。

MiniMax 說,Fluent LoRA 會保留原本音色,同時讓輸出更貼近目標文字。它也強調支援 40+ 種語言。對要做國際化產品的團隊,這比只支援英文的 demo 有用多了。

我覺得這裡的重點不是做出「完美聲音」。而是做出「能上線的聲音」。如果你做的是客服、教育、或硬體語音助理,清楚通常比保留每個口頭禪更重要。

跟競品比,MiniMax 想搶哪一塊

語音平台現在很競爭。大家都在比延遲、品質、價格,還有開發體驗。尤其是做 voice agents 的團隊,對這些 trade-off 很敏感。

MiniMax 這次的打法很清楚。它不是只賣聲音,而是賣一整套即時語音基礎設施。這讓它跟其他 speech stack 站到同一條賽道上。

如果拿市場常見的方向來看,競爭點大概有四個。第一是延遲。第二是格式處理。第三是多語系。第四是聲音複製的穩定度。MiniMax 這次剛好把四個都碰到了。

真正有意思的是組合拳。單看一項功能,可能沒什麼。可是低延遲、少前處理、再加上多語系 cloning,對產品團隊來說就很像少踩幾個坑。

這波也反映語音市場的成熟

語音 AI 這幾年變化很快。以前大家比誰會唸字。現在大家比誰能在真實產品裡活下來。這差很多。

因為一旦進到生產環境,問題就不是單一模型分數。你要面對網路波動、雜訊、口音、特殊格式,還有使用者的耐心。這些都很現實,也很煩。

所以 MiniMax 這種發表,重點不只是模型本身。它也在告訴市場,speech 已經從「能不能做」變成「怎麼穩定做」。這對開發者是好事,因為選項變多了,要求也更明確了。

對台灣團隊來說,這類模型特別適合客服、IoT、車用、教育工具。只要你的產品需要即時唸出資料,延遲和格式處理就會直接影響體驗。

開發者接下來該看什麼

MiniMax Speech 2.6 看起來不像實驗室玩具。它比較像一個想被放進產品堆疊的語音模組。這種東西值不值得用,最後還是要看實測。

我會先看三件事。第一,250 毫秒以下是不是在真實網路也成立。第二,特殊格式在不同語言會不會失準。第三,40+ 語言的 cloning 到底有多穩。

如果你正在做 voice agent,我建議直接拿它跟現有方案跑同一批測試。別只看 demo。拿真實資料、真實雜訊、真實斷線情境去壓,答案會很誠實。

講白了,這次 MiniMax 不是在喊口號。它是在搶一個很具體的市場位置。接下來最值得觀察的,不是它能不能發新聞,而是開發者會不會真的把它放進 production。