MiniMax Speech 2.6 盯上即時語音代理
MiniMax Speech 2.6 把端到端延遲壓到 250 毫秒內,還能更好讀網址、電話和金額,主打即時語音代理與多語音色複製。

MiniMax Speech 2.6 是一個低延遲語音模型,主打即時語音代理。
說真的,這次更新很直球。MiniMax 說,Speech 2.6 的端到端延遲壓到 250 毫秒以下。它也更會讀亂格式文字,像網址、電話、日期和金額。
更重要的是,它已經上線。開發者可以直接從平台用。對做語音客服、車載助理、智慧眼鏡的人來說,這種更新比花俏 demo 實在多了。
| Feature | Speech 2.6 claim | Why it matters |
|---|---|---|
| Latency | Under 250 ms end-to-end | Live voice apps 回話更順 |
| Format handling | URLs, emails, phone numbers, dates, money | 少做前處理,少出錯 |
| Voice cloning | Fluent LoRA with 40+ languages | 多語系輸出更自然 |
MiniMax 先打最難的場景
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
語音模型很會做 demo。真的上線,就常常翻車。只要進到客服、車機、穿戴裝置,延遲和發音錯誤就會被放大。

MiniMax 這次直接把焦點放在 voice agents。講白了,它不是只想做一般 TTS。它想做的是,使用者講完一句,系統很快接話,整段對話才像人在聊天。
這種定位很務實。因為語音產品真正的痛點,不是聲音漂不漂亮,而是能不能穩定回應。你可能會想問,250 毫秒到底有多重要?在即時對話裡,這就是體感差很多的門檻。
MiniMax 也把 speech 當成基礎設施在推。它點名 LiveKit、Pipecat、Vapi,還有 Haivivi Bubble Pal、Fuzozo、Rokid Glasses 這些硬體案子。
- MiniMax 說模型已經上線。
- 主打即時語音代理流程。
- 同時瞄準軟體堆疊與智慧硬體。
- 定位很明確,就是要搶實際部署。
250 毫秒以下是這次的主菜
MiniMax 說,它把音訊生成管線整個重做。結果是端到端延遲低於 250 毫秒。這個數字很重要,因為語音助理一旦卡太久,使用者就會覺得像在等伺服器,不是在對話。
實務上,延遲低,短句互動就順。像客服系統、訂位助手、車內語音控制,少掉半拍空白,整個體感就會好很多。這不是抽象優化,是真能影響產品留存的東西。
MiniMax 在公告裡直接寫:「We have completely optimized the audio generation pipeline, achieving an end-to-end latency of under 250 milliseconds.」這句話很硬,也很適合工程師看。
它還說,新版把音訊生成器從嚴格即時場景的瓶頸移掉了。這話很敢講,但至少方向對了。做 live speech,不看延遲,只看聲音好不好聽,通常會踩雷。
“We have completely optimized the audio generation pipeline, achieving an end-to-end latency of under 250 milliseconds,” MiniMax wrote in its announcement.
很多 speech 系統在 demo 裡很漂亮。真上線後,反應慢就會露餡。MiniMax 這次就是在搶那條線,想讓開發者先注意回應速度,再看音色細節。
- Speech 2.6:MiniMax 宣稱低於 250 毫秒。
- Fluent LoRA:支援 40+ 種語言。
- 直接處理:網址、Email、電話、日期、金額。
- 目標場景:即時語音代理與硬體裝置。
它也處理了很煩的格式問題
這次更新裡,最實用的其實不是炫技功能,而是格式處理。MiniMax 說,Speech 2.6 可以直接讀網址、Email、電話、日期和貨幣,不用開發者先寫一堆前處理規則。

這件事很接地氣。真實資料本來就亂。客服可能一次要唸帳號、日期、金額,還有回撥電話。如果語音引擎卡在其中一個格式,整段對話就會很尷尬。
MiniMax 舉的例子包含 +1 415 415 9921、$1,234.56、192.168.1.1。你不用先把它們改寫成怪怪的拼字稿,模型就能直接讀。
這種改動看起來不性感,但對軟體團隊很有感。少寫前處理,代表少維護規則。也代表少一個地方在正式上線時爆炸。
- 網址、Email、電話都能直接讀。
- 日期與金額不用額外轉譯。
- 減少前處理規則,少掉維護成本。
- 對客服與金融場景特別有用。
Fluent LoRA 才是聲音複製的重點
另一個大更新是 Fluent LoRA。MiniMax 把它拿來做更自然的 voice cloning。公司說,Speech 2.5 已經能保留口音和說話習慣,Speech 2.6 則進一步把原始錄音裡的卡頓修順。
這點很實際。真實世界的錄音,常常有雜音、口音、停頓,甚至語氣不穩。如果模型把這些缺點也一起複製,結果就會很像本人,但不好聽。
MiniMax 說,Fluent LoRA 會保留原本音色,同時讓輸出更貼近目標文字。它也強調支援 40+ 種語言。對要做國際化產品的團隊,這比只支援英文的 demo 有用多了。
我覺得這裡的重點不是做出「完美聲音」。而是做出「能上線的聲音」。如果你做的是客服、教育、或硬體語音助理,清楚通常比保留每個口頭禪更重要。
跟競品比,MiniMax 想搶哪一塊
語音平台現在很競爭。大家都在比延遲、品質、價格,還有開發體驗。尤其是做 voice agents 的團隊,對這些 trade-off 很敏感。
MiniMax 這次的打法很清楚。它不是只賣聲音,而是賣一整套即時語音基礎設施。這讓它跟其他 speech stack 站到同一條賽道上。
如果拿市場常見的方向來看,競爭點大概有四個。第一是延遲。第二是格式處理。第三是多語系。第四是聲音複製的穩定度。MiniMax 這次剛好把四個都碰到了。
真正有意思的是組合拳。單看一項功能,可能沒什麼。可是低延遲、少前處理、再加上多語系 cloning,對產品團隊來說就很像少踩幾個坑。
- MiniMax Open Platform 是開發入口。
- MiniMax Audio 提供語音能力。
- 40+ 語言是它的多語系賣點。
- 250 毫秒以下是它的延遲賣點。
這波也反映語音市場的成熟
語音 AI 這幾年變化很快。以前大家比誰會唸字。現在大家比誰能在真實產品裡活下來。這差很多。
因為一旦進到生產環境,問題就不是單一模型分數。你要面對網路波動、雜訊、口音、特殊格式,還有使用者的耐心。這些都很現實,也很煩。
所以 MiniMax 這種發表,重點不只是模型本身。它也在告訴市場,speech 已經從「能不能做」變成「怎麼穩定做」。這對開發者是好事,因為選項變多了,要求也更明確了。
對台灣團隊來說,這類模型特別適合客服、IoT、車用、教育工具。只要你的產品需要即時唸出資料,延遲和格式處理就會直接影響體驗。
開發者接下來該看什麼
MiniMax Speech 2.6 看起來不像實驗室玩具。它比較像一個想被放進產品堆疊的語音模組。這種東西值不值得用,最後還是要看實測。
我會先看三件事。第一,250 毫秒以下是不是在真實網路也成立。第二,特殊格式在不同語言會不會失準。第三,40+ 語言的 cloning 到底有多穩。
如果你正在做 voice agent,我建議直接拿它跟現有方案跑同一批測試。別只看 demo。拿真實資料、真實雜訊、真實斷線情境去壓,答案會很誠實。
講白了,這次 MiniMax 不是在喊口號。它是在搶一個很具體的市場位置。接下來最值得觀察的,不是它能不能發新聞,而是開發者會不會真的把它放進 production。