[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-minimax-speech-26-real-time-voice-agents-zh":3,"article-related-minimax-speech-26-real-time-voice-agents-zh":33,"series-model-release-c7726285-d49b-4eda-958f-c485d0727efa":84},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":32},"c7726285-d49b-4eda-958f-c485d0727efa","minimax-speech-26-real-time-voice-agents-zh","MiniMax Speech 2.6 盯上即時語音代理","\u003Cp data-speakable=\"summary\">MiniMax Speech 2.6 是一個低延遲語音模型，主打即時語音代理。\u003C\u002Fp>\u003Cp>說真的，這次更新很直球。\u003Ca href=\"https:\u002F\u002Fwww.minimax.io\u002Fnews\u002Fminimax-speech-26\" target=\"_blank\" rel=\"noopener\">MiniMax\u003C\u002Fa> 說，\u003Ca href=\"https:\u002F\u002Fwww.minimax.io\u002Faudio\" target=\"_blank\" rel=\"noopener\">Speech 2.6\u003C\u002Fa> 的端到端延遲壓到 250 毫秒以下。它也更會讀亂格式文字，像網址、電話、日期和金額。\u003C\u002Fp>\u003Cp>更重要的是，它已經上線。開發者可以直接從平台用。對做語音客服、車載助理、智慧眼鏡的人來說，這種更新比花俏 demo 實在多了。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>Feature\u003C\u002Fth>\u003Cth>Speech 2.6 claim\u003C\u002Fth>\u003Cth>Why it matters\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Latency\u003C\u002Ftd>\u003Ctd>Under 250 ms end-to-end\u003C\u002Ftd>\u003Ctd>Live voice apps 回話更順\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Format handling\u003C\u002Ftd>\u003Ctd>URLs, emails, phone numbers, dates, money\u003C\u002Ftd>\u003Ctd>少做前處理，少出錯\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Voice cloning\u003C\u002Ftd>\u003Ctd>Fluent LoRA with 40+ languages\u003C\u002Ftd>\u003Ctd>多語系輸出更自然\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>MiniMax 先打最難的場景\u003C\u002Fh2>\u003Cp>語音模型很會做 demo。真的上線，就常常翻車。只要進到客服、車機、穿戴裝置，延遲和發音錯誤就會被放大。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779287664129-0hf8.png\" alt=\"MiniMax Speech 2.6 盯上即時語音代理\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>MiniMax 這次直接把焦點放在 voice agents。講白了，它不是只想做一般 TTS。它想做的是，使用者講完一句，系統很快接話，整段對話才像人在聊天。\u003C\u002Fp>\u003Cp>這種定位很務實。因為語音產品真正的痛點，不是聲音漂不漂亮，而是能不能穩定回應。你可能會想問，250 毫秒到底有多重要？在即時對話裡，這就是體感差很多的門檻。\u003C\u002Fp>\u003Cp>MiniMax 也把 speech 當成基礎設施在推。它點名 \u003Ca href=\"https:\u002F\u002Fwww.livekit.io\u002F\" target=\"_blank\" rel=\"noopener\">LiveKit\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fpipecat-ai\u002Fpipecat\" target=\"_blank\" rel=\"noopener\">Pipecat\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.vapi.ai\u002F\" target=\"_blank\" rel=\"noopener\">Vapi\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Fwww.haivivi.com\u002F\" target=\"_blank\" rel=\"noopener\">Haivivi Bubble Pal\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.fuzozo.com\u002F\" target=\"_blank\" rel=\"noopener\">Fuzozo\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.rokid.com\u002F\" target=\"_blank\" rel=\"noopener\">Rokid Glasses\u003C\u002Fa> 這些硬體案子。\u003C\u002Fp>\u003Cul>\u003Cli>MiniMax 說模型已經上線。\u003C\u002Fli>\u003Cli>主打即時語音代理流程。\u003C\u002Fli>\u003Cli>同時瞄準軟體堆疊與智慧硬體。\u003C\u002Fli>\u003Cli>定位很明確，就是要搶實際部署。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>250 毫秒以下是這次的主菜\u003C\u002Fh2>\u003Cp>MiniMax 說，它把音訊生成管線整個重做。結果是端到端延遲低於 250 毫秒。這個數字很重要，因為語音助理一旦卡太久，使用者就會覺得像在等伺服器，不是在對話。\u003C\u002Fp>\u003Cp>實務上，延遲低，短句互動就順。像客服系統、訂位助手、車內語音控制，少掉半拍空白，整個體感就會好很多。這不是抽象優化，是真能影響產品留存的東西。\u003C\u002Fp>\u003Cp>MiniMax 在公告裡直接寫：「We have completely optimized the audio generation pipeline, achieving an end-to-end latency of under 250 milliseconds.」這句話很硬，也很適合工程師看。\u003C\u002Fp>\u003Cp>它還說，新版把音訊生成器從嚴格即時場景的瓶頸移掉了。這話很敢講，但至少方向對了。做 live speech，不看延遲，只看聲音好不好聽，通常會踩雷。\u003C\u002Fp>\u003Cblockquote>“We have completely optimized the audio generation pipeline, achieving an end-to-end latency of under 250 milliseconds,” MiniMax wrote in its announcement.\u003C\u002Fblockquote>\u003Cp>很多 speech 系統在 demo 裡很漂亮。真上線後，反應慢就會露餡。MiniMax 這次就是在搶那條線，想讓開發者先注意回應速度，再看音色細節。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.minimax.io\u002Fnews\u002Fminimax-speech-26\" target=\"_blank\" rel=\"noopener\">Speech 2.6\u003C\u002Fa>：MiniMax 宣稱低於 250 毫秒。\u003C\u002Fli>\u003Cli>Fluent LoRA：支援 40+ 種語言。\u003C\u002Fli>\u003Cli>直接處理：網址、Email、電話、日期、金額。\u003C\u002Fli>\u003Cli>目標場景：即時語音代理與硬體裝置。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>它也處理了很煩的格式問題\u003C\u002Fh2>\u003Cp>這次更新裡，最實用的其實不是炫技功能，而是格式處理。MiniMax 說，Speech 2.6 可以直接讀網址、Email、電話、日期和貨幣，不用開發者先寫一堆前處理規則。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779287663059-yunv.png\" alt=\"MiniMax Speech 2.6 盯上即時語音代理\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這件事很接地氣。真實資料本來就亂。客服可能一次要唸帳號、日期、金額，還有回撥電話。如果語音引擎卡在其中一個格式，整段對話就會很尷尬。\u003C\u002Fp>\u003Cp>MiniMax 舉的例子包含 \u003Ccode>+1 415 415 9921\u003C\u002Fcode>、\u003Ccode>$1,234.56\u003C\u002Fcode>、\u003Ccode>192.168.1.1\u003C\u002Fcode>。你不用先把它們改寫成怪怪的拼字稿，模型就能直接讀。\u003C\u002Fp>\u003Cp>這種改動看起來不性感，但對軟體團隊很有感。少寫前處理，代表少維護規則。也代表少一個地方在正式上線時爆炸。\u003C\u002Fp>\u003Cul>\u003Cli>網址、Email、電話都能直接讀。\u003C\u002Fli>\u003Cli>日期與金額不用額外轉譯。\u003C\u002Fli>\u003Cli>減少前處理規則，少掉維護成本。\u003C\u002Fli>\u003Cli>對客服與金融場景特別有用。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>Fluent LoRA 才是聲音複製的重點\u003C\u002Fh2>\u003Cp>另一個大更新是 Fluent LoRA。MiniMax 把它拿來做更自然的 voice cloning。公司說，Speech 2.5 已經能保留口音和說話習慣，Speech 2.6 則進一步把原始錄音裡的卡頓修順。\u003C\u002Fp>\u003Cp>這點很實際。真實世界的錄音，常常有雜音、口音、停頓，甚至語氣不穩。如果模型把這些缺點也一起複製，結果就會很像本人，但不好聽。\u003C\u002Fp>\u003Cp>MiniMax 說，Fluent LoRA 會保留原本音色，同時讓輸出更貼近目標文字。它也強調支援 40+ 種語言。對要做國際化產品的團隊，這比只支援英文的 demo 有用多了。\u003C\u002Fp>\u003Cp>我覺得這裡的\u003Ca href=\"\u002Fnews\u002F5-kv-cache-takeaways-for-llamacpp-users-zh\">重點\u003C\u002Fa>不是做出「完美聲音」。而是做出「能上線的聲音」。如果你做的是客服、教育、或硬體語音助理，清楚通常比保留每個口頭禪更重要。\u003C\u002Fp>\u003Ch2>跟競品比，MiniMax 想搶哪一塊\u003C\u002Fh2>\u003Cp>語音平台現在很競爭。大家都在比延遲、品質、價格，還有開發體驗。尤其是做 voice agents 的團隊，對這些 trade-off 很敏感。\u003C\u002Fp>\u003Cp>MiniMax 這次的打法很清楚。它不是只賣聲音，而是賣一整套即時語音基礎設施。這讓它跟其他 speech stack 站到同一條賽道上。\u003C\u002Fp>\u003Cp>如果拿市場常見的方向來看，競爭點大概有四個。第一是延遲。第二是格式處理。第三是\u003Ca href=\"\u002Fnews\u002Ftwo-stage-adaptation-multilingual-coreference-zh\">多語\u003C\u002Fa>系。第四是聲音複製的穩定度。MiniMax 這次剛好把四個都碰到了。\u003C\u002Fp>\u003Cp>真正有意思的是組合拳。單看一項功能，可能沒\u003Ca href=\"\u002Fnews\u002Fwhy-kv-cache-compression-will-decide-edge-ai-inference-zh\">什麼\u003C\u002Fa>。可是低延遲、少前處理、再加上多語系 cloning，對產品團隊來說就很像少踩幾個坑。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.minimax.io\u002Fplatform_overview\" target=\"_blank\" rel=\"noopener\">MiniMax Open Platform\u003C\u002Fa> 是開發入口。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.minimax.io\u002Faudio\" target=\"_blank\" rel=\"noopener\">MiniMax Audio\u003C\u002Fa> 提供語音能力。\u003C\u002Fli>\u003Cli>40+ 語言是它的多語系賣點。\u003C\u002Fli>\u003Cli>250 毫秒以下是它的延遲賣點。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>這波也反映語音市場的成熟\u003C\u002Fh2>\u003Cp>語音 AI 這幾年變化很快。以前大家比誰會唸字。現在大家比誰能在真實產品裡活下來。這差很多。\u003C\u002Fp>\u003Cp>因為一旦進到生產環境，問題就不是單一模型分數。你要面對網路波動、雜訊、口音、特殊格式，還有使用者的耐心。這些都很現實，也很煩。\u003C\u002Fp>\u003Cp>所以 MiniMax 這種發表，重點不只是模型本身。它也在告訴市場，speech 已經從「能不能做」變成「怎麼穩定做」。這對開發者是好事，因為選項變多了，要求也更明確了。\u003C\u002Fp>\u003Cp>對台灣團隊來說，這類模型特別適合客服、IoT、車用、教育工具。只要你的產品需要即時唸出資料，延遲和格式處理就會直接影響體驗。\u003C\u002Fp>\u003Ch2>開發者接下來該看什麼\u003C\u002Fh2>\u003Cp>MiniMax Speech 2.6 看起來不像實驗室玩具。它比較像一個想被放進產品堆疊的語音模組。這種東西值不值得用，最後還是要看實測。\u003C\u002Fp>\u003Cp>我會先看三件事。第一，250 毫秒以下是不是在真實網路也成立。第二，特殊格式在不同語言會不會失準。第三，40+ 語言的 cloning 到底有多穩。\u003C\u002Fp>\u003Cp>如果你正在做 voice \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>，我建議直接拿它跟現有方案跑同一批測試。別只看 demo。拿真實資料、真實雜訊、真實斷線情境去壓，答案會很誠實。\u003C\u002Fp>\u003Cp>講白了，這次 MiniMax 不是在喊口號。它是在搶一個很具體的市場位置。接下來最值得觀察的，不是它能不能發新聞，而是開發者會不會真的把它放進 production。\u003C\u002Fp>","MiniMax Speech 2.6 把端到端延遲壓到 250 毫秒內，還能更好讀網址、電話和金額，主打即時語音代理與多語音色複製。","www.minimax.io","https:\u002F\u002Fwww.minimax.io\u002Fnews\u002Fminimax-speech-26",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779287664129-0hf8.png","model-release","zh","74b0bf88-146c-4832-8958-f1532a9d520f",[17,18,19,20,21,22,23,24],"MiniMax","Speech 2.6","語音模型","即時語音代理","voice cloning","低延遲","TTS","LLM",[26,27,28],"MiniMax Speech 2.6 主打 250 毫秒以下延遲，瞄準即時語音代理。","它支援網址、電話、日期、金額等格式，能少掉不少前處理。","Fluent LoRA 強調 40+ 語言的自然聲音複製，適合多語系產品。",5,"2026-05-20T14:33:50.152195+00:00","2026-05-20T14:33:50.129+00:00","0ccb5d2e-69f1-4354-a3e0-cb370221cd95",{"tags":34,"relatedLang":43,"relatedPosts":47},[35,36,37,39,41],{"name":19,"slug":19},{"name":20,"slug":20},{"name":21,"slug":38},"voice-cloning",{"name":17,"slug":40},"minimax",{"name":18,"slug":42},"speech-26",{"id":15,"slug":44,"title":45,"language":46},"minimax-speech-26-real-time-voice-agents-en","MiniMax Speech 2.6 Targets Real-Time Voice Agents","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":13},"466021f3-b8a4-4ecb-ad64-8070beaf9cbc","gemini-1-5-pro-002-flash-002-2-0-flash-update-zh","Gemini 1.5 與 2.0 Flash 更新上線","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780999389960-97qh.png","2026-06-09T10:02:27.849751+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":13},"66ce4542-3c93-4a0c-ab52-5e6f90a36212","minimax-m3-kai-fang-quan-zhong-xie-cheng-shi-reng-neng-ying-zh","MiniMax M3 證明開放權重在寫程式上仍能贏","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780968786191-lele.png","2026-06-09T01:32:30.829528+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":13},"948a7dc4-b172-42f9-9bef-abcbbffaca18","gemini-35-flash-pricing-benchmarks-zh","Gemini 3.5 Flash 價格與長上下文解析","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780840978961-6b9n.png","2026-06-07T14:02:29.835438+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":13},"5507f140-5223-4f68-ade6-30d9e5457638","gemma-4-12b-specs-benchmarks-run-locally-zh","怎麼做 Gemma 4 12B 本地部署","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780777971165-4bit.png","2026-06-06T20:32:24.857611+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":13},"ef42a437-8b06-4ff5-a135-ece7662c01f4","best-kimi-models-2026-k2-5-vs-k2-thinking-zh","2026 最佳 Kimi 模型：K2.5 對 K2 Thinking","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780770790333-x3lk.png","2026-06-06T18:32:39.410186+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":13},"fd2ad557-5c09-4758-964d-cda1c3c87a4c","kimi-k2-6-open-source-coding-agent-swarm-zh","Kimi K2.6 開源加上 Agent Swarm","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780761795960-0zg9.png","2026-06-06T16:02:21.702099+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]