[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-xiaomi-mimo-trio-agents-robots-voice-zh":3,"tags-xiaomi-mimo-trio-agents-robots-voice-zh":34,"related-lang-xiaomi-mimo-trio-agents-robots-voice-zh":51,"related-posts-xiaomi-mimo-trio-agents-robots-voice-zh":55,"series-model-release-cda76b92-d209-4134-86c1-a60f5bc7b128":92},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":10,"keywords":11,"language":22,"translated_content":10,"views":23,"is_premium":24,"created_at":25,"updated_at":25,"cover_image":26,"published_at":25,"rewrite_status":27,"rewrite_error":10,"rewritten_from_id":28,"slug":29,"category":30,"related_article_id":31,"status":32,"google_indexed_at":33,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":24},"cda76b92-d209-4134-86c1-a60f5bc7b128","小米 MiMo 三模型瞄準代理、機器人與語音","\u003Cp>小米一次丟出 3 款 \u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\" target=\"_blank\" rel=\"noopener\">MiMo\u003C\u002Fa> 模型。這不是單純做聊天機器人。它想做的是能看、能聽、能說、也能動的 AI 堆疊。\u003C\u002Fp>\u003Cp>先看數字。\u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fmodel\u002FMiMo-V2-Pro\" target=\"_blank\" rel=\"noopener\">MiMo-V2-Pro\u003C\u002Fa> 總參數超過 1 兆。每次推理啟動 420 億參數。上下文長度最高可到 100 萬 token。這種規格，說真的，不是來陪你閒聊的。\u003C\u002Fp>\u003Cp>更狠的是價格。小米把這組模型打得很低。它的策略很明顯：先把門檻壓下來，再把 AI 塞進手機、汽車、家電和語音產品裡。\u003C\u002Fp>\u003Ch2>小米不是在做聊天框\u003C\u002Fh2>\u003Cp>這次的 3 款模型，各自負責不同層。MiMo-V2-Pro 管推理、寫程式、代理任務。MiMo-V2-Omni 負責圖像、影片、音訊理解，還能呼叫工具。MiMo-V2-TTS 則負責語音合成，還能控制情緒，甚至支援唱歌。\u003C\u002Fp>\u003Cp>講白了，小米在做的是一整套 agent 架構。不是一個會回話的模型。是能接瀏覽器、接麥克風、接相機、接車機螢幕的模型群。\u003C\u002Fp>\u003Cp>這很符合小米的硬體版圖。手機、智慧家居、汽車、穿戴裝置，全都需要不同感官輸入。若模型能看行車畫面、回覆語音指令、再幫你填網頁表單，那它就不只是 API，而是產品核心。\u003C\u002Fp>\u003Cul>\u003Cli>MiMo-V2-Pro：總參數超過 1 兆\u003C\u002Fli>\u003Cli>MiMo-V2-Pro：每次啟動 420 億參數\u003C\u002Fli>\u003Cli>MiMo-V2-Pro：上下文最高 100 萬 token\u003C\u002Fli>\u003Cli>MiMo-V2-TTS：支援情緒語音與唱歌\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得這種切法很務實。現在很多團隊都想做一個萬能模型。結果常常是什麼都能碰，什麼都不夠穩。小米反過來，直接拆成專用模型，再把它們串起來。\u003C\u002Fp>\u003Cp>這種做法比較像產品公司。不是研究室。它關心的是能不能上車、能不能進手機、能不能變成用戶真的會碰的功能。\u003C\u002Fp>\u003Ch2>MiMo-V2-Pro 是最值得盯的那顆\u003C\u002Fh2>\u003Cp>如果你是開發者，第一眼通常會看 \u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fmodel\u002FMiMo-V2-Pro\" target=\"_blank\" rel=\"noopener\">MiMo-V2-Pro\u003C\u002Fa>。因為它最像主力模型。小米說它在 PinchBench 和 ClawEval 都排進全球前段班，SWE-bench Verified 拿到 78 分。\u003C\u002Fp>\u003Cp>這個分數很接近 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude\u003C\u002Fa> 系列。Claude Opus 4.6 是 80.8。Claude Sonnet 4.6 是 79.6。MiMo-V2-Pro 雖然沒有贏，但差距很小。以價格來看，這就很有意思了。\u003C\u002Fp>\u003Cp>小米還提到，這個模型曾用代號 Hunter Alpha 在 \u003Ca href=\"https:\u002F\u002Fopenrouter.ai\" target=\"_blank\" rel=\"noopener\">OpenRouter\u003C\u002Fa> 上跑過。期間處理超過 1 兆 token。程式碼相關任務是最常見用途。這代表什麼？代表開發者真的會拿它來硬測，不是只跑幾個漂亮 demo。\u003C\u002Fp>\u003Cblockquote>“We believe the path to general intelligence runs through the real world.”\u003C\u002Fblockquote>\u003Cp>這句話來自小米 MiMo 團隊。意思很直接。它們想做的是能在真實世界工作的模型。不是只會背答案的模型。\u003C\u002Fp>\u003Cp>再看定價，小米很敢。MiMo-V2-Pro 的價格是每 100 萬 input token 1 美元，每 100 萬 output token 3 美元。對比 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fapi\" target=\"_blank\" rel=\"noopener\">Anthropic API\u003C\u002Fa> 的高階方案，這差距很明顯。對想大量試錯的團隊來說，成本差很多。\u003C\u002Fp>\u003Cul>\u003Cli>MiMo-V2-Pro：SWE-bench Verified 78\u003C\u002Fli>\u003Cli>Claude Sonnet 4.6：SWE-bench Verified 79.6\u003C\u002Fli>\u003Cli>Claude Opus 4.6：SWE-bench Verified 80.8\u003C\u002Fli>\u003Cli>MiMo-V2-Pro：每 100 萬 input token 1 美元\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡的重點不是小米有沒有全面超車。重點是，它已經把價格、上下文、推理能力湊成一個能打的組合。對很多公司來說，這比單點最高分更實際。\u003C\u002Fp>\u003Cp>因為真正在意成本的人，通常不是拿模型做作文測驗。是拿它跑客服、跑程式助理、跑內部工具。那時候，每 1 美元和 5 美元的差距就很有感。\u003C\u002Fp>\u003Ch2>MiMo-V2-Omni 才是產品味最重的那顆\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fmodel\u002FMiMo-V2-Omni\" target=\"_blank\" rel=\"noopener\">MiMo-V2-Omni\u003C\u002Fa> 是我覺得最像實戰模型的版本。它能看圖、看影片、聽音訊，還能做工具呼叫。這很像把感知和動作放進同一個系統。\u003C\u002Fp>\u003Cp>小米的 demo 也很有畫面。它可以看行車紀錄器，抓出行人、來車、路口壅塞。也可以打開瀏覽器，查小紅書評論，去京東比價，再跟客服談折扣。這種流程，已經很接近真實代理任務了。\u003C\u002Fp>\u003Cp>但別太快高潮。看 benchmark 就知道，Omni 還不是全能。小米說它在音訊和圖像任務上很強。可是在 ClawEval 這種 agent benchmark，它只有 54.8 分。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fclaude\" target=\"_blank\" rel=\"noopener\">Claude Opus 4.6\u003C\u002Fa> 是 66.3，\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-5\u002F\" target=\"_blank\" rel=\"noopener\">GPT-5.2\u003C\u002Fa> 是 59.6。\u003C\u002Fp>\u003Cp>換成白話就是：看得很不錯，做事還要磨。這其實很正常。因為多模態理解和穩定執行，本來就是兩回事。\u003C\u002Fp>\u003Cul>\u003Cli>MM-BrowserComp：小米稱表現優於 Gemini 3 Pro 與 GPT-5.2\u003C\u002Fli>\u003Cli>ClawEval：MiMo-V2-Omni 54.8\u003C\u002Fli>\u003Cli>Claude Opus 4.6：ClawEval 66.3\u003C\u002Fli>\u003Cli>GPT-5.2：ClawEval 59.6\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這裡我會給小米一個比較務實的評價。它不是在跟別人拼單一能力。它是在把視覺、語音、操作流程，硬整成一個能落地的產品。\u003C\u002Fp>\u003Cp>如果你做的是車機、智慧音箱、購物助理，這顆模型的價值就會很直接。因為這些場景本來就不是純文字世界。\u003C\u002Fp>\u003Ch2>MiMo-V2-TTS 可能更貼近一般人\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fmimo.xiaomi.com\u002Fmodel\u002FMiMo-V2-TTS\" target=\"_blank\" rel=\"noopener\">MiMo-V2-TTS\u003C\u002Fa> 看起來沒有前兩顆那麼炸。可它可能更接近消費級產品。小米說它用超過 1 億小時的語音資料訓練，還能做細緻的情緒控制。\u003C\u002Fp>\u003Cp>這代表什麼？你不用只選「男聲」「女聲」「正式」「活潑」。你可以直接下提示詞。像是「剛睡醒、有點沙啞」或「很生氣，但在忍」。這比傳統 TTS 的選單式調音自然很多。\u003C\u002Fp>\u003Cp>它還能輸出咳嗽、停頓、嘆氣、笑聲。更誇張的是，小米說它是目前少數同時支援語音和唱歌的商用 TTS API。這點很有意思，因為語音產品最怕聽起來像機器人。\u003C\u002Fp>\u003Cp>如果這顆模型真的穩，對手機和智慧音箱會很有用。語音助理不只是回你一句話。它要有節奏感，也要有情緒。這才像人。\u003C\u002Fp>\u003Cp>另外，它還會把字型當成語氣線索。大寫、重複字元，都會影響輸出。這種細節很小，但很有感。因為使用者真的會在意「聽起來像不像」。\u003C\u002Fp>\u003Cp>在語音市場裡，這種細節常常比模型分數更重要。你可以接受它少 2 分。你很難接受它每次講話都像客服錄音。\u003C\u002Fp>\u003Ch2>中國 AI 競爭已經很擠了\u003C\u002Fh2>\u003Cp>現在中國的模型戰場很熱。\u003Ca href=\"https:\u002F\u002Fwww.zhipuai.cn\" target=\"_blank\" rel=\"noopener\">Zhipu AI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fmoonshot.cn\" target=\"_blank\" rel=\"noopener\">Moonshot AI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fqwenlm.github.io\" target=\"_blank\" rel=\"noopener\">Qwen\u003C\u002Fa> 都在拼 coding 和 agent 能力。每家都想證明自己能做企業級應用。\u003C\u002Fp>\u003Cp>小米的打法不太一樣。它不是只做模型。它還有手機、汽車、家電、攝影機、音箱。這代表模型一旦成熟，產品化路徑很短。別人可能要找合作夥伴。小米自己就有硬體入口。\u003C\u002Fp>\u003Cp>但問題也很明顯。agent 最難的不是跑分。是穩定。瀏覽器會改版。表單會壞。語音流程會卡。模型只要出一次錯，使用者就會直接關掉。\u003C\u002Fp>\u003Cul>\u003Cli>Zhipu AI：主打通用大模型與企業場景\u003C\u002Fli>\u003Cli>Moonshot AI：強項在長上下文與助理體驗\u003C\u002Fli>\u003Cli>Qwen：在開源與工具鏈上很強\u003C\u002Fli>\u003Cli>小米：直接把模型接到硬體與終端\u003C\u002Fli>\u003C\u002Ful>\u003Cp>所以我看這次發表，重點不是「誰分數高一點」。而是小米已經把 AI 當成一整條產品線在做。這比只發一個聊天模型，野心大很多，也麻煩很多。\u003C\u002Fp>\u003Cp>接下來真正的考題只有一個：這些模型能不能在手機、車子、家裡，穩穩做事。能的話，就不是 demo 而已。不能的話，再漂亮的 benchmark 也只是一張海報。\u003C\u002Fp>\u003Ch2>結尾：小米下一步要證明什麼\u003C\u002Fh2>\u003Cp>我覺得小米接下來最該做的，不是再喊更大的參數。它該拿出更多真實場景。像是車內語音、購物助手、家庭控制、影像理解，然後公開失敗率和延遲數字。\u003C\u002Fp>\u003Cp>如果 MiMo 真要進產品，台灣開發者最該盯的也不是分數本身，而是 API 成本、上下文限制、工具呼叫穩定性，還有中文語音的自然度。這些才是最後會影響採用率的東西。\u003C\u002Fp>\u003Cp>說白了，小米已經把牌面攤開了。接下來就看它能不能把這套模型，真的塞進你我手上的裝置裡，而且不出包。\u003C\u002Fp>","小米一次推出三款 MiMo AI 模型，涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文，逼近 Claude Opus 4.6 的表現。","the-decoder.com","https:\u002F\u002Fthe-decoder.com\u002Fxiaomi-launches-three-mimo-ai-models-to-power-agents-robots-and-voice\u002F",null,[12,13,14,15,16,17,18,19,20,21],"小米","MiMo","AI模型","代理式AI","多模態模型","語音合成","Claude","GPT","OpenRouter","SWE-bench","zh",1,false,"2026-03-28T03:05:08.779489+00:00","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774498800835-3s4y.png","done","273820ca-c38d-4132-97bc-8f8d15e20bda","xiaomi-mimo-trio-agents-robots-voice-zh","model-release","60881d6d-2310-44ef-b1fb-7f98e9dd2f0e","published","2026-04-10T09:00:24.054+00:00",[35,37,39,42,43,44,47,49],{"name":20,"slug":36},"openrouter",{"name":19,"slug":38},"gpt",{"name":40,"slug":41},"研究整理","-",{"name":16,"slug":16},{"name":17,"slug":17},{"name":45,"slug":46},"SWE-Bench","swe-bench",{"name":13,"slug":48},"mimo",{"name":14,"slug":50},"ai模型",{"id":31,"slug":52,"title":53,"language":54},"xiaomi-mimo-trio-agents-robots-voice-en","Xiaomi’s MiMo trio targets agents, robots, and voice","en",[56,62,68,74,80,86],{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":30},"5b5fa24f-5259-4e9e-8270-b08b6805f281","minimax-m1-open-hybrid-attention-reasoning-model-zh","MiniMax-M1：開源 1M Token 推理模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778797859209-ea1g.png","2026-05-14T22:30:38.636592+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":30},"b1da56ac-8019-4c6b-a8dc-22e6e22b1cb5","gemini-omni-video-review-text-rendering-zh","Gemini Omni 影片模型怎麼了","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778779280109-lrrk.png","2026-05-14T17:20:42.608312+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":30},"d63e9d93-e613-4bbf-8135-9599fde11d08","why-xiaomi-mimo-v25-pro-changes-coding-agents-zh","為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778689858139-v38e.png","2026-05-13T16:30:27.893951+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":30},"8f0c9185-52f9-46f2-82c6-5baec126ba2e","openai-realtime-audio-models-live-voice-zh","OpenAI 即時音訊模型瞄準語音互動","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778451657895-2iu7.png","2026-05-10T22:20:32.443798+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":30},"52106dc2-4eba-4ca0-8318-fa646064de97","anthropic-10-finance-ai-agents-zh","Anthropic推10款金融AI Agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778389843399-vclb.png","2026-05-10T05:10:22.778762+00:00",{"id":87,"slug":88,"title":89,"cover_image":90,"image_url":90,"created_at":91,"category":30},"6ee6ed2a-35c6-4be3-ba2c-43847e592179","why-claudes-infinite-context-window-wont-autonomous-zh","為什麼 Claude 的「無限」上下文窗口，仍然不會讓 AI 自主運作","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778350250836-d5d5.png","2026-05-09T18:10:27.004984+00:00",[93,98,103,108,113,114,119,124,129,134],{"id":94,"slug":95,"title":96,"created_at":97},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":4,"slug":29,"title":5,"created_at":25},{"id":115,"slug":116,"title":117,"created_at":118},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"d68e59a2-55eb-4a8f-95d6-edc8fcbff581","cursor-composer-2-started-from-kimi-zh","Cursor Composer 2 其實從 Kimi 起步","2026-03-28T03:11:58.893796+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"45812c46-99fc-4b1f-aae1-56f64f5c9024","openai-shuts-down-sora-video-app-api-zh","OpenAI 關閉 Sora App 與 API","2026-03-29T04:47:48.974108+00:00",{"id":135,"slug":136,"title":137,"created_at":138},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00"]