小米 MiMo 三模型瞄準代理、機器人與語音

OraCore Editors

返回首頁

[MODEL] 2026年3月28日7 分鐘閱讀OraCore 編輯部

小米 MiMo 三模型瞄準代理、機器人與語音

小米一次推出三款 MiMo AI 模型，涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文，逼近 Claude Opus 4.6 的表現。

OpenRouter GPT 研究整理多模態模型語音合成 SWE-Bench MiMo AI模型

分享 LinkedIn

小米一次丟出 3 款 MiMo 模型。這不是單純做聊天機器人。它想做的是能看、能聽、能說、也能動的 AI 堆疊。

先看數字。MiMo-V2-Pro 總參數超過 1 兆。每次推理啟動 420 億參數。上下文長度最高可到 100 萬 token。這種規格，說真的，不是來陪你閒聊的。

更狠的是價格。小米把這組模型打得很低。它的策略很明顯：先把門檻壓下來，再把 AI 塞進手機、汽車、家電和語音產品裡。

小米不是在做聊天框

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這次的 3 款模型，各自負責不同層。MiMo-V2-Pro 管推理、寫程式、代理任務。MiMo-V2-Omni 負責圖像、影片、音訊理解，還能呼叫工具。MiMo-V2-TTS 則負責語音合成，還能控制情緒，甚至支援唱歌。

講白了，小米在做的是一整套 agent 架構。不是一個會回話的模型。是能接瀏覽器、接麥克風、接相機、接車機螢幕的模型群。

這很符合小米的硬體版圖。手機、智慧家居、汽車、穿戴裝置，全都需要不同感官輸入。若模型能看行車畫面、回覆語音指令、再幫你填網頁表單，那它就不只是 API，而是產品核心。

MiMo-V2-Pro：總參數超過 1 兆
MiMo-V2-Pro：每次啟動 420 億參數
MiMo-V2-Pro：上下文最高 100 萬 token
MiMo-V2-TTS：支援情緒語音與唱歌

我覺得這種切法很務實。現在很多團隊都想做一個萬能模型。結果常常是什麼都能碰，什麼都不夠穩。小米反過來，直接拆成專用模型，再把它們串起來。

這種做法比較像產品公司。不是研究室。它關心的是能不能上車、能不能進手機、能不能變成用戶真的會碰的功能。

MiMo-V2-Pro 是最值得盯的那顆

如果你是開發者，第一眼通常會看 MiMo-V2-Pro。因為它最像主力模型。小米說它在 PinchBench 和 ClawEval 都排進全球前段班，SWE-bench Verified 拿到 78 分。

這個分數很接近 Claude 系列。Claude Opus 4.6 是 80.8。Claude Sonnet 4.6 是 79.6。MiMo-V2-Pro 雖然沒有贏，但差距很小。以價格來看，這就很有意思了。

小米還提到，這個模型曾用代號 Hunter Alpha 在 OpenRouter 上跑過。期間處理超過 1 兆 token。程式碼相關任務是最常見用途。這代表什麼？代表開發者真的會拿它來硬測，不是只跑幾個漂亮 demo。

“We believe the path to general intelligence runs through the real world.”

這句話來自小米 MiMo 團隊。意思很直接。它們想做的是能在真實世界工作的模型。不是只會背答案的模型。

再看定價，小米很敢。MiMo-V2-Pro 的價格是每 100 萬 input token 1 美元，每 100 萬 output token 3 美元。對比 Anthropic API 的高階方案，這差距很明顯。對想大量試錯的團隊來說，成本差很多。

MiMo-V2-Pro：SWE-bench Verified 78
Claude Sonnet 4.6：SWE-bench Verified 79.6
Claude Opus 4.6：SWE-bench Verified 80.8
MiMo-V2-Pro：每 100 萬 input token 1 美元

這裡的重點不是小米有沒有全面超車。重點是，它已經把價格、上下文、推理能力湊成一個能打的組合。對很多公司來說，這比單點最高分更實際。

因為真正在意成本的人，通常不是拿模型做作文測驗。是拿它跑客服、跑程式助理、跑內部工具。那時候，每 1 美元和 5 美元的差距就很有感。

MiMo-V2-Omni 才是產品味最重的那顆

MiMo-V2-Omni 是我覺得最像實戰模型的版本。它能看圖、看影片、聽音訊，還能做工具呼叫。這很像把感知和動作放進同一個系統。

小米的 demo 也很有畫面。它可以看行車紀錄器，抓出行人、來車、路口壅塞。也可以打開瀏覽器，查小紅書評論，去京東比價，再跟客服談折扣。這種流程，已經很接近真實代理任務了。

但別太快高潮。看 benchmark 就知道，Omni 還不是全能。小米說它在音訊和圖像任務上很強。可是在 ClawEval 這種 agent benchmark，它只有 54.8 分。Claude Opus 4.6 是 66.3，GPT-5.2 是 59.6。

換成白話就是：看得很不錯，做事還要磨。這其實很正常。因為多模態理解和穩定執行，本來就是兩回事。

MM-BrowserComp：小米稱表現優於 Gemini 3 Pro 與 GPT-5.2
ClawEval：MiMo-V2-Omni 54.8
Claude Opus 4.6：ClawEval 66.3
GPT-5.2：ClawEval 59.6

這裡我會給小米一個比較務實的評價。它不是在跟別人拼單一能力。它是在把視覺、語音、操作流程，硬整成一個能落地的產品。

如果你做的是車機、智慧音箱、購物助理，這顆模型的價值就會很直接。因為這些場景本來就不是純文字世界。

MiMo-V2-TTS 可能更貼近一般人

MiMo-V2-TTS 看起來沒有前兩顆那麼炸。可它可能更接近消費級產品。小米說它用超過 1 億小時的語音資料訓練，還能做細緻的情緒控制。

這代表什麼？你不用只選「男聲」「女聲」「正式」「活潑」。你可以直接下提示詞。像是「剛睡醒、有點沙啞」或「很生氣，但在忍」。這比傳統 TTS 的選單式調音自然很多。

它還能輸出咳嗽、停頓、嘆氣、笑聲。更誇張的是，小米說它是目前少數同時支援語音和唱歌的商用 TTS API。這點很有意思，因為語音產品最怕聽起來像機器人。

如果這顆模型真的穩，對手機和智慧音箱會很有用。語音助理不只是回你一句話。它要有節奏感，也要有情緒。這才像人。

另外，它還會把字型當成語氣線索。大寫、重複字元，都會影響輸出。這種細節很小，但很有感。因為使用者真的會在意「聽起來像不像」。

在語音市場裡，這種細節常常比模型分數更重要。你可以接受它少 2 分。你很難接受它每次講話都像客服錄音。

中國 AI 競爭已經很擠了

現在中國的模型戰場很熱。Zhipu AI、Moonshot AI、Qwen 都在拼 coding 和 agent 能力。每家都想證明自己能做企業級應用。

小米的打法不太一樣。它不是只做模型。它還有手機、汽車、家電、攝影機、音箱。這代表模型一旦成熟，產品化路徑很短。別人可能要找合作夥伴。小米自己就有硬體入口。

但問題也很明顯。agent 最難的不是跑分。是穩定。瀏覽器會改版。表單會壞。語音流程會卡。模型只要出一次錯，使用者就會直接關掉。

Zhipu AI：主打通用大模型與企業場景
Moonshot AI：強項在長上下文與助理體驗
Qwen：在開源與工具鏈上很強
小米：直接把模型接到硬體與終端

所以我看這次發表，重點不是「誰分數高一點」。而是小米已經把 AI 當成一整條產品線在做。這比只發一個聊天模型，野心大很多，也麻煩很多。

接下來真正的考題只有一個：這些模型能不能在手機、車子、家裡，穩穩做事。能的話，就不是 demo 而已。不能的話，再漂亮的 benchmark 也只是一張海報。

結尾：小米下一步要證明什麼

我覺得小米接下來最該做的，不是再喊更大的參數。它該拿出更多真實場景。像是車內語音、購物助手、家庭控制、影像理解，然後公開失敗率和延遲數字。

如果 MiMo 真要進產品，台灣開發者最該盯的也不是分數本身，而是 API 成本、上下文限制、工具呼叫穩定性，還有中文語音的自然度。這些才是最後會影響採用率的東西。

說白了，小米已經把牌面攤開了。接下來就看它能不能把這套模型，真的塞進你我手上的裝置裡，而且不出包。

// 相關文章

小米 MiMo 三模型瞄準代理、機器人與語音

小米不是在做聊天框

訂閱 AI 趨勢週報

MiMo-V2-Pro 是最值得盯的那顆

MiMo-V2-Omni 才是產品味最重的那顆

MiMo-V2-TTS 可能更貼近一般人

中國 AI 競爭已經很擠了

結尾：小米下一步要證明什麼

MiniMax-M1：開源 1M Token 推理模型

Gemini Omni 影片模型怎麼了

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

OpenAI 即時音訊模型瞄準語音互動

Anthropic推10款金融AI Agent

為什麼 Claude 的「無限」上下文窗口，仍然不會讓 AI 自主運作