[MODEL] 7 分鐘閱讀OraCore 編輯部

小米 MiMo 三模型瞄準代理、機器人與語音

小米一次推出三款 MiMo AI 模型,涵蓋代理、多模態與語音。MiMo-V2-Pro 以超過 1 兆參數、100 萬 token 上下文,逼近 Claude Opus 4.6 的表現。

分享 LinkedIn
小米 MiMo 三模型瞄準代理、機器人與語音

小米一次丟出 3 款 MiMo 模型。這不是單純做聊天機器人。它想做的是能看、能聽、能說、也能動的 AI 堆疊。

先看數字。MiMo-V2-Pro 總參數超過 1 兆。每次推理啟動 420 億參數。上下文長度最高可到 100 萬 token。這種規格,說真的,不是來陪你閒聊的。

更狠的是價格。小米把這組模型打得很低。它的策略很明顯:先把門檻壓下來,再把 AI 塞進手機、汽車、家電和語音產品裡。

小米不是在做聊天框

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這次的 3 款模型,各自負責不同層。MiMo-V2-Pro 管推理、寫程式、代理任務。MiMo-V2-Omni 負責圖像、影片、音訊理解,還能呼叫工具。MiMo-V2-TTS 則負責語音合成,還能控制情緒,甚至支援唱歌。

講白了,小米在做的是一整套 agent 架構。不是一個會回話的模型。是能接瀏覽器、接麥克風、接相機、接車機螢幕的模型群。

這很符合小米的硬體版圖。手機、智慧家居、汽車、穿戴裝置,全都需要不同感官輸入。若模型能看行車畫面、回覆語音指令、再幫你填網頁表單,那它就不只是 API,而是產品核心。

  • MiMo-V2-Pro:總參數超過 1 兆
  • MiMo-V2-Pro:每次啟動 420 億參數
  • MiMo-V2-Pro:上下文最高 100 萬 token
  • MiMo-V2-TTS:支援情緒語音與唱歌

我覺得這種切法很務實。現在很多團隊都想做一個萬能模型。結果常常是什麼都能碰,什麼都不夠穩。小米反過來,直接拆成專用模型,再把它們串起來。

這種做法比較像產品公司。不是研究室。它關心的是能不能上車、能不能進手機、能不能變成用戶真的會碰的功能。

MiMo-V2-Pro 是最值得盯的那顆

如果你是開發者,第一眼通常會看 MiMo-V2-Pro。因為它最像主力模型。小米說它在 PinchBench 和 ClawEval 都排進全球前段班,SWE-bench Verified 拿到 78 分。

這個分數很接近 Claude 系列。Claude Opus 4.6 是 80.8。Claude Sonnet 4.6 是 79.6。MiMo-V2-Pro 雖然沒有贏,但差距很小。以價格來看,這就很有意思了。

小米還提到,這個模型曾用代號 Hunter Alpha 在 OpenRouter 上跑過。期間處理超過 1 兆 token。程式碼相關任務是最常見用途。這代表什麼?代表開發者真的會拿它來硬測,不是只跑幾個漂亮 demo。

“We believe the path to general intelligence runs through the real world.”

這句話來自小米 MiMo 團隊。意思很直接。它們想做的是能在真實世界工作的模型。不是只會背答案的模型。

再看定價,小米很敢。MiMo-V2-Pro 的價格是每 100 萬 input token 1 美元,每 100 萬 output token 3 美元。對比 Anthropic API 的高階方案,這差距很明顯。對想大量試錯的團隊來說,成本差很多。

  • MiMo-V2-Pro:SWE-bench Verified 78
  • Claude Sonnet 4.6:SWE-bench Verified 79.6
  • Claude Opus 4.6:SWE-bench Verified 80.8
  • MiMo-V2-Pro:每 100 萬 input token 1 美元

這裡的重點不是小米有沒有全面超車。重點是,它已經把價格、上下文、推理能力湊成一個能打的組合。對很多公司來說,這比單點最高分更實際。

因為真正在意成本的人,通常不是拿模型做作文測驗。是拿它跑客服、跑程式助理、跑內部工具。那時候,每 1 美元和 5 美元的差距就很有感。

MiMo-V2-Omni 才是產品味最重的那顆

MiMo-V2-Omni 是我覺得最像實戰模型的版本。它能看圖、看影片、聽音訊,還能做工具呼叫。這很像把感知和動作放進同一個系統。

小米的 demo 也很有畫面。它可以看行車紀錄器,抓出行人、來車、路口壅塞。也可以打開瀏覽器,查小紅書評論,去京東比價,再跟客服談折扣。這種流程,已經很接近真實代理任務了。

但別太快高潮。看 benchmark 就知道,Omni 還不是全能。小米說它在音訊和圖像任務上很強。可是在 ClawEval 這種 agent benchmark,它只有 54.8 分。Claude Opus 4.6 是 66.3,GPT-5.2 是 59.6。

換成白話就是:看得很不錯,做事還要磨。這其實很正常。因為多模態理解和穩定執行,本來就是兩回事。

  • MM-BrowserComp:小米稱表現優於 Gemini 3 Pro 與 GPT-5.2
  • ClawEval:MiMo-V2-Omni 54.8
  • Claude Opus 4.6:ClawEval 66.3
  • GPT-5.2:ClawEval 59.6

這裡我會給小米一個比較務實的評價。它不是在跟別人拼單一能力。它是在把視覺、語音、操作流程,硬整成一個能落地的產品。

如果你做的是車機、智慧音箱、購物助理,這顆模型的價值就會很直接。因為這些場景本來就不是純文字世界。

MiMo-V2-TTS 可能更貼近一般人

MiMo-V2-TTS 看起來沒有前兩顆那麼炸。可它可能更接近消費級產品。小米說它用超過 1 億小時的語音資料訓練,還能做細緻的情緒控制。

這代表什麼?你不用只選「男聲」「女聲」「正式」「活潑」。你可以直接下提示詞。像是「剛睡醒、有點沙啞」或「很生氣,但在忍」。這比傳統 TTS 的選單式調音自然很多。

它還能輸出咳嗽、停頓、嘆氣、笑聲。更誇張的是,小米說它是目前少數同時支援語音和唱歌的商用 TTS API。這點很有意思,因為語音產品最怕聽起來像機器人。

如果這顆模型真的穩,對手機和智慧音箱會很有用。語音助理不只是回你一句話。它要有節奏感,也要有情緒。這才像人。

另外,它還會把字型當成語氣線索。大寫、重複字元,都會影響輸出。這種細節很小,但很有感。因為使用者真的會在意「聽起來像不像」。

在語音市場裡,這種細節常常比模型分數更重要。你可以接受它少 2 分。你很難接受它每次講話都像客服錄音。

中國 AI 競爭已經很擠了

現在中國的模型戰場很熱。Zhipu AIMoonshot AIQwen 都在拼 coding 和 agent 能力。每家都想證明自己能做企業級應用。

小米的打法不太一樣。它不是只做模型。它還有手機、汽車、家電、攝影機、音箱。這代表模型一旦成熟,產品化路徑很短。別人可能要找合作夥伴。小米自己就有硬體入口。

但問題也很明顯。agent 最難的不是跑分。是穩定。瀏覽器會改版。表單會壞。語音流程會卡。模型只要出一次錯,使用者就會直接關掉。

  • Zhipu AI:主打通用大模型與企業場景
  • Moonshot AI:強項在長上下文與助理體驗
  • Qwen:在開源與工具鏈上很強
  • 小米:直接把模型接到硬體與終端

所以我看這次發表,重點不是「誰分數高一點」。而是小米已經把 AI 當成一整條產品線在做。這比只發一個聊天模型,野心大很多,也麻煩很多。

接下來真正的考題只有一個:這些模型能不能在手機、車子、家裡,穩穩做事。能的話,就不是 demo 而已。不能的話,再漂亮的 benchmark 也只是一張海報。

結尾:小米下一步要證明什麼

我覺得小米接下來最該做的,不是再喊更大的參數。它該拿出更多真實場景。像是車內語音、購物助手、家庭控制、影像理解,然後公開失敗率和延遲數字。

如果 MiMo 真要進產品,台灣開發者最該盯的也不是分數本身,而是 API 成本、上下文限制、工具呼叫穩定性,還有中文語音的自然度。這些才是最後會影響採用率的東西。

說白了,小米已經把牌面攤開了。接下來就看它能不能把這套模型,真的塞進你我手上的裝置裡,而且不出包。