小米 MiMo-V2-Pro 登場:1T MoE 模型
小米推出 MiMo-V2-Pro,總參數超過 1T、每 token 啟用 42B,還有 1M context。SWE-bench 成績逼近 Claude Sonnet 4.6,價格卻低很多。

小米這次真的把牌面打很大。MiMo-V2-Pro 總參數超過 1 兆,單次啟用 420 億。它還給你 100 萬 token context,起價每百萬 input token 1 美元。
講白了,這不是拿來聊天裝可愛的模型。它是衝著 agentic coding 來的。成本、延遲、長上下文,這三個痛點一次全碰上。小米直接把它們攤在桌上。
在 SWE-bench Verified 上,小米宣稱它拿到 78.0%。這個分數很接近 Claude Sonnet 4.6 的 79.6%。和 Claude Opus 4.6 的 80.8% 也只差一點點。
小米到底端出什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
MiMo-V2-Pro 是小米第二代 MiMo 系列的旗艦文字模型。它採用 Mixture-of-Experts,也就是 MoE。簡單說,總參數很大,但每個 token 只喚起其中一部分。
這招很實際。你不用真的讓 1T 參數每次都跑一遍。那樣伺服器會先哭。MiMo-V2-Pro 每個 token 啟用 42B 參數,比較像是把大腦分工切開,讓不同專家輪流上場。
小米還加了 7:1 hybrid attention pattern,外加輕量 Multi-Token Prediction 層。這些設計都指向同一件事。它想讓 agent loop 跑得更順,少一點卡頓,多一點連續操作。
對開發者來說,最重要的不是架構圖,是能不能直接接。MiMo-V2-Pro 目前是 API only,沒有公開權重可抓。你可以從 platform.xiaomimimo.com 下手,也能走 OpenAI 相容端點 api.xiaomimimo.com/v1。它也上了 OpenRouter。
- 總參數超過 1T
- 每 token 啟用 42B
- 標準 context 256K,延伸到 1M
- 最大 completion 131,072 token
- 標準 context 價格:input $1、output $3 / 百萬 token
- 256K 到 1M context:input $2、output $6 / 百萬 token
為什麼 Hunter Alpha 會鬧這麼大
在小米正式揭曉前,AI 圈先被一個匿名模型搞得很熱。它叫 OpenRouter 上的 Hunter Alpha。它大概在 2026 年 3 月 11 日出現,接著就開始吃掉大量流量。
那個流量不是小數字。外界估計它每週處理約 5000 億 token。這種用量,通常不是小模型能扛的。大家自然會開始猜,背後是不是藏著什麼大傢伙。
最先被拿來猜的,是 DeepSeek V4。原因也不難懂。小米研究主管羅福莉之前就在 DeepSeek 工作過。這讓整件事更像一場業界八卦接力。直到小米在 3 月 18 日確認,Hunter Alpha 就是 MiMo-V2-Pro,話題才從「這是誰」變成「小米怎麼做到這個價格」。
“I am a Chinese AI model primarily trained in Chinese.”
這句話就是當時的名場面。當模型被問自己是誰,它只回了這句。說真的,這種回答很像故意吊胃口。也很像一台還沒想好要不要自曝身分的 AI。
小米還順手做了開發者拉新。像 Cline、Blackbox、KiloCode、OpenClaw、OpenCode 這些工具,發表週都有免費 API 可試。這招很務實。真實開發者丟進去的 repo,才會把模型的毛病逼出來。
數字怎麼看,跟誰比才有感
如果只看宣傳詞,大家很容易麻木。還是得拿數字對照。MiMo-V2-Pro 最有感的地方,是它把接近頂級 coding 模型的分數,壓到更低的價格帶。
在 SWE-bench Verified 上,小米給的成績是 78.0%。Claude Sonnet 4.6 是 79.6%。Claude Opus 4.6 是 80.8%。分數差距不大,價格差距就很有感。
標準 context 下,MiMo-V2-Pro 是 input $1、output $3。Sonnet 4.6 是 $3 和 $15。Opus 4.6 則是 $5 和 $25。這種差距放到大量 agent traffic,帳單會很誠實地告訴你誰比較兇。
在 agentic 任務上,小米還丟出 ClawEval 61.5。這個 benchmark 看的是多輪工具使用、錯誤修正、長程規劃。這些就是 coding agent 最常翻車的地方。MiMo-V2-Pro 在這裡高於 GPT-5.2 的 50.0,低於 Opus 4.6 的 66.3。
- SWE-bench Verified:MiMo-V2-Pro 78.0%,Sonnet 4.6 79.6%,Opus 4.6 80.8%
- ClawEval:MiMo-V2-Pro 61.5,GPT-5.2 50.0,Opus 4.6 66.3
- Terminal-Bench 2.0:MiMo-V2-Pro 86.7
- GPQA Diamond:MiMo-V2-Pro 87%
- VentureBeat 引用的測試總成本:MiMo-V2-Pro $348,GPT-5.2 $2,304,Claude Opus 4.6 $2,486
我覺得最刺眼的是成本。VentureBeat 報的 benchmark 總帳單,MiMo-V2-Pro 只有 $348。GPT-5.2 是 $2,304。Claude Opus 4.6 是 $2,486。這不是差一點,是直接差一個級距。
它適合放進哪種產品
MiMo-V2-Pro 不是小米唯一的模型。這次它一次丟出三款。這很像在告訴你:別只看旗艦,整條產品線都有分工。
MiMo-V2-Flash 是可自架的版本。它有 310B 總參數、15B active parameters,而且在 Hugging Face 上給了 MIT 授權。這對想控成本、控資料、控部署的人,吸引力很直接。
小米還發了 MiMo-V2-Omni。它走多模態,能處理文字、圖片、影片、音訊。小米說它可以一次處理 10 小時以上連續音訊。價格則是 input $0.40、output $2.00 / 百萬 token。
所以三款的定位其實很清楚。你要本地控制,就看 Flash。你要多模態,就先試 Omni。你要最強 agentic coding 表現,就先拿 Pro 去跑你的流水線。
但也別太快高潮。MiMo-V2-Pro 目前還有幾個空白。它沒有公開權重。完整總參數拆法也沒全公開。跨所有知識 benchmark 的對照表也不算完整。它也沒有多模態輸入。做文件理解或媒體流程的人,還是得另找模型。
如果你問我值不值得試,我會說值得。不是因為它神。是因為它把「接近頂級 coding 成績」和「便宜很多」放在一起。這種組合,對 SaaS、內部工具、客服自動化、repo 修補 agent,都很有吸引力。
這波對開發圈代表什麼
中國模型廠現在很常做一件事。先把參數數字拉高,再把價格壓低。這招不新,但很有效。因為開發者最後看的是每次呼叫的成本,不是簡報封面。
MiMo-V2-Pro 的出現,也讓 agent 模型的競爭更直接。以前大家比的是聊天品質。現在比的是能不能在長 context 裡穩定做事。能不能接工具。能不能修 repo。能不能在一堆失敗後還撐住。
這也是為什麼 1M context 很重要。很多真實工作不是一問一答。是整包資料、整個專案、整段對話、整串 log 一起丟。你要的是記得住,也要跑得動。這兩件事常常互相打架。
現在的關鍵問題很簡單。你的 agent stack,能不能把一部分 coding 流量切到 MiMo-V2-Pro,然後真的省下錢,還不掉穩定性?如果可以,那它就不是新聞而已。它會變成你月底帳單上的差異。
最後怎麼看
我會先把 MiMo-V2-Pro 當成一個值得測的高性價比選項。不是直接換掉現有主力,而是拿 20% 到 30% 的 coding 流量做 A/B test。看修 bug 成功率、工具呼叫失敗率、平均 completion 成本。
如果你的團隊現在就有大量 agent 工作,這款模型很適合放進試跑清單。尤其是那些要長上下文、要多輪操作、又很在意帳單的案子。先測,再決定要不要放大。
說真的,這類模型現在比的是實戰,不是口號。你手上的 repo、log、ticket、CI 失敗紀錄,才是最好的考場。MiMo-V2-Pro 值不值得留下來,答案應該會很快出來。