[MODEL] 4 分鐘閱讀OraCore 編輯部

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

MiMo-V2.5-Pro 的重點不在聊天能力,而在長時間、重工具呼叫的 coding agent 工作;它代表 AI 競爭焦點正從會說話,轉向能把任務做完。

分享 LinkedIn
為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

MiMo-V2.5-Pro 是為長時間、重工具呼叫的程式工作設計,不是為聊天而生。

Xiaomi 的 MiMo-V2.5-Pro 不是又一次榜單秀肌肉,而是清楚告訴市場:下一輪 AI 競爭比的是耐力,不是嘴皮子。官方給出的案例很直接,這個模型能在 4.3 小時內做出完整編譯器,經過 672 次 tool calls 後把測試覆蓋率推到 100%,而且在 coding 分數上接近 Claude Opus 4.6,同時還少用 40% 到 60% 的 tokens。

第一個論點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

真正改變市場的,不是它能不能寫一段程式,而是它能不能把一個任務一路做完。Xiaomi 展示的編譯器案例最有說服力:一開始只有 59% coverage,途中還因為重構把自己改壞,最後能自己發現錯誤並回到 233/233 hidden tests 全過。這不是 autocomplete,而是帶著狀態往前推進的工程工作。

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

第二個例子更能說明問題。Xiaomi 說它用約 1,870 次 tool calls,花 11.5 小時,無監督完成了一個約 8,000 行 code 的桌面影片編輯器。這種任務的關鍵不是單次回答品質,而是模型能不能記住前文、修正前一步、再接著往下做。對 coding agent 來說,這才是新的勝負手。

第二個論點

token efficiency 已經不是加分題,而是產品能不能落地的核心條件。Xiaomi 直接宣稱,MiMo-V2.5-Pro 比 Claude Opus 4.6 和 Gemini 3.1 Pro 少用 40% 到 60% 的 tokens。對長時間 agent 工作來說,這代表成本、延遲和失敗面都一起下降。少一半 token,不只是省錢,還意味著同樣的工作可以更穩定地重跑、回滾和擴大部署。

上下文長度也支持這個判斷。主版本可處理到 100 萬 tokens,基礎版不經再訓練也有 256,000 tokens;Xiaomi 還說,local 與 global attention 的組合把記憶體用量壓低將近 7 倍,parallel token prediction 則把輸出速度拉高 3 倍。這些數字對聊天產品未必是決勝點,但對要在 agent loop 裡跑幾個小時的系統,直接決定可不可以上線。

反方可能怎麼說

最強的反對意見其實很合理:benchmark 贏,不等於真實產品場景也贏。模型可以在內部編譯器任務上表現漂亮,卻在混亂的 repository、破碎的 API、模糊的需求和會反悔的人類審查面前失手。長上下文也不是萬靈丹,MiMo-V2-Pro 先前在 OpenAI 的 GraphWalks benchmark 上,據稱在 100 萬 token 長度下拿到 0 分,這提醒我們長距推理仍然會崩。

為什麼 Xiaomi 的 MiMo-V2.5-Pro 改變的是 Coding …

另一個質疑是,硬體公司做的 open-weight release 常常看起來很強,實際上卻難部署、難微調、難整合進工程流程。MiMo-V2.5-Pro 的內部測試、token 節省和 staged post-training,都還是控制良好的展示,不是帶著 legacy dependencies、權限問題和人類干擾的真實 codebase。

這些批評成立,但不足以推翻結論。MiMo-V2.5-Pro 的重點不是宣告軟體工程已被解決,而是說明評價標準已經變了。現在更有價值的是能處理多小時任務、保住上下文、並在自己犯錯後修正回來的模型。就算部分 demo 經過挑選,方向仍然清楚,Xiaomi 公布的數字也足以證明:coding agent 的競爭焦點,已經不是聊天品質。

你能做什麼

如果你是工程師或 PM,現在該做的不是追最新聊天模型,而是把工作流改成長任務導向:把流程拆成可觀測階段、記錄每次 tool call、量 token burn,並替模型中途失準設計回復機制。若你是創辦人,請直接拿幾個模型做長時間 agent 測試,重點看誰能在幾小時內穩定完成任務,而不是誰在單輪對話裡最會回答。這一輪的贏家不是最會聊天的模型,而是最會把事做完的模型。