小米 MiMo 盯上代理式軟體

OraCore Editors

返回首頁

[IND] 2026年3月28日7 分鐘閱讀OraCore 編輯部

小米 MiMo 盯上代理式軟體

小米推出 MiMo-V2-Pro、Omni、TTS，主打 1T+ 參數與低價 API，直接瞄準代理式 AI 工作流。

人工智慧研究整理多模態模型 MIMO LLM token

分享 LinkedIn

小米這次直接把數字端上桌。MiMo-V2-Pro 宣稱總參數超過 1 兆。輸入每百萬 Token 收 1 美元，輸出收 3 美元。這價格，真的很敢打。

更重要的是，這波不是只做聊天機器人。MiMo-V2-Omni 和 MiMo-V2-TTS 一起上場。小米要搶的是代理式 AI 工作流。也就是會讀、會想、會點、會講話的那種軟體助手。

講白了，AI 競爭已經不是誰比較會聊天。現在拼的是誰能真的做事。誰能跑長上下文。誰能接工具。誰能把成本壓下來。小米這次的打法，就是把這三件事綁在一起。

小米這次到底端出什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這次發表不是單一模型。小米把語言推理、多模態理解、語音生成，包成一組系統。這種組合很明顯。它不是只想做雲端 API。它想把模型塞進更多產品流程。

MiMo-V2-Pro 是主角。它採用 Mixture-of-Experts 架構。總參數超過 1 兆。每次請求啟用 420 億參數。小米還說它支援 100 萬 Token 的上下文長度。這種規格，拿來跑長文件、程式碼庫、或多步驟代理任務，才有意義。

MiMo-V2-Omni 則把能力延伸到文字、圖片、音訊、影片。MiMo-V2-TTS 負責語音合成，還能控制情緒、停頓、笑聲這些非語言訊號。這就不是單純念稿而已了。

MiMo-V2-Pro：總參數 1T+，每次啟用 42B
上下文長度：最高 100 萬 Token
MiMo-V2-Pro 價格：輸入 $1、輸出 $3 / 百萬 Token
MiMo-V2-Omni：整合文字、影像、音訊、影片
MiMo-V2-TTS：訓練資料超過 1 億小時語音

我覺得這組合很像在補 AI 產品的最後一哩。語言模型負責思考。Omni 負責看世界。TTS 負責把結果講出來。這三個拼起來，才像真正能上工的代理人。

為什麼大家都在追代理式 AI

重點其實不是模型有多大。重點是 AI 正在從「回答問題」變成「替你做事」。代理式 AI 的工作流程比較像這樣：先拆任務，再查資料，再呼叫工具，再檢查結果，出錯就修正，最後把成果交出來。

這種東西一旦跑起來，價值就很直接。它可以幫你整理信件，讀文件，開網頁，填表單，寫程式，甚至跑測試。對開發者來說，這比單次問答實用太多。因為它真的會碰到工作流。

這個方向不是小米自己喊的。OpenAI、Anthropic、Google DeepMind 都在往長上下文、工具調用、推理能力這些地方推進。差別只在於，有人走高價路線，有人走低價路線。小米明顯想兩邊都碰，但先用價格開路。

“AI is the new electricity.” — Andrew Ng

這句話被講到爛了，但還是有用。因為它點出一件事。AI 不會只是一個產品。它會變成很多產品裡的底層元件。小米這次看起來就是在押這件事。

如果代理式 AI 真要普及，成本一定是硬門檻。因為代理不是只打一個 prompt。它可能會連續呼叫模型 10 次、20 次，甚至更多。這時候每百萬 Token 差幾美元，最後帳單差很多。

MiMo-V2-Pro 的價格到底多殺

小米最狠的地方，就是價格。MiMo-V2-Pro 開價是輸入 $1、輸出 $3，每百萬 Token。這跟很多高階模型比起來，差距非常明顯。

拿開發者常用的高階模型來看，Claude Sonnet 的價格是輸入 $3、輸出 $15。Claude Opus 則是輸入 $5、輸出 $25。你如果做的是大量代理任務，這個差距會直接反映在成本表上。

所以問題不是「誰比較強」。問題是「誰能讓你一直用」。很多團隊做 demo 很漂亮，真要上線就開始心痛帳單。小米這次就是在打這個痛點。

MiMo-V2-Pro：$1 / $3 每百萬 Token
Claude Sonnet：$3 / $15 每百萬 Token
Claude Opus：$5 / $25 每百萬 Token
100 萬 Token 上下文，適合長任務
MoE 架構，有利於壓低推理成本

如果只看價格，MiMo 很有攻擊性。如果再看長上下文，這就更像是給 agent framework 用的 API，而不是純聊天服務。開發者會很在意這點。因為 agent 不只要聰明，還要便宜、穩、能跑久。

但我也要潑點冷水。價格低不代表就能贏。真實工作負載很髒。網頁會壞。工具會回錯。上下文會塞爆。模型如果在 benchmark 很漂亮，實際跑自動化流程時翻車，那還是白搭。

Omni 和 TTS 才是整套打法

MiMo-V2-Omni 讓這套東西比較像完整產品。因為代理不只要看文字。它還要看圖片、聽聲音、看影片。很多真實場景，資訊根本不是純文字。

例如客服中心。它要聽錄音，抓重點，整理工單。又例如會議工具。它要分辨不同講者，抓出誰在講什麼。再例如車機或監控。它要看畫面，判斷事件，找出異常。這些都很吃多模態能力。

小米還提到，Omni 可以處理超過 10 小時的連續長音訊分析。這很實用。因為很多企業資料，根本不是短音檔。是整天的會議、電話、客服錄音、媒體素材。沒有長上下文，根本做不了。

MiMo-V2-TTS 則是另一塊。代理如果要跟人互動，聲音不能太機器人。小米說它能用自然語言描述聲線風格，還能處理方言、唱歌、笑聲、猶豫這些細節。這比一堆固定情緒模板實用多了。

Omni 可分析圖片、影片、長音訊
Omni 支援原生音訊與影片聯合理解
TTS 可用文字描述聲線風格
TTS 支援方言、語調、笑聲、停頓
整套系統瞄準軟體代理與語音代理

這裡的重點是串接。看得懂世界，才能做事。會講話，才有辦法跟人協作。小米不是只做單點能力，而是在補一條完整鏈路。

它跟其他模型比起來怎樣

如果只看市場定位，小米這次很像在跟幾個方向硬碰硬。第一個是高價高能的旗艦模型。第二個是便宜但夠用的實戰模型。第三個是多模態與語音整合方案。小米想吃的是第二和第三類。

從開發者角度看，最實際的比較不是誰的 paper 分數高，而是誰能把單次任務成本壓低。假設一個 agent 任務要呼叫 15 次模型，每次平均 4,000 Token，總量就很快上來。這時候輸入輸出單價，會直接影響產品毛利。

再看生態。Cline、Blackbox AI、Kilo Code 這類工具，已經把 agent workflow 變成日常開發的一部分。模型如果接不上這些工具，再強也很難變成習慣。

高價旗艦：強，但燒錢
低價實戰：先拼成本，再拼黏著度
多模態整合：文字、圖片、音訊、影片一起來
工具生態：能不能接 Cline、Kilo Code 很重要
企業場景：客服、會議、文件、程式碼庫最吃香

我自己的看法是，小米這次不是要跟最頂的模型正面硬撞。它更像是想搶「夠強、夠便宜、夠好接」這個位置。這位置很現實，也很有商業味。

小米為什麼現在出手

這波出手其實不意外。AI 模型市場現在已經很擠。大廠拼參數。新創拼效率。中國廠商則很常走一條路：先把模型做大，再把價格壓低，最後找落地場景。

小米的優勢不是只有模型。它還有手機、家電、車、IoT 裝置、語音互動場景。這些東西加起來，剛好就是代理式 AI 很需要的入口。因為代理不是只存在於網頁。它會進到裝置裡，進到生活裡。

如果把這次發表看成策略，而不是單純發新聞稿，那邏輯就很清楚。小米想把 AI 從雲端 API，往更多終端和工作流裡推。這樣一來，模型不是獨立賣錢，而是變成整個生態的核心零件。

這也解釋了為什麼它要同時做 Pro、Omni、TTS。因為單一模型很難吃下所有場景。代理要進手機，要進車機，要進客服，要進開發工具。沒有多模態和語音，很多地方根本卡住。

接下來要看什麼

接下來最值得盯的，不是宣傳詞，而是真實使用情境。MiMo-V2-Pro 在程式碼生成、工具調用、長任務穩定性上，能不能真的撐住。這比單一 benchmark 分數重要太多。

如果小米能把價格維持住，還能把模型接進實際 agent 框架，那它很可能先吃到企業內部自動化、客服助理、文件處理這些需求。這些場景不花俏，但很花錢。能省成本的模型，通常比較容易活下來。

我會特別觀察兩件事。第一，開發者社群會不會真的接。第二，實際 API 穩定度如何。模型再強，伺服器一抖，大家還是會跑去別家。說到底，AI 不是比誰最會講。是比誰最能穩穩幹活。

如果你是開發者，我的建議很直接：先拿它跑一個長任務。比如文件摘要加工具呼叫。或是瀏覽器代理加表單填寫。你會很快知道，這東西是能上線，還是只能看 demo。

// 相關文章

小米 MiMo 盯上代理式軟體

小米這次到底端出什麼

訂閱 AI 趨勢週報

為什麼大家都在追代理式 AI

MiMo-V2-Pro 的價格到底多殺

Omni 和 TTS 才是整套打法

它跟其他模型比起來怎樣

小米為什麼現在出手

接下來要看什麼

WebX 2026 把聲量拆成會議簡報

AI 週報：2026-07-06 ~ 2026-07-13

AI Act 應被視為歐洲 AI 的作業系統

Booz Allen 的 OpenAI 合作是真優勢，不是噱頭

OpenSearch 向量搜尋基準的 5 種跑法

4 種能上線的向量資料庫選擇