[IND] 7 分鐘閱讀OraCore 編輯部

小米 MiMo 盯上代理式軟體

小米推出 MiMo-V2-Pro、Omni、TTS,主打 1T+ 參數與低價 API,直接瞄準代理式 AI 工作流。

分享 LinkedIn
小米 MiMo 盯上代理式軟體

小米這次直接把數字端上桌。MiMo-V2-Pro 宣稱總參數超過 1 兆。輸入每百萬 Token 收 1 美元,輸出收 3 美元。這價格,真的很敢打。

更重要的是,這波不是只做聊天機器人。MiMo-V2-OmniMiMo-V2-TTS 一起上場。小米要搶的是代理式 AI 工作流。也就是會讀、會想、會點、會講話的那種軟體助手。

講白了,AI 競爭已經不是誰比較會聊天。現在拼的是誰能真的做事。誰能跑長上下文。誰能接工具。誰能把成本壓下來。小米這次的打法,就是把這三件事綁在一起。

小米這次到底端出什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這次發表不是單一模型。小米把語言推理、多模態理解、語音生成,包成一組系統。這種組合很明顯。它不是只想做雲端 API。它想把模型塞進更多產品流程。

小米 MiMo 盯上代理式軟體

MiMo-V2-Pro 是主角。它採用 Mixture-of-Experts 架構。總參數超過 1 兆。每次請求啟用 420 億參數。小米還說它支援 100 萬 Token 的上下文長度。這種規格,拿來跑長文件、程式碼庫、或多步驟代理任務,才有意義。

MiMo-V2-Omni 則把能力延伸到文字、圖片、音訊、影片。MiMo-V2-TTS 負責語音合成,還能控制情緒、停頓、笑聲這些非語言訊號。這就不是單純念稿而已了。

  • MiMo-V2-Pro:總參數 1T+,每次啟用 42B
  • 上下文長度:最高 100 萬 Token
  • MiMo-V2-Pro 價格:輸入 $1、輸出 $3 / 百萬 Token
  • MiMo-V2-Omni:整合文字、影像、音訊、影片
  • MiMo-V2-TTS:訓練資料超過 1 億小時語音

我覺得這組合很像在補 AI 產品的最後一哩。語言模型負責思考。Omni 負責看世界。TTS 負責把結果講出來。這三個拼起來,才像真正能上工的代理人。

為什麼大家都在追代理式 AI

重點其實不是模型有多大。重點是 AI 正在從「回答問題」變成「替你做事」。代理式 AI 的工作流程比較像這樣:先拆任務,再查資料,再呼叫工具,再檢查結果,出錯就修正,最後把成果交出來。

這種東西一旦跑起來,價值就很直接。它可以幫你整理信件,讀文件,開網頁,填表單,寫程式,甚至跑測試。對開發者來說,這比單次問答實用太多。因為它真的會碰到工作流。

這個方向不是小米自己喊的。OpenAIAnthropicGoogle DeepMind 都在往長上下文、工具調用、推理能力這些地方推進。差別只在於,有人走高價路線,有人走低價路線。小米明顯想兩邊都碰,但先用價格開路。

“AI is the new electricity.” — Andrew Ng

這句話被講到爛了,但還是有用。因為它點出一件事。AI 不會只是一個產品。它會變成很多產品裡的底層元件。小米這次看起來就是在押這件事。

如果代理式 AI 真要普及,成本一定是硬門檻。因為代理不是只打一個 prompt。它可能會連續呼叫模型 10 次、20 次,甚至更多。這時候每百萬 Token 差幾美元,最後帳單差很多。

MiMo-V2-Pro 的價格到底多殺

小米最狠的地方,就是價格。MiMo-V2-Pro 開價是輸入 $1、輸出 $3,每百萬 Token。這跟很多高階模型比起來,差距非常明顯。

小米 MiMo 盯上代理式軟體

拿開發者常用的高階模型來看,Claude Sonnet 的價格是輸入 $3、輸出 $15。Claude Opus 則是輸入 $5、輸出 $25。你如果做的是大量代理任務,這個差距會直接反映在成本表上。

所以問題不是「誰比較強」。問題是「誰能讓你一直用」。很多團隊做 demo 很漂亮,真要上線就開始心痛帳單。小米這次就是在打這個痛點。

  • MiMo-V2-Pro:$1 / $3 每百萬 Token
  • Claude Sonnet:$3 / $15 每百萬 Token
  • Claude Opus:$5 / $25 每百萬 Token
  • 100 萬 Token 上下文,適合長任務
  • MoE 架構,有利於壓低推理成本

如果只看價格,MiMo 很有攻擊性。如果再看長上下文,這就更像是給 agent framework 用的 API,而不是純聊天服務。開發者會很在意這點。因為 agent 不只要聰明,還要便宜、穩、能跑久。

但我也要潑點冷水。價格低不代表就能贏。真實工作負載很髒。網頁會壞。工具會回錯。上下文會塞爆。模型如果在 benchmark 很漂亮,實際跑自動化流程時翻車,那還是白搭。

Omni 和 TTS 才是整套打法

MiMo-V2-Omni 讓這套東西比較像完整產品。因為代理不只要看文字。它還要看圖片、聽聲音、看影片。很多真實場景,資訊根本不是純文字。

例如客服中心。它要聽錄音,抓重點,整理工單。又例如會議工具。它要分辨不同講者,抓出誰在講什麼。再例如車機或監控。它要看畫面,判斷事件,找出異常。這些都很吃多模態能力。

小米還提到,Omni 可以處理超過 10 小時的連續長音訊分析。這很實用。因為很多企業資料,根本不是短音檔。是整天的會議、電話、客服錄音、媒體素材。沒有長上下文,根本做不了。

MiMo-V2-TTS 則是另一塊。代理如果要跟人互動,聲音不能太機器人。小米說它能用自然語言描述聲線風格,還能處理方言、唱歌、笑聲、猶豫這些細節。這比一堆固定情緒模板實用多了。

  • Omni 可分析圖片、影片、長音訊
  • Omni 支援原生音訊與影片聯合理解
  • TTS 可用文字描述聲線風格
  • TTS 支援方言、語調、笑聲、停頓
  • 整套系統瞄準軟體代理與語音代理

這裡的重點是串接。看得懂世界,才能做事。會講話,才有辦法跟人協作。小米不是只做單點能力,而是在補一條完整鏈路。

它跟其他模型比起來怎樣

如果只看市場定位,小米這次很像在跟幾個方向硬碰硬。第一個是高價高能的旗艦模型。第二個是便宜但夠用的實戰模型。第三個是多模態與語音整合方案。小米想吃的是第二和第三類。

從開發者角度看,最實際的比較不是誰的 paper 分數高,而是誰能把單次任務成本壓低。假設一個 agent 任務要呼叫 15 次模型,每次平均 4,000 Token,總量就很快上來。這時候輸入輸出單價,會直接影響產品毛利。

再看生態。ClineBlackbox AIKilo Code 這類工具,已經把 agent workflow 變成日常開發的一部分。模型如果接不上這些工具,再強也很難變成習慣。

  • 高價旗艦:強,但燒錢
  • 低價實戰:先拼成本,再拼黏著度
  • 多模態整合:文字、圖片、音訊、影片一起來
  • 工具生態:能不能接 Cline、Kilo Code 很重要
  • 企業場景:客服、會議、文件、程式碼庫最吃香

我自己的看法是,小米這次不是要跟最頂的模型正面硬撞。它更像是想搶「夠強、夠便宜、夠好接」這個位置。這位置很現實,也很有商業味。

小米為什麼現在出手

這波出手其實不意外。AI 模型市場現在已經很擠。大廠拼參數。新創拼效率。中國廠商則很常走一條路:先把模型做大,再把價格壓低,最後找落地場景。

小米的優勢不是只有模型。它還有手機、家電、車、IoT 裝置、語音互動場景。這些東西加起來,剛好就是代理式 AI 很需要的入口。因為代理不是只存在於網頁。它會進到裝置裡,進到生活裡。

如果把這次發表看成策略,而不是單純發新聞稿,那邏輯就很清楚。小米想把 AI 從雲端 API,往更多終端和工作流裡推。這樣一來,模型不是獨立賣錢,而是變成整個生態的核心零件。

這也解釋了為什麼它要同時做 Pro、Omni、TTS。因為單一模型很難吃下所有場景。代理要進手機,要進車機,要進客服,要進開發工具。沒有多模態和語音,很多地方根本卡住。

接下來要看什麼

接下來最值得盯的,不是宣傳詞,而是真實使用情境。MiMo-V2-Pro 在程式碼生成、工具調用、長任務穩定性上,能不能真的撐住。這比單一 benchmark 分數重要太多。

如果小米能把價格維持住,還能把模型接進實際 agent 框架,那它很可能先吃到企業內部自動化、客服助理、文件處理這些需求。這些場景不花俏,但很花錢。能省成本的模型,通常比較容易活下來。

我會特別觀察兩件事。第一,開發者社群會不會真的接。第二,實際 API 穩定度如何。模型再強,伺服器一抖,大家還是會跑去別家。說到底,AI 不是比誰最會講。是比誰最能穩穩幹活。

如果你是開發者,我的建議很直接:先拿它跑一個長任務。比如文件摘要加工具呼叫。或是瀏覽器代理加表單填寫。你會很快知道,這東西是能上線,還是只能看 demo。