[MODEL] 7 分鐘閱讀OraCore 編輯部

Microsoft 推出三款自家 AI 模型

Microsoft 一口氣推出文字、語音、圖片三款自家 AI 模型。MAI-Transcribe-1 主打 25 種語言、速度比 Azure Fast 快 2.5 倍,價格也更低,直接把企業採購壓力丟回市場。

分享 LinkedIn
Microsoft 推出三款自家 AI 模型

Microsoft 這次不是小修小補。它直接端出三款自家 AI 模型,分別做文字、語音、圖片。時間點也很硬:2026 年 4 月 2 日。Microsoft 這回明講了,自己要在模型層多踩一腳。

最吸睛的是 MAI-Transcribe-1。它支援 25 種語言,還號稱比 Azure Fast 快 2.5 倍。MAI-Voice-1 更誇張,1 秒能生出 60 秒音訊。這種數字很像在對市場喊話:我不只會做,我還要做得便宜。

Microsoft 這次到底丟了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

這三款模型來自 Microsoft AI。團隊由 Mustafa Suleyman 領軍。名字分別是 MAI-Transcribe-1MAI-Voice-1MAI-Image-2。它們會先進到 Microsoft FoundryMAI Playground,讓開發者先試,再決定要不要上線。

Microsoft 推出三款自家 AI 模型

講白了,Microsoft 不是只想賣雲端。它想把模型層也握在手上。這很符合它一貫套路:先把入口做大,再把工具鏈黏住你。對企業客戶來說,這種做法很實際,因為採購、測試、部署可以放在同一套流程裡。

而且這次不是單打獨鬥。Microsoft 一邊跟 OpenAI 綁很深,一邊又自己養模型。這種雙線打法,說穿了就是保留退路。AI 市場變化太快,誰都不想把命運全押在別人身上。

  • MAI-Transcribe-1 支援 25 種語言
  • Microsoft 說它比 Azure Fast 快 2.5 倍
  • MAI-Voice-1 可在 1 秒內生出 60 秒音訊
  • MAI-Transcribe-1 起價是每小時 0.36 美元
  • MAI-Voice-1 起價是每 100 萬字元 22 美元
  • MAI-Image-2 起價是每 100 萬文字輸入 token 5 美元

這些價格很有意思。它們不是在拚一個超大通用模型。它們是在拚任務單價。對企業來說,這才是重點。你做客服轉寫、語音助理、內容生成,成本只要少一點,財務部就會比較好看。

Suleyman 想把 AI 說成更像工具

這批模型由 MAI Superintelligence team 做出來。這個團隊在 2025 年 11 月成立。Suleyman 在官方文章裡提到一個詞:Humanist AI。聽起來很文青,但意思其實很直白,就是把人放在中心,模型要更貼近真實溝通。

他原話是這樣說的:

“At Microsoft AI, we’re building Humanist AI. We have a distinct view when creating our AI models — putting humans at the center, optimizing for how people actually communicate, training for practical use.”

這段話不是只有公關味。它也在講產品方向。Microsoft 想把模型做成能直接進工作流程的工具。不是只拿來跑 benchmark,也不是只在 demo 場合帥一下。對台灣開發者來說,這種定位很熟悉,就是先求穩,再求快。

Suleyman 也一直在處理和 OpenAI 的關係。他在接受 VentureBeat 訪問時,還是強調合作關係沒斷。The Verge 也提到,新的協議讓 Microsoft 在自家超級智慧研究上有更多空間。這代表什麼?代表它不想只當大金主,它想當自己模型路線的主控方。

數字很直接,目標也很直接

AI 市場現在很擠。Google Vertex AI、OpenAI、Anthropic,還有一堆新創,都在搶同一批預算。這時候比誰更會講故事,意義沒那麼大。真正有用的是:誰的 API 夠快、夠便宜、夠穩。

Microsoft 推出三款自家 AI 模型

Microsoft 這次給的數字,幾乎就是在打這個點。MAI-Transcribe-1 每小時 0.36 美元。MAI-Voice-1 每 100 萬字元 22 美元。MAI-Image-2 則是每 100 萬文字輸入 token 5 美元、每 100 萬圖片輸出 token 33 美元。這些都很像在說:我不是來秀肌肉,我是來搶工作量。

如果你是開發者,你會很快想到幾個場景。客服錄音轉文字、會議逐字稿、語音導覽、App 內配音、商品圖生成。這些都不是玩具需求。它們是會燒錢的真實需求。只要單次成本降一點,整個產品的毛利就會比較像樣。

更重要的是,Microsoft 把這些模型放進 Foundry。這表示企業不用重做整套 AI 管線。你原本就在 Azure 上跑服務,現在多半只要換模型端點。這種低摩擦切換,對採購部門來說很有吸引力。

  • MAI-Transcribe-1:25 語言,2.5 倍速度優勢
  • MAI-Voice-1:1 秒生成 60 秒音訊
  • MAI-Image-2:同時涵蓋文字輸入與圖片輸出計價
  • OpenAI:強在通用能力與生態聲量
  • Google:強在雲端整合與多模態產品線
  • Microsoft:強在企業合約與 Azure 既有客戶

這跟競品比,差在哪

如果只看模型能力,大家都會說自己很強。這種話聽多了,真的會膩。比較有意思的是產品路線。OpenAI 比較像把旗艦模型先推到前面,再慢慢往企業產品補齊。Google 則是把模型塞進雲端和搜尋生態。Microsoft 這次的打法很明確:直接把模型變成企業可採購的零件。

這種打法的優點很現實。第一,採購流程短。第二,帳單容易算。第三,開發者不必換整套平台。對很多台灣公司來說,這比模型排行榜上的 0.5 分差距更重要。因為真的上線後,大家只看成本和 SLA。

如果拿語音轉寫來看,MAI-Transcribe-1 的賣點很清楚。25 種語言夠用,2.5 倍速度也夠有感。對客服中心、媒體、教育平台來說,這種速度差異會直接反映在等待時間和伺服器成本上。這不是抽象優勢,是帳單上的差別。

再看語音生成。Microsoft AI 說 MAI-Voice-1 可以 1 秒產生 60 秒音訊。這個速度很猛,但實務上還要看音質、情緒控制、停頓自然度。因為企業不是只要快,還要能用。這就是和 OpenAIGoogle 拉開差距的地方。

背後其實是平台戰

Microsoft 這步棋,表面上是推出三個模型。實際上是把平台戰再往前推一格。它想讓開發者在 Azure 裡就能完成測試、部署、計費。這種整合式路線,對大型企業很有用,因為 IT 團隊最怕東拼西湊。

另一個背景是成本壓力。現在很多公司都在算 AI ROI。模型再強,若每次呼叫都貴到爆,最後還是只能放在 demo。Microsoft 這次把價格壓到一個明顯能談商務的區間,就是要讓 AI 變成可大量使用的基礎設施,而不是只給產品經理拍片用。

我覺得這也反映一件事。AI 競爭早就不是單純比誰模型大。現在比的是誰能把模型塞進既有雲端、資料、權限、付款和監控系統。誰能少讓工程師重寫一段 code,誰就比較容易拿到合約。

對台灣開發團隊來說,這類消息的重點很簡單。不要只盯著模型名稱。要看價格表、延遲、區域支援、語言品質、以及能不能直接接你現在的 API 架構。說真的,這些才是會決定你要不要切換的東西。

接下來要看什麼

我會先看兩件事。第一,這三款模型會不會很快進到更多 Microsoft 產品。第二,實際第三方測試會不會跟官方數字差很多。AI 圈很常見這種狀況:簡報很漂亮,上線後才知道真相。

如果 MAI-Transcribe-1 和 MAI-Voice-1 的表現真的穩,最先受惠的會是客服、媒體、教育和企業內部工具。這些場景對速度和成本都很敏感。反過來說,如果品質不夠穩,市場也不會客氣,因為企業客戶最會算帳。

我的預測很直接。Microsoft 接下來會把更多自家模型塞進 Foundry,然後用價格和整合度去搶企業單。你如果是開發者,現在就該試試看這些 API。不要等別人先把流程接完,才回頭補功課。Microsoft FoundryMAI Playground 已經開著了,直接玩最準。