[MODEL] 4 分鐘閱讀OraCore 編輯部

MiniMax M3 證明開放權重在寫程式上仍能贏

MiniMax M3 證明開放權重模型不只可以追上前沿,還能在寫程式、長上下文與成本控制上形成優勢。

分享 LinkedIn
MiniMax M3 證明開放權重在寫程式上仍能贏

MiniMax M3 證明開放權重模型仍能在寫程式、長上下文與成本控制上領先。

我認為 MiniMax M3 是開放權重模型最有力的一次反擊:它不只是在某個榜單上刷分,而是把 1M 上下文、原生多模態、可用的產品入口與極低價格放在同一套方案裡。

第一個論點

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

對工程團隊來說,1M tokens 本身不是賣點,能不能真的用才是。MiniMax 宣稱 M3 在 1M 上下文下,Sparse Attention 把每 token 計算量降到前代的二十分之一,prefill 快超過 9 倍,decode 快超過 15 倍。這種差距不是展示用,而是決定你能不能把整個程式庫、issue 歷史和工具紀錄一起塞進工作流

MiniMax M3 證明開放權重在寫程式上仍能贏

另一個具體例子是產品可用性。M3 上線後就能透過 MiniMax Code、API 與 token 方案使用,不是只停留在論文或等待名單。這代表它不是單點能力,而是已經能進入真實開發流程,尤其適合需要反覆追問、長對話和多輪工具呼叫的 coding 任務。

第二個論點

如果一個模型只會講「我很強」,那沒有意義。M3 給出的 benchmark 組合至少足夠嚴肅:SWE-Bench Pro 59.0%、Terminal-Bench 2.1 66.0%、MCP Atlas 74.2%、BrowseComp 83.5。這些不是單一面向的漂亮數字,而是指向寫程式、終端機操作、工具調用與瀏覽推理的整體能力。

更重要的是,MiniMax 把它放進了與 Claude、GPT、Gemini 同一個競爭敘事裡。它還宣稱在 OmniDocBench、SVG-Bench 與 agent 任務上有領先表現。對正在做 agentic software 的團隊來說,這很關鍵,因為真正有價值的不是「會寫 code」而已,而是能讀文件、查資料、操作工具、再回到 code 裡完成閉環。

第三個論點

價格是 M3 最具殺傷力的地方。MiniMax 公布的 API 起價約為每百萬輸入 tokens 0.30 美元,若加上 cache optimization,混合成本可降到約 0.06 美元。對比它自己拿來對照的 Claude Opus 4.7 約每百萬輸入 5 美元、輸出 25 美元,這不是小幅折扣,而是成本結構的改寫。

MiniMax M3 證明開放權重在寫程式上仍能贏

這件事之所以重要,是因為 AI 採購早就不是純粹的模型迷信,而是每次任務成本的算術題。對 PM 與創辦人而言,能不能把長上下文、檢索、工具使用這些需求穩定跑在低成本模型上,直接影響產品毛利與可擴張性。M3 的 Plus 與更高容量方案,讓這種部署方式不再只是大公司專屬。

反方可能怎麼說

最強的反對意見是信任問題。MiniMax 公布的數據多半來自自家測試,且部分結果搭配了 Claude Code、Mini-SWE-Agent 或 Terminus 這類 agent scaffolding。換句話說,數字不是假的,但也不是中立樣本。真正進到雜亂的 production repository,表現可能會打折。

另一個合理疑慮是,開放權重不等於開放科學。若權重、技術報告與細節釋出不夠完整,這類發布就容易變成行銷事件,而不是可重現的研究成果。對採購者來說,先等第三方跑分與實測,是負責任的態度。

但這些疑慮不足以推翻 M3。原因很直接:它同時給了架構改進、可立即使用的產品入口、以及極具壓迫感的價格。就算第三方測試最後低一點,M3 仍然保有「長上下文、原生多模態、低成本」這個少見組合。反方最多削弱它的天花板,不能否定它已經把開放權重模型拉回前線的事實。

你能做什麼

如果你是工程師、PM 或創辦人,現在最好的做法不是立刻全面切換,而是把 M3 放進你最吃上下文、最吃工具調用的任務裡做壓測:拿真實 repo 跑一輪,量 latency、成功率與每次完成任務的總成本,再和你現在用的高價模型比較。若結果成立,M3 代表一個很實際的選項:用開放權重換取控制權,同時不必放棄前沿能力。