[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-self-host-minimax-m3-gpu-cloud-zh":3,"article-related-self-host-minimax-m3-gpu-cloud-zh":35,"series-model-release-976800ba-7c59-4890-a17c-866a751f4f61":82},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":27,"views":31,"created_at":32,"published_at":33,"topic_cluster_id":34},"976800ba-7c59-4890-a17c-866a751f4f61","self-host-minimax-m3-gpu-cloud-zh","MiniMax M3 自架 GPU 雲部署分析","\u003Cp data-speakable=\"summary\">MiniMax M3 是一款 229.9B MoE 開源權重模型，能跑 1M token 的多模態工作負載，但自架成本很高。\u003C\u002Fp>\u003Cp>說真的，這模型很猛。\u003Ca href=\"https:\u002F\u002Fwww.minimax.io\u002F\" target=\"_blank\" rel=\"noopener\">MiniMax\u003C\u002Fa> M3 在 2026 年 6 月 1 日發表後不久，\u003Ca href=\"https:\u002F\u002Fwww.spheron.network\u002Fblog\u002Fdeploy-minimax-m3-gpu-cloud\u002F\" target=\"_blank\" rel=\"noopener\">Spheron\u003C\u002Fa> 就釋出部署指南。這速度很誇張，也代表大家真的在盯它。\u003C\u002Fp>\u003Cp>原因很直接。它有 229.9B 總參數，9.8B 每 token 啟用參數，還有 1,048,576 token 的 context。再加上原生圖片和影片理解，這不是一般聊天模型的玩法。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>指標\u003C\u002Fth>\u003Cth>MiniMax M3\u003C\u002Fth>\u003Cth>代表什麼\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>發表日期\u003C\u002Ftd>\u003Ctd>2026\u002F06\u002F01\u003C\u002Ftd>\u003Ctd>很新的 open-weight 模型\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>總參數\u003C\u002Ftd>\u003Ctd>229.9B\u003C\u002Ftd>\u003Ctd>完整權重要放進 VRAM\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>每 token 啟用參數\u003C\u002Ftd>\u003Ctd>9.8B\u003C\u002Ftd>\u003Ctd>推理成本比 dense 巨獸低\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Context 長度\u003C\u002Ftd>\u003Ctd>1,048,576 tokens\u003C\u002Ftd>\u003Ctd>可處理 1M token 輸入\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>SWE-Bench Pro\u003C\u002Ftd>\u003Ctd>59.0%\u003C\u002Ftd>\u003Ctd>軟體工程能力不差\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>M3 不是聊天玩具，是長上下文工作機\u003C\u002Fh2>\u003Cp>M3 的定位很清楚。它不是拿來做幾句寒暄的玩具。它是 \u003Ca href=\"https:\u002F\u002Fwww.minimax.io\u002F\" target=\"_blank\" rel=\"noopener\">MiniMax\u003C\u002Fa> 的 Mixture-of-Experts 模型，裡面有 256 個細粒度 experts。每個 token 只會啟用 9.8B 參數，但整包 229.9B 權重都得留在記憶體附近。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781716686607-r9gm.png\" alt=\"MiniMax M3 自架 GPU 雲部署分析\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這種設計很有意思。它讓推理成本不會像 dense 巨型模型那樣爆掉，但模型容量還是很大。對做 \u003Ca href=\"\u002Ftag\u002Fagentic-coding\">agentic coding\u003C\u002Fa>、長文件分析、或多模態研究的人來說，這種取捨很實際。\u003C\u002Fp>\u003Cp>MiniMax 也公開了 \u003Ca href=\"https:\u002F\u002Fwww.swebench.com\u002F\" target=\"_blank\" rel=\"noopener\">SWE-Bench Pro\u003C\u002Fa> 的 59.0% 分數。這種 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 比單純 \u003Ca href=\"\u002Fnews\u002Fcodex-override-file-team-safety-zh\">code\u003C\u002Fa> completion 更接近真實開發情境，因為它看的是模型能不能分步修 bug。\u003C\u002Fp>\u003Cul>\u003Cli>229.9B 總參數\u003C\u002Fli>\u003Cli>9.8B 每 token 啟用參數\u003C\u002Fli>\u003Cli>256 個 experts\u003C\u002Fli>\u003Cli>59.0% SWE-Bench Pro\u003C\u002Fli>\u003Cli>1,048,576 token context\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>1M context 靠的是 MSA，不是魔法\u003C\u002Fh2>\u003Cp>1M context 能成立，核心是 MiniMax Sparse Attention，簡稱 MSA。一般 full attention 的計算量會隨 context 長度快速炸開。到 1M tokens 時，普通 long-context 服務架構幾乎直接卡死。\u003C\u002Fp>\u003Cp>MiniMax 表示，MSA 在 1M context 下，比 M2 有超過 9 倍 prefill 加速，decode 也超過 15 倍。每 token 計算量大概只有 M2 的 1\u002F20。講白了，這才像能上線的東西，不是 demo 場面話。\u003C\u002Fp>\u003Cblockquote>“Sparse attention is the key to long-context efficiency.” — Tri Dao, \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.00752\" target=\"_blank\" rel=\"noopener\">FlashAttention-2 paper\u003C\u002Fa>\u003C\u002Fblockquote>\u003Cp>這句話不是專門講 M3，但意思很對。你要拉長 context，又不想把 GPU 成本燒爆，attention 就得變聰明。M3 把這件事做得更完整，還把多模態輸入一起塞進去。\u003C\u002Fp>\u003Cp>對開發者來說，實際好處很直白。整個 codebase、長聊天紀錄、法務文件、研究筆記，都可以放在同一次 request 裡。少一點切 chunk 的膠水程式，\u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa> loop 也比較好寫。\u003C\u002Fp>\u003Cul>\u003Cli>MSA prefill 加速：超過 9 倍\u003C\u002Fli>\u003Cli>MSA decode 加速：超過 15 倍\u003C\u002Fli>\u003Cli>1M context 的每 token 計算量：約 M2 的 1\u002F20\u003C\u002Fli>\u003Cli>Context 長度：1,048,576 tokens\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>GPU 成本先看記憶體，再看精度\u003C\u002Fh2>\u003Cp>自架 M3，本質上是記憶體問題，接著才是成本問題。因為它是 MoE 模型，你不能只把 active experts 放進 VRAM，剩下的丟 CPU 期待沒事。那樣延遲會很難看。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781716685763-0c3e.png\" alt=\"MiniMax M3 自架 GPU 雲部署分析\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.spheron.network\u002Fblog\u002Fdeploy-minimax-m3-gpu-cloud\u002F\" target=\"_blank\" rel=\"noopener\">Spheron\u003C\u002Fa> 的數字很有參考價值。BF16 需要大約 460 GB VRAM。FP8 會降到約 230 GB。AWQ INT4 則降到約 115 GB，才有機會塞進較小的卡。\u003C\u002Fp>\u003Cp>但 context 會再吃掉一層記憶體。\u003Ca href=\"\u002Ftag\u002Fkv-cache\">KV cache\u003C\u002Fa> 會跟 token 數一起長，就算 MSA 把 attention 計算壓下來也一樣。到了 1M context，FP8 的 KV cache 單獨就大約 120 GB，所以 2x H200 還不夠完整跑滿。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>精度\u003C\u002Fth>\u003Cth>模型 VRAM\u003C\u002Fth>\u003Cth>常見 GPU 配置\u003C\u002Fth>\u003Cth>能跑 1M context？\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>BF16\u003C\u002Ftd>\u003Ctd>約 460 GB\u003C\u002Ftd>\u003Ctd>4x H200 SXM5 或 6x H100 SXM5\u003C\u002Ftd>\u003Ctd>可以\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>FP8\u003C\u002Ftd>\u003Ctd>約 230 GB\u003C\u002Ftd>\u003Ctd>4x H200 SXM5 或 8x H100 SXM5\u003C\u002Ftd>\u003Ctd>可以\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>AWQ INT4\u003C\u002Ftd>\u003Ctd>約 115 GB\u003C\u002Ftd>\u003Ctd>1x H200 SXM5 或 2x H100 SXM5\u003C\u002Ftd>\u003Ctd>只適合較短 context\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Cp>價格也很現實。Spheron 在 2026 年 6 月 12 日的公開報價顯示，2x H200 SXM5 FP8 方案，spot 是每小時 3.64 美元，on-demand 是每小時 9.68 美元。4x H100 SXM5 FP8 則是 spot 5.72 美元，on-demand 15.68 美元。\u003C\u002Fp>\u003Cp>所以 H200 比較像 FP8 服務的正解。H100 則是在你想要更多卡、又能接受較高時薪時才划算。真正該看的不是卡數，而是你要不要把 context 拉到 1M。\u003C\u002Fp>\u003Cul>\u003Cli>BF16 模型記憶體：約 460 GB\u003C\u002Fli>\u003Cli>FP8 模型記憶體：約 230 GB\u003C\u002Fli>\u003Cli>AWQ INT4 模型記憶體：約 115 GB\u003C\u002Fli>\u003Cli>2x H200 spot：3.64 美元\u002F小時\u003C\u002Fli>\u003Cli>4x H100 spot：5.72 美元\u002F小時\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>vLLM 是最實際的服務路線\u003C\u002Fh2>\u003Cp>\u003Ca href=\"https:\u002F\u002Fdocs.vllm.ai\u002F\" target=\"_blank\" rel=\"noopener\">vLLM\u003C\u002Fa> 很適合想快速做出 \u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa> 相容 API 的團隊。\u003Ca href=\"https:\u002F\u002Fwww.spheron.network\u002Fblog\u002Fdeploy-minimax-m3-gpu-cloud\u002F\" target=\"_blank\" rel=\"noopener\">Spheron\u003C\u002Fa> 會選它，不是沒原因。它支援 tensor parallelism、expert parallelism，還能處理 FP8 KV cache，這些都跟 M3 很對味。\u003C\u002Fp>\u003Cp>部署流程也不複雜。先在 \u003Ca href=\"https:\u002F\u002Fapp.spheron.ai\u002F\" target=\"_blank\" rel=\"noopener\">Spheron\u003C\u002Fa> 開 GPU node，再裝 CUDA 12.4 以上和需要的 Python 套件，接著從 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002F\" target=\"_blank\" rel=\"noopener\">Hugging Face\u003C\u002Fa> 把模型抓下來，最後用正確的 parallelism 和 cache 參數啟動服務。\u003C\u002Fp>\u003Cp>但有一個坑要注意。MSA 需要後端明確支援，所以你不能假設隨便一版 vLLM 都能跑。先鎖定支援 M3 的版本，再測 context、吞吐量、KV cache 行為，不然上線後才改就很痛。\u003C\u002Fp>\u003Cp>如果你已經在用 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\" target=\"_blank\" rel=\"noopener\">SGLang\u003C\u002Fa>，邏輯也差不多。當 context 拉到 128K 以上，服務框架的重要性會下降，GPU 預算才是主角。\u003C\u002Fp>\u003Ch2>這對真的要交付產品的團隊代表什麼\u003C\u002Fh2>\u003Cp>M3 讓 \u003Ca href=\"\u002Fnews\u002Fbuild-semantic-search-opensearch-vectors-zh\">open\u003C\u002Fa>-weight 模型的討論變得更務實。它把三件常常分開出現的能力合在一起：不錯的 coding 能力、多模態輸入、還有夠大的 context。對 coding agent、文件分析、研究助理這類產品，這組合很有吸引力。\u003C\u002Fp>\u003Cp>但代價也很直白。你要完整吃到 1M token，代表你買的是多 GPU 基礎設施，不是單卡試玩。如果你的工作量只到 128K 或 256K，經濟性就會好很多，部署壓力也小一截。\u003C\u002Fp>\u003Cp>我自己的判斷是，多數團隊一開始不會真的用滿 1M。比較可能的路線，是先拿 M3 做 128K 到 256K 的任務，再把完整 context 留給除錯、跨整個 codebase 的推理，或超長文件整理。\u003C\u002Fp>\u003Cp>如果你正在規劃部署，先問自己一個問題：你要的是多模態長上下文，還是只要一個強一點的 open model？如果兩個都要，M3 值得你算 GPU 帳。若不是，選更小的模型通常更省事，也更省錢。\u003C\u002Fp>\u003Ch2>先別急著上 1M，先算清楚你的場景\u003C\u002Fh2>\u003Cp>MiniMax M3 的價值，不在於它很大而已，而在於它真的能把大 context 跑起來。這對台灣很多做 SaaS、內部知識\u003Ca href=\"\u002Fnews\u002Fzvec-turns-local-vector-search-into-a-library-zh\">搜尋\u003C\u002Fa>、或 code assistant 的團隊，都很有參考性。\u003C\u002Fp>\u003Cp>但我會很直接地說，1M context 不是每個產品都需要。你如果只是做客服摘要、文件問答、或一般 coding helper，128K 到 256K 通常就夠用了。先把需求切乾淨，再決定要不要付這張 GPU 帳單。\u003C\u002Fp>\u003Cp>如果你最近剛好在評估自架 LLM，我建議先從 2x H200 或 4x H100 的成本模型開始算。把 token 成本、KV cache、吞吐量和延遲一起列出來，比只看 benchmark 分數有用多了。真的，這才是上線前該做的功課。\u003C\u002Fp>","MiniMax M3 有 229.9B MoE 權重、1M context 和多模態輸出，但要自架就得準備很大的 GPU 記憶體與成本。","www.spheron.network","https:\u002F\u002Fwww.spheron.network\u002Fblog\u002Fdeploy-minimax-m3-gpu-cloud\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781716686607-r9gm.png","model-release","zh","ccc46975-50d1-4ece-8fd3-c082bf4858ae",[17,18,19,20,21,22,23,24,25,26],"MiniMax M3","自架 LLM","GPU 雲","vLLM","MoE","長上下文","多模態模型","H200","H100","FP8",[28,29,30],"MiniMax M3 的核心優勢是 1M token context 和多模態能力，但硬體門檻很高。","自架時先看 VRAM，再看精度與 KV cache，1M context 需要多 GPU 配置。","vLLM 是目前最實際的服務路線，但要先確認版本支援 M3 的 MSA。",0,"2026-06-17T17:17:35.332244+00:00","2026-06-17T17:17:35.319+00:00","0ccb5d2e-69f1-4354-a3e0-cb370221cd95",{"tags":36,"relatedLang":41,"relatedPosts":45},[37,39],{"name":20,"slug":38},"vllm",{"name":21,"slug":40},"moe",{"id":15,"slug":42,"title":43,"language":44},"self-host-minimax-m3-gpu-cloud-en","Self-host MiniMax M3 on GPU cloud","en",[46,52,58,64,70,76],{"id":47,"slug":48,"title":49,"cover_image":50,"image_url":50,"created_at":51,"category":13},"1a90c708-48c0-4e89-a0b5-8f8b6d4b05e9","devin-pricing-june-2026-plans-limits-zh","Devin 2026 年 6 月定價拆解","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781735572958-8i40.png","2026-06-17T22:32:27.692488+00:00",{"id":53,"slug":54,"title":55,"cover_image":56,"image_url":56,"created_at":57,"category":13},"1d05b1ff-9ced-4fde-bc0d-f21e4775c8c8","apple-gemini-backed-ai-still-its-own-thing-zh","Apple 的 Gemini 血統，還是 Apple 的 AI","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781706792148-e040.png","2026-06-17T14:32:44.523843+00:00",{"id":59,"slug":60,"title":61,"cover_image":62,"image_url":62,"created_at":63,"category":13},"1d12108f-e96c-405e-b7fa-2c2527b2797a","gemma-4-256k-context-open-models-zh","Gemma 4 把 256K 上下文帶進開放模型","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781686083209-zhax.png","2026-06-17T08:47:34.183175+00:00",{"id":65,"slug":66,"title":67,"cover_image":68,"image_url":68,"created_at":69,"category":13},"b07f3920-ad8d-4da9-bdd8-c95ade95fecb","kimi-k2-7-code-api-kimi-code-first-zh","Kimi K2.7 Code 應先上 API 與 Kimi Code，而不是等…","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781631185021-pphd.png","2026-06-16T17:32:22.503702+00:00",{"id":71,"slug":72,"title":73,"cover_image":74,"image_url":74,"created_at":75,"category":13},"3d9b8199-ec8e-43a0-9708-66b9b0cd22fa","kingdom-hearts-iv-confirmed-switch-2-launch-zh","Kingdom Hearts IV 確定登陸 Switch 2","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781615873237-3oot.png","2026-06-16T13:17:24.365738+00:00",{"id":77,"slug":78,"title":79,"cover_image":80,"image_url":80,"created_at":81,"category":13},"54f5d0f6-8a6b-42c8-927f-607fd67ee912","gemini-3-5-live-translate-rolls-out-70-languages-en-zh","Gemini 3.5 Live Translate 擴至70+語言","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781489873591-592g.png","2026-06-15T02:17:25.888557+00:00",[83,88,93,98,103,108,113,118,123,128],{"id":84,"slug":85,"title":86,"created_at":87},"58b64033-7eb6-49b9-9aab-01cf8ae1b2f2","nvidia-rubin-six-chips-one-ai-supercomputer-zh","NVIDIA Rubin 把六顆晶片塞進 AI 機櫃","2026-03-26T07:18:45.861277+00:00",{"id":89,"slug":90,"title":91,"created_at":92},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026-03-26T07:32:08.386348+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"214ab08b-5ce5-4b5c-8b72-47619d8675dd","why-small-models-are-winning-on-device-ai-zh","小模型為何吃下裝置端 AI","2026-03-26T07:36:30.488966+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"785624b2-0355-4b82-adc3-de5e45eecd88","midjourney-v8-faster-images-higher-costs-zh","Midjourney V8 變快了，也變貴了","2026-03-26T07:52:03.562971+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"cda76b92-d209-4134-86c1-a60f5bc7b128","xiaomi-mimo-trio-agents-robots-voice-zh","小米 MiMo 三模型瞄準代理、機器人與語音","2026-03-28T03:05:08.779489+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"9e1044b4-946d-47fe-9e2a-c2ee032e1164","xiaomi-mimo-v2-pro-1t-moe-agents-zh","小米 MiMo-V2-Pro 登場：1T MoE 模型","2026-03-28T03:06:19.002353+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"c4b6186f-bd84-4598-997e-c6e31d543c0d","cursor-composer-2-agentic-coding-model-zh","Cursor Composer 2 走向代理式寫碼","2026-03-28T03:13:06.422716+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"e112e76f-ec3b-408f-810e-e93ae21a888a","apple-siri-gemini-distilled-models-zh","Apple Siri 牽手 Gemini 的真相","2026-03-29T04:52:57.886544+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"c679b51f-194a-463b-87fc-7695256ff752","mimo-v2-pro-vs-omni-vs-flash-2026-zh","MiMo V2 Pro、Omni、Flash 怎麼選","2026-04-02T01:18:43.576128+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"3b988fd7-6749-4f01-ba25-c0ad7486dc31","z-ai-glm-5v-turbo-design2code-claude-zh","GLM-5V-Turbo 在 Design2Code 贏了…","2026-04-02T04:03:36.31741+00:00"]