本機跑 MiniMax M3 的 Unsloth Studio 指南
這篇教你在自己的電腦上安裝 Unsloth Studio、下載 MiniMax M3 的 GGUF 量化檔,並成功開啟本機聊天介面。

這篇教你在自己的電腦上安裝 Unsloth Studio、下載 MiniMax M3 的 GGUF 量化檔,並成功開啟本機聊天介面。
這篇給想把 MiniMax M3 跑在本機,而不是依賴託管 API 的開發者。照著做完,你會拿到一套可在瀏覽器操作的 Unsloth Studio、本機可用的 MiniMax M3 聊天頁面,以及可直接重複執行的下載與啟動流程。
你也會知道不同 quant 的記憶體門檻、在 macOS / Windows / Linux / WSL 上的啟動方式,以及什麼時候該改走 llama.cpp CLI。本文以 Unsloth MiniMax M3 文件與 Unsloth GitHub 的現行內容為準。
開始之前
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
- 已能存取 Unsloth MiniMax M3 文件與 Unsloth GitHub 倉庫。
- Python 3.10+ 已安裝完成,並可在終端機執行。
- 可用的終端機工具包含 curl、PowerShell 或 bash。
- 至少 133 GB 可用記憶體,才能先嘗試最小的 1-bit quant。
- 若要用 GPU,加速環境需有 CUDA 相容的 NVIDIA 硬體;Apple Silicon 則需要 macOS 與 unified memory。
- 磁碟空間要先預留,例如 UD-IQ1_M 約 128 GB、UD-IQ4_XS 約 208 GB。
- 瀏覽器可開啟 127.0.0.1:8888 的本機介面。
Step 1: 安裝 Unsloth Studio
目的:先把支援 MiniMax M3 的 Studio 裝好,讓後續下載與載入模型都能在同一個介面完成。

在終端機執行官方安裝指令。macOS、Linux、WSL 可用 shell installer,Windows 則用 PowerShell installer。
curl -fsSL https://unsloth.ai/install.sh | shWindows PowerShell 版本如下:
irm https://unsloth.ai/install.ps1 | iex你應該看到安裝完成,且 unsloth 指令已可在 shell 中使用。
Step 2: 啟動本機 Studio 服務
目的:把 Unsloth Studio 跑在 localhost,讓你用瀏覽器管理模型,而不是只靠命令列。

啟動 8888 埠的 Studio 服務。若你的環境需要不同綁定位址,也可以改成相同格式的 host 與 port。
unsloth studio -H 0.0.0.0 -p 8888接著在瀏覽器開啟 http://127.0.0.1:8888。第一次進入時,建立密碼並重新登入。
你應該看到 Studio 儀表板,並在登入後進入主介面。
Step 3: 下載 MiniMax M3 量化檔
目的:先抓一個你的機器真正裝得下的 MiniMax M3 quant,降低第一次載入失敗的機率。
在 Studio 的 Chat 分頁搜尋 MiniMax M3,然後選擇 quant。文件建議先從 UD-IQ1_M 開始,再依記憶體預算往上選 UD-IQ3_XXS、UD-IQ4_XS 或 UD-Q4_K_XL。
目前這條 GGUF 路徑屬於實驗性版本,且本機版本是文字輸出為主,所以不要期待原生多模態輸入或 MiniMax Sparse Attention 已完整可用。
你應該看到下載進度完成,並且選定的 quant 出現在本機模型清單中。
Step 4: 用建議參數開啟對話
目的:用穩定的預設值先跑通第一輪推理,確認模型載入與回應都正常。
MiniMax 建議 temperature 設為 1.0、top_p 設為 0.95、top_k 設為 40。Studio 通常可以自動套用,也可以手動調整成你要的生成風格。
先把 context 長度控制在你硬體能承受的範圍。模型規格雖然支援到 1,048,576 tokens,但太長的 context 會快速吃掉記憶體。
你應該看到模型在 Studio chat 面板中,根據你的 prompt 正常回覆。
Step 5: 對照記憶體門檻
目的:用實際數字挑對 quant,避免因為 RAM、VRAM 或 unified memory 不足而直接 OOM。
文件列出的最小 1-bit quant,磁碟需求約 128 GB,而總記憶體建議至少 133 GB,這是為了保留 KV cache 與 context 配額。更大的 quant 需要更多餘裕,所以檔案大小只代表最低門檻,不代表一定載得動。
如果你的機器接近 256 GB 或 512 GB 級別,可以考慮 UD-IQ4_XS 或 UD-Q4_K_XL 來換取較好的輸出品質。若你的硬體較小,就維持 UD-IQ1_M,並縮短 context。
你應該看到模型成功載入,且生成時介面仍保持可操作。
| 指標 | 基準/優化前 | 結果/優化後 |
|---|---|---|
| 模型權重大小 | BF16 約 855 GB | 1-bit GGUF 約 128 GB |
| 磁碟縮減 | 完整精度權重 | 約縮小 85% |
| 最小 quant 所需記憶體 | 不足以容納 KV cache | 建議至少 133 GB 總記憶體 |
| Context window | 一般短上下文模型 | 規格支援到 1,048,576 tokens |
| SWE-Bench Pro 分數 | 不同本機模型表現不一 | MiniMax M3 報告為 59% |
Step 6: 改用 llama.cpp CLI
目的:當你想控制快取位置、執行緒數或 GPU offload 時,改用 llama.cpp 走命令列流程。
先 clone 指定分支,接著編譯 CLI 目標。若你沒有 GPU,可關閉 CUDA 走 CPU;若是 Apple Silicon,則保留 Metal 設定。
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/24523/head:minimax-m3
git checkout minimax-m3
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j --target llama-cli llama-server接著依文件設定 LLAMA_CACHE,載入 UD-IQ1_M quant,也可以再調 --threads、--ctx-size、--n-gpu-layers 來配合你的硬體。
你應該看到 llama-cli 編譯成功,並在輸入 prompt 後印出模型回應。
常見錯誤
- 使用較舊的 Studio 版本。修法:升級到文件指定的 v0.1.463-beta 或 2026.6.6,讓 MiniMax M3 出現在介面中。
- 挑到超過記憶體上限的 quant。修法:先用 UD-IQ1_M,確認 RAM 與 VRAM 預留足夠後再往上升級。
- 期待 GGUF 路徑支援多模態。修法:記住目前實驗版仍是文字輸出,MiniMax Sparse Attention 也還沒完整可用。
接下來可以看什麼
下一步可以把 Studio chat 和 llama.cpp CLI 的輸出做對照,接著在更大的 quant 或更長的 context 上測試你的硬體上限。若你要把它接進自動化流程,建議再往 Unsloth 的推理與部署文件前進,然後測試工具呼叫與 prompt template。