本機跑 MiniMax M3 的 Unsloth Studio 指南

OraCore Editors

返回首頁

[TOOLS] 2026年6月18日7 分鐘閱讀OraCore 編輯部

本機跑 MiniMax M3 的 Unsloth Studio 指南

這篇教你在自己的電腦上安裝 Unsloth Studio、下載 MiniMax M3 的 GGUF 量化檔，並成功開啟本機聊天介面。

llama.cpp

分享 LinkedIn

這篇教你在自己的電腦上安裝 Unsloth Studio、下載 MiniMax M3 的 GGUF 量化檔，並成功開啟本機聊天介面。

這篇給想把 MiniMax M3 跑在本機，而不是依賴託管 API 的開發者。照著做完，你會拿到一套可在瀏覽器操作的 Unsloth Studio、本機可用的 MiniMax M3 聊天頁面，以及可直接重複執行的下載與啟動流程。

你也會知道不同 quant 的記憶體門檻、在 macOS / Windows / Linux / WSL 上的啟動方式，以及什麼時候該改走 llama.cpp CLI。本文以 Unsloth MiniMax M3 文件與 Unsloth GitHub 的現行內容為準。

開始之前

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

已能存取 Unsloth MiniMax M3 文件與 Unsloth GitHub 倉庫。
Python 3.10+ 已安裝完成，並可在終端機執行。
可用的終端機工具包含 curl、PowerShell 或 bash。
至少 133 GB 可用記憶體，才能先嘗試最小的 1-bit quant。
若要用 GPU，加速環境需有 CUDA 相容的 NVIDIA 硬體；Apple Silicon 則需要 macOS 與 unified memory。
磁碟空間要先預留，例如 UD-IQ1_M 約 128 GB、UD-IQ4_XS 約 208 GB。
瀏覽器可開啟 127.0.0.1:8888 的本機介面。

Step 1: 安裝 Unsloth Studio

目的：先把支援 MiniMax M3 的 Studio 裝好，讓後續下載與載入模型都能在同一個介面完成。

在終端機執行官方安裝指令。macOS、Linux、WSL 可用 shell installer，Windows 則用 PowerShell installer。

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell 版本如下：

irm https://unsloth.ai/install.ps1 | iex

你應該看到安裝完成，且 unsloth 指令已可在 shell 中使用。

Step 2: 啟動本機 Studio 服務

目的：把 Unsloth Studio 跑在 localhost，讓你用瀏覽器管理模型，而不是只靠命令列。

啟動 8888 埠的 Studio 服務。若你的環境需要不同綁定位址，也可以改成相同格式的 host 與 port。

unsloth studio -H 0.0.0.0 -p 8888

接著在瀏覽器開啟 http://127.0.0.1:8888。第一次進入時，建立密碼並重新登入。

你應該看到 Studio 儀表板，並在登入後進入主介面。

Step 3: 下載 MiniMax M3 量化檔

目的：先抓一個你的機器真正裝得下的 MiniMax M3 quant，降低第一次載入失敗的機率。

在 Studio 的 Chat 分頁搜尋 MiniMax M3，然後選擇 quant。文件建議先從 UD-IQ1_M 開始，再依記憶體預算往上選 UD-IQ3_XXS、UD-IQ4_XS 或 UD-Q4_K_XL。

目前這條 GGUF 路徑屬於實驗性版本，且本機版本是文字輸出為主，所以不要期待原生多模態輸入或 MiniMax Sparse Attention 已完整可用。

你應該看到下載進度完成，並且選定的 quant 出現在本機模型清單中。

Step 4: 用建議參數開啟對話

目的：用穩定的預設值先跑通第一輪推理，確認模型載入與回應都正常。

MiniMax 建議 temperature 設為 1.0、top_p 設為 0.95、top_k 設為 40。Studio 通常可以自動套用，也可以手動調整成你要的生成風格。

先把 context 長度控制在你硬體能承受的範圍。模型規格雖然支援到 1,048,576 tokens，但太長的 context 會快速吃掉記憶體。

你應該看到模型在 Studio chat 面板中，根據你的 prompt 正常回覆。

Step 5: 對照記憶體門檻

目的：用實際數字挑對 quant，避免因為 RAM、VRAM 或 unified memory 不足而直接 OOM。

文件列出的最小 1-bit quant，磁碟需求約 128 GB，而總記憶體建議至少 133 GB，這是為了保留 KV cache 與 context 配額。更大的 quant 需要更多餘裕，所以檔案大小只代表最低門檻，不代表一定載得動。

如果你的機器接近 256 GB 或 512 GB 級別，可以考慮 UD-IQ4_XS 或 UD-Q4_K_XL 來換取較好的輸出品質。若你的硬體較小，就維持 UD-IQ1_M，並縮短 context。

你應該看到模型成功載入，且生成時介面仍保持可操作。

指標	基準／優化前	結果／優化後
模型權重大小	BF16 約 855 GB	1-bit GGUF 約 128 GB
磁碟縮減	完整精度權重	約縮小 85%
最小 quant 所需記憶體	不足以容納 KV cache	建議至少 133 GB 總記憶體
Context window	一般短上下文模型	規格支援到 1,048,576 tokens
SWE-Bench Pro 分數	不同本機模型表現不一	MiniMax M3 報告為 59%

Step 6: 改用 llama.cpp CLI

目的：當你想控制快取位置、執行緒數或 GPU offload 時，改用 llama.cpp 走命令列流程。

先 clone 指定分支，接著編譯 CLI 目標。若你沒有 GPU，可關閉 CUDA 走 CPU；若是 Apple Silicon，則保留 Metal 設定。

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/24523/head:minimax-m3
git checkout minimax-m3
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j --target llama-cli llama-server

接著依文件設定 LLAMA_CACHE，載入 UD-IQ1_M quant，也可以再調 --threads、--ctx-size、--n-gpu-layers 來配合你的硬體。

你應該看到 llama-cli 編譯成功，並在輸入 prompt 後印出模型回應。

常見錯誤

使用較舊的 Studio 版本。修法：升級到文件指定的 v0.1.463-beta 或 2026.6.6，讓 MiniMax M3 出現在介面中。
挑到超過記憶體上限的 quant。修法：先用 UD-IQ1_M，確認 RAM 與 VRAM 預留足夠後再往上升級。
期待 GGUF 路徑支援多模態。修法：記住目前實驗版仍是文字輸出，MiniMax Sparse Attention 也還沒完整可用。

接下來可以看什麼

下一步可以把 Studio chat 和 llama.cpp CLI 的輸出做對照，接著在更大的 quant 或更長的 context 上測試你的硬體上限。若你要把它接進自動化流程，建議再往 Unsloth 的推理與部署文件前進，然後測試工具呼叫與 prompt template。

// 相關文章

本機跑 MiniMax M3 的 Unsloth Studio 指南

開始之前

訂閱 AI 趨勢週報

Step 1: 安裝 Unsloth Studio

Step 2: 啟動本機 Studio 服務

Step 3: 下載 MiniMax M3 量化檔

Step 4: 用建議參數開啟對話

Step 5: 對照記憶體門檻

Step 6: 改用 llama.cpp CLI

常見錯誤

接下來可以看什麼

Mistral 的模型文件不是型錄，而是部署手冊

Kubernetes 導入判斷與落地清單

K3s 讓一條指令變叢集

Windows Docker Desktop 用 WSL 2 裝乾淨

OpenSearch 向量語意搜尋實作指南

Zvec 把本地向量搜尋變成函式庫