5 個本地 LLM 微調步驟
5 個步驟帶你在週末完成本地 LLM 微調,從環境、資料到訓練、評估與 GGUF 匯出。

這篇整理 5 個步驟,讓你在週末完成本地 LLM 微調,從環境、資料到訓練、評估與匯出一次走完。
如果你想在 2 天內做出可本機部署的微調模型,這份清單會把流程拆成 5 步,並給你一個具體參考:27B 的 Qwen 3.5 最後可壓到約 18 GB 的 GGUF 檔。
| 步驟 | 時間窗口 | 主要產出 |
|---|---|---|
| 1. 週五環境 | 2-3 小時 | 可用 GPU、驅動、基座模型 |
| 2. 週六資料 | 4 小時 | Prompt-response 資料集 |
| 3. 週六訓練 | 3-4 小時 | LoRA adapter |
| 4. 週日評估 | 2 小時 | 對照測試與品質檢查 |
| 5. 週日匯出 | 2 小時 | 可本機使用的 GGUF 模型 |
1. 週五先把環境架好
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
先處理機器與訓練堆疊,因為環境出問題,整個週末都會被拖垮。最實際的做法是先確認 GPU、驅動、Python 環境與基座模型都能正常運作,再開始碰資料。

單卡週末流程裡,Unsloth 很適合追求快速 LoRA 訓練,Axolotl 則適合想保留更多控制權的人。硬體上,NVIDIA CUDA 最穩,AMD ROCm 可當備案,Apple silicon 比較適合推理,不適合拿來做微調。
- 預留 2 到 3 小時做環境檢查。
- 安裝 CUDA 驅動與乾淨的 Python 環境。
- 先載入基座模型,確認能正常推理。
- 模型回應正確前,不要開始訓練。
2. 週六把資料整理成可訓練格式
微調不會從零散筆記或原始對話中學到好結果,它需要格式固定的 prompt-response 配對。這一步的重點不是資料多,而是資料乾淨、風格一致、和你之後要使用的聊天格式相符。
做法通常是先清理來源文字,再切段、改寫,最後整理成訓練樣本。你可以用小模型輔助產生問題,但最後仍要人工確認答案是否符合你的語氣、領域與輸出規則。
- 8B 模型可先抓 1 到 2 百萬原始 tokens 當起點。
- 先修正拼字與格式錯誤,再進訓練。
- 把長篇內容轉成 prompt-response 配對。
- 訓練格式要和推理格式保持一致。
3. 週六用 LoRA 開始訓練
LoRA 讓週末微調變得可行。它不是更新整個模型,而是只訓練少量 adapter,通常只佔總參數的 0.5% 到 1.5%,所以消費級 GPU 也有機會跑完。

這一步最常見的失誤,是學習率設錯、rank 不合適,或把推理型模型放在不對的模式下。實務上,27B 模型至少需要 14 GB VRAM,留更多餘量會更安全。
週末訓練檢查表:
- 1 張 GPU
- 1 套框架
- 1 份資料集
- 1 次失敗嘗試
- 1 次修正後重跑4. 週日用固定題目做評估
評估是確認模型真的學到東西的關鍵。做一組你已經知道標準答案的測試題,然後把基座模型與微調後模型並排比較,這樣最容易看出差異。
判斷重點不只在對錯,還包括語氣、長度與格式。如果基座模型回答得很泛、很長,而微調後模型更像你的風格,回覆更直接、結構更穩定,這次訓練就算有價值。
- 使用固定的測試題組。
- 把原模型與微調模型並排看。
- 同時檢查正確性、語氣與格式。
- 如果結果怪,先回頭看資料而不是先怪參數。
5. 週日把模型匯出成 GGUF
確認 LoRA adapter 表現穩定後,就把它合併回基座模型,再匯出成 GGUF。這是 Ollama 和 LM Studio 等本機工具常用的格式,最後的量化通常也在這一步完成。
實際好處是部署簡單。原始素材提到,一個微調後的 27B Qwen 3.5 模型,最後大約可落在 18 GB 的 GGUF 檔,並且能在同一台機器上順利跑起來。
- 先把 adapter 合併進 base weights。
- 輸出成 GGUF。
- 需要時再做 4-bit 或 5-bit 量化。
- 用 Modelfile 或本機 runner 註冊模型。
怎麼挑
如果你是第一次做本地微調,先把時間放在環境與資料品質上,這兩步最決定成敗。若你的目標是讓模型說話像你本人,就把更多精力放在 prompt-response 格式與評估,而不是一直調參。
如果你要的是可長期維護的本機 AI,微調適合穩定語氣與固定知識,RAG 則更適合會變動的資訊,例如新聞、政策或產品資料。兩者搭配,通常比單靠微調更實用。