5 個本地 LLM 微調步驟

OraCore Editors

返回首頁

[IND] 2026年5月29日4 分鐘閱讀OraCore 編輯部

5 個本地 LLM 微調步驟

5 個步驟帶你在週末完成本地 LLM 微調，從環境、資料到訓練、評估與 GGUF 匯出。

Unsloth LoRA 本地 LLM GGUF 微調

分享 LinkedIn

這篇整理 5 個步驟，讓你在週末完成本地 LLM 微調，從環境、資料到訓練、評估與匯出一次走完。

如果你想在 2 天內做出可本機部署的微調模型，這份清單會把流程拆成 5 步，並給你一個具體參考：27B 的 Qwen 3.5 最後可壓到約 18 GB 的 GGUF 檔。

步驟	時間窗口	主要產出
1. 週五環境	2-3 小時	可用 GPU、驅動、基座模型
2. 週六資料	4 小時	Prompt-response 資料集
3. 週六訓練	3-4 小時	LoRA adapter
4. 週日評估	2 小時	對照測試與品質檢查
5. 週日匯出	2 小時	可本機使用的 GGUF 模型

1. 週五先把環境架好

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

先處理機器與訓練堆疊，因為環境出問題，整個週末都會被拖垮。最實際的做法是先確認 GPU、驅動、Python 環境與基座模型都能正常運作，再開始碰資料。

單卡週末流程裡，Unsloth 很適合追求快速 LoRA 訓練，Axolotl 則適合想保留更多控制權的人。硬體上，NVIDIA CUDA 最穩，AMD ROCm 可當備案，Apple silicon 比較適合推理，不適合拿來做微調。

預留 2 到 3 小時做環境檢查。
安裝 CUDA 驅動與乾淨的 Python 環境。
先載入基座模型，確認能正常推理。
模型回應正確前，不要開始訓練。

2. 週六把資料整理成可訓練格式

微調不會從零散筆記或原始對話中學到好結果，它需要格式固定的 prompt-response 配對。這一步的重點不是資料多，而是資料乾淨、風格一致、和你之後要使用的聊天格式相符。

做法通常是先清理來源文字，再切段、改寫，最後整理成訓練樣本。你可以用小模型輔助產生問題，但最後仍要人工確認答案是否符合你的語氣、領域與輸出規則。

8B 模型可先抓 1 到 2 百萬原始 tokens 當起點。
先修正拼字與格式錯誤，再進訓練。
把長篇內容轉成 prompt-response 配對。
訓練格式要和推理格式保持一致。

3. 週六用 LoRA 開始訓練

LoRA 讓週末微調變得可行。它不是更新整個模型，而是只訓練少量 adapter，通常只佔總參數的 0.5% 到 1.5%，所以消費級 GPU 也有機會跑完。

這一步最常見的失誤，是學習率設錯、rank 不合適，或把推理型模型放在不對的模式下。實務上，27B 模型至少需要 14 GB VRAM，留更多餘量會更安全。

週末訓練檢查表：
- 1 張 GPU
- 1 套框架
- 1 份資料集
- 1 次失敗嘗試
- 1 次修正後重跑

4. 週日用固定題目做評估

評估是確認模型真的學到東西的關鍵。做一組你已經知道標準答案的測試題，然後把基座模型與微調後模型並排比較，這樣最容易看出差異。

判斷重點不只在對錯，還包括語氣、長度與格式。如果基座模型回答得很泛、很長，而微調後模型更像你的風格，回覆更直接、結構更穩定，這次訓練就算有價值。

使用固定的測試題組。
把原模型與微調模型並排看。
同時檢查正確性、語氣與格式。
如果結果怪，先回頭看資料而不是先怪參數。

5. 週日把模型匯出成 GGUF

確認 LoRA adapter 表現穩定後，就把它合併回基座模型，再匯出成 GGUF。這是 Ollama 和 LM Studio 等本機工具常用的格式，最後的量化通常也在這一步完成。

實際好處是部署簡單。原始素材提到，一個微調後的 27B Qwen 3.5 模型，最後大約可落在 18 GB 的 GGUF 檔，並且能在同一台機器上順利跑起來。

先把 adapter 合併進 base weights。
輸出成 GGUF。
需要時再做 4-bit 或 5-bit 量化。
用 Modelfile 或本機 runner 註冊模型。

怎麼挑

如果你是第一次做本地微調，先把時間放在環境與資料品質上，這兩步最決定成敗。若你的目標是讓模型說話像你本人，就把更多精力放在 prompt-response 格式與評估，而不是一直調參。

如果你要的是可長期維護的本機 AI，微調適合穩定語氣與固定知識，RAG 則更適合會變動的資訊，例如新聞、政策或產品資料。兩者搭配，通常比單靠微調更實用。

// 相關文章

5 個本地 LLM 微調步驟

1. 週五先把環境架好

訂閱 AI 趨勢週報

2. 週六把資料整理成可訓練格式

3. 週六用 LoRA 開始訓練

4. 週日用固定題目做評估

5. 週日把模型匯出成 GGUF

怎麼挑

OpenAI把廣告擋在敏感對話外是對的

AI bootlegs 正在抽走串流版稅

AMD 與 Microsoft 把 Windows ML 推進 GPU 與 N…

OpenAI IPO 讓神話變審核

Skatteetaten 證明公部門 AI 應該看成果，不是看噱頭

OpenAI IPO 登場，華爾街先看這 5 件事