本地微調 LLM：SFT、LoRA、DPO

這篇指南先把微調定位成「最後一哩」工具，而不是預設解法。它的順序很清楚：先試提示詞，再看 RAG 是否足夠，最後才考慮微調，因為很多問題其實不是模型不會，而是資料不在上下文裡。

對開發者來說，這類指南最實際的價值是少走彎路。先把提示詞、RAG、微調的成本與效果分清楚，可以直接省掉不必要的 GPU 時間，也能避免把本來能用檢索解決的問題，硬拉去做訓練。

近年本地 LLM 工具鏈越來越成熟，SFT、LoRA、DPO 也因此從專業名詞變成工程團隊會碰到的日常選項。以前這些方法多半要靠研究背景才能上手，現在則有更多框架把資料格式、訓練流程與評估步驟包起來。

[TOOLS] 2026年6月19日3 分鐘閱讀OraCore 編輯部

LLM Configurator 第 13 篇指南更新本地微調流程，整理 SFT、LoRA、DPO 的用途、資料準備與何時該先用提示或 RAG。

LLM Configurator 第 13 篇指南整理了本地微調 LLM 的做法，重點放在 SFT、LoRA 與 DPO。

這份指南在 2026 年 6 月 15 日更新，主題很直接：什麼情況下值得訓練，什麼情況下先別急著動 GPU。它也把 LLM Configurator 的本地工作流拆成可操作步驟，並把 TRL 的 DPO、SFT 與 LoRA 放到同一張決策圖裡。

項目	數值
Guide	13
Last updated	2026-06-15
Suggested holdout	10%
Very small dataset threshold	< 50 examples
Typical epochs	1–3

發生了什麼

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

這篇指南先把微調定位成「最後一哩」工具，而不是預設解法。它的順序很清楚：先試提示詞，再看 RAG 是否足夠，最後才考慮微調，因為很多問題其實不是模型不會，而是資料不在上下文裡。

接著它把本地可做的三條路拆開講。SFT 適合拿指令與答案配對來做監督式學習，LoRA 則是用較輕的 adapter 方式減少訓練成本，DPO 則偏向用偏好資料去調整輸出傾向。

指南也補了一個實作面常被忽略的部分：資料檢查。它建議先驗證 JSONL 格式、保留 10% 作為驗證集，並盡量選擇已接近任務的 base model，因為小資料、錯格式與過度訓練，往往比模型本身更容易把專案做壞。

對開發者來說，這類指南最實際的價值是少走彎路。先把提示詞、RAG、微調的成本與效果分清楚，可以直接省掉不必要的 GPU 時間，也能避免把本來能用檢索解決的問題，硬拉去做訓練。

對產品團隊來說，本地微調的吸引力在於可控性。像客服回覆、資訊抽取、法務摘要或企業內部助理這些場景，常常需要固定語氣、固定格式，這時候 LoRA 或 SFT 比單純改 prompt 更穩。

這份指南也反映出一個現實：本地化訓練正在從研究題目變成工程選項。當資料量不大、場景明確、又不想把敏感資料送到雲端 API 時，團隊會更在意訓練門檻、資料品質與迭代速度，而不是只看模型分數。

真正的問題不是「要不要微調」，而是「這個任務到底缺行為，還是缺上下文」。如果答案是後者，先做提示詞和 RAG，通常比直接開訓練更快也更便宜。

對多數團隊來說，這篇指南的訊號很明確：微調不是主角，判斷順序才是主角。

近年本地 LLM 工具鏈越來越成熟，SFT、LoRA、DPO 也因此從專業名詞變成工程團隊會碰到的日常選項。以前這些方法多半要靠研究背景才能上手，現在則有更多框架把資料格式、訓練流程與評估步驟包起來。

但工具變多，不代表每個任務都該訓練。很多團隊一開始就想調模型，實際上只是需要更好的提示模板、更多檢索內容，或更乾淨的輸入資料。

這也是這份指南的價值所在：它不是鼓勵大家一律微調，而是把「何時不該微調」講得很清楚。對小團隊來說，這種判斷往往比跑出一次漂亮的 loss 更重要。

// 相關文章