Fine-tuning 是什麼？— AI 術語表 2026

定義

在特定領域或任務資料上接續訓練預訓練模型，讓模型行為更專門化。範圍從更新全部權重的 full fine-tuning，到 LoRA、QLoRA 等參數高效方法。

LoRA (Low-Rank Adaptation)

一種參數高效 fine-tuning 技術，對凍結的模型層加入小型可訓練低秩矩陣。它通常只訓練不到 1% 的參數，卻接近 full fine-tuning 效果，是 LLM 適配的常用方法。

QLoRA (Quantized LoRA)

結合 4-bit quantization 與 LoRA fine-tuning 的方法，讓 65B 以上參數模型也能在單張消費級 GPU 上 fine-tune。由 Tim Dettmers 等人在 2023 年提出，讓大型模型微調更普及。

RLHF (Reinforcement Learning from Human Feedback)

使用人類偏好訊號訓練 LLM 的方法：人類評估者比較模型輸出，訓練 reward model，再用強化學習微調 LLM 以最大化 reward。ChatGPT、Claude 等 assistant 都使用過類似流程。

DPO (Direct Preference Optimization)

一種對齊訓練方法，直接用人類偏好成對資料（preferred vs. rejected responses）最佳化模型，不需要另外訓練 reward model。比 RLHF 更簡單、更穩定，常用於 instruction tuning。

CPR 讓 KGQA 更可控

NTM 讓 4 步生成保留精確似然

AutoTTS讓LLM自己找推理策略

為什麼 Adala 是看錯資料標註的方式

Microsoft GoalCover 找出微調缺口