DPO (Direct Preference Optimization) 是什麼？— AI 術語表 2026

定義

一種對齊訓練方法，直接用人類偏好成對資料（preferred vs. rejected responses）最佳化模型，不需要另外訓練 reward model。比 RLHF 更簡單、更穩定，常用於 instruction tuning。

RLHF (Reinforcement Learning from Human Feedback)

使用人類偏好訊號訓練 LLM 的方法：人類評估者比較模型輸出，訓練 reward model，再用強化學習微調 LLM 以最大化 reward。ChatGPT、Claude 等 assistant 都使用過類似流程。

GRPO (Group Relative Policy Optimization)

DeepSeek 採用的強化學習演算法，透過比較同一組中的多個 sampled responses 改進 PPO，不依賴獨立 critic。它被用來訓練 DeepSeek-R1 的推理能力。

Fine-tuning

在特定領域或任務資料上接續訓練預訓練模型，讓模型行為更專門化。範圍從更新全部權重的 full fine-tuning，到 LoRA、QLoRA 等參數高效方法。