RLHF (Reinforcement Learning from Human Feedback) 是什麼？— AI 術語表 2026

定義

使用人類偏好訊號訓練 LLM 的方法：人類評估者比較模型輸出，訓練 reward model，再用強化學習微調 LLM 以最大化 reward。ChatGPT、Claude 等 assistant 都使用過類似流程。

DPO (Direct Preference Optimization)

一種對齊訓練方法，直接用人類偏好成對資料（preferred vs. rejected responses）最佳化模型，不需要另外訓練 reward model。比 RLHF 更簡單、更穩定，常用於 instruction tuning。

GRPO (Group Relative Policy Optimization)

DeepSeek 採用的強化學習演算法，透過比較同一組中的多個 sampled responses 改進 PPO，不依賴獨立 critic。它被用來訓練 DeepSeek-R1 的推理能力。

Fine-tuning

在特定領域或任務資料上接續訓練預訓練模型，讓模型行為更專門化。範圍從更新全部權重的 full fine-tuning，到 LoRA、QLoRA 等參數高效方法。