← 術語表

DPO (Direct Preference Optimization)

技術

定義

一種對齊訓練方法,直接用人類偏好成對資料(preferred vs. rejected responses)最佳化模型,不需要另外訓練 reward model。比 RLHF 更簡單、更穩定,常用於 instruction tuning。