← 術語表

RLHF (Reinforcement Learning from Human Feedback)

技術

定義

使用人類偏好訊號訓練 LLM 的方法:人類評估者比較模型輸出,訓練 reward model,再用強化學習微調 LLM 以最大化 reward。ChatGPT、Claude 等 assistant 都使用過類似流程。