← 術語表

GRPO (Group Relative Policy Optimization)

技術

定義

DeepSeek 採用的強化學習演算法,透過比較同一組中的多個 sampled responses 改進 PPO,不依賴獨立 critic。它被用來訓練 DeepSeek-R1 的推理能力。