GRPO (Group Relative Policy Optimization)
技術定義
DeepSeek 採用的強化學習演算法,透過比較同一組中的多個 sampled responses 改進 PPO,不依賴獨立 critic。它被用來訓練 DeepSeek-R1 的推理能力。
相關術語
RLHF (Reinforcement Learning from Human Feedback)
使用人類偏好訊號訓練 LLM 的方法:人類評估者比較模型輸出,訓練 reward model,再用強化學習微調 LLM 以最大化 reward。ChatGPT、Claude 等 assistant 都使用過類似流程。
DPO (Direct Preference Optimization)
一種對齊訓練方法,直接用人類偏好成對資料(preferred vs. rejected responses)最佳化模型,不需要另外訓練 reward model。比 RLHF 更簡單、更穩定,常用於 instruction tuning。
Fine-tuning
在特定領域或任務資料上接續訓練預訓練模型,讓模型行為更專門化。範圍從更新全部權重的 full fine-tuning,到 LoRA、QLoRA 等參數高效方法。
全部術語
AgentAttention MechanismChain-of-ThoughtContext WindowDiffusion ModelDistillationDPO (Direct Preference Optimization)EmbeddingFew-shot PromptingFine-tuningFunction CallingGAN (Generative Adversarial Network)GRPO (Group Relative Policy Optimization)HallucinationInferenceLLM (Large Language Model)LoRA (Low-Rank Adaptation)MCP (Model Context Protocol)MultimodalPrompt EngineeringQLoRA (Quantized LoRA)QuantizationRAG (Retrieval-Augmented Generation)RLHF (Reinforcement Learning from Human Feedback)TemperatureTokenizerTool UseTop-p (Nucleus Sampling)TransformerVector DatabaseZero-shot Prompting