Fine-tuning
技術定義
在特定領域或任務資料上接續訓練預訓練模型,讓模型行為更專門化。範圍從更新全部權重的 full fine-tuning,到 LoRA、QLoRA 等參數高效方法。
相關術語
LoRA (Low-Rank Adaptation)
一種參數高效 fine-tuning 技術,對凍結的模型層加入小型可訓練低秩矩陣。它通常只訓練不到 1% 的參數,卻接近 full fine-tuning 效果,是 LLM 適配的常用方法。
QLoRA (Quantized LoRA)
結合 4-bit quantization 與 LoRA fine-tuning 的方法,讓 65B 以上參數模型也能在單張消費級 GPU 上 fine-tune。由 Tim Dettmers 等人在 2023 年提出,讓大型模型微調更普及。
RLHF (Reinforcement Learning from Human Feedback)
使用人類偏好訊號訓練 LLM 的方法:人類評估者比較模型輸出,訓練 reward model,再用強化學習微調 LLM 以最大化 reward。ChatGPT、Claude 等 assistant 都使用過類似流程。
DPO (Direct Preference Optimization)
一種對齊訓練方法,直接用人類偏好成對資料(preferred vs. rejected responses)最佳化模型,不需要另外訓練 reward model。比 RLHF 更簡單、更穩定,常用於 instruction tuning。
Fine-tuning 相關文章
全部術語
AgentAttention MechanismChain-of-ThoughtContext WindowDiffusion ModelDistillationDPO (Direct Preference Optimization)EmbeddingFew-shot PromptingFine-tuningFunction CallingGAN (Generative Adversarial Network)GRPO (Group Relative Policy Optimization)HallucinationInferenceLLM (Large Language Model)LoRA (Low-Rank Adaptation)MCP (Model Context Protocol)MultimodalPrompt EngineeringQLoRA (Quantized LoRA)QuantizationRAG (Retrieval-Augmented Generation)RLHF (Reinforcement Learning from Human Feedback)TemperatureTokenizerTool UseTop-p (Nucleus Sampling)TransformerVector DatabaseZero-shot Prompting