LoRA (Low-Rank Adaptation)
技術定義
一種參數高效 fine-tuning 技術,對凍結的模型層加入小型可訓練低秩矩陣。它通常只訓練不到 1% 的參數,卻接近 full fine-tuning 效果,是 LLM 適配的常用方法。
相關術語
QLoRA (Quantized LoRA)
結合 4-bit quantization 與 LoRA fine-tuning 的方法,讓 65B 以上參數模型也能在單張消費級 GPU 上 fine-tune。由 Tim Dettmers 等人在 2023 年提出,讓大型模型微調更普及。
Fine-tuning
在特定領域或任務資料上接續訓練預訓練模型,讓模型行為更專門化。範圍從更新全部權重的 full fine-tuning,到 LoRA、QLoRA 等參數高效方法。
Quantization
降低模型權重的數值精度,例如從 32-bit float 降到 4-bit integer,以縮小模型並加速 inference,同時盡量維持準確度。這是本機部署大型模型的重要技術。
全部術語
AgentAttention MechanismChain-of-ThoughtContext WindowDiffusion ModelDistillationDPO (Direct Preference Optimization)EmbeddingFew-shot PromptingFine-tuningFunction CallingGAN (Generative Adversarial Network)GRPO (Group Relative Policy Optimization)HallucinationInferenceLLM (Large Language Model)LoRA (Low-Rank Adaptation)MCP (Model Context Protocol)MultimodalPrompt EngineeringQLoRA (Quantized LoRA)QuantizationRAG (Retrieval-Augmented Generation)RLHF (Reinforcement Learning from Human Feedback)TemperatureTokenizerTool UseTop-p (Nucleus Sampling)TransformerVector DatabaseZero-shot Prompting