Inference
概念定義
使用已訓練好的模型產生預測或輸出的過程,與更新權重的 training 相對。生產環境最在意 inference 的速度、成本與延遲。
相關術語
Quantization
降低模型權重的數值精度,例如從 32-bit float 降到 4-bit integer,以縮小模型並加速 inference,同時盡量維持準確度。這是本機部署大型模型的重要技術。
Distillation
訓練較小的 student model 去模仿較大的 teacher model。這能產生更輕量的模型,以較低運算成本保留多數能力,常見於 DeepSeek-R1-Zero 與許多生產模型。
Context Window
模型單次呼叫可處理的最大 token 數,包含輸入 prompt 和輸出內容。更大的 context window 可以處理整個程式碼庫、書籍或長對話;單位是 token,不是字元。
Inference 相關文章
全部術語
AgentAttention MechanismChain-of-ThoughtContext WindowDiffusion ModelDistillationDPO (Direct Preference Optimization)EmbeddingFew-shot PromptingFine-tuningFunction CallingGAN (Generative Adversarial Network)GRPO (Group Relative Policy Optimization)HallucinationInferenceLLM (Large Language Model)LoRA (Low-Rank Adaptation)MCP (Model Context Protocol)MultimodalPrompt EngineeringQLoRA (Quantized LoRA)QuantizationRAG (Retrieval-Augmented Generation)RLHF (Reinforcement Learning from Human Feedback)TemperatureTokenizerTool UseTop-p (Nucleus Sampling)TransformerVector DatabaseZero-shot Prompting