RAG (Retrieval-Augmented Generation)
技術定義
先從知識庫中檢索相關文件(通常透過向量搜尋),再把文件注入 prompt 來增強 LLM 回答的架構。它能讓模型引用外部且較新的事實,而不必重新訓練。
相關術語
Vector Database
專門儲存與查詢高維 embedding vector 的資料庫,通常使用 approximate nearest neighbor search。它是 RAG 系統的核心基礎設施,例子包含 Pinecone、Weaviate、Qdrant 與 pgvector。
Embedding
把文字、圖片或其他資料表示成高維度數值向量;語意相近的資料在向量空間中距離也會較近。這是語意搜尋、RAG 與推薦系統的基礎。
Hallucination
語言模型產生流暢且自信、但事實錯誤、憑空捏造或與來源矛盾的內容。根本原因是模型在最佳化合理的 token 序列,而不是直接保證事實正確。
Context Window
模型單次呼叫可處理的最大 token 數,包含輸入 prompt 和輸出內容。更大的 context window 可以處理整個程式碼庫、書籍或長對話;單位是 token,不是字元。
全部術語
AgentAttention MechanismChain-of-ThoughtContext WindowDiffusion ModelDistillationDPO (Direct Preference Optimization)EmbeddingFew-shot PromptingFine-tuningFunction CallingGAN (Generative Adversarial Network)GRPO (Group Relative Policy Optimization)HallucinationInferenceLLM (Large Language Model)LoRA (Low-Rank Adaptation)MCP (Model Context Protocol)MultimodalPrompt EngineeringQLoRA (Quantized LoRA)QuantizationRAG (Retrieval-Augmented Generation)RLHF (Reinforcement Learning from Human Feedback)TemperatureTokenizerTool UseTop-p (Nucleus Sampling)TransformerVector DatabaseZero-shot Prompting