RAG (Retrieval-Augmented Generation) 是什麼？— AI 術語表 2026

定義

先從知識庫中檢索相關文件（通常透過向量搜尋），再把文件注入 prompt 來增強 LLM 回答的架構。它能讓模型引用外部且較新的事實，而不必重新訓練。

Vector Database

專門儲存與查詢高維 embedding vector 的資料庫，通常使用 approximate nearest neighbor search。它是 RAG 系統的核心基礎設施，例子包含 Pinecone、Weaviate、Qdrant 與 pgvector。

Embedding

把文字、圖片或其他資料表示成高維度數值向量；語意相近的資料在向量空間中距離也會較近。這是語意搜尋、RAG 與推薦系統的基礎。

Hallucination

語言模型產生流暢且自信、但事實錯誤、憑空捏造或與來源矛盾的內容。根本原因是模型在最佳化合理的 token 序列，而不是直接保證事實正確。

Context Window

模型單次呼叫可處理的最大 token 數，包含輸入 prompt 和輸出內容。更大的 context window 可以處理整個程式碼庫、書籍或長對話；單位是 token，不是字元。