Embedding 是什麼？— AI 術語表 2026

定義

把文字、圖片或其他資料表示成高維度數值向量；語意相近的資料在向量空間中距離也會較近。這是語意搜尋、RAG 與推薦系統的基礎。

Vector Database

專門儲存與查詢高維 embedding vector 的資料庫，通常使用 approximate nearest neighbor search。它是 RAG 系統的核心基礎設施，例子包含 Pinecone、Weaviate、Qdrant 與 pgvector。

RAG (Retrieval-Augmented Generation)

先從知識庫中檢索相關文件（通常透過向量搜尋），再把文件注入 prompt 來增強 LLM 回答的架構。它能讓模型引用外部且較新的事實，而不必重新訓練。

Tokenizer

把原始文字轉換成模型可處理 token ID 的元件。現代 LLM 多使用 BPE 或類似 subword 演算法；token 數會影響成本，也決定能否放進 context window。

PHINN-EEG 用拓撲看夢境 EEG

4 種能上線的向量資料庫選擇

AMD 讓 AI 堆疊變平台選擇

SciReasoner讓結構變成可讀證據

用 n8n 建出可上線的向量資料庫