AI 術語表

能自主規劃並執行多步驟任務的 AI 系統。它可以呼叫工具、瀏覽網頁、撰寫程式碼，並和外部服務互動，不需要人類一路手動指揮。

Attention Mechanism

Transformer 的核心機制，讓模型在產生每個輸出 token 時判斷序列中哪些 token 更重要。Self-attention 讓每個 token 都能參照其他 token，因此能捕捉長距離關係。

Chain-of-Thought

一種提示技巧，要求或引導模型在給出最終答案前先產生中間推理步驟。它通常能明顯改善多步驟數學、邏輯與程式問題的表現。

Context Window

模型單次呼叫可處理的最大 token 數，包含輸入 prompt 和輸出內容。更大的 context window 可以處理整個程式碼庫、書籍或長對話；單位是 token，不是字元。

Diffusion Model

一種學習反轉加噪過程的生成模型。它從純噪聲開始逐步去噪，產生圖片、音訊或影片，是 Stable Diffusion、DALL-E 3、Midjourney 與 Sora 等系統的基礎。

Distillation

訓練較小的 student model 去模仿較大的 teacher model。這能產生更輕量的模型，以較低運算成本保留多數能力，常見於 DeepSeek-R1-Zero 與許多生產模型。

DPO (Direct Preference Optimization)

一種對齊訓練方法，直接用人類偏好成對資料（preferred vs. rejected responses）最佳化模型，不需要另外訓練 reward model。比 RLHF 更簡單、更穩定，常用於 instruction tuning。

Embedding

把文字、圖片或其他資料表示成高維度數值向量；語意相近的資料在向量空間中距離也會較近。這是語意搜尋、RAG 與推薦系統的基礎。

Few-shot Prompting

在 prompt 中提供少量輸入與輸出範例，再要求模型完成新任務。這能幫助模型理解格式、風格或任務目標，而不必重新 fine-tune。

Fine-tuning

在特定領域或任務資料上接續訓練預訓練模型，讓模型行為更專門化。範圍從更新全部權重的 full fine-tuning，到 LoRA、QLoRA 等參數高效方法。

Function Calling

模型輸出結構化 JSON，描述要呼叫哪個函式與參數，而不是只回傳純文字。應用程式執行函式後再把結果餵回模型；GPT-4、Claude、Gemini 都支援類似能力。

GAN (Generative Adversarial Network)

由 generator 與 discriminator 兩個網路組成的架構。Generator 產生合成資料，discriminator 判斷真偽，兩者對抗訓練讓輸出更逼真；影像領域後來多被 diffusion model 取代。

GRPO (Group Relative Policy Optimization)

DeepSeek 採用的強化學習演算法，透過比較同一組中的多個 sampled responses 改進 PPO，不依賴獨立 critic。它被用來訓練 DeepSeek-R1 的推理能力。

Hallucination

語言模型產生流暢且自信、但事實錯誤、憑空捏造或與來源矛盾的內容。根本原因是模型在最佳化合理的 token 序列，而不是直接保證事實正確。

Inference

使用已訓練好的模型產生預測或輸出的過程，與更新權重的 training 相對。生產環境最在意 inference 的速度、成本與延遲。

LLM (Large Language Model)

在大規模文字語料上訓練、用來預測下一個 token 的神經網路，因此展現推理、寫程式與語言理解等能力。例子包含 GPT-4、Claude、Gemini 與 Llama，規模可從數十億到數兆參數。

LoRA (Low-Rank Adaptation)

一種參數高效 fine-tuning 技術，對凍結的模型層加入小型可訓練低秩矩陣。它通常只訓練不到 1% 的參數，卻接近 full fine-tuning 效果，是 LLM 適配的常用方法。

MCP (Model Context Protocol)

Anthropic 提出的開放標準，用來把 AI assistant 連接到外部資料來源與工具。它定義共同介面，讓 Claude、Cursor 等 MCP client 可以連到資料庫、API、檔案系統等 MCP server。

Multimodal

能在同一架構中處理或產生多種資料型態的模型，例如文字、圖片、音訊與影片。GPT-4o、Gemini、Claude vision 與 Sora 都屬於相關例子。

Prompt Engineering

設計輸入以引導模型產生最佳輸出的實務。它包含 chain-of-thought、few-shot 範例、角色提示、結構化輸出指示與 system prompt 設計。

QLoRA (Quantized LoRA)

結合 4-bit quantization 與 LoRA fine-tuning 的方法，讓 65B 以上參數模型也能在單張消費級 GPU 上 fine-tune。由 Tim Dettmers 等人在 2023 年提出，讓大型模型微調更普及。

Quantization

降低模型權重的數值精度，例如從 32-bit float 降到 4-bit integer，以縮小模型並加速 inference，同時盡量維持準確度。這是本機部署大型模型的重要技術。

RAG (Retrieval-Augmented Generation)

先從知識庫中檢索相關文件（通常透過向量搜尋），再把文件注入 prompt 來增強 LLM 回答的架構。它能讓模型引用外部且較新的事實，而不必重新訓練。

RLHF (Reinforcement Learning from Human Feedback)

使用人類偏好訊號訓練 LLM 的方法：人類評估者比較模型輸出，訓練 reward model，再用強化學習微調 LLM 以最大化 reward。ChatGPT、Claude 等 assistant 都使用過類似流程。

Temperature

控制輸出隨機性的 sampling 超參數。temperature 為 0 時模型總是選最高機率的下一個 token；數值越高，輸出越多樣、更有創意，但超過 1.0 容易引入噪聲。

Tokenizer

把原始文字轉換成模型可處理 token ID 的元件。現代 LLM 多使用 BPE 或類似 subword 演算法；token 數會影響成本，也決定能否放進 context window。

Tool Use

LLM 在 inference 過程中呼叫外部工具的能力，例如網頁搜尋、程式執行、計算機或 API。模型決定何時、如何呼叫工具，接收結果後再整合進回覆。

Top-p (Nucleus Sampling)

一種 sampling 策略，模型只從累積機率達到 p 的最小候選集合中選下一個 token。它比固定 top-k 更能動態平衡多樣性與連貫性，常與 temperature 搭配使用。

Transformer

2017 年「Attention Is All You Need」論文提出的神經網路架構，取代 recurrent networks 處理序列建模。它完全基於 self-attention 與 feed-forward layers，是幾乎所有現代 LLM 的基礎。

Vector Database

專門儲存與查詢高維 embedding vector 的資料庫，通常使用 approximate nearest neighbor search。它是 RAG 系統的核心基礎設施，例子包含 Pinecone、Weaviate、Qdrant 與 pgvector。

Zero-shot Prompting