Transformer
模型定義
2017 年「Attention Is All You Need」論文提出的神經網路架構,取代 recurrent networks 處理序列建模。它完全基於 self-attention 與 feed-forward layers,是幾乎所有現代 LLM 的基礎。
相關術語
Attention Mechanism
Transformer 的核心機制,讓模型在產生每個輸出 token 時判斷序列中哪些 token 更重要。Self-attention 讓每個 token 都能參照其他 token,因此能捕捉長距離關係。
LLM (Large Language Model)
在大規模文字語料上訓練、用來預測下一個 token 的神經網路,因此展現推理、寫程式與語言理解等能力。例子包含 GPT-4、Claude、Gemini 與 Llama,規模可從數十億到數兆參數。
Embedding
把文字、圖片或其他資料表示成高維度數值向量;語意相近的資料在向量空間中距離也會較近。這是語意搜尋、RAG 與推薦系統的基礎。
Transformer 相關文章
全部術語
AgentAttention MechanismChain-of-ThoughtContext WindowDiffusion ModelDistillationDPO (Direct Preference Optimization)EmbeddingFew-shot PromptingFine-tuningFunction CallingGAN (Generative Adversarial Network)GRPO (Group Relative Policy Optimization)HallucinationInferenceLLM (Large Language Model)LoRA (Low-Rank Adaptation)MCP (Model Context Protocol)MultimodalPrompt EngineeringQLoRA (Quantized LoRA)QuantizationRAG (Retrieval-Augmented Generation)RLHF (Reinforcement Learning from Human Feedback)TemperatureTokenizerTool UseTop-p (Nucleus Sampling)TransformerVector DatabaseZero-shot Prompting