Transformer 是什麼？— AI 術語表 2026

定義

2017 年「Attention Is All You Need」論文提出的神經網路架構，取代 recurrent networks 處理序列建模。它完全基於 self-attention 與 feed-forward layers，是幾乎所有現代 LLM 的基礎。

Attention Mechanism

Transformer 的核心機制，讓模型在產生每個輸出 token 時判斷序列中哪些 token 更重要。Self-attention 讓每個 token 都能參照其他 token，因此能捕捉長距離關係。

LLM (Large Language Model)

在大規模文字語料上訓練、用來預測下一個 token 的神經網路，因此展現推理、寫程式與語言理解等能力。例子包含 GPT-4、Claude、Gemini 與 Llama，規模可從數十億到數兆參數。

Embedding

把文字、圖片或其他資料表示成高維度數值向量；語意相近的資料在向量空間中距離也會較近。這是語意搜尋、RAG 與推薦系統的基礎。

UniPool：共享 MoE 專家池

2026 如何遷移 Sora 2

為什麼 GPT Image 2 上線時，安全比速度更重要

Grok 幫忙找出五個不等式

LLM 學到文法了嗎？