Attention Mechanism 是什麼？— AI 術語表 2026

定義

Transformer 的核心機制，讓模型在產生每個輸出 token 時判斷序列中哪些 token 更重要。Self-attention 讓每個 token 都能參照其他 token，因此能捕捉長距離關係。

Transformer

2017 年「Attention Is All You Need」論文提出的神經網路架構，取代 recurrent networks 處理序列建模。它完全基於 self-attention 與 feed-forward layers，是幾乎所有現代 LLM 的基礎。

Context Window

模型單次呼叫可處理的最大 token 數，包含輸入 prompt 和輸出內容。更大的 context window 可以處理整個程式碼庫、書籍或長對話；單位是 token，不是字元。