LLM (Large Language Model) 是什麼？— AI 術語表 2026

定義

在大規模文字語料上訓練、用來預測下一個 token 的神經網路，因此展現推理、寫程式與語言理解等能力。例子包含 GPT-4、Claude、Gemini 與 Llama，規模可從數十億到數兆參數。

Transformer

2017 年「Attention Is All You Need」論文提出的神經網路架構，取代 recurrent networks 處理序列建模。它完全基於 self-attention 與 feed-forward layers，是幾乎所有現代 LLM 的基礎。

Tokenizer

把原始文字轉換成模型可處理 token ID 的元件。現代 LLM 多使用 BPE 或類似 subword 演算法；token 數會影響成本，也決定能否放進 context window。

Context Window

模型單次呼叫可處理的最大 token 數，包含輸入 prompt 和輸出內容。更大的 context window 可以處理整個程式碼庫、書籍或長對話；單位是 token，不是字元。

RLHF (Reinforcement Learning from Human Feedback)

使用人類偏好訊號訓練 LLM 的方法：人類評估者比較模型輸出，訓練 reward model，再用強化學習微調 LLM 以最大化 reward。ChatGPT、Claude 等 assistant 都使用過類似流程。