Quantization 是什麼？— AI 術語表 2026

定義

降低模型權重的數值精度，例如從 32-bit float 降到 4-bit integer，以縮小模型並加速 inference，同時盡量維持準確度。這是本機部署大型模型的重要技術。

QLoRA (Quantized LoRA)

結合 4-bit quantization 與 LoRA fine-tuning 的方法，讓 65B 以上參數模型也能在單張消費級 GPU 上 fine-tune。由 Tim Dettmers 等人在 2023 年提出，讓大型模型微調更普及。

Distillation

訓練較小的 student model 去模仿較大的 teacher model。這能產生更輕量的模型，以較低運算成本保留多數能力，常見於 DeepSeek-R1-Zero 與許多生產模型。

Inference

使用已訓練好的模型產生預測或輸出的過程，與更新權重的 training 相對。生產環境最在意 inference 的速度、成本與延遲。

Awesome-LLM 把研究變地圖

Gemini 進 Siri，把記憶體變成本項

Zhihe A210 把 RISC-V 變成開發板

UltraQuant：4-bit KV 快取加速長代理

TurboQuant 在等字節預算下不會傷害搜尋品質