Inference 是什麼？— AI 術語表 2026

定義

使用已訓練好的模型產生預測或輸出的過程，與更新權重的 training 相對。生產環境最在意 inference 的速度、成本與延遲。

Quantization

降低模型權重的數值精度，例如從 32-bit float 降到 4-bit integer，以縮小模型並加速 inference，同時盡量維持準確度。這是本機部署大型模型的重要技術。

Distillation

訓練較小的 student model 去模仿較大的 teacher model。這能產生更輕量的模型，以較低運算成本保留多數能力，常見於 DeepSeek-R1-Zero 與許多生產模型。

Context Window

模型單次呼叫可處理的最大 token 數，包含輸入 prompt 和輸出內容。更大的 context window 可以處理整個程式碼庫、書籍或長對話；單位是 token，不是字元。

MiniMax-M1：開源 1M Token 推理模型

LLM 評審也會不穩

黑箱 LLM 排程更聰明了

Ollama 漏洞可遠端洩漏記憶體

為什麼 Databricks Model Serving 是生產推論的正確預設