← 術語表

Quantization

技術

定義

降低模型權重的數值精度,例如從 32-bit float 降到 4-bit integer,以縮小模型並加速 inference,同時盡量維持準確度。這是本機部署大型模型的重要技術。