返回首頁

標籤

quantization

量化是把模型權重、KV cache 或啟動值壓縮成更低位元表示的技術,目標是在記憶體、延遲與成本之間取得平衡。從 4-bit 混合格式到針對 LLM 推論的低位元方案,它直接影響部署效率與可擴充性。

2 篇文章