標籤

quantization

量化是把模型權重、KV cache 或啟動值壓縮成更低位元表示的技術，目標是在記憶體、延遲與成本之間取得平衡。從 4-bit 混合格式到針對 LLM 推論的低位元方案，它直接影響部署效率與可擴充性。

2 篇文章

香農尺度律解釋 LLM 過訓練

這篇論文把 LLM 訓練看成帶雜訊的資訊傳輸，說明為何算力增加時，模型在噪聲下反而可能變差。

我把 TurboQuant 的量化研究拆成一套可直接照抄的選型流程，幫你判斷 8-bit、4-bit、PTQ、QAT 怎麼選。