標籤
量化是把模型權重、KV cache 或啟動值壓縮成更低位元表示的技術,目標是在記憶體、延遲與成本之間取得平衡。從 4-bit 混合格式到針對 LLM 推論的低位元方案,它直接影響部署效率與可擴充性。
2 篇文章
這篇論文把 LLM 訓練看成帶雜訊的資訊傳輸,說明為何算力增加時,模型在噪聲下反而可能變差。
我把 TurboQuant 的量化研究拆成一套可直接照抄的選型流程,幫你判斷 8-bit、4-bit、PTQ、QAT 怎麼選。