返回首頁

標籤

量化

量化在 AI 推論裡多半指把權重或 KV cache 轉成更低位元表示,以換取更少記憶體、更低延遲與更高吞吐。近期焦點集中在 TurboQuant 這類方法,及其對長上下文、伺服器成本與 benchmark 公平性的影響。

5 篇文章