標籤

量化

量化在 AI 推論裡多半指把權重或 KV cache 轉成更低位元表示，以換取更少記憶體、更低延遲與更高吞吐。近期焦點集中在 TurboQuant 這類方法，及其對長上下文、伺服器成本與 benchmark 公平性的影響。

5 篇文章

TurboQuant、EDEN 與引用爭議

TurboQuant 主打 KV-cache 6x 壓縮，卻被指和 DRIVE、EDEN 同源，還有 scale 選擇與 benchmark 公平性爭議。

Google Research 發表 TurboQuant，主打記憶體用量降到 1/6、推論快 8 倍，且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。

Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸，用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍，但更長上下文、更多 agent 與更高吞吐，可能把 DRAM 和 NAND 需求繼續往上推。

MIT研究團隊提出混合式資料格式，可在浮點與整數表示法間動態切換，改善4位元量化的精度。