標籤
量化
量化在 AI 推論裡多半指把權重或 KV cache 轉成更低位元表示,以換取更少記憶體、更低延遲與更高吞吐。近期焦點集中在 TurboQuant 這類方法,及其對長上下文、伺服器成本與 benchmark 公平性的影響。
5 篇文章

技術研究/4月29日
TurboQuant、EDEN 與引用爭議
TurboQuant 主打 KV-cache 6x 壓縮,卻被指和 DRIVE、EDEN 同源,還有 scale 選擇與 benchmark 公平性爭議。

技術研究/4月3日
TurboQuant 省 6 倍記憶體,還不掉準確率
Google Research 發表 TurboQuant,主打記憶體用量降到 1/6、推論快 8 倍,且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。

技術研究/4月3日
TurboQuant 是什麼?Google 新論文重點
Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸,用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。

技術研究/4月2日
TurboQuant 解不了記憶體荒
Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍,但更長上下文、更多 agent 與更高吞吐,可能把 DRAM 和 NAND 需求繼續往上推。

技術研究/3月31日
IF4:神經網路量化的聰明選擇
MIT研究團隊提出混合式資料格式,可在浮點與整數表示法間動態切換,改善4位元量化的精度。