標籤

AI 推論

2 篇文章

TurboQuant 省 6 倍記憶體，還不掉準確率

Google Research 發表 TurboQuant，主打記憶體用量降到 1/6、推論快 8 倍，且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。

Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍，但更長上下文、更多 agent 與更高吞吐，可能把 DRAM 和 NAND 需求繼續往上推。