標籤
2 篇文章
Google Research 發表 TurboQuant,主打記憶體用量降到 1/6、推論快 8 倍,且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。
Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍,但更長上下文、更多 agent 與更高吞吐,可能把 DRAM 和 NAND 需求繼續往上推。