TurboQuant 解不了記憶體荒
Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍,但更長上下文、更多 agent 與更高吞吐,可能把 DRAM 和 NAND 需求繼續往上推。

Google 說 TurboQuant 可以把 KV-cache 記憶體用量砍到 6 倍。這數字很猛,AI 硬體圈當然秒懂。問題是,模型一旦變便宜,大家通常不會收手。反而會要更長上下文、更多 agent、更多 batch。
這件事很現實。記憶體價格本來就不輕鬆。以前很多推論系統只把 KV cache 當配角。現在它常常直接變成大筆成本。特別是聊天紀錄拉到幾十萬 Token 之後,DRAM 壓力會很有感。
講白了,TurboQuant 不是來救記憶體市場的。它比較像一把更利的刀。你可以拿它切成本,也可以拿它切出更多需求。
TurboQuant 到底改了什麼
訂閱 AI 趨勢週報
每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。
不會寄垃圾信,隨時可取消。
TurboQuant 是一種 KV cache 量化方法。KV cache 是模型在推論時的短期記憶。它會記住前面講過什麼,讓模型接話時不會像金魚。

它不是在壓縮模型權重。它壓的是 key 和 value 向量。這些資料會隨著 prompt 變長一直累積。上下文越長,cache 就越肥。
這個差別很重要。很多人談量化,只想到 weights。可是在長上下文場景,KV cache 常常先把記憶體吃掉。Google 的說法是,TurboQuant 可以把這塊壓到更小,還不太傷輸出品質。
Google 還說,它能接近 BF16 品質,但只用 3.5 bits。它也宣稱,在 NVIDIA H100 上,4-bit 精度的 attention-logit 步驟可快到 8 倍。這不是小數字。attention 本來就是推論裡很燙的區塊。
- Google 宣稱 KV-cache 記憶體最多降 6 倍
- Google 宣稱 H100 上 attention logits 可快 8 倍
- TurboQuant 針對 KV cache,不是模型權重
- 它結合了 QJL 和 PolarQuant
Google 還提到,它測過低到 2.5 bits 的 KV cache。品質損失很小。若這結果在真實服務也站得住腳,推論團隊就多了一個很實用的選項。
我覺得這點很關鍵。因為 AI 服務現在最缺的,常常不是演算法腦洞,而是記憶體預算。
PolarQuant 和 QJL 怎麼做事
TurboQuant 混了兩個方法:PolarQuant 和 Quantized Johnson-Lindenstrauss,也就是 QJL。PolarQuant 會用極座標去重排 cache 向量。這樣一來,資料表示方式就先變了。
白話一點,就是把同樣的資訊,用更省空間的方式記下來。Google 的說法是,這樣可以減少量化常見的額外開銷。像正規化這類步驟,就不會那麼拖。
Google 在部落格裡還打了個比喻:
“This is comparable to replacing ‘Go 3 blocks east, 4 blocks north’ with ‘go 5 blocks total at a 37-degree angle,’”意思很直白。它想用更短的描述,保住差不多的資訊。
QJL 則負責修正第一階段帶來的誤差。它幫模型保住 attention score。這很重要。因為推論品質不是只看壓縮率,還要看模型會不會答非所問。
這也是 TurboQuant 有意思的地方。它不是單純把資料削薄。它是想在少記憶體和少失真之間找平衡。這種平衡如果做得好,長聊天、寫程式、跑 agent 工作流都會受惠。
而且這種方法的意義,不只是在單一模型家族。若它能跨工作負載成立,推論成本結構就會被重新分配。
更省記憶體,不代表需求會降
很多人第一個反應,會以為記憶體用量降了,DRAM 和 NAND 需求就會冷掉。這想法很直覺,但常常不對。AI 團隊一旦省到成本,通常不是少做事,而是做更多。

這種行為模式已經很明顯。前一年,很多 open-weight 模型的 context window 還在 64,000 到 256,000 Token。現在,1,000,000 Token 的上下文已經不稀奇。寫程式工具還一直往上推。
對推論供應商來說,TurboQuant 有兩條路。第一條是同樣模型用更少記憶體。第二條是把省下來的容量拿去撐更長上下文。多半後者更香,因為它能做更深的文件分析,也能跑更長的 agent 流程。
- Open model 的 context 從 64,000-256,000 Token 拉到 1,000,000+ Token
- TrendForce 提到,TurboQuant 可能推高長上下文需求
- 上下文越長,記憶體需求還是會上去
- 推論廠商常把省下的資源拿去服務更多 Token
所以,單看「6 倍節省」很容易看錯方向。Google 可能壓低每個 Token 的記憶體成本,但產業又把每次請求的 Token 數往上拉。這兩股力量是對拉的。
而且,後者常常比較兇。因為產品團隊很少會說:「我們省下的資源就放著吧。」他們通常會說:「那我們把上下文再加長一點。」
說真的,這就是 AI 服務的老毛病。省下來的錢,最後都會變成更多需求。
對 DRAM、NAND 和 AI 團隊的意思
對記憶體廠來說,TurboQuant 比較像訊號,不是警報。它代表 AI 工作負載還在往更多場景滲透。KV cache 如果變便宜,下一步通常不是少買記憶體,而是把產品做得更會記。
這對 SK hynix、Samsung Semiconductor 和 Micron 都有意思。因為 AI 工作負載同時拉動 HBM、DRAM 和 NAND。組合會變,但需求不太會自己消失。
對開發者來說,真正要想的是省下來的資源要丟去哪裡。你如果在跑 coding agent,答案多半是 context。你如果在做客服 chatbot,答案可能是吞吐量和延遲。兩者都不會讓壓力消失,只是壓力轉彎了。
Google 也在暗示另一個方向:vector database。這對搜尋、retrieval 和 agent memory 都很重要。因為 embedding 儲存和相似度搜尋,本來就很吃基礎設施預算。
如果 TurboQuant 類方法也能往那裡延伸,贏家會是能把儲存成本換成產品品質的團隊。這種團隊通常跑得比對手快,因為它們敢把省下來的空間直接拿去做功能。
- SK hynix、Samsung、Micron 都吃得到 AI 記憶體需求
- AI 需求同時拉 HBM、DRAM、NAND
- 長上下文產品更吃 memory headroom
- vector database 也可能受益
我自己的看法很簡單。TurboQuant 是效率改善,但也是需求放大器。誰先把省下來的成本變成更長上下文,誰就先搶到產品優勢。
這波真正要看的是什麼
重點不是 TurboQuant 在 benchmark 上能不能跑。重點是推論團隊會拿它來封頂記憶體帳單,還是拿它來把 context 再往上推。看過去幾年的 AI 產品演化,我會押後者。
如果真是這樣,記憶體需求還是會往上走,只是形狀會變。更多需求會綁在長上下文服務、agent memory 和 retrieval 系統。這比只看模型權重複雜多了。
也因此,接下來最該盯的,不是 Google 說了什麼,而是誰先把 TurboQuant 類支援做進產品。還有,誰先把上下文再次推到 1,000,000 Token 以上。這會直接告訴我們,省下來的資源留在帳上,還是被倒回更大的 AI 工作負載。
我的預測很直白。未來 6 到 12 個月,長上下文和 agent 服務會繼續吃掉更多記憶體預算。你如果是做 AI 服務或硬體的人,現在就該問:我們要把省下來的 6 倍,拿去省錢,還是拿去做更大產品?