標籤
PolarQuant
PolarQuant 是一種向量量化與記憶體壓縮方法,常見於 LLM 推論、向量檢索與資料庫索引。它的重點在於降低 embedding 與權重的儲存成本,同時盡量保留搜尋與推論品質。
3 篇文章

技術研究/5月6日
為什麼 TurboQuant 重新定義 KV cache 辯論
TurboQuant 不是單純把 KV cache 壓小,而是把壓縮從工程技巧提升成可證明的效率方案。

工具應用/4月3日
FerresDB 走向正式上線的 Rust 搜尋
FerresDB 新增 PolarQuant、HNSW 自動調參、PITR、reranking 與 Raft 分散式儲存,開始像一套可上線的 Rust 向量資料庫。

技術研究/4月3日
Google TurboQuant 壓低 LLM 記憶體成本
Google 推出 TurboQuant,結合 QJL 與 PolarQuant,主打壓低 vector quantization 的記憶體開銷,並宣稱 LLM inference 最高可快 8 倍。