標籤

PolarQuant

PolarQuant 是一種向量量化與記憶體壓縮方法，常見於 LLM 推論、向量檢索與資料庫索引。它的重點在於降低 embedding 與權重的儲存成本，同時盡量保留搜尋與推論品質。

3 篇文章

為什麼 TurboQuant 重新定義 KV cache 辯論

技術研究/5月6日

為什麼 TurboQuant 重新定義 KV cache 辯論

TurboQuant 不是單純把 KV cache 壓小，而是把壓縮從工程技巧提升成可證明的效率方案。

FerresDB 走向正式上線的 Rust 搜尋

工具應用/4月3日

FerresDB 走向正式上線的 Rust 搜尋

FerresDB 新增 PolarQuant、HNSW 自動調參、PITR、reranking 與 Raft 分散式儲存，開始像一套可上線的 Rust 向量資料庫。

Google TurboQuant 壓低 LLM 記憶體成本

技術研究/4月3日

Google TurboQuant 壓低 LLM 記憶體成本

Google 推出 TurboQuant，結合 QJL 與 PolarQuant，主打壓低 vector quantization 的記憶體開銷，並宣稱 LLM inference 最高可快 8 倍。