標籤
vector quantization
向量量化是把高維向量壓成更小表示的核心技術,常見於 LLM KV cache、向量搜尋與推論加速。近期焦點在 TurboQuant 這類線上量化方法,強調在 MSE、inner product 失真與記憶體成本之間取得更好的平衡。
2 篇文章
標籤
向量量化是把高維向量壓成更小表示的核心技術,常見於 LLM KV cache、向量搜尋與推論加速。近期焦點在 TurboQuant 這類線上量化方法,強調在 MSE、inner product 失真與記憶體成本之間取得更好的平衡。
2 篇文章