[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-vector-quantization":3},{"tag":4,"articles":11},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":10},"f9a5a73c-df99-4e43-8252-6263761e4037","vector quantization","vector-quantization",4,"向量量化是把高維向量壓成更小表示的核心技術，常見於 LLM KV cache、向量搜尋與推論加速。近期焦點在 TurboQuant 這類線上量化方法，強調在 MSE、inner product 失真與記憶體成本之間取得更好的平衡。","Vector quantization compresses high-dimensional embeddings into compact codes, reducing memory and bandwidth in LLM KV caches, vector search, and inference pipelines. Recent work such as TurboQuant focuses on online, accelerator-friendly schemes that balance MSE, inner-product distortion, and throughput.",[12,21],{"id":13,"slug":14,"title":15,"summary":16,"category":17,"image_url":18,"cover_image":18,"language":19,"created_at":20},"1ac8d1f1-a68e-41d3-9955-d3c3a6b55e39","turboquant-online-vector-quantization-near-optimal-zh","TurboQuant：線上向量量化更接近最優","TurboQuant 提出可線上運作、適合加速器的向量量化方法，主打 MSE 與 inner-product 失真都能逼近近似最優，並鎖定 KV cache 與向量搜尋場景。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777467660452-rlcy.png","zh","2026-04-29T13:00:39.453873+00:00",{"id":22,"slug":23,"title":24,"summary":25,"category":17,"image_url":26,"cover_image":26,"language":19,"created_at":27},"6ea121bb-a78e-4bc2-bda3-9be1e048ab95","googles-turboquant-cuts-llm-memory-costs-zh","Google TurboQuant 壓低 LLM 記憶體成本","Google 推出 TurboQuant，結合 QJL 與 PolarQuant，主打壓低 vector quantization 的記憶體開銷，並宣稱 LLM inference 最高可快 8 倍。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775160769707-5e2g.png","2026-04-02T20:12:31.803679+00:00"]