[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-kv-cache":3},{"tag":4,"articles":11},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":10},"422aade2-8ccd-4b7c-b4a5-7836c6353ec7","KV cache","kv-cache",13,"KV cache 是大型語言模型推論時最吃記憶體的部分之一，長上下文、低延遲服務與雲端部署都會直接受它影響。這個主題涵蓋量化、壓縮、HBM 容量與頻寬取捨，以及像 TurboQuant 這類降低 KV cache 成本的方法。","KV cache is the working memory that lets LLMs reuse past tokens during inference, and it often becomes the main limit on context length, latency, and serving cost. This tag covers quantization, compression, HBM capacity and bandwidth trade-offs, and papers like TurboQuant.",[12,21,29,37,44,51,58,65,72,80,87,94,101,108,115,122,129,136,143],{"id":13,"slug":14,"title":15,"summary":16,"category":17,"image_url":18,"cover_image":18,"language":19,"created_at":20},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","Google Research 公布 TurboQuant，可把 KV cache 記憶體壓到至少 6x 以上，並在長上下文測試中維持接近全精度表現。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","zh","2026-06-08T08:17:21.878314+00:00",{"id":22,"slug":23,"title":24,"summary":25,"category":26,"image_url":27,"cover_image":27,"language":19,"created_at":28},"c054df55-967a-4a5a-8d7b-be8df18ee4a1","tether-turboquant-cuts-ai-memory-use-5x-zh","Tether TurboQuant 讓 AI 記憶體降 5 倍","Tether 把 TurboQuant 納入 QVAC SDK 0.12.0，主打把本地 AI 的 KV cache 記憶體需求最高壓到 5 倍以下，讓長上下文推理更適合筆電與邊緣裝置。","blockchain","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780543080527-tuse.png","2026-06-04T03:17:19.987279+00:00",{"id":30,"slug":31,"title":32,"summary":33,"category":34,"image_url":35,"cover_image":35,"language":19,"created_at":36},"bef47dbc-b0b4-439e-bae9-abe9473a321c","wei-shen-me-tether-ba-ben-di-ai-ji-yi-tui-jin-ri-chang-zhuan-zh","為什麼 Tether 把本地 AI 記憶推進日常裝置是對的","TurboQuant 的價值不在於更快，而在於把長上下文 AI 從資料中心拉回手機、筆電與邊緣裝置，讓本地 AI 真正可用。","tools","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780542170805-opi6.png","2026-06-04T03:02:19.599329+00:00",{"id":38,"slug":39,"title":40,"summary":41,"category":17,"image_url":42,"cover_image":42,"language":19,"created_at":43},"7c996078-6205-4133-b770-261c2c2fb7cb","videomla-low-rank-kv-cache-video-diffusion-zh","VideoMLA 壓縮影片 KV 快取 92.7%","VideoMLA 用共享低秩潛變量重做影片擴散的 KV 快取，把每 token 記憶體降 92.7%，也把長時間 rollout 的系統壓力往下壓。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780035479514-8ara.png","2026-05-29T06:17:30.628215+00:00",{"id":45,"slug":46,"title":47,"summary":48,"category":17,"image_url":49,"cover_image":49,"language":19,"created_at":50},"ad2e19d7-a96f-4a39-bd32-5b139f46b560","why-turboquant-matters-more-than-model-size-zh","為什麼 TurboQuant 比模型大小更重要","TurboQuant 之所以重要，不是因為模型更大，而是因為它直接壓低了決定本地 AI 表現的 KV cache 記憶體瓶頸。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779864485542-p489.png","2026-05-27T06:47:24.622955+00:00",{"id":52,"slug":53,"title":54,"summary":55,"category":34,"image_url":56,"cover_image":56,"language":19,"created_at":57},"a17f824d-9049-4f8b-934e-3dfd466123d3","why-llama-cpp-should-treat-turboquant-as-default-zh","為什麼 llama.cpp 應把 TurboQuant 當成新預設路徑","TurboQuant 應成為 llama.cpp 的新預設思路，因為非對稱 KV 壓縮能大幅省記憶體，且不破壞既有相容性。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779481554771-u2dd.png","2026-05-22T20:25:20.763766+00:00",{"id":59,"slug":60,"title":61,"summary":62,"category":34,"image_url":63,"cover_image":63,"language":19,"created_at":64},"de80c7d2-c4bf-4168-855f-1d5ac9e34151","turboquant-vllm-kv-cache-3bit-storage-zh","TurboQuant 把 vLLM KV 快取壓成 3 位元","我拆 TurboQuant 怎麼把 vLLM 的 KV cache 壓到 3-bit，順手整理成可直接套用的部署判斷與模板。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779286504704-sisl.png","2026-05-20T14:14:36.149676+00:00",{"id":66,"slug":67,"title":68,"summary":69,"category":34,"image_url":70,"cover_image":70,"language":19,"created_at":71},"3c206419-ad56-478e-a9d4-203832c11744","why-kv-cache-compression-will-decide-edge-ai-inference-zh","為什麼 KV-cache 壓縮會決定邊緣 AI 推論","我認為邊緣 AI 推論的勝負，不會先由算力決定，而是由 KV-cache 壓縮這個記憶體瓶頸決定。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779285832259-zgfd.png","2026-05-20T14:03:19.991728+00:00",{"id":73,"slug":74,"title":75,"summary":76,"category":77,"image_url":78,"cover_image":78,"language":19,"created_at":79},"e62c3870-f6fe-45e1-8628-082b86195d31","5-kv-cache-takeaways-for-llamacpp-users-zh","5 個 llama.cpp 的 KV cache 重點","5 個重點帶你看懂 llama.cpp 的 KV cache 壓縮、記憶體節省與效能取捨，判斷該追新方法還是先用現有格式。","industry","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779285255441-f432.png","2026-05-20T13:53:42.308292+00:00",{"id":81,"slug":82,"title":83,"summary":84,"category":17,"image_url":85,"cover_image":85,"language":19,"created_at":86},"b26bb416-9349-48f2-8218-2487e74e97f7","why-turboquant-changes-kv-cache-debate-zh","為什麼 TurboQuant 重新定義 KV cache 辯論","TurboQuant 不是單純把 KV cache 壓小，而是把壓縮從工程技巧提升成可證明的效率方案。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778016645951-x6mu.png","2026-05-05T21:30:23.533526+00:00",{"id":88,"slug":89,"title":90,"summary":91,"category":17,"image_url":92,"cover_image":92,"language":19,"created_at":93},"1ac8d1f1-a68e-41d3-9955-d3c3a6b55e39","turboquant-online-vector-quantization-near-optimal-zh","TurboQuant：線上向量量化更接近最優","TurboQuant 提出可線上運作、適合加速器的向量量化方法，主打 MSE 與 inner-product 失真都能逼近近似最優，並鎖定 KV cache 與向量搜尋場景。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777467660452-rlcy.png","2026-04-29T13:00:39.453873+00:00",{"id":95,"slug":96,"title":97,"summary":98,"category":17,"image_url":99,"cover_image":99,"language":19,"created_at":100},"4242e1bf-4f38-488d-9f92-ccb4f5b70319","turboquant-eden-citation-fight-zh","TurboQuant、EDEN 與引用爭議","TurboQuant 主打 KV-cache 6x 壓縮，卻被指和 DRIVE、EDEN 同源，還有 scale 選擇與 benchmark 公平性爭議。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1777467063814-l8dk.png","2026-04-29T12:50:45.096442+00:00",{"id":102,"slug":103,"title":104,"summary":105,"category":77,"image_url":106,"cover_image":106,"language":19,"created_at":107},"c701c93e-a74b-49a7-ac72-40ed577a6e92","nvidia-b300-vs-h200-deepseek-perf-zh","NVIDIA B300 對 H200：DeepSeek 實…","B300 有 288GB HBM3e 和 8TB\u002Fs 頻寬。這篇直接比 H200，拆解 DeepSeek 推論、KV cache、雲端成本與部署取捨。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775161680437-1ibz.png","2026-04-02T20:27:38.70665+00:00",{"id":109,"slug":110,"title":111,"summary":112,"category":17,"image_url":113,"cover_image":113,"language":19,"created_at":114},"fdb08bdf-a3bd-4c4d-acaf-ce8035f24449","turboquant-google-paper-explained-zh","TurboQuant 是什麼？Google 新論文重點","Google 的 TurboQuant 盯上 LLM 的 KV cache 瓶頸，用低位元量化降低記憶體用量與推論成本。這篇帶你看它在解什麼問題、和其他優化法差在哪。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775160957331-6iua.png","2026-04-02T20:15:40.07166+00:00",{"id":116,"slug":117,"title":118,"summary":119,"category":34,"image_url":120,"cover_image":120,"language":19,"created_at":121},"d233c90c-e7d8-418d-a8dc-f76080f1b968","turboquant-fast-cold-starts-rust-gpu-zh","TurboQuant、冷啟動與 GPU Rust","TurboQuant 把 KV cache 壓到 4.6 倍，GPU state restore 盯上 32B 模型冷啟動，Rust 也更深入 CUDA 開發。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775146380823-5d5u.png","2026-04-02T16:12:38.23896+00:00",{"id":123,"slug":124,"title":125,"summary":126,"category":17,"image_url":127,"cover_image":127,"language":19,"created_at":128},"9d1ed0f2-aace-46ce-9b0a-0c0d8655e8e8","turboquant-wont-fix-memory-crunch-zh","TurboQuant 解不了記憶體荒","Google 的 TurboQuant 可把 KV-cache 記憶體用量降到 6 倍，但更長上下文、更多 agent 與更高吞吐，可能把 DRAM 和 NAND 需求繼續往上推。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775132150405-6fvw.png","2026-04-02T12:15:31.810812+00:00",{"id":130,"slug":131,"title":132,"summary":133,"category":17,"image_url":134,"cover_image":134,"language":19,"created_at":135},"e7d8242f-edab-4282-8317-9a27fec3cb91","sebastian-raschka-llm-architecture-gallery-zh","Sebastian Raschka 的 LLM 架構圖鑑","Raschka 的 LLM Architecture Gallery 把 GPT-2、Llama 3、OLMo 2、DeepSeek、Qwen 等模型的層數、注意力與 KV cache 數字攤開來比，工程師一眼就能看出部署差異。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775121663540-srg4.png","2026-04-02T07:27:33.561537+00:00",{"id":137,"slug":138,"title":139,"summary":140,"category":17,"image_url":141,"cover_image":141,"language":19,"created_at":142},"5624603c-1826-4d8d-a33f-d09427970c4f","universal-yoco-efficient-depth-scaling-zh","Universal YOCO 想把深度做大但不爆 cache","YOCO-U 把 recursive computation 和 efficient attention 結合，想在推理時拉高有效深度，同時壓住 KV cache 成長與額外開銷。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775115018263-aald.png","2026-04-02T06:06:26.736541+00:00",{"id":144,"slug":145,"title":146,"summary":147,"category":148,"image_url":149,"cover_image":149,"language":19,"created_at":150},"0dcc2c61-c2a6-480d-adb8-dd225fc68914","march-2026-ai-model-news-what-mattered-zh","2026 年 3 月 AI 模型新聞重點","2026 年 3 月的 AI 圈看起來很安靜，其實重點早就不在新模型。真正有料的是推論速度、KV cache 壓縮、Agent 權限控制，還有 OpenAI 內部重組。對開發者來說，這些變化比排行榜多 1 分更實際。","model-release","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1774516475683-ar4c.png","2026-03-26T07:32:08.386348+00:00"]