[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-llm-推理":3},{"tag":4,"articles":10},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":9},"f2e7dcf7-94c7-4373-bc58-71300b2877a8","LLM 推理","llm-推理",0,null,[11,20],{"id":12,"slug":13,"title":14,"summary":15,"category":16,"image_url":17,"cover_image":17,"language":18,"created_at":19},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","vLLM 首次大規模比較 TurboQuant 與 FP8 KV-cache。結果很直白：FP8 在速度上更穩，TurboQuant 的高壓縮版本則常掉準確率。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","zh","2026-05-15T10:10:36.034569+00:00",{"id":21,"slug":22,"title":23,"summary":24,"category":25,"image_url":26,"cover_image":26,"language":18,"created_at":27},"fe630502-5455-4001-a6bf-0643f9eb469d","gemma-4-assistant-models-faster-draft-tokens-zh","Gemma 4 助手模型加速草稿 Token","Gemma 4 的 E2B 與 E4B 助手模型用 centroid masking，把草稿 token 的 lm_head 計算量砍到約 45 倍，且品質損失很小。","tools","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778278246167-hskc.png","2026-05-08T22:10:33.309766+00:00"]