[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tag-llm-serving":3},{"tag":4,"articles":10},{"id":5,"name":6,"slug":7,"article_count":8,"description_zh":9,"description_en":9},"51d31902-322b-487e-9e8a-f729274929ba","LLM serving","llm-serving",1,null,[11,20],{"id":12,"slug":13,"title":14,"summary":15,"category":16,"image_url":17,"cover_image":17,"language":18,"created_at":19},"cfe8e65f-3609-4e82-82ad-4df68235777d","vibeserve-ai-agents-bespoke-llm-serving-zh","AI 代理能幫忙做 LLM 服務嗎","VibeServe 在問一個很實際的問題：AI 代理能不能幫忙打造客製化的 LLM serving 系統。可惜目前提供的摘要筆記沒有公開 benchmark 細節。","research","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778566248959-kmoi.png","zh","2026-05-12T06:10:27.266573+00:00",{"id":21,"slug":22,"title":23,"summary":24,"category":16,"image_url":25,"cover_image":25,"language":18,"created_at":26},"82766fdc-4368-445d-bb4a-03377726df02","turboquant-cuts-memory-use-without-accuracy-loss-zh","TurboQuant 省 6 倍記憶體，還不掉準確率","Google Research 發表 TurboQuant，主打記憶體用量降到 1\u002F6、推論快 8 倍，且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775161134112-ftrj.png","2026-04-02T20:18:39.266389+00:00"]