標籤

LLM serving

2 篇文章

AI 代理能幫忙做 LLM 服務嗎

VibeServe 在問一個很實際的問題：AI 代理能不能幫忙打造客製化的 LLM serving 系統。可惜目前提供的摘要筆記沒有公開 benchmark 細節。

Google Research 發表 TurboQuant，主打記憶體用量降到 1/6、推論快 8 倍，且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。