標籤
2 篇文章
VibeServe 在問一個很實際的問題:AI 代理能不能幫忙打造客製化的 LLM serving 系統。可惜目前提供的摘要筆記沒有公開 benchmark 細節。
Google Research 發表 TurboQuant,主打記憶體用量降到 1/6、推論快 8 倍,且在報告測試中沒有準確率損失。這篇看它怎麼改 AI 伺服器成本。