產業動態/5月9日
為什麼路由才是模型服務的真正瓶頸
模型服務的主要限制不是推理本身,而是路由決策;誰、何時、送到哪個模型與副本,才決定延遲、成本與穩定性。
技術研究/5月8日
UniPool:共享 MoE 專家池
UniPool 把 MoE 的分層專家改成全域共享池,減少重複參數,並在五個 LLaMA 規模模型上改善驗證損失。
產業動態/5月4日
為什麼 routing 應該放在 model serving 的中心
Routing 應該是 model serving 的單一入口,因為它能加快模型迭代,也能把服務層變成產品能力的一部分。