標籤
LLM 推論聚焦模型在部署時的延遲、吞吐量與記憶體成本,尤其是 KV cache、量化與加速器友善的實作。這類技術直接影響大模型能否在雲端與邊緣裝置上穩定運行。
3 篇文章
這篇論文用「預測輸出長度」來改善黑箱 LLM 推論排程,想在看不到模型內部的情況下,減少排隊摩擦、提升大規模服務效率。
SAGA 主張 GPU 排程不該把 AI agent 的每次 LLM 呼叫拆開看,而是要把一連串請求當成同一個工作流來排。
SpecKV 把推測解碼的 token 預算改成逐步自動調整,利用 draft 模型訊號在不同壓縮設定下挑出更合適的 gamma。