標籤

LLM inference

LLM 推論聚焦模型在部署時的延遲、吞吐量與記憶體成本，尤其是 KV cache、量化與加速器友善的實作。這類技術直接影響大模型能否在雲端與邊緣裝置上穩定運行。

3 篇文章

黑箱 LLM 排程更聰明了

技術研究/5月14日

黑箱 LLM 排程更聰明了

這篇論文用「預測輸出長度」來改善黑箱 LLM 推論排程，想在看不到模型內部的情況下，減少排隊摩擦、提升大規模服務效率。

SAGA 讓 AI Agent 排程看懂工作流

技術研究/5月12日

SAGA 讓 AI Agent 排程看懂工作流

SAGA 主張 GPU 排程不該把 AI agent 的每次 LLM 呼叫拆開看，而是要把一連串請求當成同一個工作流來排。

SpecKV 讓推測解碼自動調 gamma

技術研究/5月5日

SpecKV 讓推測解碼自動調 gamma

SpecKV 把推測解碼的 token 預算改成逐步自動調整，利用 draft 模型訊號在不同壓縮設定下挑出更合適的 gamma。