返回首頁

標籤

LLM inference

LLM 推論聚焦模型在部署時的延遲、吞吐量與記憶體成本,尤其是 KV cache、量化與加速器友善的實作。這類技術直接影響大模型能否在雲端與邊緣裝置上穩定運行。

3 篇文章