返回首頁

標籤

vLLM

vLLM 是面向大型語言模型的高吞吐推理引擎,重點在 PagedAttention、KV cache 管理與連續批次處理,讓 GPU 更有效率地服務聊天、RAG、批次生成與多模型部署。

7 篇文章