返回首頁

標籤

inference

Inference 指的是模型在部署後進行推理與生成的階段,牽涉延遲、吞吐量、GPU 排程、記憶體壓縮與成本控制。從 Kubernetes AI 控制平面到量化與 TensorRT-LLM,這是 AI 走向生產環境的核心層。

4 篇文章