返回首頁

標籤

推論

推論指的是模型在部署後進行即時或批次預測的階段,重點不只在 GPU 算力,也在軟體堆疊、記憶體效率與延遲控制。像 MLPerf 成績、TensorRT-LLM、Dynamo 與伺服器級推論架構,都是這個主題的核心。

3 篇文章