返回首頁

標籤

TensorRT-LLM

TensorRT-LLM 是 NVIDIA 針對大型語言模型推論的最佳化框架,重點在降低延遲、提升吞吐量與硬體利用率。它常與 MLPerf、Blackwell/GB300、Dynamo 等軟體堆疊一起出現,反映 LLM 伺服器效能不只看晶片,也看編譯與排程。

2 篇文章