標籤
TensorRT-LLM
TensorRT-LLM 是 NVIDIA 針對大型語言模型推論的最佳化框架,重點在降低延遲、提升吞吐量與硬體利用率。它常與 MLPerf、Blackwell/GB300、Dynamo 等軟體堆疊一起出現,反映 LLM 伺服器效能不只看晶片,也看編譯與排程。
2 篇文章
標籤
TensorRT-LLM 是 NVIDIA 針對大型語言模型推論的最佳化框架,重點在降低延遲、提升吞吐量與硬體利用率。它常與 MLPerf、Blackwell/GB300、Dynamo 等軟體堆疊一起出現,反映 LLM 伺服器效能不只看晶片,也看編譯與排程。
2 篇文章