標籤

推論

推論指的是模型在部署後進行即時或批次預測的階段，重點不只在 GPU 算力，也在軟體堆疊、記憶體效率與延遲控制。像 MLPerf 成績、TensorRT-LLM、Dynamo 與伺服器級推論架構，都是這個主題的核心。

4 篇文章

為什麼 KV-cache 壓縮會決定邊緣 AI 推論

我認為邊緣 AI 推論的勝負，不會先由算力決定，而是由 KV-cache 壓縮這個記憶體瓶頸決定。

Nvidia 在 MLPerf v6.0 交出最高 2.77x 推論提升。GB300 NVL72 的成績顯示，Dynamo、TensorRT-LLM 這類軟體優化，已經和 GPU 硬體同樣重要。

NVIDIA 在 MLPerf Inference v6.0 再交出新成績，GB300 NVL72 對 DeepSeek-R1 伺服器推論提升 2.7x，Llama 3.1 405B 也提升 1.5x。

NVIDIA 在 GTC 2026 一口氣端出 1,000 場 session、2,000 位講者，還把 AI 工廠、推論基礎設施、Agent 平台與實體 AI 全部綁成一套銷售方案。這場大會重點不是單一 GPU，而是從晶片到軟體的整包系統。