[IND] 8 分鐘閱讀OraCore 編輯部

NVIDIA 再刷 MLPerf 推論紀錄

NVIDIA 在 MLPerf Inference v6.0 再交出新成績,GB300 NVL72 對 DeepSeek-R1 伺服器推論提升 2.7x,Llama 3.1 405B 也提升 1.5x。

分享 LinkedIn
NVIDIA 再刷 MLPerf 推論紀錄

NVIDIA 這次又來刷榜了。GB300 NVL72 在 MLPerf Inference v6.0 的 DeepSeek-R1 伺服器測試,官方說比前一版快了 2.7 倍。Llama 3.1 405B 也提升 1.5 倍。講白了,這種數字不是拿來拍簡報,是拿來算每個 Token 成本的。

這次更有意思的點,不是單一成績。MLPerf Inference v6.0 把題目加難了。它加入多模態、影片生成、互動推理,還有新的推薦系統測試。NVIDIA 這回幾乎全包。像 DeepSeek-R1Qwen3-VL-235B-A22BGPT-OSS-120BWAN-2.2-T2V-A14B 都有參與。這代表它不是只會跑單一 LLM,而是整套推論堆疊都在拚。

你可能會想問,這跟一般開發者有什麼關係。答案很直接。訓練模型很燒錢,但推論才是上線後的日常。吞吐量高一點,伺服器就能多接幾個人。延遲低一點,產品體感就差很多。每秒多吐幾千個 Token,帳單差距也會很真實。

MLPerf v6.0 到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

MLPerf Inference 一直在改題目。這次不是小修小補,而是把很多真實場景拉進來。以前你可能只看文字分類、影像辨識。現在直接上多模態、影片、互動式 LLM,還有推薦系統。這些工作負載更接近生產環境,也更難作弊。

NVIDIA 再刷 MLPerf 推論紀錄

對硬體廠來說,這種變化很煩。因為你不能只靠某個模型的特化優化混過去。你得同時處理 prefill、decode、batching、記憶體搬移,還要顧到網路。說白了,這是整個系統在比,不是單顆 GPU 在比。

NVIDIA 這次說自己在新增項目上都拿到頂尖吞吐。這句話聽起來很像公關稿,但背後有工程味。因為新增工作負載越多,代表你的軟體堆疊越不能偏科。只會跑文字模型的時代,現在真的沒那麼好混了。

  • DeepSeek-R1 server:2,494,310 tokens/sec
  • GPT-OSS-120B server:1,096,770 tokens/sec
  • Qwen3-VL offline:79 samples/sec
  • DLRMv3 offline:104,637 samples/sec
  • GB300 NVL72 對 DeepSeek-R1 提升:2.77x

這些數字看起來很硬,但其實很好懂。伺服器吞吐越高,雲端業者越能把同一批機器切給更多客戶。對企業內部 AI 服務來說,則是同樣的機房空間,能跑更多查詢。這就是推論優化最現實的價值。

為什麼軟體會決定成績

很多人看到這種新聞,第一反應是「又是新 GPU 很強」。但老實說,這只對一半。NVIDIA 自己也很清楚,真正拉開差距的,常常是軟體。像 NVIDIA Dynamo、TensorRT-LLM、以及各種模型專用最佳化,才是把硬體榨乾的關鍵。

這次的優化手法很工程宅。像是 kernel fusion,可以減少啟動次數。attention 的資料排程調整,可以讓不同請求更平均地吃到算力。disaggregated serving 則把 prefill 和 decode 分開,讓兩段工作各自調參。這些名詞很硬,但效果很實際。

對 MoE 模型來說,Wide Expert Parallel、Multi-Token Prediction、KV-aware routing 也很重要。因為這類模型不是單純堆參數就好。它們的瓶頸常常在路由、記憶體、以及小 batch 互動延遲。只要其中一段卡住,整體體感就會爛掉。

“If you can make one thing 10 percent better, that’s great. If you can make 10 things 1 percent better, that’s much more powerful.” — Jensen Huang, NVIDIA GTC 2024 keynote

這句話拿來看這次結果,很貼切。NVIDIA 不是靠單一招式吃天下,而是把很多小優化疊起來。每個地方多賺一點,最後就變成很可怕的總和。這種作法很像在做系統工程,不像在賣夢。

我覺得這也提醒一件事。做 AI 產品的人,別只盯模型名字。真正影響成本的,還有 serving 架構、batch 策略、網路、KV cache 管理。模型本身很重要,但系統設計常常更誠實。

這次數字為什麼有參考價值

最有用的比較,是看同一套硬體前後差多少。NVIDIA 提到,GB300 NVL72 在 DeepSeek-R1 server 測試,從每 GPU 2,907 tokens/sec 拉到 8,064 tokens/sec。這不是小修小補,是非常明顯的提升。

NVIDIA 再刷 MLPerf 推論紀錄

Llama 3.1 405B 也有進步。server 模式從 170 tokens/sec/gpu 變成 259。offline 模式從 224 變成 271。這表示就算是比較老的 dense model,系統還是能挖出額外空間。這點對企業很重要,因為很多公司不會只跑最新模型。

再看系統層級,NVIDIA 說四套 GB300 NVL72 搭配 Quantum-X800 InfiniBand、共 288 顆 Blackwell Ultra GPU,拿下系統級吞吐紀錄。這種配置很像大型 AI 工廠的標配,不是一般實驗室玩具。

  • DeepSeek-R1 server:2,907 → 8,064 tokens/sec/gpu
  • DeepSeek-R1 offline:5,842 → 9,821 tokens/sec/gpu
  • Llama 3.1 405B server:170 → 259 tokens/sec/gpu
  • Llama 3.1 405B offline:224 → 271 tokens/sec/gpu
  • DeepSeek-R1 server 提升:2.77x
  • Llama 3.1 405B server 提升:1.52x

如果把這些數字翻成商業語言,就是同樣一組機器,能服務更多請求,或把相同流量壓到更少機器上。對雲端業者來說,這直接影響毛利。對自建機房的團隊來說,則是少買幾台伺服器的差別。

這也是為什麼 inference benchmark 不能只看峰值。你要看的是穩定輸出、互動延遲、以及系統整合後的結果。單點分數很漂亮,但如果上線後 cache 爆掉,照樣沒用。

競品和市場脈絡怎麼看

這波不是 NVIDIA 一家在玩。ASUSCiscoCoreWeaveDell TechnologiesSupermicroLenovo 都有在 NVIDIA 平台上提交結果。這代表整個生態系都在圍著推論效能轉。

這也解釋了為什麼 NVIDIA 會一直推開源工具。像 TensorRT-LLM、Dynamo,還有 vLLM,都不是單純的附加品。它們讓平台更像預設選項。對很多團隊來說,能少踩坑就是價值。

如果拿競品來看,AMD、Intel、甚至雲端自研晶片,現在都在拚推論效率。但現實是,生態完整度很難追。硬體是一層,編譯器是一層,serving 框架又是一層。少一層,整體就會很卡。

  • NVIDIA:強在 GPU、網路、軟體整套
  • AMD:硬體進步快,但軟體生態還在追
  • Intel:偏向 CPU 與部分加速方案
  • 雲端自研晶片:成本漂亮,但可移植性較弱
  • vLLM:對開放生態很重要,已成常見 serving 選項

我自己的看法很直接。推論市場現在不是比誰會喊口號,而是比誰能把模型真的跑便宜、跑穩、跑快。MLPerf 的價值就在這裡。它至少逼大家面對同一套題目。

台灣團隊該看什麼

如果你是做 AI 產品、SaaS,或內部知識助理,這些數字不是遙遠新聞。它會直接影響你的雲端帳單。尤其是每天有大量互動請求的服務,Token 成本常常比你想像中更快爆。

台灣很多團隊現在卡在兩個問題。第一是模型選得太大。第二是 serving 沒有認真調。其實不少場景不需要最強模型,只需要夠穩、夠快、夠便宜。這時候推論系統的優化,比換更大模型還實際。

所以這篇新聞的重點,不只是 NVIDIA 又拿了幾個紀錄,而是它把推論當成長期戰場在打。對開發者來說,該學的不是怎麼背 benchmark,而是怎麼看懂 throughput、latency、batch、KV cache、以及網路瓶頸。

結尾:真正該追的不是榜單,是成本

我覺得接下來 12 個月,推論競爭會更像系統戰。模型會繼續長大,但能不能便宜跑、穩定跑,會更重要。你如果在選平台,別只看峰值數字。請直接問供應商:每百萬 Token 成本多少,互動延遲多少,滿載時掉多少。

如果你是工程團隊,現在就可以做一件事。把你們最常見的 3 種請求拿出來測。看 prefill、decode、batch size、以及 cache 命中率。很多時候,優化 20% 不是換硬體,而是把 serving 調對。這種事很土,但很有效。