NVIDIA 再刷 MLPerf 推論紀錄

OraCore Editors

返回首頁

[IND] 2026年4月2日8 分鐘閱讀OraCore 編輯部

NVIDIA 再刷 MLPerf 推論紀錄

NVIDIA 在 MLPerf Inference v6.0 再交出新成績，GB300 NVL72 對 DeepSeek-R1 伺服器推論提升 2.7x，Llama 3.1 405B 也提升 1.5x。

MLPerf DeepSeek-R1 Nvidia Blackwell Ultra 推論 vLLM AI伺服器 GB300 NVL72

分享 LinkedIn

NVIDIA 這次又來刷榜了。GB300 NVL72 在 MLPerf Inference v6.0 的 DeepSeek-R1 伺服器測試，官方說比前一版快了 2.7 倍。Llama 3.1 405B 也提升 1.5 倍。講白了，這種數字不是拿來拍簡報，是拿來算每個 Token 成本的。

這次更有意思的點，不是單一成績。MLPerf Inference v6.0 把題目加難了。它加入多模態、影片生成、互動推理，還有新的推薦系統測試。NVIDIA 這回幾乎全包。像 DeepSeek-R1、Qwen3-VL-235B-A22B、GPT-OSS-120B、WAN-2.2-T2V-A14B 都有參與。這代表它不是只會跑單一 LLM，而是整套推論堆疊都在拚。

你可能會想問，這跟一般開發者有什麼關係。答案很直接。訓練模型很燒錢，但推論才是上線後的日常。吞吐量高一點，伺服器就能多接幾個人。延遲低一點，產品體感就差很多。每秒多吐幾千個 Token，帳單差距也會很真實。

MLPerf v6.0 到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

MLPerf Inference 一直在改題目。這次不是小修小補，而是把很多真實場景拉進來。以前你可能只看文字分類、影像辨識。現在直接上多模態、影片、互動式 LLM，還有推薦系統。這些工作負載更接近生產環境，也更難作弊。

對硬體廠來說，這種變化很煩。因為你不能只靠某個模型的特化優化混過去。你得同時處理 prefill、decode、batching、記憶體搬移，還要顧到網路。說白了，這是整個系統在比，不是單顆 GPU 在比。

NVIDIA 這次說自己在新增項目上都拿到頂尖吞吐。這句話聽起來很像公關稿，但背後有工程味。因為新增工作負載越多，代表你的軟體堆疊越不能偏科。只會跑文字模型的時代，現在真的沒那麼好混了。

DeepSeek-R1 server：2,494,310 tokens/sec
GPT-OSS-120B server：1,096,770 tokens/sec
Qwen3-VL offline：79 samples/sec
DLRMv3 offline：104,637 samples/sec
GB300 NVL72 對 DeepSeek-R1 提升：2.77x

這些數字看起來很硬，但其實很好懂。伺服器吞吐越高，雲端業者越能把同一批機器切給更多客戶。對企業內部 AI 服務來說，則是同樣的機房空間，能跑更多查詢。這就是推論優化最現實的價值。

為什麼軟體會決定成績

很多人看到這種新聞，第一反應是「又是新 GPU 很強」。但老實說，這只對一半。NVIDIA 自己也很清楚，真正拉開差距的，常常是軟體。像 NVIDIA Dynamo、TensorRT-LLM、以及各種模型專用最佳化，才是把硬體榨乾的關鍵。

這次的優化手法很工程宅。像是 kernel fusion，可以減少啟動次數。attention 的資料排程調整，可以讓不同請求更平均地吃到算力。disaggregated serving 則把 prefill 和 decode 分開，讓兩段工作各自調參。這些名詞很硬，但效果很實際。

對 MoE 模型來說，Wide Expert Parallel、Multi-Token Prediction、KV-aware routing 也很重要。因為這類模型不是單純堆參數就好。它們的瓶頸常常在路由、記憶體、以及小 batch 互動延遲。只要其中一段卡住，整體體感就會爛掉。

“If you can make one thing 10 percent better, that’s great. If you can make 10 things 1 percent better, that’s much more powerful.” — Jensen Huang, NVIDIA GTC 2024 keynote

這句話拿來看這次結果，很貼切。NVIDIA 不是靠單一招式吃天下，而是把很多小優化疊起來。每個地方多賺一點，最後就變成很可怕的總和。這種作法很像在做系統工程，不像在賣夢。

我覺得這也提醒一件事。做 AI 產品的人，別只盯模型名字。真正影響成本的，還有 serving 架構、batch 策略、網路、KV cache 管理。模型本身很重要，但系統設計常常更誠實。

這次數字為什麼有參考價值

最有用的比較，是看同一套硬體前後差多少。NVIDIA 提到，GB300 NVL72 在 DeepSeek-R1 server 測試，從每 GPU 2,907 tokens/sec 拉到 8,064 tokens/sec。這不是小修小補，是非常明顯的提升。

Llama 3.1 405B 也有進步。server 模式從 170 tokens/sec/gpu 變成 259。offline 模式從 224 變成 271。這表示就算是比較老的 dense model，系統還是能挖出額外空間。這點對企業很重要，因為很多公司不會只跑最新模型。

再看系統層級，NVIDIA 說四套 GB300 NVL72 搭配 Quantum-X800 InfiniBand、共 288 顆 Blackwell Ultra GPU，拿下系統級吞吐紀錄。這種配置很像大型 AI 工廠的標配，不是一般實驗室玩具。

DeepSeek-R1 server：2,907 → 8,064 tokens/sec/gpu
DeepSeek-R1 offline：5,842 → 9,821 tokens/sec/gpu
Llama 3.1 405B server：170 → 259 tokens/sec/gpu
Llama 3.1 405B offline：224 → 271 tokens/sec/gpu
DeepSeek-R1 server 提升：2.77x
Llama 3.1 405B server 提升：1.52x

如果把這些數字翻成商業語言，就是同樣一組機器，能服務更多請求，或把相同流量壓到更少機器上。對雲端業者來說，這直接影響毛利。對自建機房的團隊來說，則是少買幾台伺服器的差別。

這也是為什麼 inference benchmark 不能只看峰值。你要看的是穩定輸出、互動延遲、以及系統整合後的結果。單點分數很漂亮，但如果上線後 cache 爆掉，照樣沒用。

競品和市場脈絡怎麼看

這波不是 NVIDIA 一家在玩。ASUS、Cisco、CoreWeave、Dell Technologies、Supermicro、Lenovo 都有在 NVIDIA 平台上提交結果。這代表整個生態系都在圍著推論效能轉。

這也解釋了為什麼 NVIDIA 會一直推開源工具。像 TensorRT-LLM、Dynamo，還有 vLLM，都不是單純的附加品。它們讓平台更像預設選項。對很多團隊來說，能少踩坑就是價值。

如果拿競品來看，AMD、Intel、甚至雲端自研晶片，現在都在拚推論效率。但現實是，生態完整度很難追。硬體是一層，編譯器是一層，serving 框架又是一層。少一層，整體就會很卡。

NVIDIA：強在 GPU、網路、軟體整套
AMD：硬體進步快，但軟體生態還在追
Intel：偏向 CPU 與部分加速方案
雲端自研晶片：成本漂亮，但可移植性較弱
vLLM：對開放生態很重要，已成常見 serving 選項

我自己的看法很直接。推論市場現在不是比誰會喊口號，而是比誰能把模型真的跑便宜、跑穩、跑快。MLPerf 的價值就在這裡。它至少逼大家面對同一套題目。

台灣團隊該看什麼

如果你是做 AI 產品、SaaS，或內部知識助理，這些數字不是遙遠新聞。它會直接影響你的雲端帳單。尤其是每天有大量互動請求的服務，Token 成本常常比你想像中更快爆。

台灣很多團隊現在卡在兩個問題。第一是模型選得太大。第二是 serving 沒有認真調。其實不少場景不需要最強模型，只需要夠穩、夠快、夠便宜。這時候推論系統的優化，比換更大模型還實際。

所以這篇新聞的重點，不只是 NVIDIA 又拿了幾個紀錄，而是它把推論當成長期戰場在打。對開發者來說，該學的不是怎麼背 benchmark，而是怎麼看懂 throughput、latency、batch、KV cache、以及網路瓶頸。

結尾：真正該追的不是榜單，是成本

我覺得接下來 12 個月，推論競爭會更像系統戰。模型會繼續長大，但能不能便宜跑、穩定跑，會更重要。你如果在選平台，別只看峰值數字。請直接問供應商：每百萬 Token 成本多少，互動延遲多少，滿載時掉多少。

如果你是工程團隊，現在就可以做一件事。把你們最常見的 3 種請求拿出來測。看 prefill、decode、batch size、以及 cache 命中率。很多時候，優化 20% 不是換硬體，而是把 serving 調對。這種事很土，但很有效。

// 相關文章

NVIDIA 再刷 MLPerf 推論紀錄

MLPerf v6.0 到底改了什麼

訂閱 AI 趨勢週報

為什麼軟體會決定成績

這次數字為什麼有參考價值

競品和市場脈絡怎麼看

台灣團隊該看什麼

結尾：真正該追的不是榜單，是成本

IREN 綁上 Nvidia AI 基建

Circle 推出 Agent Stack 做 AI 付款

為什麼 Nebius 的 AI 轉型比炒作更真實

Nvidia 出資 Corning 工廠擴產

為什麼 Anthropic 和 Gates Foundation 應該投資 A…

為什麼可觀測性是雲原生系統的生存條件