Nvidia MLPerf 成績證明軟體還很重要

OraCore Editors

返回首頁

[RSCH] 2026年4月3日7 分鐘閱讀OraCore 編輯部

Nvidia MLPerf 成績證明軟體還很重要

Nvidia 在 MLPerf v6.0 交出最高 2.77x 推論提升。GB300 NVL72 的成績顯示，Dynamo、TensorRT-LLM 這類軟體優化，已經和 GPU 硬體同樣重要。

MLPerf token 成本 Dynamo Nvidia 推論 GB300 NVL72 TensorRT-LLM AI 伺服器

分享 LinkedIn

Nvidia 又在講同一套。不是只賣 GPU，而是賣整套 AI 平台。這次在 GTC 和 MLPerf Inference 的新成績，把這句話講得很直白。

最吸睛的是數字。Nvidia 說 GB300 NVL72 在 DeepSeek-R1 server 測試上，最高比前一輪提升 2.77 倍。互動式 DeepSeek-R1 也跑到每秒 250,634 tokens，成本是每百萬 tokens 0.30 美元。講白了，這就是雲端和企業會拿來算帳的數字。

這次最有意思的地方，不是晶片多快，而是軟體真的扛了很多功。硬體、模型、排程、kernel 優化一起動，才把推論效率拉上去。這件事對台灣開發者也很有感，因為大家常常只盯著 GPU 規格，卻忘了軟體堆疊才是最後一哩路。

MLPerf v6.0 比舊版更像今天的 AI 流量

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

MLCommons 這次更新 MLPerf Inference v6.0，重點放在推論、推理型模型，還有多模態工作負載。這很合理，因為 2026 年的 AI 伺服器，早就不是只跑單純 chatbot 了。

現在的流量更雜。有人在問答，有人在寫程式，有人在丟圖丟影片。每一種請求，都會影響 token 產生速度、首次回應時間，還有記憶體配置。舊版 benchmark 很容易把這些差異壓平，結果看起來漂亮，實際上不準。

Nvidia 產品主管 Dave Salvatore 的說法很直接。MLCommons 更新了測試項目，像是 DeepSeek-R1 Interactive、GPT-OSS-120B、Qwen3-VL-235B-A22B。這些都不是玩具模型。它們會把延遲、吞吐量、記憶體壓力一起拉高，逼系統露出真本事。

DeepSeek-R1 Interactive 看 token 生成速度和首 token 時間。
GPT-OSS-120B 是 MoE 推理模型。
Qwen3-VL-235B-A22B 測多模態視覺語言能力。
v6.0 同時涵蓋 offline、server、interactive。

這種設計比較貼近真實世界。因為實際上，API 服務不會只跑一種模式。白天可能是低延遲互動，晚上可能是批次摘要，隔天又變成多模態查詢。你要的是整體效率，不是單一漂亮分數。

我覺得這也反映一個現實。訓練很重要，但真正燒錢的是推論。只要模型開始大規模上線，伺服器、網路、記憶體、排程都會變成成本黑洞。MLPerf v6.0 其實就是把這件事攤開來看。

Nvidia 的軟體堆疊真的有料

Nvidia 這次最想講的，不是單顆 GPU 多猛，而是整套軟體怎麼把硬體吃乾抹淨。它提到 Dynamo、TensorRT-LLM，還有 CUDA 層級的優化。這些名字聽起來很工程，但成績單會說話。

Dynamo 是分散式推論框架。核心概念是把 prefill 和 decode 拆開，丟到不同 GPU 上做。這樣做的好處很實際。prefill 吃計算，decode 吃延遲敏感度，混在一起常常會把資源用歪。

TensorRT-LLM 則是另一層加速。它會用平行化、multi-token prediction，還有 kernel fusion。簡單講，就是少跑一些不必要的步驟，讓 GPU 少空轉。這種優化不會出現在行銷海報上，但很常出現在 benchmark 成績裡。

“Increases in token generation or increases in performance basically generate more revenue, they reduce costs, they get you more value from the same infrastructure,” Salvatore said.

這句話很實在。token 吞吐量上去，代表同樣一組伺服器可以接更多請求。對雲端商和企業來說，這不是學術問題，是帳單問題。每少花一點推論成本，都是直接省錢。

另外，Nvidia 也提到它和 SGLang、FlashAttention 這類開源推論工具有合作。這點很重要。因為現在開發者不愛封閉黑盒，大家想要的是可調、可改、可整合的工具鏈。

講白了，Nvidia 不是只想賣硬體。它想讓你覺得，選 Nvidia 就等於選了一整套可以直接上線的推論堆疊。這種打法很聰明，也很現實。

數字成長快，競爭也更兇

這次最硬的比較，還是成績本身。Nvidia 說 GB300 NVL72 在 MLPerf v6.0，相較 v5.1，Llama 3.1 405B offline 提升 1.21 倍，DeepSeek-R1 server 提升 2.77 倍。對一個已經站在高階市場的系統來說，這不是小修小補。

再看互動式成績。DeepSeek-R1 Interactive 跑到每秒 250,634 tokens，成本是每百萬 tokens 0.30 美元。這種數字很適合拿來跟雲端報價對照。你不一定會買同一套系統，但你一定會拿這些數字去問供應商。

更有意思的是，這不是只有 Nvidia 自己在玩。這次有 14 個合作夥伴提交結果，像 Dell Technologies、HPE，還有 Google Cloud。這代表優化不是只存在實驗室，而是能落到不同供應商的系統上。

DeepSeek-R1 server：2.77 倍提升。
Llama 3.1 405B offline：1.21 倍提升。
DeepSeek-R1 Interactive：250,634 tokens/s。
DeepSeek-R1 Interactive：0.30 美元 / 百萬 tokens。

如果拿競品來看，AMD Instinct 走的是另一條路，主打性價比和開放生態；Intel Gaudi 則一直強調推論成本。Nvidia 的優勢，現在不只是硬體快，而是軟體整合成熟。這會讓它在企業採購上很難被輕易替代。

但我也不會把話說滿。benchmark 很會說故事，可是真實流量更亂。實際上線後，模型版本、prompt 長度、上下文窗口、快取命中率，都會影響結果。也就是說，成績漂亮，不代表每個客戶都能複製。

這背後是整個 AI 伺服器市場的變化

過去大家買 AI 伺服器，常常先看 GPU 數量。現在不行了。因為模型越來越大，推論成本也越來越敏感。你有再多卡，如果排程、通訊、記憶體配置做不好，最後還是會卡住。

這也是為什麼 Nvidia 一直強調 co-design。硬體、軟體、模型一起設計，才有辦法把 token 成本壓下來。這個邏輯對雲端業者、SaaS 團隊、企業內部 AI 平台都一樣。大家都在算一件事：每百萬 tokens 到底要花多少錢。

從產業脈絡看，推論已經變成主戰場。訓練是一次性大工程，推論卻是每天都在燒錢。只要 AI 助理、程式碼代理、檢索增強生成、企業知識庫繼續擴張，推論基礎設施就會持續吃掉預算。

所以這次 MLPerf 的意義，不只是 Nvidia 成績好看。它還提醒大家，軟體優化仍然很值錢。對台灣開發團隊來說，這也很實際。你未必買得起最頂的卡，但你可以先把 batching、quantization、speculative decoding、cache 管好，先把成本打下來。

結論很簡單：別只看晶片

如果你在看 2026 年的 AI 基礎設施，我的建議很直接。不要只問 GPU 幾張。你要問的是，prefill 和 decode 怎麼拆，TensorRT-LLM 有沒有上，Dynamo 能不能接，還有整套軟體堆疊怎麼把 token 成本壓低。

Nvidia 這次的 MLPerf 成績，最重要的訊息不是 2.77 倍，而是它再次證明：在 AI 伺服器市場，軟體還是很值錢。接下來，真正會贏的供應商，不一定是晶片最猛的那家，而是能把每個 token 算得最便宜的那家。

問題來了。你現在評估 AI 平台時，看的還是峰值算力嗎？還是已經開始看每百萬 tokens 成本了？

// 相關文章

Nvidia MLPerf 成績證明軟體還很重要

MLPerf v6.0 比舊版更像今天的 AI 流量

訂閱 AI 趨勢週報

Nvidia 的軟體堆疊真的有料

數字成長快，競爭也更兇

這背後是整個 AI 伺服器市場的變化

結論很簡單：別只看晶片

TurboQuant 與小站 SEO 變化

TurboQuant 與 FP8 實測結果

LLMbda 演算替 AI 代理人立安全規則

更簡單的毫米波波束域去噪器

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 Linux 安全需要「補丁浪潮」思維