[IND] 6 分鐘閱讀OraCore 編輯部

NVIDIA B300 對 H200:DeepSeek 實…

B300 有 288GB HBM3e 和 8TB/s 頻寬。這篇直接比 H200,拆解 DeepSeek 推論、KV cache、雲端成本與部署取捨。

分享 LinkedIn
NVIDIA B300 對 H200:DeepSeek 實…

NVIDIA 的 B300 很兇。它有 288GB HBM3e,頻寬到 8TB/s。這兩個數字,對 LLM 推論很有感。

講白了,模型能不能塞進一張卡。KV cache 能不能撐住。這些都會直接影響延遲。尤其是跑 DeepSeek 這種重推理工作負載時,差距很明顯。

所以 H200 跟 B300 的比較,不只是規格表比大小。它其實是在問你:你要的是便宜、夠用,還是一次把記憶體瓶頸拉高很多。

B300 到底改了什麼

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

B300 屬於 Blackwell Ultra。NVIDIA 給的重點很直白。288GB HBM3e。8TB/s 頻寬。還有面向推論的設計方向。

NVIDIA B300 對 H200:DeepSeek 實…

這種卡最有感的地方,不是單純 FLOPS。是它讓模型和 cache 更容易待在同一張 GPU 上。少一點搬來搬去,延遲就比較不會亂跳。

如果你只看算力,會看錯重點。現在很多 LLM 服務,卡住的不是算不算得動。卡住的是記憶體夠不夠。這就是 B300 比 H200 更兇的地方。

  • B300:288GB HBM3e
  • H200:141GB HBM3e
  • H100:80GB HBM3e
  • B300:8TB/s 頻寬
  • H200:4.8TB/s 頻寬

你可以把它想成更大的工作桌。桌面夠大,文件才不會一直堆到地上。對推論服務來說,這很重要。

H200 還能打嗎

可以。H200 不是過氣貨。它還是很強,尤其是大模型推論。141GB HBM3e 對很多 70B 級別模型來說,已經很夠用。

但 B300 的打法更狠。它直接把記憶體容量拉到接近兩倍。對長上下文、多人同時打 API、或是重度 KV cache 的場景,這差很多。

我覺得這裡最該看的是部署成本,而不是只看單卡價格。因為如果一張 B300 能少拆幾張卡,整體機櫃、網路、維運都會跟著變簡單。

“The pace of innovation in AI is accelerating, and the demand for compute is insatiable.” — Jensen Huang

這句話很適合拿來看 B300。不是每次升級都要追求更高峰值。很多時候,能不能把模型穩穩跑完,才是重點。

H200 的優勢是成熟、便宜一點、部署壓力小。B300 的優勢是更大記憶體和更高頻寬。兩者不是同一種打法。

DeepSeek 推論,為什麼記憶體先贏

DeepSeek 的推理模型很吃 KV cache。上下文一長,cache 就膨脹。這時候,算力還沒先爆,記憶體先滿了。

NVIDIA B300 對 H200:DeepSeek 實…

這也是為什麼 288GB 會很有感。你可以放更大的 batch。你可以留更長的 context。你也比較不需要一直做 cache eviction。

vLLM 對 Blackwell Ultra 的測試,對 DeepSeek-V3.2 和 DeepSeek-R1 都有不錯結果。重點不是某一個數字神到不行。重點是它證明 B300 這類卡,真的能扛住大模型推論。

  • DeepSeek-V3.2 prefill-only:7,360 TGS
  • DeepSeek-V3.2 mixed context:2,816 TGS
  • DeepSeek-R1 prefill-only:22,476 TGS
  • DeepSeek-R1 mixed context:3,072 TGS
  • NVFP4 + TP2 在部分測試中,mixed-context 最高提升到 8 倍

這些數字對聊天機器人、程式助理、企業知識庫都很實際。因為使用者最在意的,常常不是峰值吞吐。是卡不卡、等多久、會不會突然變慢。

說真的,很多推論系統不是輸在模型。是輸在記憶體配置太小,最後只能硬切 batch 或縮短上下文。

B300 和雲端 GPU 怎麼比

如果你自己蓋機房,B300 不是隨便插上去就能用。它大約 1,400W。這代表散熱、供電、機櫃設計都要跟上。

所以很多團隊會直接租。像 DigitalOcean GPU Droplets 已經在規劃 B300。AWS P6 也有 B300 系列。

這時候不要只看每小時單價。要看每個 token 的成本。卡越快,完成同樣工作所花的時間越少。這會直接影響總成本。

  • H100 SXM,Llama 70B 約 21,800 tok/s
  • H200 SXM,Llama 70B 約 31,700 tok/s
  • B300 FP8,Llama 70B 100,000+ tok/s
  • B300 FP4,Llama 70B 150,000+ tok/s
  • AWS P6 cited 價格約 $11.70 / GPU-hour

如果你的 SLA 很硬,B300 可能反而比較划算。因為你用更少的 GPU,就能撐住同樣流量。這種情況下,便宜單價不一定最省錢。

另外,網路也不能忽略。雲端部署常提到 25Gbps 機器對機器網路,還有 10Gbps 對外頻寬。對分散式推論來說,這已經比很多人想像中重要。

誰該買 B300,誰先別急

如果你的工作負載已經很吃記憶體,那 B300 很合理。像長上下文文件系統、重推理模型、多人同時打 API 的服務,都很適合。

如果你還在試模型,H200 可能更實際。它便宜一點,散熱壓力小一點,部署門檻也低一點。很多團隊其實還沒碰到 B300 的甜蜜點。

我自己的看法很直接。你如果已經在跑 DeepSeek-R1、70B 級模型,還一直被 KV cache 卡住,那就該認真看 B300。反過來說,若你現在的瓶頸是產品還沒做對,換卡也救不了。

  • B300:適合長上下文與高併發
  • H200:適合較低成本的大模型服務
  • H100:適合較小規模或舊堆疊
  • 雲端租用:適合不想碰液冷與供電設計

軟體堆疊也要一起看。CUDA 12.x、cuDNN 9.x、TensorRT-LLM 0.15+ 這些都很重要。硬體再強,軟體沒跟上,效果就會打折。

背景補充:這波 GPU 為什麼都在拼記憶體

以前大家比的是算力。現在越來越像在比誰的記憶體更大、頻寬更高。原因很簡單。LLM 服務已經不是單次推理而已。

現在的主流場景是多輪對話、長文件摘要、程式碼生成、企業內部問答。這些工作都會把 cache 撐大。當 cache 變成主角,GPU 的記憶體規格就變得很關鍵。

這也是為什麼 B300 這種卡會被放大檢視。它不是只給 benchmark 看。它是給真正要長時間跑服務的團隊看。

H200 仍然很能打。只是它比較像成熟解。B300 比較像你已經把規模拉上去之後,才會真的需要的解法。

結論:先看你的瓶頸,再決定買哪張

如果你的瓶頸是記憶體,B300 很值得看。288GB HBM3e 不是小數字。它會直接改變你怎麼切模型、怎麼配 batch、怎麼留 cache。

如果你的瓶頸還在模型品質、資料整理、產品設計,那先別急著升級。GPU 很貴。買錯卡,只會讓帳單更好看,效果沒變。

我會建議先做一輪 profiling。看你的 DeepSeek 工作負載,到底是算力吃緊,還是記憶體先滿。這個答案,會直接決定你要 H200,還是 B300。