NVIDIA Blackwell Ultra在全新MLPerf Inference基準測試中樹立新標竿
推論效能至關重要,因為它會直接影響人工智慧(AI)工廠的經濟效益。AI工廠基礎設施的輸送量越高,就能以高速產生更多詞元(token),進而提高營收、降低總擁有成本(TCO),並提升整體系統的生產力。
採用NVIDIA Blackwell Ultra架構的NVIDIA GB300 NVL72機架規模系統,在NVIDIA GTC大會首度亮相至今不到半年後,已在MLPerf Inference v5.1的全新推理(reasoning)推論基準上創下紀錄,與採用NVIDIA Blackwell架構的GB200 NVL72系統相比,DeepSeek-R1推論的輸送量最高可達1.4倍。
Blackwell Ultra建立在Blackwell架構的成功之上。Blackwell Ultra架構提供與Blackwell相比1.5倍的NVFP4 AI運算與2倍的attention-layer加速,且每顆GPU可配備最高288GB的HBM3e記憶體。
NVIDIA平台也在MLPerf Inference v5.1套件新增的所有資料中心基準上創下效能紀錄,包含DeepSeek-R1、Llama 3.1 405B Interactive、Llama 3.1 8B與Whisper,同時持續維持每顆GPU在每項MLPerf資料中心基準中的紀錄。
全端整合
全端共同設計在交出這些最新基準成績時扮演重要角色。Blackwell與Blackwell Ultra導入對NVFP4資料格式的硬體加速。NVFP4是NVIDIA設計的4位元浮點格式,相較於其他FP4格式提供更佳準確度,也可達到與較高精度格式相當的準確度。
NVIDIA TensorRT Model Optimizer軟體將DeepSeek-R1、Llama 3.1 405B、Llama 2 70B與Llama 3.1 8B量化為NVFP4。搭配開源的NVIDIA TensorRT-LLM程式庫,這項最佳化使Blackwell與Blackwell Ultra在提交成績時能在滿足嚴格準確度要求的同時提供更高效能。
大型語言模型的推論由兩種執行特性截然不同的工作負載組成。這包括用於處理使用者輸入以產生第一個輸出詞元的情境(context),以及用於產生其後的所有輸出詞元的生成(generation)。
一種稱為「分離式服務(disaggregated serving)」的技術,會將情境與生成任務拆分,使每一部分都能獨立最佳化以達到最佳整體輸送量。這項技術是Llama 3.1 405B Interactive基準創下紀錄的關鍵之一。
相較於在NVIDIA DGX B200伺服器上以傳統服務架構執行該基準時每顆Blackwell GPU的表現,GB200 NVL72系統的每顆GPU效能提升將近50%。NVIDIA也在本輪基準測試首度使用NVIDIA Dynamo推論框架提交成績。
NVIDIA的合作夥伴,包括雲端服務供應商與伺服器製造商,提交了採用NVIDIA Blackwell與(或)Hopper平台所展現的亮眼成績。這些夥伴包含Azure、Broadcom、Cisco、CoreWeave、Dell Technologies、技鋼科技、HPE、Lambda、Lenovo、Nebius、Oracle、雲達科技、Supermicro及University of Florida。
在NVIDIA AI平台上領先市場的推論效能,現已由主要雲端服務供應商與伺服器製造商提供。這為部署進階AI應用的組織帶來更低的總擁有成本與更高的投資報酬。
若想進一步了解這些全端技術,請閱讀NVIDIA技術部落格關於MLPerf Inference v5.1的文章。也歡迎造訪NVIDIA DGX Cloud Performance Explorer,以深入認識NVIDIA的效能與模型總擁有成本,並產生客製化報告。