Hot Chips大會:各種規模的推論、網路與AI創新 全都建構於NVIDIA技術之上
人工智慧(AI)推理、推論及網路技術將是Hot Chips大會的焦點議題。8月24至26日在史丹佛大學舉辦的Hot Chips大會,是產業與學術界處理器與系統架構人員的重要論壇活動,展示推動AI工廠發展及驅動上兆美元等級資料中心運算市場的最新創新技術。
在這場盛會上,NVIDIA與Google、微軟等產業領袖一同參與8月24日舉行的「教學(tutorial)」活動,探討資料中心的機架級架構設計。
此外,NVIDIA專家團隊還將在四場演講及一場教學活動詳細說明:包括NVIDIA ConnectX-8 SuperNIC在內的NVIDIA網路技術,如何在機架與資料中心規模下實現AI推理(由NVIDIA網路介面卡與系統單晶片首席架構師Idan Burstein主講)。
由包括NVIDIA GeForce RTX 5090 GPU在內的NVIDIA Blackwell架構所帶動的神經渲染技術進步與推理效能大幅躍進,將繪圖與模擬能力提升到全新高度(由NVIDIA架構資深總監Marc Blackstein主講)。
整合矽光子技術的共同封裝光學(CPO)交換器以光纖取代傳統銅線,資料傳輸的速度更快、能源消耗也更少,可實現建置高效率、高效能、千兆瓦規模的AI工廠。
本場演講也將介紹NVIDIA Spectrum-XGS 乙太網路技術,這是一項全新的跨域擴展技術,可將分散式資料中心統一為AI超級工廠(由NVIDIA網路部門資深副總裁Gilad Shainer主講)。
NVIDIA GB10超級晶片是NVIDIA DGX Spark桌上型超級電腦的引擎(由NVIDIA資深傑出工程師Andi Skende主講)。這一切都體現了NVIDIA的最新技術如何加速推論,從而推動無所不在、涵蓋各種規模的AI創新。
NVIDIA網路技術推動大規模AI創新
AI推理,也就是AI系統透過多重AI推理流程分析並解決複雜問題,需要機架等級的運算效能,才能高效率地提供最佳的使用者體驗。
在支援當前AI工作負載的資料中心中,網路扮演著中樞神經系統的角色,將伺服器、儲存裝置與其他硬體等所有元件,串連成為一個完整、緊密結合又強大的運算單元。
Burstein在Hot Chips大會的演講活動將深入探討NVIDIA的網路技術,特別是NVIDIA ConnectX-8 SuperNIC,如何實現高速、低延遲的多GPU通訊,以提供領先業界的大規模AI推理效能。
作為NVIDIA網路平台的一部分,NVIDIA NVLink、NVLink Switch與NVLink Fusion提供垂直擴展的連結能力,連接伺服器內部及伺服器間的GPU與運算元件,實現超低延遲與高頻寬的資料交換。
NVIDIA Spectrum-X 乙太網路 則提供水平擴展的架構,能將整個叢集連結起來,快速將大量資料集串流至AI模型,並在資料中心內協調GPU與GPU之間的通訊。
Spectrum-XGS 乙太網路的跨域擴展技術,更進一步擴展了Spectrum-X的極致效能與規模,將多個分散式資料中心進行互連,從而打造出具備千兆級智慧能力的AI超級工廠。
作為Spectrum-X 乙太網路的核心,CPO交換器突破大規模AI基礎設施的效能與效率極限,Shainer將在演講中針對這項技術詳細介紹。
NVIDIA GB200 NVL72是採用單一機架的百萬兆級(exascale)電腦,配備36個NVIDIA GB200超級晶片,每個晶片整合兩個NVIDIA B200 GPU與一個NVIDIA Grace CPU,這些運算單元透過有史以來最大的NVLink網域彼此互連,並由 NVLink Switch 為 AI 與高效能運算工作負載提供每秒130 TB的低延遲GPU通訊。基於NVIDIA Blackwell架構打造的GB200 NVL72系統,在推理與推論效能方面實現大幅躍進。
NVIDIA Blackwell與CUDA將AI帶給數百萬開發者
Blackstein將在演講中深入介紹同樣採用Blackwell架構的NVIDIA GeForce RTX 5090 GPU,透過NVIDIA DLSS 4技術,使當今遊戲的效能翻倍。
NVIDIA DLSS 4技術還能為遊戲加入神經渲染功能,從而將效能提升高達10倍、追跡效果放大10倍及設計週期縮短10倍,進一步強化電腦圖形與模擬的真實感。這不僅能以更低能耗提供流暢而靈敏的視覺體驗,角色與特效的逼真程度也可大幅提升。
NVIDIA CUDA是全球應用最普及的運算基礎架構,讓使用者能夠在任何地方使用NVIDIA Blackwell部署並運行AI模型。
全球已有數億的GPU運行CUDA,從NVIDIA GB200 NVL72機架規模系統,一直到搭載GeForce RTX及NVIDIA RTX PRO的個人電腦與工作站,而在Skende的演講中討論、NVIDIA GB10驅動的NVIDIA DGX Spark也即將推出。
從演算法到AI超級電腦 為大型語言模型最佳化而生
DGX Spark以精巧的外型,提供強大的效能與功能,讓開發人員、研究人員、資料科學家與學生能在桌面端突破生成式AI的極限,並且加速推動各產業處理工作負載。
作為NVIDIA Blackwell平台的一部分,DGX Spark支援NVFP4,NVFP4是一種低精度數值格式,可實現高效的代理型AI推論,特別是大型語言模型(LLM)。如欲了解更多關於NVFP4的資訊,請參閱NVIDIA技術部落格。
開源協作推動推論創新
NVIDIA加速了多項開源函式庫與框架,以加速並最佳化大型語言模型與分散式推論的AI工作負載。這些函式庫與框架包括NVIDIA TensorRT-LLM、NVIDIA Dynamo、TileIR、Cutlass、NVIDIA Collective Communication Library及NIX,目前已整合至數百萬個工作流程中。
為了讓開發者能以自行選擇的框架進行建置,NVIDIA與頂尖的開源框架供應商合作,為FlashInfer、PyTorch、SGLang、vLLM等提供模型最佳化。
此外,NVIDIA NIM微服務也已支援OpenAI的gpt-oss、Llama 4等多個熱門的開源模型,讓開發者能輕鬆操作託管型API,並在其首選的基礎架構上享有自我託管模型的靈活性與安全性。歡迎參加NVIDIA在Hot Chips大會的各項活動,以了解更多關於推論與加速運算領域的最新進展。