AMD祭出MI300能否動搖NVIDIA領導地位還有待觀察

陳婉潔／DIGITIMES企劃
2023/06/02 02:45
分享

隨著AMD在2023年初發布MI300更多產品細節後，面對在AI模型訓練市場早已居於龍頭地位的NVIDIA，早已在2022年9月發布新一代GPU架構的L40，為AI模型訓練市場提供了更為細緻的產品選擇，AMD要如何憾動NVIDIA的地位，恐怕將是2023年下半需要觀察的重點。

眾所皆知，在AI晶片市場領域，第一個想到的，通常是GPU大廠NVIDIA（輝達），其原因無它，關鍵在於NVIDIA利用GPU的平行運算優勢，以高性能運算的作法，短時間處理許多複雜的AI運算工作，加上過去自CUDA面市以來所累積的用戶基礎與生態系統資源，讓AI風潮再次吹起之時，讓客戶開發AI相關的應用時，能得以快速上手，所以也讓NVIDIA在AI晶片領域依然屹立不搖。

NVIDIA伺服器主要GPU晶片簡要規格一覽。DIGITIMES攝

NVIDIA歷代伺服器GPU產品發展奠定HBM重要性

若是熟悉NVIDIA的GPU產品策略發展走向，可以清楚地知道NVIDIA的作法是先從GPU架構進行創新，像是專門處理AI運算工作的Tensor Core，以及處理光線與影像運算的RT Core（光影追蹤核心），再依照伺服器、桌機、筆電乃至於車用等終端應用在運算資源需求上的不同，配置出不同運算單元數量的GPU晶片，再基於這樣的基礎，從AI的模型訓練與事件推論，導入對應的記憶體類別。

自Pascal架構時代開始，NVIDIA就已經鎖定AI模型訓練領域，搭配HBM（高頻寬記憶體）第二代版本，開發出專用的Tesla P100 GPU，緊接著在Volta、Ampere乃至於Hopper架構，所推出的伺服器與資料中心專用的GPU，皆有導入HBM，而2022年5月，以Hopper架構為主的H100更是導入了HBM3，藉此提升GPU與記憶體之間的資料搬運速度，進一步強化其運算效能。至此，我們幾乎可以斷言，若要滿足AI模型訓練的運算工作需求，HBM及其先進封裝技術可以說是必要條件。

L40搭載Ada Lovelace架構，AI模型訓練晶片陣容更加完整

不過，隨著時序推移，NVIDIA在2023年發布另一GPU架構Ada Lovelace，依據NVIDIA官方說法，這兩種架構的先後推出，最為主要的原因還是在於滿足不同終端應用情境，所以可以看到Ada Lovelace架構已經陸續導入新一代遊戲顯示卡RTX產品線中，但值得留意的是，針對伺服器與資料中心，NVIDIA以Ada Lovelace架構為基礎，先後推出了L40與L4，兩款GPU都採用台積電5nm製程，所搭配的記憶體為GDDR6，其中L40的電晶體數量達763億，直逼H100的800億，與此同時，NVIDIA官方也宣稱，L40同樣也能支援AI的模型訓練工作，所以這也是NVIDIA投入AI模型訓練以來，推出首款導入GDDR6為主的GPU產品。

宏觀而言，H100與L40雖然都能擔綱AI模型訓練的角色，但兩款GPU產品在先天上架構上卻是存在著根本的差異性，H100沿續了A100的傳統，並未導入RT Core，所以顯而易見的是，L40也是第一款能處理影像資料、渲染工作與模擬與模型訓練的GPU，這也意味著，未來利用AI運算工作進行擬真生圖像與影片生成的應用場景的處理上，採用L40 GPU會更具效率，而H100就能專門處理非圖像與影像的資料模型訓練工作。甚至在功耗表現上，L40的最大功率輸出，僅有300瓦，相較於H100 SXM5版本或是PCIe Gen5版本，都有相對出色的表現。

再換言之，對於AI模型訓練領域的對應上，NVIDIA有意利用不同的產品來滿足相應的市場區隔，單以此點而言，其產品策略頗有細膩之感。

AMD祭出MI300能否動搖NVIDIA領導地位仍有待觀察

而在近年來，在AI話語權上略為落後的AMD，也在2023年初發布了MI300的技術細節，MI300打破過往MI系列產品的設計架構，為伺服器與資料中心領域，首款整合CPU與GPU架構的APU（加速處理器）產品，同時搭載記憶體容量達128GB的HBM3，採取3D Chiplet的先進封裝作法，電晶體數量為1460億，相較於前一代的MI 250X，在AI模型訓練的效能上，多達八倍之多，顯然AMD有意向NVIDIA挑戰在AI模型訓練晶片市場的龍頭地位。

另一方面，由於MI300與NVIDIA未來即將要推出的Grace處理器（為搭載Arm CPU與Hopper架構GPU）的設計概念，並無二致，這也說明，AMD想透過這樣的產品試圖壓制NVIDIA在伺服器領域逐漸擴大的影響力，並給予反制。

然而，按理而言，過去NVIDIA早在推出Tesla V100之後，NVIDIA在伺服器與資料中心領域的影響力就與日俱增，最主要的原因在於NVIDIA近年不斷推出如HGX-1與DGX-1等伺服器系統產品，進一步加速了在資料中心的導入速度，再加上先前早已收購完成的Mellanox所擁有的DPU產品線，更深化了NVIDIA伺服器系統的運算效能，以及過去自CUDA面市後，其開發環境與函式庫皆緊密配合歷代GPU架構的演變，因此NVIDIA之所以能在伺服器與資料中心領域擁有極高影響力，的確其來有自。

然而，AMD過去在AI系統開發上，CPU與GPU各自分屬不同的開發環境與函式庫，2022年2月也完成了對Xilinx的收購，所以在AI系統的開發上，如何提供一致性的環境給客戶，並且無痛移轉？亦或是從系統整合性地思考，讓CPU與GPU，亦或是FPGA皆存在的情況下，讓客戶快速開發所需要的伺服器系統，成了AMD的亟需思考之處，不過AMD也在2022年六月的投資人大會上，發布AI Stack 2.0計畫，嘗試統一CPU、GPU與FPGA的開發環境，但面對NVIDIA早已累積相當雄厚的基礎，AMD能否靠MI300攻下NVIDIA所打下的江山，恐怕還有待觀察。

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

議題精選－COMPUTEX 2023

AMD祭出MI300能否動搖NVIDIA領導地位 還有待觀察

AMD祭出MI300能否動搖NVIDIA領導地位還有待觀察