從年初的CES 2025,3月的NVIDIA GTC,到4月台積電在北美的技術論壇,以及即將登場的COMPUTEX,這幾場科技大秀,在在顯示AI伺服器的發展與半導體先進製程及封裝技術,有著不可分割的緊密關係。
幾年前NVIDIA執行長黃仁勳在媒體上說過幾次「摩爾定律已死」。當時我不太理解其中的涵義,直到最近讀完Stephen Witt所著《黃仁勳傳》(The Thinking Machine: Jensen Huang, Nvidia, and the World’s Most Coveted Microchip),才了解到個中道理。
書中談論到由2012年到2022年,GPU運算能力增加10,00倍,其中屬於硬體的電晶體速度(clock rate)只增加2.5倍,換言之剩餘的400倍來自軟體程式及數學公式。400倍相對於2.5倍,自然會說摩爾定律已死,更何況NVIDIA在黃仁勳眼中一直是家軟體的公司。
但是事實真的如此嗎?
如果以NVIDIA GPU從2012年的Kepler到2022年Hopper GPU,製程技術由28奈米演進到4奈米,電晶體數目由71億顆,一口氣增加到800億顆;運算的單元CUDA core也從不到3000個,擴充到將近15,000個核心。
雖然電晶體的速度僅增加2.5倍,但是由於單一晶片的運算核心的數目增加了,算力自然就大幅的提升。
如果再加上CoWoS及3DIC的先進封裝技術,不僅將多個記憶體晶片(HBM)垂直堆疊在一起,而CoWoS技術更將GPU與記憶體晶片,能緊密地在水平方向擺放在一起。這些先進的封裝工藝,最重要的就是希望數位訊號這這些晶片中傳輸,能夠走最短的路徑。這樣一來不僅訊號傳輸的延遲可以縮短,功耗亦可以降低,算力自然就提升了。Blackwell GPU已經利用CoWoS技術,將2個GPU晶片無縫接軌地綁在一塊,下一代Rubin GPU將會擴充到4個GPU晶片連接一起。台積電更提出在2027年實現SoW(system on wafer)。也就是在矽晶圓上或其他形式的基板上,水平放置更多的GPU,甚至開始做GPU的堆疊。
這些先進製程及封裝上的努力,無非是把更多的運算單元,及暫存的記憶資料,在很小的空間內完成執行,以增強其運算效能。依據此原則,同樣的在伺服器機櫃的設計,也是希望在一個機櫃內放置更多的GPU。因此GB系列一個機櫃內有72顆GPU,到了下一代Rubin會有144顆GPU,而Rubin Ultra更在一個機櫃內放置多達576顆GPU。機櫃的設計也由原先水平擺放的tray盤,改為直立式的插槽,以增加GPU密度。這一切硬體上的努力,無非是要提升整體的運算效能,但也衍伸出電源的供應及如何散熱的問題。
GB伺服器系列一個機櫃所需的功率在120~150KW,Rubin Ultra將會達到600 KW~1MW。若是一個數據中心擁有500個Rubin Ultra機櫃,那就約略等於一個核子反應爐所產出的電力。屆時Rubin Ultra的散熱,恐怕只有浸潤式的液冷一途了。
台積電在4月的北美技術論壇,在先進封裝領域著墨甚多。除了SoW、矽光子、3DIC之外,更規劃在電源最後一級的轉換IVR(integrated voltage regulator),嵌入至CoWoS內的中介層(interposer)。所以在先進製程上,台積電已經是一個人的武林,不久的將來在先進封裝領域,台積電會是另一個一個人的武林。
一個人的武林所衍生出來的就是,如影隨行的反托拉斯法(antitrust)。為了淡化台積電在先進製程的主宰地位,董事長魏哲家曾建議將先進封裝也納入半導體的範疇,藉由分母的擴大以降低百分比率。然而目前實際上的發展,恐未能如其所願。
英特爾(Intel)之前為了解決CPU市場獨佔的問題,不僅付給超微(AMD)一筆和解金,並技巧地讓超微成為有實力的競爭者。先進封裝相較於先進製程,可以有較多的可行解決方案,群策群力,不必然是一個人的武林。美麗與哀愁,端視我們的態度與做法。