數周前NVIDIA執行長黃仁勳在GTC 2024大會上發表新一代的GPU (B100/B200)。這B系列的GPU打破相當多紀錄,首先這GPU是由2顆獨立的晶片並排結合而成,採用台積電先進的4奈米N4P製程,而接合的方式是利用台積電CoWoS(chip on wafer on substrate)先進封裝技術。每一個晶片內涵1,080億個電晶體,這是首次單一晶片電晶體的數目超過1,000億顆,2顆加總共有2,160億顆。
1980年代我們在唸半導體的時代,1個晶片所含電晶體的集成度,由SSI(small scale integration),到MSI、LSI以及最後的VLSI(very large scale integration)。VLSI所定義的單一晶片所含電晶體的數目,也不過是100萬顆。現代的科技將這個數字推進10萬倍。
我們都知道GPU的算力跟電晶體的數目是直接相關,要增加電晶體的數目,一則是利用微影技術縮小電晶體的尺寸,另一則則是增大晶片的面積。就增大面積而言,在NVIDIA B系列前三代的GPU(H / A / V系列),晶片的面積就已經超過800平方釐米,將近3公分的平方。事實上這晶片面積,包括B系列在內,已經是12吋晶圓的極限,若繼續擴大晶片的面積,良率及在1片晶圓所能產生的晶片數目,都會受到很大的影響。
在無法繼續增加晶片面積的限制下,將2顆晶片利用先進的封裝技術,緊密並排在一起,如同1顆大的晶片,將會是未來的常態。蘋果(Apple)M1 Ultra處理器,就是由2顆M1晶片並排組合而成。
弔詭的是,這回B系列GPU使用的是台積電進階版N4P製程,與前一代H系的N4相比,根據台積電所公開的數據約是效能提升6%。然而,以單顆B系列的晶片為例,其電晶體的數目相較於H系列,增加約30% (1,080億顆 vs 800億顆)、功耗約略減少30%(500瓦 vs 700瓦),換言之,效能提升將近50%。
除非NVIDIA在B系列的GPU設計架構上,做了重大突破,否則很難想像這50%的效能改善是從何而來?
個人認為很大的改善在於,這2個晶片中的數據傳輸的損耗大幅下降。2個晶片中所傳輸的數據量是10TB/s,也就是每秒傳輸10的13次方的數據量,而M1 Ultra的數據量卻是2TB/s。緊密結合晶片中的數據傳輸所產生的功耗,是遠小於數據由晶片傳輸到印刷電路板上,再到另一個晶片上。兩者之間的功耗差距,除了距離長短之外,晶片與電路板間的阻抗不匹配,都會造成傳輸上的損耗。
換言之,在不斷需要提升算力的同時,利用先進封裝將幾顆運算晶片,緊密地結合在一起,未來將會是一個關鍵。如同利用矽光子及CPO(co-package optics)技術,將資料中心的交換器,大幅地減少其功耗及增加傳輸數據,是相同的道理。
算力除了跟晶片效能有很大的關係外,也跟計算機的架構有關。
我們以人工智慧運算及量子運算為例,最古典的運算如附圖(A)所示。運算猶如一排車陣中,靠時序的控制(sequential control),一部車啟動後接著另一部,到最後一道指令,才完成整個車陣的紓解。然而在AI的運算中如附圖(B)所示,使用大量平行運算,1個GPU內部包含了數以千計的運算核心,因此算力遠大於古典的運算,但基本上仍存在時序的控制。
量子運算就完全不同了,如附圖(C)所示,在並排的車陣中利用量子的糾纏(entanglement),就宛如一張網絡將所有的車子四面八方的圈住在一起,沒有時序的控制,一聲令下就全員移動,因此算力又遠大於AI,相較之下所耗損的功率卻少了很多。
然而要產生量子糾纏,必須要在極嚴苛的環境下產生,如超低溫及超低雜訊,有太多不可控因素,所以時不時會有錯誤發生。個人淺見是,量子電腦很難成為一個商品化的產品,更談不上可靠度及品質管理系統。最有可能是大型的研究機構或大公司的研發部門,擁有台量子電腦,而且每售出1部量子電腦,原廠就得要有一組工程及技術人員進駐該單位。
不可否認算力即國力,GPU/AI的算力在未來一段時間內,仍然會是主流。在算力不斷地被要求提升之下,晶片的功耗及訊號的傳輸量,會是瓶頸之所在。先進的封裝技術如CoWoS,將會是各國所關注的焦點。
曾任中央大學電機系教授及系主任,後擔任工研院電子光電所副所長及所長,2013年起投身產業界,曾擔任漢民科技策略長、漢磊科技總經理及漢磊投資控股公司執行長。