高頻寬記憶體風雲(一)進程技術的分野
高頻寬記憶體(High Bandwidth Memory;HBM)是具有高頻寬的圖形記憶體(Graphic Memory),其主要的功用是支援高效能運算(High Performance Computing;HPC)或人工智慧運算中與CPU/GPU聯合執行高速的平行運算。 HBM由數個DRAM堆疊而成,每個DRAM中又由許多容量較小的記憶體單元組成。大數量的小記憶體單元以高頻寬的I/O與多核的CPU/GPU相連接,當成平行算中使用的緩衝記憶體。 HBM的統一標準由JEDEC於2013年公布,2015年SK海力士(SK Hynix)率先開始量產。 以最近的產品HBM3E為例,其容量可達36GB,DRAM的層數為8~12層(8hi or 12hi)。最重要的,其資料引線(data pin)數目為1024,代表它可以同時提供1,024個數據平行儲存。為了實施如此高的資料引線,在堆疊DRAM與中介層(interposer)之間使用將近4,000個微凸塊(micro bump),而其間距(pitch)相當緊密—55微米,這已經接近微凸塊技術的密度極限。HBM在多層DRAM堆疊的底層中,還有一個邏輯製程的基底晶粒(base die)。DRAM層與層之間的信號由矽通孔(Through Silicon Via;TSV)連接。目前異質整合HBM與CPU/GPU使用的先進封裝技術為CoWoS (Chip-on-Wafer-on-Substrate),是2.5D先進封裝的一種。在此封裝中,HBM與CPU/GPU置於同一平面上。其下有一個中介層(interposer),HBM與CPU/GPU金屬墊(metal pad)中的信號透過與其黏著的微凸塊、由中介層內的連線(interconnect)送到另一邊的微凸塊上,這就是目前記憶體與邏輯晶片異質整合的工作架構。 當HBM要再進一步演化、擴大頻寬,預計其DRAM堆疊的層數將從原先的8~12層,再成長成12~16層。其數據引腳數則自1,024成長至2,048。所需要的微凸塊數目可能會超越以目前的封裝方式所能提供的。未來的HBM要與其協作的邏輯晶片會以何種方式異質整合,即為目前產業界看法有分歧的地方。 要提供更高的頻寬,目前看到的可能技術有2種:銅混合鍵合(copper-copper hybrid bonding)與矽光子(silicon photonics)。 銅混合鍵合的工作概念相當簡單,基本上是將2個分別製造的晶圓上重分布層(Reditribution Layer;RDL)面相對的黏貼在一起—金屬對金屬、氧化物對氧化物。這樣2個晶片之間的資訊傳遞就不必像傳統封裝的方式:先將一個晶片上的信號用與金屬墊(metal pad)連接的微凸塊引出,再用金屬連線將信號送到另一個晶片對應的微凸塊上。 銅混合鍵合大幅縮短信號傳送距離、降低相應功耗,也改善其他的物理性質譬如寄生電容(parasitic capacitance)以及電阻值。最重要的,它的金屬墊間距(metal pad pitch)可以降到10微米以下,最近的學術文章已開發出400微米的金屬墊間距。這個數據顯示用銅混合鍵合能提供比用微凸塊高1至2階秩的頻寬,對於HBM4的更高頻寬的需求顯然沒有問題,而且還有再進化的空間。 矽光子的基礎運作機制也很簡單:用光子來替代電子,成為傳遞資訊的主要載子。它的好處顯而易見:光子的速度比電子快100倍,而且光子在光纖中或光通道中傳導理論上不會發熱,不像電子在金屬中傳導一定會產生焦耳熱(joule heat)。這個事實的應用其實很早就開始實施了。資料庫之間、資料庫至家戸之間早就以光纖替代電纜,接下來的挑戰是在同一封裝中甚或同一晶片中使用光子傳導資訊此一機制,前者就是現在熱議的共同封裝光學元件(Co-Packaged Optics;CPO),而後者就是矽光子。 目前NPU、GPU元件都已進入CPO中試驗並取得成功。這是CPU/GPU與HBM的整合方案之一。實施矽光子的異質整合方法有2種。一種是沿用前述的2.5D先進封裝結構,將中介層的銅連線改變成矽光子的光通道。另外,由於利用光子來傳遞訊息,CPU/GPU與HBM兩頭都要裝上光/電的轉換元件。這個方法產業比較熟悉,但是成本較高。另一種方法是把HBM置於封裝之外,利用矽光子晶片線路與CPU/GPU連接。這個方法DRAM部分可以維持相當的獨立性,但是開發可能需要較長的時間。 相對的,銅混合鍵合在近年來已漸趨成熟。除了CIS(CMOS Image Sensor)早已派上用途外,像超微(AMD)將CPU與SRAM分別製造後,再用銅混合鍵合異質整合在一個3D先進封裝之中。這些都是此技術成功應用的範例。矽光子與銅混合鍵合就是現在產業界面臨的技術方向抉擇,這個抉擇的後果影響既深且遠。
2024/5/6