GPU與輔助處理器的運算應用 智慧應用 影音
EVmember
ADI

GPU與輔助處理器的運算應用

  • DIGITIMES企劃

AMD Opteron、Intel XEON均提供16?18核的單一處理器晶片。Intel/AMD
AMD Opteron、Intel XEON均提供16?18核的單一處理器晶片。Intel/AMD

超級電腦?HPC高運算效能系統,從過去單核心硬體最佳化架構,朝向多核多系統叢集平行化發展,更搭著異質性運算架構(Heterogenous System Architecture;HSA)的順風車,將著重序列純量運算的CPU與平行向量運算的GPU做融合,或導入著重浮點運算的圖形處理器(GPU)作為輔助處理器,以提升HPC在平行運算的能力…

超級電腦處理器多核?向量化

AMD以R290X雙核心晶片+水冷套件,打造頂級Radeon R9 295X2顯卡。Source:AMD

AMD以R290X雙核心晶片+水冷套件,打造頂級Radeon R9 295X2顯卡。Source:AMD

IBM與NVIDIA攜手合作,以下一代POWER9處理器+Volta GPU,打造超級電腦的計算節點的運算中心。Source: IBM/NVIDIA

IBM與NVIDIA攜手合作,以下一代POWER9處理器+Volta GPU,打造超級電腦的計算節點的運算中心。Source: IBM/NVIDIA

超級電腦?HPC高運算效能系統,其處理器晶片,均以先進製程來微縮線路間距,採取多達12?18核心+平行多線程(Symetric Multi-Thread;SMT)的64位元微架構設計,並且整合內嵌式高速記憶體,作為高速快取記憶體與對外記憶體匯流排的高速緩衝設計。並採用像MCP(Multi-Chip Package)多晶片封裝、3D立體堆疊(3D Stacks)與2.5D中介板(2.5D Interposer)等先進封裝技術。

像超微(AMD) 16核Opteron6274、Opeteron 6370P(Warsaw)、IBM Power8系列、源自於Oracle/SUN的FT-1500(SPARC V9)、Fujitsu的SPARC64 X+、英特爾(Intel)XEON E3/E5/E7處理器等。

英特爾於2014秋季IDF論壇中,首度發布以22nm製程Haswell-EP核心架構打造的XEON E5-2600處理器,使用LGA 2011-3腳位設計最頂級版本核心數高達18核、36線緒設計,內建45MB L3快取記憶體、內建DDR4-2133記憶體,最大記憶體容量增加為1.5TeraBytes,同時內建2條超高速QPI匯流排(頻寬達9.6GT/s)。

IBM則於ISSCC’13國際固態電子電路研討會上,正式發表POWER8處理器。採先進的22奈米SOI絕緣矽製程集結15道金屬電路層打造,POWER8處理器採6?12核心設計,矽晶電路面積為650mm2,運作時脈高達4GHz;每個核心可平行執行8線緒(8 Threads);具備32KB L1指令快取、64KB L1資料快取與512MB第二階快取記憶體容量。

以高速96MB eDRAM作為第三階快取記憶體,並預留外接128MB eDRAM第四階快取架構。處理器內建PCIe 3.0匯流排控制電路,雙向傳輸頻寬達32GB/s。並提供協同加速處理器介面(Coherent Accelerator Processor Interface;CAPI),使NVIDIA Tesla/Volta等GPU/協同處理器晶片直接連通來做協同運算。

異質性GPU?多核晶片協同平行化運算

近年來超級電腦或HPC高效能運算系統,搭著異質性運算架構(Heterogenous System Architecture;HSA)的順風車,將著重序列純量運算的CPU與平行向量化運算的GPU做融合(如超微APU),或導入著重浮點運算的圖形處理器(GPU)作為輔助處理器,以提升HPC在平行運算的能力。

而超微(AMD)、輝達(NVIDIA)等高階繪圖顯示卡,由於其繪圖處理器也具備向量級、平行化多管線SIMD浮點運算能力,自然也成為建構雲端?HPC高效能伺服器的輔助渦輪引擎。

英特爾(Intel)於2013年1月,正式推出XEON Phi協同處理器5110P(代號Kinght Corner),外型類似可插在PCI-Express x16插槽的獨立繪圖顯示卡;內部整合了採22nm製程,60個改良型P54C(Pentium)核心的處理器晶片,以及8GB GDDR記憶體,但對外匯流排規格僅支援到PCI Express 2.0規格,x16設計可提供雙向8GB/S互連頻寬,一套輔助處理器?介面卡可提供1,010GFLOPs(1TeraFLOPS)兆次浮點運算,一套機架式伺服器理論上安插1?8張XEON Phi協同處理器卡,實際上因受到CPU?晶片組PCI Express匯流排驅動線道總數限制,一般約3?4張已經是上限。

大陸的天河2號,則採取每一個節點以兩顆22奈米製程、Ivy-Bridge-EX架構的2.2GHz XEON E5-2692 12核處理器,搭配3套第二代架構(Knight Landing)的8GB GDDR、1.1GHz XEON Phi31S1P協同處理器,此時XEON Phi內建達57核心,單協同處理器能提供1TFLOPs的浮點運算效能。

AMD在2013年Q4 出貨Hawaii架構的Radeon R9 290X及290繪圖卡,經過兩季後,於2014年4月推出具備16GB GDDR5記憶體,針對專業繪圖市場所使用的FirePro W9100,單卡提供FP32 5.24TFLOPS(或FP64 2.62TFLOPS);以及8GB GDDR5、具備水冷架構的雙核心Radeon R9 295X2顯示卡(代號Vesuvius)。

卡上直接內建兩顆28nm製程、1,018MHz的Radeon R9 290X繪圖晶片,共提供5,732個串流處理器核心,以及FP64/FP32 5.733TFLOPs浮點運算效能;R9 295X2系統設計功耗(TDP)高達500W,為此AMD導入美商Asetek設計的一體式水冷系統來解決散熱問題。

對外介面則支援PCI Express 3.0規格,函式部分支援OpenCL、C++、AMP、DirectCompute 11與微軟DirectX 11.2,以及AMD自家開發的GCN原生介面Mantle API。

輝達(NVIDIA)於2014年10月19日正式發表基於第十代NVIDIA GPU微架構-Maxwell (GM204)的全新GeForce GTX 980繪圖卡。GeForce GTX 980晶片具備52.2億電晶體,核心時脈採1,126MHz設計,可超頻至1,216MHz,內部塞入多達2,048個CUDA處理核心;GPU核心內建4個64Bit記憶體控制器,記憶體匯流排寬度為256bit設計,單精度浮點運算每秒可達5兆次,而倍精確度浮點運算則達到2.5兆次。

而在11月超級電腦展(SC14)中,NVIDIA正式推出使用兩顆GK210繪圖顯示核心所組成的新款高階運算卡Tesla K80,其浮點運算效能可達每秒 8.5兆次,倍精確度浮點運算達2.9兆次,堪稱全世界最快的運算卡產品,同時其CUDA加速程式介面也納入對IBM POWER8處理器的支援。

IBM Power8/9與NVDIA Tesla/Volta攜手合作  HPC威力再現

由IBM華生研究中心掌舵的效能優化增強RISC架構(Performance Optimization With Enhanced RISC)POWER處理器,曾是各種高效能工作站、伺服器與嵌入式系統的運算核心,從1990年2月用於RISC System?6000工作站?伺服器,1998年POWER3、POWER4處理器,全面性實作64位元POWER指令集。

2004年5月以130奈米SOI絕緣矽製程,以4顆多晶片構裝(Multi-Chip Module;MCM)打造雙核心?平行雙線緒的POWER5處理器而聲名大噪。2007年65奈米SOI製程POWER6處理器首增加VMX指令集,時脈推進到4.7GHz。2010年IBM推出 8核心POWER7,以略降為3.2GHz時脈,每核心4線緒與4顆實體矽晶片的MCM封裝,達成一顆實體處理器晶片能執行16個線緒的平行運算能力。

POWER架構曾是蘋果PowerMac、PowerBook系列電腦採用的中央處理器,也曾授權矽智財IP電路,成為Nitendo WII、SONY PlayStation 3、Microsoft Xbox360的處理器中的圖形?遊戲加速運算電路。

2013年8月IBM與Google、Mellanox、NVIDIA 及泰安電腦(Tyan)宣布合組OpenPOWER聯盟,以IBM Power處理器架構的平台技術對外開放,IBM將投入10億美元在Linux和POWER平台開源(Open Source)科技創新上,協助客戶部署更先進的智慧運算系統,成為英特爾不能忽視的對手。

FPGA可程式邏輯閘陣列大廠拓朗半導體(Altera),於2013年11月宣布支援OpenPOWER聯盟的OpenCL開發套件(SDK)。輝達(NVIDIA)於2014年4月宣布,將於第4季推出的新世代繪圖加速器(代號Telsa),在CUDA平行運算程式平台介面中加入對POWER8的支援。

美國能源部(Department of Energy,DoE)於2014年11月16日宣布,將斥資3.25億美元委託IBM,於2017年建造完成兩套全球最快的超級電腦-Sierra和Summit,每一部至少有3,400個計算節點,每一個單一節點就能提供40TFLOPS的浮點運算效能,並透過知名InfiniBand/Network高速網路晶片廠Mellanox的協助,讓每個計算節點能用最高速的光纖網路加以連接。

依目前所揭露的資料, Sierrat設計的尖峰計算效能將達到150?300 PFLOPS,是大陸天河2號的3?6倍;Summit設計的尖峰計算效能達100 P FLOPS,是大陸天河2號的2倍。

IBM預計會採用正在研發階段的第九代POWER處理器(POWER9),預計將會採用14?16nm製程,不低於16顆核心數的先進核心?製程工藝設計,比目前Intel XEON壓榨出更高的整數?浮點運算效能,達到單一計算節點40TFLOPS的目標。

至於NVIDIA最新的Volta圖形晶片的詳細規格仍尚未揭露,不過在同屬於樣OpenPOWER聯盟的技術合作下,Volta將首度內建所謂NVLink直接高速連通技術,不必從外部較慢的PCI-Express 3.0/4.0匯流排-僅16?32GB/S的雙向傳輸頻寬,GPU晶片直接以80?200GB/s的超高速互連頻寬,直接取用POWER9處理器的快取記憶體並互享運算?資料訊息。

關鍵字