GPU與輔助處理器的運算應用

DIGITIMES企劃
2014/12/25 00:00
分享

AMD Opteron、Intel XEON均提供16？18核的單一處理器晶片。Intel/AMD

超級電腦？HPC高運算效能系統，從過去單核心硬體最佳化架構，朝向多核多系統叢集平行化發展，更搭著異質性運算架構(Heterogenous System Architecture；HSA)的順風車，將著重序列純量運算的CPU與平行向量運算的GPU做融合，或導入著重浮點運算的圖形處理器(GPU)作為輔助處理器，以提升HPC在平行運算的能力…

超級電腦處理器多核？向量化

AMD以R290X雙核心晶片＋水冷套件，打造頂級Radeon R9 295X2顯卡。Source:AMD

IBM與NVIDIA攜手合作，以下一代POWER9處理器+Volta GPU，打造超級電腦的計算節點的運算中心。Source: IBM/NVIDIA

超級電腦？HPC高運算效能系統，其處理器晶片，均以先進製程來微縮線路間距，採取多達12？18核心+平行多線程(Symetric Multi-Thread；SMT)的64位元微架構設計，並且整合內嵌式高速記憶體，作為高速快取記憶體與對外記憶體匯流排的高速緩衝設計。並採用像MCP(Multi-Chip Package)多晶片封裝、3D立體堆疊(3D Stacks)與2.5D中介板(2.5D Interposer)等先進封裝技術。

像超微(AMD) 16核Opteron6274、Opeteron 6370P(Warsaw)、IBM Power8系列、源自於Oracle/SUN的FT-1500(SPARC V9)、Fujitsu的SPARC64 X+、英特爾(Intel)XEON E3/E5/E7處理器等。

英特爾於2014秋季IDF論壇中，首度發布以22nm製程Haswell-EP核心架構打造的XEON E5-2600處理器，使用LGA 2011-3腳位設計最頂級版本核心數高達18核、36線緒設計，內建45MB L3快取記憶體、內建DDR4-2133記憶體，最大記憶體容量增加為1.5TeraBytes，同時內建2條超高速QPI匯流排(頻寬達9.6GT/s)。

IBM則於ISSCC’13國際固態電子電路研討會上，正式發表POWER8處理器。採先進的22奈米SOI絕緣矽製程集結15道金屬電路層打造，POWER8處理器採6？12核心設計，矽晶電路面積為650mm2，運作時脈高達4GHz；每個核心可平行執行8線緒(8 Threads)；具備32KB L1指令快取、64KB L1資料快取與512MB第二階快取記憶體容量。

以高速96MB eDRAM作為第三階快取記憶體，並預留外接128MB eDRAM第四階快取架構。處理器內建PCIe 3.0匯流排控制電路，雙向傳輸頻寬達32GB/s。並提供協同加速處理器介面(Coherent Accelerator Processor Interface；CAPI)，使NVIDIA Tesla/Volta等GPU/協同處理器晶片直接連通來做協同運算。

異質性GPU？多核晶片協同平行化運算

近年來超級電腦或HPC高效能運算系統，搭著異質性運算架構(Heterogenous System Architecture；HSA)的順風車，將著重序列純量運算的CPU與平行向量化運算的GPU做融合(如超微APU)，或導入著重浮點運算的圖形處理器(GPU)作為輔助處理器，以提升HPC在平行運算的能力。

而超微(AMD)、輝達(NVIDIA)等高階繪圖顯示卡，由於其繪圖處理器也具備向量級、平行化多管線SIMD浮點運算能力，自然也成為建構雲端？HPC高效能伺服器的輔助渦輪引擎。

英特爾(Intel)於2013年1月，正式推出XEON Phi協同處理器5110P(代號Kinght Corner)，外型類似可插在PCI-Express x16插槽的獨立繪圖顯示卡；內部整合了採22nm製程，60個改良型P54C(Pentium)核心的處理器晶片，以及8GB GDDR記憶體，但對外匯流排規格僅支援到PCI Express 2.0規格，x16設計可提供雙向8GB/S互連頻寬，一套輔助處理器？介面卡可提供1,010GFLOPs(1TeraFLOPS)兆次浮點運算，一套機架式伺服器理論上安插1？8張XEON Phi協同處理器卡，實際上因受到CPU？晶片組PCI Express匯流排驅動線道總數限制，一般約3？4張已經是上限。

大陸的天河2號，則採取每一個節點以兩顆22奈米製程、Ivy-Bridge-EX架構的2.2GHz XEON E5-2692 12核處理器，搭配3套第二代架構(Knight Landing)的8GB GDDR、1.1GHz XEON Phi31S1P協同處理器，此時XEON Phi內建達57核心，單協同處理器能提供1TFLOPs的浮點運算效能。

AMD在2013年Q4 出貨Hawaii架構的Radeon R9 290X及290繪圖卡，經過兩季後，於2014年4月推出具備16GB GDDR5記憶體，針對專業繪圖市場所使用的FirePro W9100，單卡提供FP32 5.24TFLOPS(或FP64 2.62TFLOPS)；以及8GB GDDR5、具備水冷架構的雙核心Radeon R9 295X2顯示卡(代號Vesuvius)。

卡上直接內建兩顆28nm製程、1,018MHz的Radeon R9 290X繪圖晶片，共提供5,732個串流處理器核心，以及FP64/FP32 5.733TFLOPs浮點運算效能；R9 295X2系統設計功耗(TDP)高達500W，為此AMD導入美商Asetek設計的一體式水冷系統來解決散熱問題。

對外介面則支援PCI Express 3.0規格，函式部分支援OpenCL、C++、AMP、DirectCompute 11與微軟DirectX 11.2，以及AMD自家開發的GCN原生介面Mantle API。

輝達(NVIDIA)於2014年10月19日正式發表基於第十代NVIDIA GPU微架構－Maxwell (GM204)的全新GeForce GTX 980繪圖卡。GeForce GTX 980晶片具備52.2億電晶體，核心時脈採1,126MHz設計，可超頻至1,216MHz，內部塞入多達2,048個CUDA處理核心；GPU核心內建4個64Bit記憶體控制器，記憶體匯流排寬度為256bit設計，單精度浮點運算每秒可達5兆次，而倍精確度浮點運算則達到2.5兆次。

而在11月超級電腦展(SC14)中，NVIDIA正式推出使用兩顆GK210繪圖顯示核心所組成的新款高階運算卡Tesla K80，其浮點運算效能可達每秒 8.5兆次，倍精確度浮點運算達2.9兆次，堪稱全世界最快的運算卡產品，同時其CUDA加速程式介面也納入對IBM POWER8處理器的支援。

IBM Power8/9與NVDIA Tesla/Volta攜手合作 HPC威力再現

由IBM華生研究中心掌舵的效能優化增強RISC架構(Performance Optimization With Enhanced RISC)POWER處理器，曾是各種高效能工作站、伺服器與嵌入式系統的運算核心，從1990年2月用於RISC System？6000工作站？伺服器，1998年POWER3、POWER4處理器，全面性實作64位元POWER指令集。

2004年5月以130奈米SOI絕緣矽製程，以4顆多晶片構裝(Multi-Chip Module；MCM)打造雙核心？平行雙線緒的POWER5處理器而聲名大噪。2007年65奈米SOI製程POWER6處理器首增加VMX指令集，時脈推進到4.7GHz。2010年IBM推出 8核心POWER7，以略降為3.2GHz時脈，每核心4線緒與4顆實體矽晶片的MCM封裝，達成一顆實體處理器晶片能執行16個線緒的平行運算能力。

POWER架構曾是蘋果PowerMac、PowerBook系列電腦採用的中央處理器，也曾授權矽智財IP電路，成為Nitendo WII、SONY PlayStation 3、Microsoft Xbox360的處理器中的圖形？遊戲加速運算電路。

2013年8月IBM與Google、Mellanox、NVIDIA 及泰安電腦(Tyan)宣布合組OpenPOWER聯盟，以IBM Power處理器架構的平台技術對外開放，IBM將投入10億美元在Linux和POWER平台開源(Open Source)科技創新上，協助客戶部署更先進的智慧運算系統，成為英特爾不能忽視的對手。

FPGA可程式邏輯閘陣列大廠拓朗半導體(Altera)，於2013年11月宣布支援OpenPOWER聯盟的OpenCL開發套件(SDK)。輝達(NVIDIA)於2014年4月宣布，將於第4季推出的新世代繪圖加速器(代號Telsa)，在CUDA平行運算程式平台介面中加入對POWER8的支援。

美國能源部(Department of Energy,DoE)於2014年11月16日宣布，將斥資3.25億美元委託IBM，於2017年建造完成兩套全球最快的超級電腦－Sierra和Summit，每一部至少有3,400個計算節點，每一個單一節點就能提供40TFLOPS的浮點運算效能，並透過知名InfiniBand/Network高速網路晶片廠Mellanox的協助，讓每個計算節點能用最高速的光纖網路加以連接。

依目前所揭露的資料， Sierrat設計的尖峰計算效能將達到150？300 PFLOPS，是大陸天河2號的3？6倍；Summit設計的尖峰計算效能達100 P FLOPS，是大陸天河2號的2倍。

IBM預計會採用正在研發階段的第九代POWER處理器(POWER9)，預計將會採用14？16nm製程，不低於16顆核心數的先進核心？製程工藝設計，比目前Intel XEON壓榨出更高的整數？浮點運算效能，達到單一計算節點40TFLOPS的目標。

至於NVIDIA最新的Volta圖形晶片的詳細規格仍尚未揭露，不過在同屬於樣OpenPOWER聯盟的技術合作下，Volta將首度內建所謂NVLink直接高速連通技術，不必從外部較慢的PCI-Express 3.0/4.0匯流排－僅16？32GB/S的雙向傳輸頻寬，GPU晶片直接以80？200GB/s的超高速互連頻寬，直接取用POWER9處理器的快取記憶體並互享運算？資料訊息。

關鍵字

GPU 超級電腦

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

商情專輯－高速運算﹧高速電腦專輯