Mellanox網路運算解決資料中心AI架構瓶頸 提升運算效能
現今資料成長快速,企業日益重視資料蒐集的工作。過去資料中心是以CPU為核心現在正轉變為以資料為核心,也就是資料在哪裡運算工作就在那裡。所以有CPU運算、GPU運算、網路運算、儲存運算等,各種運算組合在一起就是現在新一代資料中心最好的架構。
Mellanox市場開發高級總監宋慶春解釋為何資料中心有此轉變,因現行的資料中心架構在進行AI運算時會面臨網路瓶頸與運算瓶頸問題。網路瓶頸是指當GPU做完機器學習運算後,會把運算結果傳送到某台參數伺服器上,由這台來做資料聚合(data aggregation),然後做參數更新,再把新的參數送到每台執行運算的GPU上。如此一來所有資料傳到某一特定伺服器CPU,會有多對一的通訊並導致網路產生瞬間爆量,若處理不好可能產生掉封包,並可能使training及inference的產出結果不正確,若要重傳資料,則會使效能下降。運算瓶頸則是當GPU做完training運算還未得到新的參數前沒辦法做下一輪運算,當CPU未處理完所有資料的彙集,無法更新參數,其他GPU無法執行運算因而導致瓶頸。
因此以資料為中心的架構,是當CPU、GPU做完運算,結果傳送到網路交換器上即可做資料聚合,做barrier或Allreduce,可自動更新新的參數,不需把資料傳輸到某個CPU、GPU上,可縮短運算時間及等待時間,解決兩種瓶頸。
從資料蒐集、分析、建模、推論的流程來看,Mellanox的智慧網路設備可以在檔案系統/資料庫、儲存系統、資料分析、機器學習等各環節上協助提升效能。以資料訓練來說,目前GPUDirect RDMA(Remote Direct Memory Access)技術十分熱門,就是在GPU記憶體之間建立通路,之前跨伺服器的GPU memory要做資料交換時,資料需在GPU memory與CPU memory之間做很多記憶體複製,導致效能下降且CPU使用率提高,透過RDMA可得到更多溝通效率,效能提升達10倍。在資料分析方面,Mellanox的SparkRDMA把Spark移到RDMA上,亦達到2倍以上執行效能的提升。