讓SSD參與運算 群聯電子以CSD架構重塑AI訓練流程 智慧應用 影音
DForum0704
member

讓SSD參與運算 群聯電子以CSD架構重塑AI訓練流程

  • 林佩瑩苗栗

RLFT方法之一GRPO + Reward model,透過CSD優化系統架構圖。群聯電子
RLFT方法之一GRPO + Reward model,透過CSD優化系統架構圖。群聯電子

AI系統運作長期依賴GPU算力提升,然而記憶體成本高昂與資料傳輸瓶頸,已成為AI普及化的關鍵障礙,群聯電子善用國網中心的高速運算資源與技術協作,開發出具備推論能力的運算型儲存裝置(Computational Storage Device;CSD),透過重構資料流架構與運算卸載策略,為AI訓練流程效能最佳化開闢新路徑。

群聯電子技術長林緯指出,近年GPU等算力硬體已相對成熟且持續進化,但記憶體成本高昂、容量受限,已成為AI普及化的關鍵瓶頸,特別是當企業嘗試導入大型語言模型時,普遍面臨記憶體不足的問題。高階GPU的VRAM容量有限,擴充成本極高,直接影響模型訓練效率。

GRPO pipeline拆解與CSD優化後之pipeline。群聯電子

GRPO pipeline拆解與CSD優化後之pipeline。群聯電子

此外,AI訓練需要大量資料頻繁在SSD與GPU間傳輸,產生嚴重的資料傳輸瓶頸,在推論或強化學習訓練過程中,這種頻繁的資料交互行為,更會大幅降低系統效能。由此可見,現有AI系統效能瓶頸已不再只是算力,記憶體與資料傳輸架構也是關鍵之一,對此群聯電子著手開發運算型SSD,藉此輔助傳統GPU架構,重構資料流架構。

群聯專案聚焦兩大創新略  以國網中心運算資源建構RLFT訓練框架

群聯利用國網中心提供的高速運算資源(HPC)開發的CSD架構,目標是將AI訓練過程中部分高運算負載的任務,從傳統CPU/GPU卸載至SSD控制晶片執行,進而打造具備儲存與推論雙重功能的SSD裝置。

本次專案聚焦於RLFT(Reinforcement Learning Fine-Tuning;強化式學習微調)訓練流程,該流程需在每次訓練迴圈中執行大量推論與樣本評估作業,導致GPU運算資源消耗遠超預期,進而排擠其他訓練任務執行,降低整體效率。

為解決此問題,群聯提出兩大創新策略:一為運算前置化,利用CSD在SSD端預先處理部分資料,再傳送至GPU執行訓練,降低資料搬移延遲;二為運算卸載,將訓練過程中原由GPU處理的部分推論作業轉交SSD控制晶片執行,以釋放寶貴的GPU運算資源。

在國網中心提供的H100裸機資源協助下,群聯電子成功建構完整RLFT訓練框架,並透過深度Profiling分析,確認推論任務是RLFT訓練中的最大瓶頸。分析結果顯示,推論、樣本評分與過濾、部分記憶體快取操作等任務,都可以從GPU/CPU卸載到SSD控制晶片中執行。

林緯提到,群聯電子目前已完成新一代SSD控制晶片在AI系統中的功能定位,包括接手哪些任務?何時參與卸載?如何與CPU和GPU協同工作?根據模擬結果,若將這些可卸載的推論與重播任務交由SSD處理,整體訓練效率可望提升至原系統效能的10倍,同時降低記憶體需求與功耗負擔。

此外專案也規劃出具備AI推論能力的晶片設計藍圖。這顆控制晶片將可在強化學習中負責推論任務,從傳統SSD控制器僅處理儲存I/O,進入「輕量AI加速器」領域。

林緯表示,此專案對群聯意義重大,不僅開創NAND Flash在運算領域的新價值,更重構了產品定位,群聯未來可提供具備AI推論能力的儲存元件,直接切入AI訓練伺服器、雲端平台與邊緣AI市場,目前已規劃至少三代的CSD產品開發路線圖,明確定義每一代功能定位,專案成果也已納入IC設計規格依據,預計2026年可產出首款具備AI運算功能的控制晶片實體樣品。

在此專案中,國網中心的貢獻不只是提供GPU資源,更包括技術方向指導、研究架構討論,以及AI運算平台使用經驗的共享。

林緯強調,國網專家協助群聯掌握大型語言模型訓練的實務細節,是幫助開發下一世代技術的關鍵夥伴。這項合作展現了台灣在AI基礎建設與產業創新上的潛力,透過國家級資源與企業技術能力的結合,不僅推動了儲存技術的革新,更為台灣在全球AI供應鏈中建立新的競爭優勢。