Arm推動邊緣AI創新 加速生成式AI在終端裝置實現 智慧應用 影音
DTRAPP40
member

Arm推動邊緣AI創新 加速生成式AI在終端裝置實現

  • 李佳玲台北

Arm Cortex核心具備絕佳靈活性,可滿足多樣化的AI應用需求。Arm
Arm Cortex核心具備絕佳靈活性,可滿足多樣化的AI應用需求。Arm

隨著全球掀起生成式AI熱潮,如何推動此技術在各種終端裝置的實現,已成為業界的關注焦點,以期能打造更豐富的創新應用,帶動龐大商機。對此,Arm日前推出新一代Ethos-U85 NPU,透過顯著的效能提升,進一步推升了MPU/MCU的AI算力,不僅加速推進邊緣AI的發展,更有助於帶動生成式AI在終端裝置的普及應用。

邊緣AI持續進展 Arm提供完整方案

Ethos NPU可為Cortex-M核心帶來顯著的AI效能提升。Arm

Ethos NPU可為Cortex-M核心帶來顯著的AI效能提升。Arm

統一的軟體開發:最快速達到終端AI的途徑。Arm

統一的軟體開發:最快速達到終端AI的途徑。Arm

在Cortex-M與Ethos-U上的機器學習工作負載運行流程。Arm

在Cortex-M與Ethos-U上的機器學習工作負載運行流程。Arm

Arm亞太區IoT市場資深經理黃晏祥表示,邊緣運算持續演進,從嵌入式系統、加入連網功能成為物聯網,到最近導入AI成為AIoT,已帶動產業的全新變革。隨著市場快速發展,應用場景也日趨多元,包含智慧零售、智慧工業、以及智慧家庭等,AI正開創出更多商機。

「以零售市場為例,過去是用人力操作的POS機,現在為節省人力,已升級為自助結帳機,未來更將發展至無人商店,把人力降至最低,包括商店管理、庫存補貨等都可透過AI來執行,甚至能還以生成式AI來實現消費者與虛擬店員的互動,由此我們可看到生成式AI在邊緣運算場景上的需求。」

由於邊緣AI裝置的應用多元,對算力也有不同需求,Arm為兼顧效能與擴展性,已建構完備解決方案。針對Cortex-A系列核心的MPU市場,在Armv9架構中,除了結合Neon、SVE2、SME等指令集擴展,支援音/視訊編解碼加速,以及向量和矩陣運算,以提升處理器核心效能之外,還能再整合Ethos AI加速器,進一步實現最佳的邊緣AI效能。而在MCU方面,Cortex-M核心則是透過Helium向量運算指令集以及結合Ethos NPU來實現的。

黃晏祥強調,為推動人工智慧的發展,Arm聚焦於硬體的創新與參考設計、標準和軟體、以及生態系統三個領域,同時推動AI合作夥伴計畫,藉由共同合作和創新解決方案,以簡化各領域的AI部署。

全新推出Ethos-U85 支援Transformer架構

為進一步提升AI算力,Arm日前發布了最新的Ethos-U85 NPU,可把AI帶到更廣泛的邊緣裝置。

黃晏祥表示,Ethos-U85最重要的特性之一是支援Transformer架構,這是目前開發生成式AI最普遍採用的架構,因此能協助業者更快地實現生成式AI落地終端裝置的目標。此外,不管是Cortex-A或Cortex-M,Ethos-U85均支援,又擴大了它的應用範圍。

在效能方面,與上一代產品相比,Ethos-U85效能提升四倍,功耗效率提高20%,同時,其MAC單元可從 128個擴展到2048個(1GHz 時脈實現 4 TOPs),能夠為工廠自動化等需要更高效能的應用提供有力支援。

此外,Ethos-U85提供了相同的一致工具鏈,因此合作夥伴能夠利用現有的軟體投資,讓軟體工程師以及開發人員能夠快速上手。目前已有Alif半導體和英飛凌宣布採用Ethos-U85開發新一代產品。

結合Helium與Ethos NPU MCU智慧升級

要實現豐富多樣的AIoT應用,MCU的智慧升級是重要關鍵。Arm主任應用工程師林宜均表示,MCU的AI效能提升,除了Ethos NPU之外,Helium也扮演了重要角色。

「AIoT應用要求適切的算力需求,適才適所即可。因此,Arm提供了不同的設計選項,業者可利用Helium達到基本的ML功能,與一定的效能提升,若再加上NPU,則能進一步提升算力。」

他解釋說,Helium是為Cortex-M核心提供的向量引擎,它的重要特點在於可支援各種資料格式,包括整數與浮點運算,能為MCU帶來基本的AI功能。相較於現有的Armv8-M建置,訊號處理效能提升5倍,ML效能,特別是矩陣的整數乘法,提升了15倍。

至於Ethos對AI算力的提升,以搭配Ethos-U55為例,與前一代Cortex-M4相比,在執行關鍵詞檢測(DS-CNN-L)、影像分類(MobilNet)、和語音辨識(Wav2letter)等基準測試結果來看,分別大幅提升了110倍、73.7倍及253.7倍。

目前已有多家廠商採用Cortex-M55與Ethos-U55開發新產品,包括新唐推出適用於機器學習的新端點 AI 平台、奇景光電的智慧影像處理器,以及英飛凌與瑞薩也紛紛推出新品,已有越來越多的MCU具備智慧功能,使邊緣AI更為普及。

建構生態系統與IoT參考設計 加速產品上市時程

除了提供增強的向量引擎與ML加速器,以推升處理器核心的AI算力之外,Arm亦致力於打造一致化的軟體生態系與IoT參考設計,協助業者縮短產品的開發週期。

黃晏祥表示,Corstone是Arm專為IoT打造的參考設計平台,透過提供預先整合和驗證的IP子系統來加速 SoC設計。以最新推出的Corstone-320為例,它整合了Cortex-M85、Mali-C55 ISP和新的Ethos-U85 NPU,可為語音、音訊和視覺等邊緣AI應用提供所需效能。

此外,邊緣AI軟體生態系也逐漸匯聚於Arm架構,除了ONNX、TensorFlowLite、PyTorch等AI框架之外,在軟體方面,像是Edge Impulse、Nata AI也都原生支援Ethos,有助於Ethos的最佳化設計,發揮極致邊緣AI效能。

林宜均補充說明,通常邊緣AI處理器會包含CPU、DSP和NPU三大區塊,各有其程式碼需進行編譯。若採用不同廠商的NPU,可能每個部分都須採用不同的工具鏈或開發流程,使開發工作更為複雜。

對此,Arm建構了一致化的軟體開發流程,以Cortex-M為例,用戶可透過Arm提供的NPU模型編譯工具 – Vela Compiler,分配任務給不同的運算引擎執行,盡可能發揮NPU的最大算力,CPU則能透過呼叫CMSIS-NN軟體資料庫的神經網路內核來達成效能的最佳化。統一的軟體設計流程支援是Arm的一項重要優勢,也是實現邊緣AI的最快途徑。

欲了解Arm如何協助生態系應對人工智慧運算挑戰,協助開發人員快速部署,請點此造訪。

欲了解可用於基礎設施邊緣的Arm技術,以打造基於Arm架構的人工智慧基礎設施,請點此造訪。