巨量資料的機會與挑戰 智慧應用 影音
Microchip
member

巨量資料的機會與挑戰

  • DIGITIMES企劃

國立台灣大學副教授 洪士灝.jpg
國立台灣大學副教授 洪士灝.jpg

迎接巨量資料時代的來臨,台灣要如何運用既有優勢,同時克服將到來的挑戰呢?台灣大學副教授洪士灝指出,硬軟體整合是台灣的機會,但業界的思維必須轉型,要從純硬體的代工製造業,轉為有能力針對特定應用,產生最佳的硬軟體整合方案,而這也正是台灣面對巨量資料時代的主要挑戰。

洪士灝以雲端運算為例指出,儘管台灣產業和政府信誓旦旦,要做出成績,但這幾年在台灣並沒有明顯成果,其中一個原因就是因為用舊思維做高科技,包括不懂軟體,以至於只會做硬體,軟體賺不了錢;太依賴代工、賣硬體,不會做服務;只會人云亦云、依樣畫大餅,要靠政府補貼才有競爭力。

洪士灝強調,雲端運算雖然已經幫巨量資料鋪好路,但要應用巨量資料,需要三種人才,分別是能夠解決具體問題的領域專家、理解巨量資料方法論的資料科學家,以及開發系統和應用程式的電腦專家。此外,還需要兩種技術,分別是能夠巨量資料分析及巨量資料系統。

參考國外案例,為了在巨量資料時代搶得先機,有的是比資料量大,如Google、Facebook、Amazon等,但多半以數字、文字、圖片為主,如何蒐集與運用聲音、影像、專業知識,便成為其中的關鍵;另一種方式,則是設立巨量資料研究機構,培養設計學程、整合跨領域人才等;也有企業透過設置比武擂台的方式,提供資料或問題,用獎金為誘因,吸引專家投入;或是研發與販售巨量資料技術。

至於台灣面對巨量資料時代的機會與挑戰,洪士灝認為,目前還有很多尚未利用巨量資料解決的問題,台灣業界不要好高騖遠,應該要找尋適合耕耘的題目,但業界必須要由OEM/ODM,轉型為附加價值更高的解決方案提供業者,利用硬體設計的優勢,優化巨量資料的的軟體及應用。

但台灣目前的巨量資料高級人才相當短缺,洪士灝強調,各先進國家都在加強訓練人才,因此一定要提供高薪機會,才能吸引人才;而因為巨量資料的技術層次高,必須讓大學發揮創新與整合的功能,尋求跨領域團隊合作的可能。

值得注意的是,由於應用和資料的價值日益提高,想要取得並不容易,反觀系統軟體很多都已開放原始碼,很大方的提供給識貨的人來用。洪士灝認為,台灣需要組一個團隊來創造擴大價值,善用人家的技術和軟體,學會如何建構系統,並找尋高價值的應用,把這些進階的系統軟體和硬體整合在一起,將應用好好做出來,就是台灣的機會。

但洪士灝也指出,整合難度非常高,因為效能好壞差很多,一看就明白,必須了解應用的特性,如資料量及存取模式,或是解決關鍵的效能瓶頸,如磁碟機、網路及處理機等。

了解巨量資料的應用特性更是重要。洪士灝指出,要提高處理效率,必須善用分散式處理(distributed processing)與 computation-data co-location。由多台機器組成叢集,提高運算量和儲存資料量;裝置分散式檔案系統(Distributed filesystem)如HDFS;盡可能在同一節點讀取資料、計算、儲存結果;在每個節點提供足夠的運算能量;利用高速網路進行不同節點間必要的資料交換等。

值得注意的是,巨量資料的每個應用都有其特性,必須全系統面進行效能分析,才能達到預期目標。洪士灝以分類(Sort)為例,儲存及網路都可能是瓶頸,但微軟卻在2012年創下1分鐘內完成1.47TB的世界記錄,而且使用的機器是之前的記錄保持人雅虎的四分之一,卻只要三分之一的搜尋時間。

洪士灝認為,巨量資料的讀寫常常都是瓶頸,過去都是用更多的磁碟、更多的交換器來解決,但也導致耗電等問題。如果能把資料放在記憶體,不但性價比要比放到磁碟上省很多,而且可以省不少時間,尤其是資料如果是在TB等級,放在記憶體會比放在磁碟上,來得更有意義。此外,異質運算值得重視,甚至連GPU也可拿來做巨量資料分析。

其實目前仍有許多巨量資料分析的需求,如醫學影像分析、異質運算系統軟體與效能工具、建構台大計資中心高效能巨量資料叢集、國科會巨量資料先導計畫、植物工廠及資安監控與資料分析,都是巨量資料分析可以發揮的空間。

洪士灝指出,巨量資料的應用或計算其實並不複雜,主要的挑戰是資料量太大,如果能設計出加速的方法,就會很有價值。台灣產業其實對軟硬體整合並不陌生,在終端設備上也有表現不錯的業者,但對於巨量資料的應用與研究方才起步,缺乏跨領域的團隊與經驗,唯有改變想法,用軟體研發的思維,才能掌握先機,迎接巨量資料的挑戰。