扎穩人才培育根基 助長產業界資料分析能量
工欲善其事,必先利其器,任何人要挖掘Big Data背後涵義,都必須懂得運用一些程式語言,例如深受資料科學界喜愛的R與Python,即是不可不識的關鍵項目。
回顧5年前,台灣企業或學界對這些大數據程式語言所知有限,癥結在於英文介面產生學習阻礙;為此一群有志推動大數據、資料科學商業應用的人,決定推動漢化教學與培訓工作,遂在2012年成立中華R軟體學會,並在隔年(2013)成立台灣資料科學與商業應用協會。
前述兩會,算是台灣最早設立的Big Data推動組織,而國立臺北商業大學資訊與決策科學研究所教授暨資料科學應用研究中心主任鄒慶士博士,同時擔任兩會的理事長。他指出,5年來他們始終基於培育本地資料分析人才的目標而默默努力,與資策會、工研院、台北市電腦商業同業公會、金融研訓院等多個財團法人合作開辦訓練課程,亦多次協助知名企業進行內訓,迄今累計訓練次數超過200場,為台灣催生許多大數據種子人才。
2015及2016年期間,兩會先後與電腦技能基金會、資策會合作,催生兩套關於Big Data的認證,前者名為「企業電子化資料分析師」(EEDA),後者是屬於經濟部產業人才能力鑑定(iPAS)一環的「巨量資料分析師」,皆由兩會統籌負責規劃評量基準,及訂定考科與題庫。
鄒慶士透露,現正積極萃取歷次課程講義精華,投入「資料處理與分析實踐」教材編製,並以「穿透大數據之R與Python資料導向程式設計」為教材主軸;一旦製作完成,將與兩項認證相結合,幫助人們更有效率養成大數據分析職能,有能力理解並準備資料、進行資料分析與建模,並可參與系統部署及商業應用。
值得一提,鄒慶士期望透過一次次課程,不僅傳授R與Python之資料處理、分析、探勘與視覺化等實用技能,也一併傳達正確認知;這些鞭辟入裡的概念,多能切中一般人對Big Data的思維誤區,產生導正效果。
要做好大數據 需懂得去蕪存菁
首先他認為把Big Data翻譯為「巨量資料」不甚理想,只因Big Data的真義在於從偽、雜、多的資料找出關聯,此過程涉及的方法與工具,可稱為「利害或關鍵的資料分析技術」,此處所謂的利害或關鍵,須經由去蕪存菁而來,分析時務必捨棄贅餘或無關屬性,採用去雜訊後的精簡資料,非一味追求數量巨大的資料。
換言之,只要能滿足企業實際需求,小量資料分析照樣深具價值。若以經常被提及的4個V來看,先後順序應是真實性(Veracity)、多樣性(Variety)、速度(Velocity),最後才是資料量(Volume),巨量資料一詞容易讓人搞錯重點,亦使資料分析一事顯得太過沈重。
鄒慶士特別強調Divide & Conquer觀念,主張做大數據分析,必須懂得切分、再各個擊破。統計學界有一句話,所有模型都是假的,因為僅是真實世界的抽象表徵,但有些模型仍是有用的,所以人們必須找到能解決當下情境的可用模型,此模型務求簡單明確,資料前處理(資料理解與去雜訊)是關鍵。
若疏於做好資料去蕪存菁的處理,只求將包山包海巨量數據通通納入計算,反倒會因參數過多,出現平庸徵兆,形成「垃圾進垃圾出」的遺憾結果。
國外專家曾言,從事作業研究(Operations Research;OR)領域的人,相當適合當資料科學家,因為他們懂得如何運用數學工具與模型來解決實際問題。而OR涵蓋了作業研究應用、作業研究科學與作業研究數學等三個重要環節,顯見企業欲佈建資料分析團隊時,除需配置深諳數學統計、電腦科學的人才,也務必納入領域專家,這點同樣值得企業留意。