蛻變中的巨量資料分析平台與應用實務
巨量資料雖然是一座寶山,但並非有資料,就能產生價值。大同世界科技業務營運中心技術工程處處長張文祥指出,巨量資料的分析與應用,必須透過很多生態系統搭配組合,才能產生用戶所需要的資訊。
事實上,國際顧問研究機構Gartner在2015年所提出的十大策略性技術與趨勢,其中「無所不在隱於無形進階資料分析」(Pervasive ad Invisible Analytics;Advanced)高居第四名,就可看出巨量資料分析的重要性。
但張文祥也指出,任何新創技術的成熟度都非一蹴可及,而是要經歷科技誕生的促動期、過高期望的尖峰期、泡沬化的谷底期、穩健成長的光明期及實質生產的高峰期,許多新創技術在促動期就可能失敗,尖峰期則是發展的臨界點,如果能夠熬過谷底期,才能步入光明期及高峰期,而資料分析技術,目前正是已經步入谷底期及光明期的臨界點。
要掌握巨量資料分析的發展趨勢,張文祥認為,首先要先了解巨量資料的核心,也就是「資料」的本質,如那些資料有助於解決特定的問題;如何、多久及何處取得資料;資料保存的型態及時間;資料要如何萃取;資料要如何藉由視覺化圖表或整合式數據予以呈現等。
了解何謂「資料」後,接下來就得了解巨量資料的三大特性,思考其應用特性。包括資料量的規模(Volume):通常是以TB、PB等級的資料量為基本單位;資料異動的速度(Velocity):資料的時效性一旦錯過,可能就不具任何價值,在金融交易領域尤其明顯;多樣性(Variety):資料可能有各種型式,包括文字、影音、圖像、網頁、串流。
巨量資料的分析應用與傳統的關聯式資料庫結構化資料分析相較,超大量的半結構化?非結構化資料的儲存及分析,很容易造成其效能瓶頸。但若能根據資料特性,建構使用合適的資料分析平台及分析工具,將能以最佳的性價比提供最具深度的資料分析,以洞悉資訊發揮其最大的價值。
巨量資料時代之所以到來,其與物聯網(Internet of Things;IoT)及雲端運算的推波助瀾有相當密切的關係。張文祥引述Gartner的資料指出,不包含PC、平板及智慧型手機在內的物聯網裝置用戶數,將於2020年成長至260億台,物聯網產品與服務供應商將創造逾3,000億美元的邊際收益,且絕大部分在服務領域,其各類終端市場的銷售業績,將為全球帶來1.9兆美元的經濟附加價值。
結合雲端運算無遠弗界、隨取隨用的服務特性以及搭配巨量資料的探勘、分析與整合技術,讓業者得以大規模蒐集、傳遞、儲存及分析資料,以延伸更多深入應用,進而迅速擴大物聯網的規模及應用。但在此同時,其也間接深化推動雲端運算與巨量資料分析的應用發展,3者共生共榮,缺一不可。
張文祥指出,根據國外針對巨量資料解決方案所形成的生態系統的分析結果觀察,單單在資料架構平台(Infrastructure)、分析管理工具(Analytics)、跨資料平台?分析工具(Cross Infra/Analytics)、資料應用軟體(Application)、資料來源(Data Source)、開放技術(Open Source)等幾大類,就至少超過350家相關業者。
正由於巨量資料扮演如此重要角色,因此如何針對應用資訊服務並掌握其中核心技術,對於企業而言,將會是改變未來的關鍵力量。
張文祥認為,新一代企業資料中心必須在兼具成本優勢,且快速滿足對RPO與RTO需求的前提下,能充分因應雲端服務伴隨而來的巨量資料成長挑戰。考量資料應用於不同情境下,成長量、效能、服務等級及成本效益需求各有不同,其實很難用單一架構來滿足所有的資料儲存的需求。因此採用混合式資料儲存(Hybrid Storage)將會是其中的關鍵應用。
至於新一代企業儲存架構平台該採用何種儲存技術,張文祥認為,融合式資料儲存(Converged Storage)、雲端儲存(Cloud Storage)及水平擴充式儲存(Scale-out Storage)相當值得關注。
它們的共同點是藉由無遠弗屆的網路力量,打破資料處理與儲存的樊籬,採用分散式架構,支援上千個節點及Petabyte等級的資料量,並可搭配開放原始碼軟體框架(Framework),不但擁有儲存與處理大量資料的能力,還可藉由平行分散檔案的處理,得到快速的回應,充分滿足大量資料分散式儲存與分析應用之需求。
其實傳統儲存系統、融合儲存、雲端儲存及水平擴充儲存各有擅長,企業若能善用混合資料儲存技術及平台特性,透過軟體定義架構(Software-Defined Architecture),消弭不同應用平台間的差異,將可提升快速回應與增加資料中心彈性,大幅縮小部署時間,並可藉由ITaaS(IT as a Service)及隨選服務(On-demand Service),將可大幅提升使用彈性,成為企業可靠的資料儲存平台。
張文祥指出,企業若能針對商業智慧應用,善用前述技術建立新一代資料中心分析平台,就能打通巨量資料分析的任督二脈,輕鬆駕馭巨量資料分析,細緻打造高效率企業資料中心資料平台。