資料類型質量巨變巨量資料分析應開發專門技術

許淑意
2015/03/12 00:00
分享

巨量資料分析可能會因此改變我們理解及組織社會的方式。DIGITIMES攝

由於資訊化應用的普及，導致資料量的規模已經龐大到無法透過人工，在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊，根據IDC統計，數位世界的資訊容量將會從2009年的0.8ZB，在2020年成長到35ZB，等於每15秒就成長1PB，年複合成長率高達40%，而且這些數據資料不僅巨大而且不同，如何優化資料，方便且容易的搜尋到所需要的資訊，也變得更加困難。

因此，如何將資料採礦(Data Mining)的技術有效的應用在巨量資料(Big Data)中，快速萃取出未知且有價值的潛在資訊，進而找出市場趨勢，創造新的商機，會是未來企業競爭中一項重要的優勢與目標。

Google利用運算及線上查詢的優勢，結合巨量資料分析，可提供更快速而精確的預測。DIGITIMES攝

傳統資料分析方式無法適用於巨量資料

值得注意的是，資料採礦的相關技術及應用，早在90年代即已提出，無論是方法抑或是工具都已經相當成熟且完善，但過去資料採礦的工具與模組，往往是以單一機器的環境為對象，而非今日的分散式系統或雲端運算環境。事實上，許多在單一的機器上很容易做到的事情，在分散式系統上會變得很難很複雜且困難。

因此，想要分析巨量資料，不能只是直接援用現有的資料採礦技術及應用，因為巨量資料分析所需要的資料庫管理系統，往往必須在數十、數百甚至數千台伺服器上同時運行。根據KDnuggets網站調查，資料採礦分析使用平均約1？10GB的資料大小，與動輒資料量超過TB等級的巨量資料，差異非常的大。故資料探勘以往所能處理的資料，充其量只能稱為「大」資料，而非「巨量」資料。

除了量的變化外，目前的資料類型，也已經超越傳統資料庫或現有資料管理工具能夠處理的範圍。因為在爆炸性的資料增長過程中，結構性資料的成長相當緩慢，反觀非結構性的資料，包括視訊、網頁、智慧型手機、消費資料、位置資料、財務服務資料，以及社會媒體資料等。

而目前的資料庫解決方案，主要是用來設計儲存結構化資料，除了只能針對已知問題的回答速度進行優化外，架構本身往往就決定了內容形式，對於新資料型態與新問題，都有適應上的困難，加上擴展成本高昂，企業勢必得尋求不同以往的資料處理解決方案，才能面對爆炸性的資料增長。

巨量資料分析能力的四大原則

歷經過去幾年在技術上與觀念上的進展，巨量資料分析已經成為公私部門組織的競爭利器之一，甚至逐漸形成了跨越統計、資訊科技、行政管理等領域的資料科學(Data Science)領域。

由於巨量資料的特性難以用傳統分析方法進行分析，必須用進階的技術和演算法來解讀、儲存、分析與管理，如何培育並善用兼具Volume(數據資料的大量)、Velocity(資料分析的時效)、Variety(資料格式的多樣)與Veracity(資料內容的真實)所謂4V特質的巨量資料分析能力，也逐漸成為跨越統計、資訊、與特定業務領域的共同議題。

如新型禽流感疫情在2009年開始快速蔓延時，美國疾病管制局(Centers for Disease Control；CDC)要求醫生必須通報新型流感的病例，但傳統的報送作業方式往往需要約兩個星期的時間，這樣的速度也會讓公共衛生機構錯失防疫的先機。

Google工程師曾在科學期刊Natural發表有關流感的研究指出，他們將Google每天300萬個與禽流感相關的搜尋關鍵字，與CDC從2007到2008年的實際禽流感染案例，透過數學演算法(Algorism)進行相關性(correlation)分析比對，最後找出45個與實際發生禽流感案例有很強相關性的搜尋項目組合，只要在特定區域發現這些搜尋項目組合，發生禽流感的案例也會隨之增多。

Google利用運算及線上查詢的優勢，提供更快速而精確的預測，協助公共衛生機構掌握疫情資訊，可見單單只有儲存資料量龐大是沒有任何用處的，因為資料並不會自己進行分析，想要從大量的資訊中得到價值，必須要找到新技術。

如位置訊息也是巨量資料分析一個非常重要的分析標的，巨量資料若能結合地理資訊系統(Geographic Information System；GIS)，除了「人」的位置資訊以外，「物體」的位置也可以利用這類的裝置進行大量的蒐集，這些訊息也成為重要的分析資料，讓用戶的地理位置變成非常寶貴的資料。

亞馬遜(Amazon)在思考如何根據個別的消費習性，推薦特定的商品給消費者時，本來是用傳統的分析方法，直接從巨量的客戶資料中抽樣後，再分析客戶之間的相似度，但分析結果提供的建議卻很粗糙，如消費者只是購買一項嬰兒用品，系統卻只是推薦一大堆相類似產品。

亞馬遜後來意識到，系統不應該去比較客戶，而是要找出產品之間的關連，必須用到全部的資料，並在事前完成計算，才能夠在客戶購物時，很快地給出適當建議，結果也比先前成功，如喜愛A作者的讀者，未必會喜歡A作者全部的書，但經由關連分析後，卻可能會發現喜愛A作者的人，多半同時會喜歡B作者的書，這樣的巨量資料交叉分析，才會帶來更大的效益。

改變理解及組織社會的方式

雖然現在蒐集資料要比以前容易許多，但也因為數量前所未有的龐大，必須要找到一種巨量資料的分析方法，才能夠混和資料採礦過程，蒐集相關資料，進行相關分析，並找到真正可以操作的KPI，才會有很大的機會，找到分析標的的改善重點及方法，這也才是巨量資料分析應用的價值所在。

總上所述，巨量資料分析方法需要注意3個重點，並因此改變我們理解及組織社會的方式，第一大改變是能夠取得、分析的資料量大為增加，使用所有資料分析，而非抽樣篩選，可以讓我們清楚看見資料中最細緻的地方；第二大改變是不再堅持一切都要做到精準，巨量資料分析雖可減少抽樣造成的誤差，仍必須對於測量上的誤差，給予一定程度的妥協，放棄百分之一百的精確；第三大改變是放下長久以來對於因果關係的堅持，而專注於發現事物的相關性，只找尋事情「正是如此」的答案，而不一定要瞭解某件事「為何如此」。

由此可知，對一個組織而言，巨量資料分析的最重要價值有二，其一是分析使用(analytical use)，透過巨量資料分析，揭露資料隱藏的洞見(insight)，如顧客之間的同儕影響、消費者的交易習慣以及社會及空間資料的關係，這些洞見在過去往往因為資料分析的成本太高而被忽視；其二是開發新產品(enabling new products)，巨量資料分析可以即時的處理與分析資料，以發現新的需求而刺激服務或產品的創新。

關鍵字

Data Mining 巨量資料

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

商情專輯－巨量資料分析專輯

資料類型質量巨變 巨量資料分析應開發專門技術

資料類型質量巨變巨量資料分析應開發專門技術