IBM攜手Spark 擁抱機器學習的下一個世代

廖于嬋／台北
2015/09/17
分享

Spark是目前相當受歡迎的開源叢集運算架構，相較於Hadoop，Spark擁有敏捷快速的效能和便於應用的優勢，因其採用記憶體儲存數據資料，使它擁有高效運算；而通用的API協助使用者編寫複雜的平行運算程式，讓Spark程式更容易開發和理解。

憑藉高效能優勢，Spark已成為機器學習的重要工具。IBM日前宣布加入Spark社群，IBM期望和Spark社群暨其核心關係企業Databricks合作，共同引領海量資料及機器學習領域邁向未來發展。

強化Spark的機器學習能力、創新演算法開發

台灣IBM軟體事業處商業分析業務協理胡育銘表示，IBM美國舊金山Spark技術中心有超過200位的技術人員正在將Spark技術具體實現在企業應用中。同時，也將Spark嵌入IBM領先業界的分析和商務平台，讓Spark成為IBM Bluemix平台上的服務之一。

另外，IBM在全球10多個實驗室將投入超過3,500名研發人員展開與Spark相關的專案，並讓Spark開放生態系能使用IBM研發超過10年的機器學習技術「SystemML」，IBM的認知運算系統Watson(華生)便整合許多SystemML機器學習的功能。

此次IBM與Databricks合作，即是希望結合SystemML的功能，讓Spark具有更強大的機器學習能力，以及讓資料科學家更專注於演算法的應用，而非專注於枝微末節的技術。

Open Data Platform(ODP)是眾多資訊企業聯合成立的Hadoop資料平台，然而對大部分企業用戶而言，開源並不代表可直接使用，所以在開源之上又推出Hadoop資料平台。

希望在選擇Hadoop資料平台中的核心元件時，大家可以選用公共、統一的代碼。如此，透過使用Hadoop資料平台，使用者可不再受限於特定廠商的開放原始碼，既利用開源的好處，同時也讓企業用戶不再備受束縛。

胡育銘進一步表示，IBM一直致力於將企業客戶的需求與最新技術進行有效銜接，然而新技術很多，很可能會出現訊息孤島的情形，我們能將新的技術為企業需求真正合而為一，將所謂的單點和孤島進行整合。

IBM對企業應用的豐富經驗是許多商業分析解決方案供應商無可比擬的，例如新元件一直出現以及重要技術持續變化，透過Open Data Platform (ODP)開放平台，讓多家資訊公司在平台上貢獻經驗與想法，為企業客戶提供服務。

IBM專精於分析探勘語言及SQL關聯式資料庫領域已長達30多年，具備大量的優化技術。此外，SPSS的許多預測分析產品的演算法也可與Spark相互結合，因為SPSS得以讓Spark大幅提升處理資訊的資料量、速度與能力。未來IBM將陸續推出Spark系列產品，包括Watson Analytics、DataWorks、PuerData 以及其他解決方案。

全球IBM投資超過250億美元培養Spark技術人才

Spark具備敏捷快速、便於應用的特性，而其開源屬性可在全球持續改進，未來IBM的專家將與Apache Spark開放社群合作，推動先進機器學習技術，並加快智能創新業務應用開發的速度。

IBM在開放原始碼創新領域已經耕耘多年，我們深信開源的力量是客戶創造價值的根源，IBM將全力支持Spark，將其作為推動分析的基礎技術平台，從根本上加速推動業務創新，協助客戶部署和運用Spark推動商業分析策略，實現業務轉型和差異化競爭優勢。

除支援Spark之外，IBM透過向下扎根方式與大中華區大專院校合作，如宣布投資1億美元，在大中華推動「U100」計畫；在台灣，IBM已在政大、台大、交大等多所大專院校開立商業分析(Analytics)課程，期望能培養更多未來的資料科學家，截至目前為止，全球IBM在商業分析領域已投入超過250億美元。

關鍵字

IBM spark軟體

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

商情專輯－開放資料(Open Data)專輯