IBM近日推出了一款基于Apache Spark的新型z/OS平臺(tái),旨在幫助企業(yè)使用IBM大型主機(jī)更簡單、快捷訪問和分析數(shù)據(jù),此舉對(duì)數(shù)據(jù)科學(xué)家和開發(fā)人員系統(tǒng)豐富地分析數(shù)據(jù)集也大有裨益。這款z/OS平臺(tái)將支持其在z/OS主機(jī)操作系統(tǒng)上實(shí)現(xiàn)本地運(yùn)行,幫助數(shù)據(jù)科學(xué)家打通分析庫和底層文件系統(tǒng)之間的聯(lián)系,無需提取、轉(zhuǎn)換和加載(ETL)即可對(duì)數(shù)據(jù)實(shí)現(xiàn)就地分析。
現(xiàn)如今,IBM大型主機(jī)被全球各大銀行、保險(xiǎn)公司、零售商和運(yùn)輸公司廣泛用于關(guān)鍵數(shù)據(jù)處理和交易。它擁有業(yè)界最快的商用微處理器,以及內(nèi)置的交易分析功能,2毫秒內(nèi)即可為某項(xiàng)交易的預(yù)測模型評(píng)分。目前,企業(yè)可以利用這些功能,在無需從主機(jī)中下載數(shù)據(jù)(without moving data off the mainframe)的條件下通過Spark來進(jìn)行高級(jí)內(nèi)存中分析,既節(jié)省時(shí)間和成本,又降低風(fēng)險(xiǎn)。
IBM專注于新興互聯(lián)網(wǎng)技術(shù)的院士Rod Smith表示,“各種規(guī)模的企業(yè)在向?qū)崟r(shí)數(shù)字化轉(zhuǎn)型時(shí),都需要對(duì)自己所有的數(shù)據(jù)了解清楚,這個(gè)過程不應(yīng)花費(fèi)過多的時(shí)間,也不應(yīng)有提取、轉(zhuǎn)換和加載(ETL)的風(fēng)險(xiǎn)?,F(xiàn)在我們實(shí)現(xiàn)了在包括大型主機(jī)在內(nèi)的IBM平臺(tái)上本地(natively)運(yùn)行Apache Spark,客戶可以并行執(zhí)行處理關(guān)鍵數(shù)據(jù)的交易處理系統(tǒng)和分析系統(tǒng),同時(shí)從其他數(shù)據(jù)源獲取關(guān)聯(lián)洞察,幫助他們與客戶進(jìn)行實(shí)時(shí)互動(dòng),繼而產(chǎn)生效益。”
基于Apache Spark推出的IBM z/OS平臺(tái)具備Apache Spark core、Spark SQL、Spark Streaming、Machine Learning Library (MLlib)和Graphx等開源功能,可提供業(yè)內(nèi)唯一的主機(jī)常駐Spark數(shù)據(jù)提取解決方案。新平臺(tái)主要特點(diǎn):
1.簡化開發(fā)——開發(fā)人員和數(shù)據(jù)科學(xué)家可利用他們已有的Scala、Python、R和SQL等編程經(jīng)驗(yàn)來更快實(shí)現(xiàn)可用洞察的價(jià)值。
2.簡化數(shù)據(jù)訪問——經(jīng)過優(yōu)化的數(shù)據(jù)抽象化服務(wù)消除了復(fù)雜性,通過Apache Spark API使用熟悉的工具對(duì)IMS、VSAM、DB2 z/OS、PDSE或SMF等傳統(tǒng)格式實(shí)現(xiàn)企業(yè)數(shù)據(jù)的無縫訪問。
3.就地?cái)?shù)據(jù)分析(In-place data analytics)——Apache Spark使用內(nèi)存計(jì)算來處理數(shù)據(jù),可以快速產(chǎn)生結(jié)果。
4.開源功能——新平臺(tái)提供了一個(gè)應(yīng)用于Apache Spark、專門針對(duì)大數(shù)據(jù)設(shè)計(jì)的開源內(nèi)存計(jì)算引擎。
IBM也在和DataFactZ、Rocket Software和Zementis這三家公司進(jìn)行合作,通過IBM z/OS平臺(tái)為Apache Spark開發(fā)定制解決方案:
1.DataFactZ是IBM新的合作伙伴,雙方正在合作開發(fā)基于Spark SQL和MLlib的Spark分析產(chǎn)品,以用于在大型機(jī)上處理的數(shù)據(jù)和交易。
2.Rocket Software已經(jīng)成為IBM的長期合作伙伴,兩家公司在z/OS Apache Spark領(lǐng)域也已展開合作。
3.Zementis正在開發(fā)支持Apache Spark的基于多個(gè)標(biāo)準(zhǔn)的執(zhí)行引擎。作為一款新的z/OS交易中預(yù)測分析(in-transaction predictive analytics)解決方案,它允許用戶在處理交易時(shí)部署和執(zhí)行高級(jí)預(yù)測模型,幫助用戶在影響最大的時(shí)候?qū)崟r(shí)地預(yù)測終端用戶需求、計(jì)算機(jī)風(fēng)險(xiǎn)或偵測欺詐。
基于Apache Spark推出的全新z/OS平臺(tái)以及合作伙伴相關(guān)解決方案,可以讓那些從不同來源采集數(shù)據(jù)的數(shù)據(jù)科學(xué)家和數(shù)據(jù)管理員用自己喜歡的格式和工具來收集和分析數(shù)據(jù)。
IBM去年發(fā)布了一項(xiàng)針對(duì)Spark的承諾——將投入3500名IBM研究和開發(fā)人員參與與Spark相關(guān)的項(xiàng)目。為了推進(jìn)支持大型主機(jī)分析的開源技術(shù),大型主機(jī)還組成了一個(gè)新的GitHub組織以便開發(fā)人員協(xié)作建立針對(duì)Spark的z/OS工具。比如,Project Jupyter和任一NoSQL數(shù)據(jù)庫的組合都能提供靈活、可擴(kuò)展的數(shù)據(jù)處理和分析解決方案。
這一方法可幫助件開發(fā)人員選擇他們的工具和語言,提供能夠在不同數(shù)據(jù)環(huán)境中監(jiān)控分析結(jié)果的新型視覺輔助工具,開發(fā)出新的數(shù)據(jù)處理技術(shù)和技巧,從而讓新的開源工具更易使用。