走出沙盒:Hadoop數(shù)據(jù)管理重要性提升
TT中國(guó) 發(fā)表于:13年05月13日 10:26 [轉(zhuǎn)載] TT中國(guó)
在處理日益增長(zhǎng)的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)過(guò)程中,Hadoop文件系統(tǒng)及MapReduce框架已經(jīng)成為出鏡率最高的技術(shù)名詞。但作為數(shù)據(jù)管理技術(shù)領(lǐng)域的新手,Hadoop要想獲得更廣泛的成功,成熟的數(shù)據(jù)管理軟件工具是必不可少的。
在Web應(yīng)用方面Hadoop已經(jīng)證明了自己,但是迄今為止大多數(shù)的工作也僅僅歸為POC的范疇。健壯的管理能力缺失是造成這一現(xiàn)象的主要原因,然而事情正在發(fā)生改變:在企業(yè)中,Hadoop有待于更進(jìn)一步的融入運(yùn)營(yíng)工作流,以期帶來(lái)更好的安全性和查詢功能。
很顯然,廠商對(duì)Hadoop數(shù)據(jù)管理工具的關(guān)注正在升溫。最近來(lái)自于IBM和Teradata的公告中稱,他們期待有方法可以利用開源Hadoop來(lái)滿足主流企業(yè)的一般性運(yùn)營(yíng)需求。
事實(shí)上,有許多企業(yè)在沙盒(Sandbox)中運(yùn)行Hadoop項(xiàng)目,讓基于Java的Hadoop集群與網(wǎng)絡(luò)分離并隔離在一個(gè)封閉空間內(nèi),只有少數(shù)人可以對(duì)其進(jìn)行訪問(wèn)。為什么要這樣做呢?原因就是他們無(wú)法保證系統(tǒng)中是否存在敏感數(shù)據(jù),如果這些信息被泄露出去,那么公司可能會(huì)惹上大麻煩。
沙盒模式并不是新鮮事物,很多新技術(shù)都會(huì)經(jīng)歷這樣一個(gè)“自我封閉”的階段。父母在某種程度上會(huì)因?yàn)樗麄兊暮⒆釉谏澈兄型嫠6械桨残,至少很多可能的意外?huì)在沙盒中得以限制。這同樣適用于需要部署新技術(shù)的數(shù)據(jù)管理者。
Hadoop做為一個(gè)暫存區(qū)
Teradata的市場(chǎng)副總裁Steve Woolidge向TechTarget記者介紹,Teradata Enterprise Accesse對(duì)于Hadoop軟件推廣的重點(diǎn)在于安全性的提升,工作負(fù)載管理以及SQL訪問(wèn)。這些功能需求為實(shí)現(xiàn)更好的Hadoop框架指明了道路。
Woolidge并不認(rèn)同Hadoop是作為實(shí)驗(yàn)性技術(shù)而面向用戶的觀點(diǎn),他認(rèn)為Hadoop一種類似于數(shù)據(jù)預(yù)處理區(qū)的東西,可以將它看做是一個(gè)存儲(chǔ)大量不同類型數(shù)據(jù)的暫存區(qū)。
Hadoop文件數(shù)據(jù)的優(yōu)勢(shì)之一就是公司不用對(duì)其進(jìn)行轉(zhuǎn)換就可以存儲(chǔ)。但是下一步會(huì)更加復(fù)雜:Hadoop獲得信息容易,但取出信息就困難許多。
Teradata的新工具包括Smart Loader for Hadoop,它可以為業(yè)務(wù)分析師提供Hadoop集群和負(fù)載工作,同時(shí)SQL-H軟件可以用來(lái)查詢Hadoop數(shù)據(jù)。對(duì)于終端用戶,SQL-H使得大數(shù)據(jù)更便于管理。此外,在Hadoop上加一個(gè)SQL-H層意味著你可以對(duì)在Hadoop系統(tǒng)中可見的表實(shí)現(xiàn)的行級(jí)安全性。
不再輕率以待
據(jù)IBM軟件集團(tuán)的營(yíng)銷主管Bernie Spang說(shuō),許多公司已經(jīng)度過(guò)了Hadoop的實(shí)驗(yàn)階段,這意味著Hadoop管理能力正在更多的走向臺(tái)前。Spang說(shuō):“現(xiàn)在他們正把Hadoop應(yīng)用到企業(yè)問(wèn)題中去,而人們不得不對(duì)一些細(xì)節(jié)進(jìn)行處理。”
IBM近期推出了其PureData System的新版本,它可以用來(lái)優(yōu)化Hadoop應(yīng)用程序。這個(gè)一體化產(chǎn)品是為了簡(jiǎn)化管理工作流程,為Hadoop相關(guān)的工作提供必需的支持和安全性保障。
Spang表示,很多企業(yè)已經(jīng)將Hadoop做為一種快速數(shù)據(jù)分片的工具。企業(yè)日益增加對(duì)這項(xiàng)技術(shù)的應(yīng)用,但這并不意味著Hadoop系統(tǒng)已經(jīng)真正成熟,相信更多的Hadoop項(xiàng)目還會(huì)處于沙盒階段。
但是,雖然開源是Hadoop的一個(gè)主要賣點(diǎn),但是行業(yè)內(nèi)的一般經(jīng)驗(yàn)是,企業(yè)軟件管理工具更在意開源領(lǐng)域之外的東西。對(duì)于許多主流操作很可能會(huì)需要一些周邊工具來(lái)實(shí)現(xiàn),并且這些中的許多將會(huì)是商業(yè)工具。改進(jìn)Hadoop數(shù)據(jù)管理會(huì)是今年需要密切關(guān)注的一個(gè)趨勢(shì)。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.