PowerCenter大數(shù)據(jù)版提供了一個(gè)創(chuàng)新且無(wú)需編碼的環(huán)境,確保企業(yè)圍繞諸如Hadoop等新型技術(shù),通過(guò)高速數(shù)據(jù)存入和提取、無(wú)編碼開(kāi)發(fā)環(huán)境、虛擬數(shù)據(jù)機(jī),以及在Hadoop上近乎通用的數(shù)據(jù)訪問(wèn)和全面地提取、轉(zhuǎn)換和加載(ETL)來(lái)降低大數(shù)據(jù)項(xiàng)目的成本。
在近日的媒體見(jiàn)面會(huì)上,Informatica核心技術(shù)部資深產(chǎn)品管理總監(jiān)鄭瑋就大數(shù)據(jù)以及相關(guān)話題發(fā)表自己的看法。
BI依然保持旺盛需求
鄭瑋女士表示,BI經(jīng)歷幾年火熱發(fā)展以后,現(xiàn)在隨著大數(shù)據(jù)的出現(xiàn)企業(yè)對(duì)其依然保持著旺盛的需求。BI和ETL已經(jīng)形成了很好的競(jìng)爭(zhēng),以前BI是從數(shù)據(jù)倉(cāng)庫(kù)中拿出數(shù)據(jù)來(lái)做分析,而現(xiàn)在,BI可以直接和Hadoop結(jié)合進(jìn)行數(shù)據(jù)分析。
Hadoop和傳統(tǒng)數(shù)據(jù)庫(kù)配合使用
對(duì)于何時(shí)使用Hadoop,何時(shí)使用傳統(tǒng)數(shù)據(jù)庫(kù),一直以來(lái)有一種傳統(tǒng)的說(shuō)法:如果數(shù)據(jù)是非結(jié)構(gòu)的、半結(jié)構(gòu)的,就一定要使用Hadoop;如果是結(jié)構(gòu)的數(shù)據(jù),就要使用傳統(tǒng)數(shù)據(jù)庫(kù)。但是鄭瑋女士表示,其實(shí)兩種數(shù)據(jù)庫(kù)是可以交叉使用的。在使用的過(guò)程中,只需要考慮數(shù)據(jù)量,以及是否是新建項(xiàng)目。比如,很多客戶已經(jīng)花費(fèi)大量費(fèi)用建立了數(shù)據(jù)庫(kù),而且具有良好的應(yīng)用效果,那么,就沒(méi)有必要換掉已經(jīng)使用的數(shù)據(jù)庫(kù)。如果是客戶要上馬新項(xiàng)目,就可以直接使用Hadoop。
硬件層面的數(shù)據(jù)分析
對(duì)于數(shù)據(jù)分析,現(xiàn)在不僅軟件在進(jìn)步,硬件上面也在發(fā)展,現(xiàn)在有很多內(nèi)存的數(shù)據(jù)分析,對(duì)于那些沒(méi)有PB級(jí)別數(shù)據(jù)的企業(yè),可以選擇這種內(nèi)存的數(shù)據(jù)分析。Hadoop存放數(shù)據(jù)量很大,但數(shù)據(jù)是放在磁盤里的,數(shù)據(jù)分析速度會(huì)很慢,而把數(shù)據(jù)放到內(nèi)存去分析,速度將會(huì)非???,而且因?yàn)閮?nèi)存相對(duì)來(lái)講價(jià)格低,所以還可以節(jié)約成本,現(xiàn)在很多公司喜歡用內(nèi)存作分析。
鄭瑋女士還表示,亞洲擁有自然的大數(shù)據(jù)問(wèn)題,不僅是從人口,還是從地域方面來(lái)看,數(shù)據(jù)量都會(huì)很大,數(shù)據(jù)的復(fù)雜性也會(huì)很高。特別是在中國(guó),各種各樣的大數(shù)據(jù)問(wèn)題隨處可見(jiàn),而且在中國(guó)大數(shù)據(jù)將會(huì)擁有更多的機(jī)會(huì)。基于這種認(rèn)識(shí),Informatica明年將會(huì)增加中國(guó)的銷售人員,并將更加關(guān)注中國(guó)市場(chǎng)。