TechTarget中國 發(fā)表于:13年08月16日 10:29 [轉(zhuǎn)載] TT中國
寶立明(Stephen Brobst)是Teradata公司的首席技術(shù)官, 在數(shù)據(jù)倉庫以及數(shù)據(jù)管理技術(shù)領(lǐng)域,他擁有超過20年的經(jīng)驗(yàn)。在大數(shù)據(jù)方面,關(guān)于內(nèi)存計(jì)算以及開源Hadoop等,寶立明也發(fā)表過很多獨(dú)特的見解。在廠商的發(fā)言人當(dāng)中,寶立明也是為數(shù)不多能夠?qū)⒓夹g(shù)深入淺出解釋清楚的人之一。他近期在DataInformed網(wǎng)站上發(fā)表了一篇關(guān)于大數(shù)據(jù)項(xiàng)目建設(shè)的文章,其中探討了大數(shù)據(jù)在企業(yè)中為何失敗的原因,并為企業(yè)建設(shè)大數(shù)據(jù)項(xiàng)目給出了值得關(guān)注的幾點(diǎn)建議。TechTarget數(shù)據(jù)庫網(wǎng)站在此進(jìn)行了編譯,希望能夠幫助您更好地從技術(shù)和業(yè)務(wù)層面理解大數(shù)據(jù)。
在接觸大數(shù)據(jù)的時(shí)候,業(yè)界往往會(huì)提到三個(gè)V的概念,即數(shù)量、種類和速度(volume, variety, velocity)。然而,我們對(duì)另外一個(gè)V,Value即價(jià)值的關(guān)注顯然是不夠的。也正是出于這個(gè)原因,有很多倉促上馬的大數(shù)據(jù)項(xiàng)目沒有能夠抓住這個(gè)新興的商業(yè)機(jī)遇,沒能達(dá)到預(yù)期的投資回報(bào)率從而導(dǎo)致失敗。
大數(shù)據(jù)項(xiàng)目失敗的原因主要集中在以下幾點(diǎn):
1、太過關(guān)注技術(shù)層面,而忽視了商業(yè)價(jià)值;
2、相關(guān)人員不能訪問到他們需要的數(shù)據(jù);
3、未能達(dá)到企業(yè)級(jí)的要求;
4、對(duì)項(xiàng)目的總擁有成本(TCO)缺乏成熟的理解,這其中包括人員和IT系統(tǒng)。
目前正在進(jìn)行的很多大數(shù)據(jù)項(xiàng)目或者POC測試,更多地是對(duì)新技術(shù)的測試,而并不是商業(yè)價(jià)值的挖掘。從Apache網(wǎng)站下載開源軟件,然后對(duì)Hadoop測試的確很有意思,但這方面的努力很少能夠?qū)I(yè)務(wù)帶來真正的價(jià)值。
向這些項(xiàng)目要價(jià)值,企業(yè)必須有至少一名的業(yè)務(wù)人員為項(xiàng)目提供方向性的指導(dǎo)。一開始就把海量數(shù)據(jù)存儲(chǔ)到HDFS或者數(shù)據(jù)庫,然后投入大量的新技術(shù)來對(duì)其進(jìn)行分析,這樣的大數(shù)據(jù)項(xiàng)目注定是要失敗的。在缺少業(yè)務(wù)指引的情況下,就不要幻想能夠挖掘出業(yè)務(wù)價(jià)值。
業(yè)務(wù)分析師與數(shù)據(jù)科學(xué)家的關(guān)系
從大數(shù)據(jù)中獲取價(jià)值的關(guān)鍵,需要具備業(yè)務(wù)知識(shí)的員工能夠高效地獲取數(shù)據(jù)并進(jìn)行探索。在一些比較關(guān)注分析的組織當(dāng)中,還誕生了“數(shù)據(jù)科學(xué)家(Data Scientist)”這一職位。與傳統(tǒng)的業(yè)務(wù)分析師不同,數(shù)據(jù)科學(xué)家擁有不同的(更豐富的)知識(shí)儲(chǔ)備以及職能。
業(yè)務(wù)分析師通過數(shù)據(jù)來解答業(yè)務(wù)問題,而數(shù)據(jù)科學(xué)家并不專注于解答問題,他們更關(guān)注的是挖掘新問題。通常情況下,一名業(yè)務(wù)分析師會(huì)使用專門的、直觀的BI工具來找到問題并給出結(jié)果。
數(shù)據(jù)科學(xué)家則更傾向于使用數(shù)據(jù)可視化和數(shù)據(jù)挖掘工具來找到數(shù)據(jù)的相關(guān)性以及模式,而這些數(shù)據(jù)在之前是沒有很好地組織在一起的。在判定數(shù)據(jù)的相關(guān)性和模式之后,它們就可以轉(zhuǎn)化為新的業(yè)務(wù)問題,提交給業(yè)務(wù)分析師來進(jìn)行解答。
數(shù)據(jù)科學(xué)家成功的一個(gè)關(guān)鍵因素就是,為他們提供細(xì)節(jié)數(shù)據(jù)的直接訪問權(quán)。在一個(gè)大數(shù)據(jù)環(huán)境下,數(shù)據(jù)類型的多樣性以及非關(guān)系型格式為傳統(tǒng)分析工具提出了很大的挑戰(zhàn)。生成ANSI SQL的工具不能夠高效率地處理大數(shù)據(jù)內(nèi)容,因?yàn)檫@些大數(shù)據(jù)往往是鍵值對(duì)(Web日志數(shù)據(jù))、圖形(社交網(wǎng)絡(luò))、文本以及富媒體(音頻、視頻)文件等。
包括MapReduce編程框架在內(nèi)的新技術(shù),為數(shù)據(jù)的訪問提供了新方式,同時(shí)能夠很好地解決上述問題。然而對(duì)于數(shù)據(jù)科學(xué)家來說,使用這些所謂的“NoSQL”技術(shù)來進(jìn)行高級(jí)分析是比較費(fèi)勁的。這時(shí)就需要一個(gè)相關(guān)的技術(shù)專家對(duì)數(shù)據(jù)訪問進(jìn)行控制,他們的角色類似于中間人。
大數(shù)據(jù)發(fā)現(xiàn)
我曾經(jīng)聽一名在大型銀行工作的數(shù)據(jù)科學(xué)家抱怨:“Hadoop在低成本存儲(chǔ)海量數(shù)據(jù)方面的確是非常好的技術(shù),但問題是只有那些把數(shù)據(jù)存儲(chǔ)到HDFS里人才能夠把它們弄出來。”
為了解決這一難題,大數(shù)據(jù)發(fā)現(xiàn)(big data discovery)平臺(tái)將是整個(gè)生態(tài)系統(tǒng)當(dāng)中非常關(guān)鍵的一環(huán),它能夠?yàn)閿?shù)據(jù)科學(xué)家提供對(duì)大數(shù)據(jù)內(nèi)容的直接訪問。
為了實(shí)現(xiàn)這一目標(biāo),就必須有一個(gè)數(shù)據(jù)訪問接口,能夠提供比MapReduce、Java或者C++更高級(jí)別的抽象。這就需要對(duì)MapReduce與傳統(tǒng)SQL進(jìn)行結(jié)合,從而得到一個(gè)混合模型。盡管在開源社區(qū)有很多類似的工具,比如Pig、Hive,但這些項(xiàng)目還不能為數(shù)據(jù)科學(xué)家提供高效的、低成本的解決方案。
因此,SQL與NoSQL可以結(jié)合成為“Not Only SQL”,在解決方案中添加這樣的組合變得越來越流行。大多數(shù)商業(yè)關(guān)系型數(shù)據(jù)庫廠商都已經(jīng)提供了類似的功能。
大數(shù)據(jù)項(xiàng)目中另外一個(gè)常見的錯(cuò)誤就是陷入所謂的“銀彈”陷阱。新技術(shù)往往被視作解決所有問題的“萬能藥”,一段時(shí)間內(nèi),Hadoop已經(jīng)成為了大數(shù)據(jù)的代名詞,能應(yīng)對(duì)所有的分析挑戰(zhàn)。當(dāng)然,現(xiàn)實(shí)中永遠(yuǎn)不會(huì)出現(xiàn)一種技術(shù)解決所有問題的情況。大數(shù)據(jù)的成功需要使用正確的工具解決特定的問題。
三平臺(tái)策略:數(shù)據(jù)歸檔、數(shù)據(jù)發(fā)現(xiàn)、生產(chǎn)環(huán)境分析
包括LinkedIn、eBay在內(nèi)的分析密集型企業(yè),他們解決大數(shù)據(jù)的方法通常是使用三個(gè)平臺(tái)策略,即一個(gè)數(shù)據(jù)歸檔平臺(tái)、一個(gè)數(shù)據(jù)發(fā)現(xiàn)平臺(tái)和一個(gè)生產(chǎn)環(huán)境分析平臺(tái)。
由于擴(kuò)展性、快速數(shù)據(jù)加載以及低成本等特性,開源Hadoop一直受到了數(shù)據(jù)歸檔平臺(tái)的青睞。通過這個(gè)平臺(tái),數(shù)據(jù)可以被存儲(chǔ)和調(diào)配,并以鍵值對(duì)的方式進(jìn)行原始格式存儲(chǔ)。然而,將Hadoop作為分析平臺(tái)的基礎(chǔ)是極難操縱的,需要大量相關(guān)技術(shù)人員介入。
對(duì)于企業(yè)級(jí)應(yīng)用來說,我們就需要考慮更多的問題,比如可用性、可管理性以及安全性等。出于這一考慮,需要數(shù)據(jù)發(fā)現(xiàn)平臺(tái)填補(bǔ)Hadoop與生產(chǎn)環(huán)境中的傳統(tǒng)數(shù)據(jù)庫平臺(tái)之間的“鴻溝”。一個(gè)健壯的數(shù)據(jù)發(fā)現(xiàn)平臺(tái)將能夠填補(bǔ)上述Hadoop的功能缺陷,同時(shí)讓數(shù)據(jù)科學(xué)家能夠在SQL或者NoSQL環(huán)境下進(jìn)行工作(針對(duì)關(guān)系型數(shù)據(jù)或非關(guān)系型數(shù)據(jù))。
數(shù)據(jù)發(fā)現(xiàn)平臺(tái)優(yōu)化用來提供給小部分?jǐn)?shù)據(jù)科學(xué)家進(jìn)行數(shù)據(jù)試驗(yàn)的設(shè)計(jì)與執(zhí)行。數(shù)據(jù)將以未經(jīng)處理的格式從Hadoop歸檔平臺(tái)導(dǎo)出,以快速地提供給數(shù)據(jù)科學(xué)家。如果從試驗(yàn)中未能發(fā)現(xiàn)價(jià)值,這部分?jǐn)?shù)據(jù)可以簡單地丟棄。然后通過發(fā)現(xiàn)平臺(tái),新的數(shù)據(jù)再進(jìn)來。如果數(shù)據(jù)中發(fā)現(xiàn)價(jià)值,就把這些數(shù)據(jù)提交到企業(yè)數(shù)據(jù)倉庫平臺(tái)當(dāng)中。企業(yè)數(shù)據(jù)倉庫平臺(tái)中的數(shù)據(jù)是經(jīng)過驗(yàn)證、可以審計(jì)并可以重復(fù)利用的,用來進(jìn)行生產(chǎn)環(huán)境分析。
整個(gè)數(shù)據(jù)流動(dòng)的過程,我將其稱之為統(tǒng)一數(shù)據(jù)架構(gòu),旨在利用手頭上正確的工具來解決相應(yīng)的問題。企業(yè)可以使用Hadoop作為數(shù)據(jù)歸檔平臺(tái)。數(shù)據(jù)發(fā)現(xiàn)平臺(tái)能夠提供SQL之外的分析能力,同時(shí)提供了數(shù)據(jù)庫功能,并對(duì)性能、易用性和安全性進(jìn)行了優(yōu)化,適合數(shù)據(jù)科學(xué)家使用。不使用ETL技術(shù),通過后期綁定數(shù)據(jù)發(fā)現(xiàn)平臺(tái),為數(shù)據(jù)科學(xué)家提供足夠的靈活性。與此同時(shí),生產(chǎn)環(huán)境分析平臺(tái)有企業(yè)數(shù)據(jù)倉庫組成,其中的數(shù)據(jù)主要是通過ETL工具加載進(jìn)來的。
當(dāng)然,并不是所有的企業(yè)都需要上述的三個(gè)平臺(tái)。舉個(gè)例子, 如果數(shù)據(jù)量還不足夠大的話,那么不建議一上來就部署Hadoop平臺(tái)。相似地,數(shù)據(jù)發(fā)現(xiàn)平臺(tái)和生產(chǎn)環(huán)境分析平臺(tái)可以整合在一起,降低整體架構(gòu)的復(fù)雜性。
ROI與TCO
一個(gè)大數(shù)據(jù)項(xiàng)目要成功,就必須提供一個(gè)良好的投資回報(bào)率。然而,成功的必要投資往往被誤解。投資并不僅僅是在技術(shù)層面的,還包括具備相應(yīng)能力的人員投資。舉個(gè)例子,Hadoop的部署往往被誤認(rèn)為是免費(fèi)的,因?yàn)樗情_源的,沒有許可證費(fèi)用。然而在使用“免費(fèi)”軟件的時(shí)候,企業(yè)就會(huì)忽視對(duì)人才的投資,只把軟件安裝在服務(wù)器集群當(dāng)中是遠(yuǎn)遠(yuǎn)不夠的。
從這個(gè)角度看,Hadoop可以被視為免費(fèi)的寵物。領(lǐng)養(yǎng)的費(fèi)用是零,但喂養(yǎng)的費(fèi)用絕對(duì)就不是零了。企業(yè)必須重視數(shù)據(jù)科學(xué)家以及運(yùn)維人員的投資,這樣才能讓系統(tǒng)正常運(yùn)轉(zhuǎn),并得到業(yè)務(wù)價(jià)值回報(bào)。
另外,總擁有成本是最重要的,而不僅僅是購置成本。記住這一點(diǎn)對(duì)企業(yè)選擇正確的技術(shù)是很關(guān)鍵的?偝杀緝r(jià)值的優(yōu)化涉及到投資正確的技術(shù)以及技能組合,需要理解針對(duì)特定的工作負(fù)載哪些技術(shù)才是最適合的,并把整個(gè)系統(tǒng)結(jié)合起來。
相比于對(duì)技術(shù)過于崇拜的企業(yè),從價(jià)值層面打通IT與業(yè)務(wù)部門的企業(yè)更容易獲得大數(shù)據(jù)項(xiàng)目的成功。因此,對(duì)正確的技術(shù)與技能組合的投資是非常關(guān)鍵的,將它們有機(jī)結(jié)合起來是優(yōu)化總成本價(jià)值的基礎(chǔ),并能讓大數(shù)據(jù)項(xiàng)目真正獲得成功。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會(huì)員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.