調查方法及樣本說明
考慮到網(wǎng)絡調查的隨機性較容易保證,準確性較高,本項目采用網(wǎng)絡調查的方式,并建立網(wǎng)絡專題和入口便于用戶參與調查
(http://www.dochannel.com/research/register.html),調查時間為2012年8月1日至2012年8月20日,訪問對象是擁有數(shù)據(jù)存儲應用及需求的企業(yè)、機構戒者組織。
為了更好地統(tǒng)計國內各種類型用戶的存儲現(xiàn)狀,本次調查幵沒有對用戶的企業(yè)大小、數(shù)據(jù)觃模、行業(yè)類型、所處區(qū)域等迚行樣本分類,而是迚行了具體統(tǒng)計不記錄。根據(jù)統(tǒng)計資料顯示,本次調查樣本涵蓋了國內大部分的地區(qū)及省市,北至哈爾濱、南至深圳、西至烏魯木齊、東至南通,覆蓋范圍之大在存儲行業(yè)內非常鮮見。本次調查設計樣本數(shù)為300個,截止至2012年8月30日,調查實際樣本數(shù)為284個,有效實際樣本數(shù)234個。
有效實際樣本涉及行業(yè)中主要包括:政府、醫(yī)療、計算機服務和軟件業(yè)、制造業(yè)、金融服務、能源、電信等。其中媒體娛樂、汽車等行業(yè)也有所涉獵,占整個樣本數(shù)量的15%左右。
有效實際樣本涉及用戶的人員規(guī)模包括<50人、50-100人、101-500人、501-1000人、>1000人幾種劃分,其中以500人左右的企業(yè)占據(jù)主要,占比達到整體樣本數(shù)的49%,接近一半以上。
調查背景
隨著用戶數(shù)據(jù)量的暴增,其數(shù)據(jù)的存儲也出現(xiàn)高速增長。在大數(shù)據(jù)時代,當前用戶IT應用出現(xiàn)新的變化,數(shù)據(jù)結構類型出現(xiàn)新的特點,結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)并處于高速增長狀態(tài)。針對這一現(xiàn)象,DOIT特別針對中國企業(yè)大數(shù)據(jù)狀況進行此次調查,以探尋大數(shù)據(jù)背景下的中國企業(yè)數(shù)據(jù)存儲及應用的特點和趨勢,也希望可以幫助企業(yè)用戶能夠在 2012年把握大數(shù)據(jù)業(yè)務的現(xiàn)狀,為企業(yè)轉型和業(yè)務發(fā)展提供幫助,迎接大數(shù)據(jù)給企業(yè)帶來的新機遇。
2012年企業(yè)大數(shù)據(jù)狀況調查問卷所涉足的用戶領域和行業(yè)都比較全面,通過調查分析發(fā)現(xiàn),企業(yè)所面臨的大數(shù)據(jù)結構類型主要分為三類,包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)、半結構化數(shù)據(jù);企業(yè)基礎架構已經(jīng)不適應大數(shù)據(jù)的發(fā)展,有待進一步更新;企業(yè)處理大數(shù)據(jù)方面存在一系列問題需要解決。
大數(shù)據(jù)類型分析
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關注。大數(shù)據(jù)的數(shù)據(jù)格式包括哪些呢?這個問題,在現(xiàn)在看來似乎很是簡單,對于大數(shù)據(jù)的定義當前也比較明確了,總的來說大數(shù)據(jù)具備4個“V”,或者說其特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多,包括結構化、半結構化、非結構化類型。如當前大家經(jīng)常提及的網(wǎng)絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不同。業(yè)界將其歸納為4個“V”——Volume,Variety,Value,Velocity。
在統(tǒng)計本次調查的數(shù)據(jù)顯示,54%的用戶所在的公司的大數(shù)據(jù)結構類型屬于結構化數(shù)據(jù)、半結構化數(shù)據(jù)與非結構化數(shù)據(jù)三者皆有,可見,用戶在大數(shù)據(jù)類型方面已經(jīng)呈現(xiàn)出類型繁多的現(xiàn)狀。
另外,在用戶看來,目前所在的公司大數(shù)據(jù)出現(xiàn)非結構化數(shù)據(jù)明顯增多的情況占了調查樣本的40%左右,而有30%的人出現(xiàn)所有數(shù)據(jù)類型都明顯增多的情況。而結構化數(shù)據(jù)類型和半結構化數(shù)據(jù)類型都增多的情況有所放緩。
企業(yè)基礎架構分析
從本次調查結果可以看出,將近有46%的企業(yè)服務器數(shù)量沒有超過100臺,而擁有100至400臺占據(jù)了28%的比例。400至800臺服務器則占據(jù)剩下26%的比例。可以看出現(xiàn)今大部分企業(yè)面對大數(shù)據(jù)還沒有完善其硬件基礎架構設施。
在對企業(yè)基礎設施架構中采用最多處理器類型的調查中,明顯發(fā)現(xiàn)英特爾至強系列占據(jù)了被調查樣本數(shù)約80%,英特爾X86架構服務器在整個被調查用戶樣本中所占據(jù)的比例非常高,也說明X86架構的普及率早已超過了其他架構,當然其中我們不排除用戶也采用其他架構的需求所在,但從調查數(shù)據(jù)顯示,只有11%的用戶采用AMD皓龍系列,8%的用戶采用IBM POWER系列,而SUN SPARC系列的用戶占比最少,大約2%左右。
實際上,英特爾所代表的X86服務器在幾年之前就開始不斷侵蝕企業(yè)的關鍵業(yè)務領域,而英特爾所發(fā)布的E7系列處理器已經(jīng)能夠提供完全不弱于小型機CPU所能提供的性能。如以往一樣,在英特爾所提出的大數(shù)據(jù)方案之中,至強處理器將為大數(shù)據(jù)分析提供原動力。事實上,英特爾的x86架構硬件平臺已經(jīng)幫助甲骨文等廠商在大數(shù)據(jù)一體機等方面取得了高性能和經(jīng)濟實惠的統(tǒng)一,而英特爾自己的Hadoop發(fā)行版也正幫助用戶解決了大數(shù)據(jù)領域的實際問題。為此,這也是在本次企業(yè)大數(shù)據(jù)狀況調查中,X86架構服務器已經(jīng)占到了整個行業(yè)的主流地位的原因所在。
企業(yè)處理大數(shù)據(jù)能力分析
通過調查發(fā)現(xiàn),從當前階段大部分企業(yè)內大數(shù)據(jù)處理基礎設施的情況來看,其中有將近50%的企業(yè)面臨大數(shù)據(jù)處理的問題,這些問題主要表現(xiàn)在企業(yè)在面對大數(shù)據(jù)的解決之道應遵循采集、導入/處理、查詢、挖掘的流程等。這些問題的出現(xiàn)主要也是來自用戶對于大數(shù)據(jù)處理存在諸多困難和問題造成的。
在調查問及“當前您所在企業(yè)面對大數(shù)據(jù)處理的最大問題是什么?”時,有效調查樣本中選擇擴展性差和運營成本較高的用戶占比達到42%,同時大家對于應用部署過于復雜、資源利用率低、散熱不佳、能耗過高等其他問題也比較關注。
當然了,用戶對于大數(shù)據(jù)的關注度在提升的同時也是受到自身企業(yè)每天數(shù)據(jù)生成量影響的,在對有效樣本進行“您所在企業(yè)每天的數(shù)據(jù)生成量有多少?”的問話中發(fā)現(xiàn),將近50%的企業(yè)用戶每天的數(shù)據(jù)生成量達到了TB級,有接近28%的企業(yè)用戶每天數(shù)據(jù)生成量超過了40TB。而在100GB以下數(shù)據(jù)生成量的企業(yè)用戶占比相對較少。但是每天數(shù)據(jù)生成量達到或者超過100TB級別的用戶也同樣不多。
企業(yè)面臨大數(shù)據(jù)處理急需解決的技術挑戰(zhàn)其實最大的表現(xiàn)還是在多格式數(shù)據(jù)方面,其次是讀寫速度(讀寫速度是指數(shù)據(jù)從端點移動到處理器和存儲的速度),再就是國內存儲廠商所關注的海量數(shù)據(jù)。
另外,用戶在考慮采購什么樣廠商的大數(shù)據(jù)產(chǎn)品和方案時,更多的會考慮投資回報的問題。其次就是平臺的開放性,用戶對于平臺開放性的重視主要在于未來擴展問題。當然中國用戶也非常重視初期成本的投入的。當然也有18%被調查企業(yè)用戶非常重視廠商提供的服務和技術支持。對于方案是否開源關注占到了8%左右。
在對用戶提問“您所在公司的大數(shù)據(jù)處理系統(tǒng)部署了Hadoop體系嗎?”其中被調查樣本企業(yè)用戶有41%在計劃在內,即將部署。另外有25%用戶已經(jīng)部署,并在使用,有11%用戶不會部署,還有23%用戶沒有聽說過,需要對這類用戶進行教育。據(jù)被調查人士分析指出,應用部署過于復雜也催生了大數(shù)據(jù)處理系統(tǒng)管理員這一新興職業(yè),其主要負責日常Hadoop集群正常運行。例如直接或間接的管理硬件,當需要添加硬件時需保證集群仍能夠穩(wěn)定運行。同時還要負責系統(tǒng)監(jiān)控和配置,保證Hadoop與其他系統(tǒng)的有機結合。
在對用戶認為云時代下企業(yè)數(shù)據(jù)挖掘面臨哪些挑戰(zhàn)的問題調查中發(fā)現(xiàn),不管是數(shù)據(jù)安全性、網(wǎng)絡瓶頸技術不成熟服務的水平缺乏相關的法規(guī)保障還是其他問題,總體分析來看,在大數(shù)據(jù)增長的影響下企業(yè)數(shù)據(jù)挖掘面臨如下幾個挑戰(zhàn):
一是異構數(shù)據(jù)問題,當前企業(yè)用戶的網(wǎng)絡數(shù)據(jù)的最大特點就是半結構化,如文檔、報表、網(wǎng)頁、聲音、圖片、視頻等,而云計算變革所帶來的基于互聯(lián)網(wǎng)方式提供的各種應用,如何有效掌控這些異構數(shù)據(jù)就是一個挑戰(zhàn)。目前也有提出異構數(shù)據(jù)庫系統(tǒng),就是相關的多個數(shù)據(jù)庫系統(tǒng)的集合,可以實現(xiàn)數(shù)據(jù)的共享和透明訪問。
二是多源數(shù)據(jù)問題,隨著企業(yè)不斷適應云計算的變化,企業(yè)數(shù)據(jù)會有部分在公有云上,也有私有云上,面對不同數(shù)據(jù)來源,這對數(shù)據(jù)挖掘是一個很大的挑戰(zhàn),以電力行業(yè)為例,隨著網(wǎng)絡技術在電力系統(tǒng)中的廣泛應用,調度中心數(shù)據(jù)采集渠道多,如何從繁雜重復的信息中得到可靠準確信息,確實是一個挑戰(zhàn)。
三是挖掘效率問題,通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術,主要有數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示3個步驟。但在云計算環(huán)境下,封閉的企業(yè)數(shù)據(jù)挖掘會逐漸不能適用,面對互聯(lián)網(wǎng)帶來的異構數(shù)據(jù)挑戰(zhàn),哪種數(shù)據(jù)挖掘算法效率更高,值得進一步研究。
最重要的一項調查中,涉及到企業(yè)正在使用的數(shù)據(jù)分析與挖掘平臺,選項設立了5個項目,包括了(A、 Hadoop B、 開源的HBase C、 Teradata D、 Netezza E、Greenplum F、Exadata)從調查結果中分析得出Hadoop占據(jù)了一半多的市場,企業(yè)正在使用的數(shù)據(jù)分析與挖掘平臺最多的還是Hadoop??梢灶A見的是,Hadoop日漸成長引領開源云計算發(fā),“大象很會跳舞。”Hadoop作為企業(yè)級數(shù)據(jù)倉庫體系結構核心技術,在未來幾年中它將會保持很好的增長。
為此,在2012年英特爾也推出了它的Hadoop發(fā)行版,英特爾Hadoop發(fā)行版是一套解決方案,針對不同行業(yè)客戶進行系統(tǒng)整合,根據(jù)不同用戶的需求來實現(xiàn)個性化解決方案。長期來看,英特爾致力于打造健康的生態(tài)系統(tǒng),通過ISV、OEM等眾多合作伙伴,共同應對大數(shù)據(jù)帶來的挑戰(zhàn),把握時代機遇,利用大數(shù)據(jù)深挖價值。
英特爾以至強處理器構建的高效IT基礎設施為基石,英特爾還計劃在其上的數(shù)據(jù)組織與管理層,針對大數(shù)據(jù)的分發(fā)和管理需求提供針對英特爾平臺優(yōu)化的Hadoop產(chǎn)品和服務。在大數(shù)據(jù)的分析與發(fā)現(xiàn)層,提供針對客戶端與服務器端算法開發(fā)的支持,以滿足大數(shù)據(jù)計算所需的性能與規(guī)模要求。在大數(shù)據(jù)的決策支持與IT服務層,則將聯(lián)合生態(tài)系統(tǒng)內的合作伙伴,提供更為優(yōu)化的可視化應用體驗。英特爾所有與這些規(guī)劃相關的具體策略,將隨著大數(shù)據(jù)技術、應用和市場的發(fā)展逐步深化、細化。
相信有了英特爾這樣上游廠商的加入,必將對Hadoop的未來增長帶來更加積極深遠的影響。