梅敏玲表示,2009年EMC中國區(qū)的增長點主要在固態(tài)硬盤、重復(fù)數(shù)據(jù)刪除和虛擬化方面,行業(yè)方面,除傳統(tǒng)的SMB、電信、政府、醫(yī)療、教育和交通外,EMC首次進入國家電網(wǎng)。目前,EMC在全國的二級渠道已經(jīng)如愿以償?shù)倪_到1200家,中國區(qū)仍然“保持了兩位數(shù)的增長。”
EMC產(chǎn)品線整合 部門調(diào)整
據(jù)EMC大中華區(qū)市場及渠道策略總監(jiān)梅敏玲表示,在原英特爾高管帕特基辛格加盟EMC之后,EMC的組織架構(gòu)進行了很大的調(diào)整,現(xiàn)在EMC包括管理Symmetrix和V-Max的高端存儲部門,管理Avamar、DataDomain產(chǎn)品、NetWorker和DL磁盤庫的備份恢復(fù)系統(tǒng)部門,以及整合現(xiàn)有磁盤系統(tǒng)CLARiiON、Celerra以及剛剛從BuRA解決方案中脫離出來的Centera產(chǎn)品的統(tǒng)一存儲部門。
在提及此前與昆騰、戴爾在重復(fù)數(shù)據(jù)刪除技術(shù)領(lǐng)域的合作時,梅敏玲提到,EMC與昆騰的合作已經(jīng)停止,與戴爾公司則主要是OEM DataDomain存儲系統(tǒng)的合作關(guān)系。
此外,梅敏玲表示,在今年5月,EMC將發(fā)布更多的虛擬存儲產(chǎn)品,而存儲部門的正式調(diào)整屆時也會宣布。
BRS部門現(xiàn)在所負(fù)責(zé)的產(chǎn)品,看得出已經(jīng)不包括Centera,EMC現(xiàn)在的理念認(rèn)為,備份應(yīng)該與主存儲更貼近,是“應(yīng)急”而非“保護”,歸檔是面向長期查詢和BI的應(yīng)用
蔡志剛表示,EMC BRS部門提供綜合數(shù)據(jù)保護解決方案,從重復(fù)數(shù)據(jù)刪除技術(shù)的文件系統(tǒng)、服務(wù)器恢復(fù)與災(zāi)難恢復(fù)、遠程站點實時監(jiān)控、重復(fù)數(shù)據(jù)刪除存儲系統(tǒng)、虛擬磁帶庫、快照持續(xù)數(shù)據(jù)保護和復(fù)制、磁盤與磁帶的保護以及云技術(shù),都將圍繞BRS部門展開。
EMC備份恢復(fù)系統(tǒng)部大中華區(qū)總經(jīng)理蔡志剛
備份變革:重復(fù)數(shù)據(jù)刪除定義Storage 4.0
蔡志剛在演講中表示,以磁盤為中心的備份與恢復(fù)架構(gòu)正在大范圍取代傳統(tǒng)的以磁帶為中心的備份和容災(zāi)管理,EMC的DataDomain、Avamar和Data Protection Advisor等結(jié)合,已經(jīng)能夠更高級別的容災(zāi)數(shù)據(jù)存儲。
他指出,隨著磁盤備份技術(shù)的普及和用戶對備份需求的改變,原有的備份概念已經(jīng)從“保留數(shù)據(jù),以防萬一”變成了主存儲之外的二級存儲,DataDomain作為一種“具有重復(fù)數(shù)據(jù)刪除的二級存儲”正在成為數(shù)據(jù)中心內(nèi)一種不同以往的在線存儲系統(tǒng),直接服務(wù)于企業(yè)的業(yè)務(wù)數(shù)據(jù)需求。
蔡志剛將備份恢復(fù)和歸檔基于磁盤實現(xiàn),主存儲仍然使用昂貴的高速硬盤的存儲時代成為Storage 3.0,他認(rèn)為,隨著重復(fù)數(shù)據(jù)刪除技術(shù)的成熟,和具有此功能的二級存儲系統(tǒng)性能的提升,這些系統(tǒng)完全有能力成為速度較慢的位居“二線”的在線系統(tǒng),取代原有的昂貴的大規(guī)模的在線存儲,而原有的需要高速主存儲的一小部分?jǐn)?shù)據(jù),將存儲在采用閃存技術(shù)的主存儲系統(tǒng)中,“其余是均采用重復(fù)數(shù)據(jù)刪除磁盤技術(shù)”的“重復(fù)數(shù)據(jù)刪除二級存儲”。
顯然,在Storage 4.0中,重復(fù)數(shù)據(jù)刪除技術(shù)將是其中的重點,蔡志剛表示,結(jié)合EMC的源端重復(fù)數(shù)據(jù)刪除產(chǎn)品Avamar和目標(biāo)段重復(fù)數(shù)據(jù)刪除產(chǎn)品DataDomain系列,EMC能夠大幅度的削減不同領(lǐng)域的用戶的冗余數(shù)據(jù),“重復(fù)數(shù)據(jù)刪除需求仍然強勁, 這與這項技術(shù)為客戶帶來的顯著成本節(jié)約是一致的。”他認(rèn)為,兩項不同的重復(fù)數(shù)據(jù)刪除技術(shù)產(chǎn)品,能夠確保EMC BRS部門在重復(fù)數(shù)據(jù)刪除領(lǐng)域的領(lǐng)導(dǎo)地位,而這也就意味著,EMC將在Storage 4.0時代獲得明顯的領(lǐng)先優(yōu)勢。
從Storage 1.0到Storage 4.0的演變
此外,蔡志剛在Storage 4.0的架構(gòu)中,也徹底去掉了磁帶系統(tǒng),他表示,在結(jié)合了EMC領(lǐng)先的重復(fù)數(shù)據(jù)刪除技術(shù)磁盤存儲技術(shù)之后,磁盤備份和歸檔將是不可阻擋的趨勢。
“確立在綜合備份與恢復(fù)解決方案方面更大的領(lǐng)先優(yōu)勢?!辈讨緞偙硎?,EMC仍然在努力保持在備份與恢復(fù)領(lǐng)域的領(lǐng)先地位,包括重復(fù)數(shù)據(jù)刪除軟件和存儲系統(tǒng)、虛擬磁帶庫和備份軟件。BRS部門將在“為用戶提供最先進的備份與恢復(fù)解決方案?!?/p>
在媒體發(fā)布會上,EMC備份恢復(fù)系統(tǒng)部大中華區(qū)技術(shù)經(jīng)理魏燕則詳細介紹了DataDomain產(chǎn)品的技術(shù)細節(jié),以及在被收購后在EMC眾多產(chǎn)品和BRS部門的位置,當(dāng)然,還包括相應(yīng)的產(chǎn)品更新。
與備份軟件加強整合
在EMC的重復(fù)數(shù)據(jù)刪除技術(shù)藍圖中,Avamar和DataDomain被賦予不同的工作目標(biāo),Avamar更側(cè)重于源端,更偏向在VMware虛擬化環(huán)境、備份服務(wù)器、在線復(fù)制等應(yīng)用領(lǐng)域,其最新的進展是EMC將Avamar推進到了桌面和移動辦公領(lǐng)域;DataDomain的工作則更多的側(cè)重在目標(biāo)端,即業(yè)務(wù)系統(tǒng)后端所連接的存儲、備份和歸檔、容災(zāi)設(shè)備。
魏燕表示,目前DataDomain已經(jīng)能夠在包括EMC、賽門鐵克、CommVault、IBM Tivoli、BakBone和vizioncore的環(huán)境下滿足備份恢復(fù)到DataDomain系統(tǒng)時的重復(fù)數(shù)據(jù)刪除功能。
由于OST所帶來的出色性能,DataDomain對OST的支持十分積極,而對于新的GDA系統(tǒng)來說,全局重復(fù)數(shù)據(jù)刪除和命名空間,極大的提升了DataDomain在更大規(guī)模數(shù)據(jù)存儲環(huán)境下的競爭力。
不過,在談到DataDomain最新推出的全局重復(fù)數(shù)據(jù)刪除陣列GDA時,魏燕承認(rèn),目前GDA的全局重復(fù)數(shù)據(jù)刪除支持最好的仍然是賽門鐵克的NBU和BE,“在發(fā)布之前,Data Domain已經(jīng)支持OST(賽門鐵克OpenStorage技術(shù)(OST))很長時間了。所以最開始做第一個合作肯定是選最成熟的?!彼硎?,由于OST的性能很好且設(shè)計初衷就是為了以高性能進行數(shù)據(jù)備份,因此,目前DataDomain全局重復(fù)數(shù)據(jù)刪除陣列GDA與賽門鐵克的OST技術(shù)配合,能夠提高LAN備份性能至少30%。
DataDomain三項技術(shù)亮點
在重復(fù)數(shù)據(jù)刪除技術(shù)中,有一個有關(guān)性能和重復(fù)數(shù)據(jù)刪除比率的博弈:如果數(shù)據(jù)段劃分得太大,找到相同數(shù)據(jù)段的概率低,則數(shù)據(jù)壓縮率不高。如果數(shù)據(jù)段劃分得太小,找到相同數(shù)據(jù)段的概率高,但是計算和比較的工作量比較大。
如圖所示,可變長能夠減少更多的重復(fù)數(shù)據(jù)。在大多數(shù)情況下,越小的數(shù)據(jù)塊和可變長,能夠盡可能地減少如上圖這樣只修改數(shù)據(jù)中很小部分所造成的重復(fù)存儲。
“經(jīng)過研究,Data Domain提出可以智能化可變長,數(shù)據(jù)段長度越短,數(shù)據(jù)的重復(fù)率就越高,數(shù)據(jù)段越長重復(fù)率就越低。但重復(fù)段越短,管理的數(shù)據(jù)量就會呈現(xiàn)指數(shù)增加,會使系統(tǒng)性能增加,因此最后優(yōu)化到4K-12K之間,作為可變長度。在這樣一些特定的例子里,把長度由原來的4K變成6K或者8K,使絕大多數(shù)數(shù)據(jù)具備相同的內(nèi)容,這樣的內(nèi)容就可以被忽略掉,因為是重復(fù)性的數(shù)據(jù)?!蔽貉嗾劦?/p>
得益于采用經(jīng)過驗證的的可變長數(shù)據(jù)塊劃分技術(shù),DataDomain的重復(fù)數(shù)據(jù)刪除性能效果已經(jīng)得到了許多用戶的認(rèn)可,而DataDomain也在數(shù)據(jù)壓縮率和系統(tǒng)的計算量之間找到了一個比較好的平衡點。
DataDomain的Inline模式,與傳統(tǒng)的Post Process方式相比,inline模式不需要完整的存儲備份,或是將每次備份的數(shù)據(jù)以完整的大小存入,這一點在進行全備份的時候尤其具有優(yōu)勢,能夠大幅度減少存儲系統(tǒng)應(yīng)對全備份時所需要的大容量
而對于如何減少重復(fù)數(shù)據(jù)刪除系統(tǒng)所需配置的存儲容量并加快重復(fù)數(shù)據(jù)刪除速度,魏燕表示,DataDomain利用的是“Inline”的模式:這是一種類似“帶內(nèi)處理”的模式,備份數(shù)據(jù)流進入DataDomain的設(shè)備之后,進行可變長的分段、切割、計算,將重復(fù)的數(shù)據(jù)刪掉,而不是保存。這些步驟都在數(shù)據(jù)流進入系統(tǒng),還沒有進入到盤上之前的進入過程中(邊處理邊保存)處理。
同時,基于SSL架構(gòu)的Data Domain系統(tǒng),通過特殊的算法,使得在內(nèi)存中就能識別出99%的新數(shù)據(jù)段,只有對剩下的數(shù)據(jù)段才需要讀取磁盤,從而大大減少磁盤讀取次數(shù)??它讀取磁盤時,會根據(jù)特殊的算法,每次讀取一批數(shù)據(jù)緩存起來,這使得多數(shù)查找都能在緩存中進行。同時,它在寫磁盤時,就將相關(guān)的數(shù)據(jù)段和指紋封裝保存在一起。這樣,每次可以讀取更多數(shù)據(jù),而且讀到的數(shù)據(jù)更有效,進一步減少磁盤讀取次數(shù)。
“一邊已經(jīng)存了100個數(shù)據(jù),現(xiàn)在進來第101個數(shù)據(jù),我首先跟這100個數(shù)據(jù)比較,是否一樣,如果一樣這個數(shù)據(jù)我就不存了?!蔽貉嘈蜗蟮慕榻B了DataDomain的處理方式,他表示,當(dāng)數(shù)據(jù)流入到DataDomain,inline的方式下處理器接管數(shù)據(jù),但第一件事不是存儲數(shù)據(jù)到磁盤,而是利用可變長分段切分?jǐn)?shù)據(jù)與內(nèi)存中此前已經(jīng)通過算法緩存出來的數(shù)據(jù)進行比較,檢測是否有所重復(fù),“”如果不是重復(fù)數(shù)據(jù),才會寫入系統(tǒng)。
但唯一的問題是,雖然重復(fù)數(shù)據(jù)刪除過程只有一次IO,但由于大量的處理,其在過程中異常耗費CPU??魏燕提到,這與DataDomain的團隊當(dāng)初設(shè)計系統(tǒng)時的理念有關(guān):從一開始,之前從事算法設(shè)計和優(yōu)化的團隊就制定了以多核系統(tǒng)并行處理的架構(gòu),“高性能來自于以CPU為核心的技術(shù)手段”魏燕表示,而有關(guān)DataDomain在多核架構(gòu)上的詳情,在此前采訪DataDomain創(chuàng)始人李凱時我們已詳盡報道。
七十二變:DataDomain的不同身份
針對市場上仍然對DataDomain系統(tǒng)所存在的誤解,魏燕表示,DataDomain的系統(tǒng)僅僅是一個重復(fù)數(shù)據(jù)刪除設(shè)備,同時擁有存儲容量,而非單一就是VTL、NAS或是別的什么。
“Data Domain的技術(shù)人員不是搞計算機的,而是搞高性能計算的。他們是基于哈希算法研發(fā)出的,所以它是業(yè)界做重復(fù)數(shù)據(jù)刪除的鼻祖,它的系統(tǒng)跟別人不一樣的地方是上來首先是做重復(fù)數(shù)據(jù)刪除,然后再說別的對象?!蔽貉嗾J(rèn)為,因此Data Domain做了很長時間做算法,至于說包裝成什么樣的產(chǎn)品倒是件很容易的事情。
他指出,DataDomain首先推出NAS設(shè)備是由于NAS是最容易包裝,且接口簡單的設(shè)備,在系統(tǒng)方面無需作出太多變化,因此“成為業(yè)界第一個具備重復(fù)數(shù)據(jù)刪除功能的NAS”,而此后,基于此設(shè)計出了VTL,“VTL跟NAS只是表現(xiàn)形式的變化,Data Domain不在乎這個,只是延用別人的標(biāo)準(zhǔn)?!彼硎荆爸按蠹艺`認(rèn)為,Data Domain的VTL具備重復(fù)數(shù)據(jù)刪除功能,(但其實)Data Domain是具備重復(fù)數(shù)據(jù)刪除的VTL?!?/p>
魏燕表示,無論是NAS、VTL、災(zāi)備系統(tǒng)還是歸檔系統(tǒng)或是“重復(fù)數(shù)據(jù)刪除二級存儲”,都只是DataDomain設(shè)備的表象,“Data Domain的核心是做重復(fù)數(shù)據(jù)刪除”做成什么系統(tǒng),其實都是其次。
此外,魏燕透露,DataDomain現(xiàn)在已經(jīng)支持IBM主機和AS400系統(tǒng),并推出了新的全局?jǐn)?shù)據(jù)刪除系統(tǒng)GDA和新的高端型號DD880。
GDA相比DD880在邏輯容量、可用容量等方面都有了一倍的提升,但性能卻提升超過一倍,魏燕表示,“同一個作業(yè)進如DataDomain系統(tǒng),分布在兩個不同的服務(wù)端進行重復(fù)數(shù)據(jù)刪除處理,其速度肯定是1+1>2,同時,等待隊列的時間更短。
其中,GDA是目前最大最快inline速度的重復(fù)數(shù)據(jù)刪除系統(tǒng),支持全局重復(fù)數(shù)據(jù)刪除和全局命名空間,并如上文所說,支持賽門鐵克的NBU和BE OpenStorage技術(shù)(OST)。DD880則將此前DD690系統(tǒng)的最大容量從71TB增長到了142.5TB。此外,隨之發(fā)布的還有DataDomain的加密軟件選項、遠程復(fù)制拓?fù)洌∣ne-to-many Directory Replication)以及面向小型站點的遠程數(shù)據(jù)復(fù)制新特性低帶寬優(yōu)化技術(shù)。
遠程復(fù)制拓?fù)洌∣ne-to-many Directory Replication)技術(shù)的發(fā)布使得DataDomain系統(tǒng)能夠在容災(zāi)領(lǐng)域上獲得更好的利用,這是在原有的復(fù)制和備份功能上新增的選項,用戶能夠復(fù)制同一個目錄到多個遠程的DataDomain系統(tǒng),同時支持多數(shù)據(jù)流優(yōu)化,使得吞吐量達到最大化。
魏燕表示,這將幫助DataDomain在多個容災(zāi)站點保留多份拷貝,進一步加強數(shù)據(jù)保護增加數(shù)據(jù),同時允許數(shù)據(jù)分布在多個站點用于多種用途。此外,需要注意的是,當(dāng)生產(chǎn)系統(tǒng)和備份、容災(zāi)系統(tǒng)進行數(shù)據(jù)同步時,備份數(shù)據(jù)在傳輸過程中傳送的是Data Domain處理過的唯一數(shù)據(jù)段,即使被截獲,也無法辯知數(shù)據(jù)內(nèi)容,安全性較好。Data Domain的數(shù)據(jù)防損架構(gòu)可以貫穿備份點和容災(zāi)點之間,確保數(shù)據(jù)的可靠性。
“備份的目的是發(fā)生故障或者異常情況的時候,保證系統(tǒng)的正常運行?!蔽貉啾硎?,雖然DataDomain的系統(tǒng)不是在線存儲,但是其地位卻同等重要,而這也就是備份和歸檔不同的地方,他表示,備份是要在需要時能夠馬上用得上,甚至頂上去的,但歸檔不同。
“歸檔是少花錢多辦事,要更充分地利用價格昂貴的存儲資源”,它的目標(biāo)不是把東西扔在那兒就不管了,而是指需要在線查詢的時候都能查到,“歸檔的真正應(yīng)用就是在線查詢,歷史數(shù)據(jù)查詢。”不過,魏燕幽默的表示,DataDomain的設(shè)備也能夠做歸檔:“對于Data Domain來講,進到我這兒的東西無論是什么,都要進行重復(fù)數(shù)據(jù)刪除,所以叫‘全局重復(fù)數(shù)據(jù)刪除’?!?/p>