數(shù)據(jù)來源: 漢帆客戶使用第三方ISV存儲軟件實測所得

這里將特定測試平臺下未采用壓縮功能時VTL系統(tǒng)的備份速度歸一化為100%,在同樣的硬件配置下,增加軟件壓縮功能之后,整個系統(tǒng)的備份速度下降到原來的54%,也即備份速度減慢了46%。 如果采用Hifn公司DR1000硬件壓縮加速卡,將壓縮部分的運算轉(zhuǎn)交專門硬件壓縮加速卡,整個系統(tǒng)的備份速度迅速恢復(fù)到未采用壓縮時的97%,相對于軟件壓縮,采用硬件壓縮加速卡之后存儲系統(tǒng)備份的速度提升了80%。相對于未使用壓縮功能,系統(tǒng)備份的性能降低僅有3%,對VTL系統(tǒng)的備份速度影響甚微。同時經(jīng)過壓縮之后,存儲和傳輸中的數(shù)據(jù)會顯著縮小,存儲介質(zhì)和網(wǎng)絡(luò)帶寬的利用率因此提高。數(shù)據(jù)的減少不僅使存儲的效率更高、成本更節(jié)約,帶寬的利用也降到最低,使更經(jīng)濟、更快速的實現(xiàn)備份數(shù)據(jù)的遠程復(fù)制成為可能。

重復(fù)數(shù)據(jù)刪除

數(shù)據(jù)壓縮的對象是備份數(shù)據(jù)流,也就是在備份數(shù)據(jù)的字節(jié)流中查找重復(fù)出現(xiàn)的子串,重復(fù)子串出現(xiàn)后,僅記錄原子串的位置和重復(fù)的長度。而重復(fù)數(shù)據(jù)刪除的對象是文件或數(shù)據(jù)塊,判斷新的備份文件或數(shù)據(jù)塊是否已經(jīng)出現(xiàn),如果已經(jīng)備份過,則僅記錄原文件或數(shù)據(jù)塊存儲的位置和大小。
早期受限于VTL系統(tǒng)主機CPU的處理能力,重復(fù)數(shù)據(jù)刪除采用的是基于文件的形式,主要應(yīng)用于電子郵件管理及歸檔系統(tǒng)。隨著處理器性能的提升,以及類似于Hifn DR250/DR255這樣的專門加速卡的出現(xiàn),重復(fù)數(shù)據(jù)刪除的對象逐漸轉(zhuǎn)為數(shù)據(jù)塊。

對于塊級重復(fù)數(shù)據(jù)刪除,當(dāng)讀取數(shù)據(jù)時,De-duplication引擎利用Hash算法識別唯一的數(shù)據(jù)塊,系統(tǒng)將保留Hash索引,每個Hash編碼指向一個不同的數(shù)據(jù)塊。當(dāng)新的備份發(fā)生時,會自動的與現(xiàn)有的塊進行比對,如果索引中已經(jīng)有相同的塊,數(shù)據(jù)將會被刪除或被指向塊的指針?biāo)?;反之,則會被保存并在索引中為其創(chuàng)建一個新的Hash編碼。

衡量重復(fù)數(shù)據(jù)刪除功能的優(yōu)劣主要是重復(fù)數(shù)據(jù)刪除比率,該參數(shù)與所用數(shù)據(jù)塊的大小也即顆粒精細程度相關(guān)。理論上講,更細致的顆粒會帶來更高的重復(fù)數(shù)據(jù)刪除比率。然而,更細致的顆粒意味著大量的Hash表,從而對De-duplication引擎的性能還有恢復(fù)時重組模塊造成繁重的負擔(dān),進而導(dǎo)致更糟糕的重復(fù)數(shù)據(jù)刪除性能和更高的CPU消耗。根據(jù)用戶業(yè)務(wù)數(shù)據(jù)的不同,需要選用不同的顆粒尺寸,業(yè)內(nèi)數(shù)據(jù)塊的平均大小在4KB-24KB之間。在這種顆粒范圍內(nèi),比較合理重復(fù)數(shù)據(jù)刪除比率在10~20:1之間,實際應(yīng)用時的重復(fù)數(shù)據(jù)刪除比率隨不同的業(yè)務(wù)數(shù)據(jù)會有所出入。

由于數(shù)據(jù)壓縮和重復(fù)數(shù)據(jù)刪除操作的對象屬于備份數(shù)據(jù)流的不同級別,前者針對字節(jié)流,而后者針對數(shù)據(jù)塊。因此可以將兩種技術(shù)有效地結(jié)合起來,備份數(shù)據(jù)流可以先經(jīng)過De-Duplication執(zhí)行去重操作,再將唯一的數(shù)據(jù)塊送入硬件壓縮加速卡壓縮。經(jīng)這兩步處理之后,需要存儲的數(shù)據(jù)總量可能只有原始數(shù)據(jù)的2.5%~5%之間。

Hifn公司作為全球領(lǐng)先的容量優(yōu)化技術(shù)的硬件加速方案提供商,其旗下數(shù)據(jù)壓縮工業(yè)標(biāo)準(zhǔn)專利算法和Express DR系列產(chǎn)品線,為OEM和系統(tǒng)集成商提供了完善的解決方案。其中Express DR1000加速卡提供了業(yè)界最強的壓縮處理能力,高達800 MB/s。Express DR250/255加速卡在提供數(shù)據(jù)壓縮加速的同時,還具有對重復(fù)數(shù)據(jù)刪除技術(shù)提供加速的能力,支持MD5、SHA-1等主要安全Hash算法,處理性能達到250MB/s。

硬件壓縮和重復(fù)數(shù)據(jù)刪除,這兩種容量優(yōu)化技術(shù)可以有效地縮小備份數(shù)據(jù)對物理存儲介質(zhì)的消耗,提升系統(tǒng)的可靠性,顯著降低數(shù)據(jù)中心空間、供電和冷卻成本。對于構(gòu)建新一代節(jié)能環(huán)保,更綠色的數(shù)據(jù)中心,具有非常重要的意義。

分享到

cuihao

相關(guān)推薦