如果說遼沈戰(zhàn)役是三大戰(zhàn)役的關(guān)鍵,那么錦州之戰(zhàn)則是遼沈戰(zhàn)役的重中之重。如今,數(shù)據(jù)創(chuàng)新時(shí)代決戰(zhàn),關(guān)鍵在于數(shù)據(jù);而數(shù)據(jù)的關(guān)鍵在于海量數(shù)據(jù)存儲(chǔ)和處理,其中的關(guān)鍵又在于冷數(shù)據(jù)。類似錦州戰(zhàn)役重要意義,需要對(duì)冷數(shù)據(jù)給予高度重視。
冷數(shù)據(jù)存儲(chǔ)和處理真有如此重要意義嗎?
冷數(shù)據(jù)的“熱”時(shí)代
根據(jù)IDC預(yù)測(cè),全球年新增數(shù)據(jù)量2023年將超過100個(gè)ZB, 2025年將高達(dá)達(dá)175ZB。以視頻行業(yè)為例,一個(gè)1080P高清視頻攝像頭,一天將產(chǎn)生45GB數(shù)據(jù);一個(gè)視頻網(wǎng)站,每天所產(chǎn)生數(shù)據(jù)量可達(dá)TB以上;在醫(yī)療衛(wèi)生領(lǐng)域,每個(gè)基因測(cè)序DNA樣本數(shù)據(jù)為560GB,中國(guó)每年有1800多萬癌癥病例,如果全部使用基因分析技術(shù),每年就會(huì)產(chǎn)生10PB數(shù)據(jù)。此外,全國(guó)有3萬多家醫(yī)院,一家三甲醫(yī)院每年會(huì)產(chǎn)生20TB左右的影像數(shù)據(jù),數(shù)據(jù)爆炸式增長(zhǎng)之勢(shì)令人驚嘆,隨之而來的是前所未有的數(shù)據(jù)存儲(chǔ)成本支出,根據(jù)計(jì)算,采用目前市場(chǎng)主流8TB硬盤,存儲(chǔ)175ZB數(shù)據(jù)則需要230多億塊,每塊硬盤按照單價(jià)1300元計(jì)算,總計(jì)需要30萬億元,大約相當(dāng)于2019年中國(guó)GDP三分之一。
在如此嚴(yán)峻形式下,大量數(shù)據(jù)顯然沒有辦法得到有效保存。有數(shù)據(jù)表明,當(dāng)2025年全球新增數(shù)據(jù)量達(dá)到175ZB時(shí),真正能存儲(chǔ)下來的數(shù)據(jù)僅有15ZB左右,流失率超過91%,即使存儲(chǔ)下來的數(shù)據(jù),得到有效處理和分析的數(shù)據(jù)占比并不高,其中最主要的原因還是計(jì)算和存儲(chǔ)所需要的成本。
降伏成本惡魔至關(guān)重要。
作為全球知名的硬盤廠商,西部數(shù)據(jù)將海量數(shù)據(jù)分為:快數(shù)據(jù)、大數(shù)據(jù)兩種類型,其中,快數(shù)據(jù)又分為熱數(shù)據(jù)和溫?cái)?shù)據(jù);大數(shù)據(jù)分為冷數(shù)據(jù)和極冷數(shù)據(jù)。從占比看,快數(shù)據(jù)的占比在20%左右,其余80%的數(shù)據(jù)屬于冷數(shù)據(jù)范疇。其中,快數(shù)據(jù)又稱結(jié)構(gòu)化數(shù)據(jù),具有很高數(shù)據(jù)價(jià)值,以往以數(shù)據(jù)庫處理為主;與之相比,非結(jié)構(gòu)化數(shù)據(jù)屬于價(jià)值密度比較低的數(shù)據(jù),以社交數(shù)據(jù)、機(jī)器數(shù)據(jù)為主,以往多屬于被丟棄的數(shù)據(jù),但是隨著計(jì)算能力提升,低價(jià)值密度的結(jié)構(gòu)化數(shù)據(jù)處理成為了可能,從而社會(huì)迎來了數(shù)據(jù)創(chuàng)新時(shí)代。
西部數(shù)據(jù)公司副總裁兼中國(guó)區(qū)業(yè)務(wù)總經(jīng)理劉鋼表示:“如今,云服務(wù)提供商和系統(tǒng)集成商有一個(gè)共同點(diǎn):它們都需要一種多層存儲(chǔ)策略,利用多種技術(shù)管理寶貴數(shù)據(jù)的爆炸式增長(zhǎng)和大量工作負(fù)載。西部數(shù)據(jù)開發(fā)、制造, 銷售的內(nèi)容包含了從NAND、固態(tài)硬盤、硬盤和平臺(tái)在內(nèi)的一系列品類。西部數(shù)據(jù)完整的數(shù)據(jù)存儲(chǔ)解決方案為當(dāng)下蓬勃發(fā)展的數(shù)據(jù)需求提供針對(duì)性能、容量、總體擁有成本的優(yōu)化存儲(chǔ)選擇,幫助我們的客戶有效應(yīng)對(duì)他們的數(shù)據(jù)基礎(chǔ)架構(gòu)挑戰(zhàn)?!?/p>
數(shù)據(jù)創(chuàng)新時(shí)代首要解決的就是海量非結(jié)構(gòu)化數(shù)據(jù),滿足不了數(shù)據(jù)存儲(chǔ)的需求,數(shù)據(jù)創(chuàng)新就無從說起。受數(shù)據(jù)規(guī)模和成本限制,沒有辦法沿用傳統(tǒng)數(shù)據(jù)存儲(chǔ)手段,海量數(shù)據(jù)存儲(chǔ)需要走出一條新路,為此,分層存儲(chǔ)應(yīng)運(yùn)而生。
有容乃大,先進(jìn)技術(shù)滿足大數(shù)據(jù)存儲(chǔ)需求
從技術(shù)的角度看,海量數(shù)據(jù)爆炸式增長(zhǎng)帶來的需求,一是容量的需求,要求足夠存儲(chǔ)空間;二是性能的需求,因?yàn)榇鎯?chǔ)不是目的,數(shù)據(jù)創(chuàng)新才是目的,數(shù)據(jù)創(chuàng)新對(duì)于存儲(chǔ)有傳輸性能的需求,所謂近線存儲(chǔ),綜合考量,大容量磁盤才是最佳選擇,磁帶、光盤很難滿足需求。
為了追逐大容量,以西部數(shù)據(jù)為首的磁盤廠商在技術(shù)上無所不用其極。
首先是HelioSeal氦氣密封技術(shù)。相比于空氣,氦氣密度僅為空氣1/7,對(duì)于高速旋轉(zhuǎn)磁盤盤片而言,意味著更低的旋轉(zhuǎn)阻力,以及更小的盤片抖動(dòng),如此就能夠在有限空間內(nèi),將盤片從9片增加到10片,提供更高的存儲(chǔ)容量,同時(shí)也能帶來功耗節(jié)省。
與氦氣制造技術(shù)不同,疊瓦式磁記錄(SMR 磁盤)和能量輔助磁記錄(EAMR)技術(shù)是從磁盤盤片磁道距離和磁密度方面進(jìn)行挖潛。其中,SMR允許磁性位區(qū)域與相鄰磁道重疊,就像木瓦重疊一樣,從而增加磁盤磁道的密度,以此來提高磁盤表面的位密度。相比,EAMR是在寫入磁頭的主極施加電流,使之產(chǎn)生額外的磁場(chǎng),以此來增加提升磁盤磁道的面密度。此外,還有微波輔助磁記錄(MAMR)硬盤能夠比熱輔助磁記錄(HAMR)等創(chuàng)新技術(shù)。其中,SMR、EAMR等氦氣硬盤技術(shù)較為成熟,產(chǎn)品已經(jīng)投放市場(chǎng),以西部數(shù)據(jù)為例,已經(jīng)交付了五代采用氦氣密封技術(shù)的硬盤,數(shù)量超過5000萬件;到2024年,SMR HDD的出貨將占所有EB出貨量的50%。
從實(shí)際效果來看,CMR氦氣硬盤,以西部數(shù)據(jù)Ultrastar DC HC550為例,磁盤容量能夠達(dá)到16TB和18TB,Datto、DDN和Dropbox等國(guó)外用戶已經(jīng)率先使用了該大容量的硬盤。如果進(jìn)一步使用SMR技術(shù),以西部數(shù)據(jù)Ultrastar DC HC650為例,磁盤容量可以進(jìn)一步達(dá)到20TB。
揚(yáng)長(zhǎng)避短,物盡其用
單位存儲(chǔ)密度的大幅度提升,為海量數(shù)據(jù)存儲(chǔ)和處理創(chuàng)造了條件,以8月6日,UCloud最新發(fā)布的新一代歸檔存儲(chǔ)產(chǎn)品為例,相較標(biāo)準(zhǔn)存儲(chǔ),新產(chǎn)品能夠降低近80%存儲(chǔ)成本,能夠?yàn)橛脩籼峁┑椭?.024元GB/月的冷數(shù)據(jù)存儲(chǔ)解決方案,此外,UCoud 在兼容SMR、CMR盤、雙活高可用、上下電的IO調(diào)度、EC的靈活配置和磁盤故障自動(dòng)化等技術(shù)上下足了功夫,在提供高可靠、大容量存儲(chǔ)的同時(shí),兼顧TCO的需要。
新技術(shù)在帶來競(jìng)爭(zhēng)優(yōu)勢(shì)的同時(shí),也會(huì)帶來一些技術(shù)上的限制。以SMR為例,磁性位區(qū)域與相鄰磁道重疊,硬盤寫入數(shù)據(jù)時(shí),要先把所要改寫磁道的數(shù)據(jù)緩存起來,一邊要寫當(dāng)前磁道的數(shù)據(jù),還要將后面磁道的數(shù)據(jù)糾正,這就需要大緩存配置,即使如此也避免不了寫入性能的降低。
因此對(duì)于SMR磁盤存儲(chǔ)而言,應(yīng)該盡可能減少頻繁的數(shù)據(jù)擦寫,最佳的存儲(chǔ)方式就是順序?qū)懭?,讓生命周期相同的?shù)據(jù)處于相同的磁盤分區(qū);減少不同生命周期、不同存取熱度的數(shù)據(jù)的混雜。為此,西部數(shù)據(jù)對(duì)外發(fā)布了分區(qū)存儲(chǔ)技術(shù)(Zoned Storage),并對(duì)外發(fā)布了libZBC、libZNS共享庫以及開發(fā)工具,支持文件系統(tǒng)和內(nèi)核模塊設(shè)計(jì),這些技術(shù)已經(jīng)對(duì)外開源,并得到了SUSE、ATTO、Microchip、Broadcom等廠商的響應(yīng),UCloud最新一代歸檔存儲(chǔ)產(chǎn)品在自研的基礎(chǔ)上,很好兼顧了分區(qū)存儲(chǔ)技術(shù)的要求。
但是疑問在于:與大容量CMR磁盤相比,SMR磁盤容量?jī)H從18TB提升到20TB,僅為2TB提升,還需要克服寫入限制,值得為此大動(dòng)干戈嗎?
答案是:不要小看這2TB容量的提升。我們知道,單位TB價(jià)格( $/TB)只是現(xiàn)代云數(shù)據(jù)中心考量的一個(gè)維度,相比TCO 的降低并不限于降低 $/TB。每個(gè)硬盤的容量越大,服務(wù)器擁有儲(chǔ)存容量越大,例如從14TB遷移到18TB呈現(xiàn)出顯著的TCO收益:服務(wù)器減少了22%;TCO降低了11%。
鑒于數(shù)據(jù)中心占用空間有限,通過更高磁盤容量進(jìn)行更密集的存儲(chǔ)部署,顯然可以帶來更多的收入節(jié)省。存儲(chǔ)服務(wù)器的成本通常要求控制在數(shù)據(jù)中心總體運(yùn)營(yíng)成本的60%以內(nèi)。而實(shí)際上,更高容量的磁盤可以更有效地平衡這一需求。
小結(jié)
冷數(shù)據(jù)占比海量數(shù)據(jù)的80%,不僅如此,UCloud研究發(fā)現(xiàn),隨著時(shí)間推移,大概6個(gè)月左右,各類數(shù)據(jù)訪問量都會(huì)由熱至溫,由溫至冷,如果這些數(shù)據(jù)始終保持在生產(chǎn)系統(tǒng)中,勢(shì)必付出高昂的代價(jià)。為此,有效處理冷數(shù)據(jù)存儲(chǔ)意義重大!
拿下“錦州”,冷存儲(chǔ)事關(guān)全局,牽一發(fā)動(dòng)全身!十萬火急!