如果說遼沈戰(zhàn)役是三大戰(zhàn)役的關鍵,那么錦州之戰(zhàn)則是遼沈戰(zhàn)役的重中之重。如今,數據創(chuàng)新時代決戰(zhàn),關鍵在于數據;而數據的關鍵在于海量數據存儲和處理,其中的關鍵又在于冷數據。類似錦州戰(zhàn)役重要意義,需要對冷數據給予高度重視。
冷數據存儲和處理真有如此重要意義嗎?
冷數據的“熱”時代
根據IDC預測,全球年新增數據量2023年將超過100個ZB, 2025年將高達達175ZB。以視頻行業(yè)為例,一個1080P高清視頻攝像頭,一天將產生45GB數據;一個視頻網站,每天所產生數據量可達TB以上;在醫(yī)療衛(wèi)生領域,每個基因測序DNA樣本數據為560GB,中國每年有1800多萬癌癥病例,如果全部使用基因分析技術,每年就會產生10PB數據。此外,全國有3萬多家醫(yī)院,一家三甲醫(yī)院每年會產生20TB左右的影像數據,數據爆炸式增長之勢令人驚嘆,隨之而來的是前所未有的數據存儲成本支出,根據計算,采用目前市場主流8TB硬盤,存儲175ZB數據則需要230多億塊,每塊硬盤按照單價1300元計算,總計需要30萬億元,大約相當于2019年中國GDP三分之一。
在如此嚴峻形式下,大量數據顯然沒有辦法得到有效保存。有數據表明,當2025年全球新增數據量達到175ZB時,真正能存儲下來的數據僅有15ZB左右,流失率超過91%,即使存儲下來的數據,得到有效處理和分析的數據占比并不高,其中最主要的原因還是計算和存儲所需要的成本。
降伏成本惡魔至關重要。
作為全球知名的硬盤廠商,西部數據將海量數據分為:快數據、大數據兩種類型,其中,快數據又分為熱數據和溫數據;大數據分為冷數據和極冷數據。從占比看,快數據的占比在20%左右,其余80%的數據屬于冷數據范疇。其中,快數據又稱結構化數據,具有很高數據價值,以往以數據庫處理為主;與之相比,非結構化數據屬于價值密度比較低的數據,以社交數據、機器數據為主,以往多屬于被丟棄的數據,但是隨著計算能力提升,低價值密度的結構化數據處理成為了可能,從而社會迎來了數據創(chuàng)新時代。
西部數據公司副總裁兼中國區(qū)業(yè)務總經理劉鋼表示:“如今,云服務提供商和系統集成商有一個共同點:它們都需要一種多層存儲策略,利用多種技術管理寶貴數據的爆炸式增長和大量工作負載。西部數據開發(fā)、制造, 銷售的內容包含了從NAND、固態(tài)硬盤、硬盤和平臺在內的一系列品類。西部數據完整的數據存儲解決方案為當下蓬勃發(fā)展的數據需求提供針對性能、容量、總體擁有成本的優(yōu)化存儲選擇,幫助我們的客戶有效應對他們的數據基礎架構挑戰(zhàn)。”
數據創(chuàng)新時代首要解決的就是海量非結構化數據,滿足不了數據存儲的需求,數據創(chuàng)新就無從說起。受數據規(guī)模和成本限制,沒有辦法沿用傳統數據存儲手段,海量數據存儲需要走出一條新路,為此,分層存儲應運而生。
有容乃大,先進技術滿足大數據存儲需求
從技術的角度看,海量數據爆炸式增長帶來的需求,一是容量的需求,要求足夠存儲空間;二是性能的需求,因為存儲不是目的,數據創(chuàng)新才是目的,數據創(chuàng)新對于存儲有傳輸性能的需求,所謂近線存儲,綜合考量,大容量磁盤才是最佳選擇,磁帶、光盤很難滿足需求。
為了追逐大容量,以西部數據為首的磁盤廠商在技術上無所不用其極。
首先是HelioSeal氦氣密封技術。相比于空氣,氦氣密度僅為空氣1/7,對于高速旋轉磁盤盤片而言,意味著更低的旋轉阻力,以及更小的盤片抖動,如此就能夠在有限空間內,將盤片從9片增加到10片,提供更高的存儲容量,同時也能帶來功耗節(jié)省。
與氦氣制造技術不同,疊瓦式磁記錄(SMR 磁盤)和能量輔助磁記錄(EAMR)技術是從磁盤盤片磁道距離和磁密度方面進行挖潛。其中,SMR允許磁性位區(qū)域與相鄰磁道重疊,就像木瓦重疊一樣,從而增加磁盤磁道的密度,以此來提高磁盤表面的位密度。相比,EAMR是在寫入磁頭的主極施加電流,使之產生額外的磁場,以此來增加提升磁盤磁道的面密度。此外,還有微波輔助磁記錄(MAMR)硬盤能夠比熱輔助磁記錄(HAMR)等創(chuàng)新技術。其中,SMR、EAMR等氦氣硬盤技術較為成熟,產品已經投放市場,以西部數據為例,已經交付了五代采用氦氣密封技術的硬盤,數量超過5000萬件;到2024年,SMR HDD的出貨將占所有EB出貨量的50%。
從實際效果來看,CMR氦氣硬盤,以西部數據Ultrastar DC HC550為例,磁盤容量能夠達到16TB和18TB,Datto、DDN和Dropbox等國外用戶已經率先使用了該大容量的硬盤。如果進一步使用SMR技術,以西部數據Ultrastar DC HC650為例,磁盤容量可以進一步達到20TB。
揚長避短,物盡其用
單位存儲密度的大幅度提升,為海量數據存儲和處理創(chuàng)造了條件,以8月6日,UCloud最新發(fā)布的新一代歸檔存儲產品為例,相較標準存儲,新產品能夠降低近80%存儲成本,能夠為用戶提供低至0.024元GB/月的冷數據存儲解決方案,此外,UCoud 在兼容SMR、CMR盤、雙活高可用、上下電的IO調度、EC的靈活配置和磁盤故障自動化等技術上下足了功夫,在提供高可靠、大容量存儲的同時,兼顧TCO的需要。
新技術在帶來競爭優(yōu)勢的同時,也會帶來一些技術上的限制。以SMR為例,磁性位區(qū)域與相鄰磁道重疊,硬盤寫入數據時,要先把所要改寫磁道的數據緩存起來,一邊要寫當前磁道的數據,還要將后面磁道的數據糾正,這就需要大緩存配置,即使如此也避免不了寫入性能的降低。
因此對于SMR磁盤存儲而言,應該盡可能減少頻繁的數據擦寫,最佳的存儲方式就是順序寫入,讓生命周期相同的數據處于相同的磁盤分區(qū);減少不同生命周期、不同存取熱度的數據的混雜。為此,西部數據對外發(fā)布了分區(qū)存儲技術(Zoned Storage),并對外發(fā)布了libZBC、libZNS共享庫以及開發(fā)工具,支持文件系統和內核模塊設計,這些技術已經對外開源,并得到了SUSE、ATTO、Microchip、Broadcom等廠商的響應,UCloud最新一代歸檔存儲產品在自研的基礎上,很好兼顧了分區(qū)存儲技術的要求。
但是疑問在于:與大容量CMR磁盤相比,SMR磁盤容量僅從18TB提升到20TB,僅為2TB提升,還需要克服寫入限制,值得為此大動干戈嗎?
答案是:不要小看這2TB容量的提升。我們知道,單位TB價格( $/TB)只是現代云數據中心考量的一個維度,相比TCO 的降低并不限于降低 $/TB。每個硬盤的容量越大,服務器擁有儲存容量越大,例如從14TB遷移到18TB呈現出顯著的TCO收益:服務器減少了22%;TCO降低了11%。
鑒于數據中心占用空間有限,通過更高磁盤容量進行更密集的存儲部署,顯然可以帶來更多的收入節(jié)省。存儲服務器的成本通常要求控制在數據中心總體運營成本的60%以內。而實際上,更高容量的磁盤可以更有效地平衡這一需求。
小結
冷數據占比海量數據的80%,不僅如此,UCloud研究發(fā)現,隨著時間推移,大概6個月左右,各類數據訪問量都會由熱至溫,由溫至冷,如果這些數據始終保持在生產系統中,勢必付出高昂的代價。為此,有效處理冷數據存儲意義重大!
拿下“錦州”,冷存儲事關全局,牽一發(fā)動全身!十萬火急!