聯(lián)想凌拓資深產(chǎn)品經(jīng)理吳靜

大家好!我是聯(lián)想凌拓產(chǎn)品經(jīng)理吳靜。受疫情影響很遺憾無法跟大家相約線下高峰論壇,不過好在科技發(fā)展能夠讓我們“海內(nèi)存知己,天涯若比鄰”,通過線上同樣可以跨越時空。今天我分享主題是“數(shù)據(jù)驅(qū)動的基石,聯(lián)想凌拓新一代全自研分布式存儲系統(tǒng)”。

數(shù)字經(jīng)濟(jì)高速增長

數(shù)字經(jīng)濟(jì)已經(jīng)不是一個新鮮的話題,從2015年的“互聯(lián)網(wǎng)+”開始,到2016年的“共享經(jīng)濟(jì)”,2018年的“數(shù)字中國”以及現(xiàn)在的“新基建”等等,大眾的關(guān)注度越來越高。根據(jù)IDC報告,全球前2000名的企業(yè)中,有50%企業(yè)的業(yè)務(wù)能力主要是取決于它的數(shù)字化能力。

國務(wù)院《十四五數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》中,2025年數(shù)字經(jīng)濟(jì)在中國GDP占比將達(dá)到10%、近13萬億的規(guī)模。與之相對應(yīng),信息基礎(chǔ)建設(shè)高速增長,千兆帶寬用戶數(shù)從2020年的640萬增長到6000萬,增長近10倍,用戶的增長和各種形態(tài)的應(yīng)用導(dǎo)致數(shù)據(jù)量更是爆炸性的增長,從51個ZB到達(dá)106個ZB。這是一個非常非常高的數(shù)字,而且數(shù)字的價值會受到越來越多企業(yè)重視。

數(shù)據(jù)資本化是數(shù)字經(jīng)濟(jì)未來發(fā)展趨勢

數(shù)字經(jīng)濟(jì)的核心是把數(shù)據(jù)看作基礎(chǔ)的生產(chǎn)要素,但是數(shù)字價值并不是說一開始就很明確的,一般要經(jīng)過三個階段來逐步實現(xiàn)。

首先是數(shù)據(jù)資源的整合。數(shù)據(jù)類型是多樣的,有結(jié)構(gòu)化的數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)類型有塊存儲、文件存儲、對象存儲。如果從數(shù)據(jù)其他維度來看,有可加工的、有非實體的等一系列特征,數(shù)據(jù)其實分布在一個一個的存儲孤島當(dāng)中,只有數(shù)據(jù)資產(chǎn)資源合到一塊才會形成規(guī)模。

第二步是數(shù)據(jù)的資產(chǎn)化。資產(chǎn)在經(jīng)濟(jì)學(xué)里,是能夠產(chǎn)生經(jīng)濟(jì)收益的資源,如果只是把數(shù)據(jù)存下來不做任何操作,它是不會產(chǎn)生資產(chǎn)的,在使用當(dāng)中產(chǎn)生直接或者間接的收益才是資產(chǎn)化,數(shù)據(jù)變現(xiàn)的過程就是數(shù)據(jù)資產(chǎn)化的過程。

最后是資本化。前面所說資源化或者資產(chǎn)化,只是個別的現(xiàn)象,只有將數(shù)據(jù)價值擴(kuò)展到整個行業(yè)層面,才會變成資本化。比如說在線支付,支付寶或者是微信支付、京東支付等等,徹底改變我們的支付方式,所產(chǎn)生新的商業(yè)模式才能稱為數(shù)據(jù)資本化,這是未來的數(shù)字經(jīng)濟(jì)發(fā)展很明顯一個趨勢。

聯(lián)想凌拓:最大化的一站式的全方位數(shù)字化解決方案提供商

聯(lián)想凌拓是一家數(shù)字化解決方案的提供商,是聯(lián)想和NetApp在中國的合資公司,提供多樣化、一站式的、全方位的產(chǎn)品和數(shù)字化的解決方案。通過雙品牌戰(zhàn)略,一方面繼承了NetApp在全閃存數(shù)據(jù)管理以及通用存儲陣列上的優(yōu)勢,另一方面以聯(lián)想ThinkSystem的服務(wù)器幫助用戶提供本地化的服務(wù)企業(yè),同時聯(lián)想凌拓也具備本地開發(fā)的團(tuán)隊與開發(fā)能力,能夠貼近客戶的具體需求,差異化的來解決本地化的問題。

前面我們聚焦一些理念上的內(nèi)容,那理念的落地還需要一些扎實的技術(shù)和過硬的產(chǎn)品。

目前聯(lián)想凌拓已經(jīng)構(gòu)建了豐富的產(chǎn)品線,從不同的角度來實現(xiàn)對新IT架構(gòu)無縫的全覆蓋。比如軟件定義領(lǐng)域,下圖中間紅色部分,包括了剛發(fā)布的全自研的分布式DXN存儲(這是今天的重點(diǎn)),也包括了DXS分布塊系列以及基于StorageGRID這種基礎(chǔ)的DXL分布式的對象存儲系列,基于這三個產(chǎn)品線實現(xiàn)了軟件定義存儲的全領(lǐng)域的覆蓋。

除此之外,我們還有傳統(tǒng)的交換機(jī)、備份一體機(jī)、DPA系列產(chǎn)品線等等,基于這些產(chǎn)品線更是實現(xiàn)對端、邊、云、網(wǎng)、智全線覆蓋,而且今年也在積極推動容器平臺Astra,就相關(guān)領(lǐng)域進(jìn)行基礎(chǔ)研究,希望把這些技術(shù)領(lǐng)域研究成果應(yīng)用到中國市場。

以上就是聯(lián)想凌拓產(chǎn)品線的概覽情況,接下來進(jìn)入到今天主題分布式存儲。

聯(lián)想凌拓自研分布式存儲DXN系列迭代歷程

聯(lián)想凌拓作為一家專業(yè)的數(shù)據(jù)管理解決方案廠商,在2019年合資公司一成立時候就定下了堅持走自研路線的目標(biāo),依托于兩家專業(yè)的母公司打造全自研的分布式存儲。去年6月發(fā)布了分布式存儲1.0版本——DXN1.0,主要面向海量非結(jié)構(gòu)化的數(shù)據(jù)存儲。這是一種基于云原生技術(shù)的敏態(tài)存儲架構(gòu);去年10月份,我們發(fā)布了SP1版,也就是增強(qiáng)版本,適配了包括OpenStack私有云或者云原生的K8S生態(tài)環(huán)境;考慮到未來國產(chǎn)化大方向,我們也跟海光服務(wù)器平臺深度適配,并提供了從硬件、芯片到麒麟操作系統(tǒng)、到存儲軟件全面實現(xiàn)國產(chǎn)化這樣一種方式的產(chǎn)品。

在今年4月,我們正式發(fā)布了DXN2.0版本。與之前版本相比,它的拓展性更強(qiáng),而且支持多模塊方式,穩(wěn)定可靠,而且通過多種數(shù)據(jù)保護(hù)方式來應(yīng)對數(shù)據(jù)丟失的風(fēng)險;在運(yùn)維管理方面,通過事前主動防御,事中自動處理以及事后快速兜底的方式,來簡化管理操作和提高存儲管理效率。

市場上,分布式存儲最主要玩家還是硬件平臺廠商,因為軟件必須結(jié)合硬件才能發(fā)揮分布式存儲最大優(yōu)勢,那么軟件可以看作分布式存儲的靈魂,而硬件雖然是核心,如果靈魂很強(qiáng)大但身體上病懨懨的話,這一定不是我們追求的效果,反過來,如果是頭腦簡單四肢發(fā)達(dá),這也不是我們想要的目標(biāo)。

聯(lián)想凌拓的分布式存儲融合聯(lián)想和NetApp兩方面優(yōu)勢,在硬件服務(wù)器平臺上會嘗試更多更多的組合,也可以選擇更多的服務(wù)器平臺來適配軟件,利用到服務(wù)器上一些最新的技術(shù)。

作為聯(lián)想凌拓本土資源的分布式存儲,DXN2000機(jī)型主要面對的是性能和容量要求均衡型的,采用2U的聯(lián)想服務(wù)器,直連一個擴(kuò)展柜D3284,在這個JBOD機(jī)箱有84塊卡結(jié)合在一塊,總共支持?jǐn)?shù)量超過90塊,非常適合需要大容量但是機(jī)房空間緊張的用戶。

左邊是DXN3000機(jī)型,是一個高密度的容量型,可以支持到34塊3.5寸的大盤,適合于需要大容量、性價比好的客戶。

中間專門是為5G 8K高清這種視頻流媒體處理打造這種極致性能型的分布式存儲,它使用的是當(dāng)時是最先進(jìn)的NVMe、SSD以及Scale out技術(shù),這個分布式存儲也具備了以下四點(diǎn):包括海量存儲、全對稱分布式架構(gòu)、多協(xié)議就支持以及更可靠的設(shè)計。

DXN分布式存儲架構(gòu)

MagnaScale是分布式存儲內(nèi)部的操作系統(tǒng)。我們將MagnaScale的軟件部署到聯(lián)想的ThinkSystem服務(wù)器上,將服務(wù)器的內(nèi)置盤組成存儲資源池,同時對外提供了文件的服務(wù)和就S3植入服務(wù),現(xiàn)在,分布式文件更多是將文件的非結(jié)構(gòu)化歸為一類,就像我們 ONTAP軟件一樣,實現(xiàn)非結(jié)構(gòu)化的統(tǒng)一,包括文件、對象等等,它們的邊界同樣在硬件服務(wù)器側(cè)增加了SSD磁盤來作為盤陣,能夠有效應(yīng)對大量密接小文件的訪問。

全對撐式架構(gòu),打造安全數(shù)據(jù)堡壘

在分布式存儲中是否有元數(shù)據(jù)節(jié)點(diǎn),是區(qū)分對稱式和非對稱式分布式架構(gòu)的一種標(biāo)志。沒有專門的MDS元數(shù)據(jù)節(jié)點(diǎn)的,和其它包括像MagnaScale節(jié)點(diǎn)的其實意味著這個節(jié)點(diǎn)都是對等的,是真正的全對稱式架構(gòu),在集群擴(kuò)展時元數(shù)據(jù)切片落在每一節(jié)上,性能可以很好地擴(kuò)展。所以當(dāng)增加節(jié)點(diǎn)時,它的元數(shù)據(jù)的處理能力也相對增加,不會出現(xiàn)元數(shù)據(jù)節(jié)點(diǎn)熱點(diǎn)的問題。

在元數(shù)據(jù)安全上,一般來說還是要副本的方式來做保護(hù),可以選擇比如說3N副本或者5副本,當(dāng)選擇5副本的時候,可以同時實現(xiàn)四個節(jié)點(diǎn)同時宕機(jī)而不會影響到業(yè)務(wù)和數(shù)據(jù)安全。這意味著全對稱式架構(gòu)能夠打造安全的數(shù)據(jù)堡壘。

高密度磁盤柜+高效EC算法,整體TCO降低20%

高密度的JBOD磁盤柜加上高效EC糾刪碼算法,能夠讓客戶總體用戶成本TCO下降20%以上。

在相同的容量情況下采用DXN2000加上D3284(JBOD)這種組合, 跟友商相比, 能夠明顯降低用戶的采購成本和管理成本,而且DXN也是業(yè)內(nèi)少數(shù)能夠支持縱向擴(kuò)展的分布式存儲。

同時,DXN也支持高效EC糾刪碼算法,通過EC糾刪碼數(shù)據(jù)保護(hù),磁盤利用率最高可以達(dá)到94%,這也就意味著現(xiàn)在買1PB容量,實際損耗不會超過100TB,如果和2副本和3副本這種數(shù)據(jù)保護(hù)方式相比,糾刪碼的技術(shù)能夠大大提升空間的使用效率,在一些大規(guī)模容量的場景,明顯節(jié)省空間,提升空間使用效率。

分布式存儲依托于聯(lián)想ThinkSystem服務(wù)器擴(kuò)展能力,既可以橫向擴(kuò)展,也可以縱向擴(kuò)展,縱向擴(kuò)展中,就是直接通過單節(jié)點(diǎn)加 JBOD方式,增加盤柜之后,單個節(jié)點(diǎn)就可以達(dá)到1.6 PB的容量,到三個存儲節(jié)點(diǎn)的話,最小集群的就能提供4.8 PB的容量,這種組合只需要一個機(jī)柜,非常適合追求性價比、大容量但是機(jī)房空間資源有限的客戶。在橫向擴(kuò)展上,DXN單個集群可以達(dá)到4096個節(jié)點(diǎn),支持超過100億文件數(shù)量,支持管理磁盤的數(shù)量超過500萬,在線增加這些節(jié)點(diǎn)的時候,數(shù)據(jù)會自動的均衡打散到所有節(jié)點(diǎn)上面。采用縱向擴(kuò)展方式的存儲節(jié)點(diǎn)+JBOD的方式,在一個節(jié)點(diǎn)下支持這個磁盤數(shù)超過了90塊。

有人會問,磁盤數(shù)量越多,磁盤故障概率不就越大嗎?有沒有更好的方式來應(yīng)對這些挑戰(zhàn)呢?這是有的。針對大容量節(jié)點(diǎn),我們一般會采用EC糾刪碼折疊技術(shù),就像動畫一樣,假設(shè)現(xiàn)在是6個節(jié)點(diǎn),如果采用4+2的保護(hù)模式,它可以同時預(yù)防,把數(shù)據(jù)的分成4個數(shù)據(jù)片和兩個校驗片,放在六個節(jié)點(diǎn)上,假如兩個節(jié)點(diǎn)同時都發(fā)生了故障,這個時候可以通過剩下節(jié)點(diǎn)上保護(hù)好數(shù)據(jù),再加上糾刪碼的數(shù)據(jù),把丟失的數(shù)據(jù)算回來。這是一種經(jīng)濟(jì)的保護(hù)方式。

假如說現(xiàn)在是三個節(jié)點(diǎn),正常情況下只能使用2+1糾刪碼的方式,因為糾刪碼根據(jù)節(jié)點(diǎn)來進(jìn)行計算,能夠預(yù)防壞掉一個節(jié)點(diǎn),不會存在數(shù)據(jù)丟失的風(fēng)險;但是當(dāng)兩個節(jié)點(diǎn)上都有磁盤損壞情況下,就會存在一定的數(shù)據(jù)丟失風(fēng)險。預(yù)防這個問題的做法是,把物理的節(jié)點(diǎn)做成虛擬的節(jié)點(diǎn)(Vnode),這樣三臺物理節(jié)點(diǎn)就變成六個邏輯節(jié)點(diǎn),就可以嘗試做4+2的糾刪碼方式,這樣的邏輯節(jié)點(diǎn)劃分能夠有效應(yīng)對不同節(jié)點(diǎn)同時壞掉多塊盤的風(fēng)險,數(shù)據(jù)仍然能通過剩下的磁盤上的數(shù)據(jù)和糾刪碼的數(shù)據(jù)算回來。

快照在文件存儲中是一個比較常見的數(shù)據(jù)保護(hù)方式,通過快照可以實時數(shù)據(jù)文件備份,也可以通過快照來做數(shù)據(jù)的恢復(fù)。傳統(tǒng)的文件快照是一旦說對父目錄做了快照,就不能再對子目錄拍照了,假如現(xiàn)在一個部門有不同的組員,他們有各自工作的目錄,他的工作進(jìn)度也不相同,只采用一種快照方式,那么其他組員其實也是進(jìn)入快照保護(hù)。假如有數(shù)據(jù)要恢復(fù)的話,有的組員就變的非常不方便。

嵌套式快照是有加強(qiáng)型的一種快照保護(hù)方式,能夠?qū)Ω改夸洝⒆幽夸涍M(jìn)行解綁,同時對每一個目錄包括子目錄和父目錄各自做快照,隨時隨地保護(hù)用戶的數(shù)據(jù),非常適合在多部門協(xié)作共同使用分布式存儲的場景。

通過SSD盤來加速緩存讀寫,能夠有效提升小文件處理效率。SSD緩存能夠同時對讀和寫的加速效果,在讀這種場景下,SSD Cach能提升讀的命中率,在寫的這種場景下小文件會先寫到SSD緩存盤上,對上層應(yīng)用確認(rèn)之后再回寫到HDD磁盤上。對大文件,一般可以選擇磁盤直寫模式,即繞過SSD緩存,利用多塊磁盤的并發(fā)能力來提升總體帶寬一種效率,這樣在面對大文件和小文件的時候能夠輕松的應(yīng)對,因為在小文件時候主要看IOPS,在大文件時候主要看帶寬。

內(nèi)部測試表明,啟用SSD緩存模式和不啟用SSD緩存模式下的直寫模式,性能相差了76%,而且只用了一塊SSD緩存盤;根據(jù)性能的要求增加SSD緩存盤的數(shù)量,能大大提升分布式存儲節(jié)點(diǎn)性能。采用全對稱式架構(gòu),元數(shù)據(jù)是部署在所有節(jié)點(diǎn)上,因此,集群的性能會隨著節(jié)點(diǎn)數(shù)據(jù)量線性增長。

更多的企業(yè)存儲設(shè)計

在分布式存儲設(shè)計中,我們還有很多企業(yè)級的設(shè)計,比如硬盤的數(shù)據(jù)校驗,能夠?qū)@存儲的數(shù)據(jù)文件進(jìn)行定期校驗,是不是有些損壞,或者因為比特位的反轉(zhuǎn)造成數(shù)據(jù)文件的損害或者數(shù)據(jù)丟失。一旦發(fā)生問題的話,會及時進(jìn)行恢復(fù),這是磁盤一個叫數(shù)據(jù)校驗的功能,同時也有些磁盤的亞健康的檢測,能夠有效檢測哪些磁盤存在潛在的問題,去定位故障、分析原因,而且也增加了對安全域的支持。

DXN目標(biāo)應(yīng)用概覽

聯(lián)想凌拓分布式存儲在各行各業(yè)都有一些適用的應(yīng)用場景。

在廣電領(lǐng)域,一些視頻的素材存儲或者是編輯、分發(fā),需要一些大容量、多并發(fā)處理場景,還有在金融行業(yè)的影像平臺、雙錄系統(tǒng)或者無紙化辦公,大規(guī)模數(shù)據(jù)湖,以及PACS系統(tǒng)存儲等,大多數(shù)的時候是要求具有海量、高可靠以及能夠處理海量數(shù)據(jù)性能這樣的能力。

來看一個實際的醫(yī)療行業(yè)PACS系統(tǒng)應(yīng)用案例。

我們知道,在醫(yī)院里有許多檢查設(shè)備,包括了X光、CT、核磁、超聲或者顯微鏡等,這些檢查設(shè)備的統(tǒng)稱為醫(yī)學(xué)影像設(shè)備,為醫(yī)學(xué)診斷或者減輕患者痛苦提供很大的幫助,管理這些影像設(shè)備的系統(tǒng)就叫PACS系統(tǒng), PACS系統(tǒng)就是把一些影像設(shè)備產(chǎn)生各種的文件,通過各種接口進(jìn)行存放和使用,所以PACS系統(tǒng)是醫(yī)療系統(tǒng)核心的生產(chǎn)系統(tǒng),高可靠性和大容量是PACS影像系統(tǒng)存儲首要要求。

衛(wèi)健委在2017年實施電子病例提出一個業(yè)務(wù)管理規(guī)范,明確要求電子病歷必須要有醫(yī)療機(jī)構(gòu)來保存,要求患者最后一次就診的記錄不少于15年保留期限,住院病歷保存期限不少于30年,這就要求PACS具有海量數(shù)據(jù)存儲和管理能力。

PACS影像文件中一般是以小文件為主,從幾十K到幾百K不等,可以想象,一個患者從拍片到拿到報告差不多2到3個小時,所以PACS系統(tǒng)具有能夠并發(fā)處理大量小文件讀寫,具備海量存儲大容量和高性能、可靠性,一般來說都是采用文件存儲方式,而且分布式特點(diǎn)也是比較符合這種場景的。

聯(lián)想凌拓為南方某醫(yī)院PACS系統(tǒng)存儲架構(gòu)提供了端到端的存儲解決方案。PACS系統(tǒng)采用的是文件,后端對應(yīng)文件的共享協(xié)議,后端NFS作為PACS后端訪問協(xié)議,因為客戶對數(shù)據(jù)安全和場景保存是有要求的,在這里也去考慮兩層架構(gòu):第一層數(shù)用是閃存設(shè)備——FAS系列高數(shù)值處理能力應(yīng)付日常大規(guī)模的并發(fā)量比較高的訪問,但是閃存相對來說價格比較高,因此,它的容量配的其實也不多,為了安全起見,我們同時把數(shù)據(jù)保存到分布式存儲DXN上,防止萬一閃存出現(xiàn)問題的時候能夠立刻接管應(yīng)用系統(tǒng),然后把數(shù)據(jù)跑到DXN分布式存儲上。

這個架構(gòu)使使用了三個節(jié)點(diǎn)構(gòu)成一個集群,未來可以根據(jù)需求在線擴(kuò)展,可以自動進(jìn)行均衡打散。

分布式大容量的可靠性、高性能,也能夠幫助用戶應(yīng)對一些大規(guī)模的這個數(shù)據(jù)的增長,以及數(shù)據(jù)的長期存放等問題。

醫(yī)院的醫(yī)療系統(tǒng)不僅僅只是作為門診和其他應(yīng)用系統(tǒng)來使用,還要供給其他一些業(yè)務(wù)系統(tǒng)來使用,包括像CT、X光片或者超聲波等,還要應(yīng)用到在一些科研領(lǐng)域,這個時候可以直接從分布式存儲上對數(shù)據(jù)進(jìn)行拷貝來給其他用戶來使用。

DXN分布存儲是基于云原生這種架構(gòu)的,它的這種大容量、安全可靠以及高性能,完全符合PACS系統(tǒng)對于存儲的設(shè)想和需求。

時間原因我今天分享就到此為止,非常感謝大家!

“2022分布式存儲線上峰會”,由百易傳媒(DOIT)與廈門大學(xué)信息學(xué)院聯(lián)合主辦,中國計算機(jī)學(xué)會信息存儲專委會、中國計算機(jī)行業(yè)協(xié)會信息存儲與安全專委會、武漢光電國家研究中心協(xié)辦,旨在推動分布式存儲技術(shù)發(fā)展與應(yīng)用。

分享到

xiesc

相關(guān)推薦