峰會第二天,共舉行了十場分論壇。在“分布式存儲與應(yīng)用論壇”上, 柏科數(shù)據(jù)渠道銷售總監(jiān)劉夏鳴以“ 全閃存分布式存儲的應(yīng)用與實踐 ”為主題發(fā)表演講, 分享了分布式存儲建設(shè)過程中的問題 ,介紹了柏科的三種實施方案、產(chǎn)品體系架構(gòu)以及分布式存儲應(yīng)用方面的成果和實踐。
以下內(nèi)容根據(jù)速記整理。
圖:柏科數(shù)據(jù)渠道銷售總監(jiān)劉夏鳴
劉夏鳴:大家好,今天我代表柏科數(shù)據(jù)介紹一下我們在分布式存儲應(yīng)用上的一些成果和實踐。
關(guān)于全閃存分布式,在三、四年前,誰和我說分布式存儲全部使用閃存介質(zhì),我會啐他一臉,這個東西太貴了,大家做分布式存儲,都想著是高性能、高帶寬、低成本,其實這完全符合我們國人的一些想法,就是花小錢辦大事。
關(guān)于分布式的這個應(yīng)用,給我的感受是很多的IT技術(shù)在用戶端的應(yīng)用,是在一些實際的需求問題逼迫下產(chǎn)生的,在逼迫中尋求一種進步。柏科也是被實際的客戶需求逼迫來做全閃存分布式存儲的。
簡單介紹一下柏科。柏科進入到國內(nèi),經(jīng)歷了12個年頭,國內(nèi)基本上主要的地區(qū)都有全資分公司與一些合作的服務(wù)商,覆蓋了國內(nèi)的主要區(qū)域。從某種角度來看,客戶分布也是比較廣,在服務(wù)能力上也是沒有問題的。整體來講,柏科一直是做存儲的公司,公司建立開始,我們的公司宗旨就是“Bring life to Data”,就是指“給數(shù)據(jù)注入生命力,活力永續(xù)”,我個人感覺就是數(shù)據(jù)的靈動。過去DAS,數(shù)據(jù)存入以后就基本不動了,現(xiàn)在分布式應(yīng)用及互聯(lián)網(wǎng)的情況下,我們希望數(shù)據(jù)能流轉(zhuǎn)起來,能靈動起來,這里面有存有備有復(fù)制有遷移,有應(yīng)用到大數(shù)據(jù)里面,有到智能數(shù)據(jù)湖中;就像水從源頭流入到湖里面,從數(shù)據(jù)湖里面可以做更多的針對數(shù)據(jù)的開發(fā)和挖掘,讓數(shù)據(jù)更有價值。
柏科公司從開始就是一個做存儲的專業(yè)公司,前身源自美國貝爾實驗室,專門做廣電媒體行業(yè)的專業(yè)存儲公司,進入到國內(nèi)以后,發(fā)現(xiàn)用戶對產(chǎn)生的數(shù)據(jù)更重視安全保護,才有我們現(xiàn)在的備。從備份之后,大家想到數(shù)據(jù)放到本地還不夠安全,放到異地去,所以有了容災(zāi)。從存的產(chǎn)品演化到備份容災(zāi)產(chǎn)品,甚至到了分布式,我們的AI團隊也做了這方面工作,包括融合計算、統(tǒng)一計算等方面。
柏科產(chǎn)品不斷的演化和研發(fā),按照用戶需求和自身對產(chǎn)品的要求,我們做了現(xiàn)在公司產(chǎn)品的延續(xù)。
今天公司其他產(chǎn)品線先不談了,只講和主題有關(guān)的分布式存儲,柏科在分布式產(chǎn)品線為什么能誕生。
從2009年,柏科開始做一些分布式的文件系統(tǒng),早期的時候如果沒有記錯的話,那時候基于GlusterFS來做,那時候看到GlusterFS面對海量的小文件性能非常的糟糕,現(xiàn)在同行業(yè)里面也都在通過很多技術(shù)手段來解決此類問題。
2013年,我們推出了分布式塊存儲,就是在看到用戶業(yè)務(wù)需求里面又需要高的共享性,更需要高的性能,按照這樣的想法我們的分布式塊存儲也就這樣誕生了,在2013年已經(jīng)在一些客戶里面去應(yīng)用,包括一些做動漫渲染,國家級的渲染,比如說北京電影學(xué)院這些業(yè)務(wù)系統(tǒng)應(yīng)用在這里面,2015年推出了文件塊和對象三合一產(chǎn)品,2016年在亞洲最大的動漫渲染基地新疆落地,里面大量分布式存儲應(yīng)用到我們的產(chǎn)品,包括計算節(jié)點。今天講的主題全閃存分布式存儲。閃存介質(zhì)很貴,怎么有效放到分布式存儲中呢?看一下我們怎么來做的。
業(yè)務(wù)需求驅(qū)動分布式存儲技術(shù)發(fā)展
一個好的產(chǎn)品發(fā)展也是應(yīng)業(yè)務(wù)需求,分布式存儲整體發(fā)展也是業(yè)務(wù)需求導(dǎo)致,最早就是面對的海量數(shù)據(jù)能夠?qū)λM行高性能高效處理,這是分布式存儲最開始的想法,但是到現(xiàn)在,大家會碰到或多或少的問題。我們需要不光是存儲,還加上計算的融合,包括如何應(yīng)對海量小文件,包括新的介質(zhì)融合,以及對塊設(shè)備這方面高性能的追求,包括數(shù)據(jù)訪問的負載,甚至和第三方業(yè)務(wù)平臺有一些接口等。在這樣的情況下,業(yè)務(wù)需求上都有不同的訴求。
分布式存儲建設(shè)過程中的問題
分布式建設(shè)中,我們當(dāng)然會遇到很多的問題。閃存盤解決了機械盤的一些問題,閃存的性能會快,機械盤會慢一些。我們推出全閃存分布式,希望把性能提高。第二個是分布式文件系統(tǒng)的小文件的處理效率問題,就是海量小文件去訪問的時候源服務(wù)器的壓力會很大,分布式存儲系統(tǒng)應(yīng)用帶寬問題,IO路徑比較長,對性能影響問題,這在系統(tǒng)建設(shè)的時候,是和高性能要求上背道而馳,還有分布式數(shù)據(jù)的安全性和可用空間的問題,這和傳統(tǒng)的SAN不太一樣的地方,分布式上用副本的方式解決。比如說兩副本三副本,雖然安全,但是空間利用率低。通過EC的算法有效的提升空間利用率。EC的算法如果做不好和我們的想法就背道而馳了,因為會影響到分布式系統(tǒng)計算的資源。塊設(shè)備延時也一樣。
為什么把全閃存放進去?柏科有自己的想法。我們從兩個角度來看,第一個,把分布式存儲定義成SDS(軟件定義存儲),其實來講SDS是一個廣的范疇,從我的角度來說分布式存儲只是其中一個部分,可以使基于X86架構(gòu)的平臺,或者國產(chǎn)平臺;在某些應(yīng)用領(lǐng)域替代傳統(tǒng)光纖存儲都是有可能,柏科也在這方面做。
分布式存儲系統(tǒng)到底是軟件硬件分離的,還是軟件硬件融合的。從軟件定義存儲的概念開始是一個軟件,首先大家很習(xí)慣分布式存儲是軟件,裝到通用X86硬件平臺上,所以軟件和硬件耦合度并不是很高。從柏科的角度是有點緊密的,原因在于,從每一個做硬件的角度和做軟件的角度來看,分布式里邊存在軟硬件兼容性問題,如何把硬件架構(gòu)中的基礎(chǔ)部件“磚頭瓦塊”的性能壓榨出來,如果壓榨不出來就是性能的損耗,單一的節(jié)點,每一個節(jié)點性能不能壓榨出來,累加起來只能通過累加的(scale up)方式拼命的增加,某種意義上對成本控制是有問題的。所以軟件和硬件要有一個協(xié)調(diào),要有一個兼容性,能得到更多的硬件的信息,通過軟件來調(diào)整,把硬件諸多的性能吻合發(fā)揮出來,從硬件上重構(gòu),可能是基于標(biāo)準(zhǔn)的硬件系統(tǒng)。
舉一個例子,大家買車一樣,量產(chǎn)的車都是四個輪子有門有座椅,柏科希望不是普通的量產(chǎn)車,在量產(chǎn)車上去加一些改造的一些配件,車改,但又不希望那些特別魔改的,魔改一塌糊涂,魔改車比量產(chǎn)車諸多方面都好很多,在座各位也有人希望改裝車,我們注重的是在成本控制下車還可以跑的快,符合開車人的需求。
我認為分布式存儲文件系統(tǒng)的應(yīng)用者其實是駕駛員,你知道你的習(xí)慣是什么,你買分布式存儲是要解決什么問題。不管是量產(chǎn)車還是魔改車,還是適度改裝車,駕駛員是有很大的關(guān)系,也就是說用戶業(yè)務(wù)導(dǎo)向,業(yè)務(wù)需求對分布式存儲系統(tǒng)選擇有重大的影響度。菜鳥司機開著賽車,叫賽車手開量產(chǎn)車,菜鳥司機也跑不過,別看車好。
從柏科角度來講,硬件重構(gòu)并不是完全推翻以前的標(biāo)準(zhǔn)架構(gòu),不是部分的節(jié)點上做魔改,魔改首先第一個在介質(zhì)上,要通過SSD、當(dāng)然不是放棄機械盤,只是在應(yīng)用業(yè)務(wù)場景里,控制成本的情況下,通過引入SSD這種磁盤解決用戶需求問題,這里面有一個故事我一會兒再說。
剛才也講到了用scale up(縱向擴展)或者是scale out(橫向擴展)的技術(shù),都是尋找一個平衡,其實不管引入新的技術(shù),如RDMA、硬件TOE,硬件糾刪碼等,都是希望把延時縮短,盡可能靠近本地的處理,讓數(shù)據(jù)離處理中心計算更近一點,通過TOE網(wǎng)卡,壓載一下,包括我們很多柏科產(chǎn)品里面都會體現(xiàn)出這些,其他產(chǎn)品都有這樣的想法,用戶主要系統(tǒng)資源就是用到主要用戶上,我們需要盡可能幫助他把負載的壓力和負擔(dān)移植出來,也是貫穿整個柏科產(chǎn)品,其他產(chǎn)品線的產(chǎn)品都有這方面的想法。我們加入硬件的糾刪也一樣,通過硬件的糾刪來改善降低CPU處理的壓力,同某種意義上來講卸載這些壓力,同時提升處理的性能,從硬件重構(gòu)的角度上簡單說一下。
剛才講到改造的角度上還有軟件定義。本質(zhì)上各個廠商對軟件定義存儲,對分布式存儲系統(tǒng)有自己不同的理解,我們希望通過引入自己這幾年的技術(shù),AI層面分解這些壓力,通過我們算法,通過我們了解磁盤的磨損,顆粒的磨損。
剛才我也講到,軟件在監(jiān)控得到的信息都是由硬件廠商已有公開的信息,給什么接口才可以獲取,這些已經(jīng)定義了。想進一步得到,得和硬件廠商或者芯片廠商有更好的合作,才可以拿到這些需要的信息。比如說,我們可以監(jiān)控磁盤的壽命,預(yù)測磁盤什么時候壞,每一個硬盤廠商都有自己磁盤壽命的監(jiān)管。第三方軟件獲取硬盤信息的時候,只能得到標(biāo)準(zhǔn)的信息。更詳細的SSD顆粒的磨損壽命等等是拿不到的,他不開放,這也是我們講一個生態(tài)圈。柏科在這方面,為了國產(chǎn)化、為了自己分布式,也和上下游廠商打通關(guān)系。
這里邊要講一個和投資人有關(guān)的故事。柏科的一個投資人,初創(chuàng)公司朗科優(yōu)盤,當(dāng)初投柏科的時候,也是認為能做一個“小的存儲”公司上市,也希望做一個“大的存儲”公司上市。柏科這幾年一直努力通過完善自己,希望很快走上資本市場。投資人就說了,要學(xué)會換位思考,做存儲系統(tǒng)里面有控制芯片,有硬盤、有柏科的存儲系統(tǒng)軟件,像華為做存儲系統(tǒng)。這些方面能打通橫向的關(guān)系和交叉的關(guān)系,主控廠商控制芯片廠商可以提供更多的信息出來。
在分布式存儲系統(tǒng),大家都認為企業(yè)SSD和消費級的SSD壽命有很大的差異。柏科可以有效拿到磁盤的信息,通過軟件,可以讓消費類的SSD我們叫筆記本、臺式機的SSD盤,具有企業(yè)級SSD的那種管理性和安全性。其實消費類的SSD的性能現(xiàn)在不是很差,但是有一個先天的優(yōu)勢就是它的成本,柏科通過軟件技術(shù),通過硬盤的監(jiān)控,可以把SSD顆粒壽命寫均衡,減少損耗等等,能預(yù)測到這個硬盤什么時候壞,我們自己開玩笑叫“算命”,這個產(chǎn)品我們原來應(yīng)用到智能運維,和分布式一樣,都是軟件。通過這些軟件的定義可以對性能加速,有效解決這些延時響應(yīng)快速的問題,包括AI智能監(jiān)控等等,全閃存分布式存儲設(shè)想的初衷就可以實現(xiàn)。
彈出一張片子,特斯拉。為什么特斯拉可以賣很貴,也可以賣的相對便宜。很多人說買電動車詬病,為什么呢?特斯拉最核心是它的軟件和控制尤其對于電池管理。大小像五號電池的東西密集的排列起來,特斯拉在這方面做的很好,用了幾年以后電池損耗,電池部分失效的時候,并不會影響整體的性能。國內(nèi)很多電池管理很差,迅速的衰減,電動車核心管理管控,輪胎座椅車板后視鏡都是一樣,都有很多的問題。
實際上,柏科希望通過對于硬件的重構(gòu)和軟件定義,包括在這個生態(tài)里面做的事情,在分布式存儲市場里面能變成特斯拉型的、技術(shù)比較領(lǐng)先的、有特點的公司。
柏科的實施方案
在我們實施方案里,有三種。
一是純閃的SSD,二是混合存儲方案,通過SSD和機械盤的混插解決的問題;還有組合型的,通過獨立的SSD pool,或者HDD pool,通過軟件定義的算法,有效的按照合理用戶的需求將數(shù)據(jù)遷移到不同的存儲介質(zhì)池中,這也是柏科的實踐。
產(chǎn)品體系架構(gòu)
看一下整體的架構(gòu)。
IS Cloud產(chǎn)品品牌,我們基于飛騰2000+已經(jīng)完成了,申威硬件平臺也OK了,和華為鯤鵬平臺基本上也對接完成。從硬件平臺上完成硬件的兼容性,軟件的功能和接口方面,合作做了分布式塊接口,標(biāo)準(zhǔn)S3分布式傳統(tǒng)應(yīng)該具備的。這些通過接口層把軟件功能層的功能可以通過我們的通訊化管理平臺給前端的應(yīng)用。
這里面就不展開了,包括這些視頻、公檢法包括智慧城市包括海量視頻包括企業(yè)文件,金融票據(jù)醫(yī)療大數(shù)據(jù)等等。
分布式全閃的實踐
講一下這幾年在這些客戶上自己做出來的改變,通過硬件重構(gòu)硬件定義給客戶實踐里頭帶來什么樣的好處。
這個案例當(dāng)初想法總共1400路人臉攝像頭,主要人臉分析,1000路每天六千張,另外400路總共有兩個兩百路,一個一萬五千張每天每路、一個兩萬五千張每天每路,分別存三十天,最初業(yè)務(wù)需求處理的時候文件存儲延遲希望在每秒三百五十張,性能希望每秒不小于一百兆,計劃存儲8.4億張,最初規(guī)劃220TB,這是原來項目規(guī)劃。柏科部署了自己全閃存分布式產(chǎn)品,硬盤配了大概192塊希捷的Nytro 3731 1.6TB SAS SSD磁盤,最后在用戶實際交付的時候處理延遲變成每秒鐘420張,性能210MB每秒,存儲容量307TB,達到用戶在要求上的性能。
另外動漫渲染,最初的規(guī)劃電影公司做的,用的環(huán)境里24盤位光纖盤陣,加上24盤位擴展柜與8GB光纖接口,想給出自己的共享軟件,他的當(dāng)時想做的渲染的素材是8兆的序列楨,25幀每秒,4K分辨率, 60分鐘的故事版內(nèi)容渲染,當(dāng)初做的規(guī)劃是每秒1.4G,渲染60分鐘故事版內(nèi)容渲染出來1小時48分鐘。我們用三臺設(shè)備,最小的組合三臺配了36塊400GB希捷SSD盤對這套系統(tǒng)進行改造以后,渲染的峰值由1.4GB/秒達到2.7GB/秒,渲染時間由原來一個小時48分變成1小時7分鐘,完成同樣60分鐘故事板內(nèi)容,提升還是很明顯。
這種案例對于柏科不少,剛才也講到了,新疆我們投資四五千節(jié)點渲染基地,號稱也是亞洲最大的。
在智慧城市業(yè)務(wù)方面,這幾年一直交付不少項目,其中一個項目計劃兩千個車道,圖片900KB,每路錄像頭,每天要一千張、存九十天,要求處理文件處理延時每秒231張/秒,性能每秒281MB/秒,實際上最后交付的時候用了六臺分布式設(shè)備,總共配置了132塊希捷1.6T的盤和84塊8TB機械盤,SSD pool里面在線放10天熱數(shù)據(jù),機械盤 Pool放近線20天歸檔數(shù)據(jù),達到的性能由原來280張可以變到310張每秒,性能變成360MB每秒,整體存儲容量并沒有增加多少,雖然用副本的方式只有883TB的物理容量;幫助用戶在這個項目上整體完成30%以上的提升,我認為還是不錯的。
對于HIC和SDS融合系統(tǒng),我們自己也做了一個測試,其實在我們交付的用戶產(chǎn)品里面可以達到這個性能,超融合是我們另外一個產(chǎn)品線,分布式存儲全閃分布式存儲和超融合系統(tǒng)合作,我們節(jié)點里面我們產(chǎn)品里面四個節(jié)點狀態(tài),用的三副本,虛擬機大概20個,每一個虛擬機分配16VCPU和24GB內(nèi)存,當(dāng)時做壓力測試用的4K隨機的讀寫,每一個節(jié)點里面,大概每路CPU用的2.2主頻的CPU,內(nèi)存是256G。每個節(jié)點有七塊SSD,在這樣的情況下,在4K看到的一個數(shù)值,在64個碼流上并發(fā)讀的延遲是3.23ms、IOPS大概160萬,在64的并發(fā)寫的情況下可以達到將近460萬,所以整體的性能讀寫的IOPS的要求和延遲的要求有效做了一些改進。
這也是我們自己在分布式存儲一些經(jīng)驗,產(chǎn)品交付的時候性能都可以達到客戶的要求,也可以看到我們在這幾年對于硬件重構(gòu)和軟件定義領(lǐng)域的一些探索。針對業(yè)務(wù)需求,我們適當(dāng)定制、去改造一些需要通過新的技術(shù),包括硬件技術(shù)、軟件技術(shù)做一些完善。
以上是柏科這幾年的拙見,希望對大家有些幫助。另外,今天會場外面還有培訓(xùn),還有講座,有時間可以去我們的展臺,和相關(guān)技術(shù)人員溝通,謝謝各位!
編后:本次2019中國數(shù)據(jù)與存儲峰會(DATA & STORAGE SUMMIT)為期兩天,包含主論壇、CIO高峰對話,以及大數(shù)據(jù)、閃存系統(tǒng)、分布式存儲、第二存儲與容災(zāi)備份、超融合與云存儲、人工智能、數(shù)據(jù)創(chuàng)新與安全可控、容器創(chuàng)新與應(yīng)用、SCM第五代存儲與閃存控制器等十大主題論壇,超過100場的專業(yè)知識分享。初步統(tǒng)計,本屆峰會吸引了來自政、企、產(chǎn)、學(xué)、研、媒體等各方參會者約2000人,在線直播觀看觀眾再創(chuàng)新高,超過10萬余人次。