范喆 發(fā)表于:14年12月02日 18:48 [原創(chuàng)] DOIT.com.cn
2014年12月2日DOIT編輯北京報(bào)道:2014(第十屆)中國(guó)存儲(chǔ)峰會(huì)今天在北京召開(kāi),大會(huì)以“掌控?cái)?shù)據(jù)經(jīng)濟(jì),重塑商業(yè)價(jià)值”為主題,詮釋在IT走向DT時(shí)代下,如何通過(guò)數(shù)據(jù)重塑商業(yè)價(jià)值。大會(huì)共邀請(qǐng)了 16位頂尖第三方嘉賓,數(shù)十位專家,帶來(lái)了35場(chǎng)前瞻性演講+2場(chǎng)圓桌討論,并首次推出硅谷創(chuàng)始人訪談和存儲(chǔ)夜宴活動(dòng)!
在當(dāng)天下午的大數(shù)據(jù)分論壇上,來(lái)自華為的存儲(chǔ)產(chǎn)品線分布式存儲(chǔ)技術(shù)專家程菊生為我們精彩解讀《華為OceanStor 9000大數(shù)據(jù)存儲(chǔ)系統(tǒng)》。
以下是演講實(shí)錄:
程菊生:大家下午好!很高興今天有機(jī)會(huì)跟大家一塊兒交流一下華為OceanStor 9000這款產(chǎn)品,我叫程菊生,主要是做分布式文件系統(tǒng),包括分布式存儲(chǔ)。目前OceanStor這個(gè)產(chǎn)品,我在里面擔(dān)任架構(gòu)師,我們團(tuán)隊(duì)在這一塊經(jīng)過(guò)很大的努力把這個(gè)產(chǎn)品做出來(lái)了。今天跟大家分享一下經(jīng)驗(yàn)和技術(shù)。
今天主要從三個(gè)方面來(lái)講。第一、講大數(shù)據(jù)對(duì)我們帶來(lái)的一些挑戰(zhàn)。第二、華為的應(yīng)對(duì)之道。第三、我們這個(gè)產(chǎn)品應(yīng)用實(shí)踐的一些情況。
第一部分,剛才前面嘉賓也講到,目前大數(shù)據(jù)的來(lái)臨大家都在說(shuō),從1960年的大機(jī)出現(xiàn),到后面的個(gè)人電腦、互聯(lián)網(wǎng),包括到移動(dòng)互聯(lián),以及最近提出的大數(shù)據(jù)。一個(gè)大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代正在開(kāi)啟。我們可以拿一個(gè)簡(jiǎn)單的例子看一看,這里是我們實(shí)際的項(xiàng)目。在基因數(shù)據(jù)這一塊,我們有一個(gè)項(xiàng)目實(shí)際上是跟基因相關(guān)的東西;驍(shù)據(jù)基本上被分成四個(gè)部分。第一、做基因測(cè)序。第二、基因分析。第三、數(shù)據(jù)共享。第四、數(shù)據(jù)保存。從這四塊看,它的每一塊都跟數(shù)據(jù)的存儲(chǔ)、分析、共享關(guān)系都非常密切。像測(cè)序整個(gè)數(shù)據(jù)導(dǎo)入本身對(duì)后端的系統(tǒng)要求非常高。數(shù)據(jù)存好之后,需要對(duì)數(shù)據(jù)做一些分析,這些分析他們也是對(duì)后頭計(jì)算設(shè)備和存儲(chǔ)設(shè)備有很高要求。共享這一塊,一個(gè)數(shù)據(jù)不光是一家公司用,可能需要有很多地方共同用。所以,它是一個(gè)共享的問(wèn)題。測(cè)試這一塊,包括像基因數(shù)據(jù),它的量非常大,整個(gè)用傳統(tǒng)的陣列,或者一個(gè)存儲(chǔ)形式它是沒(méi)有辦法來(lái)保證我們大規(guī)模并行或者海量存儲(chǔ)的一種方案。
在基因測(cè)序里面,我們可以看到,從它的測(cè)序大共享,到數(shù)據(jù)分析,這個(gè)數(shù)據(jù)從它生產(chǎn)出來(lái),再到模板把數(shù)據(jù)共享出去,到后面的分享,會(huì)經(jīng)過(guò)多次的轉(zhuǎn)換,到本地、到存儲(chǔ)設(shè)備,然后分析這些設(shè)備。如果用傳統(tǒng)的方式,就會(huì)發(fā)現(xiàn)存在多次數(shù)據(jù)的拷貝,這樣對(duì)數(shù)據(jù)空間是個(gè)浪費(fèi),同時(shí)對(duì)時(shí)間、人力包括成本都是浪費(fèi)非常大。所以,我們想有沒(méi)有一種產(chǎn)品,它能夠同時(shí)解決這個(gè)問(wèn)題?就是計(jì)算、存儲(chǔ)和分析我們?nèi)绾稳诤显谝黄?
另外,在其他行業(yè)也面臨類似的問(wèn)題。像我們碰見(jiàn)的一些項(xiàng)目里面,在衛(wèi)星測(cè)繪,媒資行業(yè),包括能源勘探和金融證券這些行業(yè),他們的數(shù)據(jù)需要一些存儲(chǔ)、分析和共享,同樣面臨這些困境。中間是海量的數(shù)據(jù),有一個(gè)數(shù)據(jù)源,源里面會(huì)有數(shù)據(jù)的共享和數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的分析;谶@種挑戰(zhàn),我們看看華為是怎么來(lái)應(yīng)對(duì)這種挑戰(zhàn),怎么打破常規(guī),然后不破不立。
首先,我們這個(gè)產(chǎn)品叫OceanStor 9000,它是專門為大數(shù)據(jù)而設(shè)計(jì)的一個(gè)海量存儲(chǔ)系統(tǒng)。它要解決的問(wèn)題就是在計(jì)算這一塊的一些分散的問(wèn)題。像生產(chǎn)、共享和分析這一塊,知道產(chǎn)品之后,我們可以把生產(chǎn),把共享的一些數(shù)據(jù),還有分析很好的進(jìn)行一些融合。怎么融合的呢?這張圖是基于高效全融合系統(tǒng)的架構(gòu)圖,最上面是應(yīng)用層,應(yīng)用層面向的分為非常廣,像媒體,包括視頻監(jiān)控,高性能計(jì)算,像網(wǎng)盤,另外還有一些其他的互聯(lián)網(wǎng)的應(yīng)用,也都可以。然后,在應(yīng)用和數(shù)據(jù)處理之間,這是一個(gè)接口上,在這個(gè)接口層里面就非常豐富了。有傳統(tǒng)的NFS協(xié)議,另外還會(huì)支持當(dāng)前比較熱門的像HDFS這些接口,還會(huì)有一些像亞馬遜的S3這樣的接口,同時(shí)還會(huì)支持?jǐn)?shù)據(jù)庫(kù)的一些接口。
在接口之下,整個(gè)數(shù)據(jù)處理層,數(shù)據(jù)處理層基本上分這么幾個(gè)核心的部分。第一、有一套分布式服務(wù)系統(tǒng),我們稱為WuShanFS分布式系統(tǒng),還有分布式數(shù)據(jù)庫(kù),我們稱之為WuShanSQL,還有一些企業(yè)級(jí)Hadoop系統(tǒng),我們稱之為Fuslonlnslght系統(tǒng)。另外還有我們?nèi)A為自己研發(fā)的X86的服務(wù)器,包括存儲(chǔ)服務(wù)器,這是整個(gè)系統(tǒng)架構(gòu)。
基于這一塊我們提出兩個(gè)理念。就是右上角提的兩個(gè),一個(gè)是融合,一個(gè)是擴(kuò)展。融合會(huì)在存儲(chǔ)分析這一塊,第一是存儲(chǔ)和分析的融合。左邊第一部分講傳統(tǒng)的數(shù)據(jù)分析,右邊講用了我們的系統(tǒng)之后,我們自己怎么來(lái)解決這個(gè)傳統(tǒng)分析的流程。在左邊會(huì)發(fā)現(xiàn),整個(gè)數(shù)據(jù)的生產(chǎn)、共享和分析有一個(gè)篡寫的環(huán)節(jié),但是到右邊這一塊,數(shù)據(jù)的生產(chǎn)、共享、分析完全可以用一套存儲(chǔ)資源進(jìn)行管理和備份。這樣我不需要進(jìn)行一些額外的操作,在同一套系統(tǒng)完成操作。這里面更重要的是它還會(huì)提升我們的時(shí)間,包括數(shù)據(jù)的遷移、搬遷,消耗的時(shí)間會(huì)非常長(zhǎng)。
第二塊關(guān)于存儲(chǔ)和歸檔的融合。一般來(lái)說(shuō)存儲(chǔ)和歸檔在傳統(tǒng)行業(yè)是分開(kāi)的。就是我會(huì)有一套傳統(tǒng)的產(chǎn)品,它是一些陣列的產(chǎn)品。另外還會(huì)有一些外植的歸檔設(shè)備,所以做歸檔的時(shí)候,它會(huì)把存儲(chǔ)設(shè)備遷移到歸檔設(shè)備,進(jìn)行歸檔的時(shí)候,由于要做歸檔,包括要做它的權(quán)限,還有可行性的一些檢查,所以,你一定要做一些外置的檢索還有相關(guān)的一些工作。這樣一來(lái)其實(shí)是兩套獨(dú)立的產(chǎn)品,但是現(xiàn)在其實(shí)有了一些新的解決方案,就是我同一套設(shè)備里面,可以把這兩個(gè)東西完全的融合起來(lái)。就是在一套存儲(chǔ)系統(tǒng)里,我們會(huì)有專門的一個(gè)在線的存儲(chǔ)區(qū),我們把它稱之為Online的存儲(chǔ)區(qū)。另外還有一塊歸檔區(qū),這兩個(gè)區(qū)其實(shí)在完整的一套設(shè)備里面。我們會(huì)把設(shè)備跟它隔離層不同的區(qū),不同的區(qū)分成不同的策略,包括數(shù)據(jù)冗余的一些策略。這樣做存儲(chǔ)的時(shí)候,可以直接到存儲(chǔ)區(qū)進(jìn)行數(shù)據(jù)存儲(chǔ)。如果我需要?dú)w檔的時(shí)候,只要在整個(gè)小資源范圍內(nèi)能夠進(jìn)行一些新的歸檔,包括簡(jiǎn)單的一些數(shù)據(jù)的設(shè)置,包括訪問(wèn)等等。
第三個(gè)融合講的是多種數(shù)據(jù)類型的融合,傳統(tǒng)的數(shù)據(jù)為了適應(yīng)不同的數(shù)據(jù)類型,會(huì)從最底層進(jìn)行抽象,會(huì)把整個(gè)數(shù)據(jù)分成文件的部分,就成為分析化的部分,還會(huì)稱為一個(gè)數(shù)據(jù)化的部分,我們稱為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。這兩部分其實(shí)是用了不同的設(shè)備進(jìn)行做的。像數(shù)據(jù)庫(kù)這一塊,我們用一些陣列的設(shè)備,對(duì)外安裝一些數(shù)據(jù)庫(kù),然后提供SQL查詢的接口。如果是文件這一塊,它會(huì)用標(biāo)準(zhǔn)的NFS設(shè)備,對(duì)外提供數(shù)據(jù)的一些共享,再進(jìn)行數(shù)據(jù)的分析、存儲(chǔ),這是講的傳統(tǒng)的分析。
但是,隨著技術(shù)的發(fā)展,開(kāi)始是把結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)融合在一起。就是整套設(shè)備里面有這么一套存儲(chǔ)的資源池,這個(gè)資源池里面本身會(huì)分成非結(jié)構(gòu)化,還有一塊是結(jié)構(gòu)化的設(shè)備。我們對(duì)外會(huì)同時(shí)提供一些NFS接口和一些數(shù)據(jù)庫(kù)的接口,還會(huì)包括一些BI的接口,這樣系統(tǒng)可以完成文件、對(duì)象,包括塊的存儲(chǔ),做到一些統(tǒng)一的融合。所以,這里我們講的是多種數(shù)據(jù)類型的融合。
第二部分,關(guān)于擴(kuò)展。整個(gè)產(chǎn)品的擴(kuò)展是從三個(gè)緯度,三個(gè)層次進(jìn)行擴(kuò)展。首先,是協(xié)議層這一塊進(jìn)行了拓展。我們對(duì)外是用標(biāo)準(zhǔn)的NFS這些協(xié)議,但是這些協(xié)議本身有一些擴(kuò)展性的問(wèn)題,還會(huì)包括一些熱點(diǎn)問(wèn)題。所以,我們團(tuán)隊(duì)自己把享用的一些協(xié)議做了一些修改,然后解決一些它的熱點(diǎn)問(wèn)題,包括它一些負(fù)載均衡的問(wèn)題。這樣整套系統(tǒng)可以對(duì)外提供上千,甚至上萬(wàn)個(gè)客戶端同時(shí)進(jìn)行訪問(wèn),在后續(xù)的設(shè)備里面,我們會(huì)在系統(tǒng)里面支持十萬(wàn)個(gè)節(jié)點(diǎn),甚至更多的節(jié)點(diǎn)的訪問(wèn)。
中間是文件系統(tǒng)層和分布式數(shù)據(jù)庫(kù)層,會(huì)把整個(gè)系統(tǒng),用分布式系統(tǒng)連接起來(lái),實(shí)現(xiàn)很好的橫向的擴(kuò)展。目前像這種技術(shù)在業(yè)界也非常多,像Hadoop等等。我們采用是我們自己的想法,我們會(huì)把整個(gè)單獨(dú)的一套系統(tǒng)擴(kuò)展成完全的一套分布式系統(tǒng),每一套分布式系統(tǒng)用一些指數(shù)切割的方法實(shí)現(xiàn)整個(gè)系統(tǒng)海量的管理。在最底層是分布式存儲(chǔ)層,這個(gè)存儲(chǔ)層我們?cè)谟布蛿?shù)據(jù)存儲(chǔ)這一塊,其實(shí)之下是全部的DS節(jié)點(diǎn),是全互聯(lián)IP的方式,然后采用分布式的架構(gòu),同時(shí)會(huì)支持一些盤。這里面我們會(huì)對(duì)節(jié)點(diǎn)的加入,刪除做優(yōu)化,這樣我們把很多節(jié)點(diǎn)可以構(gòu)成一個(gè)資源池,然后它對(duì)外提供很好的存儲(chǔ)能力。
擴(kuò)展這一塊有一個(gè)比較好的能力就是性能。為什么我們提擴(kuò)展,就是傳統(tǒng)的存儲(chǔ)設(shè)備單個(gè)性能還是比較不錯(cuò),因?yàn)樗叩氖枪饫w這一塊,單臺(tái)機(jī)器的設(shè)備性能非常強(qiáng)。但是,如果它把多臺(tái)設(shè)備放在一起,如果構(gòu)成多系統(tǒng)之后,它的設(shè)備反而不行。這就是為什么說(shuō)開(kāi)始要用到像百度、阿里,他們開(kāi)始用大的一些設(shè)備構(gòu)建它的分布式系統(tǒng)。目的一個(gè)是除了簡(jiǎn)單使用,另外還有性能各方面的考慮。
這邊我們給我們系統(tǒng)做新的測(cè)試的時(shí)候,我們的一個(gè)測(cè)試指標(biāo),從數(shù)字上看,我們當(dāng)時(shí)測(cè)出來(lái)500萬(wàn)的OPS性能,這個(gè)性能比上一次冠軍整整要高出3倍以上。據(jù)說(shuō)他們之前測(cè)出來(lái)的性能在150萬(wàn)左右的性能值,我們測(cè)出來(lái)性能值能達(dá)到500多萬(wàn),這個(gè)數(shù)字還是非常驚人。
成功的背后其實(shí)也有英特爾和華為存儲(chǔ)戰(zhàn)略合作的結(jié)果。這里面這張圖片,是我們一個(gè)實(shí)物的圖片,是在成都華為研究所機(jī)房里面,我們專門有一個(gè)實(shí)驗(yàn)室所拍出來(lái)的。整個(gè)存儲(chǔ)規(guī)模有40P,總共有288個(gè)機(jī)電構(gòu)成,這個(gè)是當(dāng)前最大的一場(chǎng)存儲(chǔ)系統(tǒng),我們說(shuō)是這個(gè)展現(xiàn)的,其他的存儲(chǔ)設(shè)備認(rèn)為我可能達(dá)到20P,或者40P都有理論值。我們這個(gè)是通過(guò)實(shí)物,實(shí)實(shí)在在把它構(gòu)建出來(lái)的。這里面,英特爾幫我們做了大的工作,設(shè)計(jì)是我們自己做的工作。英特爾在處理器這一塊,在加速,包括大數(shù)據(jù),還有橫向擴(kuò)容他們幫我們做了很多。另外在它的CPU,包括一些網(wǎng)卡類也做了很多工作。這張圖是我們?nèi)A為跟英特爾合作的這么一個(gè)發(fā)布會(huì)。
關(guān)于擴(kuò)展這一塊的好處,就是有了擴(kuò)展之后,本身這個(gè)產(chǎn)品能夠做到按需擴(kuò)展,同時(shí)也按需購(gòu)買。隨著業(yè)務(wù)的發(fā)展,一開(kāi)始可能不需要那么多設(shè)備,完全以定制化的形式買一部分東西。但是,隨著后續(xù)產(chǎn)品,包括公司的擴(kuò)大,我完全可以把它的規(guī)模擴(kuò)展上去。這就是說(shuō)傳統(tǒng)的一些設(shè)備,他們往往很難做到比較好的擴(kuò)展性。像分布式系統(tǒng),這是它天然的一個(gè)優(yōu)勢(shì)。
另外,在管理方面,我們有幾個(gè)特點(diǎn),我們稱為叫1、2、3、4。“1”就是有一套完整的管理系統(tǒng),有一套進(jìn)行管理。“2”指兩種資源系統(tǒng),這種資源系統(tǒng)包括物理資源,還有邏輯資源。“3”,支持三類管理終端,包括PC、Phone、Pad。“4”就是4種告警方式,包括郵件、聲音、短信、指示燈的告警。目前來(lái)說(shuō)我們基本上一分鐘就可以上線,馬上就可以使用。這是整個(gè)管理便捷這一塊。
整個(gè)OceanStor 9000這款產(chǎn)品有幾個(gè)關(guān)鍵的數(shù)據(jù)。首先我們的產(chǎn)品按照類型可以分成三大類。第一類,我們把它成為叫分析節(jié)點(diǎn)。第二類高性能節(jié)點(diǎn)。第三類大容量節(jié)點(diǎn)。這是針對(duì)不同的市場(chǎng),有的市場(chǎng)可能存儲(chǔ)流量不是那么大,但是我可能需要性能特別強(qiáng)。另外,可能是對(duì)性能要求偏弱,但是對(duì)存儲(chǔ)容量要求比較大。所以,我們會(huì)針對(duì)不同的情況會(huì)分幾類進(jìn)行區(qū)分。
這里面有幾個(gè)數(shù)據(jù)是我們?cè)跇I(yè)界提出來(lái)的。第一、關(guān)于OPS性能這一塊,目前我們?cè)?00萬(wàn)的OPS。第二、整個(gè)吞吐量能達(dá)到200GB總的這么一個(gè)情況。第三、容量,目前實(shí)際值已經(jīng)達(dá)到40PB,我們現(xiàn)在在構(gòu)建下一個(gè)版本,下一個(gè)版本我們計(jì)劃要到幾百P以上的規(guī)模。
我們這些產(chǎn)品有哪些具體的應(yīng)用?華為OceanStor 9000的應(yīng)用場(chǎng)景有這些,因?yàn)槭歉鶕?jù)我們目前拿到項(xiàng)目的情況把它列了一下,但是它也不完全取決于這些。它會(huì)包括在衛(wèi)星測(cè)繪,在氣象科學(xué)這一塊,包括能源勘探,航空,包括基因測(cè)序,教育,還有公共事業(yè)和媒體。其中像氣象這一塊,我們?cè)趪?guó)內(nèi)氣象類的項(xiàng)目里面,有幾個(gè)標(biāo)成功中標(biāo),目前項(xiàng)目也在實(shí)施。在基因測(cè)序這一塊,也跟一些國(guó)內(nèi)非常知名的基因公司做相應(yīng)的合作,他們有我們相應(yīng)的設(shè)備。在媒體這一塊,跟比較有名的一些像央視一些大的媒資企業(yè)我們也在進(jìn)行合作。
最后總結(jié)一下,我們整個(gè)OceanStor 9000的情況。整個(gè)華為OceanStor 9000,主要的問(wèn)題是化解CIO存儲(chǔ)目前的一些困境,然后解決大數(shù)據(jù)帶來(lái)的一些挑戰(zhàn)的問(wèn)題。然后這幾個(gè)數(shù)據(jù),剛剛我們說(shuō)的就是它主要的特點(diǎn)就是如何擴(kuò)展高效、簡(jiǎn)單。然后,它有幾個(gè)數(shù)字,500萬(wàn)OPS,200GB/S寸土兩,288個(gè)節(jié)點(diǎn),40PB的存儲(chǔ)孔兩,謝謝各位!
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.