全球網(wǎng)絡(luò)存儲工業(yè)協(xié)會中國技術(shù)中心首席技術(shù)顧問侯海波
大數(shù)據(jù)的迷霧籠罩著當(dāng)前整個業(yè)界,IT基礎(chǔ)架構(gòu)受到的沖擊首當(dāng)其沖,數(shù)據(jù)的處理、分析和利用,首先是以數(shù)據(jù)存儲為基礎(chǔ)的。IBM的智慧存儲戰(zhàn)略,貫穿著化解大數(shù)據(jù)危機(jī)的思想。但I(xiàn)BM的目光不僅僅放在IT業(yè)內(nèi),而是希望所有的企業(yè)、組織,能夠認(rèn)識大數(shù)據(jù)并利用技術(shù)手段從中獲得“智慧”。
受IBM公司的委托,侯海波在發(fā)布會上向包括商業(yè)媒體在內(nèi)的在場人員講解了《存儲那些事》。他表示,應(yīng)對當(dāng)前的存儲挑戰(zhàn),需要采用高性價比的介質(zhì)和優(yōu)秀的架構(gòu),輔以分級存儲、存儲虛擬化、精簡存儲和重復(fù)數(shù)據(jù)刪除等重要的技術(shù)手段。
存儲解決三件事情
從PC普及到互聯(lián)網(wǎng)建設(shè)高潮,再到如今社交媒體和移動互聯(lián)網(wǎng)的高速發(fā)展,我們已經(jīng)置身一個海量信息的時代。侯海波說,信息技術(shù)跨入一個新的以信息技 術(shù)處理、存儲為核心的時代,這就是信息的存儲??梢钥闯?,存儲幾乎是我們的一個IT架構(gòu)重心。調(diào)研表明,在IT架構(gòu)里面,一半的預(yù)算幾乎都放在了存儲上 面,而過去的重心是計(jì)算和傳輸。
存儲技術(shù)主要是解決這三件事情:第一,要把信息存好,不管多大的數(shù)據(jù),你得存下來;第二,要用好,在我任何時候需要數(shù)據(jù)的時候能夠很快地找出來;第三,管好,數(shù)據(jù)一定要管好,一定不能丟,如果丟了,法律可能會找你的麻煩。
侯海波指出,存儲需要很好的載體。以石刻、竹簡、紙張記事,那是存儲的昨天,紙張的發(fā)明讓人類文明跨出了大大的一步。然而,當(dāng)前的存儲技術(shù)發(fā)展到今天面臨很大的壓力。
存儲三大壓力
第一個壓力是數(shù)據(jù)量實(shí)在太多。在2011年有一個專門的研究機(jī)構(gòu)研究表明:到2007年底的時候存儲的信息是295EB(1EB=1000PB 100萬TB 10億GB 1萬億MB,一張照片大概也就是幾個MB),到現(xiàn)在可能翻了十倍都不止了。要把這些數(shù)據(jù)全部刻成CD,大概是4040億張,如果全部疊起來,可以從地球到月球。
第二個問題它是爆炸性的增長,有專家給了一個“經(jīng)驗(yàn)定律”,是每隔十八個月翻一番,平均每年產(chǎn)生多少新的信息呢?好像是 2000000000000000000000字節(jié)。這些數(shù)據(jù)包括通話記錄、銀行業(yè)務(wù)記錄、網(wǎng)購交易記錄和微博信息等,Ebay每天產(chǎn)生的數(shù)據(jù)量是 50TB,F(xiàn)acebook在沒有中國這么大的市場情況下,每天新增的照片量是1PB。爆炸性增長帶來的壓力,就是海量的基礎(chǔ)上還要去海量,數(shù)據(jù)一多,找起來就比較麻煩,你在一個柜子去找東西和滿房間找東西花的時間是不一樣的。
第三個壓力,這個數(shù)據(jù)非常重要。重要到你不提供它,你會損失很大,而且會影響到你企業(yè)的生存。我們知道9·11事件發(fā)生之后,世貿(mào)大廈三分之二的企 業(yè)都沒有重新開張,不是因?yàn)槿藛T的損失和資產(chǎn)損失,而是數(shù)據(jù)的丟失,不能丟的一定不能丟,要丟的話可能法律會找你的麻煩。另一方面,如果你的數(shù)據(jù)沒有丟 好,這也給你自己造成麻煩。前幾年有一位陳老師,他可能有一些圖片數(shù)據(jù)涉及隱私,給自己找了麻煩,他沒有存儲知識,所以從那以后很多知名人士寧愿砸了也不 愿意去維修,可見懂點(diǎn)存儲知識是多么的重要。
應(yīng)對之道
今天的應(yīng)對之道,首先我們看一下數(shù)據(jù)存在什么地方,當(dāng)然大家可能想到光媒介,有磁帶,但是主流的還是磁盤,1956年的時候IBM發(fā)明了第一塊磁盤,當(dāng)時大概是24寸,100多公斤,數(shù)據(jù)量是5MB,今天隨便一塊磁盤上到2TB、3TB,也就是說我們的容量已經(jīng)擴(kuò)展了100萬倍。但是,不管磁盤多大,在企業(yè)應(yīng)用里面還是不夠的,我們知道電信的磁盤是幾百塊、上千塊才能存得下,怎么把這些磁盤組織起來,存儲更大的容量,這里我們就用到一個技術(shù),一個是外部存儲,把磁盤組織起來放到一個柜子里,這叫磁盤陣列,不光放進(jìn)去就可以了,還有一個RAID的技術(shù),把這些磁盤組織起來,通過一系列的方式使得我們得到更大的容量來使用,同時性能還提高。舉個例子,一個人假如說只能記100個單詞,如果要記 1000個單詞可以組織10個人,每人記100個,組成一個團(tuán)隊(duì)之后存儲容量就擴(kuò)大了。如果我要是記100個單詞,第一個人記,其他人閑著,可能我還是需要100分鐘的時間。如果100個單詞來了之后,把它分成10組,每一個人記10個,大家同時記,那么我們10分鐘就可以把數(shù)據(jù)記下來,這就是說RAID 技術(shù)讓我們可以利用廉價的磁盤組成一個大容量的磁盤,當(dāng)然,它的可靠性也會增加。
介質(zhì)還不能完全解決問題,我們還需要一個好的架構(gòu)。早期的存儲,我們是直接把磁盤放到服務(wù)器這樣的主機(jī)里面,主機(jī)和磁盤是密不可分的,在這種情況下,如果我要增加存儲,我需要首先增加主機(jī)。后來,我們把磁盤擴(kuò)展到機(jī)箱的外面,組成一個柜子,也就是磁盤陣列,剛開始只能通過一種協(xié)議,也就是我說的NAS這樣的連接聯(lián)到一臺主機(jī),雖然解決了容量的問題,但是共享的問題、每一臺應(yīng)用的數(shù)據(jù)保護(hù)問題可能需要分別對待,這是分別進(jìn)行存儲,后來我們產(chǎn)生了更大容量的企業(yè)化存儲,大到可以把企業(yè)所有的數(shù)據(jù)都存在里面,而且有更好的一些通道協(xié)議把它聯(lián)到很多的主機(jī)上面,可以把所有的應(yīng)用主機(jī)聯(lián)到一起來,實(shí)現(xiàn)了企業(yè)數(shù)據(jù)的統(tǒng)一存儲。在統(tǒng)一的情況下就可以對數(shù)據(jù)進(jìn)行統(tǒng)一的管理,比如說備份就很方便了,這個協(xié)議最早也是IBM做的。這樣一個架構(gòu)還不是最方便的,最方便的是網(wǎng)絡(luò)存儲,好比大家拿著筆記本電腦,插上網(wǎng)線就可以調(diào)用數(shù)據(jù)了,拔了網(wǎng)線就可以回家了。我們的設(shè)想是把所有的主機(jī)都列到網(wǎng)絡(luò)中來,把所有的存儲都列到網(wǎng)絡(luò)中來,大家通過網(wǎng)絡(luò)的方式去擴(kuò)展,新增加了一個業(yè)務(wù)部門,新增加一個主機(jī)就可以了,明天新買一個盤陣,直接接到交換機(jī)上就可以了。
剛才講到了內(nèi)部陣列存儲和外部陣列存儲,這個架構(gòu)還在用。這是NAS結(jié)構(gòu),這種方式在應(yīng)對訪問某個文件時是非常方便的,但是最典型的還是我們構(gòu)建存儲區(qū)域網(wǎng),這樣的話,我們就像訪問本地的磁盤一樣,雖然你在寫數(shù)據(jù)時會寫到磁盤陣列里面去。
我們再來看看這些技術(shù),一個是分級存儲。既要保證性能,我需要把數(shù)據(jù)放在高性能的介質(zhì)上,為了保存大量的數(shù)據(jù),我需要用廉價的存儲磁盤來支持,每一種介質(zhì)都要用。一個數(shù)據(jù)隔一段時間不用了,可以自動移到二級存儲上,再不用放到三級存儲上,需要的時候調(diào)用到一級存儲上,這個過程是完全自動的。
存儲虛擬化。如果我有很多個磁盤陣列,第一個可能已經(jīng)快用完了,第二個可能還有很多的空白,在這種情況下,如果我有一個軟件,通過虛擬化管理,把它組成一個大的存儲池,愛怎么用就怎么用,具體寫到哪個磁盤上就由我來控制。
第三個是精簡存儲。大概是這么一個效果:如果你有一塊硬盤是1G,每一個分區(qū)給多大的空間比較好呢?這是比較糾結(jié)的問題,用了精簡存儲,你可以給每個分區(qū)分到最大,哪個用得多就用哪個,直到最后物理空間用完了再去擴(kuò)展新的磁盤,這是它的示意圖。
最后,我們從源頭上來看,怎么樣通過除掉重復(fù)數(shù)據(jù)。當(dāng)一個文件來的時候,我首先對文件進(jìn)行處理,切成小塊,在已經(jīng)存儲的文件里面去找,如果這塊數(shù)據(jù) 已經(jīng)存儲了,我就不會再存了。但是我做一個記錄,在你任何時候需要這個數(shù)據(jù),我可以隨時給你組裝出來,這樣的話減輕了存儲容量,對每個數(shù)據(jù)的訪問也不會有 影響。
存儲的明天
明天有大個特征:一個是大數(shù)據(jù),它大到了一定的程度,需要我們存儲技術(shù)用特殊的方式或者技術(shù)來對待它,大容量需要我們大架構(gòu),而且是分布式的技術(shù),需要高的性能,需要更架構(gòu)、大運(yùn)維。
第二個是云存儲,有了云存儲之后,我不需要像過去那樣規(guī)劃、購買、部署,也不需要長時間運(yùn)維,我只說我需要容量。提供商需要做的事情,用我們剛才提到的虛擬化架構(gòu)來管理,進(jìn)行動態(tài)的擴(kuò)展,可以想像這是一種比較好的模式,這就使IT資源像水和電一樣的公共資源。