現(xiàn)在,一年過(guò)去了,Gibson又接受了有關(guān)媒體的專訪,談及了PDSI學(xué)會(huì)是否找到了計(jì)算機(jī)出故障的原因以及在Peta級(jí)存儲(chǔ)設(shè)備的開(kāi)發(fā)研究方面取得了什么樣的進(jìn)展。


      “我們?cè)谖覀兊南到y(tǒng)中使用的驅(qū)動(dòng)器的數(shù)量以及我們?cè)谀切?qū)動(dòng)器上儲(chǔ)存的數(shù)據(jù)量在過(guò)去十年發(fā)生了急劇的增長(zhǎng),計(jì)算機(jī)的故障總量也增加了?!盙arth Gibson這樣說(shuō)到。



      設(shè)定一個(gè)新的標(biāo)準(zhǔn)


      Gibson是領(lǐng)先的大型存儲(chǔ)設(shè)備廠商Panasas公司的創(chuàng)始人兼首席執(zhí)行官,據(jù)Gibson說(shuō):“對(duì)于企業(yè)和科學(xué)研究界的大型用戶來(lái)說(shuō),2007年存儲(chǔ)設(shè)備業(yè)界發(fā)生的最重要的事情是并行NFS標(biāo)準(zhǔn)草案的完成。”他說(shuō)他預(yù)計(jì)這個(gè)標(biāo)準(zhǔn)草案將于12月2日被提交給因特網(wǎng)工程特別工作組(Internet Engineering Task Force)審核。Gibson表示:“那將創(chuàng)立一個(gè)多源的、競(jìng)爭(zhēng)性的、標(biāo)準(zhǔn)化文件系統(tǒng),可以滿足各種Peta級(jí)系統(tǒng)的要求。”他還指出,到目前為止可縮放文件系統(tǒng)界還沒(méi)有形成一個(gè)開(kāi)放的標(biāo)準(zhǔn)。 “因此,各個(gè)解決方案都有新機(jī)會(huì)?!?


      這項(xiàng)標(biāo)準(zhǔn)其實(shí)是下一代NFS即NFS 4.1,它是為了替代NFS 4.0而開(kāi)發(fā)的。Gibson說(shuō):“在4.1標(biāo)準(zhǔn)中的所有東西都是可選擇的,因此你可以象往常一樣繼續(xù)使用NFS 4.0,并且開(kāi)始體驗(yàn)新功能?!盙ibson說(shuō),對(duì)于那些要求高性能、可縮放存儲(chǔ)系統(tǒng)但是不愿意進(jìn)行巨額投資購(gòu)買需要經(jīng)常進(jìn)行升級(jí)的所有權(quán)系統(tǒng)的企業(yè)來(lái)說(shuō),他相信新的開(kāi)放標(biāo)準(zhǔn)最終會(huì)提供一個(gè)更好的投資回報(bào)。


      彌補(bǔ)介質(zhì)故障


      為了解決計(jì)算機(jī)出現(xiàn)的故障,并試圖在更低故障率條件下建造大型存儲(chǔ)系統(tǒng),磁盤(pán)驅(qū)動(dòng)器廠商們正在不斷對(duì)產(chǎn)品進(jìn)行完善,研究人員們也不斷研究開(kāi)發(fā)出新的技術(shù)。


      Gibson說(shuō):“企業(yè)們將重新認(rèn)識(shí)規(guī)模的含義,它們將采取措施改善存儲(chǔ)系統(tǒng)在故障方面的容許量。”那些措施包括加快維修系統(tǒng)的速度、大規(guī)模并行重建數(shù)據(jù)、增加對(duì)檢查點(diǎn)、完整性代碼和糾錯(cuò)碼的使用以防止出現(xiàn)更多種類的故障,并將RAID磁盤(pán)的故障容錯(cuò)率提高2倍到3倍。 雖然Gibson避免將這些故障稱作是重要故障,但是他聲稱這表明了提供更強(qiáng)大的糾錯(cuò)機(jī)制已經(jīng)形成一個(gè)總體趨勢(shì)。


      更重要以及更值得一提的是,驅(qū)動(dòng)器會(huì)變得更加可靠。不過(guò)問(wèn)題仍然存在,我們?cè)谙到y(tǒng)中使用的驅(qū)動(dòng)器的數(shù)量和我們?cè)隍?qū)動(dòng)器上存儲(chǔ)的數(shù)據(jù)量在過(guò)去10年里發(fā)生了急劇的增長(zhǎng),這就導(dǎo)致故障總量也增加了很多。


      企業(yè)和研究人員們特別關(guān)心的問(wèn)題是介質(zhì)故障率,也被稱作無(wú)法修正的讀誤差或者潛在介質(zhì)故障。雖然這個(gè)問(wèn)題并不是經(jīng)常發(fā)生,但是時(shí)不時(shí)尤其是當(dāng)里在使用Peta級(jí)系統(tǒng)時(shí)還是會(huì)不時(shí)發(fā)生這樣的故障并引發(fā)重要問(wèn)題。


      例如,Gibson解釋了這樣一種情況:


      他說(shuō):“讓我們假定里在一個(gè)RAID種配備了14個(gè)磁盤(pán),而且其中一個(gè)出現(xiàn)了故障?,F(xiàn)在你需要讀出13個(gè)磁盤(pán)的所有內(nèi)容。 這個(gè)磁盤(pán)的容量可能是1TB。也就是說(shuō)你要想重建系統(tǒng)必須讀出13TB的數(shù)據(jù)。 一般,在數(shù)據(jù)讀出量達(dá)到10TB到100TB之間時(shí)可能會(huì)出現(xiàn)一次介質(zhì)故障。因此,也就是說(shuō)在更低質(zhì)量驅(qū)動(dòng)器的重建過(guò)程中,你很可能無(wú)法讀到所有的內(nèi)容。 可能只有一個(gè)扇區(qū)讀不出。即便是采用更高質(zhì)量的驅(qū)動(dòng)器,在10次重建中仍可能會(huì)遇到1次這種問(wèn)題?!?


      “如果你在重建過(guò)程中無(wú)法讀出某個(gè)磁盤(pán)扇區(qū)的內(nèi)容,哪怕你只丟失了十億分之一的數(shù)據(jù),你也無(wú)法進(jìn)行重建。在目前,當(dāng)你在重建過(guò)程中遇到故障時(shí),是沒(méi)有任何解決辦法的。然后你可能不得不去找廠商,然后由生產(chǎn)廠商的技術(shù)人員設(shè)法弄清楚是哪個(gè)扇區(qū)出現(xiàn)故障,然后想辦法修復(fù)它。”


      那么廠商們?yōu)槭裁床荒苓M(jìn)一步減少、消除或者補(bǔ)償潛在介質(zhì)故障呢? Gibson說(shuō),問(wèn)題是市場(chǎng)希望能夠從同樣的投資中獲得更多的信息。至于具體的做法,廠商們必須將數(shù)據(jù)更緊密地包在一起。 如果它們不需要保證返回給你的數(shù)據(jù)的正確性,它們可以迅速返回。因此,它們不能返回正確數(shù)據(jù)的比率是它們可以以多快的速度來(lái)提升容量以及在同樣的投資下能夠提供給你多少數(shù)據(jù)時(shí)所面臨的一個(gè)限制。”


      廠商們可以將數(shù)據(jù)壓縮得更緊密一些。但是Gibson說(shuō),如果廠商們那么做的話,可能就會(huì)發(fā)生故障率上升的情況。因此,它們?cè)谶M(jìn)行數(shù)據(jù)壓縮的時(shí)候,必須控制相應(yīng)的故障率處于可接受范圍內(nèi)。


      結(jié)果,包括Panasas公司在內(nèi)的大型存儲(chǔ)設(shè)備廠商將開(kāi)發(fā)新的保護(hù)機(jī)制來(lái)應(yīng)對(duì)萬(wàn)一發(fā)生介質(zhì)故障時(shí)將故障的部分隔離開(kāi),對(duì)于企業(yè)用戶們來(lái)說(shuō),這可是大大的好消息。


      從失敗中吸取教訓(xùn)


      在Peta級(jí)數(shù)據(jù)存儲(chǔ)業(yè)界的另一個(gè)重大進(jìn)步是計(jì)算機(jī)故障數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)(the Computer Failure Data Repository)的建立。最終用戶們可以在這里發(fā)布它們的故障記錄供其他人研究和學(xué)習(xí)。Gibson說(shuō),那些信息是很重要的,因?yàn)楦纳葡到y(tǒng)質(zhì)量的正確方法是真正理解它們是如何發(fā)生故障的。


      Gibson說(shuō),雖然計(jì)算機(jī)問(wèn)世已經(jīng)有許多年了,但是大多數(shù)計(jì)算機(jī)科學(xué)家對(duì)于故障機(jī)制的認(rèn)識(shí)卻比較有限。


      由于廠商們常常不愿意或者不能夠共享故障數(shù)據(jù),因此計(jì)算機(jī)故障數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)鼓勵(lì)并依賴最終用戶來(lái)提供那些故障數(shù)據(jù),比如Los Alamos 國(guó)家實(shí)驗(yàn)室 、太平洋西北國(guó)家實(shí)驗(yàn)室、勞倫斯伯克萊試驗(yàn)室和國(guó)家能源研究科學(xué)計(jì)算中心等。Los Alamos國(guó)家試驗(yàn)室已經(jīng)提供了試驗(yàn)室的23個(gè)不同集群在9年時(shí)間中所遭遇的故障的數(shù)據(jù),事實(shí)證明這些數(shù)據(jù)對(duì)于研究人員們來(lái)說(shuō)是非常重要的。


      他認(rèn)為,通過(guò)弄清楚大型計(jì)算機(jī)系統(tǒng)或者群集系統(tǒng)為什么以及如何發(fā)生故障,廠商們就可以開(kāi)發(fā)出相應(yīng)的新技術(shù)來(lái)減少故障,這樣廠商們就可以在市場(chǎng)能夠承擔(dān)的價(jià)格范圍內(nèi)生產(chǎn)出更大、更快、更高效和更可靠的計(jì)算機(jī)和存儲(chǔ)系統(tǒng)。

分享到

多易

相關(guān)推薦