假故障硬盤確實(shí)是個(gè)問(wèn)題
wangfei 發(fā)表于:13年03月27日 22:27 [編譯] DOIT.com.cn
多年來(lái),硬盤廠商們一直在說(shuō)大多數(shù)在保修期內(nèi)返廠維修的硬盤其實(shí)都沒有問(wèn)題。作為一名IT專業(yè)人士,我猜想造成這種現(xiàn)象的真正原因在于鍵盤和座椅。 LSI的洛布?xì)W泊爾(Rob Ober)最近發(fā)表了一篇博客文章,披露了硬盤假故障現(xiàn)象背后的原因。這也讓我不禁想搞清楚為什么這個(gè)問(wèn)題會(huì)一直存在下去。
歐泊爾指出,硬盤假故障這個(gè)問(wèn)題不但對(duì)于購(gòu)買單件硬盤的計(jì)算機(jī)業(yè)余愛好者來(lái)說(shuō)是個(gè)大問(wèn)題,而且對(duì)于數(shù)據(jù)中心的管理員來(lái)說(shuō)也是個(gè)大問(wèn)題。象你我這樣的數(shù)據(jù)中心管理員都明白,如果一塊硬盤發(fā)生故障,會(huì)造成什么樣的成本。 例如:
•系統(tǒng)性能會(huì)下降,而且經(jīng)常要持續(xù)很多天,因?yàn)樾枰趥溆糜脖P上重建RAID系統(tǒng)和大約4TB的數(shù)據(jù)。在使用scale-out存儲(chǔ)設(shè)備的分布式環(huán)境下,這個(gè)問(wèn)題也會(huì)對(duì)網(wǎng)絡(luò)流通量造成影響,因?yàn)橹亟〝?shù)據(jù)必須通過(guò)多個(gè)存儲(chǔ)結(jié)點(diǎn)合并在一起。
•必須派人去更換硬盤。
•因?yàn)橛脖P上存儲(chǔ)著敏感的企業(yè)機(jī)密信息,因此它必須被保密處理或是銷毀。如果你所服務(wù)的公司不夠大,不能與存儲(chǔ)廠商簽訂更換硬盤的協(xié)議的話,那就意味著你必須自己承擔(dān)更換硬盤而發(fā)生的成本。
問(wèn)題是,如今的硬盤是由配備了固件的內(nèi)部微控制器來(lái)運(yùn)行的。就象你的個(gè)人電腦或Mac電腦一樣,軟件偶爾也會(huì)出點(diǎn)小錯(cuò),處理器就會(huì)停止運(yùn)行。 硬盤在使用過(guò)程中會(huì)遇到很多在開發(fā)過(guò)程中并未完全調(diào)試過(guò)的指令和狀態(tài),硬盤的處理器可能會(huì)因?yàn)槟切┲噶詈蜖顟B(tài)而停止對(duì)主機(jī)或RAID控制器發(fā)出的指令作出響應(yīng)。
主機(jī)或RAID控制器就會(huì)發(fā)出報(bào)告稱這塊硬盤出現(xiàn)故障,但是工作人員將這塊硬盤換下來(lái)之后拿到其它系統(tǒng)中測(cè)試時(shí),它又是可以正常工作的。(我們都知道,開關(guān)電源可以解決很多計(jì)算方面的故障。) 實(shí)際上,很多研究表明遇到過(guò)這類假故障的硬盤仍然是可靠的,只要對(duì)它們進(jìn)行重新設(shè)置一下,它們就會(huì)跟剛剛出廠的新硬盤一樣。
歐泊爾實(shí)際上找了一位大型數(shù)據(jù)中心的管理員與他一起進(jìn)行研究,負(fù)責(zé)向他提供硬盤故障方面的統(tǒng)計(jì)數(shù)據(jù)。 雖然按照谷歌或Facebook的標(biāo)準(zhǔn)來(lái)說(shuō)這個(gè)數(shù)據(jù)中心的規(guī)模并不大,但是它里面也配置了20多萬(wàn)臺(tái)服務(wù)器。
他們發(fā)現(xiàn):
•30%以上的SAS硬盤故障都是假故障,這也造成了每天出現(xiàn)故障的硬盤數(shù)增加了10塊到15塊,以及每年千分之一的硬盤假故障率。
•直接與服務(wù)器主板相連的SATA硬盤的假故障率更高,幾乎達(dá)到了硬盤廠商們所說(shuō)的出現(xiàn)假故障的硬盤總數(shù)的50%,每年的假故障率達(dá)到了驚人的1%。
一些廠商曾經(jīng)試著去解決這個(gè)問(wèn)題。5年前,Xiotech和Atrato提出了“自我恢復(fù)”磁盤陣列的概念,即硬盤停止對(duì)指令作出響應(yīng)時(shí)先執(zhí)行修理任務(wù)而不是啟動(dòng)RAID重建工作。 與希捷保持著密切合作關(guān)系的Xiotech甚至可以通過(guò)映射通路的方式讓一塊表明受損或出現(xiàn)故障的硬盤繼續(xù)運(yùn)轉(zhuǎn)。當(dāng)然,這個(gè)恢復(fù)過(guò)程的第一步是在硬盤上執(zhí)行硬復(fù)位。
隨著整個(gè)硬盤行業(yè)開始將重心轉(zhuǎn)向閃存硬盤,自我恢復(fù)的陣列不再吸引人了。Atrato已經(jīng)不復(fù)存在了,Xiotech現(xiàn)在也更名為X-IO,隨著它最后的一批獨(dú)立競(jìng)爭(zhēng)對(duì)手Compellent、3PAR和Nexsan紛紛被收購(gòu)而失去了頭頂?shù)墓猸h(huán)。
由于硬盤市場(chǎng)實(shí)際上已經(jīng)變成由希捷和西部數(shù)據(jù)壟斷的市場(chǎng),我認(rèn)為這兩家硬盤廠商都不可能在硬盤產(chǎn)品中加入能夠檢測(cè)假故障和重新設(shè)置硬盤的備用電路板。但是業(yè)內(nèi)其他廠商如LSI在這個(gè)領(lǐng)域還是能夠有所作為的。
SAS控制器廠商比如LSI可以開發(fā)假故障檢測(cè)和硬盤重新設(shè)置技術(shù)并將它們整合到控制器之中。當(dāng)一塊硬盤停止響應(yīng)的時(shí)候,控制器在啟動(dòng)RAID重建工作之前可以先檢測(cè)一下硬盤是否出現(xiàn)了假故障。 這在SATA硬盤上比較難實(shí)現(xiàn),因?yàn)樗鼈內(nèi)狈λ璧倪B接。但是控制著SATA規(guī)范的人可以在未來(lái)幾年的6-12Gbps升級(jí)中添加一個(gè)硬復(fù)位的功能。只要還沒升級(jí),陣列廠商們就可以加上那個(gè)功能,切斷單塊硬盤的電源來(lái)強(qiáng)制它重新設(shè)置。
不管如何,1%的假故障率都是客戶們不愿接受的。硬盤行業(yè)應(yīng)該研究出一些切實(shí)的解決方案,而不是加快故障硬盤的重建速度。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.