“錯(cuò)誤”的硬盤驅(qū)動(dòng)器故障是一個(gè)大問題
genghz 發(fā)表于:13年04月01日 12:56 [轉(zhuǎn)載] 比特網(wǎng)
磁盤驅(qū)動(dòng)器供應(yīng)商告訴我們,這些年來,有超過一半因?yàn)橘|(zhì)保維修返廠的驅(qū)動(dòng)器歸類到NPF當(dāng)中——意思是未發(fā)現(xiàn)問題。作為一名IT專業(yè)人士,我認(rèn)為這一現(xiàn)象的真正原因,就像困擾許多服務(wù)臺(tái)的那樣,位于“鍵盤和操作人員”之間。LSI的Rob Ober最近的一篇博客,像一道新鮮的陽光照在了“錯(cuò)誤的驅(qū)動(dòng)器故障”這一難題上,并使我思考為什么這類問題依舊存在。
Ober指出,錯(cuò)誤的故障是一個(gè)主要問題,不僅僅是從Fry's和Newegg(新蛋)購買裸盤的那些愛好者,還有主要數(shù)據(jù)中心的運(yùn)營商。數(shù)據(jù)中心運(yùn)營商像你我一樣,當(dāng)遇到驅(qū)動(dòng)器故障就會(huì)有實(shí)質(zhì)性的成本開銷。舉個(gè)例子:
因?yàn)轵?qū)動(dòng)器有敏感的企業(yè)數(shù)據(jù),它必須被保密處理或者銷毀。如果你沒有足夠大到擁有一個(gè)協(xié)議——你的存儲(chǔ)供應(yīng)商會(huì)按照你的要求來更換失敗的驅(qū)動(dòng)器,這可能意味著你還需要為不能返還的驅(qū)動(dòng)器支付成本。
問題是,如今的硬盤驅(qū)動(dòng)器由帶有固件的內(nèi)部微控制器來運(yùn)行。就像你的PC或者M(jìn)ac,該軟件偶爾會(huì)癱瘓或者處理器凍結(jié)。驅(qū)動(dòng)器遇到一系列沒有完成的在開發(fā)過程中調(diào)試的請求和狀態(tài),而它的處理器停止響應(yīng)來自主機(jī)或者RAID控制器的命令。
如果主機(jī)或者RAID控制器報(bào)告這樣的一個(gè)驅(qū)動(dòng)器失敗,那么驅(qū)動(dòng)器會(huì)在脫離主機(jī)和在別處測試時(shí)重新工作良好。(我們都知道,關(guān)閉和打開電源可以解決很多計(jì)算機(jī)的問題)。事實(shí)上,研究表明可以容忍這種類型錯(cuò)誤的故障驅(qū)動(dòng)器作為可靠的,只要在它們重置后,便可以當(dāng)做新的驅(qū)動(dòng)器出廠。
實(shí)際上Ober先生找到了一位不愿透露姓名的數(shù)據(jù)中心運(yùn)營者,與他分享其驅(qū)動(dòng)器故障統(tǒng)計(jì)數(shù)字。這個(gè)數(shù)據(jù)中心盡管比谷歌或者Facebook的標(biāo)準(zhǔn)小,但也擁有相當(dāng)巨大的20多萬臺(tái)服務(wù)器。
他們發(fā)現(xiàn):
一些廠商正在解決這一問題。五年前,Xiotech和Atrato談到過“自愈”型磁盤陣列,在磁盤停止響應(yīng)指令的時(shí)候它會(huì)執(zhí)行修復(fù)任務(wù)而不是立即開始RAID重建。Xiotech與希捷(Seagate)緊密合作,甚至可以繼續(xù)運(yùn)行帶有一個(gè)表面損壞的驅(qū)動(dòng)器,或者映射訪問繞過它來(將部分)磁頭失效。當(dāng)然,修復(fù)過程當(dāng)中的第一步是在磁盤上執(zhí)行一個(gè)硬重置。
由于行業(yè)的變幻無常,人們的注意力轉(zhuǎn)到了閃存上,自愈型陣列不再時(shí)尚了。Atrato已經(jīng)消失,而Xiotech——現(xiàn)在重新命名的X-IO已經(jīng)顯得褪色,有所關(guān)聯(lián)的是,其最后的獨(dú)立競爭對手Compellent、3Par甚至Nexsan都被收購了。
由于磁盤驅(qū)動(dòng)器是一個(gè)雙巨頭壟斷的市場,它的銷售量大,產(chǎn)品利潤低。我沒望希捷還是西部數(shù)據(jù)(Western Digital)建立一個(gè)可以檢測到錯(cuò)誤故障并自我重置的高度冗余的電路板到驅(qū)動(dòng)器中。但是有幾樣?xùn)|西,包括LSI在內(nèi)的業(yè)界廠商可以做到。
像LSI一樣的SAS控制器供應(yīng)商,可以構(gòu)建錯(cuò)誤故障檢測和復(fù)位功能到控制器中。當(dāng)驅(qū)動(dòng)器響應(yīng)失敗時(shí),控制器會(huì)在RAID開始重建之前給出一個(gè)快速反沖。這在SATA驅(qū)動(dòng)器上比較難,因?yàn)樗鄙僖恍┍匾倪B接。但是控制SATA規(guī)范的人們,在接下來的幾年可能在6-12Gbps升級(jí)中增加一個(gè)硬件復(fù)位功能。簡單點(diǎn)兒說,陣列供應(yīng)商可以增加一個(gè)切斷到單獨(dú)驅(qū)動(dòng)器的電源來強(qiáng)制復(fù)位的功能。
無論你如何切斷它,1%的AFR是不可接受的。這個(gè)行業(yè)應(yīng)該致力于真正的解決方案,而不只是更快的重建(rebuild)。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會(huì)員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.