亞健康能力的版本迭代路線圖

亞健康 3.0 算法原理

亞健康 3.0 在繼承了 2.0 版本的成功經(jīng)驗(yàn)的基礎(chǔ)上,進(jìn)一步完善了其不足之處。特別是在面對新硬件引入過程產(chǎn)生新的亞健康問題,其核心設(shè)計理念是將亞健康處理跟數(shù)據(jù) IO 路徑進(jìn)行分離,從而實(shí)現(xiàn)外部檢測與全局決策的能力。亞健康 3.0 模塊負(fù)責(zé)亞健康場景的識別,但其本身運(yùn)行和升級可以獨(dú)立于存儲系統(tǒng)本身。

針對于亞健康檢測的復(fù)雜性和靈活多變的需求,我們的架構(gòu)設(shè)計具備以下特點(diǎn):

下面是亞健康 3.0 的軟件架構(gòu):

亞健康 3.0 軟件架構(gòu)

金融萬盤規(guī)模案例

某金融客戶在不同時間里在不同業(yè)務(wù)場景里部署了大規(guī)模 XSKY SDS 集群,期間不斷擴(kuò)容新的硬件。至今,其總硬盤數(shù)已超過 10000 塊,其中很多硬盤已經(jīng)持續(xù)運(yùn)行了超過 4 年時間。由于硬盤本身的老化和正常的磨損,亞健康導(dǎo)致的系統(tǒng)性能波動偶爾發(fā)生。

雖然可以通過升級存儲集群版本來解決這些問題,但是由于嚴(yán)格的生產(chǎn)運(yùn)維要求,對存儲集群進(jìn)行批量的升級動作太大,實(shí)施成本較高。因此,該客戶采用了亞健康 3.0 工具的獨(dú)立部署來解決這個問題。

在該客戶部署亞健康 3.0 工具的首個月中,成功識別出 21 塊高風(fēng)險的亞健康硬盤,且沒有出現(xiàn)任何因亞健康檢測和隔離導(dǎo)致的集群性能問題。

在部署一個月內(nèi)發(fā)現(xiàn)的故障硬盤是 21 塊,月故障率是 0.21%,推算年化故障率為 2.5%。根據(jù)國內(nèi)外的統(tǒng)計數(shù)據(jù),HDD 的年化故障率根據(jù)使用的年限、品牌及型號的不同通常分布在 1%-5% 之間,因此 2.5% 的故障率屬于在正常范圍內(nèi)。

亞健康 3.0 工具從最初支持 SATA SSD、HDD,到后續(xù)支持信創(chuàng) CPU 節(jié)點(diǎn)、國產(chǎn)化操作系統(tǒng)、NVME SSD,以及針對不同規(guī)格的 RAID 卡等等,幾乎完整覆蓋了當(dāng)前各種存儲介質(zhì)和不同運(yùn)行環(huán)境下的情況。

總結(jié)

亞健康 3.0 提供了先進(jìn)的可靠性監(jiān)測功能,引入創(chuàng)新的數(shù)學(xué)模型和統(tǒng)計框架,深入分析導(dǎo)致系統(tǒng)性能降級的部件級故障和周邊系統(tǒng)故障,不僅能夠?qū)崟r監(jiān)測網(wǎng)絡(luò)和硬盤的亞健康狀態(tài),還能對故障部分進(jìn)行主動隔離,從而提高系統(tǒng)的健壯性。

同時為了有效解決一些在網(wǎng)存儲集群的亞健康問題,我們通過靈活的設(shè)計,將亞健康能力的升級完全獨(dú)立于存儲集群,這使得亞健康工具擁有獨(dú)立持續(xù)迭代的能力。

大規(guī)模存儲盤的潛在風(fēng)險 ? RAID 卡和 SAS 卡固件問題
? HDD 慢盤和 SSD 性能抖動  
痛點(diǎn) ? 業(yè)務(wù)連續(xù)性降級 ? 當(dāng)硬盤進(jìn)入亞健康狀態(tài)后,業(yè)務(wù)響應(yīng)時延急劇增加,極端情況下業(yè)務(wù)被 hung 住
? 運(yùn)維管理困難 ? 維護(hù)操作繁瑣 ? 缺乏故障定位工具 ? 換盤操作不夠便捷 ? 導(dǎo)致業(yè)務(wù)受影響時間過長,運(yùn)維成本高  
產(chǎn)品
優(yōu)勢
? 支持獨(dú)立部署和升級,對存儲集群無影響
? 精準(zhǔn)判斷+主動有效隔離,系統(tǒng)能夠自愈,使得業(yè)務(wù)影響降低 98% ? 發(fā)生亞健康告警后,支持圖形化的硬盤點(diǎn)燈和換盤操作  
收益 ? 無需升級舊存儲集群就可以擁有亞健康盤治理能力,降低操作復(fù)雜度
? 亞健康故障對于業(yè)務(wù)影響降低 98%,保障業(yè)務(wù)連續(xù)性
? 大幅提升運(yùn)維管理效率,提供硬盤亞健康的精準(zhǔn)判斷和主動有效隔離,大幅降低故障定位及解決難度,運(yùn)維效率大幅提升。  

未來展望

除了對于硬件亞健康實(shí)現(xiàn)精準(zhǔn)判斷和有效隔離外,我們已經(jīng)開始規(guī)劃亞健康 4.0 ,這一新版本不僅將覆蓋硬件單體部件,還將擴(kuò)展到全業(yè)務(wù)場景的服務(wù)和性能亞健康的檢測和告警。

同時,我們還會對各大主流 SSD 廠商和型號的自定義 SMART 信息進(jìn)行深入分析,皆在進(jìn)一步提高預(yù)警能力,保證業(yè)務(wù)連續(xù)性和提高運(yùn)維管理效率。

分享到

xiesc

相關(guān)推薦