先智數(shù)據(jù)中國區(qū)總經(jīng)理董唯元

董唯元表示,真正的智能化運維,最需要顛覆的是事前采取行動,數(shù)據(jù)中心系統(tǒng)故障有半數(shù)以上與磁盤有關(guān),通過長周期的磁盤故障預(yù)測,可切實解決運維難題。計算集群越大,越難保障可靠性,傳統(tǒng)依賴RAID或副本保護(hù)的防范機(jī)制,僅能在故障發(fā)生后被動處理,是用資源利用率換取可靠性,耗時耗力且存在諸多隱患。

結(jié)合運行環(huán)境訓(xùn)練AI引擎,讓機(jī)器學(xué)習(xí),深入分析并準(zhǔn)確預(yù)測磁盤故障的方式可實現(xiàn)主動式故障排解,顯著提升系統(tǒng)可靠性。“對于用戶,既要第一時間修復(fù)數(shù)據(jù),又要保證前臺應(yīng)用不受影響,未來故障不是隨機(jī)事件,而是可計劃事件。”

先智數(shù)據(jù)新型智能化故障預(yù)測解決方案DiskProphet,將SMART信息與性能負(fù)載相結(jié)合,SMART信息相當(dāng)于人的身高、血壓和心跳,描述磁盤的健康狀態(tài),先智做的事不是看門診,而是要預(yù)判壽命,算出平時吃什么、工作怎么樣,這些對壽命都有影響,結(jié)合環(huán)境因素,綜合預(yù)測壽命。DiskProphet運用AI技術(shù)精準(zhǔn)預(yù)測磁盤壽命的招數(shù),是傳統(tǒng)靠經(jīng)驗建模的方式很難做得準(zhǔn)的。

作為AI在企業(yè)級IT技術(shù)的先行者,先智數(shù)據(jù)運用基于深度學(xué)習(xí)的Prophet預(yù)測引擎,訓(xùn)練出聰明的神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)對磁盤壽命長周期的精準(zhǔn)預(yù)測,率先推出了基于AI的DiskProphet產(chǎn)品及磁盤故障預(yù)測解決方案,可謂運維圈的“磁盤算命先生”。

實際上,磁盤可沒有想象中用得那么久,往往磁盤故障多在系統(tǒng)上線的3個月內(nèi)或臨近保修期,而意外故障往往出現(xiàn)在不恰當(dāng)?shù)臅r間點,猝不及防,被動式的傳統(tǒng)副本數(shù)據(jù)保護(hù)機(jī)制不足以應(yīng)對當(dāng)前復(fù)雜的運維需求,還會拖累存儲系統(tǒng)性能,計算集群的可靠性難以保障。

先智數(shù)據(jù)DiskProphet通過智能分析硬盤當(dāng)前健康狀況與完整生命周期,精準(zhǔn)預(yù)測設(shè)備壽命與故障可能性(預(yù)測準(zhǔn)確率超過95%),將不可預(yù)知的隨機(jī)意外故障變?yōu)榭深A(yù)先防御的計劃事件。該方案迄今已在基于大規(guī)模高性能計算集群(HPC)的業(yè)務(wù)場景成效卓越,為HPC集群高效分析海量磁盤的生命周期,預(yù)判故障將要發(fā)生的時間節(jié)點,避免頻繁的任務(wù)返工,大幅提升業(yè)務(wù)效率,正因此,該產(chǎn)品曾榮獲“最具創(chuàng)新AIOps產(chǎn)品獎”。

 

本次大會由工信部信通院數(shù)據(jù)中心聯(lián)盟(DCA)指導(dǎo),高效運維社區(qū)(GreatOPS)與開放運維聯(lián)盟(OOPSA)聯(lián)合主辦,業(yè)界頂級專家云集,AIOps、運維自動化與DevOps為主旋律,此外還有金牌運維、大數(shù)據(jù)運維、金融案例、基礎(chǔ)架構(gòu)、運維領(lǐng)導(dǎo)力以及容器與微服務(wù)等特色專場。

分享到

zhangnn

相關(guān)推薦