先智數(shù)據(jù)中國區(qū)總經(jīng)理董唯元
董唯元表示,真正的智能化運維,最需要顛覆的是事前采取行動,數(shù)據(jù)中心系統(tǒng)故障有半數(shù)以上與磁盤有關,通過長周期的磁盤故障預測,可切實解決運維難題。計算集群越大,越難保障可靠性,傳統(tǒng)依賴RAID或副本保護的防范機制,僅能在故障發(fā)生后被動處理,是用資源利用率換取可靠性,耗時耗力且存在諸多隱患。
結(jié)合運行環(huán)境訓練AI引擎,讓機器學習,深入分析并準確預測磁盤故障的方式可實現(xiàn)主動式故障排解,顯著提升系統(tǒng)可靠性。“對于用戶,既要第一時間修復數(shù)據(jù),又要保證前臺應用不受影響,未來故障不是隨機事件,而是可計劃事件?!?/strong>
先智數(shù)據(jù)新型智能化故障預測解決方案DiskProphet,將SMART信息與性能負載相結(jié)合,SMART信息相當于人的身高、血壓和心跳,描述磁盤的健康狀態(tài),先智做的事不是看門診,而是要預判壽命,算出平時吃什么、工作怎么樣,這些對壽命都有影響,結(jié)合環(huán)境因素,綜合預測壽命。DiskProphet運用AI技術精準預測磁盤壽命的招數(shù),是傳統(tǒng)靠經(jīng)驗建模的方式很難做得準的。
作為AI在企業(yè)級IT技術的先行者,先智數(shù)據(jù)運用基于深度學習的Prophet預測引擎,訓練出聰明的神經(jīng)網(wǎng)絡模型,實現(xiàn)對磁盤壽命長周期的精準預測,率先推出了基于AI的DiskProphet產(chǎn)品及磁盤故障預測解決方案,可謂運維圈的“磁盤算命先生”。
實際上,磁盤可沒有想象中用得那么久,往往磁盤故障多在系統(tǒng)上線的3個月內(nèi)或臨近保修期,而意外故障往往出現(xiàn)在不恰當?shù)臅r間點,猝不及防,被動式的傳統(tǒng)副本數(shù)據(jù)保護機制不足以應對當前復雜的運維需求,還會拖累存儲系統(tǒng)性能,計算集群的可靠性難以保障。
先智數(shù)據(jù)DiskProphet通過智能分析硬盤當前健康狀況與完整生命周期,精準預測設備壽命與故障可能性(預測準確率超過95%),將不可預知的隨機意外故障變?yōu)榭深A先防御的計劃事件。該方案迄今已在基于大規(guī)模高性能計算集群(HPC)的業(yè)務場景成效卓越,為HPC集群高效分析海量磁盤的生命周期,預判故障將要發(fā)生的時間節(jié)點,避免頻繁的任務返工,大幅提升業(yè)務效率,正因此,該產(chǎn)品曾榮獲“最具創(chuàng)新AIOps產(chǎn)品獎”。
本次大會由工信部信通院數(shù)據(jù)中心聯(lián)盟(DCA)指導,高效運維社區(qū)(GreatOPS)與開放運維聯(lián)盟(OOPSA)聯(lián)合主辦,業(yè)界頂級專家云集,AIOps、運維自動化與DevOps為主旋律,此外還有金牌運維、大數(shù)據(jù)運維、金融案例、基礎架構(gòu)、運維領導力以及容器與微服務等特色專場。