圖1,存儲現(xiàn)場服務(wù)過程

AI技術(shù)可以解決存儲系統(tǒng)運行和管理的復雜性問題。AI系統(tǒng)會不斷地從存儲及其運行環(huán)境中采集存儲的各種狀態(tài)信息和性能數(shù)據(jù),用機器學習算法分析、學習用戶的存儲使用情況,進而自動化的調(diào)整并優(yōu)化存儲系統(tǒng),使存儲服務(wù)能更好地適應(yīng)用戶的需求。比如:智能化的把數(shù)據(jù)保存在合適的區(qū)域、自動的完成數(shù)據(jù)均衡、預測未來的需求、預防潛在的問題、自動參數(shù)調(diào)優(yōu)等。有AI加持的智能存儲可以增強系統(tǒng)的可靠性、降低存儲的復雜性和維護成本。

權(quán)威IT調(diào)研與咨詢服務(wù)公司Gartner也在持續(xù)關(guān)注存儲智能化的發(fā)展,并給出了AIOps(Artificial Intelligence IT Operations)的定義: AIOps利用大數(shù)據(jù)和AI技術(shù)增強IT管理和運維的能力,包括:可用性和性能監(jiān)測、事件關(guān)聯(lián)和分析、IT服務(wù)管理和自動化。

客戶需要存儲的智能管理

全球的客戶也期待著智能化的存儲產(chǎn)品。IDC在2018年6月完成了一項全球存儲客戶的智能化特性調(diào)查,客戶對使用AI / ML算法推動存儲系統(tǒng)的改進抱以積極的態(tài)度:

圖2,IDC調(diào)研:客戶對AI存儲的需求

同時,IDC還調(diào)研了已經(jīng)使用了存儲AIOps的客戶,詢問他們從中得到了哪些好處。圖3展示了客戶目前最關(guān)心的五項智能服務(wù)。其中,排第一的AIOps用途是改善系統(tǒng)的整體可用性。其次是加快問題解決速度及提高性能容量規(guī)劃。預測性地識別任何即將發(fā)生的故障,監(jiān)視與存儲相關(guān)的其他IT基礎(chǔ)架構(gòu)也被客戶重點關(guān)注。

圖3,IDC調(diào)研:用戶最希望使用的AIOps特性

存儲AIOps的關(guān)鍵技術(shù)

圖4,存儲的AIOps框架

一個完整的存儲AIOps框架包括5個過程:

1) 監(jiān)控:系統(tǒng)首先通過日志、SNMP、RestAPI等技術(shù)手段抓取并保存存儲系統(tǒng)中的運行狀態(tài)、性能和故障報錯數(shù)據(jù),這為AI自優(yōu)化系統(tǒng)創(chuàng)造了數(shù)據(jù)基礎(chǔ)。

2) 學習:在長時間、海量的監(jiān)控數(shù)據(jù)基礎(chǔ)上,AI會不斷分析用戶的IO模型和系統(tǒng)狀態(tài)信息,學習最佳的應(yīng)用實踐,并自動分析問題根因和發(fā)現(xiàn)異常行為。

3) 預測:對于新發(fā)現(xiàn)的問題,AI算法都可以自動學習并提取可重復的模式,并將新的算法模型應(yīng)用到其他尚未發(fā)現(xiàn)該問題的設(shè)備上,從而準確預測風險和故障。

4) 推薦:除了智能化預測新問題外,AI還會學習出解決和優(yōu)化問題的具體建議。如修改內(nèi)外部配置參數(shù)、更換部件、系統(tǒng)軟件升級等。

5) 實施:AI系統(tǒng)可以自動運行優(yōu)化措施并解決問題。如果處于安全考慮,也可以停止自動優(yōu)化系統(tǒng),人工操作來解決現(xiàn)場問題。

總結(jié)起來,AIOps為存儲提供了根因分析、預測、自動調(diào)優(yōu)三大功能。Gartner則給出了更為完成的存儲AIOps功能。

圖5,AIOps的主要功能

學術(shù)界也非常關(guān)注存儲的AIOps。國外的存儲和系統(tǒng)領(lǐng)域的頂級會議FAST、ATC、SRE、KDD有很多相關(guān)文章,清華大學、中科院、華中科技大學等國內(nèi)科研機構(gòu)也在故障預測、根因分析、異常檢測、自動調(diào)優(yōu)等方面有優(yōu)秀的科研成果。

清華大學在《計算機學會通訊》上發(fā)表了 “基于機器學習的運維”,系統(tǒng)地闡述了智能運維的關(guān)鍵技術(shù)。文中把AIOps分成歷史事件、當前事件、未來事件三類應(yīng)用場景。

歷史事件場景中瓶頸分析指的是制約存儲或系統(tǒng)服務(wù)的硬件或軟件瓶頸。熱點分析指的是自動挖掘出大于正常閾值性能指標。KPI聚類是對類似的指標曲線進行聚類。KPI曲線關(guān)聯(lián)挖掘是針對兩條曲線的關(guān)聯(lián)關(guān)系進行挖掘。全鏈路模塊調(diào)用分析能分析出模塊間的調(diào)用關(guān)系。異常事件關(guān)聯(lián)挖掘是指對異常事件之間的關(guān)系進行關(guān)聯(lián)分析。故障傳播關(guān)系圖融合了以上四種技術(shù),推斷出異常事件之間的故障傳播關(guān)系。

當前事件場景主要是根據(jù)當前的日志和告警,快速檢測、定位異常,并完成故障的根因分析,最終實現(xiàn)快速止損,控制故障的影響范圍。

未來事件場景的技術(shù)原理都是通過AI技術(shù)自動挖掘故障發(fā)生前的日志、性能參數(shù)指標,找到故障前的可重復的模式,從而在今后出現(xiàn)類似的日志模式時,提前預測故障、性能容量變化趨勢以及系統(tǒng)可能的熱點瓶頸。根據(jù)IDC的客戶調(diào)查來看,針對未來事件的預測場景是存儲用戶關(guān)注的重點。

圖6 AIOps的關(guān)鍵場景和技術(shù)

存儲AIOps的產(chǎn)業(yè)落地

存儲產(chǎn)業(yè)界中,HPE在2010年就推出了智能化的存儲軟件Infosight,提供了預測性分析、端到端的故障定位、性能洞察等一系列的智能化功能。幫助用戶分析復雜應(yīng)用環(huán)境下從虛擬機到后端存儲端到端的性能瓶頸,確定影響性能瓶頸的主要因素,并最終給出可行的優(yōu)化或解決問題的建議。浪潮的智能化存儲管理軟件Inview也實現(xiàn)了磁盤故障預測、性能容量預測的智能化功能,幫助客戶預防硬件故障帶來的損失,并給出具體的擴容建議,為客戶提供更好的存儲服務(wù)。其他存儲領(lǐng)域的主流廠商Netapp、IBM、EMC也在2017年以后推出了自己的智能化產(chǎn)品ActiveIQ、StorageInsights和CloudIQ。

分享到

zhangnn

相關(guān)推薦