真正把APM、SoC做好并不是容易的事情。從網(wǎng)絡(luò)流量進行抓包,解碼到診斷、分析、告警,要求對于各種網(wǎng)絡(luò)協(xié)議了若指掌,能夠發(fā)現(xiàn)問題、解決問題,同時不影響業(yè)務(wù)系統(tǒng)的性能和穩(wěn)定性。

2016年,華青融天已經(jīng)把大數(shù)據(jù)、機器學習等技術(shù)應用到了EZSonar、EZAccur中,通過行為檢測、機器學習等提高APM、SoC的IT運營技術(shù)水平。

AIOps會不會“有價無市”?

隨著AI技術(shù)不斷升溫,AIOps這個概念被推到了前端。

據(jù)Gartner預測,到2019年,全球1/4的企業(yè)將策略性實施AIOps,戰(zhàn)略性利用AIOps解決運維的問題,讓工程師生活的更加美好!

不知大家是否注意到Gartner的表述:“AIOps讓工程師生活的更加美好”,AI技術(shù)和運維工程師的經(jīng)驗進行結(jié)合,從而抽象并固化出來一套完整運維管理方法,的確可以大大提高效率,減緩運維工程師的工作壓力。

從技術(shù)上說,AIOps 并不簡單,需要大量的實踐和沉淀。以快速故障分析和定位為例,銀行用戶往往會有幾千個業(yè)務(wù)系統(tǒng),每個業(yè)務(wù)系統(tǒng)故障觸發(fā)的條件和閾值各不相同。從運維的角度,幾千業(yè)務(wù)應用如何預警、如何展現(xiàn)?

采用AI方法進行異常檢測時,運維人員不用對業(yè)務(wù)路徑做任何告警設(shè)置,系統(tǒng)會自動實時檢測交易流量數(shù)據(jù),當機器學習算法檢測到某個業(yè)務(wù)路徑的某個節(jié)點或連線上產(chǎn)生了異常值,就會拋出異常事件。比如:算法在檢測某個時間點上數(shù)據(jù)中心網(wǎng)銀交易服務(wù)器的【響應時間】=500ms,而當前時間點的【異常值】=0.934,這說明當前服務(wù)器產(chǎn)生異常的概率非常高,需要及時對該設(shè)備進行排查,防止設(shè)備崩潰或產(chǎn)生異常。

運維可根據(jù)異常值的狀態(tài)具體設(shè)置告警條件,也能夠根據(jù)異常值在未達到警戒值之前就采取預防的措施避免事故的發(fā)生,所以AI方式的檢測可以實現(xiàn)智能預警的功能。

實際上,這就是一種細顆粒度告警功能。此外,在場景化儀表盤、快速定位問題和解決問題,以及視覺設(shè)計,組建自動維護等環(huán)節(jié),AI技術(shù)的運用能夠幫助運維人員提高數(shù)據(jù)中心管理的效率。

這些新的技術(shù)應用演進,以及功能性提高在新的EZSonar 4.0中得到了體驗,從而讓產(chǎn)品更加具有核心競爭力。

但是從商業(yè)的角度,AIOps應該只是APM產(chǎn)品能力的升級,它是運維人員不可或缺的工具,但是AIOps暫時不太可能替代運維管理人員,此外,故障和異常畢竟還是小概率事件,所以從這個角度來說,AIOps暫時還不能完全取代SoC、APM產(chǎn)品功能,

不過已經(jīng)是當前的前沿趨勢了,如果沒有AI功能的植入,肯定不能稱之為是智能化的IT運維了。

小結(jié)

對于AIOps來說,AI的價值不應該僅僅停留在運維上,價值也不僅僅是降低運維人員的勞動強度,對于AI來說,就有點大材小用了。無論是SoC,還是APM,實際上掌握和擁有全部業(yè)務(wù)數(shù)據(jù),如何發(fā)揮這些優(yōu)勢,支持業(yè)務(wù)創(chuàng)新,洞察市場、趨勢和發(fā)展,這才是AIOps未來的潛力市場所在!,

一句話,金融反欺詐、個性化金融服務(wù)等業(yè)務(wù)創(chuàng)新,與AIOps密切相關(guān),價值決定未來的市場空間,對嗎?!

分享到

songjy

相關(guān)推薦