OneAlert要如何消除IT運(yùn)維人員的壓力
博睿數(shù)據(jù)產(chǎn)品經(jīng)理郝寧將OneAlert的價(jià)值點(diǎn)總結(jié)為“統(tǒng)一、標(biāo)準(zhǔn)、智能”。
“統(tǒng)一”指的是告警事件的統(tǒng)一接入。
博睿數(shù)據(jù)OneAlert對(duì)于常見的公有云,常見的監(jiān)控工具、自定義監(jiān)控工具以及博睿數(shù)據(jù)自研的監(jiān)控工具都能做統(tǒng)一接入。由于不同告警數(shù)據(jù)缺少統(tǒng)一標(biāo)準(zhǔn),博睿數(shù)據(jù)將這些數(shù)據(jù)映射成統(tǒng)一的一套標(biāo)準(zhǔn)事件,最后實(shí)現(xiàn)統(tǒng)一接入。
“標(biāo)準(zhǔn)”指的是故障的標(biāo)準(zhǔn)化處理。
不同告警平臺(tái)都有各自的處理流程,處理過程缺乏標(biāo)準(zhǔn),就會(huì)導(dǎo)致處理的效率低下,抬高運(yùn)維人力成本,OneAlert平臺(tái)在對(duì)數(shù)據(jù)做了標(biāo)準(zhǔn)化處理后,還會(huì)提供統(tǒng)一的故障列表,當(dāng)一線運(yùn)維人員在處理告警時(shí)候,統(tǒng)一進(jìn)行標(biāo)準(zhǔn)化處理。
從統(tǒng)一的告警展示方式,到故障通知方式,再到統(tǒng)一的分析和故障處理,全流程實(shí)現(xiàn)了標(biāo)準(zhǔn)化,實(shí)現(xiàn)了故障的全生命周期閉環(huán)管理,大大提升了一線運(yùn)維人員和管理人員整體的工作效率。
“智能”:指的是告警的智能收斂、智能決策。
面對(duì)海量告警信息,原本都是用設(shè)置規(guī)則的方式,識(shí)別告警異常信息之間的規(guī)則,通過規(guī)則做降噪和收斂,而當(dāng)數(shù)據(jù)量更多的時(shí)候,設(shè)置規(guī)則的方式也不再適用,于是,OneAlert就引入了AI算法,通過AI做智能收斂、智能決策。
這樣一來,運(yùn)維人員不需要關(guān)注過多的告警信息,在智能決策能力的輔助下,使得故障處理更容易下手,這極大降低了整個(gè)運(yùn)維成本,這是智能收斂、智能決策的價(jià)值。
如何真正解決運(yùn)維行業(yè)普遍痛點(diǎn)?
博睿數(shù)據(jù)OneAlert要解決的問題其實(shí)是運(yùn)維行業(yè)的通病,解決之道聽起來也都合情合理,博睿數(shù)據(jù)有什么底氣來解決這些行業(yè)的痛點(diǎn)呢?
首先,博睿數(shù)據(jù)結(jié)合在運(yùn)維行業(yè)的多年積累,對(duì)主流運(yùn)維監(jiān)控工具實(shí)現(xiàn)了全覆蓋,實(shí)現(xiàn)了多源異構(gòu)數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)化接入,用輕量級(jí)的工具,將多源異構(gòu)數(shù)據(jù)統(tǒng)一成標(biāo)準(zhǔn)化數(shù)據(jù)接入到OneAlert平臺(tái)。
具體實(shí)現(xiàn)上,OneAlert把告警源、告警對(duì)象、告警指標(biāo)、告警描述等信息,通過Webhook軌調(diào)、Restful API上報(bào)方式先集成進(jìn)來,隨后,對(duì)數(shù)據(jù)進(jìn)行過濾、解析、字段映射,映射成博睿數(shù)據(jù)OneAlert統(tǒng)一的標(biāo)準(zhǔn)信息。
在收集到數(shù)據(jù)后,博睿數(shù)據(jù)OneAlert支持用自定義的靈活配置,找出告警數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系后對(duì)告警信息做收斂,在一定程度上也可以避免告警風(fēng)暴,配合AI算法做智能收斂,再加上自定義標(biāo)簽的功能,效果會(huì)進(jìn)一步提高。
具體而言,OneAlert通過機(jī)器學(xué)習(xí)的文本相似算法找到標(biāo)簽之間的關(guān)系模型,模型會(huì)把相似的告警,相同特征的告警和故障收斂到一起,這樣一來,當(dāng)數(shù)據(jù)量達(dá)到一定程度的時(shí)候會(huì)更顯著。
當(dāng)OneAlert運(yùn)行一段時(shí)間,系統(tǒng)可以基于歷史告警信息關(guān)聯(lián)性,用AI算法來判斷具體的收斂行為,把具有相似性,關(guān)聯(lián)性的故障,收斂到一個(gè)故障里,這樣一來,運(yùn)維人員只處理少量的故障就可以處理多個(gè)告警信息。
智能收斂能在用戶沒有創(chuàng)建自定義收斂規(guī)則的時(shí)候發(fā)揮作用,OneAlert內(nèi)置了許多默認(rèn)的收斂規(guī)則,降低運(yùn)維的復(fù)雜度和操作的難度。換言之,只要是用上了博睿數(shù)據(jù)的OneAlert,無論是告警的數(shù)量,還是故障的數(shù)量都有顯著的下降。
在實(shí)際落地部署中,OneAlert的部署方式非常靈活,既支持私有化部署,也支持以公有云SaaS的方式部署,考慮到國(guó)內(nèi)的企業(yè),特別是金融行業(yè)在安全方面的考慮,許多時(shí)候,都以私有云的方式進(jìn)行部署。
在降噪、收斂的基礎(chǔ)上,OneAlert將開啟故障的標(biāo)準(zhǔn)化分析和處理。
最開始,在故障發(fā)生時(shí)候,為確保故障能被及時(shí)發(fā)現(xiàn),OneAlert設(shè)置了多種通知方式。
比如用短信、郵件、企業(yè)微信、釘釘?shù)确绞郊皶r(shí)通知到一線運(yùn)維人員。對(duì)于特別嚴(yán)重的故障,OneAlert還支持通知上級(jí)領(lǐng)導(dǎo),從而方便調(diào)動(dòng)更多資源來解決問題。
故障處理時(shí),能快速響應(yīng)并且精準(zhǔn)處置。
處理問題的時(shí)候,最需要搞清楚問題的本質(zhì),為此,博睿數(shù)據(jù)OneAlert提供了統(tǒng)一查看頁面,當(dāng)運(yùn)維人員關(guān)注到這些故障的時(shí)候,可以看到故障詳情,并做出分析,幫助運(yùn)維人員處置這些信息。
在處置的過程當(dāng)中,對(duì)處置的每一個(gè)階段做處置評(píng)論,最后達(dá)到故障關(guān)閉的狀態(tài)。故障從產(chǎn)生,到告警通知,然后到處置階段,到最后關(guān)閉告警,整個(gè)故障的生命周期就結(jié)束了。
故障處理后,還能做統(tǒng)計(jì)分析。
透過OneAlert,用戶可以查看,究竟哪些東西產(chǎn)生了哪些故障,提供許多針對(duì)運(yùn)維的分析指標(biāo)。同時(shí),也有對(duì)于博睿數(shù)據(jù)OneAlert自身降噪比、收斂比等情況的數(shù)據(jù)分析,從而幫助運(yùn)維人員發(fā)現(xiàn)和解決更多問題。
結(jié)束語
伴隨著IT系統(tǒng)復(fù)雜度的提升,IT運(yùn)維人員的工作難度其實(shí)不可避免地增長(zhǎng),當(dāng)服務(wù)不可用的時(shí)候,首先想到的都是運(yùn)維人員來處理問題,直白點(diǎn)說,就是“背鍋”。
事實(shí)上,很多時(shí)候,有些問題可能是其他因素引起的,有許多因素都并不是運(yùn)維人員能控制的,比如開發(fā)人員遺留的Bug,基礎(chǔ)設(shè)施的意外等等。
隨著資源規(guī)模的擴(kuò)張,IT運(yùn)維人員對(duì)于資源的掌控能力或者熟悉程度也不可避免地降低,發(fā)現(xiàn)和解決問題的難度系數(shù)在增大。
這時(shí)候,一個(gè)順手的工具就顯得尤為重要了,集中管理的工具能極大獲取洞察的效率,而標(biāo)準(zhǔn)化的操作長(zhǎng)久來看,不僅能提高效率,還能讓故障的處理周期變得更可預(yù)期。
在機(jī)器學(xué)習(xí)興起的背景下,AI技術(shù)的引用能幫助運(yùn)維人員從復(fù)雜的信息中獲得洞察,也是此類工具非常重要的發(fā)展方向,可以說,OneAlert順應(yīng)了運(yùn)維行業(yè)發(fā)展趨勢(shì)。