為了保證郵件系統(tǒng)的持續(xù)穩(wěn)定高效,中國石油部署了郵件監(jiān)控系統(tǒng),實現(xiàn)了對郵件服務(wù)器、郵件應(yīng)用進(jìn)程等的監(jiān)控;部署了專業(yè)的網(wǎng)管系統(tǒng),實現(xiàn)了對企業(yè)網(wǎng)絡(luò)的監(jiān)控;部署了應(yīng)用協(xié)議監(jiān)控系統(tǒng),實現(xiàn)了對關(guān)鍵應(yīng)用協(xié)議,如SMTP、POP3、HTTP等的監(jiān)控。眾多IT監(jiān)控系統(tǒng)的部署,實現(xiàn)了對郵件系統(tǒng)的專業(yè)化、精細(xì)化管理,但是本文開始提出的五個問題,中國石油依然不得不面對,為了解決上述問題,中國石油按照以下的過程進(jìn)行了基于業(yè)務(wù)服務(wù)管理的郵件系統(tǒng)運維平臺的建設(shè)。
1)信息整合
第一步,對郵件系統(tǒng)相關(guān)的IT信息進(jìn)行整合。采用Novell提供的強大的數(shù)據(jù)集成技術(shù),從已經(jīng)部署的眾多IT監(jiān)控工具中捕獲IT信息,并集中到Novell的業(yè)務(wù)服務(wù)管理平臺。被集成的系統(tǒng)包括:上市和未上市的兩套郵件監(jiān)控系統(tǒng)、網(wǎng)管系統(tǒng)、協(xié)議監(jiān)控系統(tǒng)。被集中的數(shù)據(jù)包括:郵件服務(wù)器、應(yīng)用進(jìn)程的實時狀態(tài)信息和實時告警信息;網(wǎng)絡(luò)設(shè)備的實時狀態(tài)和實時告警信息;關(guān)鍵協(xié)議的實時狀態(tài);網(wǎng)絡(luò)鏈路、郵件服務(wù)器、應(yīng)用進(jìn)程的性能數(shù)據(jù)。
2)業(yè)務(wù)建模
第二步,在數(shù)據(jù)集中的技術(shù)上,進(jìn)行業(yè)務(wù)建模。
首先,從郵件系統(tǒng)入手,理清了郵件系統(tǒng)本身各個組件的結(jié)構(gòu)、作用,以及各組件間的關(guān)聯(lián)關(guān)系,這些組件包括BE、DC、FE、Cluster、Mail;從網(wǎng)絡(luò)入手,理清了郵件服務(wù)器與網(wǎng)絡(luò)設(shè)備之間的連接情況,關(guān)鍵網(wǎng)絡(luò)設(shè)備的作用;從管理入手,理清了郵件系統(tǒng)的組織結(jié)構(gòu)和管理區(qū)域及權(quán)限。
其次根據(jù)掌握的信息進(jìn)行建模。建模包括兩個方面,一是形成組件間的關(guān)聯(lián);二是在關(guān)鍵組件上部署邏輯算法。邏輯算法也是根據(jù)業(yè)務(wù)邏輯和IT管理規(guī)則制定的。邏輯算法的應(yīng)用,極大的提高了根源問題定位的效率和準(zhǔn)確性。以西南區(qū)域郵件系統(tǒng)為例,影響西南郵件的因素有三類:服務(wù)器,郵件應(yīng)用協(xié)議,關(guān)鍵鏈路。通常,當(dāng)連接某臺服務(wù)器的關(guān)鍵鏈路中斷時,相應(yīng)的服務(wù)器及其上的協(xié)議也會顯示異常狀態(tài)。我們會看到大量告警節(jié)點和信息,無法判斷故障的根本原因(如圖1所示)。通過在關(guān)鍵點上設(shè)置邏輯算法,當(dāng)發(fā)生上述異常時,只讓發(fā)生故障的關(guān)鍵鏈路節(jié)點變紅,而讓受之影響的服務(wù)器和協(xié)議節(jié)點出于靜默狀態(tài)(灰色顯示),從而使IT管理人員能夠直觀快速的判斷出故障的根源所在(如圖2)。
3)定制基于角色的業(yè)務(wù)視圖
第三步,在模型的基礎(chǔ)上,根據(jù)用戶的角色,定義直觀清晰的業(yè)務(wù)視圖(如圖3所示)。
基于業(yè)務(wù)服務(wù)管理的郵件系統(tǒng)運維平臺的成功構(gòu)建,帶來了如下的好處:首先,將原來分散在四套IT監(jiān)控管理系統(tǒng)中信息集中在一起,提高了信息分析能力,降低了IT人員的工作負(fù)荷。其次,在郵件業(yè)務(wù)模型中的任何節(jié)點,均可進(jìn)行根源問題分析和定位,提高了故障解決速度,也避免各系統(tǒng)之間的推委。第三,將具體的IT問題放到業(yè)務(wù)場景中進(jìn)行評量,使IT人員能夠更為準(zhǔn)確地在第一時間解決對企業(yè)業(yè)務(wù)最重要、最緊迫的IT問題。第四,通過建立多種業(yè)務(wù)監(jiān)控視圖,使監(jiān)控更為清晰和直觀,同時企業(yè)內(nèi)的非IT人員也能夠了解IT信息。
3業(yè)務(wù)服務(wù)管理的關(guān)鍵點
通過上述的業(yè)務(wù)服務(wù)管理實踐,我們可以發(fā)現(xiàn),數(shù)據(jù)整合和業(yè)務(wù)建模是實踐業(yè)務(wù)服務(wù)管理的兩個關(guān)鍵點,同時也是兩個難點。
信息整合具有如此重要的地位,是因為信息的完整性和實時性,以及信息集成的效率會影響到最終構(gòu)建的業(yè)務(wù)模型是否有效,進(jìn)而決定IT運維的效率和效果。
業(yè)務(wù)建模是從業(yè)務(wù)出發(fā),將集中到一起的業(yè)務(wù)數(shù)據(jù)和IT數(shù)據(jù),根據(jù)他們之間的相互關(guān)系,以及業(yè)務(wù)邏輯、IT運維規(guī)則等進(jìn)行組織,最終得到一個全面的、智能的業(yè)務(wù)模型。業(yè)務(wù)模型意義重大,通過業(yè)務(wù)模型,可以準(zhǔn)確評估任何一個IT 組件的故障影響范圍以及對相關(guān)業(yè)務(wù)的影響程度;可以快速準(zhǔn)確定位故障根源;還可以以板塊為視角、以項目為視角、以應(yīng)用為視角、以基礎(chǔ)設(shè)施為視角、以不同層次的管理者為視角快速建立多維度、多層次的監(jiān)控視圖。業(yè)務(wù)模型的完善也是一個循序漸進(jìn)的過程,不要指望模型能夠一次性完美建立。模型應(yīng)該伴隨業(yè)務(wù)及IT的變化而同步調(diào)整和完善。在建模過程中讓業(yè)務(wù)部門充分參與進(jìn)來也是建模能否成功的關(guān)鍵。