“在這種邏輯下之下,IT部門就需要從企業(yè)的實際業(yè)務出發(fā),來分析后臺系統(tǒng)的運行狀態(tài)。這是當前CIO很真實的需求。”云智慧總裁劉洪濤告訴DOIT記者。
系統(tǒng)黑匣子:數(shù)字化的轉型痛點
這可以理解為IT運維層面的需求嗎?既是,也不是。2016年下半年,定位于APM的云智慧悄然推出業(yè)務運維解決方案,它瞄準的,就是企業(yè)數(shù)字化轉型背景下IT與業(yè)務深度結合所產(chǎn)生的新問題。
當前,數(shù)字化已成為企業(yè)發(fā)展的重要方向,這種轉型帶來的IT與業(yè)務結合的新問題到底是什么?又怎么解?
要分析和解決新問題,有必要先看看老問題和傳統(tǒng)的解決方法。
過去,當IT系統(tǒng)發(fā)生故障時,會有很多監(jiān)控系統(tǒng)發(fā)出告警信息,但這些告警基本上都是針對IT本身的,并不關注故障對業(yè)務的影響。
隨著企業(yè)的數(shù)字化轉型,新興的線上業(yè)務與IT有了更為緊密的聯(lián)系。當業(yè)務發(fā)生問題時,CIO要迅速找到與問題關聯(lián)的IT環(huán)節(jié),老辦法會失靈——這是由于,企業(yè)數(shù)字化所建立的在線系統(tǒng),往往通過數(shù)據(jù)接口與運行多年的成熟的IT系統(tǒng)建立聯(lián)系,但他們在運維層面的關聯(lián)還沒有打通。
這是傳統(tǒng)企業(yè)的CIO面臨的最大的挑戰(zhàn),很多系統(tǒng)運行10年之久,開發(fā)商可能已經(jīng)不在,企業(yè)根本無法搞清楚系統(tǒng)內(nèi)部的結構情況,拓撲結構也畫不出來,一個個系統(tǒng)就是一個個黑匣子。
“云智慧業(yè)務運維要做的事情,就是解決這個數(shù)字化轉型的痛點?!眲⒑闈f。
業(yè)務運維:業(yè)務系統(tǒng)健康診斷專家
怎么解決?從業(yè)務運維的產(chǎn)品理念上可以找到答案。
業(yè)務運維的理念是:當有用戶進行某項業(yè)務時,一定是訪問到了某個IT系統(tǒng)的某些功能模塊,然后跳轉到另一個系統(tǒng),最后得到想要的結果。任何一個交易,任何一個訪問行為,都是如此。
針對用戶訪問行為進行監(jiān)測,業(yè)務運維利用大數(shù)據(jù)采集分析技術把每一次用戶訪問都打上標簽,從而把用戶在系統(tǒng)里所有的訪問路徑拿出來,形成一條完整的業(yè)務邏輯線。當有海量用戶訪問的時候,業(yè)務運維就可以窮舉所有的可能,所有的用戶行為都可以拿出來。這樣,就能按業(yè)務邏輯重新梳理出業(yè)務系統(tǒng)的邏輯拓撲結構。
“這個過程特別重要,相當于幫助企業(yè)把業(yè)務邏輯重新抽象出來。CIO可以通過業(yè)務拓撲直觀地看到整個系統(tǒng)的邏輯架構,以及不同系統(tǒng)之間的連接狀況。有了這些作為基礎,業(yè)務運維就可以抽取關鍵業(yè)務指標?!眲⒑闈龔娬{(diào)。
以前文所述的該著名零售連鎖企業(yè)交易量下滑為例,“交易量”就是一個關鍵指標,企業(yè)只要對關鍵業(yè)務指標進行監(jiān)控,當發(fā)生異常時就給出報警,然后從關鍵業(yè)務指標開始查找,一直查到拓撲結構上,并進一步溯到業(yè)務故障的根源問題。
通過這個邏輯,最后發(fā)現(xiàn)是服務器的一塊硬盤滿了。
硬盤滿了是一個很初級的IT事件,在運維工程師那里屬于并不緊急的問題。但是,對于前端業(yè)務的影響確實很嚴重的,硬盤滿了,第一體驗是服務器請求處理時間長了,而該服務器正好是負責第三方支付,這就造成前端的支付響應很慢。
對于這家企業(yè)的2300多家門店來說,用戶在同一個時間段刷卡有問題,業(yè)務量一下子就掉下來了,這是很嚴重的問題。所幸,該企業(yè)就是靠業(yè)務運維的辦法,把過去認為的一個很不重要的IT事件與業(yè)務進行了關聯(lián),迅速找到原因并解決了問題。
互聯(lián)網(wǎng)化給傳統(tǒng)行業(yè)帶來的挑戰(zhàn)
看到這里,也許你會說,這貌似不是什么關鍵問題?的確,對于互聯(lián)網(wǎng)公司而言,由于其IT架構從一開始就是分布式、松耦合,在線業(yè)務與系統(tǒng)的緊密關聯(lián),業(yè)務與IT本身就是一個整體。但是,對于轉型數(shù)字化的傳統(tǒng)行業(yè)用戶來說,則要復雜得多。
對于傳統(tǒng)企業(yè)而言,多年信息化建設所形成的煙囪式架構,造成了一個個信息孤島,這些企業(yè)的系統(tǒng)利用率、IT管理、IT治理等由于“私有化”而非常復雜。
CIO面臨的挑戰(zhàn),不在于互聯(lián)網(wǎng)本身。因為建一個電商網(wǎng)站或者做一個前端APP很容易。但是,當前端上了電商平臺,后臺有一大批系統(tǒng)需要對接,比如庫存管理,財務系統(tǒng),供應鏈系統(tǒng),物流系統(tǒng),客服系統(tǒng),還有會員管理等等。在銀行業(yè),這種對接的系統(tǒng)可能達數(shù)十個之多。
由于這些系統(tǒng)不是互聯(lián)網(wǎng)化的,技術上可以通過代碼、調(diào)用的方式把他們與前端系統(tǒng)對接,但是挑戰(zhàn)在于,當前端的業(yè)務發(fā)生問題的時候,企業(yè)無法快速發(fā)現(xiàn)后端系統(tǒng)是什么狀態(tài)?哪些系統(tǒng)影響了業(yè)務的變化?能不能找到問題所在?另外,系統(tǒng)的效率怎么樣?
金融場景:傳統(tǒng)方法解決不了新問題
我們結合金融業(yè)的數(shù)字化轉型,來進一步分析傳統(tǒng)行業(yè)互聯(lián)網(wǎng)化給IT帶來的影響。
在金融業(yè),有兩個體系非常成熟,首先是IT運維體系,當創(chuàng)新業(yè)務以互聯(lián)網(wǎng)架構和邏輯展開時,對IT運維提出了很大的挑戰(zhàn)。劉洪濤對此的表達是,“銀行業(yè)被迫適應這種變化。被迫進行數(shù)字化轉型;被迫上新系統(tǒng);被迫改變過去的方法,用新的辦法來管新的系統(tǒng);被迫從用戶體驗的角度出發(fā)來解決問題?!?/p>
其次,金融機構的IT風險管控也很成熟,這也是金融業(yè)務創(chuàng)新速度一直被詬病的因素之一。存在即為合理,創(chuàng)新業(yè)務如何在既有IT風險管控框架之下滿足業(yè)務的要求,同樣是一個亟需解決的命題。
劉洪濤否定了兩者進行“匹配”的思路:創(chuàng)新業(yè)務從業(yè)務設計到架構,與傳統(tǒng)業(yè)務都完全不同,很難向下兼容。“能匹配的是管理原則,但是管理方法絕對不能套用。傳統(tǒng)的IT風險審核機制,在互聯(lián)網(wǎng)領域是行不通的。因此,必須要迅速構建新型業(yè)務的風險管控方法?!?/p>
對銀行來說,大機時代的業(yè)務邏輯依然存在,但時過境遷,它已不適用于強調(diào)用戶體驗的創(chuàng)新業(yè)務,后者的用戶容忍度很低,運維管理的價值取向發(fā)生了變化。
傳統(tǒng)的方法論,解決不了新問題,必須要用新的思路來解決,這就需要大數(shù)據(jù)。而這,也是云智慧業(yè)務運維的核心基礎。
新思路:運維大數(shù)據(jù)
在前面的業(yè)務運維理念的闡述中,我們注意到,它的核心是運維大數(shù)據(jù)。
這是因為,當企業(yè)IT發(fā)展到一定階段,系統(tǒng)的復雜度已不可同日而語,如果還是依靠工程師用傳統(tǒng)運維的思路去梳理,很難有效的解決問題。所以一定是靠大數(shù)據(jù)的辦法,把趨勢性、邏輯性的東西抽取出來,建立新的管理邏輯。
對于這個層面,云智慧的數(shù)據(jù)處理模塊DataHub能夠解決幾十種不同數(shù)據(jù)類型的處理問題,包括APM采集的監(jiān)控、性能、用戶行為、日志數(shù)據(jù)等,各種業(yè)務系統(tǒng)產(chǎn)生的結構化數(shù)據(jù)和非結構化數(shù)據(jù),都在DataHub引擎里進行處理,這是業(yè)務運維數(shù)據(jù)處理模塊的關鍵技術。
事實上,云智慧的業(yè)務運維已經(jīng)不是一個簡單的產(chǎn)品,它把監(jiān)控寶、透視寶、壓測寶的功能和運維大數(shù)據(jù)分析能力都包括進去了,提供了一個完整的解決方案。
對于CIO而言,首先,業(yè)務運維的前端,強調(diào)的是一個很好的界面,解決業(yè)務的實時可視,從底層到上層,從后端到前端,第一時間發(fā)現(xiàn)系統(tǒng)的運行狀態(tài)是否健康;第二,CIO關心的所有關鍵指標,包括IT指標、業(yè)務指標都抽取出來實時可視,有問題實時告警,形成一個監(jiān)控平臺;第三,支撐平臺的解決方案,有用戶體驗模塊,基礎監(jiān)控模塊,故障分析模塊,數(shù)據(jù)采集、分析,業(yè)務分析,容量規(guī)劃、壓力測試,用戶行為分析等等。
線上業(yè)務的根本在于用戶體驗,而用戶體驗除了前端界面的友好,很大程度上取決于產(chǎn)品的易用性,這與系統(tǒng)性能有緊密關聯(lián)。當CIO重點關注業(yè)務時,他思考的不僅僅是不出故障,而是怎么支撐業(yè)務甚至引領業(yè)務,能否通過系統(tǒng)的持續(xù)優(yōu)化來改善業(yè)務。
業(yè)務運維所要做的,就是提高整個系統(tǒng)的運行效能并進行持續(xù)的改善。它通過檢測用戶體驗的改善,來優(yōu)化系統(tǒng)的效率指標,用戶體驗上升了,業(yè)務水平就上升了。這是來自互聯(lián)網(wǎng)的邏輯,既是CIO非??粗氐囊稽c,也是CIO對業(yè)務的貢獻中很重要的一點。
互聯(lián)網(wǎng)邏輯+傳統(tǒng)行業(yè)的價值之旅
“我們最終要改善的,叫做業(yè)務效能。”劉洪濤說。
業(yè)務效能的核心,并不關心前端的商品,而是關心每一件商品所消耗的系統(tǒng)資源,以及系統(tǒng)能支持多少商品的銷售、故障率能不能降下來。從頭到尾,互聯(lián)網(wǎng)公司都是這么做的。
當傳統(tǒng)企業(yè)進行數(shù)字化轉型時,CIO面臨的最大的難題是過去10年構建的系統(tǒng)怎么辦,推倒重來?絕不可能!業(yè)務運維,其實是把互聯(lián)網(wǎng)領域相對比較成熟的框架應用到了傳統(tǒng)IT中,幫助客戶進行數(shù)字化轉型。
縱觀整個行業(yè)也許我們能發(fā)現(xiàn),一些創(chuàng)新型的企業(yè)級IT公司,目前的發(fā)展路徑就兩個:一個是看最前沿的公司比如亞馬遜、微軟、阿里,他們做什么,大家跟著學,爭取做得更好,然后把產(chǎn)品和服務賣給這些前沿的公司;第二個路徑,企業(yè)如果在互聯(lián)網(wǎng)領域積累了很好的技術,那么就掉轉頭來,幫助傳統(tǒng)企業(yè)轉型,因為這是一個更大的藍海。
云智慧選擇了后者。
“我們認為,互聯(lián)網(wǎng)行業(yè)的技術發(fā)展比傳統(tǒng)IT大概領先10年左右,這10年的差距,就是巨大的商業(yè)價值。我們把在互聯(lián)網(wǎng)領域積累的經(jīng)驗和技術做成產(chǎn)品和服務,幫助傳統(tǒng)企業(yè)做轉型。這就是云智慧的商業(yè)價值所在?!眲⒑闈缡钦f。