吳憂再一次侃侃而談。在系統(tǒng)設計中,企業(yè)一般會考慮做數(shù)據(jù)備份和采用主機集群的結構,因為它們能解決本地數(shù)據(jù)的安全性和可用性。這是針對慢性容災的本地解決方案,如果當某臺主機出現(xiàn)故障,不能正常工作時,其他的主機可以替代該主機,繼續(xù)進行正常的工作。目前人們所注意到的容災,大部分也都只是停留在本地容災的層面上。但對某些地區(qū)的某類企業(yè)來講,光有本地容災是遠遠不夠的。其關鍵業(yè)務應用,必須要防范地震、洪水、戰(zhàn)爭等自然災難。因此應該采用異地容災的保護措施。一套完整的容災方案應該包括本地容災和異地容災兩套系統(tǒng)。 
  
    遠程容災系統(tǒng)具備應付各種災難特別是區(qū)域性與毀滅性災難的能力,具備較為完善的數(shù)據(jù)保護與災難恢復功能,保證災難降臨時數(shù)據(jù)的完整性及業(yè)務的連續(xù)性,并在最短時間內(nèi)恢復業(yè)務系統(tǒng)的正常運行,將損失降到最小。其系統(tǒng)一般由生產(chǎn)系統(tǒng)、可接替運行的后備系統(tǒng)、數(shù)據(jù)備份系統(tǒng)、備用通信線路等部分組成。在正常生產(chǎn)和數(shù)據(jù)備份狀態(tài)下,生產(chǎn)系統(tǒng)向備份系統(tǒng)傳送需備份的數(shù)據(jù)。災難發(fā)生后,當系統(tǒng)處于災難恢復狀態(tài)時,備份系統(tǒng)將接替生產(chǎn)系統(tǒng)繼續(xù)運行。此時重要營業(yè)終端用戶將從生產(chǎn)主機切換到備份中心主機,繼續(xù)對外營業(yè)。 
  
    這種備份目前分為兩種形式,一種是歷史備份,一般采用每天凌晨備份的形式,出現(xiàn)問題可以恢復一天前的數(shù)據(jù)。如果對數(shù)據(jù)要求不是很高的話,可以采用三天,甚至一周備份的方式,可以節(jié)約很多成本。 
  
    那么我們泰坦要選擇多遠的距離來搭建異地容災系統(tǒng)?幾公里?幾十公里?還是幾千公里?陳默還是不太明白。 
  
    吳憂說,這就需要根據(jù)企業(yè)自身狀況來定了。同樣是容災系統(tǒng),如果容災的目標只是在城市中防范火災等較低級別的災難事件,那么存儲在與應用地距離幾公里的地方就能較好地滿足要求。如果是防水災,則要求它們之間的距離在數(shù)公里以上。如果是預防地震,則需要保持幾百公里的距離?;緛碚f,數(shù)據(jù)存儲距離與應用地越遠,容災性也就越強,100公里以上的異地災難備份將是未來的一種趨勢。只要IP可達,并且網(wǎng)絡帶寬足夠,數(shù)據(jù)不再懼怕自然災害。吳憂總結道。 
  
    還在對剛剛結束的地震痛定思痛的倪克聽完之后當場拍板,泰坦也要建異地容災系統(tǒng),而且地點要選得遠一點,就在南方的沿海城市C城。隔著幾百公里,這下總安全了吧? 
  
    第四次沉沒Game Over 
  
    自從數(shù)據(jù)級、應用級和異地容災系統(tǒng)建成后,陳默覺得自己終于可以高枕無憂了。就算地震再來一次,公司的全部數(shù)據(jù)和應用都可以實現(xiàn)異地切換。


    不過,存好公司的咨詢部門給陳默打來電話說,泰坦目前在硬件上是沒有問題了,但做好容災非一日之功,還需要進行一些“軟件工作”。這個軟件指的不是真正的軟件,而是指系統(tǒng)的日常維護和管理、流程和人員組織、容災演習、策略和知識培訓等工作,當然,流程咨詢、策略和知識培訓是要收費的。 
  
    陳默把這個消息告訴了老板,并陳述了自己認為應該做好容災系統(tǒng)維護管理的幾條理由:第一,公司有上百個應用系統(tǒng),不能停頓的關鍵業(yè)務就有40多個,系統(tǒng)很是復雜;第二,存好是容災行業(yè)的領先公司,積累了大量的經(jīng)驗,給很多大企業(yè)做過容災,他們結合ITSM的先進理念,并形成了自己的方法論。另外,陳默曾參加了金融行業(yè)的一個容災論壇,一些用戶的現(xiàn)身說法給他留下深刻的印象。所以,還是應該請存好公司的咨詢部門來做顧問和培訓。 
  
    讓陳默感到高興的是,倪克經(jīng)過前幾次事件的折騰,已經(jīng)吃一塹長一智,讓存好來輔助做服務的事很快就敲定了,費用馬上就批了。 
  
    不過,倪克約法三章:第一,日常維護等一些偏技術的事還是自己來吧,先不外包,不然公司白養(yǎng)了這么多的技術人員;第二,咨詢公司的費用照付,但要學到人家的策略和方法,培養(yǎng)自己在災難恢復上的技術能力和管理能力,不能總是依靠外援,也不能總花冤枉錢;第三,要是培訓完了再出問題,拿陳默是問。 
  
    一切進展還算順利,災難風險評估、業(yè)務影響分析、災難恢復策略設計、詳細方案設計、容災方案實施、災難恢復計劃開發(fā)以及最后的災難恢復測試和演習都按部就班。按照計劃,員工以部門為單位和以流程為單位分成幾個小組進行培訓和演習。存好公司把整個咨詢過程分為三個部分:技術、人和流程。 
  
    在人的方面,存好公司把泰坦公司的開發(fā)人員和運營維護人員分開培訓。在流程方面,根據(jù)公司的情況引進了ITIL(IT服務管理)體系,并根據(jù)國外電信公司的經(jīng)驗,結合泰坦公司的實際,分為事故管理、問題管理、配置管理、變更管理和發(fā)布管理等五個方面進行培訓。 
  
    在實戰(zhàn)階段,存好公司對泰坦公司的數(shù)據(jù)中心、整個公司的大樓分布以及分公司數(shù)據(jù)中心情況都做了詳細的考察,包括網(wǎng)絡系統(tǒng)、服務器數(shù)量和存儲架構、樓梯通道、電源系統(tǒng)等多個環(huán)節(jié)。通過需求分析,最終制定了容災實施對策演習方案,并以泰坦全部員工都能聽懂的語言,從標準化管理、權限身份管理、通訊管理、遷移管理、預警管理等多個方面做了部署。 
  
    三個月下來,項目成功驗收,倪克對這個環(huán)節(jié)的工作相當滿意。存好公司咨詢部門撤出了項目組,不過離開之前再三叮囑陳默:“容災成功的保障在于不斷循環(huán),在公司一定要形成制度,不斷強化,并根據(jù)新情況不斷演進和更新。千萬不要讓它成為只看不用的東西?!标惸c頭答應。 
  
    接下來,陳默倒也按照存好公司的套路做了幾件事:一是成立日常專門運營小組,二是規(guī)范流程,三是以季度為單位進行不同災難級別的日常演習,四是把以上事項制度化。一年下來,泰坦公司果然平安無事。再后來,陳默由于業(yè)績赫赫,跳槽到另一家世界500強企業(yè)了。公司原運維部門員工被抽調組成新的增值業(yè)務部門。 
  
    陳默走了以后,關于容災的管理、演習和執(zhí)行方案逐漸被淡忘。再半年之后,大家也都想不起來了。生意忙啊,別的事情先靠邊站吧。再說,哪有那么多的不測風云。 
  
    2006年8月4日,歷史上最強的臺風“超級瑪麗”登陸C城?!俺壃旣悺睅砹司薮蟮暮[,海浪有幾十米高,鋪天蓋地撲向C城。C城短短時間內(nèi)就成了暴風雨中飄搖的稻草。就在這同時,泰坦總部的信息中心因為雷雨天氣起火,IT系統(tǒng)突然宕機,員工們由于平時疏于防范,事發(fā)后亂成一團??偛康娜私oC城災備中心狂打電話,想啟動異地災備系統(tǒng)。但是,異地災備系統(tǒng)再沒有回音。所有業(yè)務停滯,數(shù)據(jù)毀于一旦。 
  
    倪克馬上給存好公司打電話,吳憂只說了三句話,“容災不是一勞永逸,沒有后期管理的容災系統(tǒng)形同虛設;世界上又少了一家公司;除了上帝,沒有人有辦法”。 
  
    Game Over! 
  
    鏈接:如何看待容災的回報 
  
    一個容災系統(tǒng),需要從軟件到硬件進行多方面的投入。一個完整的容災方案,大概要投資幾百萬,甚至上千萬元。對企業(yè)來說,花這筆錢是否值得呢? 
  
    這里有一個表格,是日用百貨業(yè)的系統(tǒng)可用性與宕機時間、年宕機損失和金融業(yè)年宕機損失之間的關系。 
  
    在美國,如果某一家電信公司由于某種原因,業(yè)務需要中斷一小時,即這一個小時不能打電話,那么用戶會馬上選擇別的電信公司,成為其他公司的用戶。因而,用戶對可用性的要求越來越高,宕機一小時的損失越來越大。


    系統(tǒng)可用性 宕機時間 年宕機損失 金融業(yè)年宕機損失



    記者手記:自建、共建,還是外包? 
  
    容災是自建、共建,還是外包?這一直是用戶爭議的問題。泰坦公司把容災系統(tǒng)外包給了存好公司。這一選擇對泰坦公司來說,很適合。 
  
    因為,災備中心需要投入大量的人力、物力及財力。自建、共建和外包三種建設方式各有利弊。自建方式具有投資巨大、建設周期長、技術與實施難度大、管理與維護要求高、運營維護成本大等特點,比較適合對風險控制要求高、資產(chǎn)規(guī)模大、技術與管理實力強的企業(yè)。 
  
    共建方式具有投資少、技術與管理難度大、人員組織困難、責任不易界定、合作模式要求高等特點。 
  
    而外包是用戶花錢購買第三方的服務,而不是自己企業(yè)內(nèi)部員工完成災備任務。這種模式最突出的特點是用戶和IT企業(yè)各自能夠充分發(fā)揮自己的專業(yè)特長。 
  
    泰坦并沒有雄厚的資金,也沒有專業(yè)的IT服務團隊,從自身應用需求的角度來看,也沒有必要獨自建一個龐大的備份中心去應付小概率的災難。因此,外包方式對泰坦這樣的中等企業(yè)來說是可行的一種方式。 
  
    容災是個必答題,只是要把握好時機。容災又是個選擇題,在決定建設之后,要選擇合理的建設方式和建設方案,在節(jié)省開支的情況下,保證重要業(yè)務數(shù)據(jù)得到很好的災備,能達到防災于未然、未雨綢繆的目的。

分享到

多易

相關推薦