vivian 發(fā)表于:13年07月29日 17:43 [編譯] DOIT.com.cn
談到備份,需要記住兩件事情:“如果你的數(shù)據(jù)沒(méi)有保存在至少兩個(gè)地方,那么它就等同于不存在;而沒(méi)有經(jīng)過(guò)測(cè)試的備份數(shù)據(jù)恢復(fù)進(jìn)程,也不能稱之為備份。
沒(méi)有什么會(huì)像自然災(zāi)難一樣測(cè)試你的進(jìn)程。
筆者正好要解決這樣一個(gè)問(wèn)題,請(qǐng)看。
光纖網(wǎng)絡(luò)
要想談?wù)搨浞,我們首先得了解我們需要備份什么以及為什么要?duì)其進(jìn)行備份。
遇到難題的客戶有兩個(gè)數(shù)據(jù)中心,一個(gè)字Edmonton,另一個(gè)字Calgary。每個(gè)站點(diǎn)都有光纖--理論上,速度可達(dá)100M,但是速度被限制了以便符合ISP的協(xié)議。
如果我們兩個(gè)地方的累積使用保持著XMbps之下,那我們就可以享有所有帶寬。不封底,不會(huì)出現(xiàn)巨額賬單。這是易于管理的可預(yù)測(cè)的成本。
更重要的是,為了不出現(xiàn)意外,所以不為網(wǎng)絡(luò)設(shè)置上限需要一個(gè)單獨(dú)的命令。
每個(gè)地方都保留有當(dāng)?shù)赜脩舻拇罅渴褂眯畔。這些信息可以解決硬件故障,但在公司外部就不能復(fù)制了。
我們把帶寬稍微調(diào)高了一點(diǎn),來(lái)處理內(nèi)向數(shù)據(jù);我們無(wú)法支付云存儲(chǔ)的費(fèi)用,即便我們是把數(shù)據(jù)發(fā)送到自有數(shù)據(jù)中心之一。
我們部署這個(gè)基礎(chǔ)設(shè)施是為了滿足當(dāng)?shù)氐男枨,似乎不托管面向公眾的網(wǎng)站,不在自己的基礎(chǔ)架構(gòu)上托管IT服務(wù)就是一件很傻的事情。這兩個(gè)地方都有私有云,。雖然不是Amazon,但是夠用了。
復(fù)制
公共網(wǎng)站的數(shù)據(jù)庫(kù)都不是為了實(shí)時(shí)復(fù)制而創(chuàng)建,因?yàn)檫@需要重寫代碼。出于多方面的考慮,目前還不可行。
所以,備份成為了每個(gè)MySQL服務(wù)器上的必須要進(jìn)行的計(jì)劃性任務(wù),這樣才能創(chuàng)建常規(guī)的數(shù)據(jù)庫(kù)轉(zhuǎn)儲(chǔ),壓縮,加密,然后再發(fā)往我們的文件服務(wù)器。
與此同時(shí),每個(gè)Web服務(wù)器的代碼庫(kù)都執(zhí)行著同樣的備份。這些有問(wèn)題的文件服務(wù)器是運(yùn)行于分布式文件系統(tǒng)復(fù)制(DFSR)上的Windows系統(tǒng),DFSR可以很好地復(fù)制備份。
每個(gè)站點(diǎn)的集群中都有相同的文件服務(wù)器,他們都包含文件副本。這些文件會(huì)通過(guò)WAN發(fā)送到其他站點(diǎn)。從這一點(diǎn)說(shuō),我覺(jué)得我們可以很好地應(yīng)對(duì)硬件故障。
總部的備份服務(wù)器運(yùn)行的是非常古老的Retrospectt版本,它創(chuàng)建帶有版本號(hào)的備份,以防止惡意軟件或其他可能刪除DFSR共享中備份的事故。所以,每一邊的備份目錄中的數(shù)據(jù)會(huì)自動(dòng)復(fù)制到兩個(gè)系統(tǒng)中。
潛在的個(gè)人可識(shí)別信息被加密了--包括數(shù)據(jù)庫(kù)和rar壓縮包中的信息,都不會(huì)離開公司的控制。
這其中,肯定存在更好的方案,但是由于沒(méi)有這方面的預(yù)算,所以一般公司都主張到此為止。
焦灼之夜
對(duì)于我們的很多系統(tǒng)而言,我們不僅僅是測(cè)試備份--在常規(guī)基礎(chǔ)上從這些備份做數(shù)據(jù)恢復(fù)是一項(xiàng)自動(dòng)進(jìn)程。和優(yōu)秀的系統(tǒng)管理人員一樣,我們維護(hù)的是一個(gè)測(cè)試實(shí)驗(yàn)室,然后每天早上用前一晚的數(shù)據(jù)做重新填充。
幾乎所有的重要系統(tǒng)都具備這類自動(dòng)恢復(fù)序列裝置,所以我們很少去想這方面的事情。
你會(huì)注意到,重要系統(tǒng)都具備自動(dòng)化的恢復(fù)進(jìn)程。以前這些網(wǎng)站沒(méi)有被當(dāng)作是很重要的東西。
如果我們出現(xiàn)嚴(yán)重的斷電或?yàn)?zāi)難,那么這些系統(tǒng)就會(huì)崩潰。我們擁有數(shù)據(jù)庫(kù)和網(wǎng)站文件,所以手動(dòng)恢復(fù)應(yīng)該只是幾分鐘的事情。
文件和數(shù)據(jù)庫(kù)都在虛擬機(jī)上,如果你沒(méi)有虛擬機(jī)復(fù)制品,那么就得重新建一個(gè)。
Trevor,忘記把虛擬機(jī)模板放到備份目錄中。城市發(fā)生洪災(zāi)了,服務(wù)器癱瘓了,而我雖然有大把的rar壓縮包,卻沒(méi)法恢復(fù)到他那兒去。
在我們被迫放棄Calgary的數(shù)據(jù)中心之前,我從虛擬服務(wù)器那里啟動(dòng)了虛擬機(jī)下載,準(zhǔn)備下到備份目錄中去,希望電力系統(tǒng)能維持足夠長(zhǎng)的時(shí)間,使虛擬機(jī)通過(guò)WAN得到復(fù)制。
我取消了光纖鏈接的上限,全速?gòu)?fù)制,但無(wú)濟(jì)于事。時(shí)間不夠。
無(wú)法預(yù)料的行為
搭建一個(gè)虛擬機(jī)僅需幾分鐘,注入數(shù)據(jù)庫(kù),上傳文件。睡眼惺忪,疲憊不堪的我至少用了一個(gè)小時(shí)搞清楚網(wǎng)站不能加載的原因--在恢復(fù)MySQL數(shù)據(jù)庫(kù)后,我廣濟(jì)抹掉MySQL服務(wù)器上的優(yōu)先權(quán)。
解決完這個(gè)問(wèn)題,網(wǎng)站可以加載了……但還是有問(wèn)題。大約75%的PHP沒(méi)有被解析。在綜合配置文件進(jìn)行分析后,我意識(shí)到是PHP的版本問(wèn)題,出現(xiàn)問(wèn)題的版本帶有最新的CentOS,它不支持 短標(biāo)簽。這些應(yīng)用里的所有代碼都是用這類短標(biāo)簽寫的,所以,我得把php.ini的值改一改。
問(wèn)題解決!網(wǎng)站可以正常加載,我們?cè)俅紊暇。故障時(shí)間:兩小時(shí)多一點(diǎn)。
雖然問(wèn)題解決,但還不能松口氣。網(wǎng)站提交的郵件信息不成功。找了一圈,對(duì)Sendmail操作做了修改后,調(diào)整了它處理主機(jī)名稱的方式,才解決這個(gè)問(wèn)題。
如果主機(jī)名稱不對(duì),那么當(dāng)你設(shè)置把郵件發(fā)到互聯(lián)網(wǎng)前先轉(zhuǎn)發(fā)郵件到內(nèi)部處理服務(wù)器時(shí),就會(huì)出現(xiàn)問(wèn)題。Sendmail可能會(huì)轉(zhuǎn)發(fā)給某些人,但不是全部。
更不用說(shuō),如果操作上有這種漏洞,我們得到消息的時(shí)間就要晚一天。那么我們總的恢復(fù)時(shí)間就要超過(guò)一天了。
優(yōu)秀計(jì)劃
主要的操作癱瘓兩小時(shí)已經(jīng)是一件糟糕的事情,如果要花上一天才能修復(fù)所有漏洞,著實(shí)是糟糕透頂。我已經(jīng)喪失了次級(jí)服務(wù)器上的主服務(wù)器和主操作系統(tǒng),不斷查找問(wèn)題,用手機(jī)網(wǎng)絡(luò)連接系統(tǒng),終于讓系統(tǒng)起死回生。
我已經(jīng)花了幾年的時(shí)間來(lái)?yè)v鼓這個(gè)刀槍不入的備份系統(tǒng),但是卻不能弄個(gè)詳細(xì)的恢復(fù)計(jì)劃。
有預(yù)算的公司不用擔(dān)心創(chuàng)建備份基礎(chǔ)設(shè)施的問(wèn)題。我們有云備份和恢復(fù)軟件供應(yīng)商,如Asigra。
設(shè)備供應(yīng)商,如Unitrends,甚至是數(shù)據(jù)生命周期公司,如Iron Mountain,都能提供備份?梢院敛毁M(fèi)力地把你的數(shù)據(jù)保存到一個(gè)以上的地方。
這始終都是指測(cè)試你的數(shù)據(jù)恢復(fù)過(guò)程。所以應(yīng)該多加留意。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.