谷歌如何備份互聯(lián)網(wǎng)和海量數(shù)據(jù)

wangfei 發(fā)表于：14年02月14日 10:21 [編譯] DOIT.com.cn

分享：

[導(dǎo)讀]雷蒙布盧姆(Raymond Blum)領(lǐng)導(dǎo)著一支站點(diǎn)可靠性工程師團(tuán)隊(duì)，主要負(fù)責(zé)谷歌數(shù)據(jù)的保密性和安全性。當(dāng)然，谷歌永遠(yuǎn)也不會(huì)透露那些數(shù)據(jù)的總量是多少，但是從其高管的言語(yǔ)中來(lái)看，那些數(shù)據(jù)總量沒(méi)達(dá)到Y(jié)B級(jí)至少也達(dá)到了EB級(jí)。僅Gmail服務(wù)的相關(guān)數(shù)據(jù)就達(dá)到了EB級(jí)。

2014年2月14日存儲(chǔ)在線編譯：雷蒙布盧姆(Raymond Blum)領(lǐng)導(dǎo)著一支站點(diǎn)可靠性工程師團(tuán)隊(duì)，主要負(fù)責(zé)谷歌數(shù)據(jù)的保密性和安全性。當(dāng)然，谷歌永遠(yuǎn)也不會(huì)透露那些數(shù)據(jù)的總量是多少，但是從其高管的言語(yǔ)中來(lái)看，那些數(shù)據(jù)總量沒(méi)達(dá)到YB級(jí)至少也達(dá)到了EB級(jí)。僅Gmail服務(wù)的相關(guān)數(shù)據(jù)就達(dá)到了EB級(jí)。

布盧姆在解釋谷歌如何互聯(lián)網(wǎng)時(shí)稱(chēng)，常規(guī)的備份策略在谷歌是行不通的，原因是：在一般情況下，它們會(huì)隨著容量進(jìn)行調(diào)整。

他談到了以下要點(diǎn)：

從未出現(xiàn)過(guò)數(shù)據(jù)丟失的事故。即使在GMail服務(wù)宕機(jī)時(shí)也沒(méi)有丟失過(guò)數(shù)據(jù)，但是這比磁帶備份要復(fù)雜得多。整個(gè)系統(tǒng)的各個(gè)地方都需要檢索數(shù)據(jù)，這就要求它在包括人在內(nèi)的每一個(gè)層級(jí)上都提供引擎。

備份無(wú)用。它其實(shí)是你最關(guān)心的數(shù)據(jù)恢復(fù)功能。 它是一個(gè)恢復(fù)系統(tǒng)而不是備份系統(tǒng)。備份只是數(shù)據(jù)恢復(fù)戰(zhàn)略中的一部分內(nèi)容。將任務(wù)轉(zhuǎn)至備份，讓它具備所需的各種功能，以便將數(shù)據(jù)恢復(fù)工作盡可能地簡(jiǎn)化。

你無(wú)法按比例調(diào)整。 如果數(shù)據(jù)量增加一百倍，你不可能將人力資源或機(jī)器資源也增加一百倍。你應(yīng)該去尋找倍增器。自動(dòng)化是提高利用率和效率的重要方法之一。

無(wú)處不在的備用冗余。谷歌有很多種服務(wù)，總是會(huì)有某一些服務(wù)出現(xiàn)故障。 這是不可避免的，就象人體內(nèi)的細(xì)胞也在不停地老化死去一樣。谷歌從未想過(guò)能夠避開(kāi)這種情況，而是未雨綢繆地制定對(duì)應(yīng)的計(jì)劃。

無(wú)處不在的多樣性問(wèn)題。如果你擔(dān)心某個(gè)站點(diǎn)不完全，那就請(qǐng)把數(shù)據(jù)放到多個(gè)站點(diǎn)上儲(chǔ)存。 如果你擔(dān)心的問(wèn)題是用戶誤操作，那就請(qǐng)?jiān)O(shè)置各種隔離政策，對(duì)用戶互動(dòng)進(jìn)行限制。如果你想免于受到軟件漏洞的危害，那就請(qǐng)使用不同的軟件。將數(shù)據(jù)保存在不同廠商的設(shè)備上可以減少軟件漏洞的危害性。

將人中整個(gè)工作流程中解放出來(lái)。Gmail保存了多少份電子郵件的副本？ 人們不應(yīng)該去關(guān)心這樣的問(wèn)題。有些參數(shù)是由Gmail設(shè)置，然后由系統(tǒng)來(lái)管理的。這是慣例。高級(jí)政策設(shè)置完成后，系統(tǒng)就會(huì)照此執(zhí)行。只有出現(xiàn)超常規(guī)的事情后，才需要人工介入。

用實(shí)際應(yīng)用去證明它。如果你根本就不去嘗試，那么它肯定是無(wú)法正常工作的。 備份和恢復(fù)一直處于被測(cè)試狀態(tài)中，目的是驗(yàn)證它們是否能夠正常運(yùn)作。

不管是大型企業(yè)還是小型企業(yè)，都能從中學(xué)到不少知識(shí)。布盧姆談到的那些內(nèi)容既風(fēng)趣，又有教益，非常值得一讀。他本人似乎也非常喜愛(ài)這項(xiàng)工作所具備的挑戰(zhàn)性。

以下是我個(gè)人獲得的一些心得：

數(shù)據(jù)有效性必須是100%。 永遠(yuǎn)也不會(huì)出現(xiàn)數(shù)據(jù)丟失的情況。

從統(tǒng)計(jì)學(xué)的角度來(lái)說(shuō)，如果你在一個(gè)2GB的文件中丟掉200K的數(shù)據(jù)，那可能并不是很多，但是那份文件可能就變得不能用了。

數(shù)據(jù)有效性比訪問(wèn)通道有效性重要得多。如果一個(gè)系統(tǒng)宕機(jī)了，情況并不會(huì)變得十分糟糕。但是如果數(shù)據(jù)丟失了，那就非常糟糕了。

谷歌保證你會(huì)遇到下列情況的各種組合：

場(chǎng)地隔離

因應(yīng)用層出現(xiàn)問(wèn)題導(dǎo)致的隔離

因存儲(chǔ)層出現(xiàn)問(wèn)題導(dǎo)致的隔離

因媒體失效導(dǎo)致的隔離

你必須考慮到你能控制的范圍。將軟件標(biāo)在縱軸上，地點(diǎn)標(biāo)在橫軸上。 如果你想覆蓋所有的東西，你就需要在每個(gè)不同地點(diǎn)都保留一份軟件層的副本。你可以在不同地點(diǎn)使用虛擬機(jī)來(lái)實(shí)現(xiàn)這個(gè)目標(biāo)。

備用冗余與可恢復(fù)性并不是一回事。

保留再多的數(shù)據(jù)副本也不能保證不發(fā)生數(shù)據(jù)丟失的事故。

對(duì)于某些類(lèi)型的宕機(jī)事故來(lái)說(shuō)，保留很多份數(shù)據(jù)副本確實(shí)是有用的。如果一顆流星撞擊了一個(gè)數(shù)據(jù)中心，而你在遠(yuǎn)程站點(diǎn)保留了數(shù)據(jù)副本，那你當(dāng)然不會(huì)受到影響。

如果你的存儲(chǔ)設(shè)備中有一個(gè)軟件漏洞，那么將數(shù)據(jù)復(fù)制到再多的設(shè)備上也無(wú)濟(jì)于事，因?yàn)樗械臄?shù)據(jù)副本都存在那個(gè)漏洞。Gmail宕機(jī)就是最好的例子。

數(shù)據(jù)中心遭流星撞擊的概率絕不會(huì)比軟件漏洞、用戶誤操作或錯(cuò)誤數(shù)據(jù)寫(xiě)入等情況出現(xiàn)的概率高。

備用冗余非常適用于局部引用。當(dāng)你希望所有的數(shù)據(jù)引用盡可能接近數(shù)據(jù)被使用的地點(diǎn)時(shí)，復(fù)制是個(gè)很好的方法。

整個(gè)系統(tǒng)的實(shí)用性達(dá)到了驚人的程度。

谷歌有很多種服務(wù)，總是會(huì)有某一些服務(wù)出現(xiàn)故障，這是不可避免的。就象人體內(nèi)的細(xì)胞在不斷地死亡一樣。我們從未想過(guò)實(shí)現(xiàn)服務(wù)從不出現(xiàn)故障的目標(biāo)。我們?yōu)樗贫A(yù)案計(jì)劃。各種設(shè)備總是會(huì)出現(xiàn)故障。

備用冗余就是解決問(wèn)題的方法。事實(shí)證明，多臺(tái)設(shè)備的可靠性比一臺(tái)優(yōu)質(zhì)設(shè)備的可靠性更高。一臺(tái)設(shè)備可能會(huì)因?yàn)槟撤N災(zāi)難而被毀掉。但是存放在50個(gè)不同地點(diǎn)的很多臺(tái)設(shè)備是很難在同一時(shí)間一起被毀掉的。

大規(guī)模并行系統(tǒng)出現(xiàn)數(shù)據(jù)丟失的概率更高。

如果沒(méi)有漏洞的話，MapReduce在3萬(wàn)臺(tái)設(shè)備上運(yùn)行還是不錯(cuò)的。但是如果系統(tǒng)有漏洞的話，那后果立刻就會(huì)被放大無(wú)數(shù)倍。

如果整個(gè)站點(diǎn)出現(xiàn)宕機(jī)，那么即便有本地?cái)?shù)據(jù)副本也無(wú)濟(jì)于事。

如果你的服務(wù)器機(jī)房進(jìn)水了，那么即便你使用了RAID也沒(méi)用。

谷歌直到一年前才停止使用的Google File System（GFS）系統(tǒng)充分發(fā)揮了RAID的概念。利用編碼技術(shù)同時(shí)向不同城市的多個(gè)數(shù)據(jù)中心寫(xiě)入數(shù)據(jù)，因此你只要一些碎片就能完成數(shù)據(jù)的重建工作。因此，即便3個(gè)數(shù)據(jù)中心同時(shí)熄火，你仍然能夠使用自己的數(shù)據(jù)。

有效性和完整性都是整個(gè)機(jī)構(gòu)的特征。

谷歌工程師、BigTable、GFS、Colossus都知道保證數(shù)據(jù)耐用性和完整性是首要大事。現(xiàn)在有很多系統(tǒng)就是用來(lái)檢查和糾正數(shù)據(jù)有效性和完整性方面的錯(cuò)誤的。

你想要多樣化的配置。

如果你擔(dān)心站點(diǎn)問(wèn)題，請(qǐng)把數(shù)據(jù)存放到多個(gè)站點(diǎn)。

如果你擔(dān)心用戶人為誤差問(wèn)題，請(qǐng)禁止用戶人工操作。

如果你想讓數(shù)據(jù)不受軟件錯(cuò)誤的影響，就請(qǐng)把它放到不同的軟件中。將數(shù)據(jù)保存到不同廠商的設(shè)備上可以降低大廠商故障的影響。

利用磁帶將數(shù)據(jù)備份起來(lái)真的非常好。

磁帶其實(shí)很好用，因?yàn)樗疟P(pán)不一樣。如果可以的話，他們可能還會(huì)使用打孔卡片來(lái)儲(chǔ)存數(shù)據(jù)。

試想一下，如果你的SATA硬盤(pán)的設(shè)備驅(qū)動(dòng)程序中出現(xiàn)了一個(gè)漏洞，會(huì)出現(xiàn)什么樣的后果呢？如果使用磁帶的話，就不會(huì)有這樣的問(wèn)題了。它增加了你的多樣性，因?yàn)椴煌拿襟w需要使用不同的軟件。

磁帶容量符合摩爾法則的規(guī)定，因此將磁帶當(dāng)作備份媒介來(lái)使用是很不錯(cuò)的，即便它們能夠在其他設(shè)備上使用，它們也不會(huì)泄密。

磁帶是加密的，這就意味著壞人很難從中得到有用的東西。

備份是無(wú)用的。你關(guān)心的其實(shí)是數(shù)據(jù)修復(fù)問(wèn)題。

如果系統(tǒng)存在問(wèn)題的話，你就必須在用戶使用數(shù)據(jù)前找出它們。當(dāng)你需要修復(fù)數(shù)據(jù)時(shí)，你就需要用到它了。

持續(xù)不斷地進(jìn)行數(shù)據(jù)修復(fù)。隨機(jī)選擇5%的數(shù)據(jù)進(jìn)行備份，然后修復(fù)數(shù)據(jù)并進(jìn)行對(duì)比。為什么呢？在數(shù)據(jù)丟失前，搞清楚備份系統(tǒng)是否工作正常。這樣可以找出并解決很多的問(wèn)題。

進(jìn)行自動(dòng)對(duì)比。不能跟原始數(shù)據(jù)進(jìn)行對(duì)比，因?yàn)樵紨?shù)據(jù)已經(jīng)發(fā)生了變化。因此，給所有的數(shù)據(jù)分配檢驗(yàn)數(shù)字，然后對(duì)比那些檢驗(yàn)數(shù)字。將數(shù)據(jù)放回源媒體、磁盤(pán)、閃存或是其他任何存儲(chǔ)媒介。確定數(shù)據(jù)能夠環(huán)行一周再回來(lái)。這個(gè)過(guò)程一直在進(jìn)行之中。

如果故障率出現(xiàn)變化，就發(fā)出警報(bào)。

如果有些東西發(fā)生了變化，你可能想知道到底是怎么回事。如果一切運(yùn)行正常，那就別來(lái)煩我。

系統(tǒng)肯定會(huì)不時(shí)出現(xiàn)一些故障，但是如果只是某個(gè)文件在首次修復(fù)時(shí)出現(xiàn)問(wèn)題，那就不用發(fā)警報(bào)了。

假設(shè)第一次出現(xiàn)故障的概率為N，第二次出現(xiàn)故障的概率為Y。如果故障率出現(xiàn)了變化，那么肯定是哪里出錯(cuò)了。

一切都停止下來(lái)。

磁盤(pán)經(jīng)常因?yàn)楣收隙Ｖ构ぷ鳎沁@種事情一發(fā)生你就會(huì)知道，因?yàn)槟阋恢北O(jiān)控著磁盤(pán)。

如果使用磁帶的話，那出現(xiàn)故障時(shí)你是不知道的，只有當(dāng)你想去使用它時(shí)才會(huì)知道它出現(xiàn)了故障。磁帶可以存放很長(zhǎng)的時(shí)間，但是在你需要用到它之前，你需要先進(jìn)行測(cè)試。

磁帶上的RAID4。

不要將數(shù)據(jù)只寫(xiě)到一盤(pán)磁帶上。它們都是盒式磁帶。機(jī)械臂也許會(huì)失手掉落磁帶，磁帶上的磁粉也許會(huì)掉。不要冒險(xiǎn)。

當(dāng)把數(shù)據(jù)寫(xiě)到磁帶上的時(shí)候，告訴寫(xiě)入軟件將數(shù)據(jù)保存好，知道我們發(fā)出它可以改變的命令。如果你這樣做的話，你已經(jīng)違約了。

寫(xiě)滿4盒磁帶后，通過(guò)XORing即可生成第五盤(pán)代碼磁帶。這5盒磁帶中丟掉任何一盤(pán)磁帶，你都依然可以恢復(fù)數(shù)據(jù)。

現(xiàn)在告訴寫(xiě)入程序它們可以改變?cè)磾?shù)據(jù)了，因?yàn)閿?shù)據(jù)已經(jīng)被存放到最終的位置上，現(xiàn)在那些源數(shù)據(jù)變成備份冗余副本了。

谷歌備份的每一點(diǎn)數(shù)據(jù)都要經(jīng)過(guò)這種處理。

每月丟失的磁帶可能達(dá)到數(shù)百盒，但是由于這個(gè)處理程序的關(guān)系，每個(gè)月的數(shù)據(jù)丟失事故并不會(huì)達(dá)到數(shù)百次。

如果一盒磁帶丟失了，可以利用持續(xù)不斷的數(shù)據(jù)修復(fù)檢測(cè)出來(lái)，然后你就可以利用相關(guān)的磁帶重新制作一盒與丟失的磁帶一模一樣的磁帶，所有的數(shù)據(jù)就都恢復(fù)了。如果碰巧遇到兩盒磁帶都損壞的情況，那只有當(dāng)那兩盒磁帶的損壞點(diǎn)也是一樣的時(shí)候，你才會(huì)丟失數(shù)據(jù)，你可以利用磁帶重新恢復(fù)數(shù)據(jù)。

不要因?yàn)檫@些技術(shù)而令數(shù)據(jù)丟失。數(shù)據(jù)丟失的代價(jià)太大了，但這就是商業(yè)成本。

備份是你為避免發(fā)生數(shù)據(jù)修復(fù)成本而采取的預(yù)防措施。

它是一個(gè)數(shù)據(jù)修復(fù)系統(tǒng)而不是備份系統(tǒng)。數(shù)據(jù)修復(fù)是不可避免的中斷。它們非常有用。利用備份來(lái)恢復(fù)數(shù)據(jù)。

按照要求對(duì)數(shù)據(jù)進(jìn)行備份并根據(jù)需要將它們保留足夠長(zhǎng)的時(shí)間。盡可能快和盡可能自動(dòng)去進(jìn)行數(shù)據(jù)修復(fù)。

數(shù)據(jù)修復(fù)操作應(yīng)該是簡(jiǎn)單、迅速和快捷的。你應(yīng)該能夠通過(guò)一項(xiàng)簡(jiǎn)單的操作來(lái)啟動(dòng)數(shù)據(jù)修復(fù)。

數(shù)據(jù)修復(fù)工作可以在你休息或睡覺(jué)的時(shí)候進(jìn)行。因此，最好不要在數(shù)據(jù)修復(fù)操作中添加任何人工操作的要素。你承受著壓力。因此，當(dāng)你在備份數(shù)據(jù)時(shí)請(qǐng)把數(shù)據(jù)修復(fù)的準(zhǔn)備工作也做充足。

很大一部分系統(tǒng)都是這樣工作的。

數(shù)據(jù)源也許必須將數(shù)據(jù)保存一段時(shí)間，這段時(shí)間也許是幾天，然后才能將那些數(shù)據(jù)備份。但是一旦數(shù)據(jù)被備份好，它應(yīng)該能夠迅速被恢復(fù)。

為了讓數(shù)據(jù)修復(fù)的速度盡可能快一點(diǎn)，請(qǐng)不要頻繁使用備份媒體�；▋蓚€(gè)小時(shí)的時(shí)間去讀一盒磁帶的做法是不可取的。只將一盒磁帶寫(xiě)一半，然后同時(shí)讀取兩盒磁帶，這樣你就可以將數(shù)據(jù)恢復(fù)的時(shí)間縮短一半。

調(diào)整是一個(gè)問(wèn)題。

當(dāng)你有EB級(jí)的數(shù)據(jù)需要備份時(shí)，現(xiàn)實(shí)中還有其他一些限制條件。如果你必須拷貝10份EB級(jí)的數(shù)據(jù)，那你可能需要10個(gè)星期的時(shí)間去備份每天的數(shù)據(jù)。

由于數(shù)據(jù)中心遍布全球各地，因此你還有一些選擇的余地。你是否會(huì)給每一個(gè)站點(diǎn)分配近乎無(wú)限的備份容量？你是否會(huì)按地區(qū)將所有的備份數(shù)據(jù)集合在一起？傳輸數(shù)據(jù)的帶寬如何？你難道不需要為業(yè)務(wù)流量預(yù)留帶寬嗎？

相關(guān)成本。這里有很多折中方案。并不是每一個(gè)站點(diǎn)都有備份設(shè)施。必須保證網(wǎng)絡(luò)上的可用容量處于均衡狀態(tài)。備份必須在X站點(diǎn)進(jìn)行，因?yàn)樗兴璧膸挕?/span>

你不可能成比例地調(diào)整規(guī)模。

不能說(shuō)你想要多少網(wǎng)絡(luò)帶寬和磁帶都行。磁盤(pán)會(huì)出現(xiàn)故障，因此如果你有1萬(wàn)塊磁盤(pán)的話，你可能需要1萬(wàn)多名操作員去更換它們。你有1萬(wàn)個(gè)裝載支架來(lái)放磁帶嗎？這都不是成比例增加的。

雖然磁帶庫(kù)的數(shù)量已經(jīng)上升了一個(gè)數(shù)量級(jí)，但是對(duì)人員數(shù)量的要求并沒(méi)有同步提高10倍。需要的人數(shù)肯定會(huì)增加一些，但肯定不會(huì)象按比例增加那么多。

有一個(gè)例子可以說(shuō)明這一點(diǎn)，早期人們?cè)A(yù)測(cè)電話數(shù)量會(huì)增加30%，那么話務(wù)員的數(shù)量也應(yīng)該增加30%，但是事實(shí)上并非如此，因?yàn)楹髞?lái)使用了程控技術(shù)自動(dòng)接線。

自動(dòng)化技術(shù)

日程安排已經(jīng)實(shí)現(xiàn)了自動(dòng)化。如果你有一項(xiàng)服務(wù)并且需要儲(chǔ)存數(shù)據(jù)，你可能每隔一段時(shí)間就需要對(duì)數(shù)據(jù)進(jìn)行備份一次，然后需要每隔一段時(shí)間對(duì)數(shù)據(jù)進(jìn)行修復(fù)。這些數(shù)據(jù)備份和數(shù)據(jù)恢復(fù)工作都可以由內(nèi)部系統(tǒng)自動(dòng)完成。備份是計(jì)劃好的，系統(tǒng)可以自動(dòng)進(jìn)行數(shù)據(jù)恢復(fù)的測(cè)試工作和完整性測(cè)試。當(dāng)系統(tǒng)檢測(cè)出某一盒磁帶出現(xiàn)故障時(shí)，它會(huì)自動(dòng)進(jìn)行處理。

作為人，你不需要了解這些東西。也許在未來(lái)的某個(gè)時(shí)候，你才會(huì)想起來(lái)去查看一下有多少磁帶出現(xiàn)過(guò)問(wèn)題。如果磁帶故障率發(fā)生變化，從每天100盒增加到每天300盒，系統(tǒng)才會(huì)發(fā)出警報(bào)。但是在系統(tǒng)發(fā)出警報(bào)之前，系統(tǒng)是不會(huì)提示你每天有100盒磁帶出現(xiàn)問(wèn)題是在正常范圍以內(nèi)的。

人工不應(yīng)介入穩(wěn)態(tài)運(yùn)行的系統(tǒng)。

包裝和運(yùn)輸硬盤(pán)仍然需要人工來(lái)完成。自動(dòng)準(zhǔn)備運(yùn)輸標(biāo)簽，獲得RMA編碼，核對(duì)發(fā)出的包裹，接收回執(zhí)，這都是自動(dòng)進(jìn)行的。只有當(dāng)這個(gè)流程中斷時(shí)，才需要人為干預(yù)。

庫(kù)軟件維護(hù)也是如此。如果有一個(gè)固件需要升級(jí)，并不需要派一名員工去給每個(gè)系統(tǒng)升級(jí)。下載固件升級(jí)，然后將它送到總控制庫(kù)即可。對(duì)固件升級(jí)進(jìn)行測(cè)試，盡可能準(zhǔn)確地驗(yàn)證測(cè)試結(jié)果。然后將它發(fā)出去。這套正常操作不需要人工干預(yù)。

自動(dòng)處理設(shè)備宕機(jī)事故。

很多設(shè)備每分鐘會(huì)宕機(jī)兩次。如果在使用3萬(wàn)臺(tái)設(shè)備執(zhí)行MapReduce作業(yè)時(shí)有一臺(tái)設(shè)備宕機(jī)，那就別告訴我了，只要自動(dòng)處理好它然后繼續(xù)執(zhí)行作業(yè)就行了。再找一臺(tái)設(shè)備，將工作負(fù)載移動(dòng)過(guò)去，然后重啟設(shè)備。

如果設(shè)備之間存在關(guān)聯(lián)性，那就請(qǐng)?jiān)谟?jì)劃中加一個(gè)等待指令。如果系統(tǒng)等待的時(shí)間太長(zhǎng)，則可以向管理員發(fā)出警報(bào)。你處理你自己的計(jì)劃工作。這是算法應(yīng)該做的事，而不是人應(yīng)該做的事。

在數(shù)據(jù)增長(zhǎng)的同時(shí)，保持效率不斷提高。

提高利用率和效率。數(shù)據(jù)量增長(zhǎng)100倍的時(shí)候，決不能出現(xiàn)對(duì)人員或設(shè)備的需求量也增長(zhǎng)100倍的情況。

2011年的GMail宕機(jī)事故和修復(fù)情況。從中可以看出谷歌是如何丟掉數(shù)據(jù)然后又找回那些數(shù)據(jù)的。他在周日上午10:31收到一條警報(bào)信息，上面寫(xiě)著：“Holly Crap呼叫xxx-xxxx”。如需了解更多關(guān)于那次宕機(jī)事故的信息，請(qǐng)點(diǎn)擊這里。

Gmail服務(wù)的數(shù)據(jù)量已經(jīng)達(dá)到EB級(jí)了。那需要使用很多很多的磁帶。

100%恢復(fù)。數(shù)據(jù)可用性并不是100%。丟失的數(shù)據(jù)在事故發(fā)生后的第一天或第二天并沒(méi)有全部恢復(fù)。但是最終，所有的數(shù)據(jù)都被恢復(fù)了。

復(fù)制層發(fā)生了一系列故障和事故。是的，我們有三個(gè)相同的文件，但是它們都空了。即使進(jìn)行過(guò)設(shè)備測(cè)試、系統(tǒng)測(cè)試和裝配測(cè)試，故障也無(wú)法避免。

從磁帶恢復(fù)數(shù)據(jù)。這是一項(xiàng)繁重的工作。數(shù)據(jù)恢復(fù)的時(shí)間與數(shù)據(jù)規(guī)模是成正比的�；謴�(fù)1GB的數(shù)據(jù)也許只要1毫秒到幾秒的時(shí)間就行了。但是要恢復(fù)20萬(wàn)個(gè)收件箱（每個(gè)收件箱中都有幾GB的數(shù)據(jù)），那就要一些時(shí)間了。

叫醒了歐洲的兩名員工來(lái)處理此事，因?yàn)楫?dāng)時(shí)他們那里是白天。將人員分配在不同的地方，就是有這樣的好處。

數(shù)據(jù)被從每一盒磁帶上恢復(fù)過(guò)來(lái)，并經(jīng)過(guò)了驗(yàn)證。這項(xiàng)工作沒(méi)有花太多的時(shí)間，只用了幾天就完成了。員工們對(duì)此感到滿意。遇到類(lèi)似事故的其他公司花了一個(gè)月的時(shí)間才意識(shí)到他們無(wú)法將數(shù)據(jù)恢復(fù)回來(lái)。谷歌采取了一些措施來(lái)保證下次遇到類(lèi)似事故時(shí)會(huì)更快地完成相關(guān)的處理工作。

讀一盒磁帶要花2個(gè)小時(shí)的時(shí)間。磁帶散布在很多地點(diǎn)。沒(méi)有哪一個(gè)站點(diǎn)有足夠的計(jì)算能力去讀取所有與數(shù)據(jù)恢復(fù)有關(guān)的磁帶。

利用壓縮技術(shù)和檢驗(yàn)數(shù)字技術(shù)，其實(shí)并不需要把20萬(wàn)盒磁帶都讀一遍。

從那以后，數(shù)據(jù)恢復(fù)工作就一直在不斷改進(jìn)。

為各種數(shù)據(jù)的恢復(fù)工作設(shè)定優(yōu)先等級(jí)。

你應(yīng)該對(duì)各種數(shù)據(jù)的恢復(fù)工作設(shè)定優(yōu)先等級(jí)，比如先恢復(fù)你正在使用的收件箱的數(shù)據(jù)和已發(fā)送的電子郵件數(shù)據(jù)，然后再恢復(fù)歸檔數(shù)據(jù)。

一個(gè)月都沒(méi)有被碰過(guò)的帳戶可以放在后面恢復(fù)，優(yōu)先恢復(fù)相對(duì)比較活躍的用戶的帳戶的數(shù)據(jù)。

備份系統(tǒng)被視為一個(gè)巨大的全局有機(jī)組織。

例如，不要只在紐約備份GMail服務(wù)的數(shù)據(jù)，因?yàn)槿绻麛?shù)據(jù)中心的規(guī)模擴(kuò)大或縮小，備份數(shù)據(jù)的規(guī)模就應(yīng)該相應(yīng)地進(jìn)行調(diào)整。

將備份當(dāng)作一個(gè)巨大的全球性系統(tǒng)來(lái)對(duì)待。當(dāng)備份發(fā)生的時(shí)候，它也許是在其他任何地點(diǎn)進(jìn)行的。

利用磁帶來(lái)恢復(fù)數(shù)據(jù)必須在磁帶所在的地點(diǎn)進(jìn)行。但是數(shù)據(jù)可以在紐約而備份卻在俄勒岡進(jìn)行，因?yàn)槎砝諏臄?shù)據(jù)中心有足夠的容量。地點(diǎn)隔離是自動(dòng)處理的，谷歌沒(méi)有將數(shù)據(jù)的備份地點(diǎn)告知客戶。

容量是可以移動(dòng)的。由于有一個(gè)全局容量并得到網(wǎng)絡(luò)的支持，因此磁帶在哪里并不重要。

你擁有的數(shù)據(jù)越多，數(shù)據(jù)備份工作就越重要。

東西越大就越重要，這是一條常規(guī)定律。谷歌以前只做搜索業(yè)務(wù)。現(xiàn)在它有了GMail服務(wù)，因此它變得更大和更重要了。

建立一套優(yōu)秀的基礎(chǔ)設(shè)施

隨身攜帶一把瑞士軍刀真的很好。當(dāng)MapReduce被開(kāi)發(fā)出來(lái)的時(shí)候，他們可能從未想到過(guò)它會(huì)被用于備份。但是如果不是已經(jīng)開(kāi)發(fā)出MapReduce的話，那么人們也不會(huì)想到把它用于備份。

調(diào)整規(guī)模真的很重要，你不能只擁有它的一部分，比如軟件、基礎(chǔ)設(shè)施、硬件、流程等等。

你不能說(shuō)，我有足夠多的員工，因此我打算使用更多的磁帶。如果你打算將員工人數(shù)增加一倍，先想想你公司外面的停車(chē)場(chǎng)是否能增加一倍的停車(chē)位吧。公司的自助餐廳和休息室呢？每一樣都要增加一倍，最后你肯定會(huì)遇到一個(gè)過(guò)不去的瓶頸，然后不得不停下來(lái)。

在實(shí)際應(yīng)用中證明它。

凡事都不要想當(dāng)然。希望并不是一種策略。

如果你不去測(cè)試它，它就無(wú)法正常工作。要想驗(yàn)證備份，就必須進(jìn)行數(shù)據(jù)恢復(fù)工作。除非你到最終都沒(méi)有證明任何東西。事實(shí)證明，這樣的做法會(huì)導(dǎo)致大量的事故出現(xiàn)。

災(zāi)難恢復(fù)測(cè)試。

每過(guò)N個(gè)月都會(huì)出現(xiàn)一種災(zāi)難。你應(yīng)當(dāng)在企業(yè)組織的每個(gè)層級(jí)模擬災(zāi)難發(fā)生時(shí)的反應(yīng)。

如果災(zāi)難什么都不帶走，公司將如何生存呢？必須學(xué)會(huì)適應(yīng)。

在基礎(chǔ)設(shè)施和物理安全設(shè)備中找出巨大的漏洞。

設(shè)想一下，如果有一個(gè)數(shù)據(jù)中心只有一條路通向外界，那么那條路上必然塞滿了運(yùn)輸發(fā)動(dòng)機(jī)燃料的卡車(chē)。如果那條路不在了，會(huì)怎么樣？最好再增加一條通道和另一條輸送柴油機(jī)燃料的供應(yīng)管道。

制定供應(yīng)鏈備用策略。

在不同的時(shí)間點(diǎn)和不同的地理位置及時(shí)對(duì)不同軟件的數(shù)據(jù)進(jìn)行備份。

不要只是讓數(shù)據(jù)在不同的系統(tǒng)層級(jí)之間移動(dòng)，而是應(yīng)該將數(shù)據(jù)保存在系統(tǒng)的不同層級(jí)中。這樣當(dāng)你丟失某些數(shù)據(jù)時(shí)，你還可以從其他地方恢復(fù)它們。時(shí)間、地點(diǎn)和軟件，這都很重要。

以GMail宕機(jī)事故為例。如果復(fù)制軟件存在漏洞，怎么可能不出現(xiàn)數(shù)據(jù)丟失事故呢？這是某位聽(tīng)眾提出的問(wèn)題，他并不想要知道處理的細(xì)節(jié)。數(shù)據(jù)不斷被備份。假設(shè)從晚上9點(diǎn)之后的數(shù)據(jù)我們都有，而數(shù)據(jù)錯(cuò)誤是在晚上8點(diǎn)發(fā)生的，但是錯(cuò)誤的數(shù)據(jù)還沒(méi)有被備份到磁帶上。錯(cuò)誤被停止了。軟件被恢復(fù)到之前某個(gè)正常運(yùn)行的狀態(tài)。在某一時(shí)刻，所有的數(shù)據(jù)都是完好的。那些數(shù)據(jù)都在磁帶上。有些數(shù)據(jù)被復(fù)制了。有些數(shù)據(jù)在前端，有些數(shù)據(jù)在日志里，這些數(shù)據(jù)源的某些數(shù)據(jù)是重復(fù)的，你是有可能重新所有的數(shù)據(jù)的。在這些情況下，不要將數(shù)據(jù)從設(shè)備中提取出來(lái)，直到它被存入另一臺(tái)設(shè)備后過(guò)了N小時(shí)才能那么做。

刪除問(wèn)題。

我想刪除這些數(shù)據(jù)。不要通過(guò)重寫(xiě)磁帶的方式去刪除磁帶上的數(shù)據(jù)。由于磁帶的規(guī)模太大，那樣做的成本就太高了。

有一種更加可行的做法是，利用密鑰來(lái)達(dá)到目的。它不會(huì)告訴我們谷歌在做什么。也許鑰匙丟掉就等于把數(shù)據(jù)刪除了。

只有當(dāng)員工們彼此信任且共同承擔(dān)責(zé)任時(shí)，一個(gè)規(guī)模龐大的組織才能高效運(yùn)轉(zhuǎn)。

彼此信任。

確定組織界面和軟件界面都得到了明確的定義。在各個(gè)層級(jí)之間進(jìn)行驗(yàn)證測(cè)試。

制定白名單和黑名單。

確保數(shù)據(jù)被存放在一個(gè)受到保護(hù)的地方并且保證那些數(shù)據(jù)不會(huì)被存放到某個(gè)特定的地點(diǎn)。這有助于保證地點(diǎn)多樣性和地點(diǎn)獨(dú)立性。

這并不是設(shè)備固有的功能。必須添加到支持管理?xiàng)l件中。

將責(zé)任下方到盡可能低的層級(jí)。填寫(xiě)正確的檔案，它就象魔術(shù)一樣發(fā)生了。

[責(zé)任編輯：朱朋博]

Intel為McAfee賜姓更名為IntelSecurity

據(jù)美國(guó)媒體報(bào)道，英特爾CEO Brian Krzanich日前在CES上展示多款智能設(shè)備的同時(shí)，還公布了一個(gè)旗下軟件的更新消息。未來(lái)，英特爾旗下殺毒軟件McAfee(邁克菲)將更名為IntelSecurity（英特爾安全）。Krzanich宣布，此次更名將即時(shí)生效，不過(guò)產(chǎn)品業(yè)務(wù)上的變更將需要花費(fèi)大概1年的時(shí)間。

官方微信

相關(guān)閱讀

精彩專(zhuān)題更多

2014企業(yè)級(jí)IT風(fēng)云榜

存儲(chǔ)風(fēng)云榜”是由DOIT傳媒主辦的年度大型活動(dòng)�；仡�2014年，存儲(chǔ)作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素，已經(jīng)成為了推動(dòng)信息產(chǎn)業(yè)發(fā)展的核心動(dòng)力，存儲(chǔ)產(chǎn)業(yè)的發(fā)展邁向成熟，數(shù)據(jù)經(jīng)濟(jì)的概念順勢(shì)而為的提出。

華為OceanStor V3開(kāi)啟全融合數(shù)據(jù)架構(gòu)時(shí)代

華為OceanStor V3系列存儲(chǔ)系統(tǒng)是面向企業(yè)級(jí)應(yīng)用的新一代統(tǒng)一存儲(chǔ)產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達(dá)到業(yè)界領(lǐng)先水平，很好的滿足了大型數(shù)據(jù)庫(kù)OLTP/OLAP、文件共享、云計(jì)算等各種應(yīng)用下的數(shù)據(jù)存儲(chǔ)需求。

聯(lián)想亮相高交會(huì)

聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會(huì)

国产精品一区二区av交换,中文字幕人成无码免费视频,永久免费av无码网站性色av,欧美一道本一区二区三区,樱桃熟了a级毛片

谷歌如何備份互聯(lián)網(wǎng)和海量數(shù)據(jù)