熱插拔機箱
隨著服務(wù)器應(yīng)用、技術(shù)的不斷發(fā)展,企業(yè)對服務(wù)器的性能提出了新的要求。而且由于用戶對網(wǎng)絡(luò)的依賴性比以前更強,所以對服務(wù)器系統(tǒng)的穩(wěn)定性、安全性要求也較以前大大提高。這樣一來,對服務(wù)器其它配件支持熱插拔技術(shù)的呼聲也就越來越高了,因為現(xiàn)在服務(wù)器系統(tǒng)主要出現(xiàn)故障的配件不再僅是硬盤系統(tǒng)了,而更多的可能是內(nèi)存、電源和風(fēng)扇等。
下面是一個典型的風(fēng)扇熱插拔圖,不過這個實現(xiàn)起來也簡單的多,也基本上沒有什么技術(shù)含量。從下面的圖片可以看出,這個熱插拔技術(shù)就是在風(fēng)扇下面就多了一個和固定在機箱上面接觸的接口而已。這樣說,希望不要引起眾怒,實話實說而已。
單個熱插拔風(fēng)扇
熱插拔風(fēng)扇
服務(wù)器中,服務(wù)器電源也是不可以小看的。許多磁盤陣列和其他架裝系統(tǒng)含有多個電源輸入,可以同時為這些設(shè)備提供電源支持。這樣,一般情況下,只要出現(xiàn)故障的電路不超過一個,系統(tǒng)就能繼續(xù)正常運行。因此,如果服務(wù)器中的所有硬件有2個或3個電源輸入,則要求至少有兩個或者三個獨立的電路支持,以確保電路設(shè)計中沒有單點故障。
熱插拔電源結(jié)構(gòu)示意圖
內(nèi)存?zhèn)浞?/p>
系統(tǒng)正常工作時,控制模塊通過調(diào)整電流調(diào)節(jié)器/隔離器的導(dǎo)通程度,使系統(tǒng)均衡地使用每個電源模塊–每個電源模塊向系統(tǒng)提供相同的電流,這種工作模式稱為"電流共享"。當(dāng)其中某一電源模塊出現(xiàn)故障時,切斷電流調(diào)節(jié)器/隔離器,使故障電源從電源系統(tǒng)中隔離出來,并進行故障報警。冗余電源系統(tǒng)中的每個供電模塊均可以熱插拔,一旦某個供電模塊損壞,就能在不停電情況下完成維修工作,而絲毫不影響系統(tǒng)的正常工作。為了滿足熱插拔的要求,冗余電源系統(tǒng)的控制模塊應(yīng)能夠限制電源模塊的電流突變,防止電源模塊插入和拔出時對負載總線形成浪涌電流。
熱插拔電源
現(xiàn)在,熱插拔技術(shù)在確保服務(wù)器系統(tǒng)可用性已顯得越來越重要了,已成為服務(wù)器的標(biāo)準(zhǔn)技術(shù)。盡管不同檔次的服務(wù)器所支持的熱插拔配件并不完全一樣,但對于像硬盤、電源和風(fēng)扇的熱插拔技術(shù)支持已成為比較常見的服務(wù)器配置了。不過要實現(xiàn)內(nèi)存的熱插拔,問題就不是幾句話能扯得清楚的。上面提到的風(fēng)扇啊硬盤啊電源什么的,從原理上講,還是與PCI相關(guān)的總線技術(shù)有關(guān)。但是內(nèi)存要實現(xiàn)熱插拔,就遠不止這么簡單。于是那些不安分的巨頭服務(wù)器商就開始了自己的內(nèi)存熱插拔技術(shù)的研究,相繼出臺了這樣和那樣的技術(shù),不過比起比起傳統(tǒng)的ECC技術(shù)來說,性能是提高了不少。但是很多時候是整個內(nèi)存條子損壞,那么前面的努力也就白費了。所以是不是也需要想硬盤一樣,用條子做成內(nèi)存?zhèn)浞?、?nèi)存鏡像來支持內(nèi)存的熱插拔呢?
答案是肯定的,但道路是曲折的。
在線內(nèi)存?zhèn)浞菔且环N高級別的內(nèi)存保護技術(shù),需要注意的是必須成對安裝雙列直插式內(nèi)存模塊(Dual In-line Memory Module,DIMM)的內(nèi)存條。每個DIMM必須是同一型號的,而且容量相同,這一點似乎和硬盤區(qū)別不大,否則內(nèi)存系統(tǒng)的性能會受到影響。如果一共有三組內(nèi)存條組,把C組作為在線備份內(nèi)存,其內(nèi)存容量總合要是A、B兩組的容量總合之和。進行內(nèi)存熱備時,做熱備份的內(nèi)存在正常情況下是不使用的,也就是說在系統(tǒng)里是看不到C內(nèi)存容量的。每個內(nèi)存通道中有一個DIMM不被使用,預(yù)留為備份內(nèi)存。芯片組中設(shè)置有內(nèi)存校驗錯誤次數(shù)的閾值, 即每單位時間發(fā)生錯誤的次數(shù)。當(dāng)工作內(nèi)存的故障次數(shù)達到這個"容錯閾值",系統(tǒng)開始進行雙重寫動作,一個寫入主內(nèi)存,一個寫入熱備內(nèi)存,當(dāng)系統(tǒng)檢測到兩個內(nèi)存數(shù)據(jù)一致后,熱備內(nèi)存就代替主內(nèi)存工作,故障內(nèi)存被禁用,這樣就完成了熱備內(nèi)存接替故障內(nèi)存工作的任務(wù),有效避免了系統(tǒng)由于內(nèi)存故障而導(dǎo)致數(shù)據(jù)丟失或系統(tǒng)宕機。這個做熱備的內(nèi)存容量應(yīng)大于等于所在通道的最大內(nèi)存條的容量,以滿足內(nèi)存數(shù)據(jù)遷移的最大容量需求。也就是象硬盤的RAID。
另一種方式就是服務(wù)器內(nèi)存鏡像。在線備份內(nèi)存模式只能對發(fā)生單比特錯誤的數(shù)據(jù)提供保護,像鏡像內(nèi)存方式還可以用來保護發(fā)生多bit錯誤的數(shù)據(jù)。正因為如此,內(nèi)存鏡像和內(nèi)存熱備份很適合于商業(yè)應(yīng)用,因為它除了正常維護之外,不需要在內(nèi)存檢修上花費額外的時間。這種技術(shù)的出現(xiàn),是由于隨著服務(wù)器系統(tǒng)總線提高,內(nèi)存?zhèn)鬏數(shù)臄?shù)據(jù)陪增,會出現(xiàn)不知什么原因遇到了許多內(nèi)存保護和修復(fù)技術(shù)都不能完全修復(fù)的情況。諸如其熱更換熱添加、熱插拔RAID內(nèi)存,這些就相對好理解一些,不過需要注意的一點是,許多企業(yè)實際上實現(xiàn)的只是有限的內(nèi)存熱插拔,只能拔掉特定的內(nèi)存條,而不能隨意拔掉其他內(nèi)存條。
內(nèi)存鏡像是將內(nèi)存數(shù)據(jù)做兩個拷貝,分別放在主內(nèi)存和鏡像內(nèi)存中。系統(tǒng)工作時會向兩個內(nèi)存中同時寫入數(shù)據(jù),因此使得內(nèi)存數(shù)據(jù)有兩套完整的備份。由于采用通道間交叉鏡像的方式,所以每個通道都有一套完整的內(nèi)存數(shù)據(jù)拷貝。
內(nèi)存鏡像有效避免了由于內(nèi)存故障而導(dǎo)致數(shù)據(jù)丟失。從下圖中可看出,鏡像內(nèi)存和主內(nèi)存互成對角線分布,如果其中一個通道出現(xiàn)故障不能繼續(xù)工作,另一個通道仍然具有故障通道的內(nèi)存數(shù)據(jù),有效防止了由于內(nèi)存通道故障導(dǎo)致的數(shù)據(jù)丟失,極大提升了服務(wù)器可靠性。鏡像內(nèi)存的容量要大于等于主內(nèi)存容量,當(dāng)系統(tǒng)工作時,鏡像內(nèi)存不會被系統(tǒng)識別。因此在投資方面,做內(nèi)存鏡像數(shù)據(jù)保護的投資是沒有內(nèi)存保護功能的一倍。
熱備和內(nèi)存鏡像是內(nèi)存熱插拔的必要條件,從理論上和技術(shù)上完全能夠?qū)崿F(xiàn),那么,內(nèi)存的熱插拔相信也是以后服務(wù)器的發(fā)展必然。
當(dāng)然,說了怎么多,有的知識也是借鑒了別人的,呵呵,如果你知道了,那么,就當(dāng)是溫故知新吧。記得聊齋里面有一篇文章記載,人的大腦也是可以更換的。那么,我就想,是不是服務(wù)器的CPU在運行的時候,也可以更換呢?還有主板上的電容?這個問題留給聰明的你來回答……….