IBM刀片服務器在降溫散熱上的特色設計
現(xiàn)在隨著服務器的集成密度越來越高,像刀片服務器和機架服務器等大量的普及使用,服務器的散熱受到廠商和用戶的高度重視。對于刀片服務器來說,高計算力需要多CPU,而CPU本身以及相關設備都需要刀片機柜具備強大的散熱降溫能力。IBM是采用類似“中央空調式”的整體散熱技術,來幫助整個刀片中心進行降溫。IBM刀片中心的散熱系統(tǒng)設計,是用兩個冗余的風扇對放置在刀片中心的14片刀片進行散熱,就像大酒店的中央空調能夠對各個房間同時進行散熱。而且刀片中心的散熱系統(tǒng)采用雙冗余設計,如同配備了兩套酒店的“中央空調”。
相比之下,一些廠商在進行刀片服務器設計改良時,會做一些非常簡單的改變??只是簡單地把一個服務器壓扁,仍然為每個服務器采用類似“壁掛式空調”來幫助每個刀片單獨散熱,如同為房間中的每個人配備一個“電風扇”。但這樣的設計可能會帶來兩個問題:一、我們需要一個非常敬業(yè)勤勞的電工每天去檢修每個“壁掛式空調”、“電扇”是否正常,如果出現(xiàn)問題需要對每個散熱設備進行更換;二、僅僅保證了刀片服務器自身,而忽視了機柜空間內的空氣流通和整體散熱。
IBM刀片中心采用整體散熱設計和雙冗余的高速風扇配置,則另辟蹊徑、化繁為簡,保證了機柜散熱上的可靠、高效。不僅如此,IBM設計的這套雙冗余的“中央空調”風扇還具有“變頻”功能,在平時標準使用的時候,每分鐘150立方英尺的散熱風量。當它出現(xiàn)溫度預警、部件故障時,或者一個風扇徹底壞掉,另外一個風扇會開足馬力進行工作,每分鐘出風量可以達到325立方英尺的散熱空氣流動量。如果有人在這個時候站在運行中的IBM刀片中心背面,會發(fā)現(xiàn)風量非常大,這個道理和站在酒店中央空調的主出風口一樣。因此,雙冗余的設計保證了不用擔心單個風扇故障引起的服務器性能問題。
在散熱系統(tǒng)中還設計了回流的主力器,空氣的流動比較順暢。冷空氣從刀片中心前方進入,對熱的兩個部件CPU進行散熱,然后對其次的內存、芯片、硬盤、直至這兩個電源的部分,然后由這兩個風扇把變熱的空氣從刀片中抽出來。
IBM刀片服務器BladeCenter散熱系統(tǒng)詳細圖解
IBM的刀片服務器BladeCenter即為一個出色的例子。它可為用戶提供占據(jù)空間更小,電源消耗更小,散熱條件更好的服務器。特別是它大幅度減少了對電源耗能的需求,自然也減少了系統(tǒng)對于散熱和冷卻的需求。
1. 電源模塊
BladeCenter刀片服務器的底盤具有一對200-240伏的熱交換電源模塊,安裝在電源艙(Power Bays)1和2中,用于給所有刀片服務器模塊和刀片艙1-6提供電能。此外,BladeCenter服務器還可以在電源艙3和4中提供第二對電源模塊,從而為刀片艙7-14提供電能。作為熱插拔的子系統(tǒng),電源模塊可以為處理器刀片和其它電子部件提供直流電壓。兩個激活的電源模塊(在電源艙1和3)用于驅動插滿14個處理器刀片的全配置底板、4個交換機模塊、2個風扇以及2個管理模塊。如果要提供全冗余的后備能力,則需要4個電源模塊。
每一個電源模塊提供了+12V的輸出到刀片服務器的中間背板(mid-plane)上,BladeCenter刀片服務器所有的子系統(tǒng)都在該處獲得電源供應。兩個+12V的中間背板電源總線可用于冗余,并在冗余電源模塊間對當前工作的電源進行輸出負載的共享。
2. 電源利用率和散熱
由于BladeCenter服務器近90%的電源負載都來自于處理器和內存上,每個底盤上的CPU使用率便成為決定實際負載中最為關鍵的因素。在服務器開機階段所需電量的峰值不會超過CPU在100%使用時刀片服務器所需的最大能耗??來自CPU的影響遠遠大于其它動態(tài)負載。
電源需求和導致的散熱取決于多種因素??其中,關鍵因素為運行溫度、處理器和刀片的數(shù)量和CPU的使用率。
雖然很多統(tǒng)計數(shù)據(jù)都來自于CPU 100%使用率的基準下,但是大多數(shù)用戶并不需要使他們全部的服務器運行在這樣的滿載負荷之下。實際上,很多操作系統(tǒng)和應用程序在這種情況下,運行效率反而會有所降低。每一個客戶需要對其應用程序、操作系統(tǒng)以及IT基礎架構進行評估,以確定使用率應達到怎樣的程度。目前,IBM已制作一個有關配置的電子數(shù)據(jù)表格,它可根據(jù)客戶所指定的CPU占用率,計算出所需要的電源負載(基于實際測量結果)。
3. 內置降溫系統(tǒng)
IBM BladeCenter服務器的刀片單元不只是一個電路板。它安裝在堅固的底盤之上并全部被機殼封閉,盡可能地保證了堅固和可靠性;此外,還可以改善空氣流通和確高質量的連接。
冗余的矢量式冷卻系統(tǒng)是一項領先的尖端技術。無論目前或是以后插入更多強大的處理器時,它可以把空氣從機箱前部帶至后部,確保安插全部刀片的底板達到足夠的冷卻效果。其主要的組成部分是兩個轉速達到 325 CFM的熱交換冗余風扇、關鍵位置處的熱量監(jiān)控器以及管理模塊。
BladeCenter刀片服務器中的每個刀片HS20都擁有蜂窩結構的前端外觀,使空氣從機架的前端流入;刀片服務器底板后部強大的雙模塊風扇通過促使空氣從刀片的前端到后端流通來提供空氣的動力冷卻。CPU位于刀片的前端位置,從而獲得不斷的干凈的冷空氣。
兩個彎曲葉輪散熱風扇(配有百葉窗回流擋片)為刀片服務器底盤的所有部件提供了冗余冷卻。室狀蒸汽散熱水槽用來冷卻處理器。所有通過BladeCenter服務器底盤的空氣估計總量,在0.7英寸H2O靜態(tài)壓差下是325 CFM(立方英尺/分鐘)。由于帶空氣通過系統(tǒng),325CFM包括了20CFM到底板的空氣滲漏。
風扇的速度通過管理模塊來控制, 而管理模塊接收位于關鍵部位的熱量監(jiān)控器發(fā)來的信號(入口處的空氣溫度,系統(tǒng)設備溫度等)。如果各個傳感器的溫度級別升高,風扇速度將會自動加快。在如下3種情況,兩個風扇將都被設置到最大速度:
管理模塊故障(或被移除)同時配有的冗余模塊未能工作
在刀片或模塊上的熱量傳感器發(fā)出熱量警報
由控制模塊測量的外部環(huán)境氣溫達到35攝氏度
如果風扇發(fā)生故障或被移去,剩下的一個風扇會自動提速以維持所需空氣流量直至更換部件被安裝好。如果一個風扇失效,其上的4片百葉窗狀擋板將合上以封閉此單元,并通過另一個風扇維持有效的空氣流通。此外,通過管理子系統(tǒng)所提供的告警,每個風扇會通過LED指示燈在故障發(fā)生時給出提示。
4. 系統(tǒng)管理器
每個刀片上整合有一個系統(tǒng)管理處理器,在管理模塊上亦有一個服務處理器。通過它們之間的智能通訊,BladeCenter的自動系統(tǒng)確保了其高可用性。
BladeCenter的管理模塊實施熱量監(jiān)控,包括:
機箱熱量監(jiān)控
處理器刀片熱量監(jiān)控
本地或遠程熱量告警
BladeCenter的管理模塊實施風扇狀態(tài)和控制,包括:
出現(xiàn)和故障檢測
故障指示器和告警
基于熱量的轉速控制
BladeCenter服務器的管理模塊監(jiān)控電源狀態(tài)并對電源模塊進行控制,包括:
出現(xiàn)和故障檢測
故障指示器和告警
電源故障重起控制