12年曙光做的星云(Nebula)超級(jí)計(jì)算機(jī)曙光5000A,發(fā)布的是星云系統(tǒng)峰值為每秒3000萬(wàn)億次(3PFlops)計(jì)算性能,但效率其實(shí)只有40%左右。目前,業(yè)界對(duì)CPU、內(nèi)存等硬件的利用率,已經(jīng)能夠到80%左右。

在從用戶(hù)視角來(lái)看:集群規(guī)模受限于機(jī)房空間,雖然目前出來(lái)很多立體機(jī)房,機(jī)柜可以疊加,但空間仍然有效。在機(jī)房空間固定的情況下,集群規(guī)模是受限制的,CPU等硬件數(shù)量無(wú)法持續(xù)提升。同時(shí),用戶(hù)的預(yù)算有限制,同時(shí),存儲(chǔ)有限制,硬盤(pán)可以用8T,未來(lái)用10T12T,但最終空間也是有限。

大部分用戶(hù)都會(huì)使用風(fēng)冷的技術(shù),風(fēng)冷比較簡(jiǎn)單。這時(shí)機(jī)房的PUE能夠1.5-3左右。而在空間有限、節(jié)點(diǎn)有限的情況下,其實(shí)利用水冷,可以做到更高的密度,更好的效率。

同時(shí),機(jī)房有功率的限制,同時(shí)機(jī)房里還有大量的和能源相關(guān)的設(shè)備,比如UPS,因此從功耗的角度來(lái)設(shè)計(jì),去除UPS等附屬硬件,PUE值能夠大大縮減,做到1.1-1.25。

效率和使用的處理器、主板都有關(guān)系。但我們必須從另外的角度來(lái)考慮,也就是從電源使用的角度。目前,有效使用電能(50%負(fù)載最優(yōu))需控制計(jì)算隊(duì)列。水冷的目的是更多將電能用來(lái)進(jìn)行計(jì)算處理,來(lái)提高計(jì)算性能!

218

如果把某一些端口,直接換成銅纜,傳輸率是一樣的。但可以極大降低功耗,比如每個(gè)交換機(jī)節(jié)省100w,16個(gè)交換機(jī)的節(jié)省,可以達(dá)到額外增加4個(gè)節(jié)點(diǎn),極大的提高性能。

219

什么場(chǎng)景下可用水冷?

用戶(hù)以提升計(jì)算性能、計(jì)算效率為核心需求。也就是關(guān)注性能,而不是關(guān)注價(jià)格。畢竟水冷會(huì)比風(fēng)冷更貴一些。

同時(shí),用戶(hù)有室外空間來(lái)放置水冷設(shè)備,同時(shí),機(jī)房基建與計(jì)算集群同步建設(shè)的環(huán)境。如果已經(jīng)有風(fēng)冷的設(shè)備了,再拆掉重新布置水冷,就有些不值了。

使用水冷的用戶(hù),大部分都是機(jī)房空間有限、供電有限的用戶(hù)。因?yàn)樗淇梢源蟠筇岣呙芏?,同時(shí)降低電力消耗。

在水冷的項(xiàng)目里面,目前有很多國(guó)外的經(jīng)驗(yàn)可以借鑒。

比如無(wú)冷凝水冷的溫水二次利用。對(duì)于高校、政府等用戶(hù)來(lái)說(shuō),水冷可以變成供暖的水。在集群規(guī)模夠大的情況下,水冷系統(tǒng)可以產(chǎn)生高于65攝氏度的熱水,在循環(huán)之后,當(dāng)水溫低于45度,又可以再次利用。

另外,利用Absorption Chiller吸附式冷凝機(jī)。水冷主機(jī)不需要供電,也即是零功耗,就可以實(shí)現(xiàn)溫水的二次循環(huán)散熱,而且整個(gè)系統(tǒng)能夠達(dá)到50KW的大功率。

聯(lián)想水冷技術(shù)應(yīng)用全球

聯(lián)想是HPC最先走出國(guó)門(mén)的企業(yè),為眾多世界級(jí)超算中心提供產(chǎn)品方案和技術(shù)支持。比如在歐洲最大的學(xué)術(shù)性數(shù)據(jù)中心之一——萊布尼茨超級(jí)計(jì)算中心里,聯(lián)想幫助他們打造了11000個(gè)節(jié)點(diǎn)的SuperMUC直接水冷超級(jí)計(jì)算集群。該集群峰值計(jì)算速度達(dá)到9千萬(wàn)億次每秒,向整個(gè)歐洲的研究人員提供超級(jí)計(jì)算資源,研究領(lǐng)域包括天體物理、生命科學(xué)等。

除了在性能上的提升以外,因?yàn)椴捎昧寺?lián)想首創(chuàng)的45度溫水水冷技術(shù),新的集群系統(tǒng)實(shí)現(xiàn)了1.1的PUE值,遠(yuǎn)低于1.5-3的業(yè)界一般水平。聯(lián)想讓客戶(hù)5年整體電費(fèi)下降37%——從2760萬(wàn)歐元降至1740萬(wàn)歐元,節(jié)省了超過(guò)1000萬(wàn)歐元。

220

(SuperMUC占地示意圖,圖中橘黃色管線是水冷管)

除了萊布尼茨超算中心,聯(lián)想在歐洲也幫助西班牙巴塞羅那、意大利博洛尼亞CINECA等眾多客戶(hù)搭建了世界級(jí)超算系統(tǒng)。在全球高性能計(jì)算Top500排名中,聯(lián)想以99套連續(xù)兩年保持中國(guó)第一、全球第二的位置。我們的超級(jí)計(jì)算機(jī),服務(wù)全球各個(gè)國(guó)家的客戶(hù),在高能物理、生命科學(xué)、氣象、海洋、環(huán)保,航空航天、石油勘探、智能制造和互聯(lián)網(wǎng)等眾多領(lǐng)域,助力客戶(hù)業(yè)務(wù)創(chuàng)新。

最近,聯(lián)想利用水冷技術(shù),最近中標(biāo)了北京大學(xué)的超算中心項(xiàng)目。這是全國(guó)第一個(gè)應(yīng)用水冷技術(shù)的超算中心,它不僅僅能夠提供超級(jí)高的計(jì)算性能,同時(shí)也將為學(xué)校和國(guó)家節(jié)省大量的能源。

結(jié)語(yǔ)

如果簡(jiǎn)單來(lái)看,HPC系統(tǒng)性能和功耗很多時(shí)候是對(duì)立的。因?yàn)楣牡土耍阅軙?huì)受到影響。但通過(guò)水冷,不但做到了節(jié)能環(huán)保,更是對(duì)于計(jì)算性能的極致提升。

分享到

崔歡歡

相關(guān)推薦