計(jì)算是基礎(chǔ),也是核心

北京大學(xué)高性能計(jì)算校級(jí)公共平臺(tái)“未名一號(hào)“由227個(gè)節(jié)點(diǎn)組成,其中計(jì)算節(jié)點(diǎn)196個(gè)、GPU節(jié)點(diǎn)10個(gè)、KNL節(jié)點(diǎn)8個(gè)、胖節(jié)點(diǎn)3個(gè)、管理和登錄節(jié)點(diǎn)6個(gè)、IO節(jié)點(diǎn)4個(gè),存儲(chǔ)采用聯(lián)想GSS24存儲(chǔ)系統(tǒng),容量2784.8TB,計(jì)算網(wǎng)絡(luò)采用Omni-path架構(gòu),編譯器采用GNU和Intel最新編譯器套件,作業(yè)管理采用Slurm作業(yè)調(diào)度系統(tǒng),集群管理采用聯(lián)想LiCO集群監(jiān)控管理套件。該集群系統(tǒng)理論計(jì)算峰值高達(dá)411萬億次/秒,計(jì)算節(jié)點(diǎn)理論峰值261萬億次/秒,實(shí)測(cè)計(jì)算能力達(dá)到242萬億次/秒。

目前,聯(lián)想已經(jīng)與國內(nèi)外多所高校展開合作。在國內(nèi),聯(lián)想與南京大學(xué)、廈門大學(xué)等院校合作建立超算平臺(tái),持續(xù)提供強(qiáng)大計(jì)算力支持。在與南京大學(xué)的合作中,聯(lián)想交付了近900萬億次超算集群系統(tǒng),創(chuàng)造了國內(nèi)高校高性能計(jì)算平臺(tái)規(guī)模的紀(jì)錄;在全球范圍內(nèi),聯(lián)想贏得牛津大學(xué)、倫敦大學(xué)、芝加哥大學(xué)、北卡羅萊納州立大學(xué)等高校的信賴。比如,聯(lián)想與北卡羅萊納州立大學(xué)研究人員正在開展更深入的研究,以應(yīng)對(duì)全球糧食水源短缺的挑戰(zhàn)。在倫敦大學(xué)學(xué)院,研究人員正在通過大型強(qiáng)子對(duì)撞機(jī),重建高能粒子碰撞事件,解決有關(guān)宇宙起源的基本問題。與之相比,“未名一號(hào)”則肩負(fù)著北京大學(xué)學(xué)科建設(shè)以及AI應(yīng)用變革的使命和任務(wù),”在數(shù)學(xué)、物理學(xué)、化學(xué)、生物學(xué)、地球科學(xué)、航天航空科學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科科研領(lǐng)域,需要“未名一號(hào)”提供大規(guī)模數(shù)據(jù)處理和大規(guī)??茖W(xué)計(jì)算的能力。不僅如此,以AI驅(qū)動(dòng)的智慧化變革同樣需要強(qiáng)大的計(jì)算能力為基礎(chǔ)。

如今,算法(Algorithm)、大數(shù)據(jù)(Big data)和計(jì)算力(Computing power)堪稱AI三大要素,所謂ABC。其中AI通用算法和不同行業(yè)應(yīng)用場景的結(jié)合,以大數(shù)據(jù)為基礎(chǔ)的機(jī)器學(xué)習(xí)、深度機(jī)器學(xué)習(xí),將幫助傳統(tǒng)產(chǎn)業(yè)以前所未有的視角,深化行業(yè)業(yè)務(wù)創(chuàng)新和變革??梢哉f,AI的業(yè)務(wù)應(yīng)用離不開強(qiáng)大的計(jì)算能力,以及持續(xù)穩(wěn)定的能力輸出,而高性能計(jì)算恰恰具備了這樣的特征,由此也拉動(dòng)了信息技術(shù)學(xué)科對(duì)于HPC計(jì)算能力的需要?!拔疵惶?hào)”高性能計(jì)算校級(jí)公共平臺(tái)的實(shí)踐也印證了這一點(diǎn),從試運(yùn)行的結(jié)果看,“未名一號(hào)”運(yùn)行平穩(wěn)、作業(yè)飽滿、性能優(yōu)良,目前支撐了學(xué)校21個(gè)院系的100項(xiàng)科研項(xiàng)目,同時(shí)在試運(yùn)行期間,已經(jīng)支持發(fā)表了高水平的論文,成績喜人,用戶的反映良好。

節(jié)能之外的意外收獲

作為國內(nèi)首個(gè)溫水水冷超算平臺(tái),“未名一號(hào)“的啟用堪稱“吃螃蟹”之舉。對(duì)此,北大內(nèi)部也對(duì)“水泄漏”的問題感覺過擔(dān)心。此外,國內(nèi)機(jī)房建設(shè)標(biāo)準(zhǔn)對(duì)“冷凍水”方案缺乏支持,也是導(dǎo)致水冷系統(tǒng)不能夠得到推廣的原因。

作為國內(nèi)學(xué)科領(lǐng)域的帶頭人,北大的教授也清楚地知道:較之傳統(tǒng)的風(fēng)冷方案,水冷方案在換熱效率,也就是熱容比方面的巨大優(yōu)勢(shì)。同樣的熱量置換,風(fēng)冷方案不僅需要更大的空間,同時(shí)也需要消耗更多的電能,其中,PUE是一個(gè)最能夠體現(xiàn)能耗的指標(biāo)。如果采用風(fēng)冷方案,無論如何沒有辦法實(shí)現(xiàn)PUE 1.1的指標(biāo)。經(jīng)過測(cè)算,溫水水冷方案每年能夠給北京大學(xué)帶來60萬度電的能源節(jié)省。

目前“未名一號(hào)“高性能計(jì)算校級(jí)公共平臺(tái)的進(jìn)水溫度在38℃左右,經(jīng)過高性能計(jì)算平臺(tái)熱交換,出水溫度在45℃左右。據(jù)介紹,這是一個(gè)理想的溫度,經(jīng)過聯(lián)想在全球的無數(shù)實(shí)踐證明,這個(gè)溫度對(duì)于冷凝水的抑制,以及散熱效率是一個(gè)最佳的實(shí)踐。也完全吻合高溫?cái)?shù)據(jù)中心的發(fā)展趨勢(shì)。根據(jù)聯(lián)想的研究,新一代的溫水冷卻技術(shù),可以進(jìn)一步提升出水溫度到50℃,由此可以帶來額外25%的效率提升。因此,其應(yīng)用前景空間廣闊。

“能源效率之外,溫水水冷技術(shù)還帶來了超級(jí)計(jì)算平臺(tái)所需要的高可靠性和穩(wěn)定性?!北本┐髮W(xué)物理學(xué)院副教授、北京大學(xué)高性能計(jì)算校級(jí)公共平臺(tái)主任雷奕安說。

“高性能計(jì)算平臺(tái)實(shí)現(xiàn)高性能計(jì)算的關(guān)鍵就是并行計(jì)算,以LinkPack測(cè)試為例,在測(cè)試過程中,任何單一節(jié)點(diǎn)故障,都會(huì)導(dǎo)致測(cè)試的失敗。在實(shí)際上應(yīng)用過程中,單一計(jì)算節(jié)點(diǎn),或者內(nèi)存等關(guān)鍵部件溫度過高,都會(huì)到導(dǎo)致計(jì)算效率的降低。與風(fēng)冷相比,聯(lián)想提供的溫水冷卻技術(shù)提供了更高的散熱保證,從而能夠?yàn)楦咝阅苡?jì)算能力的持續(xù)穩(wěn)定輸出提供了保障,而這是能源效率之外,意想不到的額外收獲。” 雷奕安說。

小結(jié)

對(duì)于企業(yè)也好,對(duì)于科研機(jī)構(gòu)也好,最為難得可貴的精神在于創(chuàng)新,唯有創(chuàng)新才是企業(yè)、科研機(jī)構(gòu)長盛不衰的動(dòng)力源泉和保障。很多時(shí)候創(chuàng)新并沒有那么難以實(shí)現(xiàn),以“未名一號(hào)“溫水冷卻高性能計(jì)算校級(jí)公共平臺(tái)為例,其中溫水冷卻已經(jīng)算不上新生事物,但是國內(nèi)普遍缺乏應(yīng)用的勇氣,這才是阻礙技術(shù)水平提升的大問題。從這個(gè)意義上來說。北京大學(xué) “未名一號(hào)”的一小步,將會(huì)成為帶動(dòng)產(chǎn)業(yè)技術(shù)進(jìn)步的一大步。不僅如此,國內(nèi)首套溫水冷卻技術(shù)高性能計(jì)算平臺(tái)的落地推廣,對(duì)于未來我國E級(jí)計(jì)算平臺(tái)能源效率問題的突破,也會(huì)帶來積極的經(jīng)驗(yàn)積累!

毫無疑問,“未名一號(hào)“開了一個(gè)好頭,無愧為學(xué)科研究的帶頭人!

分享到

songjy

相關(guān)推薦