中國(guó)計(jì)算機(jī),第一是"天河一號(hào)",第三位是星云。

"天河一號(hào)"計(jì)算機(jī)與2010年8月在天津市超計(jì)算中心開(kāi)始安裝,9月到10月兩個(gè)月時(shí)間就完成全世界的調(diào)試于性能測(cè)試。從2010年11月開(kāi)始,系統(tǒng)就開(kāi)始試運(yùn)行,接待國(guó)內(nèi)的用戶(hù)。下面是"天河一號(hào)"的主要配置,"天河一號(hào)"含有14366顆英特爾處理器,互連網(wǎng)絡(luò)是國(guó)防科大自主研制互連網(wǎng)絡(luò),存儲(chǔ)網(wǎng)絡(luò)是2個(gè)TB,有218個(gè)計(jì)算服務(wù)機(jī)柜,還有6 個(gè)通信機(jī)柜。

"天河一號(hào)"一個(gè)特色就是采用了我們國(guó)家自主首創(chuàng)CPU與GPU體系結(jié)構(gòu),實(shí)際上源于我們2005年開(kāi)始的一些運(yùn)行研究工作,到2007年我們國(guó)防大學(xué)的研究就把相關(guān)的理論結(jié)果與實(shí)踐結(jié)果相結(jié)合,09年研制了天河1,這個(gè)計(jì)算機(jī)是排名全球第五位,當(dāng)時(shí)我們主要進(jìn)行了體系結(jié)構(gòu),解決一個(gè)什么問(wèn)題呢?CPU和 GPU協(xié)作計(jì)算的時(shí)候效率問(wèn)題。

因?yàn)楫?dāng)時(shí)CPU和GPU在解決問(wèn)題的時(shí)候效率并不高,單CPU和單 GPU合起來(lái)也就20%計(jì)算效率,顯然不滿(mǎn)足要求。經(jīng)過(guò)我們科研人員努力,從20%提高到70%的工作效率,因此從"天河一號(hào)"徹底驗(yàn)證了,從體系結(jié)構(gòu)上驗(yàn)證了這條路是可行。2010年我們用了一年時(shí)間,對(duì)天河一進(jìn)行升級(jí),也就是現(xiàn)在天河一 A系統(tǒng)。整個(gè)系統(tǒng)里面計(jì)算組也是我們?cè)O(shè)計(jì)研究,還有互聯(lián)網(wǎng)絡(luò),也有我們自己定制的軟件站,里面包括計(jì)算處理系統(tǒng),服務(wù)處理系統(tǒng),基礎(chǔ)診斷系統(tǒng)等等,當(dāng)然也是我們這個(gè)會(huì)的主題存儲(chǔ)。

計(jì)算處理系統(tǒng)包括7168個(gè)計(jì)算機(jī),每一個(gè)計(jì)算節(jié)定有2-6核CPU和1個(gè)GPU,GPU采用是英維達(dá),就保持主處理器和GPU之間有足夠的帶寬。右邊兩張圖,右邊是處理器的主板,4個(gè)CPU,下面是GPU的主板,靠在CPU主板上面,這樣一個(gè)CPU主板和GPU主板合起來(lái)就是兩個(gè)計(jì)算節(jié)點(diǎn)。右面主板含有 4個(gè)CPU,這4個(gè)CPU聯(lián)成兩個(gè)節(jié)點(diǎn),符合節(jié)點(diǎn)主要是用于登錄,強(qiáng)調(diào)團(tuán)隊(duì)的計(jì)算能力,包括網(wǎng)絡(luò),數(shù)據(jù)庫(kù)等一些應(yīng)用。

互聯(lián)通信系統(tǒng)也是國(guó)防科技大學(xué)自主研制,達(dá)到10GBDS,是現(xiàn)在主流通信網(wǎng)絡(luò)2倍的速度。雙向帶寬有116個(gè)GPS,采用2級(jí)網(wǎng)絡(luò),第一級(jí)網(wǎng)絡(luò)把16個(gè)節(jié)點(diǎn)通過(guò)交換板互聯(lián),第二是全系統(tǒng)通過(guò)11個(gè)384個(gè)互聯(lián),每個(gè)機(jī)柜里面包含兩個(gè)交換機(jī)。研制了2款芯片,一個(gè)是網(wǎng)絡(luò)結(jié)合芯片,MSC,主要是實(shí)現(xiàn)這個(gè)節(jié)點(diǎn)與高效能網(wǎng)絡(luò)連接。

另外一個(gè)網(wǎng)絡(luò)芯片實(shí)現(xiàn)14個(gè)互聯(lián)端口互聯(lián),吞吐量達(dá)到2.56TB。這是在集散機(jī)16口的交換板,實(shí)際上主要有兩個(gè)接口,上面接口插在背板上面,這個(gè)靠右邊的電源,這個(gè)靠左邊一排是信號(hào)。比如在機(jī)柜,機(jī)框里面看不到,下面有16個(gè)口子就連接到交換機(jī),這是機(jī)柜計(jì)算機(jī)里和交換機(jī)之間的接口。

這兩個(gè)是交換機(jī)里面的兩種不同的刀片,第一個(gè)是葉交換刀片,這是另外一個(gè)刀片,大家可以看到我就不多說(shuō)了。我們的交換機(jī)采用自主研制的協(xié)議,吞吐量達(dá)到 61.44TBTS,是交換機(jī)的2.37倍。那么,這個(gè)左邊是交換機(jī)一個(gè)正面和反面,右實(shí)際上是一個(gè)交換機(jī)柜,每個(gè)里面有2個(gè)交換機(jī)。

輸入輸出系統(tǒng)總?cè)萘坑?PG,我們通過(guò)自主高速互連網(wǎng)絡(luò)連接起來(lái),這些存儲(chǔ)系統(tǒng)和計(jì)算節(jié)點(diǎn)都是通過(guò)自主研制的網(wǎng)絡(luò)連接起來(lái)。網(wǎng)絡(luò)這邊基于Lustre用來(lái)提供穩(wěn)定性和性能。還有一個(gè)是監(jiān)控診斷系統(tǒng),實(shí)現(xiàn)全系統(tǒng)的檢測(cè)和控制功能,主要功能有實(shí)時(shí)系統(tǒng)的狀態(tài)檢測(cè),故障定位,還有一個(gè)反饋的冷卻環(huán)境,自動(dòng)根據(jù)主板和 CPU溫度來(lái)進(jìn)行控制。另外還提供遠(yuǎn)程的監(jiān)控和管理,我們像機(jī)房直接在用戶(hù)端就可以控制啟動(dòng),進(jìn)行故障控制。

基礎(chǔ)架構(gòu)系統(tǒng),我們采用雙重對(duì)面刀片式系統(tǒng),溫度高,維護(hù)方便。每個(gè)機(jī)柜含128個(gè)計(jì)算節(jié)電,4個(gè)網(wǎng)絡(luò)交換半,4個(gè)監(jiān)控診斷板。接下來(lái)介紹"天河一號(hào)"軟件系統(tǒng),包括操作系統(tǒng),編寫(xiě)系統(tǒng),并行程序設(shè)計(jì)和可視化環(huán)境。是基于Linux開(kāi)發(fā),主要改造有計(jì)算節(jié)點(diǎn)采用一個(gè)定制內(nèi)核,提供一個(gè)虛擬運(yùn)行環(huán)境,通過(guò)這個(gè)虛擬運(yùn)行環(huán)境用戶(hù)之間的數(shù)據(jù)就實(shí)現(xiàn)一個(gè)安全過(guò)濾,面向多個(gè)用戶(hù),然后用戶(hù)也可以定制自己的計(jì)算環(huán)境,在這里面也可以進(jìn)行系列的資源角度,我們資源角度也可以達(dá)到CPU的核。

另外研制一套大規(guī)模資源管理系統(tǒng),對(duì)整個(gè)作業(yè)管理系統(tǒng),作業(yè)調(diào)度就有一套系統(tǒng)來(lái)管理。另外操作系統(tǒng)還有節(jié)能控制功能,編譯系統(tǒng),對(duì)我們來(lái)講超計(jì)算機(jī)比較好,保證一些傳統(tǒng)計(jì)算機(jī)用戶(hù)把他的程序很平滑過(guò)渡起來(lái)。超級(jí)計(jì)算機(jī)包括C.C++,另外我們把針對(duì)異構(gòu)計(jì)算放進(jìn)去提供用戶(hù)使用。還有我們?yōu)榱私鉀Q大家不習(xí)慣的問(wèn)題,我們研制了異構(gòu)并行的編程框架,主要思想是這樣的,現(xiàn)在大家并行這個(gè)CPU的應(yīng)用,更多是來(lái)一個(gè)應(yīng)用就把這個(gè)運(yùn)營(yíng)進(jìn)行改變,但這樣會(huì)帶來(lái)一個(gè)什么缺點(diǎn)呢?這個(gè)應(yīng)用不但在開(kāi)發(fā)過(guò)程中是變化的,反復(fù)要改。

還有一個(gè)問(wèn)題運(yùn)用的代碼,用戶(hù)他不愿意給你這個(gè)開(kāi)發(fā)人員,牽扯到知識(shí)產(chǎn)權(quán)問(wèn)題,或者是牽扯到保密的問(wèn)題,這樣你會(huì)拿不到那個(gè)原代碼。這個(gè)過(guò)程是很長(zhǎng),對(duì)于一些上層用戶(hù)未必對(duì)你體系結(jié)構(gòu)能夠很好的掌握,未必去習(xí)慣這個(gè)技術(shù)編程。因此我們開(kāi)發(fā)這個(gè)編譯編程代碼,主要思想使使用CPU,GPU協(xié)同計(jì)算能力,隱藏,或者說(shuō)半隱藏這個(gè)CPU編程。

主旨思想就是在節(jié)點(diǎn)之間并行并購(gòu),我們主要交給計(jì)算機(jī)專(zhuān)家來(lái)做,計(jì)算專(zhuān)家他懂體系結(jié)構(gòu),懂編譯,懂操作系統(tǒng)。另外,編譯程序設(shè)計(jì)環(huán)境,我們采用統(tǒng)一的基礎(chǔ),包括性能的調(diào)優(yōu)和調(diào)試,也提供遠(yuǎn)程開(kāi)發(fā)。

科學(xué)計(jì)算可視化系統(tǒng),接下來(lái)給大家介紹一下"天河一號(hào)"現(xiàn)在使用階段一些典型應(yīng)用。一顆GPU相當(dāng)于7顆CPU的應(yīng)用,也是 CPU,GPU性能計(jì)算。這個(gè)里面主要是解決了單節(jié)點(diǎn)異構(gòu),節(jié)點(diǎn)之間這層變形不動(dòng),但是這層變形可靠性可以保證下來(lái)。

還有一個(gè)是應(yīng)用情況,運(yùn)行效率達(dá)到87%,這是產(chǎn)業(yè)測(cè)試集中的地方,正常狀態(tài)下的情況。這個(gè)軟件是中國(guó)石油集團(tuán),在我們系統(tǒng)里面最多達(dá)到8586個(gè)核,這個(gè)物質(zhì)處理原來(lái)是要1個(gè)月時(shí)間,現(xiàn)在是要1天時(shí)間。那天我們?cè)陂_(kāi)玩笑,整個(gè)這個(gè)系統(tǒng),整個(gè)這個(gè)計(jì)算速度大幅減少,原來(lái)認(rèn)為他們把3T數(shù)據(jù)從自己?jiǎn)挝慌艿竭@個(gè)中心,他自己原來(lái)沒(méi)有考慮,他自己開(kāi)過(guò)車(chē)把這個(gè)數(shù)據(jù)送過(guò)來(lái),路上的時(shí)間就一天的時(shí)間。

這三幅圖35公里,大約1000平方的處理結(jié)果,包括深度平移,深度切片等等,這個(gè)處理軟件就相當(dāng)于給地殼做了一個(gè)CT一樣,這個(gè)數(shù)據(jù)處理的結(jié)果實(shí)際上我們就可以看到我們腳底下這個(gè)地層的情況,就會(huì)為尋找石油帶來(lái)極大的方便。這點(diǎn)有了這種高性能計(jì)算,帶來(lái)社會(huì)經(jīng)濟(jì)效益非常好的著力點(diǎn)。現(xiàn)在是缺油,到國(guó)外找石油,國(guó)外就會(huì)招標(biāo),招標(biāo)的時(shí)候給你數(shù)據(jù),如果說(shuō)你能夠盡快把這個(gè)數(shù)據(jù)處理起來(lái),我心里就有底,國(guó)外在談判的時(shí)候我在競(jìng)標(biāo)的時(shí)候就有底氣了,到底多少錢(qián)可以把這個(gè)油田拿下來(lái)。

另外一個(gè)應(yīng)用是藥物研究,這個(gè)軟件是上海藥物所研究的軟件,現(xiàn)在的計(jì)算情況正在算,目前是1萬(wàn)元用了300多個(gè)核,這些概念確實(shí)不是太懂。但至少我們反映了一個(gè)用戶(hù)的情況,我們覺(jué)得有這么大規(guī)模的系統(tǒng),對(duì)他們的研究工作有非常大的幫助,并且他們?cè)瓉?lái)不敢想做的事情,現(xiàn)在敢想了。像原來(lái)他的系統(tǒng)就是幾百個(gè)核,幾千個(gè)核,現(xiàn)在他就考慮要修改他的程序,把"天河一號(hào)"上面幾萬(wàn)個(gè)核給用起來(lái)。這是"天河一號(hào)"上面正在使用的計(jì)算機(jī)應(yīng)用單位和即將和朝陽(yáng)中心使用計(jì)算機(jī)的應(yīng)用單位,謝謝大家。

分享到

zhabin

相關(guān)推薦