圖1 曙光公司副總裁、研發(fā)中心總經(jīng)理邵宗有

互聯(lián)網(wǎng)行業(yè)到底哪些應(yīng)用會(huì)需要用到高性能計(jì)算呢?我們常常認(rèn)為高性能計(jì)算是陽(yáng)春白雪,是那些傳統(tǒng)高端領(lǐng)域的專利。對(duì)此,邵宗有表示,“互聯(lián)網(wǎng)行業(yè)中,很多地方都需要對(duì)大量的數(shù)據(jù)處理和分析,比如搜索、電商的交易處理系統(tǒng)等等,這些應(yīng)用跟傳統(tǒng)的股票交易系統(tǒng)其實(shí)是不相上下的。高性能計(jì)算和分布式處理本身就沒有特別嚴(yán)格的界限,互聯(lián)網(wǎng)企業(yè)盡管價(jià)格競(jìng)爭(zhēng)非常激烈,但是其系統(tǒng)的復(fù)雜度、精妙程度一點(diǎn)都不比傳統(tǒng)的高性能計(jì)算差,一些互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)中心包含幾萬(wàn)臺(tái)服務(wù)器。”

當(dāng)人們紛紛談?wù)撊绾螌?shí)現(xiàn)“百億億次計(jì)算”的時(shí)候,邵宗有已經(jīng)把更多的精力投入了高性能計(jì)算在互聯(lián)網(wǎng)行業(yè)的應(yīng)用上,基于整機(jī)柜的優(yōu)化方案、與百度的聯(lián)合實(shí)驗(yàn)室等等。

系統(tǒng)設(shè)計(jì)新思路:整機(jī)柜模塊HPC系統(tǒng)

整機(jī)柜模塊HPC系統(tǒng)的設(shè)計(jì)靈感源于百度的系統(tǒng)結(jié)構(gòu),“互聯(lián)網(wǎng)企業(yè)的系統(tǒng)規(guī)模相當(dāng)大,百度現(xiàn)在就有好幾萬(wàn)臺(tái)服務(wù)器,著眼一個(gè)一個(gè)節(jié)點(diǎn),就太細(xì)了,做起來(lái)就會(huì)非常地復(fù)雜。我們未來(lái)要著眼一個(gè)一個(gè)的機(jī)柜,從增強(qiáng)整個(gè)機(jī)柜的可靠性、功耗、性能的角度出發(fā),解決這些問(wèn)題”,邵宗有對(duì)記者解釋道,這也是計(jì)算機(jī)領(lǐng)域解決問(wèn)題經(jīng)常用到的二叉樹的思想,層級(jí)越多,樹上的葉子也就越多,比如Cache的設(shè)計(jì)也就是采取了這樣的思路,隨著Cache容量的增加,Cache從一層Cache演變成三層Cache。

圖2 曙光整機(jī)柜模塊HPC系統(tǒng)

邵宗有也非常坦白地告訴記者,整機(jī)柜模塊HPC系統(tǒng)的投入非常大,意味著要重做所有的模塊,包括交換模塊、存儲(chǔ)模塊、計(jì)算模塊,一共差不多十來(lái)種模塊。如果沒有用戶的支持,很難投入那么大。更重要的是,大數(shù)據(jù)、云計(jì)算給高性能計(jì)算機(jī)帶來(lái)了一個(gè)非常廣闊的市場(chǎng)。

當(dāng)然,從另一個(gè)角度看,新的系統(tǒng)設(shè)計(jì)思路也讓高性能計(jì)算向百億億次邁出了非常重要的一步。無(wú)論是從可靠性、管理,還是功耗方面,都能夠得到改善。

除了整機(jī)柜模塊HPC系統(tǒng)之外,曙光還在跟百度聯(lián)合建立高性能計(jì)算聯(lián)合實(shí)驗(yàn)室,共同研究面向互聯(lián)網(wǎng)的計(jì)算的特殊需求,包括游戲、電子商務(wù)等。據(jù)悉,聯(lián)合實(shí)驗(yàn)室占地500平米,兩三個(gè)月后就能夠建起來(lái)了。邵宗有表示,曙光將會(huì)投入大量的人力物力。

超強(qiáng)的定制能力 滿足互聯(lián)網(wǎng)行業(yè)的特殊需求

互聯(lián)網(wǎng)行業(yè)對(duì)于計(jì)算機(jī)的定制化需求非常高,通用計(jì)算機(jī)很難滿足互聯(lián)網(wǎng)巨頭的需求,Google、Amazon、FaceBook等都是自己定制的服務(wù)器,曙光就是依靠自身超強(qiáng)的定制能力在互聯(lián)網(wǎng)行業(yè)占有一席之地,因?yàn)椋瑖?guó)外的企業(yè)不可能到中國(guó)來(lái)給它們定制,而國(guó)內(nèi)技術(shù)實(shí)力不強(qiáng)的企業(yè)也定制不出來(lái)。

“其實(shí)整機(jī)柜交付的計(jì)算系統(tǒng)其實(shí)就是互聯(lián)網(wǎng)企業(yè)的特殊需求,因?yàn)橹挥谢ヂ?lián)網(wǎng)企業(yè)才會(huì)部署到上萬(wàn)個(gè)節(jié)點(diǎn),沒有哪一個(gè)超算中心會(huì)部署一萬(wàn)個(gè)節(jié)點(diǎn)”,邵宗有談道,在機(jī)器設(shè)計(jì)時(shí),就充分考慮到互聯(lián)網(wǎng)企業(yè)的需求,同時(shí)定制計(jì)算模塊、供電方案、交換方案、散熱方案等等。對(duì)于計(jì)算模塊來(lái)說(shuō),傳統(tǒng)的超算領(lǐng)域不需要其他的模塊,互聯(lián)網(wǎng)領(lǐng)域可能用到基于ARM處理器,基于MIC處理器,甚至基于國(guó)產(chǎn)CPU等等。

“過(guò)去我們總是在想上海超算中心是怎么想的,近一兩年來(lái),我們一直在想百度是怎么想的,這也是曙光這兩年來(lái)很關(guān)鍵的一個(gè)變化。”

擔(dān)起民族使命 構(gòu)建HPC生態(tài)系統(tǒng)

“作為HPC領(lǐng)域當(dāng)之無(wú)愧的國(guó)產(chǎn)領(lǐng)導(dǎo)企業(yè),曙光的最終目標(biāo)不是去掠奪市場(chǎng),而是需要去培育市場(chǎng),在國(guó)內(nèi)構(gòu)建一個(gè)良好的高性能計(jì)算生態(tài)系統(tǒng)。”

事實(shí)上,國(guó)內(nèi)市場(chǎng)的培育工作往往都是由國(guó)外企業(yè)來(lái)做,高性能計(jì)算領(lǐng)域之前就是IBM等廠商做的比較多。從曙光自己辦超算大會(huì),到曙光跟大學(xué)合作讓他們?nèi)ラ_設(shè)并行編程、CUDA編程的課,包括把超級(jí)計(jì)算機(jī)推進(jìn)到IDC,推進(jìn)到云計(jì)算,這都是曙光站在行業(yè)領(lǐng)軍者的位置上,去打造的生態(tài)系統(tǒng)。只有這樣,才能支撐未來(lái)高性能計(jì)算機(jī)的高速發(fā)展。邵宗有強(qiáng)調(diào),“為什么參加SC12比賽?一個(gè)隊(duì)去參賽,至少有一百個(gè)隊(duì)來(lái)選拔吧?一個(gè)隊(duì)5個(gè)人,這就500個(gè)人,這就是未來(lái)的500個(gè)潛在用戶啊。”

除此之外,曙光還有一個(gè)任重而道遠(yuǎn)的目標(biāo)——提升高性能計(jì)算機(jī)的國(guó)產(chǎn)化比率。“一個(gè)高性能計(jì)算機(jī)幾十個(gè)億,光是CPU就買了6、7個(gè)億,這相當(dāng)于科技部直接把錢撥給了國(guó)外,我們辛辛苦苦爭(zhēng)取的項(xiàng)目,卻不得不把很大一部分收入直接撥給國(guó)外。作為一個(gè)自主可控的企業(yè),我們會(huì)想盡一切辦法在保證用戶性能、應(yīng)用前提下,提升國(guó)產(chǎn)比率”,邵總的話語(yǔ)簡(jiǎn)潔卻很有力。

據(jù)透露,龍芯3C現(xiàn)在正在調(diào)試,按照曙光的想法,有望今年做出來(lái)。

分享到

tangrong

相關(guān)推薦