AI超級計算機NF5288M5

AI訓練的“三座大山”–效率、彈性和密度

人工智能發(fā)端于上世紀五十年代,經(jīng)歷了幾次繁榮與低谷,直到AlphaGo贏得世界圍棋比賽,“人工智能”寫進今年的政府工作報告中,人工智能熱潮徹底爆發(fā)。就在昨天,國務(wù)院首次印發(fā)《新一代人工智能發(fā)展規(guī)劃》,將人工智能提到了國家戰(zhàn)略高度。AI訓練的快速發(fā)展對計算力的需求呈井噴式發(fā)展,然而當前市場上的AI計算平臺普遍面臨著通訊效率低下、平臺架構(gòu)僵化、計算密度低等問題。

異構(gòu)通訊開銷嚴重影響計算效率:在AI訓練中,采用CPU+GPU異構(gòu)計算架構(gòu),通常需要以CPU為訓練模型下發(fā)指令,給GPU“喂”數(shù)據(jù),控制計算過程,提供邏輯判斷,控制外部設(shè)備等。而GPU則需要接收來自CPU的數(shù)據(jù),提供高性能的并行計算,將結(jié)果返回給CPU。這一來一回看似合理,但是實際上CPU和GPU分擔著整個計算任務(wù)中不同的部分,他們之間需要頻繁的通訊,而一旦通訊頻次過高,CPU和GPU就需要花費大量的時間進行相互通訊,嚴重影響整個計算架構(gòu)的效率。

多樣化AI場景亟需彈性異構(gòu)平臺:目前市面上成熟的AI框架有十多種,像標準的圖像、語音、語意理解等神經(jīng)模型的數(shù)量則更為龐大。不同的AI框架包含了不同的模型和算法,比如SoftMax回歸、聚類、決策樹或梯度策略等,產(chǎn)生不同規(guī)模的訓練數(shù)據(jù)。如針對大規(guī)模被標記的圖片、語音信息,有文字信息的圖片等,訓練場景會變得十分多樣化。多樣化的AI訓練場景對異構(gòu)計算的服務(wù)器要求必然也各不相同,有的需要更多的GPU介入進行加速,有的則更依賴CPU和GPU進行相互迭代,有的需要大量的數(shù)據(jù)并行,有的需要進行模型并行,由此產(chǎn)生了對CPU和GPU計算架構(gòu)的多樣化需求。

計算密度沒有最高只有更高:普通的AI圖片聚類訓練通常需要幾十萬個樣本進行十幾萬次訓練迭代,而面向自動駕駛或人員行為分析識別等應(yīng)用時,訓練量會呈幾何數(shù)增加。為了保證模型能在有限的時間內(nèi)做到足夠收斂,某些模型甚至需要超過200片GPU卡以AI服務(wù)器集群的方式并行。為節(jié)省寶貴的數(shù)據(jù)中心空間,提高服務(wù)器的密度成為不二手段,更高密度的AI服務(wù)器不但節(jié)約了數(shù)據(jù)中心的基礎(chǔ)設(shè)施,更大規(guī)模的機內(nèi)互連也對網(wǎng)絡(luò)等設(shè)備的依賴大大降低。

浪潮NF5288M5–AI計算加速器

為了提升計算效率、滿足多樣化AI場景需求,浪潮NF5288M5另辟蹊徑,變異構(gòu)為同構(gòu),消除了異構(gòu)通信帶來降低計算效率的煩惱。此外,為了更大幅度地提升服務(wù)器計算效率,滿足AI應(yīng)用對計算力的需求,NF5288M5在架構(gòu)設(shè)計中將計算密度做到了極致。而為了滿足客戶對彈性架構(gòu)平臺的需求,NF5288M5創(chuàng)新地采用PCIe連接資源,實現(xiàn)更加靈活的拓撲。

浪潮NF5288M5

極致效率、異構(gòu)變同構(gòu):NF5288M5拋棄傳統(tǒng)異構(gòu)計算架構(gòu)模式,在2U空間內(nèi)支持部署8塊NVLink或PCI-E 接口的NVIDIA? Tesla? P100 GPU,可以在不依賴CPU的前提下,實現(xiàn)機內(nèi)點到點通訊,減少了異構(gòu)通訊的次數(shù);并在業(yè)界率先支持NVLink 2.0和最新發(fā)布的NVIDIA? Tesla?系列GPU,可以實現(xiàn)GPU間高達300GB/s的互連帶寬,并提供極低的延遲,讓多塊GPU并行的效率大幅提升超過60%。將GPU同構(gòu),把NF5288M5的并行計算效率盡可能推到極限。

NF5288M5性能對比

極致密度、更高計算力:與浪潮支持2U4卡的NF5288M4對比測試,NF5288M5采用P100的Linpack浮點運算性能達29.33TFLOPS,是同樣采用P100 NF5288M4的2.47倍;在AI深度學習模型訓練上,當采用TensorFlow框架和GoogLeNet模型,NF5288M5處理速度為每秒1165幅圖片,是搭配4片Tesla? M40的NF5288M4性能的2.49倍。在實現(xiàn)了性能和效率雙提升的同時,機箱仍然保持了和上一代一樣的2U高度,實現(xiàn)了最高的GPU卡部署密度。在超大規(guī)模AI訓練集群或HPC集群引用時,可以幫助客戶節(jié)省數(shù)據(jù)中心的基礎(chǔ)設(shè)施資源,更有利于數(shù)據(jù)中心的空間分配。

極致靈活、彈性計算拓撲:NF5288M5采用PCIe線纜的方式連接CPU和GPU資源,可以靈活調(diào)整CPU的連接帶寬和連接數(shù)量,在應(yīng)對不同的AI應(yīng)用時,更好的做到PCIe資源按需分配。靈活的計算架構(gòu)可以讓一顆或兩顆CPU管理8顆GPU,也可以通過GPU擴展box的方式,實現(xiàn)最大16GPU的縱向擴展。而服務(wù)器提供的PCIe I/O,8個U.2插槽, 或多達4塊100Gbps InfiniBand網(wǎng)卡,都可以根據(jù)計算靈活調(diào)整拓撲。NF5288M5彈性的異構(gòu)平臺,足以支撐多樣化的AI場景。

極致設(shè)計背后帶來的極限挑戰(zhàn)

NF5288M5通過優(yōu)秀的設(shè)計,實現(xiàn)了性能、靈活性和密度的多維度增強,然而這背后帶來的卻是對互連、供電和散熱設(shè)計的三大極限挑戰(zhàn)。如何在一個系統(tǒng)中實現(xiàn)GPU卡的靈活配置,滿足高達3000W的供電需求,并在有限的空間內(nèi)解決散熱,成為了開發(fā)這款產(chǎn)品的三大難題 。在此就給大家一一揭秘NF5288M5是如何做到的。

300GB/s聚合帶寬的Cube Mesh拓撲

互連挑戰(zhàn):有別于業(yè)界異構(gòu)服務(wù)器CPU和GPU緊耦合的互連方式,NF5288M5采用解耦式設(shè)計,不但提供靈活性,同時還支持高達300GB/s的NVIDIA? NVLink?GPU互連帶寬。浪潮結(jié)合刀片服務(wù)器的設(shè)計思路,把這些組件緊湊的布局到2U空間中,并基于8路服務(wù)器的設(shè)計經(jīng)驗,確保NVLink?的走線長度、信號都處在最佳狀態(tài),以保證GPU的性能發(fā)揮。

供電挑戰(zhàn):8塊功耗高達300W的GPU,以及服務(wù)器內(nèi)其他的計算、存儲和I/O資源,整機的功耗需求達到3000W,供電如何走線成為最大的挑戰(zhàn)。NF5288M5借鑒了浪潮在整機柜服務(wù)器的供電設(shè)計方式,對單服務(wù)器內(nèi)部采用無線纜供電設(shè)計,減少了供電線纜對空間的占用以及對散熱氣流的影響。在保證供電能力的同時,對空間、散熱的影響降到最低。

NF5288M5散熱風道設(shè)計

散熱挑戰(zhàn):3000W的供電,意味著3000W的峰值發(fā)熱量,6倍于傳統(tǒng)的2U服務(wù)器,散熱成為一個繞不過的難題。NF5288M5在設(shè)計之初,從布局、風道和氣流多個方面統(tǒng)籌進行考慮。低發(fā)熱量組件前置,高發(fā)熱量組件后置,避免局部熱點,讓空氣在服務(wù)器的內(nèi)部均衡的升溫,再通過高速風扇將熱量快速帶出服務(wù)器,最終NF5288M5可以和傳統(tǒng)服務(wù)器一樣工作在35℃的環(huán)溫下。并且為了支持低PUE數(shù)據(jù)中心,還可以配置氣液混合散熱,甚至可以支持45℃的高環(huán)溫運行。

100%的計算密度提升、960TFlops的計算力、200倍的單機AI訓練性能,NF5288M5無愧是一款最高密度、最高性能的AI服務(wù)器,無論是在面向人工智能訓練還是HPC應(yīng)用時,都將為用戶提供極致性能體驗。和傳統(tǒng)概念的高性能集群相比,GPU同構(gòu)、靈活拓撲和超高密度的整體架構(gòu),讓應(yīng)用和硬件的結(jié)合,變得更為高效和緊密。

分享到

songjy

相關(guān)推薦