阿里云發(fā)布首個(gè)異構(gòu)超算集群

人工智能特別是深度學(xué)習(xí),對(duì)算力的要求永無(wú)止境。但如果只是堆砌芯片,沒(méi)有低延時(shí)網(wǎng)絡(luò)、高速讀寫(xiě)能力,大規(guī)模集群無(wú)法發(fā)揮出最大的計(jì)算性能,性能損耗通常在50%左右。且算力資源并不豐富,有研究顯示,到2030年中國(guó)研究人員每人平均只能擁有1-2個(gè)GPU,大多數(shù)研究將受到計(jì)算能力的嚴(yán)重限制。SCC-GN6是首個(gè)基于X-Dragon架構(gòu)的超算異構(gòu)產(chǎn)品,神龍?jiān)品?wù)器與阿里云ECS、GPU云服務(wù)器等一起,最多可達(dá)512個(gè)節(jié)點(diǎn),計(jì)算性能依舊接近線性增長(zhǎng),提供堪比超算中心的并行計(jì)算資源。

神龍異構(gòu)超算集群性能接近線性增長(zhǎng)

這不僅因?yàn)橹С止?jié)點(diǎn)數(shù)量多,更因?yàn)榧啥囗?xiàng)自研技術(shù):軟硬結(jié)合的X-Dragon架構(gòu)兼具性能和靈活性,50G RDMA超算網(wǎng)絡(luò)降低網(wǎng)絡(luò)延時(shí),百萬(wàn)級(jí)IOPS性能的ESSD塊存儲(chǔ)提供低于百微秒的讀寫(xiě)延時(shí),高性能并行文件系統(tǒng)CPFS讀寫(xiě)吞吐達(dá)1TB/s,分布式加速框架Ali-Perseus對(duì)集群內(nèi)每一顆GPU工作負(fù)載進(jìn)行優(yōu)化和加速。最高可以實(shí)現(xiàn)100%的性能提升,從而最大限度發(fā)揮芯片的計(jì)算性能。

 

以ImageNet競(jìng)賽的128萬(wàn)張圖片的數(shù)據(jù)集為例,用普通計(jì)算資源訓(xùn)練ResNet50模型,如要達(dá)到75%的精度需要數(shù)天甚至一周的時(shí)間,而使用該神龍異構(gòu)超算集群產(chǎn)品,模型訓(xùn)練可以縮短到幾分鐘,大大提升AI算法研發(fā)效率,加速業(yè)務(wù)創(chuàng)新。

 

阿里云智能創(chuàng)新產(chǎn)品線負(fù)責(zé)人張獻(xiàn)濤表示:”人工智能對(duì)算力提出了新挑戰(zhàn),神龍異構(gòu)超算集群提供了堪比超算中心的并行計(jì)算資源,用戶可以隨時(shí)獲取高性能計(jì)算能力,更不用擔(dān)心購(gòu)買(mǎi)、搭建GPU需要耗費(fèi)的時(shí)間成本。”此外,阿里云還發(fā)布了國(guó)內(nèi)首個(gè)公共云上的輕量級(jí)GPU異構(gòu)計(jì)算產(chǎn)品——vGN5i,打破傳統(tǒng)直通模式局限,提供比單顆物理GPU更細(xì)粒度的服務(wù),從而讓用戶以更低成本、更高彈性開(kāi)展業(yè)務(wù)。

 

作為國(guó)內(nèi)第一、全球前三的云服務(wù)商,阿里云于2017年10月發(fā)布了全球首個(gè)新一代”跨界”服務(wù)器彈性裸金屬服務(wù)器神龍X-Dragon,擁有接近物理機(jī)的性能以及虛擬機(jī)的靈活性,提供了新的計(jì)算資源獲取方式,已經(jīng)大規(guī)模服務(wù)于智能客服助手、智能翻譯、無(wú)人駕駛、智能推薦等場(chǎng)景。

 

在2019阿里云峰會(huì)·北京上,阿里云還提出未來(lái)將圍繞IT基礎(chǔ)設(shè)施的云化、核心技術(shù)的互聯(lián)網(wǎng)化和應(yīng)用的數(shù)據(jù)化、智能化,持續(xù)推出符合用戶需求的產(chǎn)品,同時(shí)致力于被生態(tài)伙伴集成,不做SaaS并幫助企業(yè)做更好的SaaS。除了神龍異構(gòu)超算集群外,阿里云還發(fā)布了新版本POLARDB可兼容Oracle、SaaS加速器和小程序云。

分享到

xiesc

相關(guān)推薦