兩者的主要區(qū)別在于縱向擴(kuò)展互聯(lián)接口數(shù),中國(guó)定制版的H-225B少了三個(gè),只有21個(gè)100Gbps網(wǎng)絡(luò)接口。

砍掉三個(gè)網(wǎng)口會(huì)影響降低集群的通信效率,系統(tǒng)的擴(kuò)展性,降低整體的并行計(jì)算能力。除此之外,國(guó)內(nèi)定制版Gaudi2的算力規(guī)格沒(méi)有任何閹割。

Gaudi2擁有 24 個(gè)完全可編程的第四代張量處理器核心(TPC),它還集成了 96 GB HBM2e內(nèi)存和 48 MB SRAM,支持 600 瓦夾層卡級(jí)熱設(shè)計(jì)功耗(TDP)。

算力類(lèi)型方面,它支持FP8、BF16、FP16、TF32 和 FP32,比上一代支持的類(lèi)型更多。

Gaudi2最早是去年五月份正式發(fā)布的,但一直沒(méi)有在中國(guó)市場(chǎng)上市。從一些規(guī)格來(lái)看,它與英偉達(dá)的A100更像,比如,兩者都是7nm制程工藝的。

眾所周知,RESNET-50和BERT PHASE-2訓(xùn)練的Benchmark都很考驗(yàn)加速器的性能表現(xiàn)。在此前公布的結(jié)果中可見(jiàn),96GB的Gaudi2在多項(xiàng)訓(xùn)練測(cè)試中都大幅領(lǐng)先于英偉達(dá)的A100,包括80GB版本和40GB版本兩個(gè)型號(hào)的。

然而,最近,英特爾介紹了Gaudi2與英偉達(dá)H100的在MLPerf中的對(duì)比結(jié)果。在訓(xùn)練擁有1750億參數(shù)的GPT-3時(shí),Gaudi2性能以及高效的可擴(kuò)展性令人印象深刻。

384個(gè)Gaudi2加速上訓(xùn)練GPT-3耗時(shí)311分鐘,而且,在訓(xùn)練時(shí),將加速器從256個(gè)擴(kuò)展到384個(gè)時(shí),性能實(shí)現(xiàn)了近線性95%的擴(kuò)展效果。

在計(jì)算機(jī)視覺(jué)模型ResNet-50(8個(gè)加速器)和Unet3D(8個(gè)加速器)以及自然語(yǔ)言處理模型BERT(8個(gè)和64個(gè)加速器)上,也取得了優(yōu)異的訓(xùn)練結(jié)果。

與去年11月提交的數(shù)據(jù)相比,BERT和ResNet模型的性能分別提高了10%和4%,證明Gaudi2軟件成熟度的提升。

值得一提的是,Gaudi2支持“開(kāi)箱即用”,也就是說(shuō),這些測(cè)試沒(méi)有經(jīng)過(guò)任何的定制化優(yōu)化,用戶(hù)在用Gaudi2時(shí),可以獲得與本次測(cè)試相當(dāng)?shù)慕Y(jié)果。

在發(fā)布會(huì)會(huì)上,英特爾宣稱(chēng),采用BF16計(jì)算精度的Gaudi2性能要優(yōu)A100,采用FP8軟件的Gaudi2,比H100更有性?xún)r(jià)比。

從基于MLPerf Training3.0基準(zhǔn)測(cè)試結(jié)果來(lái)看,Gaudi2為數(shù)不多的能替代 NvidiaH100進(jìn)行LLM訓(xùn)練的可靠方案。

分享到

zhupb

相關(guān)推薦