以Israel-1生成式 AI超級(jí)計(jì)算機(jī)為例,這是NVIDA在以色列投建的項(xiàng)目,它使用了256 臺(tái)配有NVIDIA HGX 平臺(tái)Dell 服務(wù)器,GPU規(guī)模為2048個(gè)。
對(duì)于這樣一個(gè)方案設(shè)計(jì),如何才能夠充分發(fā)揮GPU等計(jì)算資源的效率呢?
如果你了解HGX 平臺(tái),了解Grace Hopper超級(jí)芯片,就是會(huì)知道:生成式AI場(chǎng)景中,NVLlink最多連接256個(gè)節(jié)點(diǎn)的GPU,更多的節(jié)點(diǎn)還是需要借助Spectrum-X,或者InfiniBand交換機(jī)進(jìn)行互連,借助BlueField-3 DPU的RDMA技術(shù)提高效率。
這里的NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)集 NVIDIA Spectrum-4、BlueField-3 DPU、LinkX線纜和加速軟件于一身。無(wú)論GPU之間、CPU之間,還是CPU-GPU之間,設(shè)計(jì)重點(diǎn)是盡可能消除數(shù)據(jù)交換中的瓶頸,也就是說(shuō),數(shù)據(jù)交換的帶寬、效率才是解決問(wèn)題的關(guān)鍵。
在注重算力的同時(shí),注意發(fā)揮Spectrum-X網(wǎng)絡(luò)平臺(tái)的效率。它將?NVIDIA Spectrum-4 以太網(wǎng)交換機(jī)與?NVIDIA BlueField-3 DPU?緊密結(jié)合,取得了 1.7 倍的整體 AI 性能和能效提升,可在多租戶環(huán)境中提供一致、可預(yù)測(cè)的性能,Spectrum-X 還提供 NVIDIA 加速軟件和軟件開(kāi)發(fā)套件(SDK)。
利用Spectrum-4交換機(jī)的實(shí)現(xiàn)數(shù)據(jù)逐包動(dòng)態(tài)路由、可編程擁塞控制,以及BlueField-3 DPU數(shù)據(jù)亂序重組的能力,Spectrum-X平臺(tái)幫助用戶實(shí)現(xiàn)了端到端的無(wú)損高性能RoCE,以及多租戶運(yùn)行不同工作負(fù)載時(shí)的性能隔離。
Israel-1生成式 AI超級(jí)計(jì)算機(jī)方案共使用了2560 個(gè) BlueField-3 DPU、80 多臺(tái) Spectrum-4 以太網(wǎng)交換機(jī) , 是全球性能排名靠前的 AI 超級(jí)計(jì)算機(jī)之一,其AI 訓(xùn)練性能達(dá)到了8 EFlop/s (8000PFlop/s)峰值。
驅(qū)動(dòng) Spectrum-X 的加速軟件包括 Cumulus Linux、SONiC 、NetQ 等,共同助力該網(wǎng)絡(luò)平臺(tái)實(shí)現(xiàn)極致性能。另外,Spectrum-X 還包括 BlueField DPU 的核心軟件—— NVIDIA DOCA 軟件框架。對(duì)于這些SDK的功能,在此不做更加詳細(xì)介紹。
這就是NVIDIA提交的作業(yè)和答案。
對(duì)于生成式AI場(chǎng)景,你可以直接抄NVIDIA的作業(yè),NVIDIA對(duì)此也抱有積極的態(tài)度,歡迎來(lái)抄;如果羞于抄作業(yè),NVIDIA的作業(yè)也是極具參考價(jià)值,希望你能夠領(lǐng)悟其中的精華。