英偉達(dá)宣稱,新的Blackwell芯片采用了最大的芯片物理尺寸,是接近光罩極限的大尺寸芯片(reticle limited die),所謂reticle limited die指的是尺寸達(dá)到或接近曝光極限的單個(gè)小芯片,這是光刻機(jī)單次曝光能夠覆蓋的晶圓面積的最大值。

它采用的是臺(tái)積電的4nm工藝技術(shù),單個(gè)die的晶體管數(shù)量達(dá)到了1040億。然而,這只是一張顯卡核心的一半。事實(shí)上,它由NV-HBI 10 TB/s的高速帶寬接口連接了兩個(gè)die,一塊G200的整體晶體管數(shù)量為2080億。

這塊B200芯片的面積肉眼可見地大,Blackwell顯卡核心的尺寸相較于上一代的H100芯片有大幅提升。畢竟兩個(gè)大的die堆在一起,其晶體管數(shù)量加起來比Hopper多了1280億。

這次B200采用了192GB的HBM3e顯存,擁有8TB的內(nèi)存帶寬,提供20 PetaFlops的AI性能(FP4),10 PetaFlops的FP8性能。相較于上一代的H100,其訓(xùn)練性能提升4倍,推理性能提升30倍,能效更是提升了驚人的25倍。

與此同時(shí),將兩塊B200顯卡芯片與一塊Arm Neoverse V2處理器放在一起,B200和Grace Arm核心通過900GB的NVLink-C2C連接,就構(gòu)成了新一代的超級(jí)芯片GB200。這樣一來,這塊超級(jí)芯片的顯存容量達(dá)到了384GB。

于是乎,這塊GB200超級(jí)芯片,對(duì)外提供40 PetaFlops的AI性能,加上Arm CPU自帶的內(nèi)存,總體內(nèi)存容量就達(dá)到了864GB。另外,它還有16TB/s的HBM內(nèi)存帶寬,以及總體3.6TB/s的NVLink帶寬。

把2個(gè)GB200超級(jí)芯片組成一個(gè)Blackwell計(jì)算節(jié)點(diǎn),算力達(dá)到80PetaFlops。肉眼看著應(yīng)該是1U的空間,整體計(jì)算密度還是很高的,再加上這樣一套平臺(tái)的功耗想必也是驚人的,于是,英偉達(dá)打造的這套節(jié)點(diǎn)直接選擇了水冷散熱的方式。

這臺(tái)Blackwell計(jì)算節(jié)點(diǎn)采用了新發(fā)布的專為AI場景優(yōu)化的Connectx-800G Infiniband SuperNIC網(wǎng)卡,服務(wù)器的另一端還帶有NVLink 交換機(jī)芯片。同時(shí),節(jié)點(diǎn)中還使用了Bluefield-3 DPU,幫助服務(wù)器處理網(wǎng)絡(luò)、存儲(chǔ)、網(wǎng)絡(luò)安全方面的需求。

將18臺(tái)這樣的Blackwell計(jì)算節(jié)點(diǎn)放到一個(gè)機(jī)架中,一個(gè)機(jī)架中就有了36塊GB200超級(jí)芯片,顯卡之間通過NVLink交換機(jī)連接,最終在DGX GB200 NVL72機(jī)架中就有了72塊共享顯存的B200顯卡芯片。

機(jī)架的頂部還有一臺(tái)Quantum Infiniband-800交換機(jī),配合第五代NVLink技術(shù),用8個(gè)這樣的機(jī)架就組成了包含576塊B200顯卡芯片的SuperPOD AI算力集群。這樣一個(gè)SuperPOD就可提供 11.5 Exaflops (576 x 20 PetaFlops)的 AI 計(jì)算性能。

在此之上,SuperPOD系統(tǒng)通過 NVIDIA Quantum InfiniBand 或者Spectrum以太網(wǎng)連接,最終可以在AI數(shù)據(jù)中心里擴(kuò)展到32000個(gè)B200顯卡,整個(gè)數(shù)據(jù)中心圖提供645ExaFlops的AI算力,13PB的高速內(nèi)存。

硬件配置提升巨大,參數(shù)規(guī)格帶來逆天性能,這一代顯卡的性能提升體現(xiàn)在哪里呢?

在推理方面,得益于第二代Transfomer技術(shù)。與相同數(shù)量的NVIDIA H100 GPU相比,GB200 NVL72可以為如GPT-MoE-1.8T這樣的大型語言模型提供4倍的訓(xùn)練性能提升。

AI推理方面,GB200與上一代H100相比,對(duì)于資源密集型應(yīng)用如1.8T參數(shù)的GPT-MoE,GB200可以提供30倍的速度提升。這一進(jìn)步得益于新一代的張量核心。

企業(yè)會(huì)持續(xù)生成大規(guī)模數(shù)據(jù),并依賴各種壓縮技術(shù)來減輕瓶頸問題并節(jié)省存儲(chǔ)成本。為了在GPU上高效處理這些數(shù)據(jù)集,Blackwell架構(gòu)引入了一個(gè)硬件解壓縮引擎,它能夠在大規(guī)模上原生解壓縮經(jīng)過LZ4、Deflate和Snappy格式壓縮的數(shù)據(jù),從而加速整個(gè)分析流程。

該解壓縮引擎加快了受內(nèi)存限制的內(nèi)核操作,提供高達(dá)800 GB/s的性能,并使得Grace Blackwell的查詢基準(zhǔn)測試比英特爾第四代至強(qiáng)快18倍,比NVIDIA H100 Tensor Core GPU快6倍。

有了高達(dá)8 TB/s的高內(nèi)存帶寬和Grace CPU高速NVlink-Chip-to-Chip(C2C)連接,這個(gè)引擎加快了數(shù)據(jù)庫查詢的整個(gè)過程。這導(dǎo)致在數(shù)據(jù)分析和數(shù)據(jù)科學(xué)的使用案例中都表現(xiàn)出頂尖的性能。這樣一來,企業(yè)可以快速獲得洞見的同時(shí)減少成本。

物理基礎(chǔ)模擬在產(chǎn)品設(shè)計(jì)和開發(fā)中非常重要。物理模擬用于各種產(chǎn)品,如飛機(jī)、火車、橋梁、硅芯片甚至藥物的測試和改進(jìn),通過模擬可以節(jié)省數(shù)十億美元的成本。

ASIC的設(shè)計(jì)原本幾乎完全依賴于CPU,在一個(gè)漫長且復(fù)雜的工作流程中完成,包括模擬分析以識(shí)別電壓和電流。Cadence SpectreX模擬器就是其中一個(gè)例子。提供的圖表顯示,SpectreX在GB200上的運(yùn)行速度比在x86 CPU上快13倍。

隨著行業(yè)在過去兩年越來越多地轉(zhuǎn)向GPU加速的計(jì)算流體動(dòng)力學(xué)(CFD)作為關(guān)鍵工具,工程師和設(shè)備設(shè)計(jì)者用它來研究和預(yù)測他們?cè)O(shè)計(jì)的行為。Cadence Fidelity,一個(gè)大渦流模擬器(LES),在GB200上進(jìn)行的模擬比x86 CPU快達(dá)22倍。

一年一度的GTC大會(huì)備受矚目,全球范圍內(nèi)關(guān)注AI技術(shù)的業(yè)內(nèi)人士和技術(shù)愛好者都為之矚目,來自中國的服務(wù)器廠商寧暢以贊助商身份來到了GTC舞臺(tái),展示了寧暢支柱型、全能型、旗艦型系列AI服務(wù)器及解決方案,支撐圖形渲染、機(jī)器學(xué)習(xí)、AI推理、云計(jì)算等多元化應(yīng)用場景需求。

對(duì)于國內(nèi)的企業(yè)來說,既要關(guān)注英偉達(dá)推出的芯片和系統(tǒng)方案,也應(yīng)該關(guān)注服務(wù)器廠商在人工智能產(chǎn)業(yè)中的價(jià)值。服務(wù)器廠商面向行業(yè)做的很多優(yōu)化對(duì)于AI在行業(yè)的落地也至關(guān)重要,能盡可能幫助企業(yè)在生成式AI的創(chuàng)新競賽中取得成功。

分享到

zhupb

相關(guān)推薦