欧美zoozzooz性欧美,亚洲人成电影网站色mp4

AI計(jì)算集群規(guī)模的不斷擴(kuò)大，如何保持算力的線性擴(kuò)展，這是一個(gè)世界性的難題。以并行計(jì)算的方式，將模型參數(shù)與數(shù)據(jù)拆分到多個(gè)GPU上協(xié)同處理。這樣雖然可充分利用多GPU算力，但是同時(shí)也帶來(lái)了密集而頻繁的數(shù)據(jù)交換需求。相比傳統(tǒng)通用計(jì)算，這類任務(wù)對(duì)網(wǎng)絡(luò)帶寬的要求通常要高出兩個(gè)數(shù)量級(jí)。

除此之外，大模型訓(xùn)練中的數(shù)據(jù)同步具有明顯的周期性，這意味著任何一個(gè)環(huán)節(jié)的性能短板——無(wú)論是鏈路擁塞還是設(shè)備故障——都可能成為集群的瓶頸，從而影響整個(gè)任務(wù)的進(jìn)度與穩(wěn)定性。

要確保集群算力能夠隨規(guī)模擴(kuò)展而近似線性增長(zhǎng)，就必須最大限度地消除這些網(wǎng)絡(luò)短板，構(gòu)建能夠長(zhǎng)期維持高帶寬、低延遲和穩(wěn)定性能的互聯(lián)體系。顯然，傳統(tǒng)網(wǎng)絡(luò)在設(shè)計(jì)之初并未針對(duì)如此密集的GPU間通信場(chǎng)景進(jìn)行優(yōu)化，難以在此類高強(qiáng)度AI負(fù)載下保持高效。

因此，需要引入一種以GPU為核心的全新網(wǎng)絡(luò)架構(gòu)。這種架構(gòu)以滿足GPU間高速通信為首要目標(biāo)，從拓?fù)湓O(shè)計(jì)、協(xié)議選擇、鏈路管理到擁塞控制，均針對(duì)AI的特點(diǎn)進(jìn)行專門(mén)優(yōu)化。

全球范圍內(nèi)的工程難題無(wú)法單靠硬件堆疊解決，必須依賴一系列體系化的技術(shù)架構(gòu)創(chuàng)新，包括拓?fù)鋬?yōu)化、協(xié)議演進(jìn)、鏈路管理與智能調(diào)度等方面的突破。

在這場(chǎng)AI變革中，在大規(guī)模GPU相互連接，計(jì)算與網(wǎng)絡(luò)緊密交織，性能不再是一個(gè)單一的概念。誰(shuí)能率先構(gòu)建出具備長(zhǎng)期演進(jìn)能力的高性能網(wǎng)絡(luò)互聯(lián)方案，誰(shuí)就有可能在未來(lái)的算力競(jìng)爭(zhēng)中占據(jù)決定性優(yōu)勢(shì)。

面對(duì)挑戰(zhàn)，在孫凝暉院士提出的C體系技術(shù)路線指引下，早在2022年7月，阿里云和中國(guó)科學(xué)院計(jì)算技術(shù)研究所聯(lián)合開(kāi)啟高通量以太網(wǎng)（ETH+）協(xié)議的制定。此后一年，2023年7月，由阿里云和計(jì)算所發(fā)起的『高通量以太網(wǎng)聯(lián)盟』應(yīng)運(yùn)而生。目前，『高通量以太網(wǎng)聯(lián)盟』會(huì)員單位已經(jīng)超過(guò)50家，涵蓋云廠商、芯片廠商、系統(tǒng)集成商、科研院所等相關(guān)單位。

AI網(wǎng)絡(luò)進(jìn)入大爭(zhēng)之世，各自為戰(zhàn)，還是聯(lián)盟合作？『高通量以太網(wǎng)聯(lián)盟』致力于制定面向AI智算場(chǎng)景的高通量以太網(wǎng)協(xié)議，推動(dòng)國(guó)內(nèi)智算網(wǎng)絡(luò)標(biāo)準(zhǔn)化，并積極融入國(guó)際智算網(wǎng)絡(luò)組織，打造開(kāi)源開(kāi)放融合共贏的產(chǎn)業(yè)生態(tài)。

在Scale out階段，『高通量以太網(wǎng)聯(lián)盟』最先提出構(gòu)建面向AI智算領(lǐng)域的以太網(wǎng)生態(tài)，最先實(shí)現(xiàn)Scale-Out網(wǎng)絡(luò)協(xié)議的收斂、協(xié)議標(biāo)準(zhǔn)發(fā)布、及芯片化落地。比如，網(wǎng)卡芯片（2*200G 自研網(wǎng)卡芯片）、交換芯片（25.6T 自研交換芯片）、硅光芯片（1*400G 硅光芯片）等成果；同時(shí)，基于阿里云HPN（High-Performance Networking）架構(gòu)體系，實(shí)現(xiàn)全國(guó)產(chǎn)的落地方案。

2025年，『高通量以太網(wǎng)聯(lián)盟』伴隨著全國(guó)高性能計(jì)算學(xué)術(shù)大會(huì)邁上新臺(tái)階，努力促進(jìn)全國(guó)產(chǎn)化完整產(chǎn)業(yè)鏈的形成。Scale-Out場(chǎng)景的芯片化落地及國(guó)產(chǎn)解決方案已經(jīng)完成關(guān)鍵性突破。

隨著戰(zhàn)局的推進(jìn)，超節(jié)點(diǎn)走進(jìn)數(shù)據(jù)中心組網(wǎng)，Scale up場(chǎng)景成為舞臺(tái)C位。在Scale-Up場(chǎng)景，『高通量以太網(wǎng)聯(lián)盟』促進(jìn)產(chǎn)業(yè)共識(shí)，推動(dòng)協(xié)議制定和原型驗(yàn)證，首先提出并始終堅(jiān)持Scale-Out和Scale-Up網(wǎng)絡(luò)融合發(fā)展的理念，并基于以太網(wǎng)大芯片容量和光互連構(gòu)建全解耦的UPN（超性能網(wǎng)絡(luò)）架構(gòu)解決方案。

2025年8月14日，暖城鄂爾多斯，高通量以太網(wǎng)（ETH +）聯(lián)盟年度發(fā)布會(huì)同期舉辦。

本次發(fā)布會(huì)涵蓋Scale-Up和Scale-Out網(wǎng)絡(luò)場(chǎng)景，分別發(fā)布了：

（1）白皮書(shū)：高通量以太網(wǎng)（ETH+）協(xié)議（1.1）聯(lián)盟標(biāo)準(zhǔn)重磅發(fā)布；

（2）網(wǎng)卡芯片：全量支持高通量以太網(wǎng)（ETH+）特性的首款國(guó)產(chǎn)400G智能網(wǎng)卡芯片；

（3）交換芯片：支持高通量以太網(wǎng)（ETH+）關(guān)鍵特性的首款國(guó)產(chǎn)25.6T交換芯片；

（4）硅光芯片：支持高通量以太網(wǎng)（ETH+）ERack+、ORack+的國(guó)產(chǎn)硅光芯片；

（5）高超柜（ERack+）: 首款高通量以太網(wǎng)（ETH+）64 超節(jié)點(diǎn)；

（6）UPN 512: 基于高通量以太網(wǎng)（ETH+）光互聯(lián)的超節(jié)點(diǎn)解決方案。

其中，高超柜在整體架構(gòu)設(shè)計(jì)上有如下的核心考量和特點(diǎn)：

1、高超柜在設(shè)計(jì)之初就定位了高密高帶寬高速率，相比其他Scale up技術(shù)方案，如NVlink、UAlink等，以太網(wǎng)交換芯片具有大帶寬，大Radix，高速率的優(yōu)勢(shì)。

2、超節(jié)點(diǎn)內(nèi)部GPU和CPU的配比由于芯片的性能差異以及不同業(yè)務(wù)需求會(huì)存在不同，高超柜支持CPU和GPU解耦和配比靈活調(diào)配，CPU 與GPU解耦。而在非解耦方案下，CPU和GPU共同位于Compute Tray內(nèi)。

3、高超柜的重要目標(biāo)之一就是要成為一個(gè)開(kāi)放的系統(tǒng)，以開(kāi)放架構(gòu)支持高通量以太網(wǎng)生態(tài)的芯片和系統(tǒng)快速落地；從機(jī)柜到Switch tray、Compute tray，均為開(kāi)放解耦思想。不同的芯片只要根據(jù)規(guī)范來(lái)提供或設(shè)計(jì)模組，可快速在高超柜上適配和集成，快速獲取性能數(shù)據(jù)，快速產(chǎn)品化。

4、高通量以太網(wǎng)聯(lián)盟扎根國(guó)內(nèi)生態(tài)，支持國(guó)產(chǎn)化是高超柜的重要考量之一，關(guān)鍵部件選擇上均考慮了國(guó)產(chǎn)化，為國(guó)產(chǎn)化出一份力。

以機(jī)柜為單位可整體交付和部署，是當(dāng)今主流的超節(jié)點(diǎn)系統(tǒng)方案。高超柜是高通量以太網(wǎng)聯(lián)盟針對(duì)百卡規(guī)模超節(jié)點(diǎn)的超高密度開(kāi)放超節(jié)點(diǎn)系統(tǒng)方案。

聯(lián)盟認(rèn)為，Scale-Up場(chǎng)景需階段性推進(jìn)的策略。

第一階段，2025年8月發(fā)布高通量以太網(wǎng)協(xié)議1.1，以及ERACK+，并已經(jīng)完成ERack+ 64原型系統(tǒng)的驗(yàn)證；

第二階段，推動(dòng)UPN新型系統(tǒng)架構(gòu)完成設(shè)計(jì)和標(biāo)準(zhǔn)制定，構(gòu)建基于以太網(wǎng)光互聯(lián)技術(shù)的分布式可擴(kuò)展系統(tǒng)。

AI格局正在快速重塑，不同企業(yè)的私有協(xié)議與聯(lián)盟此起彼伏，生態(tài)分化明顯。在這種背景下，以太網(wǎng)憑借長(zhǎng)期積累的生態(tài)與廣泛的兼容性，依然展現(xiàn)出獨(dú)特的規(guī)模優(yōu)勢(shì)。為了將以太網(wǎng)的規(guī)模優(yōu)勢(shì)進(jìn)一步轉(zhuǎn)化為產(chǎn)業(yè)競(jìng)爭(zhēng)力，高通量以太網(wǎng)聯(lián)盟開(kāi)始承擔(dān)起推動(dòng)國(guó)產(chǎn)化與體系化落地的使命。高通量以太網(wǎng)聯(lián)盟將不忘初心，通過(guò)打造具備國(guó)際競(jìng)爭(zhēng)力的智算網(wǎng)絡(luò)，實(shí)現(xiàn)AI智算大集群到AI智算大算力的質(zhì)變。

分享到

崔歡歡

相關(guān)推薦

近期文章

熱門(mén)標(biāo)簽