隨著全球AI話題持續(xù)升溫,旺盛的市場需求進一步加速算力生態(tài)不斷豐富,構建多元異構算力體系將是必由之路。算力效能的提升除了依靠更強大的處理器來增加單個設備或節(jié)點的計算能力外,更需要進行橫向技術整合,使算力和聯接高效協同,開放的智算網絡將是打通異構算力、拉通生態(tài)的重要介質。智算網絡的建設不僅是硬件設備的堆砌,面對百花齊放的算力生態(tài),如何讓網絡具備開放標準與長期演進的能力,實現網絡與異構算力的協同調度,解決大規(guī)模智算網絡的快速部署、故障定位和精細化運維管理,是產業(yè)界普遍思考的問題。

為了最大化發(fā)揮算力資源潛能,新華三提出“算力×聯接”的理念,倡導通過開放標準的聯接技術與多元算力體系做最佳調配,攜手產業(yè)鏈伙伴共同構建創(chuàng)新、包容的生態(tài)圈,并圍繞全場景組網能力、網絡性能持續(xù)提升、異構算網協同與運維管理三大方向不斷探索。本次獲獎的算力集群核心交換機(H3C S12500 AI)正是新華三在大規(guī)模智算組網架構方面的創(chuàng)新成果。

H3C S12500 AI是一款能夠真正解決網絡零擁塞的分布式架構產品,將傳統(tǒng)框式設備的控制引擎、交換網板、業(yè)務板卡分別獨立為盒式設備,通過高速光模塊互聯。DDC架構設計擁有三大創(chuàng)新優(yōu)勢:

●保留信元交換的底層機制,實現100%無阻塞能力,并且擺脫了框式設備的端口限制,最大可以支持32K GPU集群組網,同時規(guī)避了單框功耗過大的部署風險;

●擁有獨立的高性能控制平面,可以實現網元失效后us級別的收斂,以及網元上線的快速即插即用,可靠性和靈活度領先業(yè)界;

●基于信元交換,任何協議的流量在進入DDC架構時都可被切成等分大小的信元,在內部多條鏈路上負載,完全解決了Hash極化問題,實現100%的負載分擔。在流量發(fā)出時,信元又將會被重組為原始數據。信元交換無視數據協議,不會產生亂序,對GPU和網卡天然解耦。

除了創(chuàng)新的DDC產品外,新華三還擁有200G/400G/800G全系列高性能交換機產品,并在51.2T的交換平臺上充分融合了CPO/LPO技術,以豐富的產業(yè)布局支持用戶靈活組網的需求。同時,新華三還推出了《智算網絡異構連通專項測試》標準,為推動國內智算生態(tài)相互協作提供了強力支撐。

智算網絡性能同樣也是決定算力效能的關鍵。無損以太網(RoCE)在成本、未來演進和生態(tài)豐富度上具備天然優(yōu)勢,當RoCE發(fā)展到智算網絡時代,面對不同智算場景,以網絡調優(yōu)的方式解決Hash極化問題,降低網絡擁堵風險,成為智算網絡構建無損能力的關鍵。新華三針對異構算力場景提供FGLB路徑調優(yōu)算法,能夠基于全局視角決策流量的轉發(fā)路徑,實現全網所有鏈路始終工作在均衡的負載水平之下,根據現網狀態(tài)迅速調整路徑的分配,避免擁塞發(fā)生。

除了設備自身的負載技術,新華三也將關注點放在了網絡與算力間的融合調優(yōu),推出算力路徑導航解決方案?;谝惶譛CCL(統(tǒng)一集合通信庫)與不同的CCL對接,理解算力分配的動作和流量需求,將其轉化成最優(yōu)的網絡配置下發(fā)到設備上,并根據網絡當前的負載狀況調整其算力流量的樣本特征,以更好的使用網絡資源。通過這種雙向協同,幫助用戶使用一套網絡為多元異構算力提供統(tǒng)一的流量調度。

對于智算網絡而言,如何降低網絡故障對業(yè)務訓練的影響、降低部署和運維復雜度是業(yè)界普遍關注的難點。新華三也在不斷優(yōu)化鏈路冗余技術,推出專用于智算網絡的可靠性技術—DPSH數據平面自愈功能,實現us級的鏈路切換,極大減少了故障對業(yè)務的影響。在運維方面,新華三始終堅持標準化路線,采用網絡標準協議,實現基于一套控制器對接上層云平臺與下層納管的網絡設備。同時還為智算網絡研發(fā)了多種自動化運維功能,幫助用戶實現算力快速上線、平滑變更,以及算力流量的精細可視化。

面向未來,在算力爆發(fā)的時代,新華三集團將始終秉承開放共贏的理念,持續(xù)探索智算網絡技術創(chuàng)新和應用,攜手合作伙伴共同推動中國智算生態(tài)的健康發(fā)展。

分享到

xiesc

相關推薦