圖1:專家熱度(ceval數(shù)據(jù)集)

2、資源利用率不足

由于缺乏有效利用專家網(wǎng)絡(luò)之間的親和性部署的策略,在傳統(tǒng)的部署方式下,NPU之間的協(xié)作效率較低,整體資源浪費現(xiàn)象嚴(yán)重。

圖2:專家親和性

昇騰的三大創(chuàng)新策略

針對上述挑戰(zhàn),昇騰通過分層部署、卡間調(diào)整以及層間優(yōu)化等策略,有效解決了“大EP”場景下的負(fù)載不均衡、通信開銷高、資源利用率不足等問題。

1、熱點專家負(fù)載均衡

針對不同專家網(wǎng)絡(luò)的激活次數(shù)存在顯著差異,昇騰通過以下措施,不僅降低了部分NPU的負(fù)擔(dān),還顯著減少了跨卡、跨節(jié)點通信的需求:

采用離線采集數(shù)據(jù)的方式,統(tǒng)計各層專家的激活次數(shù),識別出熱點專家。

對于負(fù)載過重的專家,通過冗余策略進行拆分,降低單點壓力。

使用貪心算法將專家按權(quán)重分配到不同NPU卡上,確保每張卡上的專家負(fù)載均衡。

圖3:計算負(fù)載均衡

2、層內(nèi)專家親和部署

針對同一層內(nèi)的專家網(wǎng)絡(luò)之間具有較高的協(xié)作性,昇騰通過“卡間調(diào)整 + 卡內(nèi)調(diào)整”兩階段優(yōu)化策略,確保高親和性的專家網(wǎng)絡(luò)盡可能部署在同一張卡或同一個節(jié)點上,顯著降低了跨卡、跨節(jié)點通信的開銷,提升了系統(tǒng)的整體性能。

卡間調(diào)整:以整卡為粒度,計算卡與卡之間的親和性,選擇n/2對親和性最差的卡進行節(jié)點分配。

圖4:層內(nèi)專家親和部署:卡間調(diào)整

卡內(nèi)調(diào)整:在卡間調(diào)整的基礎(chǔ)上,進一步優(yōu)化卡內(nèi)專家網(wǎng)絡(luò)的部署策略。通過交換低親和性專家網(wǎng)絡(luò)的方式,提升集群的整體親和性。

圖5:層內(nèi)專家親和部署:卡內(nèi)調(diào)整

3、層間專家親和部署

不同層之間的專家網(wǎng)絡(luò)也存在一定的協(xié)作關(guān)系。昇騰通過基于節(jié)點粒度的優(yōu)化策略,確保具有高親和性的跨層專家網(wǎng)絡(luò)盡可能部署在同一節(jié)點上。這種方式進一步降低了跨節(jié)點通信的需求,并提升了系統(tǒng)的響應(yīng)速度。

圖6:層間專家親和部署:節(jié)點間調(diào)整

顯著收益和效果

提升系統(tǒng)15%吞吐性能:每次前向過程中,各層專家網(wǎng)絡(luò)的token數(shù)分布更加均勻,避免了部分NPU過載,降低了端到端延遲,提升了系統(tǒng)的穩(wěn)定性。

降低30%通信開銷:在大規(guī)模集群中,跨卡、跨節(jié)點通信的時間占比顯著減少。全面提升系統(tǒng)性能,為模型優(yōu)化提供了更大的空間。

資源利用率提升20%:充分利用NPU之間的親和性關(guān)系,資源利用率提升了約20%。(在傳統(tǒng)的部署方式下,資源浪費可能超過40%)。

未來思考與計劃

算法優(yōu)化:針對分布式系統(tǒng)中負(fù)載變化的動態(tài)特性,探索更加靈活的負(fù)載均衡策略,結(jié)合在線監(jiān)測數(shù)據(jù),實時調(diào)整部署方案。

軟硬協(xié)同:充分利用昇騰的硬件特點,進一步優(yōu)化專家并行任務(wù)的資源調(diào)度算法,提升系統(tǒng)的整體性能。

場景適配:針對不同的應(yīng)用場景,定制化的負(fù)載均衡和親和部署策略,使方案更加普適,能滿足不同客戶的實際需求。

昇騰將繼續(xù)以技術(shù)創(chuàng)新為核心驅(qū)動力,探索更加高效的算法優(yōu)化策略,幫助客戶在AI領(lǐng)域?qū)崿F(xiàn)更大的突破。

分享到

zhupb

相關(guān)推薦