圖1 Prefill micro-batch雙流并行

02

Weight預(yù)取雙流并行:

訪存、通信并行,性能提升10%+

在推理的Decode階段,權(quán)重(Weight)加載耗時較長,主要原因是Weight需要頻繁訪問高帶寬內(nèi)存(HBM),導(dǎo)致緩存帶寬開銷較大。 

針對該問題,利用昇騰910系列硬件L2 Cache層的大容量、高帶寬特性,預(yù)取Weight并存儲到L2 Cache中,可以實現(xiàn)通信與Weight加載并行,從而加速后續(xù)的Cube運算,顯著降低Weight加載時間,同時提升Matmul算子的性能,整網(wǎng)性能提升10%+。

2.png

圖2 Weight預(yù)取雙流并行

【使用方法】

以上優(yōu)化特性已在昇騰CANN最新版本中實現(xiàn),歡迎大家配套MindIE使用、體驗。CANN包安裝過程可參考社區(qū)文檔:https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/81RC1alpha001/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit 

【昇騰未來演進思考】

昇騰將繼續(xù)探索MoE模型的通信優(yōu)化。我們將充分利用昇騰硬件上多核并發(fā)能力,加速通信任務(wù)的下發(fā)和并發(fā)傳輸;同時,探索通信算子與其他計算算子更細粒度的通算融合,減少或掩蓋啟動和傳輸?shù)拈_銷,為更多的客戶、伙伴提供更強大的技術(shù)能力。

分享到

xiesc

相關(guān)推薦