www国产亚洲精品久久小说,99久久国语露脸精品国产色

圖1 Prefill micro-batch雙流并行

Weight預(yù)取雙流并行：

訪存、通信并行，性能提升10%+

在推理的Decode階段，權(quán)重（Weight）加載耗時較長，主要原因是Weight需要頻繁訪問高帶寬內(nèi)存（HBM），導(dǎo)致緩存帶寬開銷較大。

針對該問題，利用昇騰910系列硬件L2 Cache層的大容量、高帶寬特性，預(yù)取Weight并存儲到L2 Cache中，可以實現(xiàn)通信與Weight加載并行，從而加速后續(xù)的Cube運算，顯著降低Weight加載時間，同時提升Matmul算子的性能，整網(wǎng)性能提升10%+。

圖2 Weight預(yù)取雙流并行

【使用方法】

以上優(yōu)化特性已在昇騰CANN最新版本中實現(xiàn)，歡迎大家配套MindIE使用、體驗。CANN包安裝過程可參考社區(qū)文檔：https://www.hiascend.com/document/detail/zh/CANNCommunityEdition/81RC1alpha001/softwareinst/instg/instg_0000.html?Mode=PmIns&OS=Ubuntu&Software=cannToolKit

【昇騰未來演進思考】

昇騰將繼續(xù)探索MoE模型的通信優(yōu)化。我們將充分利用昇騰硬件上多核并發(fā)能力，加速通信任務(wù)的下發(fā)和并發(fā)傳輸；同時，探索通信算子與其他計算算子更細粒度的通算融合，減少或掩蓋啟動和傳輸?shù)拈_銷，為更多的客戶、伙伴提供更強大的技術(shù)能力。

分享到

xiesc

相關(guān)推薦

近期文章

熱門標(biāo)簽