在功能方面,TePDist分為兩個(gè)部分。一是在HLO IR上進(jìn)行SPMD(Data Parallel和Sharding)和Pipeline并行的策略搜索。并以此構(gòu)建編譯基于Task Graph的執(zhí)行計(jì)劃。二是高效運(yùn)行執(zhí)行計(jì)劃的分布式執(zhí)行引擎。同時(shí),TePDist提供了不同優(yōu)化級(jí)別,高優(yōu)化級(jí)別更加追求分布式策略質(zhì)量,低優(yōu)化級(jí)別會(huì)額外采取一些Heuristic,以較為微小策略質(zhì)量犧牲,換取更快地搜索時(shí)間,以此滿足落地需求。

性能上,TePDist通過在GPT和MoE模型上SPMD+Pipeline混合策略的模型擴(kuò)展性實(shí)驗(yàn),TePDist能夠使GPT和MoE分別達(dá)到峰值能力的62%和58%。同時(shí),在自動(dòng)化方面的通用性上,TePDist也通過了VGG-19,DNABert和UNet等模型實(shí)驗(yàn)驗(yàn)證。

一直以來,大模型在模型效果上被證明具有顯著優(yōu)勢(shì)。而ChatGPT的出現(xiàn),證明了其在工業(yè)生產(chǎn)工具方面具有巨大潛力。阿里云機(jī)器學(xué)習(xí)平臺(tái)PAI也宣布將TePDist開源,與AI開發(fā)者共同打造更快更好的自動(dòng)分布式系統(tǒng),全面助力AI大模型發(fā)展!

開源地址:https://github.com/alibaba/TePDist

開源釘群:

分享到

songjy

相關(guān)推薦