目前,業(yè)界主流的自動駕駛方案需要融合圖像、激光雷達、毫米波雷達、GPS等多個模態(tài)數(shù)據(jù),但大規(guī)模訓練樣本數(shù)據(jù)加載和預處理的效率較低,導致GPU資源浪費;同時,自動駕駛模型算子數(shù)量巨大,使用現(xiàn)有訓推框架系統(tǒng)執(zhí)行效率低下,且優(yōu)化門檻高。
阿里云推出的PAI-TurboX,在多模態(tài)數(shù)據(jù)預處理、離線大規(guī)模模型訓練以及實時智駕推理等環(huán)節(jié)提供了全面解決方案。在系統(tǒng)側(cè),PAI-TurboX通過優(yōu)化CPU親和性、動態(tài)編譯、流水線并行等策略,顯著提升模型的訓練推理效率;在數(shù)據(jù)側(cè),PAI-TurboX提出了高性能的DataLoader引擎,并且優(yōu)化了數(shù)據(jù)預處理流程和實現(xiàn)了智能訓練樣本分組,有效提升數(shù)據(jù)處理效率。
此外,PAI-TurboX還提供了算子優(yōu)化和量化等能力,可進一步減少訓練階段的訪存延遲,提升吞吐效率,同時在推理任務中,能在保障精度的同時降低計算開銷與內(nèi)存帶寬需求,可實現(xiàn)異構(gòu)平臺下的高性能推理部署。
實測結(jié)果顯示,在自動駕駛的3D物體檢測模型BEVFusion訓練任務中,PAI-TurboX可以將訓練時間縮短58.5%;在實時在線矢量化高精地圖構(gòu)建模型MapTR訓練任務中,PAI-TurboX可以將訓練時間縮短53%;在端到端自動駕駛模型SparseDrive訓練任務中,PAI-TurboX 可以在感知模塊訓練和聯(lián)合訓練兩個階段獲得明顯的速度提升,相同訓練步數(shù)下可分別縮短51.5%和48.5%。
阿里云研究員林偉表示:“ TurboX不僅可以提升自動駕駛模型的訓推效率,還將進一步加速世界模型的開發(fā)進程,讓所有終端和人一樣具備感知、思考和決策能力?!?/p>
據(jù)介紹,阿里云人工智能平臺PAI可提供貫穿AI開發(fā)和運維全流程的平臺服務。自2016年誕生以來,PAI已累計服務超過10萬家企業(yè)客戶及數(shù)百萬AI開發(fā)者,支撐阿里云百煉、魔搭社區(qū)等MaaS服務及社區(qū)。