如何選擇一款合適的深度學(xué)習(xí)框架?
隨著人工智能的火熱,目前開源出來的深度學(xué)習(xí)框架非常多,如Caffe、TensorFlow、MXNet、Torch等等??蚣鼙姸啵绾芜x擇?選擇一種框架還是多種組合?針對不同的場景或者模型需要選擇什么樣的框架?面對多大數(shù)據(jù)量需要選擇多機并行的框架?這些我們針對深度學(xué)習(xí)框架所面臨的挑戰(zhàn),難免會讓很多人犯難。
近期,浪潮與美國某知名的互聯(lián)網(wǎng)公司開展聯(lián)合測試,對主流的深度學(xué)習(xí)框架做了一個測評。把三個主流的框架Caffe、TensorFlow和MXNet部署到浪潮SR-AI整機柜服務(wù)器平臺上(配置16塊GPU卡),采用ImageNet數(shù)據(jù)集,測試AlexNet和GoogLeNet兩種典型網(wǎng)絡(luò)。
浪潮聯(lián)合美國某知名的互聯(lián)網(wǎng)公司對主流深度學(xué)習(xí)框架的測試結(jié)果
從這個評測來看,基于不同的網(wǎng)絡(luò),所選擇最優(yōu)的框架是不一樣的。
基本上可以有大致的一個原則來選擇:我們會根據(jù)不同的場景和模型來選擇至少一種深度學(xué)習(xí)框架,目前很難說一種框架能在所有的應(yīng)用場景中表現(xiàn)最優(yōu)。
針對大數(shù)據(jù)量的訓(xùn)練,采用單機訓(xùn)練的話時間會很長,有可能是幾周或幾個月訓(xùn)練出一個模型,需要采用分布式框架。浪潮自研的深度學(xué)習(xí)框架Caffe-MPI,就實現(xiàn)了多機多GPU卡的并行訓(xùn)練。通過實際測試,Caffe-MPI采用16個GPU卡同時訓(xùn)練時,每秒處理效率達到3061張,較單卡性能提升13倍,擴展效率達到81%,性能將近是TensorFlow的2倍。
目前,浪潮Caffe-MPI框架目前已在Github開源,如果有需要可以免費下載使用。
當(dāng)機器越來越多,怎么管理才高效?
人工智能深度學(xué)習(xí)訓(xùn)練流程較長、開發(fā)環(huán)境較復(fù)雜,涉及數(shù)據(jù)準(zhǔn)備和處理、特征工程、建模、調(diào)參等多個步驟及多個框架和模型,每個框架依賴環(huán)境不同且有可能交叉使用。同時,深度學(xué)習(xí)模型在訓(xùn)練時往往耗時較長,短則數(shù)小時長則數(shù)天,以往在訓(xùn)練完成后才意識到模型存在問題,大大耗費了用戶的精力和時間。
浪潮AI管理軟件AIStation可以提供從數(shù)據(jù)準(zhǔn)備到分析訓(xùn)練結(jié)果的完整深度學(xué)習(xí)業(yè)務(wù)流程,支持Caffe、TensorFlow、CNTK等多種計算框架和GoogleNet、VGG、ResNet等多種模型。AIStation支持對訓(xùn)練過程實時監(jiān)控并可視化訓(xùn)練過程,支持打印每一步的損失函數(shù)值的日志、訓(xùn)練誤差或測試誤差等;支持動態(tài)分配GPU資源實現(xiàn)資源合理共享,實現(xiàn)了“一鍵式”部署深度學(xué)習(xí)計算環(huán)境、快速啟動訓(xùn)練任務(wù);還可以實時監(jiān)控集群的使用情況,合理安排訓(xùn)練任務(wù),可及時發(fā)現(xiàn)運行中的問題,提高集群的可靠性。
浪潮AI管理軟件AIStation
除此以外,浪潮還可提供天眼高性能應(yīng)用特征監(jiān)控分析系統(tǒng),量化超算軟件特征,提取和記錄應(yīng)用軟件在高性能計算機運行過程中實時產(chǎn)生的CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等系統(tǒng)信息和微架構(gòu)信息,及時幫助使用者找到系統(tǒng)瓶頸,并能準(zhǔn)確地分析出程序開發(fā)者的應(yīng)用軟件特征,幫助用戶合理的劃分集群使用資源、提高使用效率。
有了強勁的AI計算平臺、適合的開發(fā)框架、高效的AI管理監(jiān)控軟件,一個AI基礎(chǔ)平臺就基本構(gòu)建完成,剩下的就是靠優(yōu)化的算法把你所擁有的數(shù)據(jù),轉(zhuǎn)化成更有價值的資源。2018年,AI仍將是一個巨大的風(fēng)口,希望以上浪潮測試數(shù)據(jù)和選型攻略能夠為大家?guī)硪恍﹩l(fā)。