關(guān)于Gaudi2的軟件成熟度: Gaudi的軟件支持在持續(xù)發(fā)展和成熟,并能與日益增長(zhǎng)的生成式AI及大語言模型的需求保持同步。
- 本次提交的GPT-3模型基于PyTorch,并采用了當(dāng)前流行的、隸屬微軟大規(guī)模AI的DeepSpeed優(yōu)化庫(kù),而非定制軟件。DeepSpeed能夠同時(shí)支持Data、Tensor和Pipeline的三維并行,進(jìn)一步優(yōu)化了大語言模型的擴(kuò)展性能效率。
- 本次MLPerf 3.0的Gaudi2結(jié)果以BF16數(shù)據(jù)類型已提交。預(yù)計(jì)在2023年第三季度發(fā)布對(duì)FP8的軟件支持與新功能時(shí),Gaudi2的性能將有明顯飛躍。
關(guān)于第四代至強(qiáng)可擴(kuò)展處理器的測(cè)試結(jié)果: 作為眾多解決方案中唯一提交的基于CPU的解決方案,MLPerf結(jié)果表明,英特爾至強(qiáng)可擴(kuò)展處理器為企業(yè)提供了“開箱即用”的功能,可以在通用系統(tǒng)上部署AI,避免了引入專用AI系統(tǒng)的高昂成本和復(fù)雜性。
對(duì)于少數(shù)從頭開始間歇性訓(xùn)練大模型的用戶,他們可以使用通用CPU,并且通常是在已經(jīng)完成部署的、基于英特爾的服務(wù)器上運(yùn)行其業(yè)務(wù)。此外,大多數(shù)人將采用預(yù)先訓(xùn)練好的模型,并用小型數(shù)據(jù)集對(duì)其進(jìn)行微調(diào)。英特爾發(fā)布的結(jié)果表明,通過使用英特爾AI軟件以及標(biāo)準(zhǔn)的行業(yè)開源軟件,這種微調(diào)可以在短短幾分鐘內(nèi)完成。
MLPerf測(cè)試亮點(diǎn):
- 在封閉區(qū),第四代至強(qiáng)可以分別在50分鐘以內(nèi)(47.93分鐘)和90分鐘以內(nèi)(88.17分鐘)的時(shí)間里訓(xùn)練BERT和ResNet-50模型。
- 對(duì)于BERT模型的開放區(qū),結(jié)果顯示,當(dāng)擴(kuò)展至16個(gè)節(jié)點(diǎn)時(shí),第四代至強(qiáng)能夠在大約30分鐘左右(31.06分鐘)完成模型訓(xùn)練。
- 對(duì)于較大的RetinaNet模型,第四代至強(qiáng)能夠在16個(gè)節(jié)點(diǎn)上實(shí)現(xiàn)232分鐘的訓(xùn)練時(shí)間,使客戶能夠靈活地使用非高峰期的至強(qiáng)周期來訓(xùn)練其模型,即可以在早晨、午餐或者夜間進(jìn)行模型訓(xùn)練。
- 具備英特爾?高級(jí)矩陣擴(kuò)展(Intel? AMX)的第四代英特爾至強(qiáng)可擴(kuò)展處理器提供了顯著的“開箱即用”性能提升,其范圍覆蓋了多個(gè)框架、端到端數(shù)據(jù)科學(xué)工具,以及廣泛的智能解決方案生態(tài)系統(tǒng)。
第四代英特爾至強(qiáng)可擴(kuò)展處理器
MLPerf被普遍認(rèn)為是最具信服力的AI性能測(cè)試基準(zhǔn),能夠在各種解決方案之間進(jìn)行公平、可重復(fù)的性能比較。目前,英特爾已擁有超100次性能結(jié)果,且是唯一一個(gè)使用行業(yè)標(biāo)準(zhǔn)的深度學(xué)習(xí)生態(tài)系統(tǒng)軟件,并公開提交CPU結(jié)果的廠商。
該結(jié)果亦展示了使用極具性價(jià)比,且隨時(shí)可用的英特爾以太網(wǎng)800系列網(wǎng)絡(luò)適配器,可以實(shí)現(xiàn)出色的擴(kuò)展效率,此類適配器采用基于英特爾oneAPI的開源英特爾?以太網(wǎng)軟件包。
說明:
* MLPerf 測(cè)試語料庫(kù)由1%的GPT-3 模型代表組成。