作為華為面向產(chǎn)業(yè)智能化推出的最新一代AI大模型,盤古5.5延續(xù) “不作詩,只做事” 的理念,專注于解決實際產(chǎn)業(yè)問題。涵蓋自然語言處理、計算機視覺、多模態(tài)、預(yù)測與科學(xué)計算五大基礎(chǔ)模型全面升級。其7180億參數(shù)的Ultra MoE架構(gòu)、世界模型、深度研究系統(tǒng)DeepDiver等創(chuàng)新,正推動人工智能在工業(yè)、農(nóng)業(yè)、汽車、科研等領(lǐng)域的深度落地。

文字編輯|宋雨涵

1

技術(shù)突破

以五大基礎(chǔ)模型重構(gòu)AI能力邊界

新一代昇騰AI云服務(wù)打造算力基礎(chǔ)

隨著大模型訓(xùn)練與推理對算力需求呈現(xiàn)出爆炸式的增長態(tài)勢,傳統(tǒng)計算架構(gòu)在支撐AI技術(shù)實現(xiàn)代際跨越方面已顯得力不從心。華為云相關(guān)專家指出,傳統(tǒng)分布式系統(tǒng)本質(zhì)上屬于松耦合系統(tǒng),在多數(shù)應(yīng)用場景下,服務(wù)器之間借助25Gbps或100Gbps以太網(wǎng)帶寬即可滿足需求。

為滿足這些需求,云平臺必須借助新型超高性能網(wǎng)絡(luò),將大量GPU、CPU等多元算力緊密連接。同時,需用“對等架構(gòu)”取代傳統(tǒng)的“主從架構(gòu)”,使多元算力能夠直接通信,無需再依賴CPU進行中轉(zhuǎn)。這一能力,正是AI原生云基礎(chǔ)設(shè)施最為核心的關(guān)鍵能力。

華為云新一代昇騰AI云服務(wù)基于CloudMatrix 384超節(jié)點創(chuàng)新性地采用全新高速網(wǎng)絡(luò)MatrixLink,將384顆昇騰NPU與192顆鯤鵬CPU實現(xiàn)全對等互聯(lián),從而構(gòu)建出一臺超級“AI服務(wù)器”。在此架構(gòu)下,單卡推理吞吐量大幅提升至2300 Tokens/s,相較于非超節(jié)點架構(gòu),性能提升近4倍。

在面對萬億、十萬億參數(shù)級別的大模型訓(xùn)練任務(wù)時,超節(jié)點架構(gòu)在云數(shù)據(jù)中心展現(xiàn)出強大的擴展能力,可將432個超節(jié)點級聯(lián)起來,構(gòu)建出最高可達16萬卡的超大集群。此外,超節(jié)點還支持訓(xùn)練與推理算力的一體化部署,例如采用“日推夜訓(xùn)”的模式,實現(xiàn)訓(xùn)推算力的靈活分配,助力客戶實現(xiàn)資源的最優(yōu)利用。

目前,昇騰AI云服務(wù)已成功為科大訊飛、新浪、硅基流動、面壁智能、中科院、360等超過1300家客戶提供強勁的AI算力支持。

基于國產(chǎn)算力,盤古大模型5.5全面升級

盤古大模型5.5首次實現(xiàn)自然語言處理(NLP)、計算機視覺(CV)、多模態(tài)、預(yù)測與科學(xué)計算五大領(lǐng)域的全棧升級

1、自然語言處理(NLP):

2、計算機視覺(CV)

300億參數(shù)視覺大模型:支持多維度泛視覺感知、分析和決策,構(gòu)建工業(yè)場景稀缺的泛視覺故障樣本庫,提升業(yè)務(wù)場景的可識別種類與精度。

3、多模態(tài)

世界模型:為智能駕駛、具身智能機器人訓(xùn)練構(gòu)建數(shù)字物理空間,實現(xiàn)持續(xù)優(yōu)化迭代。例如在智能駕駛領(lǐng)域,可生成大量訓(xùn)練數(shù)據(jù),無需依賴高成本路采。

4、預(yù)測:

Triplet Transformer 架構(gòu):將不同行業(yè)的數(shù)據(jù)進行統(tǒng)一的三元組編碼和預(yù)訓(xùn)練,提升預(yù)測精度和跨行業(yè)、跨場景的泛化性。

5、科學(xué)計算:

AI集合預(yù)報:例如深圳氣象局基于盤古大模型升級的“智霽”大模型,首次實現(xiàn) AI 集合預(yù)報,能更直觀地反映天氣系統(tǒng)的演變可能性。

2

世界模型誕生

多模態(tài)能力跨越式突破

此次,盤古5.5在NLP領(lǐng)域主要有三大模型組成,即盤古Ultra MoE、盤古Pro MoE、盤古Embedding;以及快慢思考合一的高效推理策略、盤古深度研究產(chǎn)品DeepDiver。

盤古UltraMoE:超大規(guī)模與高效推理的融合

盤古UltraMoE具備超大規(guī)模與稀疏激活特性,擁有7180億參數(shù),采用256個路由專家,每個token激活8個專家,激活量達39億,實現(xiàn)了超大規(guī)模和高稀疏比的完美結(jié)合。

在架構(gòu)設(shè)計上,它引入了MLA(Multi-headLatentAttention)注意力機制,有效壓縮KVCache空間,緩解了推理階段的內(nèi)存帶寬瓶頸。同時,采用MTP(Multi-TokenParallelism)多頭擴展,通過單頭MTP訓(xùn)練后擴展至多頭結(jié)構(gòu),實現(xiàn)多Token投機推理,加速了整體推理過程。

在訓(xùn)練技術(shù)方面,提出了Depth-ScaledSandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化方法,解決了超大規(guī)模MoE模型訓(xùn)練過程中的穩(wěn)定性難題,實現(xiàn)了超過18TB數(shù)據(jù)的長期穩(wěn)定訓(xùn)練。此外,采用EPgrouploss負載優(yōu)化方法,保證了各個專家之間較好的負載均衡,同時提升了專家的領(lǐng)域特化能力。訓(xùn)練策略上,使用Dropless訓(xùn)練策略,避免Drop&Pad訓(xùn)推不一致問題,提升訓(xùn)練的數(shù)據(jù)效率;還采用迭代難例挖掘與多能力項均衡的獎勵函數(shù),參考GRPO算法,提升了模型的訓(xùn)練效率與最終推理性能。

盤古ProMoE:創(chuàng)新架構(gòu)與卓越性能的典范

盤古ProMoE創(chuàng)新性地提出分組混合專家模型(MoGE),在專家選擇階段對專家進行分組,并約束token在每個組內(nèi)激活等量專家,實現(xiàn)了專家負載均衡,顯著提升了模型在昇騰平臺的部署效率。

在推理性能上,表現(xiàn)十分出色。在昇騰300IDuo平臺上,單卡吞吐量可達201tokens/s,通過引入MTP解碼和多token優(yōu)化可進一步提升至321tokens/s。在昇騰800IA2平臺上,低并發(fā)場景下可實現(xiàn)毫秒級響應(yīng),高并發(fā)條件下單卡吞吐量可達1148tokens/s,結(jié)合優(yōu)化后可提升至1528tokens/s,性能大幅領(lǐng)先于同等規(guī)模的稠密模型。

在推理能力方面,盤古ProMoE在跨語言多領(lǐng)域基準(zhǔn)測試中展現(xiàn)出色性能,涵蓋英語通用推理、閱讀理解、常識推理,邏輯推理中的代碼生成和中英雙語數(shù)學(xué)問題,以及中文的知識問答和閱讀理解等,全面驗證了模型在復(fù)雜認知任務(wù)上的通用性與領(lǐng)域適應(yīng)性。同時,針對昇騰300IDuo和800IA2平臺進行系統(tǒng)優(yōu)化,深度融合昇騰硬件加速架構(gòu)的并行計算特性與算子級編譯優(yōu)化技術(shù),實現(xiàn)了從算法設(shè)計到系統(tǒng)落地的全棧創(chuàng)新。

盤古Embedding:雙系統(tǒng)認知架構(gòu)的智慧結(jié)晶

盤古Embedding采用雙系統(tǒng)認知架構(gòu),集成“快思考”與“慢思考”雙推理模式。通過兩階段訓(xùn)練框架,第一階段通過迭代蒸餾和多源動態(tài)獎勵系統(tǒng)(MARS)構(gòu)建基礎(chǔ)推理器;第二階段賦予模型快慢思考能力,可根據(jù)任務(wù)難度自動切換模式,實現(xiàn)推理效率與深度的動態(tài)平衡。

在訓(xùn)練策略上,提出基于模型感知型迭代蒸餾的SFT方案,動態(tài)選擇與模型當(dāng)前能力相匹配的數(shù)據(jù)樣本進行訓(xùn)練,并通過訓(xùn)練過程中的模型合并策略保留早期知識,持續(xù)提升性能。通過引入特定領(lǐng)域的長思考數(shù)據(jù)繼續(xù)訓(xùn)練,可顯著提升模型在專業(yè)任務(wù)上的能力水平。例如在法律領(lǐng)域,經(jīng)過法律語料訓(xùn)練后,在LawBench基準(zhǔn)測試中的平均準(zhǔn)確率達到54.59%。模型還能夠根據(jù)任務(wù)的復(fù)雜程度自動調(diào)整推理深度,在簡單問題上快速輸出答案,在復(fù)雜問題上進行深入分析,確保輸出的準(zhǔn)確性。

盤古DeepDiver:深度研究場景的得力助手

盤古DeepDiver針對深度研究場景,如科學(xué)助手、個性化教育以及復(fù)雜的行業(yè)報告調(diào)研等,能夠完成超過10跳的復(fù)雜問答,并生成萬字以上的專業(yè)調(diào)研報告。通過構(gòu)建大量的合成交互數(shù)據(jù),并采用漸進式獎勵策略進行強化學(xué)習(xí)訓(xùn)練,在開放域信息獲取中表現(xiàn)出色,可在5分鐘內(nèi)完成復(fù)雜的任務(wù),生成高質(zhì)量的調(diào)研報告。同時,顯著提升了盤古大模型的自主規(guī)劃、探索、反思等高階能力,使其在復(fù)雜任務(wù)處理中表現(xiàn)更加出色。

具身智能平臺

開啟機器人新時代

本次大會的另一重磅發(fā)布是華為云推出的CloudRobo具身智能平臺。該平臺整合數(shù)據(jù)合成、模型訓(xùn)練、仿真驗證、云邊協(xié)同部署等全流程能力,并發(fā)布三大核心模型:具身多模態(tài)生成、規(guī)劃與執(zhí)行大模型。

為破解機器人接口協(xié)議復(fù)雜、傳感器種類繁多等挑戰(zhàn),華為云同步推出R2C開放協(xié)議(Robot to Cloud),推動機器人與云平臺的標(biāo)準(zhǔn)化聯(lián)接。通過協(xié)同伙伴和行業(yè)組織,共建 “可連接、可調(diào)用、可成長” 的具身智能新生態(tài)。

具身智能平臺的推出大幅降低了機器人開發(fā)門檻。開發(fā)者無需從零構(gòu)建基礎(chǔ)能力,可基于平臺統(tǒng)一技術(shù)棧快速開發(fā)行業(yè)專用機器人。這一布局顯示華為正從“云端智能”向“具身智能”拓展,構(gòu)建更完整的AI生態(tài)系統(tǒng)。

結(jié)語:

盤古大模型5.5的問世,彰顯了華為“扎根產(chǎn)業(yè),務(wù)實創(chuàng)新”的AI路徑。其秉持“不作詩,只做事”理念,將7180億參數(shù)的Ultra MoE架構(gòu)、自適應(yīng)快慢思考及世界模型等落地應(yīng)用,把大模型從實驗室變?yōu)楫a(chǎn)業(yè)升級引擎。此外隨著CloudRobo具身智能平臺和R2C開放協(xié)議推出,華為AI版圖邁向“云端+具身智能”融合生態(tài)。此次華為開發(fā)者大會是中國AI大模型自主研發(fā)能力的檢閱,標(biāo)志著AI進入新階段,致力于改變世界。

分享到

lixiangjing

算力豹主編

相關(guān)推薦