在鯤鵬昇騰開發(fā)者大會2025上,華為昇騰計算業(yè)務總裁張迪煊揭曉了昇騰CANN的核心能力。作為昇騰AI的核心平臺,昇騰CANN正通過深度開放與原子級創(chuàng)新,構建了全棧開放生態(tài)、高能效的算力底座,為中國AI開發(fā)者打造了“軟硬協(xié)同”的創(chuàng)新引擎,夯實了大模型時代的創(chuàng)新基座。
從開源共建到人才培養(yǎng),開放生態(tài)使能每一位創(chuàng)新者
真正的偉大,從不誕生于孤島。而技術的高度,最終將由生態(tài)的廣度與活力來丈量。
在打造硬核技術能力的同時,昇騰CANN正以”使能每一位創(chuàng)新者”為核心理念,通過”基礎層開放+應用層共創(chuàng)”的雙輪驅動模式,為企業(yè)和開發(fā)者打造易用、好用的開發(fā)平臺,全力推動國產AI產業(yè)鏈的協(xié)同進化,形成了從技術突破到商業(yè)轉化的生態(tài)閉環(huán)。
在基礎層面,昇騰CANN實現(xiàn)了鴻蒙、歐拉、麒麟、紅旗、統(tǒng)信五大國產系統(tǒng)的深度鏈接,為生態(tài)伙伴提供靈活高效的硬件定制開發(fā)支持。在技術層面,昇騰CANN分層解耦架構在關鍵領域取得了突破性進展。高性能算子庫已使能30余家客戶/伙伴開發(fā)260+核心算子,驅動整網(wǎng)性能平均提升超10%;通信算法創(chuàng)新方面,基于pipeline算法、NHR核算法等前沿技術實現(xiàn)通信效率躍升50%+,助力10余家企業(yè)突破分布式訓練瓶頸。
除了基礎層面的開放合作與技術層面的創(chuàng)新之外,在應用層,昇騰CANN與企業(yè)進行深度合作,共同打造創(chuàng)新性的應用。例如,在用戶比較關注的整圖優(yōu)化技術方面,昇騰CANN與20+行業(yè)領軍企業(yè)深度協(xié)同,通過創(chuàng)新性的應用調度加速、內存復用等六大優(yōu)化策略,實現(xiàn)了內存占用壓縮25%、推理性能提升了20%的顯著突破。
另外,在加速引擎創(chuàng)新維度,CANN已經支持硅基流動等10余家AI基礎設施企業(yè)打造的差異化解決方案,成功孵化了智能調度引擎、分布式訓練框架等創(chuàng)新套件,構筑起覆蓋模型開發(fā)、訓練加速、部署優(yōu)化的全鏈路技術生態(tài)。
除此之外,昇騰CANN還積極與高校進行開放合作,共同推動科研成果的落地。2020年底,由教育部、華為聯(lián)合發(fā)起了“智能基座”產教融合協(xié)同育人基地項目,首批布局了72所高校,將CANN相關知識納入校園課程,通過深化信息技術領域人才培養(yǎng)模式改革和協(xié)同創(chuàng)新,著力構建以信息技術領域關鍵核心技術為基礎的產業(yè)與人才生態(tài)。
目前,昇騰CANN已經與清華大學、北京大學、上海交通大學等頂尖高校合作,打造了卓越中心和孵化中心,針對前沿的創(chuàng)新課題孵化世界級的科研項目,引領AI的創(chuàng)新發(fā)展。
大會現(xiàn)場,華南理工大學計算機科學與工程學院教授、博士生導師陸璐教授展示了團隊開發(fā)的算子以及參數(shù)調優(yōu)等性能優(yōu)化的手段。基于昇騰算子模板庫CATLASS,算子開發(fā)過程中有大量可以復用、拼裝的開源代碼實現(xiàn),通過參數(shù)修改可以快速調整切分策略,高效實現(xiàn)性能尋優(yōu)。陸教授指出,只要熟悉昇騰編程平臺,掌握了其體系架構,很多應用就能夠在昇騰平臺中順利地運行起來。通過不斷優(yōu)化,能夠將性能從50%提升到100%,甚至在某些應用場景下,性能能夠提升200%到500%。在這期間,團隊也參與到了開源模板庫CATLASS的建設,大幅提升開發(fā)者的開發(fā)效率。
除了與企業(yè)和高校的合作之外,昇騰CANN同樣重視個人開發(fā)者的培養(yǎng)。天津理工大學電氣工程與自動化學院人工智能專業(yè)2022級學生王富平,從2023年開始參加昇騰AI創(chuàng)新大賽,在昇騰CANN異構計算架構等領域進行了研究探索,不但通過大賽學習到了最前沿的技術,收獲了諸多的創(chuàng)新成果,而且成為了天津市首位華為開發(fā)者布道師,首屆“求實創(chuàng)新班”成員。
張迪煊在主題演講中表示,目前,華為已經累計培養(yǎng)了40多萬名學昇騰、懂昇騰的學生,很多學生已經進入社會,進入企業(yè),成為推動AI發(fā)展的中堅力量。
昇騰CANN與企業(yè)、高校科研機構的生態(tài)合作,很好地促進了雙方的共同成長,并給產業(yè)創(chuàng)造了巨大的商業(yè)價值。而且通過創(chuàng)新大賽等形式,實現(xiàn)了對個人開發(fā)者的培養(yǎng),為社會輸送了一大批優(yōu)秀的創(chuàng)新人才,為中國科技的發(fā)展帶來了極其深遠的影響。
根據(jù)昇騰官方數(shù)據(jù)統(tǒng)計,6年來,有超過60萬開發(fā)者了解CANN、使用CANN、賦予CANN創(chuàng)新活力。在昇騰CANN持續(xù)推進開放,以及產業(yè)各方開發(fā)者、企業(yè)積極參與之下,CANN生態(tài)正在快速成長。目前CANN的算子認證開發(fā)者已經超過了6000人。
截至目前,基于昇騰NPU+昇騰CANN技術生態(tài)所能實現(xiàn)的AI應用性能,已經能夠比肩CUDA,并且在開放的廣度、深度上,都比CUDA更進一步。取得如此輝煌的成績,昇騰CANN僅僅用了6年時間,創(chuàng)造了科技界的一個奇跡。
如今,從Ascend C算子編程語言、AOL算子加速庫、GE圖引擎、HCCL集合通信庫、畢昇編譯器、Runtime運行時到Driver驅動,昇騰CANN正在通過不斷豐富高層、底層組件,進一步充實開發(fā)者們的彈藥庫,以全面開放支持基于昇騰的軟硬協(xié)同極致創(chuàng)新。
不難發(fā)現(xiàn),在”基礎層開放+應用層共創(chuàng)”的雙輪驅動模式,昇騰CANN不僅重塑了AI算力效能邊界,而且推動了國產AI產業(yè)鏈的協(xié)同進化,形成從技術突破到商業(yè)轉化的生態(tài)閉環(huán)。目前,昇騰CANN已成為中國開發(fā)者生態(tài)最活躍、技術迭代最迅猛的AI創(chuàng)新平臺,持續(xù)以開放生態(tài)與全棧賦能,引領智能算力時代。
構建差異化開放策略,用分層架構賦能AI場景化創(chuàng)新
當用戶需求以天為單位迭代更新,當產品迭代周期從“年”壓縮到“周”,當算法迭代以天為單位,每一分鐘的效率提升都可能轉化為商業(yè)戰(zhàn)場的制勝先機。
打造高效的開發(fā)機制,不僅是企業(yè)內部需要解決的挑戰(zhàn),更是華為昇騰CANN的使能所在。在去年的昇騰AI開發(fā)者峰會,昇騰宣布了深度開放策略,通過構建覆蓋算子開發(fā)、系統(tǒng)調優(yōu)到編譯鏈優(yōu)化的全場景賦能體系,賦能開發(fā)者基于昇騰進行大模型原生創(chuàng)新;7月份,昇騰CANN關鍵的高層組件開放代碼到Gitee社區(qū),客戶和合作伙伴正式拉開了自主創(chuàng)新之路。
為了讓不同技術能力的開發(fā)者都能夠簡單、高效地開發(fā)創(chuàng)新應用,昇騰CANN通過匹配不同的場景,打造了分層開放的架構,通過算法創(chuàng)新層、系統(tǒng)優(yōu)化層和編譯生態(tài)層三層架構的差異化開放策略,賦能開發(fā)者基于場景化的AI應用創(chuàng)新。
在算法創(chuàng)新層,通過開源FlashAttention、Matmul等核心算子及MESH/RING通信算法的最佳實踐代碼庫,使開發(fā)者可基于業(yè)務場景進行”魔改式”創(chuàng)新。
大會現(xiàn)場,張迪煊以華南理工大學團隊的開發(fā)案例進行了詳細介紹。據(jù)了解,華南理工大學團隊利用全新發(fā)布的CATLASS算子模板庫開發(fā)Matmul算子,開發(fā)周期從傳統(tǒng)4人周壓縮至2人周,并通過參數(shù)動態(tài)調優(yōu)實現(xiàn)20%+性能增益,開創(chuàng)了”開發(fā)即優(yōu)化”的新模式。
在系統(tǒng)優(yōu)化層,CANN開放190+底層原子接口,實現(xiàn)硬件能力的顆?;尫?。清華大學計圖團隊聯(lián)合昇騰研發(fā)的MoE專用算子體系,通過調用aclGraph模型調度接口與INT4量化技術,成功將DeepSeek R1模型的推理時延降低50%,驗證了原子能力組合創(chuàng)新的巨大潛力。
在編譯生態(tài)層,CANN與Triton框架的深度整合引發(fā)開發(fā)范式變革:通過開放畢昇編譯器的AscendNPU IR接口,開發(fā)者可直接使用Python語法編寫高性能算子,底層硬件差異被完全抽象化。同時提供的編譯層控制接口,使第三方框架能定制化調整數(shù)據(jù)流編排策略,在智能醫(yī)療影像分析等場景中實現(xiàn)編譯效率提升40%。
實際上,實行分層架構是昇騰CANN一直堅持的開放模式,能夠讓開發(fā)者針對不同的場景進行需求匹配,實現(xiàn)性能與開發(fā)效率的雙重兼顧。豐富的參考樣例能夠很好地匹配場景魔改,實現(xiàn)敏捷開發(fā)和高效開發(fā)。此外,底層原子級能力支持靈活組合,讓開發(fā)者可以更好地挖掘硬件性能。
“三駕馬車”協(xié)同創(chuàng)新,核心技術讓AI創(chuàng)新跑出+速度
當MoE架構成為大模型主流,當單日推理Token量突破10萬億,當企業(yè)爭相部署千億參數(shù)模型——AI產業(yè)在狂飆突進的同時,也深陷計算性能、開發(fā)效率與生態(tài)協(xié)同的三重圍城。
眾所周知,硬件是構筑AI算力的基石底座。從硅晶圓上的微觀電路到數(shù)據(jù)中心里的龐大陣列,硬件架構的持續(xù)創(chuàng)新為AI技術提供了強大算力支撐。隨著AI技術的持續(xù)突破,模型優(yōu)化技術從“模型結構創(chuàng)新”延伸到“訓推全流程”的算法創(chuàng)新,利用底層硬件資源,通過在核心技術上的持續(xù)突破,昇騰CANN在計算、內存、通信三個維度持續(xù)釋放硬件價值,用“三駕馬車”重構AI算力。
在計算層面,針對MoE大模型訓練場景的”卡脖子”難題,CANN創(chuàng)新性推出超級算子MLAPO:通過Vector與Cube計算單元并行化改造,將原本13個串行小算子融合為統(tǒng)一融合大算子,成功將MLA前處理耗時從行業(yè)平均109us壓縮至45us,在螞蟻金融風控模型、騰訊廣告推薦系統(tǒng)中實現(xiàn)20%+端到端性能提升,破解了Transformer架構的算力瓶頸。
在內存層面,面對動態(tài)shape場景的”內存碎片化”痼疾,CANN研發(fā)的多重地址映射技術猶如為內存系統(tǒng)植入”智能中樞”:通過物理內存動態(tài)切分與虛擬地址智能適配,實現(xiàn)內存碎片的自動化拼接利用,使京東商品搜索、騰訊短視頻推薦等業(yè)務場景的內存利用率躍升20%以上,單卡可承載的并發(fā)請求量突破行業(yè)極限。
在分布式訓練領域,CANN打造的NPUDirect通信算法徹底改寫游戲規(guī)則:通過NPU Vector核直控數(shù)據(jù)傳輸,將傳統(tǒng)RDMA通信所需的3次同步精簡為1次原子操作,使得科大訊飛語音大模型的跨機通信時延驟降90%,中國移動的千卡集群通信效率提升50%,開創(chuàng)了萬卡級分布式訓練的可行性路徑。
值得關注的是,昇騰CANN+昇騰NPU的組合,無論是在效率還是成本方面,都實現(xiàn)了與海外主流算力平臺的快速看齊,在某些領域甚至實現(xiàn)了超越,徹底打破了海外算力平臺獨大的格局。
大會現(xiàn)場,科大訊飛副總裁、AI工程院院長潘青華展示了訊飛和昇騰的合作成果。據(jù)介紹,今年3月,訊飛基于昇騰算力率先實現(xiàn)了MoE模型大規(guī)??绻?jié)點并行集群的推理,推理性能提升了3倍。
除此之外,AI Infra的無問芯穹采用了昇騰平臺,并基于昇騰CANN進行深度優(yōu)化創(chuàng)新,針對大模型推理集群部署中的通信開銷問題進行技術攻關,實現(xiàn)單算子性能提升20%,顯著降低了算力資源的消耗。
可以看出,通過技術上的持續(xù)創(chuàng)新,昇騰CANN不僅實現(xiàn)了單點性能的指數(shù)級提升,更構建起”芯片級優(yōu)化-系統(tǒng)級調度-集群級協(xié)同”的全棧能力,這也標志著AI算力技術正式邁入”原子級精準調優(yōu)”的新紀元。
寫在最后:用技術創(chuàng)新+生態(tài)開放夯實AI時代的創(chuàng)新基座
從分層開放的技術架構到產學研生態(tài)協(xié)同創(chuàng)新,再到計算、內存、通信等領域的底層技術突破,昇騰CANN始終堅持著技術創(chuàng)新和開放生態(tài)兩手抓的理念,在不斷優(yōu)化底層技術的同時,以全棧開放的姿態(tài)與產學研合作伙伴攜手創(chuàng)新,不斷地為開發(fā)者提供好用、易用的產品和解決方案,為企業(yè)AI應用創(chuàng)造無限的價值,為AI產業(yè)發(fā)展提供了新的動力。
展望未來,昇騰CANN將通過不斷豐富高層、底層組件,為開發(fā)者們提供更加豐富的彈藥,并通過開放的生態(tài)建設,為開發(fā)者的AI創(chuàng)新全力賦能。
來源:51CTO