此外更爆炸的是兩大國(guó)產(chǎn)AI芯片巨頭寒武紀(jì)與華為昇騰在模型發(fā)布當(dāng)日即宣布完成全面適配支持。

這一“Day 0”級(jí)別的快速響應(yīng),宣告了國(guó)產(chǎn)大模型與國(guó)產(chǎn)AI芯片之間前所未有的協(xié)同發(fā)展態(tài)勢(shì)已然形成。這不再是軟件追趕硬件,或硬件等待軟件的傳統(tǒng)模式,而是一種深度綁定、共同進(jìn)化的新型產(chǎn)業(yè)關(guān)系。

文字編輯|宋雨涵

1

DeepSeek-V3.2-Exp:

重新定義長(zhǎng)文本處理的效率與成本

DeepSeek-V3.2-Exp的發(fā)布,并非一次常規(guī)的性能迭代,而是對(duì)大模型底層架構(gòu)的一次大膽探索。其核心亮點(diǎn),直指當(dāng)前大模型應(yīng)用中最棘手的難題之一:長(zhǎng)文本處理的效率與成本。

技術(shù)革新:DeepSeek稀疏注意力(DSA)機(jī)制

傳統(tǒng)Transformer模型的核心是自注意力機(jī)制,它允許模型中的每個(gè)詞元(Token)關(guān)注輸入序列中的所有其他詞元。這種機(jī)制雖然強(qiáng)大,但也帶來了巨大的計(jì)算負(fù)擔(dān),其計(jì)算復(fù)雜度與序列長(zhǎng)度(L)的平方(O(L2))成正比。這意味著當(dāng)文本長(zhǎng)度從1K增加到100K時(shí),計(jì)算量會(huì)暴增一萬(wàn)倍,使得超長(zhǎng)文本的實(shí)時(shí)推理變得異常昂貴且緩慢。

DeepSeek-V3.2-Exp引入的DeepSeek稀疏注意力(DeepSeek Sparse Attention, DSA)機(jī)制,正是為了打破這一瓶頸。它巧妙地引入了一個(gè)名為“閃電索引器”(Lightning Indexer)的組件。該組件能夠像一位經(jīng)驗(yàn)豐富的速讀者,在處理海量歷史信息時(shí),快速預(yù)判并索引出那些對(duì)當(dāng)前生成任務(wù)“最重要”的少數(shù)關(guān)鍵Token。隨后,模型只需將計(jì)算資源集中在這些被選中的關(guān)鍵信息上,進(jìn)行精細(xì)的注意力計(jì)算。

DeepSeek-V3.2-Exp模型中的稀疏注意力架構(gòu),核心在于“閃電索引器”和“Top-k選擇器”的高效協(xié)作。

通過這一革新,注意力的計(jì)算復(fù)雜度從O(L2)驟降至O(Lk),其中k是一個(gè)遠(yuǎn)小于序列長(zhǎng)度L的固定值。這意味著,即使處理的文本再長(zhǎng),其計(jì)算成本的增長(zhǎng)也趨于線性,而非指數(shù)級(jí)爆炸。

“性能不降、成本驟減”

技術(shù)上的優(yōu)雅最終要體現(xiàn)在實(shí)際應(yīng)用價(jià)值上。DeepSeek-V3.2-Exp在這一點(diǎn)上交出了一份令人信服的答卷。

根據(jù)官方公布的數(shù)據(jù),在處理128K(約20萬(wàn)漢字)的超長(zhǎng)文本時(shí),新模型的推理成本相比前代V3.1-Terminus模型實(shí)現(xiàn)了驚人的下降。無論是在處理初始輸入(Prefilling)還是在逐字生成(Decoding)階段,成本節(jié)約都極為顯著。

與V3.1相比,V3.2-Exp在Prefilling和Decoding階段的推理成本隨文本長(zhǎng)度增長(zhǎng)極為平緩,優(yōu)勢(shì)明顯。

更重要的是,這種效率的提升并未以犧牲核心能力為代價(jià)。在編程、數(shù)學(xué)、邏輯推理等關(guān)鍵能力的嚴(yán)謹(jǐn)評(píng)估中,DeepSeek-V3.2-Exp與前代旗艦?zāi)P突境制?。這一成果直接轉(zhuǎn)化為對(duì)開發(fā)者社區(qū)的重大利好:得益于效率提升,DeepSeek官方宣布其API價(jià)格大幅下調(diào)超過50%,其中輸出成本降至每百萬(wàn)Token僅需3元人民幣。

2

“零日適配”:

國(guó)產(chǎn)AI生態(tài)成熟的標(biāo)志

如果說DeepSeek-V3.2-Exp的發(fā)布是一場(chǎng)精彩的獨(dú)奏,那么寒武紀(jì)與華為昇騰的“零日適配”(Day 0 Adaptation)則為這段獨(dú)奏注入了靈魂,產(chǎn)生共鳴。這標(biāo)志著國(guó)產(chǎn)AI生態(tài)已經(jīng)具備與國(guó)際頂尖水平相媲美的敏捷性和協(xié)同能力。

寒武紀(jì):速度與開源的結(jié)合

在DeepSeek模型發(fā)布的同一天,寒武紀(jì)迅速跟進(jìn),不僅宣布其AI芯片已完成對(duì)DeepSeek-V3.2-Exp的適配,更同步開源了其大模型推理引擎vLLM-MLU的適配源代碼。這種“即發(fā)即用,源碼開放”的姿態(tài),展現(xiàn)了寒武紀(jì)對(duì)開源生態(tài)的堅(jiān)定擁抱和技術(shù)自信。

DeepSeek與寒武紀(jì)在社交媒體上幾乎同時(shí)發(fā)布消息,彰顯了雙方緊密的合作關(guān)系。

據(jù)了解,寒武紀(jì)通過Triton算子開發(fā)實(shí)現(xiàn)了快速適配,并利用其自研的BangC融合算子技術(shù)進(jìn)行了極致的性能優(yōu)化。結(jié)合DeepSeek模型的稀疏特性與寒武紀(jì)芯片的計(jì)算效率,長(zhǎng)序列場(chǎng)景下的AI應(yīng)用成本有望被進(jìn)一步壓縮。開發(fā)者可以訪問vLLM-MLU的GitHub倉(cāng)庫(kù)獲取源碼。

華為昇騰:性能與編程范式的創(chuàng)新

華為昇騰同樣展現(xiàn)了驚人的響應(yīng)速度,第一時(shí)間基于vLLM、SGLang等主流推理框架完成了對(duì)新模型的部署支持,并同樣面向開發(fā)者開源了所有推理代碼和算子實(shí)現(xiàn)。

華為昇騰強(qiáng)調(diào)其“0Day支持”能力,并突出其在算子編程上的創(chuàng)新。

昇騰團(tuán)隊(duì)針對(duì)模型中的“Lightning Indexer”和“Sparse Flash Attention”這兩個(gè)全新算子,進(jìn)行了深度優(yōu)化,確保在128K長(zhǎng)序列下依然能保持低于2秒的首字返回時(shí)間(TTFT)和低于30毫秒的吞吐性能(TPOT)。

更重要的是,昇騰CANN借此機(jī)會(huì)首次推出了PyPTO大融合算子編程體系。這一創(chuàng)新的PTO(Python-based Tensor Operator)編程范式,允許開發(fā)者僅用數(shù)百行Python代碼即可完成過去需要數(shù)千行C++代碼才能實(shí)現(xiàn)的動(dòng)態(tài)Shape算子開發(fā),極大地降低了AI算子開發(fā)的門檻和周期。同時(shí),對(duì)新興AI編程語(yǔ)言TileLang的支持,也展現(xiàn)了昇騰積極擁抱前沿技術(shù)、構(gòu)建開放生態(tài)的決心。

3

軟硬件協(xié)同

國(guó)產(chǎn)AI的必然與未來

國(guó)產(chǎn)大模型與AI芯片的緊密協(xié)同,
正在形成獨(dú)特的競(jìng)爭(zhēng)優(yōu)勢(shì)。DeepSeek-V3.2-Exp與國(guó)產(chǎn)芯片的 “同頻發(fā)布”,并非偶然的技術(shù)巧合,而是中國(guó)AI產(chǎn)業(yè)從 “單點(diǎn)突破” 向 “系統(tǒng)作戰(zhàn)” 轉(zhuǎn)型的必然結(jié)果。

快速響應(yīng)能力構(gòu)建生態(tài)壁壘。Day 0適配的實(shí)現(xiàn),依賴于模型廠商與芯片廠商的前期技術(shù)協(xié)同、接口標(biāo)準(zhǔn)化建設(shè)和聯(lián)合調(diào)試機(jī)制。這種 “提前布局、即時(shí)響應(yīng)” 的能力,使國(guó)產(chǎn)生態(tài)能快速捕捉技術(shù)創(chuàng)新紅利,在與國(guó)際巨頭的競(jìng)爭(zhēng)中搶占時(shí)間窗口。

中科曙光:開放架構(gòu)“跨層協(xié)同”

基于中國(guó)首個(gè)AI計(jì)算開放架構(gòu),芯片層、軟件層、模型層實(shí)現(xiàn)“跨層協(xié)同”,使得曙光AI超集群系統(tǒng)完成對(duì)DeepSeek新版本的深度適配與調(diào)優(yōu),支持各行各業(yè)客戶進(jìn)行全量落地部署。

AI計(jì)算開放架構(gòu)原生具備“跨層聯(lián)動(dòng)”優(yōu)勢(shì),通過統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和接口規(guī)范,打通從底層硬件到上層應(yīng)用的全鏈路:

在芯片層,適配國(guó)產(chǎn)主流GPU加速卡,避免客戶被單一廠商鎖定;

在軟件層,DeepAI深算智能引擎發(fā)揮關(guān)鍵作用,內(nèi)置的GPU異構(gòu)計(jì)算工具套件在編程前端提供與CUDA邏輯完全一致的接口,使國(guó)產(chǎn)GPU廠商只需維護(hù)一套代碼即可無縫兼容CUDA;

在模型層,全面支持以DeepSeek為代表的全球主流開源大模型。

曙光AI超集群系統(tǒng)擁有“超高性能、超高效率、超高可靠、全面開放”四大特征,“跨層聯(lián)動(dòng)”優(yōu)勢(shì)使得曙光AI超集群可以充分利用自身的緊耦合系統(tǒng)設(shè)計(jì),快速適配DeepSeek-V3.2-Exp,并高效支持Tilelang算子,確保大模型算力“零等待”部署。

在不久前召開的2025人工智能計(jì)算大會(huì)上還發(fā)布《超節(jié)點(diǎn)智算應(yīng)用“北京方案”》,該方案以 “國(guó)芯、國(guó)連、國(guó)用” 為核心理念,精準(zhǔn)對(duì)接多元行業(yè)場(chǎng)景的智能體開發(fā)需求。

這一方案為“人工智能+”在各領(lǐng)域的深度落地提供了實(shí)踐路徑。從模型到芯片,從系統(tǒng)軟件到應(yīng)用生態(tài),國(guó)產(chǎn)AI產(chǎn)業(yè)的全棧協(xié)同格局正在形成。

結(jié)語(yǔ):

DeepSeek-V3.2-Exp與國(guó)產(chǎn)AI芯片的“零日之舞”,標(biāo)志著中國(guó)AI產(chǎn)業(yè)已從過去的“單點(diǎn)突破”正式進(jìn)入“生態(tài)協(xié)同”的新階段。這種軟硬件深度綁定的發(fā)展模式,正在為國(guó)產(chǎn)AI產(chǎn)業(yè)筑起堅(jiān)實(shí)的技術(shù)壁壘和生態(tài)優(yōu)勢(shì)。

分享到

lixiangjing

算力豹主編

相關(guān)推薦