3月21日,中國科技巨頭騰訊與全球芯片霸主英偉達(dá)幾乎同步發(fā)布基于Mamba-Transformer混合架構(gòu)的新一代大模型,分別推出混元T1與Nemotron-H系列。兩大科技巨頭的動(dòng)作不僅標(biāo)志著混合架構(gòu)技術(shù)從實(shí)驗(yàn)室走向工業(yè)級(jí)應(yīng)用,更揭示了AI大模型在長文本處理、超低延遲推理、硬件適配性等領(lǐng)域的核心競(jìng)爭焦點(diǎn)。

文字編輯|宋雨涵

1

騰訊混元T1

首字秒出,吐字速度達(dá)80 token/s的“深度思考者”

該模型的前身是,今年2月中旬混元團(tuán)隊(duì)在騰訊元寶APP上線的基于混元中等規(guī)模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。

相比于T1-Preview,T1正式版基于騰訊混元3月初發(fā)布的業(yè)界首個(gè)超大規(guī)模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,通過大規(guī)模后訓(xùn)練擴(kuò)展了推理能力,并進(jìn)一步對(duì)齊人類偏好,這也是工業(yè)界首次將混合Mamba架構(gòu)無損應(yīng)用于超大型推理模型。

T1在多個(gè)公開數(shù)據(jù)集的評(píng)測(cè)結(jié)果顯示,在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識(shí)和競(jìng)賽級(jí)數(shù)學(xué)、邏輯推理指標(biāo)上基本持平或略超R1。

目前,T1已在騰訊云官網(wǎng)上線,輸入價(jià)格為每百萬tokens 1元,輸出價(jià)格為每百萬tokens 4元,輸出價(jià)格為DeepSeek標(biāo)準(zhǔn)時(shí)段的1/4,與DeepSeek優(yōu)惠時(shí)段一致。

其核心突破體現(xiàn)在三大維度

超低延遲推理:通過動(dòng)態(tài)KV-Cache壓縮算法,將傳統(tǒng)Transformer的內(nèi)存占用降低40%,實(shí)現(xiàn)首字秒出(First Token Prompt)和80 token/s的吐字速度,在實(shí)時(shí)交互場(chǎng)景中優(yōu)勢(shì)顯著。

長文本處理:針對(duì)學(xué)術(shù)論文、法律文書等超長文本場(chǎng)景,混合架構(gòu)通過Mamba的線性復(fù)雜度特性優(yōu)化長序列計(jì)算,使解碼速度提升2倍,同時(shí)保持99.2%的上下文完整性。

強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理能力:在數(shù)學(xué)、邏輯推理等硬核領(lǐng)域,混元T1通過大規(guī)模強(qiáng)化學(xué)習(xí)微調(diào),在MMLU-PRO基準(zhǔn)測(cè)試中以87.2分超越GPT-4.5(86.1分),逼近OpenAI o1(89.3分)。

2

英偉達(dá)也推出混合架構(gòu)模型

英偉達(dá)Nemotron-H

在NVIDIA GTC 2025大會(huì)上,NVIDIA宣布推出具有推理功能的開放Llama Nemotron模型系列。這一新系列旨在為開發(fā)人員和企業(yè)提供強(qiáng)大的基礎(chǔ),以創(chuàng)建能夠獨(dú)立工作或協(xié)作解決復(fù)雜任務(wù)的高級(jí)AI Agents。

Llama Nemotron推理系列基于Llama模型構(gòu)建,并經(jīng)過了多個(gè)強(qiáng)化學(xué)習(xí)(RL)階段的后期訓(xùn)練,使用了REINFORCE (RLOO) 和RPO算法來優(yōu)化聊天和指令遵循能力。該模型適用于推理、人類聊天偏好以及RAG(檢索增強(qiáng)生成)和工具調(diào)用等多種任務(wù),并支持長達(dá)128K個(gè)標(biāo)記的上下文長度。

此外,NVIDIA AI Enterprise還推出了最新的Agentic AI構(gòu)建模塊,包括NVIDIA AI-Q藍(lán)圖、AI數(shù)據(jù)平臺(tái)、NIM微服務(wù)和NeMo微服務(wù)。這些工具和軟件旨在簡化高級(jí)推理模型的部署和優(yōu)化,從而加速協(xié)作AI系統(tǒng)的開發(fā)和應(yīng)用。

NVIDIA AI-Q藍(lán)圖使企業(yè)能夠?qū)⒅R(shí)連接到能夠自主感知、推理和行動(dòng)的AI Agents。該藍(lán)圖采用NVIDIA NIM微服務(wù)構(gòu)建,并集成了NVIDIA NeMo Retriever?以實(shí)現(xiàn)多模式信息檢索。同時(shí),NVIDIA AgentIQ工具包也被用于實(shí)現(xiàn)Agents和數(shù)據(jù)連接、優(yōu)化和透明度,并且已經(jīng)開源。

此次推出的Llama Nemotron推理模型系列和Agentic AI構(gòu)建模塊,將為開發(fā)人員和企業(yè)提供更多選擇和工具,以推動(dòng)AI技術(shù)的創(chuàng)新和應(yīng)用。

其技術(shù)亮點(diǎn)包括

極致推理效率

在MMLU-Pro基準(zhǔn)測(cè)試中,Nemotron-H-56B以FP4精度實(shí)現(xiàn)3倍于純Transformer模型的吞吐量,單卡RTX 5090即可支持百萬token長上下文推理。

硬件深度適配

通過掃描算法(Scan)優(yōu)化與混合精度流水線,在昇騰910B集群上訓(xùn)練時(shí),顯存占用降低18%,推理延遲減少23%。

開源生態(tài)布局

作為物理AI框架Cosmos-Reason 1的骨干網(wǎng)絡(luò),Nemotron-H-47B(蒸餾版)以630億token訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)與千億模型相當(dāng)?shù)木?,推?dòng)科研機(jī)構(gòu)低成本復(fù)現(xiàn)前沿成果。

Mamba-Transformer混合架構(gòu)

當(dāng)前主流的混合架構(gòu)主要采用層級(jí)混合與序列級(jí)混合兩種策略:

層級(jí)混合(騰訊混元T1):

Mamba模塊:處理長序列數(shù)據(jù)(如法律文書、代碼生成),通過SSD理論打通與Transformer的數(shù)學(xué)關(guān)聯(lián),減少KV-Cache內(nèi)存占用40%。

Transformer模塊:保留全局注意力機(jī)制,確保復(fù)雜上下文捕捉能力,避免長文本推理中的信息丟失。

動(dòng)態(tài)路由機(jī)制:根據(jù)輸入序列長度自動(dòng)分配計(jì)算資源,短序列優(yōu)先使用Transformer,長序列調(diào)用Mamba模塊優(yōu)化效率。

序列級(jí)混合(英偉達(dá)Nemotron-H):

在每個(gè)序列位置動(dòng)態(tài)選擇Mamba或Transformer計(jì)算路徑,實(shí)現(xiàn)首字響應(yīng)時(shí)間<500ms,吐字速度達(dá)80 token/s。

通過掃描算法(Scan)替代傳統(tǒng)卷積,使單卡RTX 5090即可支持百萬token長上下文推理。

寫在最后

從混元T1的“秒級(jí)響應(yīng)”到Nemotron-H的“物理級(jí)精度”,混合架構(gòu)技術(shù)正在解構(gòu)AI發(fā)展的底層邏輯。正如英偉達(dá)創(chuàng)始人黃仁勛在GTC 2025所言:“軟件優(yōu)化才是釋放硬件潛能的終極密碼?!蔽磥恚@場(chǎng)由架構(gòu)創(chuàng)新引發(fā)的變革,或?qū)⒅厮軓臄?shù)據(jù)中心到邊緣計(jì)算的整個(gè)AI生態(tài)。

分享到

lixiangjing

算力豹主編

相關(guān)推薦