*表格中,其它模型的評測指標來自官方評測結果,官方評測結果中不包含部分來自混元內部評測平臺

據(jù)介紹,通過長短思維鏈融合,騰訊混元Turbo S 在保持文科類問題快思考體驗的同時,基于自研混元 T1 慢思考模型合成的長思維鏈數(shù)據(jù),顯著改進了理科推理能力,實現(xiàn)模型整體效果提升。

架構方面,通過創(chuàng)新性地采用了Hybrid-Mamba-Transformer 融合模式,混元Turbo S有效降低了傳統(tǒng)Transformer結構的計算復雜度,減少了KV-Cache緩存占用,實現(xiàn)訓練和推理成本的下降。新的融合模式突破了傳統(tǒng)純 Transformer 結構大模型面臨的長文訓練和推理成本高的難題,一方面發(fā)揮了Mamba 高效處理長序列的能力,也保留 Transformer 擅于捕捉復雜上下文的優(yōu)勢,構建了顯存與計算效率雙優(yōu)的混合架構,這是工業(yè)界首次成功將Mamba架構無損地應用在超大型MoE模型上。

作為旗艦模型,Turbo S未來將成為騰訊混元系列衍生模型的核心基座,為推理、長文、代碼等衍生模型提供基礎能力。基于Turbo S,通過引入長思維鏈、檢索增強和強化學習等技術,騰訊自研了推理模型 T1,該模型已在騰訊元寶上線,用戶可以選擇Deepseek R1 或騰訊混元T1模型進行回答。騰訊混元表示,正式版的騰訊混元T1模型API也將很快上線,對外提供接入服務。

開發(fā)者和企業(yè)用戶已經可以在騰訊云上通過API調用騰訊混元Turbo S,即日起一周內免費試用。定價上,Turbo S 輸入價格為0.8元/百萬tokens,輸出價格為2元/百萬tokens,相比前代混元Turbo模型價格下降數(shù)倍。

騰訊混元Turbo S模型免費試用申請:
https://cloud.tencent.com/apply/p/i2zophus2x8

分享到

nina

相關推薦