文字編輯|宋雨涵

1

技術突破

小參數(shù)撬動大性能

高效架構設計

Seed1.5-VL由532M參數(shù)的視覺編碼器SeedViT與20B參數(shù)的MoE(混合專家)語言模型構成,通過分階段預訓練和強化學習策略,實現(xiàn)視覺與語言模態(tài)的高效融合。其視覺編碼器支持任意長寬比圖像輸入,結合MLP適配器優(yōu)化特征投影,顯著提升多模態(tài)任務的泛化能力。

性能對標國際巨頭

盡管參數(shù)規(guī)模僅為谷歌Gemini 2.5 Pro的1/4,Seed1.5-VL在視頻理解(19項基準中14項領先)、GUI智能體任務(7項中3項SOTA)及視覺推理等領域表現(xiàn)突出。例如,在復雜圖像定位任務中,模型可精準識別貨架商品并完成價格計算,或通過公務員圖形推理題測試,展示其結構化輸出能力。

成本優(yōu)勢顯著

推理成本僅為每千tokens輸入0.003元、輸出0.009元,較同類模型降低30%-50%。這一特性使其在交互式應用(如實時GUI控制、游戲代理)中更具商業(yè)落地潛力。

視覺定位、推理又快又準

比如上傳一張擺滿各式各樣牛奶的貨架圖片,讓它找出圖中有幾盒黃桃味果粒酸奶優(yōu)酸乳,并計算它們的價格。

這類任務看似簡單,實則非??简災P偷亩嗄B(tài)協(xié)同能力,需要它同時具備圖像理解(識別包裝)、文本OCR(識別價格標簽)、語義匹配(產品名稱匹配)、數(shù)學推理(乘法計算)等能力。

而Seed1.5-VL僅用不到10秒,就精準識別出貨架角落里的黃桃味酸奶優(yōu)酸乳,還準確數(shù)清瓶數(shù)、識別單價,并進行正確的價格計算。

技術解讀:

重新定義多模態(tài)視覺理解

一、核心架構:三模塊協(xié)同突破效率極限

視覺編碼器SeedViT(532M參數(shù))支持任意長寬比圖像/視頻輸入,突破傳統(tǒng)模型對固定分辨率的依賴;采用動態(tài)分塊策略,在降低計算冗余的同時提升細粒度特征提取能力(如商品LOGO識別、圖表數(shù)據(jù)解析)。

MLP適配器(視覺-語言橋梁)通過多層感知機實現(xiàn)視覺特征到多模態(tài)空間的非線性映射,解決傳統(tǒng)線性投影導致的信息損失問題;實驗顯示,該設計使跨模態(tài)對齊效率提升37%(對比CLIP架構)。

MoE語言模型(20B激活參數(shù))基于混合專家架構動態(tài)激活參數(shù),單次推理僅調用1/8專家模塊;在GUI操作指令理解任務中,專家路由機制精準分配任務至代碼生成、界面元素解析等子模塊。

二、分階段進化與強化學習閉環(huán)

Seed1.5-VL并未從一開始就進行聯(lián)合多模態(tài)學習,而是選擇了在語言模型基座上進行多模態(tài)預訓練,以實現(xiàn)靈活的消融實驗和快速迭代開發(fā)。

整個預訓練過程分為三個階段:初期僅訓練MLP適配器以初步對齊視覺和語言表征;中期解凍所有參數(shù),在大規(guī)模圖文數(shù)據(jù)中強化知識積累、視覺 grounding和OCR能力;后期在更均衡的數(shù)據(jù)混合中加入視頻、編程、三維理解等新領域數(shù)據(jù),并將序列長度顯著增加,以處理復雜場景和長序列依賴。

到了后訓練階段,Seed1.5-VL引入了監(jiān)督微調(SFT)與強化學習(RL)的組合策略。

結語

效率與成本重構AI競爭維度

Seed1.5-VL的誕生標志著多模態(tài)AI進入“精益時代”——不再單純比拼參數(shù)規(guī)模,而是通過架構革新、訓練策略優(yōu)化和工程極致打磨,在有限算力下釋放最大效能。這種“中國式創(chuàng)新”或將重塑全球AI競爭格局,推動智能技術從實驗室精英主義走向產業(yè)普惠主義。

分享到

lixiangjing

算力豹主編

相關推薦