9月28日,騰訊混元發(fā)布并開源原生多模態(tài)生圖模型“混元圖像3.0(HunyuanImage 3.0)”,參數(shù)規(guī)模高達80B。這是首個開源工業(yè)級原生多模態(tài)生圖模型,也是目前效果最好、參數(shù)量最大的開源生圖模型,效果對標(biāo)業(yè)界頭部閉源模型。

用戶訪問電腦端騰訊混元官網(wǎng)(https://hunyuan.tencent.com/image)即可體驗混元圖像3.0,模型將逐步上線元寶;同時模型權(quán)重和加速版本已在Github、Hugging Face等開源社區(qū)發(fā)布,企業(yè)和個人開發(fā)者可直接下載并免費使用。

混元圖像3.0具備常識并能夠利用知識進行推理;同時語義理解準(zhǔn)確度高,并具備極致美學(xué)質(zhì)感,能生成真實的高質(zhì)感圖片;可以解析千字級別的復(fù)雜語義,生成長文本文字,整體圖像生成效果業(yè)界領(lǐng)先。

原生多模態(tài)指在技術(shù)架構(gòu)上,通過一個模型完成文字、圖片、視頻與音頻等多個模態(tài)的輸入與輸出,而非通過多個模型的組合實現(xiàn)圖文理解、圖片生成等任務(wù)?;煸獔D像3.0是業(yè)界首個開源工業(yè)級原生多模態(tài)生圖模型。

這意味著,混元圖像3.0不僅擁有生圖模型的畫畫能力,還具備語言模型的思考能力和常識。它就像一個自帶“大腦”的畫家,可以利用智能去思考圖像的布局、構(gòu)圖、筆觸,利用世界知識去推理常識性的畫面。

比如,用戶只需要輸入提示詞:“生成一個月全食的四格科普漫畫”,模型就可以自主生成完整的月全食科普,無需用戶描述逐格內(nèi)容。

同時,混元圖像3.0語義理解能力和美學(xué)質(zhì)感也得到了大幅提升,可以實現(xiàn)對用戶指令的精確生成,包括圖片中的文字生成,都能較好地實現(xiàn)。

比如輸入“你是一個小紅書穿搭博主,請根據(jù)模特穿搭生成一張封面圖片,要求: 1.畫面左側(cè)是模特的OOTD全身圖;2.右側(cè)是衣服的展示,分別是上衣深棕色夾克、下裝黑色百褶短裙、棕色靴子、黑色包包 風(fēng)格:實物攝影,要求真實,有氛圍感,秋季美拉德色系穿搭”。在這個提示詞下,混元圖像3.0可以準(zhǔn)確地把左側(cè)博主的穿搭分解成右側(cè)單獨的衣物。

再如有復(fù)雜文字要求的海報類需求,混元圖像3.0也可以很好地生成。海報商品圖中,西紅柿水珠新鮮飽滿、紅潤欲滴、質(zhì)感誘人,具備高品質(zhì)拍攝質(zhì)感,同時海報中頂部、底部、點綴等各處的文字都能順利呈現(xiàn),畫面層次清晰,整體配色與布局十分和諧,兼具美觀與實用價值。

這張體現(xiàn)有月亮、企鵝和月餅的中秋節(jié)創(chuàng)意海報,混元3.0也能很好地完成。

可以看到,混元圖像3.0不僅能生成復(fù)雜文本、復(fù)雜漫畫、表情包,還能生成生動有趣的科普插畫。這些能力能夠大幅提升插畫師、設(shè)計師等視覺創(chuàng)作者的效率,原來可能需要畫幾個小時的漫畫,現(xiàn)在可能只需要幾分鐘就能實現(xiàn);同時,沒有美術(shù)功底和設(shè)計經(jīng)驗的內(nèi)容創(chuàng)作者,也能創(chuàng)作出更豐富、生動的視覺內(nèi)容。行業(yè)與學(xué)界研究者、企業(yè)與個人開發(fā)者,均可基于混元圖像3.0進行應(yīng)用研發(fā)或二次開發(fā),制作相關(guān)衍生模型。

在文生圖領(lǐng)域,當(dāng)前學(xué)術(shù)界和業(yè)界正在從傳統(tǒng)DiT轉(zhuǎn)向原生多模態(tài)模型架構(gòu)。當(dāng)前業(yè)界已經(jīng)有一些開源的模型,但都是小模型,偏向于學(xué)術(shù)研究和實驗階段,生圖效果也離工業(yè)界最優(yōu)效果有較大差距。

作為原生多模態(tài)開源模型,混元圖像3.0需要對模型整體架構(gòu)進行重構(gòu),以支持多任務(wù)的訓(xùn)練,并實現(xiàn)多任務(wù)效果之間的相互促進?;煸獔D像3.0以Hunyuan-A13B為基礎(chǔ),基于50億量級的圖文對,視頻幀,圖文交織數(shù)據(jù)和6T的語料數(shù)據(jù)進行了多模態(tài)生成、理解和LLM的混合訓(xùn)練,使得模型能夠充分融合多任務(wù)效果;實現(xiàn)超強的語義理解能力,能夠響應(yīng)復(fù)雜的長文本,生成長文本文字,同時具有LLM的世界知識,能夠利用世界知識進行推理。

騰訊混元團隊透露,混元圖像3.0目前的版本僅開放了文生圖能力,圖生圖、圖像編輯、多輪交互等版本將于后續(xù)發(fā)布。

一直以來,騰訊混元在圖像生成領(lǐng)域持續(xù)深耕,曾發(fā)布首個開源中文原生DiT架構(gòu)圖像大模型“混元DiT”、開源原生2K模型“混元圖像2.1”,以及業(yè)界首個工業(yè)級實時生圖模型——混元圖像2.0。

同時,騰訊混元堅定擁抱開源,陸續(xù)開放了多種尺寸語言模型,圖像、視頻、3D等完整多模態(tài)生成能力和工具集插件,提供接近商業(yè)模型性能的開源基座。圖像、視頻衍生模型數(shù)量總數(shù)達到3000個,混元3D系列模型社區(qū)下載量超過230萬,已成為全球最受歡迎的3D開源模型。

分享到

nina

相關(guān)推薦