在线播放人成视频观看,在线播放国产不卡免费视频

9月28日，騰訊混元發(fā)布并開源原生多模態(tài)生圖模型“混元圖像3.0（HunyuanImage 3.0）”，參數(shù)規(guī)模高達80B。這是首個開源工業(yè)級原生多模態(tài)生圖模型，也是目前效果最好、參數(shù)量最大的開源生圖模型，效果對標(biāo)業(yè)界頭部閉源模型。

用戶訪問電腦端騰訊混元官網(wǎng)（https://hunyuan.tencent.com/image）即可體驗混元圖像3.0，模型將逐步上線元寶；同時模型權(quán)重和加速版本已在Github、Hugging Face等開源社區(qū)發(fā)布，企業(yè)和個人開發(fā)者可直接下載并免費使用。

混元圖像3.0具備常識并能夠利用知識進行推理；同時語義理解準(zhǔn)確度高，并具備極致美學(xué)質(zhì)感，能生成真實的高質(zhì)感圖片；可以解析千字級別的復(fù)雜語義，生成長文本文字，整體圖像生成效果業(yè)界領(lǐng)先。

原生多模態(tài)指在技術(shù)架構(gòu)上，通過一個模型完成文字、圖片、視頻與音頻等多個模態(tài)的輸入與輸出，而非通過多個模型的組合實現(xiàn)圖文理解、圖片生成等任務(wù)?；煸獔D像3.0是業(yè)界首個開源工業(yè)級原生多模態(tài)生圖模型。

這意味著，混元圖像3.0不僅擁有生圖模型的畫畫能力，還具備語言模型的思考能力和常識。它就像一個自帶“大腦”的畫家，可以利用智能去思考圖像的布局、構(gòu)圖、筆觸，利用世界知識去推理常識性的畫面。

比如，用戶只需要輸入提示詞：“生成一個月全食的四格科普漫畫”，模型就可以自主生成完整的月全食科普，無需用戶描述逐格內(nèi)容。

同時，混元圖像3.0語義理解能力和美學(xué)質(zhì)感也得到了大幅提升，可以實現(xiàn)對用戶指令的精確生成，包括圖片中的文字生成，都能較好地實現(xiàn)。

比如輸入“你是一個小紅書穿搭博主，請根據(jù)模特穿搭生成一張封面圖片，要求： 1.畫面左側(cè)是模特的OOTD全身圖；2.右側(cè)是衣服的展示，分別是上衣深棕色夾克、下裝黑色百褶短裙、棕色靴子、黑色包包風(fēng)格：實物攝影，要求真實，有氛圍感，秋季美拉德色系穿搭”。在這個提示詞下，混元圖像3.0可以準(zhǔn)確地把左側(cè)博主的穿搭分解成右側(cè)單獨的衣物。

再如有復(fù)雜文字要求的海報類需求，混元圖像3.0也可以很好地生成。海報商品圖中，西紅柿水珠新鮮飽滿、紅潤欲滴、質(zhì)感誘人，具備高品質(zhì)拍攝質(zhì)感，同時海報中頂部、底部、點綴等各處的文字都能順利呈現(xiàn)，畫面層次清晰，整體配色與布局十分和諧，兼具美觀與實用價值。

這張體現(xiàn)有月亮、企鵝和月餅的中秋節(jié)創(chuàng)意海報，混元3.0也能很好地完成。

可以看到，混元圖像3.0不僅能生成復(fù)雜文本、復(fù)雜漫畫、表情包，還能生成生動有趣的科普插畫。這些能力能夠大幅提升插畫師、設(shè)計師等視覺創(chuàng)作者的效率，原來可能需要畫幾個小時的漫畫，現(xiàn)在可能只需要幾分鐘就能實現(xiàn)；同時，沒有美術(shù)功底和設(shè)計經(jīng)驗的內(nèi)容創(chuàng)作者，也能創(chuàng)作出更豐富、生動的視覺內(nèi)容。行業(yè)與學(xué)界研究者、企業(yè)與個人開發(fā)者，均可基于混元圖像3.0進行應(yīng)用研發(fā)或二次開發(fā)，制作相關(guān)衍生模型。

在文生圖領(lǐng)域，當(dāng)前學(xué)術(shù)界和業(yè)界正在從傳統(tǒng)DiT轉(zhuǎn)向原生多模態(tài)模型架構(gòu)。當(dāng)前業(yè)界已經(jīng)有一些開源的模型，但都是小模型，偏向于學(xué)術(shù)研究和實驗階段，生圖效果也離工業(yè)界最優(yōu)效果有較大差距。

作為原生多模態(tài)開源模型，混元圖像3.0需要對模型整體架構(gòu)進行重構(gòu)，以支持多任務(wù)的訓(xùn)練，并實現(xiàn)多任務(wù)效果之間的相互促進?；煸獔D像3.0以Hunyuan-A13B為基礎(chǔ)，基于50億量級的圖文對，視頻幀，圖文交織數(shù)據(jù)和6T的語料數(shù)據(jù)進行了多模態(tài)生成、理解和LLM的混合訓(xùn)練，使得模型能夠充分融合多任務(wù)效果；實現(xiàn)超強的語義理解能力，能夠響應(yīng)復(fù)雜的長文本，生成長文本文字，同時具有LLM的世界知識，能夠利用世界知識進行推理。

騰訊混元團隊透露，混元圖像3.0目前的版本僅開放了文生圖能力，圖生圖、圖像編輯、多輪交互等版本將于后續(xù)發(fā)布。

一直以來，騰訊混元在圖像生成領(lǐng)域持續(xù)深耕，曾發(fā)布首個開源中文原生DiT架構(gòu)圖像大模型“混元DiT”、開源原生2K模型“混元圖像2.1”，以及業(yè)界首個工業(yè)級實時生圖模型——混元圖像2.0。

同時，騰訊混元堅定擁抱開源，陸續(xù)開放了多種尺寸語言模型，圖像、視頻、3D等完整多模態(tài)生成能力和工具集插件，提供接近商業(yè)模型性能的開源基座。圖像、視頻衍生模型數(shù)量總數(shù)達到3000個，混元3D系列模型社區(qū)下載量超過230萬，已成為全球最受歡迎的3D開源模型。

<big id="rktrq"><rt id="rktrq"></rt></big>^{<blockquote id="rktrq"></blockquote>}

nina

相關(guān)推薦

近期文章

熱門標(biāo)簽