尹人香蕉久久99天天拍,一个人免费高清在线观看

I2VGen-XL在魔搭社區(qū)開放體驗

和業(yè)界爆火的AI繪畫創(chuàng)作大模型不同，視頻生成大模型的技術門檻更高，其需要克服文本和視頻內(nèi)容匹配度、視頻畫面質(zhì)量、畫面連續(xù)性等諸多技術挑戰(zhàn)。在此之前，阿里云和微軟等科技公司相繼推出一系列可控視頻生成研究成果，例如用戶可通過定義空間布局、運動模式等條件來生成視頻，但其畫面清晰度難以滿足真實場景應用的需求。

針對該問題，阿里云進一步提出創(chuàng)新思路，I2VGen-XL模型設計了兩個階段，首先在低分辨率條件下保證生成結(jié)果和給定圖像語義的匹配度，隨后通過視頻擴散模型(VLDM)來提高視頻分辨率，并同時提升時間和空間上的一致性，保證最終視頻內(nèi)容的清晰度和連貫性，最終實現(xiàn)1280*720高分辨率的突破，并且在畫面細節(jié)的展現(xiàn)上大幅領先現(xiàn)有模型。據(jù)介紹，該模型的訓練還使用了多種風格的視頻數(shù)據(jù)，因此可生成科技感、電影色、卡通風格和素描等類型豐富的視頻。

目前，I2VGen-XL的模型和代碼均已開源，國內(nèi)外社交媒體顯示，該模型已吸引國內(nèi)外用戶和開發(fā)者的廣泛體驗和二次開發(fā)，涌現(xiàn)了大量創(chuàng)意AI視頻生成內(nèi)容，例如在城堡上展翅的恐龍、宇航員在飛船中行走的科幻電影畫面等等……知名AI社交媒體分析師Ahsen Khaliq在推特發(fā)布多條由該模型生成的視頻效果，并表示模型在清晰度、紋理、語義和時間連續(xù)性方面有優(yōu)勢。

在視覺生成領域，阿里云此前已推出AI繪畫創(chuàng)作大模型通義萬相（基座模型Composer）和可控視頻生成模型VideoComposer，團隊在該領域發(fā)表60多篇CCF-A類論文，并在國際頂級視覺競賽中獲得10余項冠軍。

模型體驗鏈接：https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary

分享到

阿里云

xiesc

相關推薦

近期文章

熱門標簽