和業(yè)界爆火的AI繪畫創(chuàng)作大模型不同,視頻生成大模型的技術門檻更高,其需要克服文本和視頻內(nèi)容匹配度、視頻畫面質(zhì)量、畫面連續(xù)性等諸多技術挑戰(zhàn)。在此之前,阿里云和微軟等科技公司相繼推出一系列可控視頻生成研究成果,例如用戶可通過定義空間布局、運動模式等條件來生成視頻,但其畫面清晰度難以滿足真實場景應用的需求。
針對該問題,阿里云進一步提出創(chuàng)新思路,I2VGen-XL模型設計了兩個階段,首先在低分辨率條件下保證生成結(jié)果和給定圖像語義的匹配度,隨后通過視頻擴散模型(VLDM)來提高視頻分辨率,并同時提升時間和空間上的一致性,保證最終視頻內(nèi)容的清晰度和連貫性,最終實現(xiàn)1280*720高分辨率的突破,并且在畫面細節(jié)的展現(xiàn)上大幅領先現(xiàn)有模型。據(jù)介紹,該模型的訓練還使用了多種風格的視頻數(shù)據(jù),因此可生成科技感、電影色、卡通風格和素描等類型豐富的視頻。
目前,I2VGen-XL的模型和代碼均已開源,國內(nèi)外社交媒體顯示,該模型已吸引國內(nèi)外用戶和開發(fā)者的廣泛體驗和二次開發(fā),涌現(xiàn)了大量創(chuàng)意AI視頻生成內(nèi)容,例如在城堡上展翅的恐龍、宇航員在飛船中行走的科幻電影畫面等等……知名AI社交媒體分析師Ahsen Khaliq在推特發(fā)布多條由該模型生成的視頻效果,并表示模型在清晰度、紋理、語義和時間連續(xù)性方面有優(yōu)勢。
在視覺生成領域,阿里云此前已推出AI繪畫創(chuàng)作大模型通義萬相(基座模型Composer)和可控視頻生成模型VideoComposer,團隊在該領域發(fā)表60多篇CCF-A類論文,并在國際頂級視覺競賽中獲得10余項冠軍。
模型體驗鏈接:https://modelscope.cn/studios/damo/I2VGen-XL-Demo/summary