谷歌可謂是向OpenAI發(fā)起了新一輪的強勁挑戰(zhàn)。新問世的Veo 2,憑借其卓越表現(xiàn),已贏得了眾多用戶的青睞,他們紛紛表示該模型“已超越Sora”。
作為谷歌當前最尖端的視頻生成模型,Veo 2在捕捉現(xiàn)實世界的物理運動及細微差別方面展現(xiàn)出了非凡的實力,同時,它還深度理解了電影攝影的精髓(如鏡頭類型與效果),并支持最高可達4K的分辨率,為用戶帶來了前所未有的視覺盛宴。
沒有對比就沒有傷害
讓我們通過一個實例來說明,當我們使用相同的提示“一雙巧手在木制砧板上熟練地切著一個熟透的西紅柿”來生成一個切西紅柿的視頻時,會觀察到怎樣的差異。
在Veo 2的呈現(xiàn)中,西紅柿會隨著刀刃的前后移動而自然地滾動,其被切割后的橫斷面清晰可見,細節(jié)逼真。盡管切片略顯厚實,但每一片的厚度都保持了一致性,且能夠整齊地疊放在一起,展現(xiàn)出了高度的真實感和精細度。
相比之下,Sora的表現(xiàn)則顯得有些令人啼笑皆非。它似乎完全忽略了西紅柿的存在,而是對著手指瘋狂地揮刀,仿佛是在進行一場毫無意義的動作表演。結(jié)果,即便“切”了半天,西紅柿依然完好無損地留在那里,絲毫未損,這與我們的預期大相徑庭。
Veo 2強勢升級,4K電影級畫質(zhì)
設(shè)想一下,僅憑簡短的文字描述,就能輕松生成分辨率高達4K、時長可觀的精致視頻。Veo 2正是這樣一項具有顛覆性的創(chuàng)新技術(shù)。它能夠響應從簡單到復雜的各種指令,并在物理模擬的過程中,呈現(xiàn)出令人贊嘆的生成質(zhì)量。
如今,使用Veo 2就如同與一位電影攝影師進行溝通一般自然。你無需再耗費精力去討論技術(shù)參數(shù),或是去猜測那些復雜的標題,只需用日常習慣的術(shù)語,清晰地表達出自己想要的內(nèi)容,Veo 2就能為你呈現(xiàn)出理想中的視頻效果。
另外,我們還可以進行更精確的相機控制,比如下圖就是一個包含第一人稱視角、轉(zhuǎn)移焦點的提示。可以看到,車內(nèi)的皮革內(nèi)飾、車速表等高頻細節(jié),給人留下極其深刻的印象。
更加令人稱奇的是Veo 2對于專業(yè)攝影術(shù)語的精準把握。只需在指令中鍵入“18mm lens”,Veo 2便能立刻理解并創(chuàng)建出廣角鏡頭的拍攝效果;同樣,若是在指令中加入“淺景深”,它便能巧妙地模糊背景,使主體更加突出。
不僅如此,Veo 2在生成視頻時極少出現(xiàn)“幻覺”現(xiàn)象,比如AI視頻中常見的多指問題。以沃頓商學院教授Ethan Mollick實測Sora的案例為例,在一段展示水獺在飛機上使用WiFi的畫面中,Sora竟錯誤地給水獺加上了人類的手,這一詭異現(xiàn)象在Veo 2上則極少發(fā)生。
看看Veo 2在雙手細節(jié)的生成,堪稱極致。
當然,Veo 2生成的視頻,并非沒有破綻。它在創(chuàng)建逼真、充滿活力或復雜的視頻,以及在復雜的運動場景中,難以保持一致性。
通過人類評估,Veo 2模型在與幾大頂尖視頻模型的對比中,脫穎而出。它不僅僅是簡單地生成視頻,更是對現(xiàn)實世界物理規(guī)律、人類動作,表情方面得到了極致的理解。
測試統(tǒng)一在720p分辨率下進行,其中Veo生成8秒視頻,VideoGen生成10秒視頻,其他模型則生成5秒視頻。評分者觀看了所有視頻的完整長度。
注意看,對比測試對象中也出現(xiàn)了國產(chǎn)AI視頻模型(可靈AI、Minimax)以及最新發(fā)布的Sora Turbo。
所有比較均在720p分辨率下進行。Veo的視頻樣本長度為8秒,VideoGen的為10秒,其他模型的為5秒。評分者將看到完整視頻長度。
盡管Veo 2取得了顯著進步,但在生成真實、動態(tài)或復雜場景的視頻時,仍面臨著保持場景連貫性的挑戰(zhàn)。DeepMind表示將持續(xù)優(yōu)化這些領(lǐng)域的性能。
DeepMind產(chǎn)品副總裁Eli Collins對媒體表示,隨著模型逐漸具備規(guī)?;褂玫臏蕚?,谷歌將通過其Vertex AI開發(fā)者平臺提供Veo 2。
“未來幾個月,我們將根據(jù)用戶反饋持續(xù)迭代,并尋求將Veo 2的更新能力整合到谷歌生態(tài)系統(tǒng)中的相關(guān)應用中……我們預計明年會分享更多的更新內(nèi)容?!?/p>
Imagen 3也實現(xiàn)重大突破
新版本不僅支持創(chuàng)作多種藝術(shù)風格(包括現(xiàn)實主義、幻想、肖像等),能夠更精確地將文字描述轉(zhuǎn)化為圖像,以及生成更明亮、構(gòu)圖更協(xié)調(diào)的視覺作品。
Imagen 3模型在圖像構(gòu)圖和細節(jié)準確性方面得到了增強,支持從寫實到抽象的各種風格,能夠生成更豐富的紋理,并更加忠實地回應用戶提示。
目前,Imagen 3已經(jīng)通過谷歌實驗室的ImageFX工具在100多個國家上線,全球用戶可以試驗其尖端功能。
此外,谷歌還推出了Whisk,這是一款結(jié)合了Imagen 3和Gemini視覺分析能力的創(chuàng)意工具。用戶可以輸入圖像,生成詳細的文字描述、重新混合風格,或設(shè)計個性化作品,如數(shù)字玩偶或搪瓷徽章。
谷歌介紹,Whisk結(jié)合了Imagen 3模型和Gemini的視覺理解與描述能力。Gemini模型會自動為用戶的圖像生成詳細的文字描述,并將這些描述傳遞給Imagen 3。這一過程讓用戶能夠以有趣的新方式重新混合主題、場景和風格。
寫在最后
谷歌還推出了名為Whisk的新工具,它結(jié)合了Imagen 3和Gemini視覺分析能力。Whisk可以讓用戶上傳圖像并自動生成詳細的文字描述、重新混合風格或設(shè)計個性化作品,如數(shù)字玩偶或徽章。通過Gemini模型,Whisk能理解圖像內(nèi)容并生成與之相匹配的文字描述,進一步豐富了創(chuàng)作和個性化的可能性。
谷歌推出的Veo 2視頻生成工具和Imagen 3圖像生成模型在AI創(chuàng)作領(lǐng)域具有重大意義。這些更新不僅提升了視頻和圖像生成的質(zhì)量和真實感,還為創(chuàng)作者提供了更多定制化和個性化的選項。隨著這些模型的不斷迭代和廣泛應用,預計將對創(chuàng)意工作流程和各行各業(yè)產(chǎn)生深遠影響。(文/宋雨涵)