亚洲国产成人久久一区久久,亚洲欧美日韩综合国产

谷歌可謂是向OpenAI發(fā)起了新一輪的強勁挑戰(zhàn)。新問世的Veo 2，憑借其卓越表現(xiàn)，已贏得了眾多用戶的青睞，他們紛紛表示該模型“已超越Sora”。

作為谷歌當前最尖端的視頻生成模型，Veo 2在捕捉現(xiàn)實世界的物理運動及細微差別方面展現(xiàn)出了非凡的實力，同時，它還深度理解了電影攝影的精髓（如鏡頭類型與效果），并支持最高可達4K的分辨率，為用戶帶來了前所未有的視覺盛宴。

沒有對比就沒有傷害

讓我們通過一個實例來說明，當我們使用相同的提示“一雙巧手在木制砧板上熟練地切著一個熟透的西紅柿”來生成一個切西紅柿的視頻時，會觀察到怎樣的差異。

在Veo 2的呈現(xiàn)中，西紅柿會隨著刀刃的前后移動而自然地滾動，其被切割后的橫斷面清晰可見，細節(jié)逼真。盡管切片略顯厚實，但每一片的厚度都保持了一致性，且能夠整齊地疊放在一起，展現(xiàn)出了高度的真實感和精細度。

相比之下，Sora的表現(xiàn)則顯得有些令人啼笑皆非。它似乎完全忽略了西紅柿的存在，而是對著手指瘋狂地揮刀，仿佛是在進行一場毫無意義的動作表演。結(jié)果，即便“切”了半天，西紅柿依然完好無損地留在那里，絲毫未損，這與我們的預期大相徑庭。

Veo 2強勢升級，4K電影級畫質(zhì)

設想一下，僅憑簡短的文字描述，就能輕松生成分辨率高達4K、時長可觀的精致視頻。Veo 2正是這樣一項具有顛覆性的創(chuàng)新技術。它能夠響應從簡單到復雜的各種指令，并在物理模擬的過程中，呈現(xiàn)出令人贊嘆的生成質(zhì)量。

如今，使用Veo 2就如同與一位電影攝影師進行溝通一般自然。你無需再耗費精力去討論技術參數(shù)，或是去猜測那些復雜的標題，只需用日常習慣的術語，清晰地表達出自己想要的內(nèi)容，Veo 2就能為你呈現(xiàn)出理想中的視頻效果。

另外，我們還可以進行更精確的相機控制，比如下圖就是一個包含第一人稱視角、轉(zhuǎn)移焦點的提示?？梢钥吹剑噧?nèi)的皮革內(nèi)飾、車速表等高頻細節(jié)，給人留下極其深刻的印象。

更加令人稱奇的是Veo 2對于專業(yè)攝影術語的精準把握。只需在指令中鍵入“18mm lens”，Veo 2便能立刻理解并創(chuàng)建出廣角鏡頭的拍攝效果；同樣，若是在指令中加入“淺景深”，它便能巧妙地模糊背景，使主體更加突出。

不僅如此，Veo 2在生成視頻時極少出現(xiàn)“幻覺”現(xiàn)象，比如AI視頻中常見的多指問題。以沃頓商學院教授Ethan Mollick實測Sora的案例為例，在一段展示水獺在飛機上使用WiFi的畫面中，Sora竟錯誤地給水獺加上了人類的手，這一詭異現(xiàn)象在Veo 2上則極少發(fā)生。

看看Veo 2在雙手細節(jié)的生成，堪稱極致。

當然，Veo 2生成的視頻，并非沒有破綻。它在創(chuàng)建逼真、充滿活力或復雜的視頻，以及在復雜的運動場景中，難以保持一致性。

通過人類評估，Veo 2模型在與幾大頂尖視頻模型的對比中，脫穎而出。它不僅僅是簡單地生成視頻，更是對現(xiàn)實世界物理規(guī)律、人類動作，表情方面得到了極致的理解。

測試統(tǒng)一在720p分辨率下進行，其中Veo生成8秒視頻，VideoGen生成10秒視頻，其他模型則生成5秒視頻。評分者觀看了所有視頻的完整長度。
注意看，對比測試對象中也出現(xiàn)了國產(chǎn)AI視頻模型（可靈AI、Minimax）以及最新發(fā)布的Sora Turbo。
所有比較均在720p分辨率下進行。Veo的視頻樣本長度為8秒，VideoGen的為10秒，其他模型的為5秒。評分者將看到完整視頻長度。

盡管Veo 2取得了顯著進步，但在生成真實、動態(tài)或復雜場景的視頻時，仍面臨著保持場景連貫性的挑戰(zhàn)。DeepMind表示將持續(xù)優(yōu)化這些領域的性能。

DeepMind產(chǎn)品副總裁Eli Collins對媒體表示，隨著模型逐漸具備規(guī)?；褂玫臏蕚?，谷歌將通過其Vertex AI開發(fā)者平臺提供Veo 2。

“未來幾個月，我們將根據(jù)用戶反饋持續(xù)迭代，并尋求將Veo 2的更新能力整合到谷歌生態(tài)系統(tǒng)中的相關應用中……我們預計明年會分享更多的更新內(nèi)容。”

Imagen 3也實現(xiàn)重大突破

新版本不僅支持創(chuàng)作多種藝術風格（包括現(xiàn)實主義、幻想、肖像等），能夠更精確地將文字描述轉(zhuǎn)化為圖像，以及生成更明亮、構(gòu)圖更協(xié)調(diào)的視覺作品。

Imagen 3模型在圖像構(gòu)圖和細節(jié)準確性方面得到了增強，支持從寫實到抽象的各種風格，能夠生成更豐富的紋理，并更加忠實地回應用戶提示。

目前，Imagen 3已經(jīng)通過谷歌實驗室的ImageFX工具在100多個國家上線，全球用戶可以試驗其尖端功能。

此外，谷歌還推出了Whisk，這是一款結(jié)合了Imagen 3和Gemini視覺分析能力的創(chuàng)意工具。用戶可以輸入圖像，生成詳細的文字描述、重新混合風格，或設計個性化作品，如數(shù)字玩偶或搪瓷徽章。

谷歌介紹，Whisk結(jié)合了Imagen 3模型和Gemini的視覺理解與描述能力。Gemini模型會自動為用戶的圖像生成詳細的文字描述，并將這些描述傳遞給Imagen 3。這一過程讓用戶能夠以有趣的新方式重新混合主題、場景和風格。

寫在最后

谷歌還推出了名為Whisk的新工具，它結(jié)合了Imagen 3和Gemini視覺分析能力。Whisk可以讓用戶上傳圖像并自動生成詳細的文字描述、重新混合風格或設計個性化作品，如數(shù)字玩偶或徽章。通過Gemini模型，Whisk能理解圖像內(nèi)容并生成與之相匹配的文字描述，進一步豐富了創(chuàng)作和個性化的可能性。

谷歌推出的Veo 2視頻生成工具和Imagen 3圖像生成模型在AI創(chuàng)作領域具有重大意義。這些更新不僅提升了視頻和圖像生成的質(zhì)量和真實感，還為創(chuàng)作者提供了更多定制化和個性化的選項。隨著這些模型的不斷迭代和廣泛應用，預計將對創(chuàng)意工作流程和各行各業(yè)產(chǎn)生深遠影響。（文/宋雨涵）

分享到

OpenAI 谷歌

lixiangjing

算力豹主編

lixiangjing

相關推薦

近期文章

熱門標簽