隨著新模型的發(fā)布,由其驅(qū)動的AI電影創(chuàng)作工具Flow也迎來了更新,可以幫助你更精細地編輯視頻片段,對最終場景實現(xiàn)更顆粒化的控制。

文字編輯|宋雨涵

1

Veo 3.1的技術(shù)突破:

核心性能躍升

谷歌Veo 3.1作為當(dāng)前AI視頻生成領(lǐng)域的標(biāo)桿產(chǎn)品,在多項關(guān)鍵指標(biāo)上實現(xiàn)了顯著突破:

技術(shù)指標(biāo)Veo 3.1表現(xiàn)對比Veo 3提升行業(yè)基準(zhǔn)對比
生成速度1-4分鐘2倍提速快于Sora 2(3-5分鐘)
視頻分辨率1080P高清畫質(zhì)提升40%與Runway Gen-3相當(dāng)
視頻時長最長60秒大幅延長接近Sora的1分鐘上限
音頻支持完整音頻生成新增功能領(lǐng)先于大部分僅支持基礎(chǔ)音效的競品

關(guān)鍵技術(shù)創(chuàng)新點解析

1. 畫面真實感與敘事控制力:Veo 3.1通過融合物理引擎與3D時空注意力機制,顯著提升了場景真實感。其”真實紋理捕捉”技術(shù)能夠還原材質(zhì)細節(jié),如布料褶皺、金屬反光等微觀特征。

在敘事控制方面,引入了精確的相機運動參數(shù)調(diào)節(jié)(包括焦距、光圈、運動軌跡)和對象軌跡編輯系統(tǒng),使用戶可預(yù)設(shè)復(fù)雜鏡頭語言,如環(huán)繞跟蹤、推拉搖移等專業(yè)運鏡效果。

2. 多模態(tài)輸入與提示詞理解:支持文本、圖像、視頻片段的混合輸入模式,實現(xiàn)”文本+參考圖”的精準(zhǔn)創(chuàng)作控制。通過Diffusion Transformer架構(gòu)優(yōu)化,模型對復(fù)雜提示詞的理解準(zhǔn)確率提升35%,能解析包含情緒描述(如”憂郁的雨天街道”)、鏡頭語言(如”希區(qū)柯克式變焦”)和風(fēng)格指定(如”韋斯·安德森美學(xué)”)的復(fù)合指令。

3. 音畫同步與音頻生成能力:Veo 3.1實現(xiàn)了三大音頻突破:

2

Flow平臺的新功能

編輯更靈活,音頻功能強大

作為Veo模型的應(yīng)用載體,谷歌的Flow平臺此次也進行了同步升級,
引入了一系列新功能來充分發(fā)揮Veo 3.1的潛力。Flow定位為AI影視創(chuàng)作工具,旨在幫助用戶以更直觀高效的方式制作視頻。自2025年5月推出以來,F(xiàn)low已經(jīng)展現(xiàn)出強大的創(chuàng)造力,在短短5個月內(nèi)生成了超過2.75億段視頻。

Flow中新增的兩個編輯功能—— 插入新元素讓用戶可以隨時添加內(nèi)容,F(xiàn)low會自動處理陰影和光線,使新增部分自然融入原有畫面;
移除對象功能(即將上線)則可以刪除不需要的元素,F(xiàn)low動重建背景保持一致性。這兩個工具的組合能夠讓視頻的編輯過程變得更加靈活。

新版Flow首次將AI生成的音頻引入到所有主要功能中,實現(xiàn)了視頻生成與音頻生成的一體化。在過去,用戶使用Flow生成的視頻往往只有畫面沒有聲音,需要后期手動添加配樂或音效。而現(xiàn)在,當(dāng)用戶使用“素材生視頻”“首尾幀轉(zhuǎn)視頻”“視頻延展”等功能時,F(xiàn)low會自動為生成的視頻片段配上相應(yīng)的音頻。

3

算力豹觀察

AI影視創(chuàng)作的發(fā)展趨勢與未來展望

一、多模態(tài)融合:創(chuàng)意表達的 “全鏈路解放” 已見雛形

谷歌Veo 3.1與Flow平臺的聯(lián)動,實則為AI影視的多模態(tài)未來埋下了重要伏筆。當(dāng)模型既能讀懂“黑澤明式光影”的文本指令,又能接納SVG矢量圖素材輸入,還能同步生成匹配畫面情緒的環(huán)境音效時,“文本—圖像—音頻”的創(chuàng)作壁壘已在悄然瓦解。

這種融合絕非技術(shù)堆砌。對創(chuàng)作者而言,這意味著“小說改編動畫短片”“廣告分鏡直轉(zhuǎn)動態(tài)視頻”等跨媒體創(chuàng)作將從構(gòu)想落地為現(xiàn)實。正如Flow平臺“素材轉(zhuǎn)視頻”功能所展示的,三張風(fēng)格參考圖+百字文本,就能生成邏輯連貫的短片——這正是多模態(tài)模型“理解復(fù)雜創(chuàng)意意圖”的初級實踐,未來更有望實現(xiàn)“一次創(chuàng)意輸入,多藝術(shù)形式輸出”的創(chuàng)作自由。

二、實時生成:影視與互動體驗的邊界將被打破

當(dāng)前Veo 3.1生成8秒視頻需28秒的效率,雖距“實時”尚有距離,但已透出明確信號:隨著云端算力優(yōu)化與模型輕量化發(fā)展,低延遲視頻生成正在逼近。這一技術(shù)突破的價值,遠不止于縮短制作周期。

這種“可玩的電影”形態(tài),或?qū)⒊蔀槔^網(wǎng)劇之后的下一代內(nèi)容風(fēng)口,而谷歌在云端部署與專用硬件上的探索,正為這一天鋪墊基礎(chǔ)。

三、模型進化:朝著“更聰明的創(chuàng)作伙伴”迭代

從技術(shù)底層看,Veo 3.1的“首尾幀錨定”與片段延展功能,已暴露出現(xiàn)有模型在長序列生成上的努力——通過分層處理關(guān)鍵幀與中間幀,兼顧連貫性與細節(jié)精度。

更值得關(guān)注的是“生成模型+大語言模型”的融合趨勢。當(dāng)Veo 3.1能理解500字劇本并生成多鏡頭序列時,本質(zhì)是視頻生成能力與語言理解能力的初步結(jié)合。未來,這種融合將催生“能聊劇情、會做分鏡、懂鏡頭語言”的智能創(chuàng)作伙伴,甚至能通過強化學(xué)習(xí)不斷優(yōu)化生成內(nèi)容,貼合人類審美偏好。

寫在最后:

從月初的Sora 2到今天的Veo 3.1,視頻生成領(lǐng)域的競賽在短時間內(nèi)再度升溫。然而,與從Veo 2到Veo 3的代際飛躍相比,Veo 3.1的此次升級更像是一次扎實的“中期迭代”,其意義在于將尖端技術(shù)轉(zhuǎn)化為創(chuàng)作者手中更穩(wěn)定、更可控的生產(chǎn)工具。

總體而言,Veo 3.1的發(fā)布為AI視頻創(chuàng)作提供了更強大的支撐,尤其是在原生音頻集成與畫面精準(zhǔn)編輯上,標(biāo)志著多模態(tài)生成正走向成熟。但在實際應(yīng)用中,這并未完全解決AI視頻的所有挑戰(zhàn)。創(chuàng)作者在利用其高效生成能力的同時,仍需對畫面細節(jié)、邏輯連貫性進行人工審查與調(diào)整,以克服模型當(dāng)前的局限,從而將工具的潛力轉(zhuǎn)化為真正高質(zhì)量的作品。

當(dāng)前,行業(yè)正從追求技術(shù)奇觀的“沖刺期”,逐步進入一個更為關(guān)鍵的“應(yīng)用深耕期”。未來的競爭,將不僅是參數(shù)的比拼,更是如何將技術(shù)無縫融入創(chuàng)作流程,在提升效率的同時,真正釋放而非束縛人類的創(chuàng)意。

分享到

lixiangjing

算力豹主編

相關(guān)推薦