DW-Mesh是EX-4D的核心技術(shù),其通過構(gòu)建全密閉網(wǎng)格結(jié)構(gòu),精準記錄場景中的可見與隱形面片信息,無需依賴多視角監(jiān)督便可統(tǒng)一處理復雜場景拓撲。結(jié)合預訓練深度預測模型,EX-4D能將單幀像素投影至3D空間,形成網(wǎng)格頂點,并根據(jù)幾何關(guān)系精確標記遮擋區(qū)域。這一方法確保了生成視頻即便在極端視角(如±90°)下,仍能維持物理一致性與細節(jié)完整性。

此外,EX-4D引入了渲染mask和跟蹤mask兩種模擬mask生成策略,通過模擬視角移動與幀間一致性,有效破解了多視角訓練數(shù)據(jù)稀缺的難題。這些策略讓EX-4D僅憑單目視頻便能“腦補”出全視角數(shù)據(jù),大幅降低了數(shù)據(jù)采集成本。

性能測試結(jié)果顯示,EX-4D在FID(弗雷歇距離)、FVD(弗雷歇視頻距離)和VBench等行業(yè)標準指標上,均全面超越現(xiàn)有開源方法。尤其在極端視角(如接近90°)的生成任務中,EX-4D的性能優(yōu)勢更加顯著,生成的視頻在物體細節(jié)與遮擋邏輯上均展現(xiàn)出更高的真實性。

2

性能表現(xiàn)

指標全面領(lǐng)先

在性能測試環(huán)節(jié),EX-4D交出了一份令人矚目的答卷。依托包含150個網(wǎng)絡視頻的測試數(shù)據(jù)集,EX-4D在FID(弗雷歇距離)、FVD(弗雷歇視頻距離)以及VBench等業(yè)界公認的標準指標上,全方位超越了現(xiàn)有的開源方法。特別是在處理接近90°極端視角的生成任務時,EX-4D展現(xiàn)出的性能優(yōu)勢格外突出,生成視頻中的物體細節(jié)刻畫更為精細,遮擋邏輯也更為自然真實。

在一項由50位志愿者參與的主觀評價活動中,高達70.7%的參與者明確表示,EX-4D在極端視角下呈現(xiàn)出的物理一致性顯著優(yōu)于其他開源方案。這一結(jié)果充分證明,EX-4D不僅在技術(shù)指標上占據(jù)領(lǐng)先地位,更在實際應用中贏得了用戶的廣泛贊譽。

字節(jié)跳動已將EX-4D全面開源,其代碼及配套文檔均已在GitHub平臺公開發(fā)布,全球開發(fā)者均可免費獲取。這一舉措不僅彰顯了字節(jié)跳動對開源社區(qū)的鼎力支持,更為沉浸式3D影視、虛擬現(xiàn)實(VR)、增強現(xiàn)實(AR)等前沿領(lǐng)域的創(chuàng)新發(fā)展提供了堅實的技術(shù)基石。

三、世界模型:

通向未來數(shù)字宇宙的鑰匙

當Sora、Veo等2D視頻模型還在平面維度上突破時,字節(jié)跳動旗下PICO-MR團隊推出的EX-4D已開啟三維空間革命。這款全球首個單目視頻到自由視角4D生成框架,不僅突破了傳統(tǒng)視頻生成的技術(shù)邊界,更通過”空間智能”的范式升級,為元宇宙、數(shù)字孿生、自動駕駛等領(lǐng)域注入核心動能。正如李飛飛教授所言:”空間智能是AI理解物理世界的北極星”,EX-4D的開源標志著人類向”數(shù)字宇宙”邁出了關(guān)鍵一步。

在視頻生成領(lǐng)域,EX-4D所引領(lǐng)的變革正推動技術(shù)向更深層次的演進。未來,視頻生成將不再局限于靜態(tài)空間的重構(gòu),而是朝著動態(tài)環(huán)境交互與實時物理模擬的方向躍遷?;贓X-4D的DW-Mesh動態(tài)建模技術(shù),下一代視頻生成框架或?qū)崿F(xiàn)”場景自進化”——系統(tǒng)能根據(jù)用戶交互行為實時調(diào)整空間布局,例如在虛擬演唱會中,觀眾彈幕可觸發(fā)舞臺結(jié)構(gòu)的動態(tài)重組,或是在開放世界游戲中,NPC會根據(jù)環(huán)境變化自主生成符合物理規(guī)則的避險動作。

多模態(tài)融合將成為另一核心方向。EX-4D已展現(xiàn)出單目視頻到4D空間的轉(zhuǎn)換能力,而未來技術(shù)將進一步整合觸覺、聽覺甚至氣味數(shù)據(jù),構(gòu)建全感官沉浸體驗。例如,自動駕駛仿真系統(tǒng)不僅能生成4D視覺場景,還能模擬輪胎與路面的摩擦聲、急剎車時的G力反饋,甚至通過氣味模塊還原暴雨中的泥土氣息,使訓練數(shù)據(jù)更貼近真實駕駛環(huán)境。

結(jié)語:

技術(shù)演進永無止境。EX-4D團隊已在攻克透明材質(zhì)折射難題,而學術(shù)圈更關(guān)注其世界模型潛力:當AI能精準推演不可見區(qū)域的物理狀態(tài),我們距離真正的數(shù)字孿生世界還遠嗎?下一次技術(shù)躍遷的種子,或許正埋在今天開源的代碼行間。

分享到

lixiangjing

算力豹主編

相關(guān)推薦