文字編輯|宋雨涵
世界模型近期愈發(fā)火熱
2025年6月12日,Meta實(shí)驗(yàn)室里,工程師向屏幕輸入一段視頻:一顆金屬球從桌沿滾落。新升級(jí)的V-JEPA 2模型幾乎瞬間作出反應(yīng)——它預(yù)判了球的墜落軌跡,并在虛擬界面中標(biāo)記出可能的落點(diǎn)區(qū)域?!八辣徽趽醯奈矬w不會(huì)消失,也理解重力對(duì)運(yùn)動(dòng)物體的影響”,研發(fā)負(fù)責(zé)人指著屏幕解釋。此刻,這個(gè)系統(tǒng)正從數(shù)百萬(wàn)小時(shí)的真實(shí)世界視頻中提煉物理規(guī)律,就像嬰兒通過(guò)觀察學(xué)習(xí)世界那樣自然。
同一時(shí)間,谷歌DeepMind團(tuán)隊(duì)在頂級(jí)會(huì)議ICML上拋出一枚“理論炸彈”:一篇僅5個(gè)單詞標(biāo)題的論文《通用智能體需要世界模型》,用數(shù)學(xué)證明了一個(gè)顛覆性結(jié)論——任何能處理復(fù)雜任務(wù)的智能體,必然擁有內(nèi)部世界模型,且能力越強(qiáng),模型越精確。
6月20日,在華為開(kāi)發(fā)者大會(huì)2025上,發(fā)布基于盤(pán)古多模態(tài)大模型的世界模型。該模型能為智能駕駛、具身智能機(jī)器人訓(xùn)練構(gòu)建數(shù)字物理空間。在火星探測(cè)領(lǐng)域,可基于單張火星地表圖片生成高精度數(shù)字物理空間,助力火星車(chē)訓(xùn)練避障能力與提升機(jī)械臂操作能力;在智能駕駛領(lǐng)域,輸入相關(guān)信息可生成行車(chē)視頻和激光雷達(dá)點(diǎn)云,為智能駕駛提供大量訓(xùn)練數(shù)據(jù)。
1
什么是世界模型?
一位工程師頭腦中的物理模擬器
世界模型的核心目標(biāo)在于,于AI系統(tǒng)內(nèi)部構(gòu)建一個(gè)針對(duì)所處環(huán)境(涵蓋物理世界、虛擬環(huán)境或特定領(lǐng)域)的動(dòng)態(tài)且具因果關(guān)系的內(nèi)部表示或模擬器,旨在使AI能夠精準(zhǔn)預(yù)測(cè)環(huán)境狀態(tài)的變化結(jié)果,深刻理解自身行動(dòng)對(duì)未來(lái)狀態(tài)產(chǎn)生的影響,并具備反事實(shí)思考能力,即思考“如果我做了X,會(huì)發(fā)生什么?”。其核心能力豐富多樣,包括預(yù)測(cè)功能,即給定當(dāng)前狀態(tài)和動(dòng)作,能夠精準(zhǔn)預(yù)測(cè)下一個(gè)狀態(tài)或觀察結(jié)果;理解因果關(guān)系,洞察環(huán)境中的因果聯(lián)系;進(jìn)行反事實(shí)推理,評(píng)估不同假設(shè)情況下的結(jié)果;規(guī)劃能力,在內(nèi)部模擬中評(píng)估不同行動(dòng)序列的后果,以制定最優(yōu)策略;以及表征學(xué)習(xí)能力,構(gòu)建環(huán)境的壓縮、抽象表示。
從本質(zhì)上看,世界模型是一個(gè)內(nèi)部模擬引擎,是AI理解世界運(yùn)作方式、進(jìn)行有效決策和規(guī)劃的基石,且通常為多模態(tài)的,能夠整合視覺(jué)、聽(tīng)覺(jué)、物理、社會(huì)信號(hào)等多種信息。
在與大語(yǔ)言模型(LLM)和深度推理模型(DRM)的關(guān)系方面
LLM可視為在文本世界中訓(xùn)練出的一個(gè)不完整且不精確的世界模型,它雖捕捉了語(yǔ)言描述中的世界模式,但缺乏對(duì)物理現(xiàn)實(shí)、感官體驗(yàn)和真實(shí)因果的直接建模,而真正的世界模型能為L(zhǎng)LM提供更堅(jiān)實(shí)、基于物理/因果的“常識(shí)”基礎(chǔ);
對(duì)于DRM而言,世界模型為其深度推理提供了必要的內(nèi)容和上下文,因?yàn)檫M(jìn)行有意義的推理需要以關(guān)于世界的模型為基礎(chǔ),世界模型提供模擬環(huán)境,DRM則利用該環(huán)境進(jìn)行推理和規(guī)劃。然而,世界模型也存在一定局限性,構(gòu)建一個(gè)全面、準(zhǔn)確且可擴(kuò)展的世界模型極具挑戰(zhàn)性,尤其是在開(kāi)放物理世界中,如何有效學(xué)習(xí)和更新世界模型是關(guān)鍵難題,與行動(dòng)和感知的緊密集成也是一大難點(diǎn)。
簡(jiǎn)單而言做一個(gè)比喻,LLM就像一位博學(xué)但缺乏實(shí)踐經(jīng)驗(yàn)的學(xué)者: 閱讀了大量書(shū)籍(文本數(shù)據(jù)),能流暢地談?wù)?、?xiě)作、回答基于書(shū)本的問(wèn)題,甚至能基于書(shū)中模式進(jìn)行一些推測(cè)。但他對(duì)現(xiàn)實(shí)世界的物理規(guī)律、動(dòng)手操作、真實(shí)因果鏈只有間接的、可能不準(zhǔn)確的理解。
DRM像一位嚴(yán)謹(jǐn)?shù)倪壿媽W(xué)家/數(shù)學(xué)家: 特別擅長(zhǎng)遵循規(guī)則、進(jìn)行一步步推導(dǎo)、證明定理、解決邏輯謎題。他需要明確的問(wèn)題和規(guī)則(可能由LLM提供背景,或由世界模型提供模擬環(huán)境)。
世界模型像一位工程師頭腦中的物理模擬器: 他理解杠桿原理、材料強(qiáng)度、齒輪如何嚙合。他能在腦海中想象推一塊積木會(huì)發(fā)生什么(預(yù)測(cè)),理解為什么用錘子敲釘子比用手掌有效(因果),并思考如果換一種材料橋會(huì)不會(huì)塌(反事實(shí))。這是他設(shè)計(jì)和建造東西(規(guī)劃、行動(dòng))的基礎(chǔ)。LLM可能為他提供設(shè)計(jì)描述或歷史案例,DRM幫他精確計(jì)算受力或優(yōu)化結(jié)構(gòu)。
2
核心能力
從感知到?jīng)Q策的全鏈路升級(jí)
世界模型的核心能力體現(xiàn)在多個(gè)方面。首先是預(yù)測(cè)能力,給定當(dāng)前環(huán)境狀態(tài)和AI系統(tǒng)的動(dòng)作,世界模型能夠預(yù)測(cè)下一個(gè)狀態(tài)或觀察結(jié)果。例如,在機(jī)器人操作任務(wù)中,世界模型可以根據(jù)機(jī)器人當(dāng)前的位置、姿態(tài)和即將執(zhí)行的動(dòng)作,預(yù)測(cè)機(jī)器人下一步的位置和可能遇到的障礙物,為機(jī)器人的路徑規(guī)劃提供依據(jù)。
其次是理解因果關(guān)系,世界模型能夠揭示環(huán)境中的因果聯(lián)系,而不僅僅是表面的相關(guān)性。在醫(yī)療診斷領(lǐng)域,傳統(tǒng)的AI模型可能只能根據(jù)癥狀的相似性進(jìn)行診斷,而世界模型則可以分析癥狀與疾病之間的因果關(guān)系,從而提高診斷的準(zhǔn)確性。
反事實(shí)推理能力也是世界模型的重要特點(diǎn)之一。它允許AI系統(tǒng)思考“如果我做了X,會(huì)發(fā)生什么?”,通過(guò)評(píng)估不同行動(dòng)的潛在后果,為AI提供更多的決策選擇。在金融投資中,世界模型可以模擬不同的投資策略對(duì)投資組合的影響,幫助投資者做出更明智的決策。
此外,世界模型還具備規(guī)劃和表征學(xué)習(xí)的能力。在規(guī)劃方面,它能夠在內(nèi)部模擬中評(píng)估不同行動(dòng)序列的后果,制定出最優(yōu)的行動(dòng)計(jì)劃。在表征學(xué)習(xí)方面,它可以將復(fù)雜的環(huán)境信息簡(jiǎn)化為易于處理的形式,同時(shí)保留關(guān)鍵的特征,提高AI系統(tǒng)的處理效率。
3
巨頭布局
群雄逐鹿世界模型賽道
英偉達(dá):Cosmos模型開(kāi)啟物理世界模擬新紀(jì)元
在2025年CES展會(huì)上,英偉達(dá)CEO黃仁勛宣布推出Cosmos世界模型,引起了行業(yè)的廣泛關(guān)注。Cosmos模型專(zhuān)為理解物理世界打造,具備生成逼真視頻和創(chuàng)建合成訓(xùn)練數(shù)據(jù)的能力。它有Nano、Super、Ultra三個(gè)版本,分別適用于邊緣設(shè)備、消費(fèi)級(jí)顯卡和工作站級(jí)GPU,能夠滿足不同場(chǎng)景的需求。
以自動(dòng)駕駛為例,Cosmos模型可以生成各種復(fù)雜的交通場(chǎng)景,包括惡劣天氣、突發(fā)事故等,為自動(dòng)駕駛模型的訓(xùn)練提供豐富的數(shù)據(jù)。這些合成數(shù)據(jù)不僅可以降低數(shù)據(jù)采集成本,還可以模擬一些現(xiàn)實(shí)中難以遇到的危險(xiǎn)場(chǎng)景,提高自動(dòng)駕駛模型的安全性和魯棒性。此外,Cosmos模型還可以與英偉達(dá)的DRIVE平臺(tái)深度集成,為自動(dòng)駕駛汽車(chē)提供實(shí)時(shí)的環(huán)境感知和決策支持。
谷歌:DeepMind團(tuán)隊(duì)探索世界模型新邊界
谷歌旗下DeepMind組建了專(zhuān)門(mén)的世界模型研究團(tuán)隊(duì),聘請(qǐng)Sora核心人員Tim Brooks掌舵,展現(xiàn)了其在世界模型領(lǐng)域的雄心壯志。DeepMind發(fā)布的Genie模型就是一個(gè)典型的例子,該模型能夠模擬虛擬世界以及逼真的動(dòng)畫(huà)和物理效果。
Genie模型通過(guò)對(duì)大量圖像和視頻數(shù)據(jù)的學(xué)習(xí),構(gòu)建了一個(gè)虛擬世界的生成模型。它可以根據(jù)用戶(hù)的輸入生成各種不同的虛擬場(chǎng)景,如奇幻森林、未來(lái)城市等,并且這些場(chǎng)景中的物體運(yùn)動(dòng)和交互都符合物理規(guī)律。在游戲開(kāi)發(fā)領(lǐng)域,Genie模型可以為游戲設(shè)計(jì)師提供無(wú)限的創(chuàng)意靈感,快速生成各種游戲場(chǎng)景和角色,降低游戲開(kāi)發(fā)成本和時(shí)間。同時(shí),Genie模型還可以用于教育和培訓(xùn)領(lǐng)域,為學(xué)生和學(xué)員提供一個(gè)沉浸式的虛擬學(xué)習(xí)環(huán)境。
Meta:楊立昆領(lǐng)銜探索世界模型理論根基
Meta首席AI科學(xué)家楊立昆早在2022年就開(kāi)始領(lǐng)導(dǎo)團(tuán)隊(duì)研究“可以模擬世界運(yùn)作方式的AI系統(tǒng)”。他認(rèn)為,真正的智能蘊(yùn)含在生命與物理世界的交互中,因此設(shè)計(jì)一套AI學(xué)習(xí)范式和架構(gòu),使機(jī)器能夠以自監(jiān)督而非人類(lèi)干預(yù)的方式學(xué)習(xí)并掌握世界模型,是實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵。
Meta放大招了,LeCun親自出鏡,開(kāi)源V-JEPA 2世界模型,AI界巨擘押注“預(yù)測(cè)學(xué)習(xí)”未來(lái)
AI教母李飛飛的空間智能
李飛飛提出的“空間智能”(Spatial Intelligence)是她創(chuàng)立的 World Labs 公司的核心研究方向,旨在構(gòu)建能夠感知、推理并與三維物理世界交互的“世界模型”(World Model)。這一概念被視為實(shí)現(xiàn)通用人工智能(AGI)的關(guān)鍵路徑,其核心在于讓AI超越文本和2D圖像的局限,真正理解并模擬人類(lèi)所處的立體空間環(huán)境。
空間智能的續(xù)集來(lái)了!“AI教母”李飛飛創(chuàng)業(yè)歸來(lái),AI靠單圖生成3D世界,生成式AI進(jìn)入3D化沉浸式新時(shí)代
世界模型面臨的挑戰(zhàn)與機(jī)遇
(一)挑戰(zhàn)
算力需求巨大:訓(xùn)練和運(yùn)行世界模型需要比當(dāng)前生成模型更多的計(jì)算能力。例如,Sora單次訓(xùn)練算力需求或可達(dá)到GPT-3 175B的8.2倍,而世界模型的算力需求更大,這對(duì)企業(yè)的技術(shù)和資金實(shí)力提出了極高的要求。
幻覺(jué)和偏見(jiàn)問(wèn)題:像所有AI模型一樣,世界模型也會(huì)產(chǎn)生幻覺(jué)并內(nèi)化訓(xùn)練數(shù)據(jù)中的偏見(jiàn)。例如,ChatGPT中文對(duì)話的效果不如英文給出的答案,高質(zhì)量的訓(xùn)練數(shù)據(jù)對(duì)于世界模型至關(guān)重要,且訓(xùn)練數(shù)據(jù)必須足夠廣泛和具體,同時(shí)還要解決訓(xùn)練數(shù)據(jù)的版權(quán)問(wèn)題。
復(fù)雜行為模擬困難:目前的模型難以準(zhǔn)確捕捉世界居民(如人類(lèi)和動(dòng)物)的行為,這限制了世界模型在一些需要精準(zhǔn)模擬人類(lèi)行為場(chǎng)景中的應(yīng)用。
(二)機(jī)遇
技術(shù)創(chuàng)新空間廣闊:世界模型作為AI領(lǐng)域的新興方向,為科研人員和企業(yè)提供了巨大的技術(shù)創(chuàng)新空間。通過(guò)不斷的研究和開(kāi)發(fā),有望突破現(xiàn)有的技術(shù)瓶頸,實(shí)現(xiàn)更高級(jí)別的智能表現(xiàn)。
商業(yè)應(yīng)用前景廣闊:隨著世界模型技術(shù)的不斷成熟,其在影視、游戲、自動(dòng)駕駛、機(jī)器人等行業(yè)的商業(yè)應(yīng)用前景十分廣闊。例如,在影視制作中,世界模型可以快速生成逼真的場(chǎng)景和特效,降低制作成本和時(shí)間;在自動(dòng)駕駛領(lǐng)域,可以提高車(chē)輛的安全性和智能化水平。
推動(dòng)AI與現(xiàn)實(shí)世界融合:世界模型的發(fā)展有望推動(dòng)人工智能與現(xiàn)實(shí)世界的深度融合,為人類(lèi)社會(huì)帶來(lái)更多的便利和變革。例如,通過(guò)世界模型可以實(shí)現(xiàn)更智能的城市管理、醫(yī)療診斷和環(huán)境監(jiān)測(cè)等。
結(jié)語(yǔ):
世界模型作為AI領(lǐng)域的新興力量,正以其獨(dú)特的魅力和巨大的潛力,引領(lǐng)著AI技術(shù)的發(fā)展方向。盡管目前還面臨著一些挑戰(zhàn),但隨著科技巨頭的布局和科研人員的不斷努力,世界模型有望在未來(lái)取得重大突破,為人工智能與現(xiàn)實(shí)世界的融合開(kāi)辟新的途徑。