中文有码亚洲制服av片,久久精品人人人人人人

文字編輯｜宋雨涵

世界模型近期愈發(fā)火熱

2025年6月12日，Meta實(shí)驗(yàn)室里，工程師向屏幕輸入一段視頻：一顆金屬球從桌沿滾落。新升級的V-JEPA 2模型幾乎瞬間作出反應(yīng)——它預(yù)判了球的墜落軌跡，并在虛擬界面中標(biāo)記出可能的落點(diǎn)區(qū)域。“它知道被遮擋的物體不會消失，也理解重力對運(yùn)動物體的影響”，研發(fā)負(fù)責(zé)人指著屏幕解釋。此刻，這個系統(tǒng)正從數(shù)百萬小時的真實(shí)世界視頻中提煉物理規(guī)律，就像嬰兒通過觀察學(xué)習(xí)世界那樣自然。

同一時間，谷歌DeepMind團(tuán)隊(duì)在頂級會議ICML上拋出一枚“理論炸彈”：一篇僅5個單詞標(biāo)題的論文《通用智能體需要世界模型》，用數(shù)學(xué)證明了一個顛覆性結(jié)論——任何能處理復(fù)雜任務(wù)的智能體，必然擁有內(nèi)部世界模型，且能力越強(qiáng)，模型越精確。

6月20日，在華為開發(fā)者大會2025上，發(fā)布基于盤古多模態(tài)大模型的世界模型。該模型能為智能駕駛、具身智能機(jī)器人訓(xùn)練構(gòu)建數(shù)字物理空間。在火星探測領(lǐng)域，可基于單張火星地表圖片生成高精度數(shù)字物理空間，助力火星車訓(xùn)練避障能力與提升機(jī)械臂操作能力；在智能駕駛領(lǐng)域，輸入相關(guān)信息可生成行車視頻和激光雷達(dá)點(diǎn)云，為智能駕駛提供大量訓(xùn)練數(shù)據(jù)。

什么是世界模型？

一位工程師頭腦中的物理模擬器

世界模型的核心目標(biāo)在于，于AI系統(tǒng)內(nèi)部構(gòu)建一個針對所處環(huán)境（涵蓋物理世界、虛擬環(huán)境或特定領(lǐng)域）的動態(tài)且具因果關(guān)系的內(nèi)部表示或模擬器，旨在使AI能夠精準(zhǔn)預(yù)測環(huán)境狀態(tài)的變化結(jié)果，深刻理解自身行動對未來狀態(tài)產(chǎn)生的影響，并具備反事實(shí)思考能力，即思考“如果我做了X，會發(fā)生什么？”。其核心能力豐富多樣，包括預(yù)測功能，即給定當(dāng)前狀態(tài)和動作，能夠精準(zhǔn)預(yù)測下一個狀態(tài)或觀察結(jié)果；理解因果關(guān)系，洞察環(huán)境中的因果聯(lián)系；進(jìn)行反事實(shí)推理，評估不同假設(shè)情況下的結(jié)果；規(guī)劃能力，在內(nèi)部模擬中評估不同行動序列的后果，以制定最優(yōu)策略；以及表征學(xué)習(xí)能力，構(gòu)建環(huán)境的壓縮、抽象表示。

從本質(zhì)上看，世界模型是一個內(nèi)部模擬引擎，是AI理解世界運(yùn)作方式、進(jìn)行有效決策和規(guī)劃的基石，且通常為多模態(tài)的，能夠整合視覺、聽覺、物理、社會信號等多種信息。

在與大語言模型（LLM）和深度推理模型（DRM）的關(guān)系方面

LLM可視為在文本世界中訓(xùn)練出的一個不完整且不精確的世界模型，它雖捕捉了語言描述中的世界模式，但缺乏對物理現(xiàn)實(shí)、感官體驗(yàn)和真實(shí)因果的直接建模，而真正的世界模型能為LLM提供更堅(jiān)實(shí)、基于物理/因果的“常識”基礎(chǔ)；

對于DRM而言，世界模型為其深度推理提供了必要的內(nèi)容和上下文，因?yàn)檫M(jìn)行有意義的推理需要以關(guān)于世界的模型為基礎(chǔ)，世界模型提供模擬環(huán)境，DRM則利用該環(huán)境進(jìn)行推理和規(guī)劃。然而，世界模型也存在一定局限性，構(gòu)建一個全面、準(zhǔn)確且可擴(kuò)展的世界模型極具挑戰(zhàn)性，尤其是在開放物理世界中，如何有效學(xué)習(xí)和更新世界模型是關(guān)鍵難題，與行動和感知的緊密集成也是一大難點(diǎn)。

簡單而言做一個比喻，LLM就像一位博學(xué)但缺乏實(shí)踐經(jīng)驗(yàn)的學(xué)者：閱讀了大量書籍（文本數(shù)據(jù)），能流暢地談?wù)摗懽?、回答基于書本的問題，甚至能基于書中模式進(jìn)行一些推測。但他對現(xiàn)實(shí)世界的物理規(guī)律、動手操作、真實(shí)因果鏈只有間接的、可能不準(zhǔn)確的理解。

DRM像一位嚴(yán)謹(jǐn)?shù)倪壿媽W(xué)家/數(shù)學(xué)家：特別擅長遵循規(guī)則、進(jìn)行一步步推導(dǎo)、證明定理、解決邏輯謎題。他需要明確的問題和規(guī)則（可能由LLM提供背景，或由世界模型提供模擬環(huán)境）。

世界模型像一位工程師頭腦中的物理模擬器：他理解杠桿原理、材料強(qiáng)度、齒輪如何嚙合。他能在腦海中想象推一塊積木會發(fā)生什么（預(yù)測），理解為什么用錘子敲釘子比用手掌有效（因果），并思考如果換一種材料橋會不會塌（反事實(shí)）。這是他設(shè)計(jì)和建造東西（規(guī)劃、行動）的基礎(chǔ)。LLM可能為他提供設(shè)計(jì)描述或歷史案例，DRM幫他精確計(jì)算受力或優(yōu)化結(jié)構(gòu)。

核心能力

從感知到?jīng)Q策的全鏈路升級

世界模型的核心能力體現(xiàn)在多個方面。首先是預(yù)測能力，給定當(dāng)前環(huán)境狀態(tài)和AI系統(tǒng)的動作，世界模型能夠預(yù)測下一個狀態(tài)或觀察結(jié)果。例如，在機(jī)器人操作任務(wù)中，世界模型可以根據(jù)機(jī)器人當(dāng)前的位置、姿態(tài)和即將執(zhí)行的動作，預(yù)測機(jī)器人下一步的位置和可能遇到的障礙物，為機(jī)器人的路徑規(guī)劃提供依據(jù)。

其次是理解因果關(guān)系，世界模型能夠揭示環(huán)境中的因果聯(lián)系，而不僅僅是表面的相關(guān)性。在醫(yī)療診斷領(lǐng)域，傳統(tǒng)的AI模型可能只能根據(jù)癥狀的相似性進(jìn)行診斷，而世界模型則可以分析癥狀與疾病之間的因果關(guān)系，從而提高診斷的準(zhǔn)確性。

反事實(shí)推理能力也是世界模型的重要特點(diǎn)之一。它允許AI系統(tǒng)思考“如果我做了X，會發(fā)生什么？”，通過評估不同行動的潛在后果，為AI提供更多的決策選擇。在金融投資中，世界模型可以模擬不同的投資策略對投資組合的影響，幫助投資者做出更明智的決策。

此外，世界模型還具備規(guī)劃和表征學(xué)習(xí)的能力。在規(guī)劃方面，它能夠在內(nèi)部模擬中評估不同行動序列的后果，制定出最優(yōu)的行動計(jì)劃。在表征學(xué)習(xí)方面，它可以將復(fù)雜的環(huán)境信息簡化為易于處理的形式，同時保留關(guān)鍵的特征，提高AI系統(tǒng)的處理效率。

巨頭布局

群雄逐鹿世界模型賽道

英偉達(dá)：Cosmos模型開啟物理世界模擬新紀(jì)元

在2025年CES展會上，英偉達(dá)CEO黃仁勛宣布推出Cosmos世界模型，引起了行業(yè)的廣泛關(guān)注。Cosmos模型專為理解物理世界打造，具備生成逼真視頻和創(chuàng)建合成訓(xùn)練數(shù)據(jù)的能力。它有Nano、Super、Ultra三個版本，分別適用于邊緣設(shè)備、消費(fèi)級顯卡和工作站級GPU，能夠滿足不同場景的需求。

以自動駕駛為例，Cosmos模型可以生成各種復(fù)雜的交通場景，包括惡劣天氣、突發(fā)事故等，為自動駕駛模型的訓(xùn)練提供豐富的數(shù)據(jù)。這些合成數(shù)據(jù)不僅可以降低數(shù)據(jù)采集成本，還可以模擬一些現(xiàn)實(shí)中難以遇到的危險場景，提高自動駕駛模型的安全性和魯棒性。此外，Cosmos模型還可以與英偉達(dá)的DRIVE平臺深度集成，為自動駕駛汽車提供實(shí)時的環(huán)境感知和決策支持。

谷歌：DeepMind團(tuán)隊(duì)探索世界模型新邊界

谷歌旗下DeepMind組建了專門的世界模型研究團(tuán)隊(duì)，聘請Sora核心人員Tim Brooks掌舵，展現(xiàn)了其在世界模型領(lǐng)域的雄心壯志。DeepMind發(fā)布的Genie模型就是一個典型的例子，該模型能夠模擬虛擬世界以及逼真的動畫和物理效果。

Genie模型通過對大量圖像和視頻數(shù)據(jù)的學(xué)習(xí)，構(gòu)建了一個虛擬世界的生成模型。它可以根據(jù)用戶的輸入生成各種不同的虛擬場景，如奇幻森林、未來城市等，并且這些場景中的物體運(yùn)動和交互都符合物理規(guī)律。在游戲開發(fā)領(lǐng)域，Genie模型可以為游戲設(shè)計(jì)師提供無限的創(chuàng)意靈感，快速生成各種游戲場景和角色，降低游戲開發(fā)成本和時間。同時，Genie模型還可以用于教育和培訓(xùn)領(lǐng)域，為學(xué)生和學(xué)員提供一個沉浸式的虛擬學(xué)習(xí)環(huán)境。

Meta：楊立昆領(lǐng)銜探索世界模型理論根基

Meta首席AI科學(xué)家楊立昆早在2022年就開始領(lǐng)導(dǎo)團(tuán)隊(duì)研究“可以模擬世界運(yùn)作方式的AI系統(tǒng)”。他認(rèn)為，真正的智能蘊(yùn)含在生命與物理世界的交互中，因此設(shè)計(jì)一套AI學(xué)習(xí)范式和架構(gòu)，使機(jī)器能夠以自監(jiān)督而非人類干預(yù)的方式學(xué)習(xí)并掌握世界模型，是實(shí)現(xiàn)通用人工智能（AGI）的關(guān)鍵。

Meta放大招了，LeCun親自出鏡，開源V-JEPA 2世界模型，AI界巨擘押注“預(yù)測學(xué)習(xí)”未來

AI教母李飛飛的空間智能

李飛飛提出的“空間智能”（Spatial Intelligence）是她創(chuàng)立的 World Labs 公司的核心研究方向，旨在構(gòu)建能夠感知、推理并與三維物理世界交互的“世界模型”（World Model）。這一概念被視為實(shí)現(xiàn)通用人工智能（AGI）的關(guān)鍵路徑，其核心在于讓AI超越文本和2D圖像的局限，真正理解并模擬人類所處的立體空間環(huán)境。

空間智能的續(xù)集來了！“AI教母”李飛飛創(chuàng)業(yè)歸來，AI靠單圖生成3D世界，生成式AI進(jìn)入3D化沉浸式新時代

世界模型面臨的挑戰(zhàn)與機(jī)遇

（一）挑戰(zhàn)

算力需求巨大：訓(xùn)練和運(yùn)行世界模型需要比當(dāng)前生成模型更多的計(jì)算能力。例如，Sora單次訓(xùn)練算力需求或可達(dá)到GPT-3 175B的8.2倍，而世界模型的算力需求更大，這對企業(yè)的技術(shù)和資金實(shí)力提出了極高的要求。

幻覺和偏見問題：像所有AI模型一樣，世界模型也會產(chǎn)生幻覺并內(nèi)化訓(xùn)練數(shù)據(jù)中的偏見。例如，ChatGPT中文對話的效果不如英文給出的答案，高質(zhì)量的訓(xùn)練數(shù)據(jù)對于世界模型至關(guān)重要，且訓(xùn)練數(shù)據(jù)必須足夠廣泛和具體，同時還要解決訓(xùn)練數(shù)據(jù)的版權(quán)問題。

復(fù)雜行為模擬困難：目前的模型難以準(zhǔn)確捕捉世界居民（如人類和動物）的行為，這限制了世界模型在一些需要精準(zhǔn)模擬人類行為場景中的應(yīng)用。

（二）機(jī)遇

技術(shù)創(chuàng)新空間廣闊：世界模型作為AI領(lǐng)域的新興方向，為科研人員和企業(yè)提供了巨大的技術(shù)創(chuàng)新空間。通過不斷的研究和開發(fā)，有望突破現(xiàn)有的技術(shù)瓶頸，實(shí)現(xiàn)更高級別的智能表現(xiàn)。

商業(yè)應(yīng)用前景廣闊：隨著世界模型技術(shù)的不斷成熟，其在影視、游戲、自動駕駛、機(jī)器人等行業(yè)的商業(yè)應(yīng)用前景十分廣闊。例如，在影視制作中，世界模型可以快速生成逼真的場景和特效，降低制作成本和時間；在自動駕駛領(lǐng)域，可以提高車輛的安全性和智能化水平。

推動AI與現(xiàn)實(shí)世界融合：世界模型的發(fā)展有望推動人工智能與現(xiàn)實(shí)世界的深度融合，為人類社會帶來更多的便利和變革。例如，通過世界模型可以實(shí)現(xiàn)更智能的城市管理、醫(yī)療診斷和環(huán)境監(jiān)測等。

結(jié)語：

世界模型作為AI領(lǐng)域的新興力量，正以其獨(dú)特的魅力和巨大的潛力，引領(lǐng)著AI技術(shù)的發(fā)展方向。盡管目前還面臨著一些挑戰(zhàn)，但隨著科技巨頭的布局和科研人員的不斷努力，世界模型有望在未來取得重大突破，為人工智能與現(xiàn)實(shí)世界的融合開辟新的途徑。

分享到

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽