而就在昨天,“AI教母”李飛飛終于是坐不住了
“無論怎樣理論化,我們還是很難用語言來描述與照片或句子生成的3D場景交互的體驗,”李飛飛說道。
北京時間12月3日凌晨,著名 AI 學者、斯坦福大學教授李飛飛公布了她的第一個創(chuàng)業(yè)項目。這是一個能用單張圖片、一句話生成3D世界的神奇項目。
生成式AI,從此進入了3D化、完全沉浸式的新時代。
只用一張圖生成的3D世界會有多精細?World Labs表示,效果是這樣的:
空間智能的發(fā)展史
理論基礎:李飛飛的空間智能發(fā)展基于對人類空間智能的深入理解。空間智能是指一個人準確感受視覺空間并將所見形象表現(xiàn)出來的能力,包括以三維空間的方式來思考、知覺外在和內在的影像,并能重現(xiàn)這些影像。
理論闡述:李飛飛在斯坦福大學任教期間,就開始了對空間智能的研究,并在多次演講中詳細解讀了這一概念。她認為空間智能的核心在于教會計算機如何看、學習和行動,并不斷學習如何更好地看和行動。
首次面向大眾:在2024年的TED演講中,李飛飛詳細講解了“空間智能”的概念。她用一張簡單的圖片“一只貓將玻璃杯推到桌子邊緣”向大家闡述了人類大腦如何瞬間處理物體的形狀、位置、與周圍環(huán)境的關系,并預測接下來可能發(fā)生的事件。這種復雜的空間推理能力,是目前人工智能所無法完全具備的。
她深入研究如何讓AI不僅能看到,還能真正理解物體在空間中的位置及其與周圍環(huán)境的關系,從而推動機器人、虛擬現(xiàn)實以及其他需要空間理解的系統(tǒng)進化,這就是她“空間智能”研究的起點。
此前一周寶可夢GO團隊打造的全球最強3D地圖——LGM:以其龐大的神經網絡與參數(shù)規(guī)模、高精度的3D視覺地圖以及全球范圍內的知識互通與共享等特點,開啟了空間智能的新篇章。
就在昨天,李飛飛空間智能首個項目突然發(fā)布:僅憑借1張圖,就能生成一個3D游戲世界的AI系統(tǒng)!
生成的3D世界具有交互性
能夠像玩游戲那樣,自由地移動相機來探索這個3D世界,淺景深、希區(qū)柯克變焦等操作均可行。
隨便輸入一張圖:除了這張圖本體,可探索的3D世界里,所有東西都是AI生成的:
與生成式AI工具生成的圖片或視頻等2D內容不同,以3D形式生成的內容具有更好的控制性和一致性。而且,該模型還可以適應各種場景類型和藝術風格,比如生成不同的相機效果、3D效果以及經典繪畫風格的3D內容。
這將改變我們制作電影、游戲、模擬器和其他物理世界數(shù)字表現(xiàn)形式的方式。
技術意義與應用前景
技術意義:該成果展示了「空間智能」在AI領域的重要應用,推動了計算機視覺和實體智能體的發(fā)展。實現(xiàn)了從2D到3D的跨越,為電影、游戲、模擬器等物理世界的數(shù)字表現(xiàn)形式帶來了翻天覆地的變化。
應用前景:目標客戶包括視頻游戲開發(fā)商和電影制片廠,有望降低開發(fā)成本,幫助工作室實現(xiàn)更大膽的創(chuàng)意冒險。對藝術家、設計師、開發(fā)人員、電影制作人和工程師等專業(yè)人士有用的工具,可以與其他AI工具自然地結合,創(chuàng)造新的工作流體驗。
多模態(tài)語言模型和空間智能的區(qū)別
知名華裔計算機科學家、人工智能專家李飛飛和計算機視覺領域的知名學者Justin Johnson共同接受了a16z的專訪。
在受訪中,李飛飛表示,計算能力、數(shù)據(jù)理解和算法的進步為空間智能的發(fā)展奠定了基礎。相對于語言模型而言,空間智能更側重于機器對物理世界的感知、推理和交互能力,它是人工智能發(fā)展的必然趨勢。
當前語言模型,特別是多模態(tài)模型,底層表示均為一維。上下文長度、Transformer架構、序列處理及注意力機制均體現(xiàn)一維表示。這些模型基于一維標記序列運作。語言的一維表示自然,因文字為字母構成的一維序列。多模態(tài)模型將其他模態(tài)信息融入一維表示。但空間智能領域需三維表征為核心。
算法層面,這提供了新數(shù)據(jù)處理、輸出類型及問題解決途徑。多模態(tài)模型處理圖像時,未包含基本三維表示。李飛飛認為,一維與三維表示的根本差異是關鍵。語言為生成信號,模型可概括性輸出數(shù)據(jù)。而3D世界遵循物理定律,結構復雜。3D信息處理與語言處理截然不同,雖借鑒語言模型想法,但為全新哲學議題。
主持人問,一維語言是否為物理世界的糟糕表征,因人類生成且可能信息損失?;谙袼氐哪P吞幚?D圖像和視頻,觀看視頻可感知3D世界??臻g智能與2D處理有何不同?
Justin區(qū)分底層表示和面向用戶的可供性。感知二維圖像,視網膜為二維結構,但表示方式影響可供性。大腦將二維視為三維投影,執(zhí)行操作如移動物體或相機??捎枚S表示和模型實現(xiàn),但與任務不完全匹配。對三維世界的二維投影建??赡?,但非核心。三維表示置于模型核心,表示類型與任務類型更匹配,提供更自然的可供性。
李飛飛強調空間智能重要性。智能的弧線指向可供性,進化使動物和人類能在世界移動、互動、創(chuàng)造。原生的三維性對釋放應用洪流至關重要,即使表現(xiàn)形式二維,本質三維。
結語
李飛飛首個「空間智能」模型的發(fā)布標志著AI在3D世界生成和交互性方面取得了重要突破。這一成果不僅具有技術意義,還展示了廣闊的應用前景和無限的可能性。
此外World Labs表示,他們正在努力改進生成的3D世界的大小和逼真度,并嘗試與用戶互動的新方法。未來,隨著「空間智能」的加速進步,一個新時代正在我們眼前展開,這將催化機器人學習等具身智能系統(tǒng)的發(fā)展。(文/宋雨涵)