Cosmos Reason還將改變視頻分析領(lǐng)域。該模型已集成到NVIDIA Blueprint視頻搜索與總結(jié)方案中,能夠在錄好的視頻和實時視頻流中提取有價值洞察。未來,基于該模型的視頻智能體,將在交通監(jiān)控、工業(yè)設(shè)施、城市巡邏場景中發(fā)揮重要作用。
物理AI開發(fā)面臨的核心挑戰(zhàn)在于數(shù)據(jù)短缺
NVIDIA Cosmos是英偉達推出的用來開發(fā)物理AI的平臺,包含生成式世界基礎(chǔ)模型(WFM)、安全防護機制以及高速數(shù)據(jù)處理與篩選流水線??梢杂盟鼇黹_發(fā)智能輔助駕駛汽車,智能機器人以及分析類AI智能體。
在英偉達的判斷中,繼AI智能體之后,AI技術(shù)發(fā)展的下一個站是“物理AI”——能夠感知、理解并與物理世界互動的AI模型。這將推動智能工廠、智能輔助駕駛、人形機器人等領(lǐng)域的革命。英偉達認(rèn)為,這一市場價值萬億美元。
然而,物理AI面臨著與大語言模型截然不同的核心挑戰(zhàn):數(shù)據(jù)鴻溝——也就是數(shù)據(jù)不夠用的問題。大語言模型可以利用整個互聯(lián)網(wǎng)進行預(yù)訓(xùn)練,而物理AI所需的數(shù)據(jù),不僅獲取成本高,而且會有很多難以覆蓋的極端情況。
對此,英偉達給出的解決方案是,讓物理AI模型在虛擬世界中推理、學(xué)習(xí)、反復(fù)練習(xí)技能。英偉達免費提供了需要用到的開源庫、框架和模型,讓開發(fā)者能直接集成到自己的工具和工作流中。
NVIDIA Cosmos為物理AI打造虛擬成長平臺
具體而言,物理AI學(xué)習(xí)的時候需要三個步驟:
第一步:世界重建 (World Composition)
為了讓機器人在虛擬世界中訓(xùn)練,首先需要一個逼真的“訓(xùn)練場”。如果要靠大量3D藝術(shù)家手工建模、上材質(zhì)、添加物理屬性,成本高,而且很難成規(guī)模。為此,英偉達發(fā)布了一個叫NuRec的Omniverse庫,它利用3DGS(3D 高斯濺射)等技術(shù),能將真實世界的傳感器數(shù)據(jù)自動重建為可交互、物理精確的3D虛擬場景。
同時,為了把來自傳感器、CAD工具以及模擬框架的不同來源的數(shù)據(jù)統(tǒng)一起來,英偉達新增了對于OpenUSD(通用場景描述語言)的支持,實現(xiàn)了英偉達Isaac Sim、Mujoco、Gazebo等主流仿真框架的數(shù)據(jù)互通,極大地簡化了虛擬世界的構(gòu)建流程。
第二步:世界生成 (World Generation)
現(xiàn)實世界通常非常復(fù)雜,各種環(huán)境變量都非常多,為了提高模型在不同環(huán)境和光照條件下的表現(xiàn),提高模型的泛化能力,要盡可能的讓模型見識到各種各樣的環(huán)境。為此,英偉達打造了Cosmos,里面有一系列世界模型。
比如,有個模型叫Cosmos Predict,給它一段文字、一張圖片或一段視頻,它可以“想象”接下來會發(fā)生什么,并生成后續(xù)的視頻畫面,用它生成連續(xù)的視頻數(shù)據(jù)。
還有個模型叫Cosmos Transfer,只需通過簡單的文本提示,就能在一個3D場景基礎(chǔ)上生成無數(shù)個新場景,帶有不同的背景和光照條件,也可以用來做數(shù)據(jù)增強。
據(jù)介紹,這些模型自發(fā)布以來已被下載超過200萬次,成為物理AI開發(fā)領(lǐng)域當(dāng)中的熱門工具。
第三步,就是一開始提到的Cosmos Reason所能做到的,提升AI模型對于所看到的世界的理解能力,還有與世界交互的能力。這三步所提供的能力,可以解決物理AI開發(fā)常見的諸多問題。
結(jié)束語
NVIDIA Cosmos提供了從數(shù)據(jù)生成、世界模擬到高級推理的開源模型和一系列軟件工具,當(dāng)然還有采用CUDA生態(tài)的一系列顯卡方案,這對于開發(fā)物理AI都非常重要。英偉達正在追逐萬億美元規(guī)模的物理AI市場,打造一個更智能的未來世界。