GO-1開創(chuàng)性地提出Vision-Language-Latent-Action(ViLLA)架構,通過預測隱式動作標記(Latent Action Tokens),彌合了圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。其架構由多模態(tài)大模型(VLM)和混合專家系統(tǒng)(MoE)組成:VLM采用InternVL-2B,接收多視角視覺、力覺信號和語言輸入,實現(xiàn)通用場景感知;MoE中的Latent Planner預測隱式動作規(guī)劃鏈,Action Expert則生成精細動作序列。
文字編輯| 宋雨涵
1
首個通用具身基座模型GO-1
核心能力與技術突破
智元推出了Vision-Language-Latent-Action(ViLLA)架構,這一架構融合了VLM(多模態(tài)大模型)與MoE(混合專家系統(tǒng))。智元的啟元大模型GO-1,通過吸納人類及多種機器人的數(shù)據(jù),賦予了機器人強大的學習能力,使其能夠靈活應用于各種環(huán)境和物品中,迅速適應新任務、掌握新技能。此外,GO-1還支持部署至各類機器人平臺,并在實際應用中不斷進化升級。
在智元的機器人服務場景中,舉一個具體例子:當用戶向機器人發(fā)出“掛衣服”的指令時,GO-1模型能夠根據(jù)當前視覺畫面,準確理解指令所對應的任務需求。隨后,模型會依據(jù)其訓練過程中積累的掛衣服流程知識,規(guī)劃出完成該任務所需的一系列操作步驟,并順序執(zhí)行這些步驟,最終圓滿完成任務。
從技術層面深入剖析,GO-1大模型具備了廣泛的場景感知與理解能力。在模型構建與訓練階段,它學習了互聯(lián)網(wǎng)上海量的純文本及圖文數(shù)據(jù),從而能夠準確理解“掛衣服”在具體情境下的含義與要求;通過觀摩人類操作視頻及其他機器人的操作視頻,它掌握了掛衣服任務的常規(guī)環(huán)節(jié);通過模擬不同衣物、衣柜、房間環(huán)境下的掛衣服操作,它深刻理解了任務環(huán)節(jié)中涉及的物體與環(huán)境,并打通了任務執(zhí)行的全流程;最后,得益于真機示教數(shù)據(jù)的學習,機器人能夠熟練地完成掛衣服任務的所有操作。
GO-1具備四大革命性能力
具體來說,該款大模型的特點可以歸納為4個方面。
人類視頻學習
GO-1大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進行學習,增強模型對人類行為的理解。
小樣本快速泛化
該大模型具有泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務,降低了具身模型的使用門檻,使得后訓練成本非常低。
一腦多形
該大模型是通用機器人策略模型,能夠在不同機器人形態(tài)之間遷移,快速適配到不同本體。
持續(xù)進化
該大模型搭配一整套數(shù)據(jù)回流系統(tǒng),可以從實際執(zhí)行中遇到的問題數(shù)據(jù)中持續(xù)進化學習。
2
基于全新ViLLA架構
構建核心圍繞對數(shù)據(jù)的充分利用展開
數(shù)據(jù)驅(qū)動:構建具身智能金字塔
GO-1大模型的構建核心圍繞對數(shù)據(jù)的充分利用展開。基于具身領域的數(shù)字金字塔,GO-1吸納了人類世界多種維度和類型的數(shù)據(jù):
有了這些數(shù)據(jù),可以讓機器人在一開始就擁有通用的場景感知和語言能力,通用的動作理解能力,以及精細的動作執(zhí)行力。
當然,過程中也少不了一個合適的數(shù)據(jù)處理架構。
由于現(xiàn)有的VLA(Vision-Language-Action)架構沒有利用到數(shù)字金字塔中大規(guī)模人類/跨本體操作視頻數(shù)據(jù),缺少了一個重要的數(shù)據(jù)來源,導致迭代的成本更高,進化的速度更慢。
因此,智元團隊創(chuàng)新性地提出了ViLLA(Vision-Language-Latent-Action)架構。
智元團隊創(chuàng)新性地提出了ViLLA架構
ViLLA架構由VLM(多模態(tài)大模型)和MoE(混合專家)組成,三者分工明確:
VLM(InternVL-2B)
接收多視角視覺、力覺信號和語言指令,通過海量互聯(lián)網(wǎng)圖文數(shù)據(jù)預訓練,具備通用場景感知能力。例如,識別“水杯”時不僅能判斷形狀,還能結(jié)合上下文理解“倒水”意圖。
Latent Planner(隱式規(guī)劃器)
基于VLM中間層輸出,預測離散化的隱式動作標記(Latent Action Tokens),形成任務規(guī)劃鏈(CoP)。通過時空Transformer編碼歷史幀與當前幀的差異,并利用VQ-VAE量化處理,將人類視頻中的動作抽象為通用模板。例如,將“掛衣服”動作分解為“舉起衣架-定位掛鉤”等隱式標記。
Action Expert(動作專家)
采用擴散模型生成高頻精細動作序列,在百萬級真機數(shù)據(jù)(如AgiBot World數(shù)據(jù)集)上訓練,實現(xiàn)毫米級動作控制。例如,倒水時每秒生成220次動作調(diào)整,動態(tài)適應液面高度變化。
3
未來展望
具身智能邁向通用化、開放化、智能化
– 從單一任務到多種任務:機器人能夠在不同場景中執(zhí)行多種任務,無需針對每個新任務重新訓練
– 從封閉環(huán)境到開放世界:機器人不再局限于實驗室,而是可以適應多變的真實世界環(huán)境
– 從預設程序到指令泛化:機器人能夠理解自然語言指令,并根據(jù)語義進行組合推理,不再局限于預設程序
寫在最后
GO-1通過ViLLA架構與數(shù)據(jù)驅(qū)動策略,解決了具身智能長期面臨的泛化難、適應性差、交互復雜等問題。隨著2025年量產(chǎn)計劃的推進(預計數(shù)千臺機器人落地),其有望成為具身智能領域的“安卓級”基座模型,推動機器人技術在商業(yè)、工業(yè)、家庭等多領域?qū)崿F(xiàn)規(guī)?;瘧?。