Gemini Robotics On-Device模型的任務(wù)適應(yīng)性能

區(qū)別于傳統(tǒng)強化學習需數(shù)萬次試錯,該模型引入演示驅(qū)動的少樣本微調(diào)機制。開發(fā)者通過50-100次遙操作演示(如人工控制機械臂完成新任務(wù)),錄制動作軌跡與視覺-語言配對數(shù)據(jù),輸入模型進行參數(shù)軟更新(Soft Prompt Tuning)。其底層依賴Gemini的多模態(tài)對齊能力:將演示視頻幀編碼為視覺token,動作序列解碼為運動token,再通過跨模態(tài)注意力機制建立語義映射。例如在“系鞋帶”任務(wù)中,模型能從少量演示中抽象出“交叉-穿引-拉緊”的動作范式,泛化至不同鞋型。這種能力源于預(yù)訓練階段對海量物理交互模擬數(shù)據(jù)(如MuJoCo仿真環(huán)境)的學習,使模型具備對物體動力學與操作邏輯的隱式理解。

開發(fā)賦能

安全框架下的開放生態(tài)

為加速技術(shù)落地,谷歌同步推出Gemini Robotics SDK開發(fā)套件。開發(fā)者可通過該工具包在MuJoCo物理模擬器中測試模型,并在現(xiàn)實環(huán)境中部署驗證。

這個SDK不僅能讓開發(fā)者輕松評估模型在自己任務(wù)和環(huán)境中的表現(xiàn),還提供了MuJoCo物理模擬器的測試功能。開發(fā)者可以先在模擬環(huán)境中驗證想法,再部署到真實機器人上,大大降低了開發(fā)成本和風險。

目前技術(shù)通過 “可信測試者”計劃 逐步開放,延續(xù)了谷歌在機器人領(lǐng)域?qū)徤髀涞氐牟呗浴?/p>

結(jié)語:

這一模型的出現(xiàn)也將極大地推動機器人技術(shù)的創(chuàng)新和發(fā)展。開發(fā)者可以基于它,開發(fā)出更多功能豐富、性能卓越的機器人應(yīng)用,進一步拓展機器人在各個行業(yè)的應(yīng)用邊界。從長遠來看,Gemini Robotics On-Device模型有望成為機器人技術(shù)發(fā)展史上的一個重要里程碑,引領(lǐng)機器人產(chǎn)業(yè)邁向一個更加智能、自主和高效的新時代。

分享到

lixiangjing

算力豹主編

相關(guān)推薦