圖片來自網(wǎng)絡(luò)
今年3月,Google介紹了一款視覺語言動作(Vision Language Action,VLA)模型,將Gemini 2.0的多模態(tài)推理和現(xiàn)實世界理解能力引入機器人領(lǐng)域。本周,Google DeepMind進一步公布了Gemini Robotics On-Device,這是該公司可以直接在機器人上運行的最強大的模型。由于Gemini Robotics On-Device的運行不依賴網(wǎng)絡(luò)連接,因此它適合對延遲敏感的應(yīng)用程序,即使在帶寬不穩(wěn)定甚至沒有網(wǎng)絡(luò)的地區(qū)也能穩(wěn)定運行。
Gemini Robotics On-Device是雙臂機器人的基礎(chǔ)模型,僅需最少的計算資源。它基于Gemini Robotics的任務(wù)泛化和靈活性開發(fā)。Google強調(diào),該模型的設(shè)計宗旨是快速實驗和靈活操作,能夠通過微調(diào)適應(yīng)新任務(wù),并且可以在本地執(zhí)行低延遲推理。
Gemini Robotics On-Device在多種測試場景中展示了強大的視覺、語義和行為泛化能力,超越了Gemini Robotics和其他設(shè)備上運行的模型。它能夠遵循自然語言指令,通過在機器人端執(zhí)行來完成高難度任務(wù),例如解開袋子的拉鏈或折疊衣服。
Gemini Robotics On-Device也是Google首個開放微調(diào)的VLA模型。即使在未微調(diào)的情況下,它也能執(zhí)行許多任務(wù),但開發(fā)人員仍然可以對其進行微調(diào)以適應(yīng)新領(lǐng)域。在微調(diào)過程中,開發(fā)人員只需提供50到100次示例。
Gemini Robotics On-Device是基于ALOHA機器人進行訓(xùn)練的,但Google已經(jīng)展示了經(jīng)過微調(diào)后,它也可以在第三方廠商的機器人上運行,例如德國Apptronik的Franka FR3雙臂工業(yè)機器人或Apollo人形機器人。
Google還發(fā)布了Gemini Robotics SDK,幫助開發(fā)人員評估Gemini Robotics On-Device在其環(huán)境或任務(wù)中的性能。他們還可以利用Google幾年前發(fā)布的MuJoCo物理模擬庫測試模型,并快速適應(yīng)其他新領(lǐng)域。開發(fā)人員現(xiàn)在只需報名加入可信測試員計劃即可訪問SDK。