清華大學(xué)THUNLP實驗室長期致力于自然語言處理和人工智能領(lǐng)域的研究,而面壁智能則專注于大模型技術(shù)的創(chuàng)新與應(yīng)用。雙方此前已在多模態(tài)模型MiniCPM-V的開發(fā)上展開合作,取得了很多成果。此次聯(lián)合推出的AgentCPM-GUI,是雙方在移動端智能體領(lǐng)域的一次重要嘗試,標(biāo)志著大模型技術(shù)在移動設(shè)備上的進一步落地。
高質(zhì)量的GUI理解能力:通過在大規(guī)模中英文安卓數(shù)據(jù)集上進行預(yù)訓(xùn)練,模型對常見GUI控件(如按鈕、輸入框、標(biāo)簽、圖標(biāo)等)具備定位與理解能力,為精確操作打下基礎(chǔ)。
中文應(yīng)用深度適配:AgentCPM-GUI是首個針對中文應(yīng)用精細優(yōu)化的開源GUI智能體,支持高德地圖、大眾點評、嗶哩嗶哩、小紅書等30余個主流中文應(yīng)用,解決了中文界面交互的特殊挑戰(zhàn)。
增強的規(guī)劃與推理能力:通過強化微調(diào)技術(shù)(RFT),模型在輸出動作前進行詳細的推理思考,顯著提升復(fù)雜任務(wù)執(zhí)行的成功率,使操作更加智能化。
緊湊的動作空間設(shè)計:采用優(yōu)化的動作空間和緊湊的JSON格式,將平均動作長度壓縮至9.7個token,提升了移動端推理效率,降低了資源消耗。
AgentCPM-GUI的訓(xùn)練流程包括兩個階段:
監(jiān)督微調(diào)(SFT):使用包含屏幕截圖和相應(yīng)操作的大規(guī)模標(biāo)注數(shù)據(jù)集,訓(xùn)練模型理解界面元素并生成正確的操作行為。
強化微調(diào)(RFT):通過自我探索和反饋機制,優(yōu)化模型的思考能力和決策策略,提高復(fù)雜場景下的任務(wù)完成率。
此外,模型的動作設(shè)計采用JSON結(jié)構(gòu)化輸出,支持多種操作類型,如點擊、滑動、輸入文本、按鍵操作等,增強了模型的可解釋性和實用性。
應(yīng)用場景:
AgentCPM-GUI的應(yīng)用場景廣泛,包括:
智能手機自動化:替代傳統(tǒng)腳本,通過自然語言指令完成日常操作任務(wù)。
無障礙輔助:幫助行動不便用戶操控手機應(yīng)用。
應(yīng)用測試與質(zhì)量保證:自動執(zhí)行應(yīng)用測試流程,發(fā)現(xiàn)潛在問題。
智能助手集成:為現(xiàn)有智能助手提供視覺交互能力。
教育引導(dǎo):輔助新用戶學(xué)習(xí)復(fù)雜應(yīng)用的使用方法。
未來,AgentCPM-GUI有望擴展到更多應(yīng)用場景和平臺,如iOS和桌面系統(tǒng),增強跨應(yīng)用任務(wù)規(guī)劃和執(zhí)行能力,降低模型參數(shù)量,提升端側(cè)部署效率,并增強個性化適應(yīng)能力,根據(jù)用戶習(xí)慣調(diào)整交互方式。
AgentCPM-GUI已在GitHub開源,可訪問:https://github.com/OpenBMB/AgentCPM-GUI