OpenAI官方介紹:
Operator是我們的首批智能體之一。這些AI能夠獨(dú)立為你完成工作——只需給它一個(gè)任務(wù),它就會(huì)執(zhí)行。
文字編輯| 宋雨涵
1
OpenAI讓AI學(xué)會(huì)“用電腦”了?
Operator:AI界的“電腦高手”
在人工智能領(lǐng)域,OpenAI再次邁出了重要的一步。其最新推出的AI助手Operator,不僅標(biāo)志著AI技術(shù)的一次重大飛躍,更被視為邁向通用人工智能(AGI)的重要里程碑。作為OpenAI首款真正模擬人類操作網(wǎng)頁(yè)瀏覽器的AI助手,Operator的出現(xiàn)徹底改變了我們對(duì)AI能力的認(rèn)知。
Operator的最大亮點(diǎn)在于其能夠像人類一樣自如地操作網(wǎng)頁(yè)瀏覽器,執(zhí)行各種復(fù)雜的在線任務(wù)。無(wú)論是預(yù)訂旅行住宿、餐廳預(yù)約,還是在線購(gòu)物,Operator都能輕松應(yīng)對(duì)。用戶只需在多個(gè)類別中選擇所需的自動(dòng)化任務(wù),Operator便能自動(dòng)完成整個(gè)流程,從搜索、比較到下單,一氣呵成。這種能力不僅極大地提高了效率,更讓AI在數(shù)字生活中扮演了更加主動(dòng)和智能的角色。
應(yīng)用場(chǎng)景廣泛:覆蓋多個(gè)生活領(lǐng)域
Operator的應(yīng)用場(chǎng)景非常廣泛,涵蓋了購(gòu)物、配送、餐飲和旅行等多個(gè)生活領(lǐng)域。用戶可以根據(jù)自己的需求,選擇相應(yīng)的自動(dòng)化任務(wù),讓Operator代為完成。例如,在旅行領(lǐng)域,Operator可以幫助用戶搜索并預(yù)訂酒店、機(jī)票,甚至規(guī)劃整個(gè)行程;在購(gòu)物領(lǐng)域,Operator則能夠自動(dòng)比較不同商品的價(jià)格和質(zhì)量,幫助用戶做出最優(yōu)選擇。
技術(shù)突破:從被動(dòng)到主動(dòng)
Operator的推出,是AI技術(shù)從被動(dòng)工具向主動(dòng)參與者轉(zhuǎn)變的重要體現(xiàn)。傳統(tǒng)上,AI往往作為輔助工具存在,需要人類提供明確的指令才能完成任務(wù)。而Operator則能夠主動(dòng)分析用戶需求,模擬人類操作,實(shí)現(xiàn)真正的智能化服務(wù)。這種轉(zhuǎn)變不僅提高了AI的實(shí)用性和便捷性,更為未來(lái)AGI的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。
雖然Operator目前還只能執(zhí)行特定的在線任務(wù),但其背后的技術(shù)原理和實(shí)現(xiàn)方式卻為AGI的發(fā)展提供了寶貴的經(jīng)驗(yàn)。AGI作為人工智能的最終目標(biāo),旨在讓機(jī)器具備像人類一樣的智能和學(xué)習(xí)能力,能夠處理各種復(fù)雜的問(wèn)題和任務(wù)。而Operator的出現(xiàn),則展示了AI在模擬人類行為和思維方面的巨大潛力,為AGI的實(shí)現(xiàn)提供了重要的參考和借鑒。
2
Operator的工作原理
計(jì)算機(jī)使用代理?(Computer-Using Agent, CUA)
Operator的底層使用了一個(gè)全新的模型Computer-Using-Agent(CUA)。
通過(guò)將GPT-4o的視覺(jué)能力和高級(jí)推理強(qiáng)化學(xué)習(xí)相結(jié)合,CUA可以進(jìn)行GUI交互。Operator可以看到網(wǎng)頁(yè)界面的內(nèi)容,使用鼠標(biāo)、鍵盤允許的所有操作。由此它可以自動(dòng)操作,而無(wú)需自定義的API集成。
如果遇到問(wèn)題或者出現(xiàn)錯(cuò)誤,Operator可以利用推理能力自我糾錯(cuò)。并在它卡住需要幫助時(shí),將控制權(quán)交還給用戶。CUA在WebArena和WebVoyager兩個(gè)基準(zhǔn)測(cè)試中都取得了SOTA。
與以往需要定制API集成的AI工具不同,Operator直接利用用戶每天使用的網(wǎng)頁(yè)界面,無(wú)需復(fù)雜的后臺(tái)對(duì)接,極大地?cái)U(kuò)展了AI的應(yīng)用場(chǎng)景。它能夠處理各種重復(fù)性的瀏覽器任務(wù),例如填寫表格、訂購(gòu)食品雜貨,甚至制作表情包。
3
OpenAI的未來(lái)計(jì)劃
一、通過(guò)API使用CUA:揭示驅(qū)動(dòng)Operator的模型
OpenAI表示,很快就會(huì)通過(guò)API揭示驅(qū)動(dòng)Operator的模型,即計(jì)算機(jī)使用代理(CUA)。這一舉措將為開發(fā)者提供一個(gè)強(qiáng)大的工具,使他們能夠利用Operator的功能來(lái)構(gòu)建自己的computer use智能體。CUA結(jié)合了OpenAI的GPT-4o模型的視覺(jué)功能與更高級(jí)模型的推理能力,使其能夠在無(wú)需使用面向開發(fā)人員的API的情況下,與網(wǎng)站的前端進(jìn)行交互。這意味著開發(fā)者可以利用CUA來(lái)開發(fā)各種自動(dòng)化任務(wù),如在線購(gòu)物、預(yù)訂旅行等,從而極大地提高工作效率。
二、增強(qiáng)功能:提高處理更長(zhǎng)、更復(fù)雜工作流程的能力
除了通過(guò)API揭示模型外,OpenAI還計(jì)劃繼續(xù)提高Operator處理更長(zhǎng)、更復(fù)雜工作流程的能力。Operator的核心功能包括自動(dòng)化任務(wù)執(zhí)行和自我學(xué)習(xí)能力,這使得它能夠理解用戶指令,并根據(jù)實(shí)時(shí)數(shù)據(jù)反饋調(diào)整工作策略。隨著技術(shù)的不斷進(jìn)步,Operator將能夠處理更加復(fù)雜和多步驟的任務(wù),如編寫報(bào)告、編輯文檔、編程等。這將為用戶帶來(lái)更加智能化、個(gè)性化的服務(wù)體驗(yàn)。
三、讓更多人可用:擴(kuò)展到Plus、Team和Enterprise用戶
OpenAI還計(jì)劃將Operator擴(kuò)展到Plus、Team和Enterprise用戶。目前,Operator已通過(guò)ChatGPT的200美元Pro訂閱計(jì)劃向美國(guó)用戶推出。未來(lái),隨著技術(shù)的不斷成熟和市場(chǎng)的不斷擴(kuò)大,OpenAI將逐步將Operator推廣給更多層級(jí)的用戶。這將使得更多企業(yè)和個(gè)人能夠享受到Operator帶來(lái)的便捷和高效。
四、集成到ChatGPT中:實(shí)現(xiàn)無(wú)縫的實(shí)時(shí)和異步任務(wù)執(zhí)行
OpenAI還表示,一旦在安全性與大規(guī)模可用性方面建立信心后,就會(huì)將Operator的功能直接集成到ChatGPT中。這一舉措將實(shí)現(xiàn)無(wú)縫的實(shí)時(shí)和異步任務(wù)執(zhí)行,使得用戶能夠在與ChatGPT進(jìn)行對(duì)話的同時(shí),直接通過(guò)Operator完成各種任務(wù)。這將極大地提升用戶體驗(yàn)和工作效率,使得ChatGPT成為一個(gè)更加全面、智能的助手。
結(jié)語(yǔ)
OpenAI推出的Operator,不僅是一款功能強(qiáng)大的AI助手,更是AI技術(shù)發(fā)展的一個(gè)重要里程碑。它的出現(xiàn)不僅提高了我們的數(shù)字生活體驗(yàn),更為未來(lái)AGI的發(fā)展開辟了新的道路。我們有理由相信,在不久的將來(lái),AI將像人類一樣聰明、靈活,成為我們生活中不可或缺的一部分。