上圖為兩種人類與智能體交互形式的比對。左側(cè)的被動式Agent只能被動接受用戶指令并生成回復(fù),而右側(cè)的主動式Agent可以通過觀測環(huán)境主動推斷與提出任務(wù)。

當(dāng)前,哪怕是ChatGPT等最先進(jìn)的AI Agent都是傳統(tǒng)的被動式Agent (上圖左側(cè)所示),即需要用戶通過明確的指令顯示告訴Agent應(yīng)該做什么,Agent才能繼續(xù)執(zhí)行接下來的任務(wù)。

新范式下的Agent不再是簡單的指令執(zhí)行者,而是升級成為了具有”眼力見”的智能助手(上圖右側(cè)所示)。

它具備”眼中有活、主動幫助”的主動能動性,能夠主動觀察環(huán)境、預(yù)判用戶需求,像”肚子里的蛔蟲”一樣,在未被明確指示的情況下主動幫用戶排憂解難。

主動Agent交互范式應(yīng)用場景demo演示

場景 1:在一段情侶聊天的場景中,男生邀請女生一起要在周六去環(huán)球影城并于早上八點(diǎn)來接女生,當(dāng)Agent獲取用戶授權(quán)之后隨時保持在線的“候命狀態(tài)”,當(dāng)Agent通過上下文聊天內(nèi)容實(shí)時識別到女生的需求,在沒有用戶明確下指令的情況下,Agent主動幫女生定了一個周日早上七點(diǎn)的鬧鐘用來提醒起床。

場景 2:當(dāng)用戶在電腦上接收到一份重要文件(學(xué)習(xí)課件、發(fā)票等)時,Agent主動幫用戶把文件存到了本地,并自動識別出PDF文件第一頁顯示的標(biāo)題然后幫用戶把文件名進(jìn)行了重命名。

該研究除了提出以上開創(chuàng)性的主動 Agent范式之外,還通過采集不同場景下的人類活動數(shù)據(jù)構(gòu)建了一個環(huán)境模擬器,進(jìn)而構(gòu)建了數(shù)據(jù)集ProactiveBench,通過訓(xùn)練模型獲得了與人類高度一致的獎勵模型,并比對了不同模型在數(shù)據(jù)集下的性能。

主動Agent技術(shù)原理

下圖展示了主動 Agent 技術(shù)原理的整體流程。為了讓智能體能夠主動提出任務(wù),該研究設(shè)計了三個組件以模擬不同場景下的環(huán)境信息,用戶行為和對智能體提出任務(wù)的反饋。

數(shù)據(jù)生成過程總覽。該過程包含了初始環(huán)境與任務(wù)設(shè)置,事件生成,主動預(yù)測,用戶判斷和行動執(zhí)行。

1、環(huán)境模擬器模擬了一個特定環(huán)境,并為智能體的交互提供了一個沙盒條件。模擬器通過使用基于Activity Watcher軟件采集到的真實(shí)人類數(shù)據(jù)以提升生成事件的質(zhì)量。環(huán)境模擬器的主要功能為事件生成與狀態(tài)維護(hù):通過使用GPT-4o 從人類注釋員處收集的種子事件以生成一個需要交互的具體環(huán)境,同時生成所有相關(guān)實(shí)體以讓智能體執(zhí)行任務(wù)。對于每個場景,環(huán)境模擬器接收用戶活動并生成詳細(xì)的,邏輯通順合理的事件,環(huán)境模擬器將會持續(xù)生成事件,更新實(shí)體狀態(tài),產(chǎn)生特定反饋,直到當(dāng)前環(huán)境下沒有更多事件以供生成。
2、主動智能體將會通過環(huán)境模擬器提供的信息預(yù)測用戶意圖,生成預(yù)測任務(wù)。每當(dāng)智能體接受一個新事件后,它將首先更新自己的記憶,結(jié)合用戶之前的反饋和歷史交互信息,主動智能體將能夠結(jié)合用戶性格提出可能的任務(wù)。如果主動智能體沒有檢測到需要,其將保持靜默,反之將會提出一個任務(wù)。一旦此任務(wù)被用戶接受,那么主動智能體將在環(huán)境模擬器中執(zhí)行該任務(wù),并進(jìn)而產(chǎn)生后續(xù)的系列事件。
3、用戶智能體將模擬用戶行為并對主動智能體的任務(wù)做出反饋。用戶智能體為經(jīng)過提示的GPT-4o,在獲取預(yù)測之后,用戶智能體將會決定是否接受任務(wù)。該研究通過從人類標(biāo)注員處收集判斷,并訓(xùn)練一個獎勵模型以模擬這一過程。人類標(biāo)注員在研究開發(fā)的標(biāo)注平臺上進(jìn)行標(biāo)注,對特定時間下,9個不同的大語言模型生成的多樣化預(yù)測進(jìn)行判斷,并通過多數(shù)投票的方式?jīng)Q定某個回合用戶是否具有需求,以及用戶傾向于接受什么類型的任務(wù)。值得一提的是,人類標(biāo)注員在測試集上達(dá)到了91.67%的一致性,充分說明了測試集的可靠性。

新一代主動Agent交互范式的核心特點(diǎn)

一、主動性

主動觀察環(huán)境:主動Agent交互范式下的Agent能夠主動觀察并理解其所在的環(huán)境,這是其主動性的基礎(chǔ)。通過環(huán)境模擬器,Agent可以模擬一個特定的環(huán)境,并實(shí)時接收和處理來自該環(huán)境的信息。

主動預(yù)測用戶需求:在主動觀察環(huán)境的基礎(chǔ)上,Agent能夠利用自身的智能算法和模型,預(yù)測用戶可能的需求或意圖。這種預(yù)測能力使得Agent能夠在用戶明確提出需求之前,就主動提供幫助或建議。

主動提出任務(wù):當(dāng)Agent預(yù)測到用戶可能有需求時,它會主動提出一個或多個可能的任務(wù)供用戶選擇。這些任務(wù)通常是基于對用戶歷史行為、當(dāng)前環(huán)境以及Agent自身能力的綜合考量而提出的。

主動執(zhí)行任務(wù):一旦用戶接受了Agent提出的任務(wù),Agent就會立即執(zhí)行該任務(wù),并在執(zhí)行過程中持續(xù)監(jiān)控環(huán)境變化和用戶需求的變化,以確保任務(wù)的順利完成。

二、智能性

高級強(qiáng)化學(xué)習(xí)算法:主動Agent交互范式可能采用了更為高級的強(qiáng)化學(xué)習(xí)算法,使得Agent在面對復(fù)雜、動態(tài)的環(huán)境時,能夠基于自身的某種內(nèi)在“動機(jī)”做出合理的決策。這種算法不僅提高了Agent的決策能力,還增強(qiáng)了其適應(yīng)性和魯棒性。

靈活的知識表示與推理:與傳統(tǒng)AI相比,主動Agent交互范式下的Agent能夠以更加靈活、動態(tài)的方式表示知識,并根據(jù)自身的主觀能動性進(jìn)行推理。這種能力使得Agent能夠處理更復(fù)雜、需要主觀判斷的任務(wù),如醫(yī)療診斷輔助、內(nèi)容推薦等。

個性化服務(wù):通過持續(xù)的環(huán)境觀察學(xué)習(xí)和用戶反饋,主動Agent能夠適應(yīng)用戶的生活方式,并提供個性化的服務(wù)。例如,在情侶聊天的場景中,Agent可以識別到女生的需求,并主動設(shè)置鬧鐘;在管理文件時,Agent能夠自動存儲、識別和優(yōu)化文件名稱等。

高效的感知與決策模塊:主動Agent交互范式下的Agent通常具有高效的感知模塊和決策模塊。感知模塊能夠主動篩選和聚焦于對目標(biāo)有重要意義的數(shù)據(jù),提高處理效率;而決策模塊則能夠基于感知到的信息,快速做出合理的決策。

決策機(jī)制

主動Agent的決策機(jī)制是其技術(shù)的核心部分。Agent能夠基于感知到的信息,通過構(gòu)建環(huán)境模型、設(shè)定目標(biāo)函數(shù)以及采用各種決策算法(如基于規(guī)則的推理、基于模型的決策、基于目標(biāo)的決策以及基于學(xué)習(xí)的決策等),來做出最優(yōu)的決策。其中,深度強(qiáng)化學(xué)習(xí)(DRL)為Agent提供了新的決策解決方案,它能夠在復(fù)雜的環(huán)境中自動學(xué)習(xí)最優(yōu)的決策策略,無需預(yù)先設(shè)計決策模型。

此外,Agent還可以使用馬爾可夫決策過程(MDP)來描述其決策過程,并通過求解值函數(shù)和策略函數(shù)來實(shí)現(xiàn)最優(yōu)決策。

結(jié)語

清華大學(xué)與面壁智能聯(lián)合提出的新一代主動Agent交互范式是人工智能領(lǐng)域的重要創(chuàng)新之一。通過引入主觀能動性、支持多模態(tài)感知與交互以及鼓勵持續(xù)學(xué)習(xí)與進(jìn)化等核心特點(diǎn),該范式有望推動AI技術(shù)向更高層次發(fā)展,并為未來的AI應(yīng)用開辟更廣闊的空間。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦