中文字幕乱人伦高清视频,孕妇怀孕高潮潮喷视频孕妇

上圖為兩種人類與智能體交互形式的比對(duì)。左側(cè)的被動(dòng)式Agent只能被動(dòng)接受用戶指令并生成回復(fù)，而右側(cè)的主動(dòng)式Agent可以通過(guò)觀測(cè)環(huán)境主動(dòng)推斷與提出任務(wù)。

當(dāng)前，哪怕是ChatGPT等最先進(jìn)的AI Agent都是傳統(tǒng)的被動(dòng)式Agent （上圖左側(cè)所示），即需要用戶通過(guò)明確的指令顯示告訴Agent應(yīng)該做什么，Agent才能繼續(xù)執(zhí)行接下來(lái)的任務(wù)。

新范式下的Agent不再是簡(jiǎn)單的指令執(zhí)行者，而是升級(jí)成為了具有”眼力見(jiàn)”的智能助手（上圖右側(cè)所示）。

它具備”眼中有活、主動(dòng)幫助”的主動(dòng)能動(dòng)性，能夠主動(dòng)觀察環(huán)境、預(yù)判用戶需求，像”肚子里的蛔蟲(chóng)”一樣，在未被明確指示的情況下主動(dòng)幫用戶排憂解難。

主動(dòng)Agent交互范式應(yīng)用場(chǎng)景demo演示

場(chǎng)景 1：在一段情侶聊天的場(chǎng)景中，男生邀請(qǐng)女生一起要在周六去環(huán)球影城并于早上八點(diǎn)來(lái)接女生，當(dāng)Agent獲取用戶授權(quán)之后隨時(shí)保持在線的“候命狀態(tài)”，當(dāng)Agent通過(guò)上下文聊天內(nèi)容實(shí)時(shí)識(shí)別到女生的需求，在沒(méi)有用戶明確下指令的情況下，Agent主動(dòng)幫女生定了一個(gè)周日早上七點(diǎn)的鬧鐘用來(lái)提醒起床。

場(chǎng)景 2：當(dāng)用戶在電腦上接收到一份重要文件（學(xué)習(xí)課件、發(fā)票等）時(shí)，Agent主動(dòng)幫用戶把文件存到了本地，并自動(dòng)識(shí)別出PDF文件第一頁(yè)顯示的標(biāo)題然后幫用戶把文件名進(jìn)行了重命名。

該研究除了提出以上開(kāi)創(chuàng)性的主動(dòng) Agent范式之外，還通過(guò)采集不同場(chǎng)景下的人類活動(dòng)數(shù)據(jù)構(gòu)建了一個(gè)環(huán)境模擬器，進(jìn)而構(gòu)建了數(shù)據(jù)集ProactiveBench，通過(guò)訓(xùn)練模型獲得了與人類高度一致的獎(jiǎng)勵(lì)模型，并比對(duì)了不同模型在數(shù)據(jù)集下的性能。

主動(dòng)Agent技術(shù)原理

下圖展示了主動(dòng) Agent 技術(shù)原理的整體流程。為了讓智能體能夠主動(dòng)提出任務(wù)，該研究設(shè)計(jì)了三個(gè)組件以模擬不同場(chǎng)景下的環(huán)境信息，用戶行為和對(duì)智能體提出任務(wù)的反饋。

數(shù)據(jù)生成過(guò)程總覽。該過(guò)程包含了初始環(huán)境與任務(wù)設(shè)置，事件生成，主動(dòng)預(yù)測(cè)，用戶判斷和行動(dòng)執(zhí)行。

1、環(huán)境模擬器模擬了一個(gè)特定環(huán)境，并為智能體的交互提供了一個(gè)沙盒條件。模擬器通過(guò)使用基于Activity Watcher軟件采集到的真實(shí)人類數(shù)據(jù)以提升生成事件的質(zhì)量。環(huán)境模擬器的主要功能為事件生成與狀態(tài)維護(hù)：通過(guò)使用GPT-4o 從人類注釋員處收集的種子事件以生成一個(gè)需要交互的具體環(huán)境，同時(shí)生成所有相關(guān)實(shí)體以讓智能體執(zhí)行任務(wù)。對(duì)于每個(gè)場(chǎng)景，環(huán)境模擬器接收用戶活動(dòng)并生成詳細(xì)的，邏輯通順合理的事件，環(huán)境模擬器將會(huì)持續(xù)生成事件，更新實(shí)體狀態(tài)，產(chǎn)生特定反饋，直到當(dāng)前環(huán)境下沒(méi)有更多事件以供生成。
2、主動(dòng)智能體將會(huì)通過(guò)環(huán)境模擬器提供的信息預(yù)測(cè)用戶意圖，生成預(yù)測(cè)任務(wù)。每當(dāng)智能體接受一個(gè)新事件后，它將首先更新自己的記憶，結(jié)合用戶之前的反饋和歷史交互信息，主動(dòng)智能體將能夠結(jié)合用戶性格提出可能的任務(wù)。如果主動(dòng)智能體沒(méi)有檢測(cè)到需要，其將保持靜默，反之將會(huì)提出一個(gè)任務(wù)。一旦此任務(wù)被用戶接受，那么主動(dòng)智能體將在環(huán)境模擬器中執(zhí)行該任務(wù)，并進(jìn)而產(chǎn)生后續(xù)的系列事件。
3、用戶智能體將模擬用戶行為并對(duì)主動(dòng)智能體的任務(wù)做出反饋。用戶智能體為經(jīng)過(guò)提示的GPT-4o，在獲取預(yù)測(cè)之后，用戶智能體將會(huì)決定是否接受任務(wù)。該研究通過(guò)從人類標(biāo)注員處收集判斷，并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型以模擬這一過(guò)程。人類標(biāo)注員在研究開(kāi)發(fā)的標(biāo)注平臺(tái)上進(jìn)行標(biāo)注，對(duì)特定時(shí)間下，9個(gè)不同的大語(yǔ)言模型生成的多樣化預(yù)測(cè)進(jìn)行判斷，并通過(guò)多數(shù)投票的方式?jīng)Q定某個(gè)回合用戶是否具有需求，以及用戶傾向于接受什么類型的任務(wù)。值得一提的是，人類標(biāo)注員在測(cè)試集上達(dá)到了91.67%的一致性，充分說(shuō)明了測(cè)試集的可靠性。

新一代主動(dòng)Agent交互范式的核心特點(diǎn)

一、主動(dòng)性

主動(dòng)觀察環(huán)境：主動(dòng)Agent交互范式下的Agent能夠主動(dòng)觀察并理解其所在的環(huán)境，這是其主動(dòng)性的基礎(chǔ)。通過(guò)環(huán)境模擬器，Agent可以模擬一個(gè)特定的環(huán)境，并實(shí)時(shí)接收和處理來(lái)自該環(huán)境的信息。

主動(dòng)預(yù)測(cè)用戶需求：在主動(dòng)觀察環(huán)境的基礎(chǔ)上，Agent能夠利用自身的智能算法和模型，預(yù)測(cè)用戶可能的需求或意圖。這種預(yù)測(cè)能力使得Agent能夠在用戶明確提出需求之前，就主動(dòng)提供幫助或建議。

主動(dòng)提出任務(wù)：當(dāng)Agent預(yù)測(cè)到用戶可能有需求時(shí)，它會(huì)主動(dòng)提出一個(gè)或多個(gè)可能的任務(wù)供用戶選擇。這些任務(wù)通常是基于對(duì)用戶歷史行為、當(dāng)前環(huán)境以及Agent自身能力的綜合考量而提出的。

主動(dòng)執(zhí)行任務(wù)：一旦用戶接受了Agent提出的任務(wù)，Agent就會(huì)立即執(zhí)行該任務(wù)，并在執(zhí)行過(guò)程中持續(xù)監(jiān)控環(huán)境變化和用戶需求的變化，以確保任務(wù)的順利完成。

二、智能性

高級(jí)強(qiáng)化學(xué)習(xí)算法：主動(dòng)Agent交互范式可能采用了更為高級(jí)的強(qiáng)化學(xué)習(xí)算法，使得Agent在面對(duì)復(fù)雜、動(dòng)態(tài)的環(huán)境時(shí)，能夠基于自身的某種內(nèi)在“動(dòng)機(jī)”做出合理的決策。這種算法不僅提高了Agent的決策能力，還增強(qiáng)了其適應(yīng)性和魯棒性。

靈活的知識(shí)表示與推理：與傳統(tǒng)AI相比，主動(dòng)Agent交互范式下的Agent能夠以更加靈活、動(dòng)態(tài)的方式表示知識(shí)，并根據(jù)自身的主觀能動(dòng)性進(jìn)行推理。這種能力使得Agent能夠處理更復(fù)雜、需要主觀判斷的任務(wù)，如醫(yī)療診斷輔助、內(nèi)容推薦等。

個(gè)性化服務(wù)：通過(guò)持續(xù)的環(huán)境觀察學(xué)習(xí)和用戶反饋，主動(dòng)Agent能夠適應(yīng)用戶的生活方式，并提供個(gè)性化的服務(wù)。例如，在情侶聊天的場(chǎng)景中，Agent可以識(shí)別到女生的需求，并主動(dòng)設(shè)置鬧鐘；在管理文件時(shí)，Agent能夠自動(dòng)存儲(chǔ)、識(shí)別和優(yōu)化文件名稱等。

高效的感知與決策模塊：主動(dòng)Agent交互范式下的Agent通常具有高效的感知模塊和決策模塊。感知模塊能夠主動(dòng)篩選和聚焦于對(duì)目標(biāo)有重要意義的數(shù)據(jù)，提高處理效率；而決策模塊則能夠基于感知到的信息，快速做出合理的決策。

決策機(jī)制

主動(dòng)Agent的決策機(jī)制是其技術(shù)的核心部分。Agent能夠基于感知到的信息，通過(guò)構(gòu)建環(huán)境模型、設(shè)定目標(biāo)函數(shù)以及采用各種決策算法（如基于規(guī)則的推理、基于模型的決策、基于目標(biāo)的決策以及基于學(xué)習(xí)的決策等），來(lái)做出最優(yōu)的決策。其中，深度強(qiáng)化學(xué)習(xí)（DRL）為Agent提供了新的決策解決方案，它能夠在復(fù)雜的環(huán)境中自動(dòng)學(xué)習(xí)最優(yōu)的決策策略，無(wú)需預(yù)先設(shè)計(jì)決策模型。

基于規(guī)則的推理：依賴于預(yù)先設(shè)計(jì)的知識(shí)庫(kù)和算法進(jìn)行決策。

基于模型的決策：構(gòu)建環(huán)境模型，根據(jù)模型預(yù)測(cè)做出最優(yōu)決策。

基于目標(biāo)的決策：根據(jù)Agent的目標(biāo)函數(shù)，做出最有利于實(shí)現(xiàn)目標(biāo)的決策。

基于學(xué)習(xí)的決策：通過(guò)機(jī)器學(xué)習(xí)方法，不斷優(yōu)化決策策略。

此外，Agent還可以使用馬爾可夫決策過(guò)程（MDP）來(lái)描述其決策過(guò)程，并通過(guò)求解值函數(shù)和策略函數(shù)來(lái)實(shí)現(xiàn)最優(yōu)決策。

結(jié)語(yǔ)

清華大學(xué)與面壁智能聯(lián)合提出的新一代主動(dòng)Agent交互范式是人工智能領(lǐng)域的重要?jiǎng)?chuàng)新之一。通過(guò)引入主觀能動(dòng)性、支持多模態(tài)感知與交互以及鼓勵(lì)持續(xù)學(xué)習(xí)與進(jìn)化等核心特點(diǎn)，該范式有望推動(dòng)AI技術(shù)向更高層次發(fā)展，并為未來(lái)的AI應(yīng)用開(kāi)辟更廣闊的空間。（文/宋雨涵）

分享到

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標(biāo)簽