尤為令人矚目的是,谷歌同步推出了Gemini 2.0 Flash的實(shí)驗版本,其驚人的運(yùn)行速度是1.5 Pro的兩倍,成為其首秀之作。

谷歌鄭重聲明,Gemini 2.0是專為AI Agent時代精心打造的,其核心精髓在于多模態(tài)與AI Agent的深度融合。依托Gemini 2.0 Flash的強(qiáng)大能力,谷歌推出了一系列創(chuàng)新AI Agent產(chǎn)品,包括在今年5月就已在業(yè)界引起轟動的通用AI助手原型Project Astra,能夠在谷歌瀏覽器中靈活執(zhí)行多步驟復(fù)雜任務(wù)的實(shí)驗性擴(kuò)展Project Mariner,以及充滿潛力的實(shí)驗性AI編程Agent Jules和游戲Agent。

Gemini 2.0的發(fā)布,無疑標(biāo)志著谷歌在邁向AI Agent新時代的征途上邁出了至關(guān)重要的一步。

對于Gemini和Gemini Advanced的忠實(shí)用戶而言,他們現(xiàn)在可以在桌面端的模型下拉菜單中輕松選擇聊天優(yōu)化版的Gemini 2.0進(jìn)行率先體驗。同時,開發(fā)人員也可以通過Google AI Studio和Vertex AI在Gemini API中迅速上手,充分利用此模型進(jìn)行構(gòu)建。本周,谷歌已在搜索的AI概覽中率先開啟了Gemini 2.0的測試之旅。

此外,谷歌還透露了一個令人振奮的消息:Gemini 2.0 Flash將于1月份全面上市,并推出更多樣化的模型尺寸以滿足用戶的多元化需求。而到了明年年初,谷歌更是計劃將Gemini 2.0廣泛應(yīng)用于更多谷歌產(chǎn)品中,為用戶帶來更加智能、便捷、高效的全新體驗。

滿足智能體基本需求的底層模型

如果說Gemini 1.0是關(guān)于整理和理解信息,那么Gemini 2.0就是要讓這些信息真正變得有用。過去一年,我們一直在投資開發(fā)更具主動性的模型,”皮查伊對此解釋說,“這意味著它們可以更好地理解周圍的世界,提前思考多個步驟,并在你的監(jiān)督下采取行動。——谷歌CEO桑達(dá)爾·皮查伊

這意味著,AI不再只是被動地回答問題,而是能夠理解用戶的需求,提前思考,并在用戶監(jiān)督下采取行動。

想象一個既能幫你規(guī)劃旅行,又能實(shí)際幫你訂票的助手,這就是谷歌對未來AI的愿景。

Gemini 2.0 Flash的能力

谷歌的官方博客顯示,Gemini 2.0 Flash在關(guān)鍵基準(zhǔn)測試中的速度是1.5 Pro的兩倍。

除了支持圖像、視頻和音頻等多模式輸入外,Gemini 2.0 Flash現(xiàn)在還支持多模態(tài)輸出,例如與文本混合的原生生成的圖像和可操縱的文本轉(zhuǎn)語音(TTS)多語言音頻,還可以原生調(diào)用谷歌搜索、代碼執(zhí)行以及第三方用戶定義函數(shù)等工具。

為了幫助開發(fā)人員構(gòu)建動態(tài)和交互式應(yīng)用程序,在此基礎(chǔ)上,谷歌還發(fā)布了具有實(shí)時音頻、視頻流輸入以及使用多個組合工具的能力的Multimodal Live API。

在AI Agent方面,谷歌宣布了對實(shí)驗性功能的更新,包括通用AI Agent Project Astra、多步驟任務(wù)AI Agent Project Mariner、AI編程Agent Jules、游戲Agent。

01

通用AI Agent Project Astra:記住10分鐘視頻,更強(qiáng)agent能力

由Gemini 2.0強(qiáng)力助陣的Project Astra最新版本,成功解鎖了Agent(代理)功能。此次迭代帶來了諸多顯著改進(jìn):

谷歌正在擴(kuò)大Project Astra的測試范疇,將新的反饋納入更新中,包括優(yōu)化其對各種口音及不常見單詞的理解、減少延遲、將其集成到一些谷歌產(chǎn)品(如搜索、Lens、地圖等)。

02

多步驟任務(wù)AI Agent Project Mariner:最佳工作結(jié)果83.5%,為保證安全目前需人類介入?

Project Mariner?是谷歌在Gemini 2.0模型基礎(chǔ)上發(fā)布的一個實(shí)驗性功能,?其可以完成多步驟的復(fù)雜任務(wù)。

作為研究原型,Project Mariner?能夠理解和推理瀏覽器屏幕上的信息,包括像素和文本、編程、圖像和表單等網(wǎng)絡(luò)元素,然后通過實(shí)驗性的谷歌擴(kuò)展程序使用這些信息完成任務(wù)。

谷歌官方博客顯示,根據(jù)WebVoyager基準(zhǔn)進(jìn)行評估,該基準(zhǔn)測試Agent在端到端真實(shí)世界網(wǎng)絡(luò)任務(wù)上的性能,Project Mariner作為單一Agent設(shè)置實(shí)現(xiàn)了83.5%的最佳工作結(jié)果。?

在演示中,Project Mariner可以同時完成獲取表單、找到公司官網(wǎng)、聯(lián)系方式等多步驟任務(wù),Agent會自動執(zhí)行在谷歌搜索中查找電子郵件的過程,且這一過程中用戶可以隨時點(diǎn)擊暫停和停止。同時,用戶可以看到Agent每一步行動的推理步驟和計劃。

盡管目前?Project Mariner執(zhí)行任務(wù)時較慢且并不總是準(zhǔn)確,但從技術(shù)上講,這表明了在瀏覽器中導(dǎo)航已經(jīng)成為可能。

目前,該代理在完成任務(wù)時需要人類介入,如Project Mariner只能在瀏覽器的活動選項卡中鍵入、滾動或點(diǎn)擊,并且它會在用戶執(zhí)行某些購買等敏感操作之前要求用戶進(jìn)行最終確認(rèn)。

03

AI編程Agent Jules:直接集成GitHub長期目標(biāo)是構(gòu)建通用Agent

谷歌還在探索Agent Jules的更新。Jules是一種直接集成到GitHub工作流程中的實(shí)驗性AI驅(qū)動的編程Agent。

Jules可以解決問題、制定計劃并執(zhí)行它,所有過程都在開發(fā)人員的指導(dǎo)和監(jiān)督下進(jìn)行。在這一領(lǐng)域,谷歌的長期目標(biāo)是構(gòu)建在所有領(lǐng)域(包括編程)都有幫助的AI Agent。

04

游戲Agent:視頻游戲?qū)Ш?,根?jù)游戲動作推理實(shí)時對話充當(dāng)游戲交流

谷歌借助Gemini 2.0的強(qiáng)大功能,精心打造了一款游戲Agent,這款智能助手能夠引領(lǐng)用戶在視頻游戲的虛擬國度中自如穿梭。僅憑屏幕上的動態(tài)變化,Agent便能洞悉游戲機(jī)制,并在實(shí)時互動中為用戶提供精準(zhǔn)的下一步行動指南。

展望未來,谷歌正積極探索將Gemini 2.0的空間推理技術(shù)融入機(jī)器人領(lǐng)域,旨在創(chuàng)造出能在現(xiàn)實(shí)世界中提供切實(shí)幫助的Agent,開啟智能生活的新篇章。

Project Astra 升級版:生活更生活

谷歌發(fā)布Project Astra新演示視頻,基于Gemini 2.0。測試者在倫敦用Pixel手機(jī)測試:通過AI助手獲取公寓門密碼、洗衣指導(dǎo),搜索推薦地點(diǎn)信息。街上掃描食物、雕塑等,AI助手即時解答。分享朋友讀書信息,AI推薦禮物并討論興趣點(diǎn)。詢問公交車路線及路標(biāo),AI提供詳細(xì)解答。測試者還試用原型眼鏡查天氣、公園信息、騎行規(guī)定及超市位置。

但AI助手存在局限,如無法訪問個人郵件、照片,嘈雜環(huán)境聲音識別難,無法設(shè)置計時器等。

Project Astra產(chǎn)品經(jīng)理Bibo Xu表示,該AI正融合最強(qiáng)大的信息檢索系統(tǒng)。

Gemini 2.0背后的硬件功臣:

谷歌今年推出了全新Gemini 2.0,該系統(tǒng)經(jīng)由其第六代TPU——Trillium訓(xùn)練而成。

Trillium TPU不僅代表了谷歌TPU技術(shù)的最新成就,而且在性能上實(shí)現(xiàn)了顯著提升。與前一代相比,Trillium TPU的訓(xùn)練性能提升了4倍以上,推理吞吐量高達(dá)3倍,能效提高了67%,峰值計算性能更是躍升了4.7倍。此外,其HBM容量也實(shí)現(xiàn)了翻倍。

如今,谷歌云客戶已能普遍使用Trillium TPU,它作為谷歌云AI超級計算機(jī)的核心組件,集成了高性能硬件、開放軟件、前沿的機(jī)器學(xué)習(xí)框架以及靈活的消費(fèi)級模型。谷歌對開放軟件層進(jìn)行了全面升級,優(yōu)化了XLA編譯器和主流框架,從而在AI訓(xùn)練、調(diào)優(yōu)及服務(wù)方面提供了卓越的性價比。

值得一提的是,Trillium TPU還采用了主機(jī)DRAM卸載等先進(jìn)技術(shù),進(jìn)一步提升了工作效率。在架構(gòu)層面,每個Jupiter網(wǎng)絡(luò)由超過100,000顆Trillium芯片組成,具備13Pbps的對分帶寬,能夠輕松應(yīng)對數(shù)十萬個加速器的分布式訓(xùn)練任務(wù)。這一創(chuàng)新設(shè)計使得Trillium TPU在性能和規(guī)模上均達(dá)到了前所未有的高度。

寫在最后

年末時分,通用人工智能(AGI)領(lǐng)域的競爭愈發(fā)白熱化,亞馬遜、OpenAI、Meta及谷歌等科技巨頭競相發(fā)布重量級產(chǎn)品,將大模型市場的競爭推向了一個全新的高度。在這些企業(yè)中,谷歌憑借其在大模型技術(shù)、云端基礎(chǔ)設(shè)施以及端側(cè)智能領(lǐng)域的全面而深入的布局,顯得格外耀眼。

作為安卓操作系統(tǒng)的領(lǐng)航者,谷歌對端側(cè)智能的理解尤為深刻且獨(dú)到。今日,谷歌通過一系列新品發(fā)布,進(jìn)一步彰顯了Agent(代理)在智能手機(jī)、智能眼鏡等端側(cè)設(shè)備上的巨大潛力和廣闊前景。在更加強(qiáng)大、更加智能的模型支持下,Agent將能夠更廣泛、更深入地為用戶服務(wù),助力用戶更全面、更精準(zhǔn)地了解周圍環(huán)境,提前進(jìn)行多步驟、多維度的規(guī)劃,并在用戶的指導(dǎo)下執(zhí)行相應(yīng)操作,實(shí)現(xiàn)更加便捷、高效的智能生活。

然而,AI系統(tǒng)的不可控性依然是一個不容忽視的問題。在推動世界邁向Agent時代的過程中,包括谷歌在內(nèi)的大模型公司必須始終保持警惕,確保系統(tǒng)低風(fēng)險運(yùn)行,牢牢把握安全的方向盤,為用戶帶來更加安心、可靠的智能體驗。(文/宋雨涵)

分享到

lixiangjing

算力豹主編

相關(guān)推薦