對于苦苦追趕 OpenAI 幾個月的谷歌來說,這次在基準測試上的勝利十分振奮人心。
可惜振奮的時間不長:昨天,GPT-4o一個更新,把第一名的位置搶回來了。
奧特曼慶功的話音剛落,Gemini-Exp-1121殺出來,又把第一名搶走了。
風流涌動,大模型更新迭代以周為單位
從官方發(fā)布的介紹來看,Gemini-Exp-1114的亮點主要在于質(zhì)量改進,而最新的 Gemini-Exp-1121重點改進了編碼、推理和視覺能力。
這場爭奪戰(zhàn)的出現(xiàn),卻引出了另外一個角度的話題:當前的人工智能基準測試方法可能大大簡化了模型評估。
就比如一周前,當研究人員控制了響應(yīng)格式和長度等表面因素時,Gemini-Exp-1114的表現(xiàn)下降到第四位,因為傳統(tǒng)指標可能會夸大感知能力。
這種差異揭示了人工智能評估中的一個根本問題:模型可以通過優(yōu)化表面特征而不是展示推理或可靠性的真正改進來獲得高分。對定量基準的關(guān)注引發(fā)了一場爭奪更高分數(shù)的競賽,行業(yè)對排行榜的依賴也會催生一些不良激勵方式,而這些都無關(guān)于人工智能的真正進步。
各個廠商針對特定測試場景優(yōu)化模型,同時可能忽略安全性、可靠性和實用性等更廣泛的問題。這種方法產(chǎn)生的AI系統(tǒng)擅長完成狹隘的預(yù)定任務(wù),但在處理細微的現(xiàn)實世界互動時卻舉步維艱。
比如有人就發(fā)現(xiàn)在LiveBench上,一周后更新的Gemini-Exp-1121版本,在數(shù)學(xué)和推理能力上反而比不上Gemini-Exp-1114,令人疑惑。
廠商之間為獲得更高的基準分數(shù)而展開的競爭并不會停止,但真正的競爭可能在于如何開發(fā)全新的框架來評估和確保人工智能系統(tǒng)的安全性和可靠性。
谷歌Gemini 2.0 將于12月第二周發(fā)布!
谷歌AI新王牌蓄勢待發(fā)!
就在今天,一條來自谷歌內(nèi)部的消息在科技圈掀起了波瀾。
谷歌云AI客戶工程區(qū)域主管Dambo Ren透露:新版Gemini 將在12月發(fā)布!
更為確切地,據(jù)傳,備受期待的Gemini 2.0 將于12月的第二周面世,并將帶來一系列令人矚目的新特性。
新特性令人矚目
據(jù)悉,作為AI技術(shù)的又一次飛躍,Gemini 2將帶來一系列令人矚目的新特性。
CoT(Chain of Thought)推理能力將成為Gemini 2的一大亮點。這意味著模型在處理復(fù)雜任務(wù)時,將能夠更好地模擬人類的思維鏈條,從而提高解決問題的效率和準確性。
此外,多模態(tài)能力的增強也讓人期待不已。Gemini 2將在視覺、聽覺等多種感知模式上實現(xiàn)更自然的交互,進一步突破人機交互的界限。
上下文窗口的擴展同樣引人注目。Gemini 2將支持3到5百萬的上下文窗口,這將極大地提升模型在處理長文本和復(fù)雜背景信息時的表現(xiàn)。
最令人興奮的是,”Project Jarvis”的泄露。這一項目據(jù)稱將打造一個類似于Claude 3.6的智能代理,深度整合于谷歌生態(tài)系統(tǒng)。此舉無疑將為用戶提供更為智能和無縫的體驗。
谷歌的雄心還在于AI Agent
上周微軟在“Microsoft ignite 2024”大會上發(fā)布10多個商用AI Agent后,
科技巨頭谷歌也宣布全力推廣商用AI Agent,發(fā)布一系列激勵活動和產(chǎn)品。谷歌云將提供從AI Agent的開發(fā)、部署到應(yīng)用一站式商用生態(tài)。
此外,谷歌還特意發(fā)布了全球為數(shù)不多的商用AI Agent市場,有點類似蘋果的Store,只不過針對的是企業(yè)用戶。而開發(fā)者也能通過用戶的購買來賺取傭金。
谷歌全力推廣AI Agent
為了幫助合作伙伴、開發(fā)者在商用AI Agent上取得成功,谷歌云發(fā)布了一系列激勵計劃。包括專門為AI Agent解決方案提供共同銷售機會,擴大市場覆蓋范圍,增加銷售機會。
谷歌云通過各種市場資源,例如,廣告和活動,提高合作伙伴AI Agent的知名度,并通過博客和專門的活動展示合作伙伴的明星級產(chǎn)品,增加AI Agent的曝光率,幫助合作伙伴在競爭激烈的AI Agent生態(tài)系統(tǒng)中脫穎而出。
AI Agent市場(Space)則是谷歌推廣計劃中非常重磅的一個產(chǎn)品,才剛剛上線幾天可用的產(chǎn)品并不多只有19款,還在持續(xù)更新中。但對于AI Agent的商業(yè)發(fā)展具有里程碑意義。
用戶可以在AI Agent市場中快速找到想要的AI Agent,極大簡化了客戶的選擇和部署流程。同時,還提供了免費試用的機會,新客戶可以獲得300美元的免費信用額度,來體驗選中的產(chǎn)品。
結(jié)語
谷歌在大模型領(lǐng)域的雄心顯而易見,其通過不斷推出創(chuàng)新的人工智能模型來鞏固和擴大其在該領(lǐng)域的領(lǐng)先地位。
AI領(lǐng)域的激烈競爭態(tài)勢,在OpenAI、谷歌等科技巨頭的角力中,每一次重要發(fā)布都可能改變行業(yè)格局。不過無論如何,谷歌選擇在年底這個時間點發(fā)布新版Gemini,必將為AI競爭掀開新的篇章。(文/宋雨涵)