螞蟻集團(tuán)副總裁徐鵬介紹百靈大模型原生多模態(tài)能力

據(jù)了解,百靈大模型多模態(tài)能力,在中文圖文理解MMBench-CN評(píng)測(cè)集上達(dá)到GPT-4o水平,在信通院多模態(tài)安全能力評(píng)測(cè)達(dá)到優(yōu)秀級(jí)(最高),具備支持規(guī)?;瘧?yīng)用的能力,能支持AIGC、圖文對(duì)話、視頻理解、數(shù)字人等一系列下游任務(wù)。

多模態(tài)大模型技術(shù)能夠使AI更好地理解人類世界的復(fù)雜信息,也讓AI落地應(yīng)用時(shí)更符合人類的交互習(xí)慣,在智能客服、自動(dòng)駕駛、醫(yī)療診斷等多個(gè)領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。

螞蟻集團(tuán)有著豐富的應(yīng)用場(chǎng)景,百靈大模型的多模態(tài)能力,也已被應(yīng)用在生活服務(wù)、搜索推薦、互動(dòng)娛樂(lè)等場(chǎng)景。在生活服務(wù)上,螞蟻集團(tuán)使用多模態(tài)模型實(shí)現(xiàn)了ACT技術(shù),讓智能體具備一定規(guī)劃執(zhí)行能力,比如根據(jù)用戶語(yǔ)音指定直接在星巴克小程序下單一杯咖啡,目前這一功能已在支付寶智能助理上線。在醫(yī)療領(lǐng)域,多模態(tài)能力為用戶實(shí)現(xiàn)復(fù)雜任務(wù)的操作,可以對(duì)超過(guò)100多種復(fù)雜的醫(yī)學(xué)檢驗(yàn)檢測(cè)報(bào)告進(jìn)行識(shí)別和解讀,還可以檢測(cè)毛發(fā)健康和脫發(fā)情況,對(duì)治療提供輔助。

發(fā)布現(xiàn)場(chǎng),螞蟻集團(tuán)副總裁徐鵬展示了新升級(jí)的多模態(tài)技術(shù)可實(shí)現(xiàn)的更多應(yīng)用場(chǎng)景:通過(guò)視頻對(duì)話的自然形式,AI助理能為用戶識(shí)別穿著打扮,給出約會(huì)的搭配建議;根據(jù)用戶不同的意圖,從一堆食材中搭配出不同的菜譜組合;根據(jù)用戶描述的身體癥狀,從一批藥物中,挑選出可能合適的藥,并讀出服用指導(dǎo),供用戶參考等。

論壇上同時(shí)發(fā)布的“支付寶多模態(tài)醫(yī)療大模型”,便是這一探索的實(shí)踐。據(jù)了解,支付寶多模態(tài)醫(yī)療大模型添加了包含報(bào)告、影像、藥品等多模態(tài)信息在內(nèi)的百億級(jí)中英文圖文、千億級(jí)醫(yī)療文本語(yǔ)料、以及千萬(wàn)級(jí)高質(zhì)量醫(yī)療知識(shí)圖譜,具備專業(yè)醫(yī)學(xué)知識(shí),在中文醫(yī)療 LLM 評(píng)測(cè)榜單 promptCBLUE 上,取得 A 榜第一,B 榜第二的成績(jī)。

基于百靈大模型多模態(tài)能力,由螞蟻集團(tuán)與武漢大學(xué)聯(lián)合研發(fā)的遙感模型SkySense,也在論壇上公布了開源計(jì)劃。SkySense是目前參數(shù)規(guī)模最大、覆蓋任務(wù)最全、識(shí)別精度最高的多模態(tài)遙感基礎(chǔ)模型。

“從單一的文本語(yǔ)義理解,到多模態(tài)能力,是人工智能技術(shù)的關(guān)鍵迭代,而多模態(tài)技術(shù)催生的‘看聽說(shuō)寫畫’的應(yīng)用場(chǎng)景,將讓AI的表現(xiàn)更真實(shí),更接近人類,從而也能更好地服務(wù)人類。螞蟻會(huì)持續(xù)投入原生多摸態(tài)技術(shù)的研發(fā)?!毙禊i說(shuō)。

分享到

xiesc

相關(guān)推薦