百度杰出架構(gòu)師、文心(ERNIE)負(fù)責(zé)人孫宇

語(yǔ)義理解核心技術(shù)升級(jí),文心多項(xiàng)NLP技術(shù)全球領(lǐng)先

據(jù)了解,知識(shí)增強(qiáng)語(yǔ)義理解框架文心(ERNIE)于去年發(fā)布,大幅提升機(jī)器理解語(yǔ)言的水平,更在國(guó)際權(quán)威的通用語(yǔ)言理解評(píng)估基準(zhǔn) GLUE上首次突破 90大關(guān),超越人類(lèi)三個(gè)點(diǎn),獲得全球第一。文心的創(chuàng)新點(diǎn)在于,將大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識(shí)相結(jié)合,持續(xù)學(xué)習(xí)海量文本中詞匯、結(jié)構(gòu)、語(yǔ)義等方面的知識(shí),實(shí)現(xiàn)模型效果不斷進(jìn)化,如同人類(lèi)持續(xù)學(xué)習(xí)一般。

分論壇上,孫宇介紹,百度文心語(yǔ)義理解技術(shù)包括基于預(yù)訓(xùn)練的語(yǔ)義表示、文章理解、文本匹配、文本生成等技術(shù),以及可識(shí)別理解法律、金融文本的領(lǐng)域語(yǔ)義理解技術(shù),并布局了跨模態(tài)、多語(yǔ)言、圖理解等前沿技術(shù),形成了涵蓋基礎(chǔ)、應(yīng)用、領(lǐng)域、拓展四大層面的全景圖。

在常識(shí)知識(shí)、多粒度語(yǔ)言知識(shí)、場(chǎng)景圖知識(shí)等多源知識(shí)學(xué)習(xí)的支持下,文心語(yǔ)義理解能力、語(yǔ)言生成能力和多模態(tài)語(yǔ)義理解能力都得到了進(jìn)一步提升和拓展。同時(shí),基于海量數(shù)據(jù),百度大腦構(gòu)造了多粒度自編碼任務(wù)和指代消解任務(wù),推動(dòng)文心在情感分析、文本分類(lèi)、閱讀理解等八項(xiàng)典型自然語(yǔ)言理解任務(wù)效果上獲得進(jìn)一步顯著提升。

c生成方面,文心提出了基于多流機(jī)制的預(yù)訓(xùn)練語(yǔ)言生成技術(shù):ERNIE-GEN,在摘要生成、問(wèn)題生成、多輪問(wèn)答等自然語(yǔ)言生成任務(wù)上效果突出。同時(shí),文心設(shè)計(jì)了多流注意力機(jī)制,融合逐詞生成和逐片段生成學(xué)習(xí)目標(biāo),學(xué)習(xí)語(yǔ)言中多粒度知識(shí)后,全面刷新了語(yǔ)言生成任務(wù)的世界最好效果,在學(xué)術(shù)界和產(chǎn)業(yè)界具備非常大的研究?jī)r(jià)值與應(yīng)用價(jià)值。

文心更在多模態(tài)語(yǔ)義理解上取得重大突破,視覺(jué)推理技術(shù)ERNIE-ViL可以通過(guò)物體識(shí)別體育運(yùn)動(dòng)圖片中的運(yùn)動(dòng)場(chǎng)地及圖中人物,進(jìn)一步區(qū)分人員衣服顏色,根據(jù)知識(shí)判斷穿出裁判和運(yùn)動(dòng)員的身份。理解細(xì)粒度語(yǔ)義的能力在這個(gè)推理的任務(wù)中發(fā)揮了關(guān)鍵的作用。ERNIE-ViL是業(yè)界首次將場(chǎng)景圖知識(shí)融入到跨模態(tài)的預(yù)訓(xùn)練模型中,已廣泛應(yīng)用于工業(yè)場(chǎng)景。

能力平臺(tái)化,百度大腦文心實(shí)現(xiàn)語(yǔ)義理解技術(shù)工業(yè)級(jí)應(yīng)用落地

在人工智能技術(shù)落地的進(jìn)程中,實(shí)際需求往往呈現(xiàn)出應(yīng)用復(fù)雜、成本高企、耗時(shí)過(guò)長(zhǎng)、可迭代性差等痛點(diǎn)。對(duì)此,文心語(yǔ)義理解技術(shù)平臺(tái)應(yīng)運(yùn)而生。

孫宇介紹,文心平臺(tái)基于領(lǐng)先的語(yǔ)義理解技術(shù),可為企業(yè)提供一整套NLP定制與應(yīng)用能力,讓開(kāi)發(fā)者更加簡(jiǎn)單高效地定制企業(yè)級(jí)NLP模型。在文心平臺(tái)化服務(wù)中,提供了針對(duì)數(shù)據(jù)處理、模型訓(xùn)練、模型評(píng)估、模型部署等環(huán)節(jié)的“工具箱”,一站式滿足開(kāi)發(fā)者各類(lèi)應(yīng)用需求。此外,文心還提供了零門(mén)檻AI開(kāi)發(fā)平臺(tái)EasyDL和全功能AI開(kāi)發(fā)平臺(tái)BML兩種平臺(tái)支持方式。

一站式的NLP開(kāi)發(fā)能力,既可以滿足開(kāi)發(fā)者的需求,也降低了定制開(kāi)發(fā)的成本。在落地實(shí)踐中,傳統(tǒng)產(chǎn)品需要5100條數(shù)據(jù)標(biāo)注以訓(xùn)練模型,而文心平均僅需220條,降低了90%的數(shù)據(jù)標(biāo)注量。同時(shí),文心通過(guò)預(yù)訓(xùn)練模型,降低了90%以上的算力投入,及86%的模型開(kāi)發(fā)時(shí)長(zhǎng),周期從一周縮短為一天,這對(duì)企業(yè)開(kāi)發(fā)者更加友好。

文心的另一大優(yōu)勢(shì)在于經(jīng)過(guò)真實(shí)場(chǎng)景淬煉。據(jù)介紹,文心已應(yīng)用于百度內(nèi)部包括搜索引擎、推薦系統(tǒng)、智能音箱、智能客服等幾十條產(chǎn)品線,其工業(yè)級(jí)應(yīng)用能力已得到驗(yàn)證。目前,文心已經(jīng)將NLP技術(shù)輸送到金融、通信、教育、電商等行業(yè),顯著提升了這些企業(yè)智能應(yīng)用的效果和效率。

作為“人工智能皇冠上的明珠”,NLP領(lǐng)域向來(lái)是人工智能技術(shù)研發(fā)與落地實(shí)踐的前沿,在新基建的大潮下,也催生出大量自然語(yǔ)言處理方面的需求。從2010年百度成立自然語(yǔ)言處理部算起,在NLP從技術(shù)和產(chǎn)業(yè)上全面布局已經(jīng)走過(guò)整整十個(gè)年頭,不僅技術(shù)上形成先發(fā)優(yōu)勢(shì),更完成了產(chǎn)業(yè)落地的絕對(duì)領(lǐng)先,致力于將AI技術(shù)下沉到千行萬(wàn)業(yè),讓人和機(jī)器互相理解的圖景全面到來(lái),造就更智能的未來(lái)時(shí)代。

分享到

zhangnn

相關(guān)推薦