本次競(jìng)賽共設(shè)立五個(gè)任務(wù),包括機(jī)器閱讀理解、面向推薦的對(duì)話、語(yǔ)義解析、關(guān)系抽取和事件抽取,涉及到語(yǔ)言理解、人機(jī)對(duì)話、知識(shí)抽取等復(fù)雜技術(shù),這些任務(wù)的研究對(duì)于智能搜索、智能推薦、智能交互等人工智能應(yīng)用具有重要意義,是自然語(yǔ)言處理和人工智能領(lǐng)域的重要前沿課題。本次競(jìng)賽的五個(gè)任務(wù)都將提供百度大規(guī)模中文數(shù)據(jù)集,為研究者提供學(xué)術(shù)交流平臺(tái),推動(dòng)語(yǔ)言理解和人工智能領(lǐng)域技術(shù)研究和應(yīng)用的發(fā)展。
三大經(jīng)典任務(wù)全面升級(jí) 覆蓋更多真實(shí)應(yīng)用場(chǎng)景
本次競(jìng)賽中,機(jī)器閱讀理解、面向推薦的對(duì)話、關(guān)系抽取三大經(jīng)典任務(wù)在2019年的基礎(chǔ)上,做了全面升級(jí)。
機(jī)器閱讀理解是指讓機(jī)器閱讀文本然后回答和閱讀內(nèi)容相關(guān)的問(wèn)題。與2019年相比,今年的閱讀理解任務(wù),將重點(diǎn)關(guān)注閱讀理解模型在真實(shí)應(yīng)用場(chǎng)景中的魯棒性。因此,在本次競(jìng)賽中特別構(gòu)建了DuReader_robust數(shù)據(jù)集,用于考察模型在多個(gè)維度上的魯棒性,包括模型的過(guò)敏感性、過(guò)穩(wěn)定性以及泛化能力。數(shù)據(jù)集中的樣本均來(lái)自于實(shí)際的應(yīng)用場(chǎng)景,難度大,考察點(diǎn)豐富,覆蓋了真實(shí)應(yīng)用中諸多難以解決的問(wèn)題。
面向推薦的對(duì)話則是指集成對(duì)話系統(tǒng)和推薦系統(tǒng)的人機(jī)交互系統(tǒng),該系統(tǒng)先通過(guò)問(wèn)答或閑聊等形式收集用戶興趣和偏好,然后主動(dòng)給用戶推薦其感興趣的內(nèi)容。真實(shí)世界的人機(jī)交互會(huì)同時(shí)涉及到多種類(lèi)型的對(duì)話,如何自然的融合多類(lèi)型對(duì)話是一個(gè)重要的挑戰(zhàn)。為了應(yīng)對(duì)這個(gè)挑戰(zhàn),本次競(jìng)賽將提出一個(gè)新的任務(wù)—多類(lèi)型對(duì)話中的面向推薦的對(duì)話,期望系統(tǒng)能夠主動(dòng)且自然地將對(duì)話從非推薦對(duì)話引導(dǎo)到推薦對(duì)話,然后基于收集到的用戶興趣及用戶實(shí)時(shí)反饋,通過(guò)多次交互完成最終的推薦目標(biāo)。同時(shí),任務(wù)還將提供多種對(duì)話類(lèi)型、多個(gè)領(lǐng)域、融合用戶profile信息的對(duì)話邏輯數(shù)據(jù)集,貼近真實(shí)的應(yīng)用場(chǎng)景。
關(guān)系抽取是指從自然語(yǔ)言文本中抽取實(shí)體及其之間的關(guān)系。本次競(jìng)賽在去年信息抽取任務(wù)的基礎(chǔ)上進(jìn)行了兩處升級(jí),一是在簡(jiǎn)單SPO關(guān)系的基礎(chǔ)上增加了復(fù)雜關(guān)系類(lèi)型,用以刻畫(huà)現(xiàn)實(shí)世界中廣泛存在的復(fù)雜關(guān)系;二是引入百度貼吧口語(yǔ)化表達(dá)語(yǔ)料,其文本語(yǔ)義自由度更高,更貼近日常口語(yǔ)表達(dá)習(xí)慣,使關(guān)系抽取評(píng)測(cè)任務(wù)具有更大的挑戰(zhàn)性和實(shí)戰(zhàn)應(yīng)用價(jià)值。
新增兩大熱門(mén)任務(wù) 為參賽者帶來(lái)全新挑戰(zhàn)
與往年競(jìng)賽不同,除沿襲機(jī)器閱讀理解、面向推薦的對(duì)話、關(guān)系抽取三大任務(wù)外,還特別新增了語(yǔ)義解析與事件抽取兩大熱門(mén)任務(wù)。
語(yǔ)義解析任務(wù)旨在讓機(jī)器能自動(dòng)將用戶輸入的自然語(yǔ)言問(wèn)題轉(zhuǎn)成可與數(shù)據(jù)庫(kù)操作的編程語(yǔ)言(如SQL),以降低結(jié)構(gòu)化數(shù)據(jù)使用的門(mén)檻和成本,同時(shí)提升結(jié)構(gòu)化數(shù)據(jù)使用的價(jià)值和效率。當(dāng)前的中文Text-to-SQL數(shù)據(jù)集的數(shù)據(jù)庫(kù)基本都是由單表構(gòu)成的,問(wèn)題模式比較簡(jiǎn)單,僅覆蓋實(shí)際應(yīng)用中存在的部分問(wèn)題。本次競(jìng)賽將首次發(fā)布DuSQL數(shù)據(jù)集,包含164個(gè)領(lǐng)域的200個(gè)數(shù)據(jù)庫(kù),覆蓋了匹配、計(jì)算、推理等實(shí)際應(yīng)用中常見(jiàn)的問(wèn)題形式,每個(gè)問(wèn)題關(guān)聯(lián)一個(gè)數(shù)據(jù)庫(kù)中一或多張表格。該數(shù)據(jù)集更貼近真實(shí)應(yīng)用場(chǎng)景,對(duì)模型解決領(lǐng)域無(wú)關(guān)性、問(wèn)題無(wú)關(guān)性、計(jì)算推理問(wèn)題的能力提出了更高的挑戰(zhàn)。
事件抽取一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,具有重要的實(shí)用價(jià)值,也極具挑戰(zhàn)。此次競(jìng)賽中,該任務(wù)目標(biāo)是通過(guò)給定目標(biāo)事件類(lèi)型和角色類(lèi)型集合及句子,識(shí)別句子中所有目標(biāo)事件類(lèi)型的事件,并根據(jù)論元角色集合抽取事件所對(duì)應(yīng)的論元。針對(duì)事件抽取任務(wù),百度將對(duì)外發(fā)布當(dāng)前業(yè)界最大規(guī)模的中文事件抽取數(shù)據(jù)集,其中包含65個(gè)事件類(lèi)型和1.7萬(wàn)個(gè)具有事件信息的句子。希望通過(guò)此次競(jìng)賽及開(kāi)放的大規(guī)模中文數(shù)據(jù)集,助力事件抽取技術(shù)的進(jìn)一步發(fā)展。
百度飛槳火力全開(kāi)為參賽選手提供全面支持
作為本次競(jìng)賽的承辦方,百度還將為參賽選手提供全面的技術(shù)資源及平臺(tái)支持。本次比賽中,百度將為5大競(jìng)賽任務(wù)均提供基于飛槳PaddlePaddle基線系統(tǒng),助力選手快速上手。作為開(kāi)源開(kāi)放、功能完備的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái),飛槳具備開(kāi)發(fā)便捷的核心框架、支持超大規(guī)模深度學(xué)習(xí)模型訓(xùn)練、多端多平臺(tái)部署的高性能推理引擎和產(chǎn)業(yè)級(jí)開(kāi)源模型庫(kù)等領(lǐng)先技術(shù),鼓勵(lì)大家使用飛槳完成模型的設(shè)計(jì)、訓(xùn)練和預(yù)測(cè)。
不僅如此,百度AI Studio也將為本次比賽提供軟硬件環(huán)境的支持。AI Studio是基于飛槳平臺(tái)的一站式AI開(kāi)發(fā)實(shí)訓(xùn)平臺(tái),為參賽團(tuán)隊(duì)提供在線編程環(huán)境、Tesla V100 免費(fèi)GPU算力、海量開(kāi)源算法和數(shù)據(jù)。登錄即送算力,每天登錄AI Studio并運(yùn)行Notebook即可獲得12小時(shí)算力,連續(xù)登錄5天額外領(lǐng)取48小時(shí)算力。AI Studio宣布將為報(bào)名參加2020語(yǔ)言與智能技術(shù)比賽的參賽團(tuán)隊(duì)額外提供免費(fèi)GPU算力時(shí)長(zhǎng),徹底破除算力桎梏,助力選手取得優(yōu)異成績(jī)。
據(jù)了解,2020語(yǔ)言與智能技術(shù)競(jìng)賽將在2020年3月10日正式啟動(dòng)競(jìng)賽報(bào)名,并開(kāi)放競(jìng)賽平臺(tái),發(fā)放樣例數(shù)據(jù),并于3月31日對(duì)報(bào)名者發(fā)放全部訓(xùn)練數(shù)據(jù)和第一批測(cè)試數(shù)據(jù)。競(jìng)賽的每個(gè)任務(wù)都將分別評(píng)出一等獎(jiǎng)1名,二等獎(jiǎng)1名,三等獎(jiǎng)1名和優(yōu)勝獎(jiǎng)2名,主辦方中國(guó)中文信息學(xué)會(huì)(CIPS)和中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)將為獲獎(jiǎng)?wù)咛峁s譽(yù)證書(shū)認(rèn)證。同時(shí),百度公司將為獲獎(jiǎng)?wù)咛峁┆?jiǎng)金和參會(huì)旅行贊助。更多競(jìng)賽信息及報(bào)名入口,可搜索2020語(yǔ)言與智能技術(shù)競(jìng)賽官網(wǎng)(http://lic2020.cipsc.org.cn)進(jìn)入各任務(wù)詳情頁(yè)查看詳細(xì)內(nèi)容及報(bào)名比賽。