圖1 知識(shí)相關(guān)概念的包含關(guān)系

總的來(lái)說(shuō),知識(shí)、知識(shí)圖譜、知識(shí)獲取、知識(shí)抽取、信息抽取這些概念逐層遞進(jìn),以一張韋恩圖表示(如圖1所示):知識(shí)的表示、獲取和處理是人類(lèi)特有的能力,知識(shí)圖譜架起了一座基于人類(lèi)知識(shí)和計(jì)算機(jī)獲取認(rèn)知能力的橋梁,知識(shí)獲取涵蓋了產(chǎn)生機(jī)器可理解的知識(shí)的活動(dòng),知識(shí)抽取強(qiáng)調(diào)通過(guò)數(shù)據(jù)模式組織三元組知識(shí),而信息抽取是借助自然語(yǔ)言處理技術(shù)生產(chǎn)知識(shí)的能力。信息抽取是知識(shí)工程、大數(shù)據(jù)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理的交叉技術(shù)。下文將重點(diǎn)探討信息抽取在知識(shí)圖譜的應(yīng)用與實(shí)踐。

2.  融合信息抽取的知識(shí)圖譜構(gòu)建范式

近年來(lái),自然語(yǔ)言處理技術(shù)的飛速發(fā)展尤其是深度遷移學(xué)習(xí)技術(shù)給方興未艾的知識(shí)圖譜注入了一針“強(qiáng)心劑”。預(yù)訓(xùn)練語(yǔ)言模型性能的提升降低了從海量的非結(jié)構(gòu)化文本中獲取知識(shí)的成本,推動(dòng)了知識(shí)圖譜在行業(yè)企業(yè)的落地應(yīng)用。

如圖3所示的體系架構(gòu),百分點(diǎn)公司在行業(yè)知識(shí)圖譜的實(shí)踐應(yīng)用中,信息抽取技術(shù)占據(jù)著核心地位。行業(yè)知識(shí)圖譜構(gòu)建的生命周期歷經(jīng)知識(shí)定義、知識(shí)獲取、知識(shí)融合、知識(shí)存儲(chǔ)、知識(shí)應(yīng)用多個(gè)環(huán)節(jié),這些過(guò)程的每一步都需要專(zhuān)業(yè)的信息處理技術(shù)與技能才能完成。下面重點(diǎn)闡述信息抽取相關(guān)的知識(shí)定義及知識(shí)獲取環(huán)節(jié)內(nèi)容。

圖2 融合信息抽取的知識(shí)圖譜構(gòu)建流程

2.1 知識(shí)定義

傳統(tǒng)的知識(shí)工程研究領(lǐng)域人們以本體、主題詞表、元數(shù)據(jù)、數(shù)據(jù)模式來(lái)建立結(jié)構(gòu)化的知識(shí),在本文知識(shí)定義泛指結(jié)構(gòu)化的數(shù)據(jù)模型,即通過(guò)構(gòu)建圖譜模式(schema)規(guī)范數(shù)據(jù)層的表達(dá)與存儲(chǔ)。數(shù)據(jù)模型是線狀或網(wǎng)狀的結(jié)構(gòu)化知識(shí)庫(kù)的概念模板,知識(shí)圖譜一般采用資源描述框架(RDF)、RDF模式語(yǔ)言(RDFS)、網(wǎng)絡(luò)本體語(yǔ)言(OWL)及屬性圖模型。

(1)RDF模型

RDF在形式上以三元組表示實(shí)體及實(shí)體之間的關(guān)系,反映了物理世界中具體的事物及關(guān)系,如圖3所示。

圖3 RDF數(shù)據(jù)模型示例

(2)RDFS模型

RDFS在RDF的基礎(chǔ)上定義了類(lèi)、屬性以及關(guān)系來(lái)描述資源,并且通過(guò)屬性的定義域和值域來(lái)約束資源。RDFS在數(shù)據(jù)層的基礎(chǔ)上引入了模式層,模式層定義了一種約束規(guī)則,而數(shù)據(jù)層是在這種規(guī)則下的一個(gè)實(shí)例填充,如圖4所示。

圖4 RDFS數(shù)據(jù)模型示例

(3)OWL模型

OWL是對(duì)RDFS關(guān)于描述資源詞匯的一個(gè)擴(kuò)展,OWL中添加了額外的預(yù)定義詞匯來(lái)描述資源,具備更好的語(yǔ)義表達(dá)能力。

(4)屬性圖

屬性圖數(shù)據(jù)模型由頂點(diǎn)、邊及其屬性構(gòu)成,圖數(shù)據(jù)庫(kù)通常是指基于屬性圖模型的圖數(shù)據(jù)庫(kù)[6]。屬性圖與RDF圖最大的區(qū)別在于:RDF圖可以更好地支持多值屬性;RDF圖不支持兩頂點(diǎn)間多個(gè)相同類(lèi)型的邊;RDF圖不支持邊屬性。

圖5 屬性圖數(shù)據(jù)模型

知識(shí)定義與信息模型的概念類(lèi)似,可借鑒元數(shù)據(jù)和本體論技術(shù),描述定義域的實(shí)體類(lèi)型及其屬性、關(guān)系和實(shí)體上的允許操作,常見(jiàn)的流行方法包括自上而下(Top-down)的構(gòu)建方式、自下而上(Bottom-up)的構(gòu)建方式。自上而下,即由行業(yè)專(zhuān)家預(yù)先定義圖譜模式,再以模式組織數(shù)據(jù)層資源建設(shè);自下而上,即通過(guò)信息抽取技術(shù)從文本中抽取出實(shí)體,再依賴(lài)大數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)技術(shù)分析實(shí)體的語(yǔ)義關(guān)聯(lián)關(guān)系來(lái)構(gòu)建模式。自上而下顯然更加準(zhǔn)確,然而自下而上代表著數(shù)據(jù)驅(qū)動(dòng)的自動(dòng)圖譜構(gòu)建模式,不論是哪一種方法知識(shí)定義應(yīng)是信息抽取的前提條件。

2.2 知識(shí)獲取

按數(shù)據(jù)源類(lèi)型劃分,知識(shí)獲取包括從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中獲取知識(shí)。

從結(jié)構(gòu)化數(shù)據(jù)中獲取知識(shí),需把關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)換成RDF形式的知識(shí),可使用開(kāi)源工具D2RQ等將關(guān)系數(shù)據(jù)庫(kù)轉(zhuǎn)換為RDF,但難點(diǎn)在于難以自動(dòng)與圖譜模式結(jié)合與映射,需要依賴(lài)人工編寫(xiě)映射規(guī)則;從半結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù)獲取知識(shí)主要采用包裝器方法,而對(duì)于行文格式穩(wěn)定的文本可視作半結(jié)構(gòu)化數(shù)據(jù),可通過(guò)格式解析、基于規(guī)則的方法進(jìn)行抽取。

圖6 知識(shí)獲取[7]

對(duì)于非結(jié)構(gòu)化的文本數(shù)據(jù),抽取的知識(shí)包括實(shí)體、關(guān)系、屬性、事件。

對(duì)應(yīng)的研究問(wèn)題有四個(gè):一是實(shí)體抽取,也即命名實(shí)體識(shí)別,實(shí)體包括概念、組織機(jī)構(gòu)、人名、地名、時(shí)間等;二是關(guān)系抽取,即兩個(gè)實(shí)體之間的關(guān)聯(lián)性知識(shí)等,包括上下位、類(lèi)屬關(guān)系等;三是屬性抽取,即實(shí)體或關(guān)系的特征信息,關(guān)系反映實(shí)體與外部的聯(lián)系,而屬性體現(xiàn)實(shí)體的內(nèi)部特征;四是事件抽取,事件是發(fā)生在某個(gè)特定時(shí)間點(diǎn)或時(shí)間段、某個(gè)特定地域范圍內(nèi),由一個(gè)或者多個(gè)角色參與的一個(gè)或者多個(gè)動(dòng)作組成的事情或者狀態(tài)的改變[8]。

非結(jié)構(gòu)化數(shù)據(jù)的抽取問(wèn)題,研究的人比較多,對(duì)于具體的語(yǔ)料環(huán)境,采取的技術(shù)也不盡相同。對(duì)于純文本一般按照篇、章、段、句進(jìn)行文本切割,基于主題詞對(duì)文本分類(lèi)、聚類(lèi)預(yù)處理,并由人工開(kāi)展數(shù)據(jù)標(biāo)注與模型訓(xùn)練,最后集成多種信息抽取模型抽取知識(shí)。

基于信息抽取算法

構(gòu)建百分點(diǎn)行業(yè)知識(shí)圖譜

知識(shí)定義是信息抽取的前提條件,結(jié)合當(dāng)前結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息抽取的理論、工具和經(jīng)典算法,百分點(diǎn)通過(guò)創(chuàng)新實(shí)踐,探索出了一套行業(yè)知識(shí)圖譜構(gòu)建流程方法。

1.  結(jié)構(gòu)化信息抽取

行業(yè)知識(shí)圖譜的構(gòu)建過(guò)程往往需要將業(yè)務(wù)系統(tǒng)的部分關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)抽取出來(lái),并轉(zhuǎn)換為RDF模型或?qū)傩詧D模型的形式存入圖譜數(shù)據(jù)庫(kù)中,這種從關(guān)系型數(shù)據(jù)庫(kù)接入數(shù)據(jù)、預(yù)處理并映射為圖譜模式的抽取方式稱(chēng)為結(jié)構(gòu)化信息抽取。

W3C為此制定了兩個(gè)知識(shí)映射標(biāo)準(zhǔn)語(yǔ)言:R2RML及直接映射(DM),DM和R2RML映射語(yǔ)言用于定義關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)如何轉(zhuǎn)換為RDF數(shù)據(jù)的各種規(guī)則,具體包括URI的生成、RDF類(lèi)和屬性的定義、空節(jié)點(diǎn)的處理、數(shù)據(jù)間關(guān)聯(lián)關(guān)系的表達(dá)等[9]。

直接映射將關(guān)系型數(shù)據(jù)庫(kù)中的一張表映射為RDF的類(lèi)(Class),表中的列映射為屬性(Property),表的一行映射為一個(gè)資源或?qū)嶓w并創(chuàng)建資源標(biāo)識(shí)符,單元格值映射為屬性值[9]。直接映射可將關(guān)系數(shù)據(jù)庫(kù)表結(jié)構(gòu)和數(shù)據(jù)直接轉(zhuǎn)換為RDF圖,但直接映射僅僅提供簡(jiǎn)單轉(zhuǎn)換能力。而R2RML映射語(yǔ)言可靈活定制從關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)實(shí)例轉(zhuǎn)換為RDF數(shù)據(jù)集的映射規(guī)則,符合R2RML映射算法的工具輸入是關(guān)系數(shù)據(jù)庫(kù)檢索數(shù)據(jù)的邏輯表,邏輯表通過(guò)三元組映射轉(zhuǎn)換為具有相同數(shù)據(jù)模式的RDF并作為輸出結(jié)果。

2.  半結(jié)構(gòu)化信息抽取

半結(jié)構(gòu)化數(shù)據(jù)是一種特殊的結(jié)構(gòu)化數(shù)據(jù)形式,該形式的數(shù)據(jù)不符合關(guān)系數(shù)據(jù)庫(kù)或其他形式的數(shù)據(jù)表形式結(jié)構(gòu),但又包含標(biāo)簽或其他標(biāo)記來(lái)分離語(yǔ)義元素并保持記錄和數(shù)據(jù)字段的層次結(jié)構(gòu)[9]。針對(duì)網(wǎng)頁(yè)數(shù)據(jù)的信息抽取技術(shù)較為成熟,可依網(wǎng)頁(yè)結(jié)構(gòu)化的不同程度分別采用人工方法、半自動(dòng)或全自動(dòng)的方法開(kāi)發(fā)包裝器進(jìn)行信息抽取。

基于有監(jiān)督學(xué)習(xí)的包裝器歸納方法,首先從已標(biāo)注的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)網(wǎng)頁(yè)信息抽取規(guī)則,然后對(duì)具有相同結(jié)構(gòu)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抽取,一般的開(kāi)發(fā)流程遵循“網(wǎng)頁(yè)清洗、數(shù)據(jù)標(biāo)注、包裝器空間生成、評(píng)估”四個(gè)步驟,該方法依賴(lài)人工長(zhǎng)期維護(hù)更新包裝器。手工方法開(kāi)發(fā)包裝器首先通過(guò)人工分析網(wǎng)頁(yè)的結(jié)構(gòu)和代碼,并編寫(xiě)網(wǎng)頁(yè)的數(shù)據(jù)抽取表達(dá)式;表達(dá)式的形式一般可以是XPath表達(dá)式、css選擇器的表達(dá)式等,該方法適合簡(jiǎn)單、結(jié)構(gòu)穩(wěn)定的網(wǎng)站的抽取。

3.  非結(jié)構(gòu)化信息抽取

3.1 信息抽取框架

如前文所述,非結(jié)構(gòu)化文本的信息抽取主要包括命名實(shí)體識(shí)別、屬性抽取、關(guān)系抽取、事件抽取等四個(gè)任務(wù)。命名實(shí)體識(shí)別是知識(shí)圖譜構(gòu)建和知識(shí)獲取的基礎(chǔ)和關(guān)鍵,屬性抽取可看做實(shí)體和屬性值之間的一種名詞性關(guān)系而轉(zhuǎn)化為關(guān)系抽取,因此信息抽取可歸納為實(shí)體抽取、關(guān)系抽取和事件抽取三大任務(wù)。

3.2 命名實(shí)體識(shí)別

目前為止,命名實(shí)體識(shí)別主流方法可概括為:基于詞典和規(guī)則的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)、遷移學(xué)習(xí)的方法等[10],如圖7所示。在項(xiàng)目實(shí)際應(yīng)用中一般應(yīng)結(jié)合詞典或規(guī)則、深度學(xué)習(xí)等多種方法,充分利用不同方法的優(yōu)勢(shì)抽取不同類(lèi)型的實(shí)體,從而提高準(zhǔn)確率和效率。在中文分詞領(lǐng)域,國(guó)內(nèi)科研機(jī)構(gòu)推出多種分詞工具(基于規(guī)則和詞典為主)已被廣泛使用,例如哈工大LTP、中科院計(jì)算所NLPIR、清華大學(xué)THULAC和jieba分詞等。

基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法可細(xì)分為兩類(lèi):第一類(lèi),分類(lèi)方法,即首先識(shí)別出文本中所有命名實(shí)體的邊界,再對(duì)這些命名實(shí)體進(jìn)行分類(lèi);第二類(lèi),序列化標(biāo)注方法,即對(duì)于文本中每個(gè)詞可以有若干個(gè)候選的類(lèi)別標(biāo)簽,每個(gè)標(biāo)簽對(duì)應(yīng)于其在各類(lèi)命名實(shí)體中所處的位置,通過(guò)對(duì)文本中的每個(gè)詞進(jìn)行序列化的自動(dòng)標(biāo)注(也即分類(lèi)),再將自動(dòng)標(biāo)注的標(biāo)簽進(jìn)行整合,最終獲得有若干個(gè)詞構(gòu)成的命名實(shí)體及其類(lèi)別[11]。序列化標(biāo)注曾經(jīng)是最普遍并且有效的方法,典型模型包括條件隨機(jī)場(chǎng)(CRF)、隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)、最大熵(ME)、支持向量機(jī)(SVM)等。

圖7 命名實(shí)體識(shí)別常見(jiàn)算法

深度學(xué)習(xí)、遷移學(xué)習(xí)使用低維、實(shí)值、稠密的向量形式表示字、詞、句,再使用RNN/CNN/注意力機(jī)制等深層網(wǎng)絡(luò)獲取文本特征表示,避免了傳統(tǒng)命名實(shí)體識(shí)別人工特征工程耗時(shí)耗力的問(wèn)題,且得到了更好的效果,目前常用的框架方法有BiLSTM-CRF、BERT-CRF/BERT-BiLSTM-CRF。

在百分點(diǎn)的知識(shí)圖譜構(gòu)建應(yīng)用中,法律百科概念詞條、行業(yè)領(lǐng)域的香煙品牌及品牌規(guī)格等實(shí)體,采用基于詞典和規(guī)則的方法從文本中抽取實(shí)體類(lèi)知識(shí),具有更高的準(zhǔn)確率;而抽取人名、地名、組織機(jī)構(gòu)等,由于無(wú)法構(gòu)建完整的詞典且規(guī)則很難適應(yīng)數(shù)據(jù)變化,采用基于序列標(biāo)注的命名實(shí)體抽取模型BiLSTM-CRF 或者BERT-CRF 實(shí)現(xiàn)。

3.3 關(guān)系抽取

從前文可知,關(guān)系抽取指三元組抽取,實(shí)體間的關(guān)系形式化地描述為關(guān)系三元組(主語(yǔ),謂語(yǔ),賓語(yǔ)),其中主語(yǔ)和賓語(yǔ)指的是實(shí)體,謂語(yǔ)指的是實(shí)體間的關(guān)系。早期的關(guān)系抽取方法包括基于規(guī)則的關(guān)系抽取方法、基于詞典驅(qū)動(dòng)的關(guān)系抽取方法、基于本體的關(guān)系抽取方法[12]?;跈C(jī)器學(xué)習(xí)的抽取方法以數(shù)據(jù)是否被標(biāo)注作為標(biāo)準(zhǔn)進(jìn)行分類(lèi),包括:有監(jiān)督的關(guān)系抽取算法、半監(jiān)督的關(guān)系抽取算法、無(wú)監(jiān)督的關(guān)系抽取算法[12],如圖8所示。

圖8 關(guān)系抽取常見(jiàn)算法

有監(jiān)督的機(jī)器學(xué)習(xí)方法將一般的二元關(guān)系抽取視為分類(lèi)問(wèn)題,通常需預(yù)先了解語(yǔ)料庫(kù)中所有可能的目標(biāo)關(guān)系的種類(lèi),并通過(guò)人工對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,建立訓(xùn)練語(yǔ)料庫(kù),使用標(biāo)注數(shù)據(jù)訓(xùn)練的分類(lèi)器對(duì)新的候選實(shí)體及其關(guān)系進(jìn)行預(yù)測(cè)、判斷。

同樣地,傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取方法選擇的人工特征工程十分繁雜,而深度學(xué)習(xí)的關(guān)系抽取方法通過(guò)訓(xùn)練大量數(shù)據(jù)自動(dòng)獲得模型,無(wú)需人工提取特征。深度學(xué)習(xí)經(jīng)過(guò)多年的發(fā)展,逐漸被研究者應(yīng)用在實(shí)體關(guān)系抽取方面,有監(jiān)督的關(guān)系抽取方法主要有流水線學(xué)習(xí)(Pipeline)和聯(lián)合學(xué)習(xí)(Joint)兩種。

(1)流水線式關(guān)系抽取方法

該方法將關(guān)系抽取分為兩階段任務(wù):第一階段對(duì)輸入的句子進(jìn)行命名實(shí)體識(shí)別;第二階段對(duì)命名實(shí)體進(jìn)行兩兩組合,再進(jìn)行關(guān)系分類(lèi),把存在關(guān)系的三元組作為輸出結(jié)果[12]。流水線方法將實(shí)體識(shí)別、關(guān)系抽取分為兩個(gè)獨(dú)立的過(guò)程,關(guān)系抽取依賴(lài)實(shí)體抽取的結(jié)果,容易造成誤差累積。

當(dāng)前深度學(xué)習(xí)的關(guān)系抽取主要聚焦在有監(jiān)督學(xué)習(xí)的句子級(jí)別的關(guān)系抽取,根據(jù)使用的編碼器以及是否使用依存句法樹(shù),可以大致將相關(guān)系統(tǒng)劃分為三種:基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取和基于依存句法樹(shù)的關(guān)系抽取。

(2)實(shí)體關(guān)系聯(lián)合學(xué)習(xí)抽取方法

實(shí)體關(guān)系聯(lián)合學(xué)習(xí)方法主要包括以下兩種:

a. 基于共享參數(shù)的方法:典型方法有BiLSTM、BiLSTM+Attention等,命名實(shí)體識(shí)別和關(guān)系抽取兩階段任務(wù)通過(guò)共享編碼層在訓(xùn)練過(guò)程中產(chǎn)生的共享參數(shù)相互依賴(lài),最終訓(xùn)練得到最佳的全局參數(shù)。流水線方法中存在的錯(cuò)誤累積傳播問(wèn)題和忽視兩階段子任務(wù)間關(guān)系依賴(lài)的問(wèn)題在該方法中可得到改善,并提高模型的魯棒性。

b. 基于序列標(biāo)注的方法:由于基于共享參數(shù)的方法容易產(chǎn)生信息冗余,如果將命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取融合成一個(gè)序列標(biāo)注問(wèn)題,可同時(shí)識(shí)別出實(shí)體和關(guān)系,值得注意的是應(yīng)使用新的標(biāo)注策略標(biāo)注(實(shí)體位置、關(guān)系類(lèi)型、關(guān)系角色)[13]。該方法利用一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)模型抽取出實(shí)體之間的關(guān)系三元組,減少了無(wú)效實(shí)體對(duì)模型的影響,提高了關(guān)系抽取的召回率和準(zhǔn)確率。

在百分點(diǎn)的知識(shí)圖譜構(gòu)建應(yīng)用中,構(gòu)建法律百科概念詞條圖譜時(shí)從法律文件、權(quán)威案例和法律圖書(shū)抽取概念實(shí)體的定義(可視作屬性抽取)等行文格式較為規(guī)范、固定的文本抽取三元組采用基于模板的方法;警務(wù)文本的警務(wù)要素及內(nèi)容抽取等較為開(kāi)放的關(guān)系抽取采用BERT作為多分類(lèi)器的關(guān)系分類(lèi)抽取或序列標(biāo)注方法。

3.4 事件抽取

“事件”被用于描述事情的發(fā)生或事務(wù)狀態(tài)的改變,而事件抽取任務(wù)則是一種從自然語(yǔ)言文本中提取出具有事件框架的結(jié)構(gòu)化信息的方法。具體地,一個(gè)事件的主要組成如表 1所示。

從上述定義可以看出,實(shí)體、觸發(fā)詞、事件論元以及事件類(lèi)型四者相互之間存在著包含或約束的關(guān)系。其中,實(shí)體是一種適用于所有文本的概念,但在自動(dòng)內(nèi)容抽?。ˋutomatic Content Extraction,ACE)評(píng)測(cè)會(huì)議標(biāo)準(zhǔn)定義的事件中,實(shí)體是事件論元的主要組成。值得注意的是,實(shí)體本身的類(lèi)型并不代表著其作為論元時(shí)在事件中的角色。事件論元的角色只與事件類(lèi)型和觸發(fā)詞有關(guān)。事件論元的角色可以通過(guò)與事件句內(nèi)觸發(fā)詞或其他實(shí)體的關(guān)系挖掘而確定。一般事件類(lèi)型具有該類(lèi)型下的事件模板,當(dāng)中包含了固定的事件論元角色[14]。此外,由于觸發(fā)詞是事件發(fā)生的標(biāo)志,因此事件類(lèi)型的判別往往通過(guò)觸發(fā)詞的識(shí)別完成。事件抽取任務(wù)主要包含兩個(gè)部分:

(1)事件類(lèi)型檢測(cè)

通常觸發(fā)詞與事件類(lèi)型之間存在著對(duì)應(yīng)關(guān)系,因此對(duì)事件類(lèi)型的判定可通過(guò)觸發(fā)詞的識(shí)別和匹配實(shí)現(xiàn)。

(2)事件論元識(shí)別

在確定了事件類(lèi)型后,根據(jù)該類(lèi)型所具有的事件模板找到事件參與者的角色,再通過(guò)語(yǔ)義關(guān)系解析從事件句中挖掘相關(guān)論元。因此,基于ACE標(biāo)準(zhǔn)的完整事件抽取架構(gòu)包括:文本預(yù)處理、事件類(lèi)型檢測(cè)和事件論元識(shí)別,如圖9所示。

圖9 基于ACE 標(biāo)準(zhǔn)的事件抽取任務(wù)架構(gòu)[13]

在百分點(diǎn)的知識(shí)圖譜構(gòu)建應(yīng)用中,警情文本的要素抽取符合事件論元抽取理論,該類(lèi)非結(jié)構(gòu)化的文本包含社會(huì)安全類(lèi)、事故災(zāi)難類(lèi)等事件類(lèi)型及子類(lèi)型,警務(wù)專(zhuān)家為子類(lèi)型在內(nèi)的所有事件類(lèi)型制定了參考的事件模板,匯總觸發(fā)詞、事件類(lèi)型和事件論元及角色。下文3.3節(jié)將給出基于事件論元的警情事件要素結(jié)構(gòu)化案例介紹。

百分點(diǎn)信息抽取算法

創(chuàng)新應(yīng)用及實(shí)踐效果

1.  基于模板的法百科信息抽取方法

(1)應(yīng)用場(chǎng)景:法律百科概念詞條圖譜信息抽取

法律百科概念詞條圖譜信息抽取主要目的是構(gòu)建法律行業(yè)的百科全書(shū),以便于用戶(hù)查找專(zhuān)業(yè)法律詞條知識(shí)。數(shù)據(jù)共分為三個(gè)來(lái)源數(shù)據(jù),分別是法律文件、權(quán)威案例和法律圖書(shū),需要從數(shù)據(jù)中提取對(duì)應(yīng)領(lǐng)域的專(zhuān)業(yè)詞條名稱(chēng)及對(duì)應(yīng)的相關(guān)釋義。例如:從法律文件中提取“警用車(chē)船”詞條,并給出對(duì)應(yīng)的釋義:車(chē)船稅法第三條第三項(xiàng)所稱(chēng)的警用車(chē)船,是指公安機(jī)關(guān)、國(guó)家安全機(jī)關(guān)、監(jiān)獄、勞動(dòng)教養(yǎng)管理機(jī)關(guān)和人民法院、人民檢察院領(lǐng)取警用牌照的車(chē)輛和執(zhí)行警務(wù)的專(zhuān)用船舶。法百科詞條構(gòu)建及管理界面示例如圖10所示。

圖10 法百科詞條構(gòu)建及管理界面示例

(2)基于模板的知識(shí)抽取

通過(guò)人工研究法律文件、權(quán)威案例等法律領(lǐng)域的專(zhuān)業(yè)詞條的寫(xiě)作規(guī)律和句式結(jié)構(gòu),分析法律相關(guān)概念實(shí)體與概念定義之間的特征,構(gòu)建抽取的語(yǔ)言模板,通過(guò)模板從文本中匹配出實(shí)體之間的關(guān)系,該方法在構(gòu)建法律詞條這一特定領(lǐng)域內(nèi),可以取得較好的結(jié)果。

(3)應(yīng)用效果

在相關(guān)文本數(shù)據(jù)上進(jìn)行了足量的數(shù)據(jù)標(biāo)注,并基于此對(duì)信息抽取進(jìn)行了相關(guān)指標(biāo)的考評(píng),結(jié)果如表2所示,詞條名稱(chēng)及釋義整體準(zhǔn)確率超過(guò)90%。

2. 基于有監(jiān)督學(xué)習(xí)的警務(wù)文本信息抽取

2.1 基于序列標(biāo)注框架的命名實(shí)體識(shí)別

1)應(yīng)用場(chǎng)景:警務(wù)文本命名實(shí)體識(shí)別

警務(wù)文本包括案件敘述性文本描述數(shù)據(jù),如案件卷宗、審訊筆錄/口供、簡(jiǎn)要案情等等類(lèi)型的數(shù)據(jù),文本涉及到的與業(yè)務(wù)分析和研判相關(guān)的案發(fā)場(chǎng)所、嫌疑人特征等核心要素,通??赊D(zhuǎn)化為自然語(yǔ)言處理中的實(shí)體識(shí)別問(wèn)題。警務(wù)系統(tǒng)業(yè)務(wù)中有研判價(jià)值的實(shí)體通常包括:姓名、地址、組織機(jī)構(gòu)、聯(lián)系方式、公民身份號(hào)碼、時(shí)間等。對(duì)于警務(wù)文本中的身份證號(hào)、手機(jī)號(hào)實(shí)體,應(yīng)采用基于規(guī)則或基于詞典的方法進(jìn)行命名實(shí)體識(shí)別。而文本中的人名、地名、組織機(jī)構(gòu)名稱(chēng)等實(shí)體信息在文本中的表述形式是多樣并且難以完整列舉,當(dāng)前主要采用基于序列標(biāo)注的有監(jiān)督學(xué)習(xí)抽取方法。命名實(shí)體識(shí)別采用前文介紹的基于規(guī)則的方法及基于BERT+CRF序列標(biāo)注模型進(jìn)行抽取。

2BiLSTM/BERT+CRF模型架構(gòu)

百分點(diǎn)在基于深度學(xué)習(xí)、遷移學(xué)習(xí)的實(shí)體識(shí)別實(shí)踐中沉淀了兩套經(jīng)典的模型:BiLSTM+CRF模型架構(gòu)、BERT+CRF模型架構(gòu)。兩套架構(gòu)自底向上遵循詞編碼器、序列編碼器、序列解碼器三層結(jié)構(gòu)。BiLSTM+CRF模型架構(gòu)的詞編碼器采用Word Embedding,序列編碼器采用BiLSTM,序列解碼器采用CRF模型,模型架構(gòu)如圖11所示。

圖11 BiLSTM+CRF序列標(biāo)注模型架構(gòu)

BERT+CRF模型架構(gòu)詞編碼器采用WordPiece、字符位置編碼器采用正弦位置嵌入(Postional Embedding)及句子嵌入(Segment Embedding)、序列編碼器采用Transformer結(jié)構(gòu),序列解碼器采用CRF模型,模型架構(gòu)如圖12所示。

圖12 BERT+CRF序列標(biāo)注模型架構(gòu)

在序列標(biāo)注的命名實(shí)體識(shí)別模型中,對(duì)于每個(gè)單詞都需要預(yù)測(cè)一個(gè)多元分類(lèi)問(wèn)題。在經(jīng)過(guò)序列編碼器之后,每個(gè)單詞都有一個(gè)向量表示,為了預(yù)測(cè)每個(gè)單詞對(duì)應(yīng)的標(biāo)簽,需要序列解碼器來(lái)完成從序列向量到對(duì)應(yīng)預(yù)測(cè)標(biāo)簽的轉(zhuǎn)換。這兩套模型的序列解碼器都采用CRF模型作為解碼器。

3)警務(wù)文本實(shí)體抽取應(yīng)用效果

警務(wù)文本的命名實(shí)體識(shí)別評(píng)價(jià)指標(biāo)如表3所示。

表3 警務(wù)文本命名實(shí)體識(shí)別指標(biāo)

2.2 基于關(guān)系分類(lèi)的關(guān)系抽取

(1)應(yīng)用場(chǎng)景:警務(wù)文本關(guān)系抽取

警務(wù)文本包括案件敘述性文本描述數(shù)據(jù),如案件卷宗、審訊筆錄/口供、簡(jiǎn)要案情等等類(lèi)型的數(shù)據(jù),文本涉及到的與業(yè)務(wù)分析和研判相關(guān)的案發(fā)場(chǎng)所、嫌疑人特征等核心要素,通常可轉(zhuǎn)化為自然語(yǔ)言處理中的實(shí)體識(shí)別問(wèn)題。警務(wù)系統(tǒng)業(yè)務(wù)中有研判價(jià)值的實(shí)體通常包括:姓名、地址、組織機(jī)構(gòu)、聯(lián)系方式、公民身份號(hào)碼、時(shí)間等。命名實(shí)體識(shí)別采用前文介紹的基于規(guī)則的方法及基于BERT+CRF序列標(biāo)注模型進(jìn)行抽取。

由于警務(wù)文本數(shù)據(jù)關(guān)注的是以人為核心的實(shí)體,因此當(dāng)文本中出現(xiàn)一個(gè)以上的人員及其相關(guān)實(shí)體信息時(shí)候,需要在提取的姓名、性別、地址、聯(lián)系方式、公民身份號(hào)碼的基礎(chǔ)上梳理清楚各個(gè)實(shí)體之間的對(duì)應(yīng)關(guān)系或從屬關(guān)系。簡(jiǎn)單而言就是將人名實(shí)體找到其對(duì)應(yīng)的地址、公民身份號(hào)碼、聯(lián)系方式、性別等人員屬性,可以表示為五元組<姓名,性別,公民身份證號(hào),手機(jī)號(hào),關(guān)聯(lián)地址>。N元組本質(zhì)上可以拆分成多個(gè)三元組,因此警務(wù)文本中的N元組關(guān)系對(duì)抽取形式如表 4所示。

表4 警務(wù)文本N元組關(guān)系對(duì)

(2)基于BERT的關(guān)系分類(lèi)模型

BERT通過(guò)大型跨域語(yǔ)料庫(kù)使用遮蔽語(yǔ)言模型和下一句預(yù)測(cè)任務(wù)共同預(yù)訓(xùn)練文本表示。警務(wù)文本信息抽取對(duì)BERT的應(yīng)用方法如圖13所示,模型的輸入序列的整體結(jié)構(gòu)為:{[CLS],w1,w2,…,wn, [SEP],s1,s2,…,si, [SEP],o1,o2,…,oj, [SEP]},w為句子序列,s和o為實(shí)體序列。序列經(jīng)過(guò)BERT分詞處理,將字符轉(zhuǎn)換為字id,然后映射到字嵌入向量,字嵌入向量E表示為E={E1,E2,…,En}。經(jīng)過(guò)多層Transformer的Encoder編碼,最后得到句子的編碼向量。取“[CLS]”這個(gè)特殊開(kāi)始字符對(duì)應(yīng)的向量(“[CLS]”的編碼表示經(jīng)常用于判斷下一個(gè)句子)將編碼序列的第一個(gè)結(jié)果作為關(guān)系抽取的語(yǔ)義向量。該語(yǔ)義向量在關(guān)系分類(lèi)器層,經(jīng)過(guò)一層全連接層,然后使用softmax函數(shù)計(jì)算關(guān)系概率。

圖13 基于BERT的關(guān)系分類(lèi)模型

(3)關(guān)系抽取應(yīng)用效果

警務(wù)文本的關(guān)系抽取如圖14所示(示例數(shù)據(jù)是模擬的,已經(jīng)完全脫敏):

圖14 警務(wù)文本信息抽取輸入示例

關(guān)系抽取結(jié)果如圖15所示(示例數(shù)據(jù)是模擬的,已經(jīng)完全脫敏):

圖15 警務(wù)文本信息抽取結(jié)果實(shí)例

在相關(guān)警務(wù)文本數(shù)據(jù)上進(jìn)行了足量的數(shù)據(jù)標(biāo)注,并基于此對(duì)實(shí)體抽取和關(guān)系抽取的N元組進(jìn)行了相關(guān)指標(biāo)的考評(píng),結(jié)果如表 5所示,采用流水線式的命名實(shí)體識(shí)別及關(guān)系抽取整體的準(zhǔn)確率和召回率在95%以上。

表5 警務(wù)文本信息抽取評(píng)測(cè)指標(biāo)

3.  警情事件論元聯(lián)合信息抽取

3.1 應(yīng)用場(chǎng)景:警情事件論元抽取

警情事件識(shí)別與抽取是構(gòu)建警情知識(shí)圖譜的重要環(huán)節(jié),目的是從非結(jié)構(gòu)化警情文本中識(shí)別出描述事件的句子,并從中抽取出與事件描述相關(guān)的信息(事件元素、因果關(guān)系),最后以結(jié)構(gòu)化的形式存儲(chǔ)。警情文本的事件類(lèi)型包括社會(huì)安全類(lèi)、事故災(zāi)難類(lèi)、網(wǎng)絡(luò)輿情類(lèi)、治安和刑事案件類(lèi)、公共衛(wèi)生類(lèi)等5大類(lèi)。

事件類(lèi)型還可根據(jù)警情業(yè)務(wù)進(jìn)一步細(xì)分為子類(lèi)型,比如社會(huì)安全類(lèi)可分為社會(huì)安全事件、涉穩(wěn)事件、涉外事件、恐怖主義事件等4小類(lèi)。事件發(fā)生子類(lèi)的事件采用2.3.4節(jié)表示方法,將事件表示為實(shí)體、觸發(fā)詞、事件論元以及事件類(lèi)型組成的復(fù)合知識(shí)單元。如圖16所示(示例數(shù)據(jù)是模擬的,已經(jīng)完全脫敏),警情案件文本按照?qǐng)D9所示流程識(shí)別觸發(fā)詞為“家門(mén)被撬”后判別事件類(lèi)型為盜竊案件,最終抽取出事件論元及角色實(shí)現(xiàn)文本結(jié)構(gòu)化分析。

圖16 警情案件事件論元抽取例子

3.2 事件論元角色聯(lián)合抽取模型

在實(shí)踐應(yīng)用中百分點(diǎn)參考分層二進(jìn)制標(biāo)注框架(Hierarchical Binary Tagging)[15],將論元抽取視作事件觸發(fā)詞與事件論元的映射關(guān)系,模型的整體結(jié)構(gòu)如圖17所示,主要包括如下幾個(gè)部分:

(1)BERT 編碼器:通過(guò)BERT得到每個(gè)詞的詞表征,把BERT的輸出當(dāng)作詞向量使用;

(2)事件論元標(biāo)注器:該部分用于識(shí)別所有可能的事件論元。其通過(guò)對(duì)每一個(gè)位置的編碼結(jié)果用兩個(gè)分類(lèi)器(全連接層)進(jìn)行分類(lèi),來(lái)判斷其是否是事件論元的開(kāi)始或結(jié)束位置,激活函數(shù)為Sigmoid。

(3)事件角色標(biāo)注器:針對(duì)每一個(gè)事件論元,都需要對(duì)其進(jìn)行之后的事件論元的角色進(jìn)行預(yù)測(cè)。由圖中可知,其與事件論元標(biāo)注器基本一致,主要區(qū)別在于每一個(gè)事件類(lèi)型獨(dú)享一組事件論元角色分類(lèi)器,同時(shí)還要將事件論元作為特征和BERT詞向量拼接后作為輸入。

圖17 事件論元、角色聯(lián)合抽取

警情文本事件論元角色聯(lián)合信息抽取在大多數(shù)人工標(biāo)注數(shù)據(jù)集及實(shí)際應(yīng)用中取得了較好的結(jié)果,在效果較差的某些事件類(lèi)型的文本中通過(guò)增加人工標(biāo)注數(shù)據(jù)可提升模型的準(zhǔn)確率。

總結(jié)與展望

本文首先辨析了知識(shí)獲取、知識(shí)抽取、信息抽取類(lèi)似概念本質(zhì)的區(qū)別與聯(lián)系,然后總結(jié)了百分點(diǎn)行業(yè)知識(shí)圖譜構(gòu)建流程方法,指出知識(shí)定義是信息抽取的前提條件,在此基礎(chǔ)上介紹了當(dāng)前結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息抽取的理論、工具和經(jīng)典算法。文末結(jié)合百分點(diǎn)在法律百科詞條、警務(wù)文本、行業(yè)實(shí)際圖譜構(gòu)建項(xiàng)目中,介紹信息抽取算法應(yīng)用方法和效果,幫助讀者深入了解信息抽取的實(shí)踐應(yīng)用狀況。總的來(lái)說(shuō),信息抽取對(duì)構(gòu)建行業(yè)知識(shí)圖譜具有重要的價(jià)值,同時(shí)面臨著巨大的挑戰(zhàn),應(yīng)充分借助深度遷移學(xué)習(xí)的發(fā)展帶來(lái)的機(jī)遇,一方面發(fā)展數(shù)據(jù)智能標(biāo)注技術(shù)降低人工標(biāo)注成本,另一方面突破模型對(duì)于標(biāo)注數(shù)據(jù)數(shù)量的依賴(lài),并在更多的實(shí)際業(yè)務(wù)需求中進(jìn)行實(shí)踐和應(yīng)用。

參考資料

[1]中國(guó)中文信息學(xué)會(huì).知識(shí)圖譜發(fā)展報(bào)告(2018)

[2]中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院.知識(shí)圖譜標(biāo)準(zhǔn)化白皮書(shū),2019年

[3]清華大學(xué)人工智能研究院.人工智能之知識(shí)圖譜,2019年第2期

[4]GB/T 23703.2 知識(shí)管理 第2部分:術(shù)語(yǔ)

[5]趙軍,劉康,周有光等.開(kāi)放式文本信息抽取. 中科院自動(dòng)化所,中文信息學(xué)報(bào),2011年

[6]圖數(shù)據(jù)庫(kù)白皮書(shū).中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所.2019年

[7]王昊奮.行業(yè)知識(shí)圖譜構(gòu)建與應(yīng)用101.PlantData

[8]陳玉博.事件抽取與金融事件圖譜構(gòu)建.中科院自動(dòng)化所,2018年

[9]王昊奮,漆桂林,陳華鈞.知識(shí)圖譜方法、實(shí)踐與應(yīng)用.電子工業(yè)出版社

[10]黃晴雁,牟永敏.命名實(shí)體識(shí)別方法研究進(jìn)展.現(xiàn)代計(jì)算機(jī),2018年12月

[11]劉瀏,王東波.命名實(shí)體識(shí)別研究綜述.情報(bào)學(xué)報(bào),2018年

[12]李冬梅,張揚(yáng)等.實(shí)體關(guān)系抽取方法研究綜述.計(jì)算機(jī)研究與發(fā)展,2019年6月

[13]Suncong Zhend等.JointExtraction of Entities and Relations Based on a Novel Tagging Scheme.中科院自動(dòng)化所,ACL2017

[14]鄒馨儀.基于深度學(xué)習(xí)的金融事件抽取技術(shù)研究.電子科技大學(xué),2017年

[15]Zhepei Wei等.ANovel Cascade Binary Tagging Framework for Relational Triple Extraction,吉林大學(xué).2020ACL

分享到

xiesc

相關(guān)推薦