国产精品久久久一区二区,伊人伊成久久人综合网

圖1 知識相關(guān)概念的包含關(guān)系

總的來說，知識、知識圖譜、知識獲取、知識抽取、信息抽取這些概念逐層遞進，以一張韋恩圖表示（如圖1所示）：知識的表示、獲取和處理是人類特有的能力，知識圖譜架起了一座基于人類知識和計算機獲取認知能力的橋梁，知識獲取涵蓋了產(chǎn)生機器可理解的知識的活動，知識抽取強調(diào)通過數(shù)據(jù)模式組織三元組知識，而信息抽取是借助自然語言處理技術(shù)生產(chǎn)知識的能力。信息抽取是知識工程、大數(shù)據(jù)、機器學習、自然語言處理的交叉技術(shù)。下文將重點探討信息抽取在知識圖譜的應用與實踐。

2. 融合信息抽取的知識圖譜構(gòu)建范式

近年來，自然語言處理技術(shù)的飛速發(fā)展尤其是深度遷移學習技術(shù)給方興未艾的知識圖譜注入了一針“強心劑”。預訓練語言模型性能的提升降低了從海量的非結(jié)構(gòu)化文本中獲取知識的成本，推動了知識圖譜在行業(yè)企業(yè)的落地應用。

如圖3所示的體系架構(gòu)，百分點公司在行業(yè)知識圖譜的實踐應用中，信息抽取技術(shù)占據(jù)著核心地位。行業(yè)知識圖譜構(gòu)建的生命周期歷經(jīng)知識定義、知識獲取、知識融合、知識存儲、知識應用多個環(huán)節(jié)，這些過程的每一步都需要專業(yè)的信息處理技術(shù)與技能才能完成。下面重點闡述信息抽取相關(guān)的知識定義及知識獲取環(huán)節(jié)內(nèi)容。

2.1 知識定義

傳統(tǒng)的知識工程研究領(lǐng)域人們以本體、主題詞表、元數(shù)據(jù)、數(shù)據(jù)模式來建立結(jié)構(gòu)化的知識，在本文知識定義泛指結(jié)構(gòu)化的數(shù)據(jù)模型，即通過構(gòu)建圖譜模式（schema）規(guī)范數(shù)據(jù)層的表達與存儲。數(shù)據(jù)模型是線狀或網(wǎng)狀的結(jié)構(gòu)化知識庫的概念模板，知識圖譜一般采用資源描述框架（RDF）、RDF模式語言（RDFS）、網(wǎng)絡本體語言（OWL）及屬性圖模型。

（1）RDF模型

RDF在形式上以三元組表示實體及實體之間的關(guān)系，反映了物理世界中具體的事物及關(guān)系，如圖3所示。

（2）RDFS模型

RDFS在RDF的基礎(chǔ)上定義了類、屬性以及關(guān)系來描述資源，并且通過屬性的定義域和值域來約束資源。RDFS在數(shù)據(jù)層的基礎(chǔ)上引入了模式層，模式層定義了一種約束規(guī)則，而數(shù)據(jù)層是在這種規(guī)則下的一個實例填充，如圖4所示。

（3）OWL模型

OWL是對RDFS關(guān)于描述資源詞匯的一個擴展，OWL中添加了額外的預定義詞匯來描述資源，具備更好的語義表達能力。

（4）屬性圖

屬性圖數(shù)據(jù)模型由頂點、邊及其屬性構(gòu)成，圖數(shù)據(jù)庫通常是指基于屬性圖模型的圖數(shù)據(jù)庫[6]。屬性圖與RDF圖最大的區(qū)別在于：RDF圖可以更好地支持多值屬性；RDF圖不支持兩頂點間多個相同類型的邊；RDF圖不支持邊屬性。

知識定義與信息模型的概念類似，可借鑒元數(shù)據(jù)和本體論技術(shù)，描述定義域的實體類型及其屬性、關(guān)系和實體上的允許操作，常見的流行方法包括自上而下(Top-down)的構(gòu)建方式、自下而上(Bottom-up)的構(gòu)建方式。自上而下，即由行業(yè)專家預先定義圖譜模式，再以模式組織數(shù)據(jù)層資源建設(shè)；自下而上，即通過信息抽取技術(shù)從文本中抽取出實體，再依賴大數(shù)據(jù)挖掘、機器學習技術(shù)分析實體的語義關(guān)聯(lián)關(guān)系來構(gòu)建模式。自上而下顯然更加準確，然而自下而上代表著數(shù)據(jù)驅(qū)動的自動圖譜構(gòu)建模式，不論是哪一種方法知識定義應是信息抽取的前提條件。

2.2 知識獲取

按數(shù)據(jù)源類型劃分，知識獲取包括從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中獲取知識。

從結(jié)構(gòu)化數(shù)據(jù)中獲取知識，需把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換成RDF形式的知識，可使用開源工具D2RQ等將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為RDF，但難點在于難以自動與圖譜模式結(jié)合與映射，需要依賴人工編寫映射規(guī)則；從半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)獲取知識主要采用包裝器方法，而對于行文格式穩(wěn)定的文本可視作半結(jié)構(gòu)化數(shù)據(jù)，可通過格式解析、基于規(guī)則的方法進行抽取。

對于非結(jié)構(gòu)化的文本數(shù)據(jù)，抽取的知識包括實體、關(guān)系、屬性、事件。

對應的研究問題有四個：一是實體抽取，也即命名實體識別，實體包括概念、組織機構(gòu)、人名、地名、時間等；二是關(guān)系抽取，即兩個實體之間的關(guān)聯(lián)性知識等，包括上下位、類屬關(guān)系等；三是屬性抽取，即實體或關(guān)系的特征信息，關(guān)系反映實體與外部的聯(lián)系，而屬性體現(xiàn)實體的內(nèi)部特征；四是事件抽取，事件是發(fā)生在某個特定時間點或時間段、某個特定地域范圍內(nèi)，由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態(tài)的改變[8]。

非結(jié)構(gòu)化數(shù)據(jù)的抽取問題，研究的人比較多，對于具體的語料環(huán)境，采取的技術(shù)也不盡相同。對于純文本一般按照篇、章、段、句進行文本切割，基于主題詞對文本分類、聚類預處理，并由人工開展數(shù)據(jù)標注與模型訓練，最后集成多種信息抽取模型抽取知識。

基于信息抽取算法

構(gòu)建百分點行業(yè)知識圖譜

知識定義是信息抽取的前提條件，結(jié)合當前結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息抽取的理論、工具和經(jīng)典算法，百分點通過創(chuàng)新實踐，探索出了一套行業(yè)知識圖譜構(gòu)建流程方法。

1. 結(jié)構(gòu)化信息抽取

行業(yè)知識圖譜的構(gòu)建過程往往需要將業(yè)務系統(tǒng)的部分關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)抽取出來，并轉(zhuǎn)換為RDF模型或?qū)傩詧D模型的形式存入圖譜數(shù)據(jù)庫中，這種從關(guān)系型數(shù)據(jù)庫接入數(shù)據(jù)、預處理并映射為圖譜模式的抽取方式稱為結(jié)構(gòu)化信息抽取。

W3C為此制定了兩個知識映射標準語言：R2RML及直接映射（DM），DM和R2RML映射語言用于定義關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)如何轉(zhuǎn)換為RDF數(shù)據(jù)的各種規(guī)則，具體包括URI的生成、RDF類和屬性的定義、空節(jié)點的處理、數(shù)據(jù)間關(guān)聯(lián)關(guān)系的表達等[9]。

直接映射將關(guān)系型數(shù)據(jù)庫中的一張表映射為RDF的類（Class），表中的列映射為屬性（Property），表的一行映射為一個資源或?qū)嶓w并創(chuàng)建資源標識符，單元格值映射為屬性值[9]。直接映射可將關(guān)系數(shù)據(jù)庫表結(jié)構(gòu)和數(shù)據(jù)直接轉(zhuǎn)換為RDF圖，但直接映射僅僅提供簡單轉(zhuǎn)換能力。而R2RML映射語言可靈活定制從關(guān)系型數(shù)據(jù)庫數(shù)據(jù)實例轉(zhuǎn)換為RDF數(shù)據(jù)集的映射規(guī)則，符合R2RML映射算法的工具輸入是關(guān)系數(shù)據(jù)庫檢索數(shù)據(jù)的邏輯表，邏輯表通過三元組映射轉(zhuǎn)換為具有相同數(shù)據(jù)模式的RDF并作為輸出結(jié)果。

2. 半結(jié)構(gòu)化信息抽取

半結(jié)構(gòu)化數(shù)據(jù)是一種特殊的結(jié)構(gòu)化數(shù)據(jù)形式，該形式的數(shù)據(jù)不符合關(guān)系數(shù)據(jù)庫或其他形式的數(shù)據(jù)表形式結(jié)構(gòu)，但又包含標簽或其他標記來分離語義元素并保持記錄和數(shù)據(jù)字段的層次結(jié)構(gòu)[9]。針對網(wǎng)頁數(shù)據(jù)的信息抽取技術(shù)較為成熟，可依網(wǎng)頁結(jié)構(gòu)化的不同程度分別采用人工方法、半自動或全自動的方法開發(fā)包裝器進行信息抽取。

基于有監(jiān)督學習的包裝器歸納方法，首先從已標注的訓練數(shù)據(jù)中學習網(wǎng)頁信息抽取規(guī)則，然后對具有相同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)進行抽取，一般的開發(fā)流程遵循“網(wǎng)頁清洗、數(shù)據(jù)標注、包裝器空間生成、評估”四個步驟，該方法依賴人工長期維護更新包裝器。手工方法開發(fā)包裝器首先通過人工分析網(wǎng)頁的結(jié)構(gòu)和代碼，并編寫網(wǎng)頁的數(shù)據(jù)抽取表達式；表達式的形式一般可以是XPath表達式、css選擇器的表達式等，該方法適合簡單、結(jié)構(gòu)穩(wěn)定的網(wǎng)站的抽取。

3. 非結(jié)構(gòu)化信息抽取

3.1 信息抽取框架

如前文所述，非結(jié)構(gòu)化文本的信息抽取主要包括命名實體識別、屬性抽取、關(guān)系抽取、事件抽取等四個任務。命名實體識別是知識圖譜構(gòu)建和知識獲取的基礎(chǔ)和關(guān)鍵，屬性抽取可看做實體和屬性值之間的一種名詞性關(guān)系而轉(zhuǎn)化為關(guān)系抽取，因此信息抽取可歸納為實體抽取、關(guān)系抽取和事件抽取三大任務。

3.2 命名實體識別

目前為止，命名實體識別主流方法可概括為：基于詞典和規(guī)則的方法、基于統(tǒng)計機器學習的方法、基于深度學習、遷移學習的方法等[10]，如圖7所示。在項目實際應用中一般應結(jié)合詞典或規(guī)則、深度學習等多種方法，充分利用不同方法的優(yōu)勢抽取不同類型的實體，從而提高準確率和效率。在中文分詞領(lǐng)域，國內(nèi)科研機構(gòu)推出多種分詞工具（基于規(guī)則和詞典為主）已被廣泛使用，例如哈工大LTP、中科院計算所NLPIR、清華大學THULAC和jieba分詞等。

基于統(tǒng)計機器學習的方法可細分為兩類：第一類，分類方法，即首先識別出文本中所有命名實體的邊界，再對這些命名實體進行分類；第二類，序列化標注方法，即對于文本中每個詞可以有若干個候選的類別標簽，每個標簽對應于其在各類命名實體中所處的位置，通過對文本中的每個詞進行序列化的自動標注（也即分類），再將自動標注的標簽進行整合，最終獲得有若干個詞構(gòu)成的命名實體及其類別[11]。序列化標注曾經(jīng)是最普遍并且有效的方法，典型模型包括條件隨機場(CRF)、隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)、最大熵(ME)、支持向量機(SVM)等。

深度學習、遷移學習使用低維、實值、稠密的向量形式表示字、詞、句，再使用RNN/CNN/注意力機制等深層網(wǎng)絡獲取文本特征表示，避免了傳統(tǒng)命名實體識別人工特征工程耗時耗力的問題，且得到了更好的效果，目前常用的框架方法有BiLSTM-CRF、BERT-CRF/BERT-BiLSTM-CRF。

在百分點的知識圖譜構(gòu)建應用中，法律百科概念詞條、行業(yè)領(lǐng)域的香煙品牌及品牌規(guī)格等實體，采用基于詞典和規(guī)則的方法從文本中抽取實體類知識，具有更高的準確率；而抽取人名、地名、組織機構(gòu)等，由于無法構(gòu)建完整的詞典且規(guī)則很難適應數(shù)據(jù)變化，采用基于序列標注的命名實體抽取模型BiLSTM-CRF 或者BERT-CRF 實現(xiàn)。

3.3 關(guān)系抽取

從前文可知，關(guān)系抽取指三元組抽取，實體間的關(guān)系形式化地描述為關(guān)系三元組（主語，謂語，賓語），其中主語和賓語指的是實體，謂語指的是實體間的關(guān)系。早期的關(guān)系抽取方法包括基于規(guī)則的關(guān)系抽取方法、基于詞典驅(qū)動的關(guān)系抽取方法、基于本體的關(guān)系抽取方法[12]。基于機器學習的抽取方法以數(shù)據(jù)是否被標注作為標準進行分類，包括：有監(jiān)督的關(guān)系抽取算法、半監(jiān)督的關(guān)系抽取算法、無監(jiān)督的關(guān)系抽取算法[12]，如圖8所示。

有監(jiān)督的機器學習方法將一般的二元關(guān)系抽取視為分類問題，通常需預先了解語料庫中所有可能的目標關(guān)系的種類，并通過人工對數(shù)據(jù)進行標注，建立訓練語料庫，使用標注數(shù)據(jù)訓練的分類器對新的候選實體及其關(guān)系進行預測、判斷。

同樣地，傳統(tǒng)機器學習的關(guān)系抽取方法選擇的人工特征工程十分繁雜，而深度學習的關(guān)系抽取方法通過訓練大量數(shù)據(jù)自動獲得模型，無需人工提取特征。深度學習經(jīng)過多年的發(fā)展，逐漸被研究者應用在實體關(guān)系抽取方面，有監(jiān)督的關(guān)系抽取方法主要有流水線學習（Pipeline）和聯(lián)合學習（Joint）兩種。

（1）流水線式關(guān)系抽取方法

該方法將關(guān)系抽取分為兩階段任務：第一階段對輸入的句子進行命名實體識別；第二階段對命名實體進行兩兩組合，再進行關(guān)系分類，把存在關(guān)系的三元組作為輸出結(jié)果[12]。流水線方法將實體識別、關(guān)系抽取分為兩個獨立的過程，關(guān)系抽取依賴實體抽取的結(jié)果，容易造成誤差累積。

當前深度學習的關(guān)系抽取主要聚焦在有監(jiān)督學習的句子級別的關(guān)系抽取，根據(jù)使用的編碼器以及是否使用依存句法樹，可以大致將相關(guān)系統(tǒng)劃分為三種：基于卷積神經(jīng)網(wǎng)絡的關(guān)系抽取，基于循環(huán)神經(jīng)網(wǎng)絡的關(guān)系抽取和基于依存句法樹的關(guān)系抽取。

（2）實體關(guān)系聯(lián)合學習抽取方法

實體關(guān)系聯(lián)合學習方法主要包括以下兩種：

a. 基于共享參數(shù)的方法：典型方法有BiLSTM、BiLSTM+Attention等，命名實體識別和關(guān)系抽取兩階段任務通過共享編碼層在訓練過程中產(chǎn)生的共享參數(shù)相互依賴，最終訓練得到最佳的全局參數(shù)。流水線方法中存在的錯誤累積傳播問題和忽視兩階段子任務間關(guān)系依賴的問題在該方法中可得到改善，并提高模型的魯棒性。

b. 基于序列標注的方法：由于基于共享參數(shù)的方法容易產(chǎn)生信息冗余，如果將命名實體識別和實體關(guān)系抽取融合成一個序列標注問題，可同時識別出實體和關(guān)系，值得注意的是應使用新的標注策略標注（實體位置、關(guān)系類型、關(guān)系角色）[13]。該方法利用一個端到端的神經(jīng)網(wǎng)絡模型抽取出實體之間的關(guān)系三元組，減少了無效實體對模型的影響，提高了關(guān)系抽取的召回率和準確率。

在百分點的知識圖譜構(gòu)建應用中，構(gòu)建法律百科概念詞條圖譜時從法律文件、權(quán)威案例和法律圖書抽取概念實體的定義（可視作屬性抽?。┑刃形母袷捷^為規(guī)范、固定的文本抽取三元組采用基于模板的方法；警務文本的警務要素及內(nèi)容抽取等較為開放的關(guān)系抽取采用BERT作為多分類器的關(guān)系分類抽取或序列標注方法。

3.4 事件抽取

“事件”被用于描述事情的發(fā)生或事務狀態(tài)的改變，而事件抽取任務則是一種從自然語言文本中提取出具有事件框架的結(jié)構(gòu)化信息的方法。具體地，一個事件的主要組成如表 1所示。

從上述定義可以看出，實體、觸發(fā)詞、事件論元以及事件類型四者相互之間存在著包含或約束的關(guān)系。其中，實體是一種適用于所有文本的概念，但在自動內(nèi)容抽?。ˋutomatic Content Extraction，ACE）評測會議標準定義的事件中，實體是事件論元的主要組成。值得注意的是，實體本身的類型并不代表著其作為論元時在事件中的角色。事件論元的角色只與事件類型和觸發(fā)詞有關(guān)。事件論元的角色可以通過與事件句內(nèi)觸發(fā)詞或其他實體的關(guān)系挖掘而確定。一般事件類型具有該類型下的事件模板，當中包含了固定的事件論元角色[14]。此外，由于觸發(fā)詞是事件發(fā)生的標志，因此事件類型的判別往往通過觸發(fā)詞的識別完成。事件抽取任務主要包含兩個部分：

（1）事件類型檢測

通常觸發(fā)詞與事件類型之間存在著對應關(guān)系，因此對事件類型的判定可通過觸發(fā)詞的識別和匹配實現(xiàn)。

（2）事件論元識別

在確定了事件類型后，根據(jù)該類型所具有的事件模板找到事件參與者的角色，再通過語義關(guān)系解析從事件句中挖掘相關(guān)論元。因此，基于ACE標準的完整事件抽取架構(gòu)包括：文本預處理、事件類型檢測和事件論元識別，如圖9所示。

在百分點的知識圖譜構(gòu)建應用中，警情文本的要素抽取符合事件論元抽取理論，該類非結(jié)構(gòu)化的文本包含社會安全類、事故災難類等事件類型及子類型，警務專家為子類型在內(nèi)的所有事件類型制定了參考的事件模板，匯總觸發(fā)詞、事件類型和事件論元及角色。下文3.3節(jié)將給出基于事件論元的警情事件要素結(jié)構(gòu)化案例介紹。

百分點信息抽取算法

創(chuàng)新應用及實踐效果

1. 基于模板的法百科信息抽取方法

（1）應用場景：法律百科概念詞條圖譜信息抽取

法律百科概念詞條圖譜信息抽取主要目的是構(gòu)建法律行業(yè)的百科全書，以便于用戶查找專業(yè)法律詞條知識。數(shù)據(jù)共分為三個來源數(shù)據(jù)，分別是法律文件、權(quán)威案例和法律圖書，需要從數(shù)據(jù)中提取對應領(lǐng)域的專業(yè)詞條名稱及對應的相關(guān)釋義。例如：從法律文件中提取“警用車船”詞條，并給出對應的釋義：車船稅法第三條第三項所稱的警用車船，是指公安機關(guān)、國家安全機關(guān)、監(jiān)獄、勞動教養(yǎng)管理機關(guān)和人民法院、人民檢察院領(lǐng)取警用牌照的車輛和執(zhí)行警務的專用船舶。法百科詞條構(gòu)建及管理界面示例如圖10所示。

（2）基于模板的知識抽取

通過人工研究法律文件、權(quán)威案例等法律領(lǐng)域的專業(yè)詞條的寫作規(guī)律和句式結(jié)構(gòu)，分析法律相關(guān)概念實體與概念定義之間的特征，構(gòu)建抽取的語言模板，通過模板從文本中匹配出實體之間的關(guān)系，該方法在構(gòu)建法律詞條這一特定領(lǐng)域內(nèi)，可以取得較好的結(jié)果。

（3）應用效果

在相關(guān)文本數(shù)據(jù)上進行了足量的數(shù)據(jù)標注，并基于此對信息抽取進行了相關(guān)指標的考評，結(jié)果如表2所示，詞條名稱及釋義整體準確率超過90%。

2. 基于有監(jiān)督學習的警務文本信息抽取

2.1 基于序列標注框架的命名實體識別

（1）應用場景：警務文本命名實體識別

警務文本包括案件敘述性文本描述數(shù)據(jù)，如案件卷宗、審訊筆錄/口供、簡要案情等等類型的數(shù)據(jù)，文本涉及到的與業(yè)務分析和研判相關(guān)的案發(fā)場所、嫌疑人特征等核心要素，通常可轉(zhuǎn)化為自然語言處理中的實體識別問題。警務系統(tǒng)業(yè)務中有研判價值的實體通常包括：姓名、地址、組織機構(gòu)、聯(lián)系方式、公民身份號碼、時間等。對于警務文本中的身份證號、手機號實體，應采用基于規(guī)則或基于詞典的方法進行命名實體識別。而文本中的人名、地名、組織機構(gòu)名稱等實體信息在文本中的表述形式是多樣并且難以完整列舉，當前主要采用基于序列標注的有監(jiān)督學習抽取方法。命名實體識別采用前文介紹的基于規(guī)則的方法及基于BERT+CRF序列標注模型進行抽取。

（2）BiLSTM/BERT+CRF模型架構(gòu)

百分點在基于深度學習、遷移學習的實體識別實踐中沉淀了兩套經(jīng)典的模型：BiLSTM+CRF模型架構(gòu)、BERT+CRF模型架構(gòu)。兩套架構(gòu)自底向上遵循詞編碼器、序列編碼器、序列解碼器三層結(jié)構(gòu)。BiLSTM+CRF模型架構(gòu)的詞編碼器采用Word Embedding，序列編碼器采用BiLSTM，序列解碼器采用CRF模型，模型架構(gòu)如圖11所示。

BERT+CRF模型架構(gòu)詞編碼器采用WordPiece、字符位置編碼器采用正弦位置嵌入（Postional Embedding）及句子嵌入（Segment Embedding）、序列編碼器采用Transformer結(jié)構(gòu)，序列解碼器采用CRF模型，模型架構(gòu)如圖12所示。

在序列標注的命名實體識別模型中，對于每個單詞都需要預測一個多元分類問題。在經(jīng)過序列編碼器之后，每個單詞都有一個向量表示，為了預測每個單詞對應的標簽，需要序列解碼器來完成從序列向量到對應預測標簽的轉(zhuǎn)換。這兩套模型的序列解碼器都采用CRF模型作為解碼器。

（3）警務文本實體抽取應用效果

警務文本的命名實體識別評價指標如表3所示。

表3 警務文本命名實體識別指標

2.2 基于關(guān)系分類的關(guān)系抽取

（1）應用場景：警務文本關(guān)系抽取

警務文本包括案件敘述性文本描述數(shù)據(jù)，如案件卷宗、審訊筆錄/口供、簡要案情等等類型的數(shù)據(jù)，文本涉及到的與業(yè)務分析和研判相關(guān)的案發(fā)場所、嫌疑人特征等核心要素，通?？赊D(zhuǎn)化為自然語言處理中的實體識別問題。警務系統(tǒng)業(yè)務中有研判價值的實體通常包括：姓名、地址、組織機構(gòu)、聯(lián)系方式、公民身份號碼、時間等。命名實體識別采用前文介紹的基于規(guī)則的方法及基于BERT+CRF序列標注模型進行抽取。

由于警務文本數(shù)據(jù)關(guān)注的是以人為核心的實體，因此當文本中出現(xiàn)一個以上的人員及其相關(guān)實體信息時候，需要在提取的姓名、性別、地址、聯(lián)系方式、公民身份號碼的基礎(chǔ)上梳理清楚各個實體之間的對應關(guān)系或從屬關(guān)系。簡單而言就是將人名實體找到其對應的地址、公民身份號碼、聯(lián)系方式、性別等人員屬性，可以表示為五元組<姓名,性別,公民身份證號,手機號,關(guān)聯(lián)地址>。N元組本質(zhì)上可以拆分成多個三元組，因此警務文本中的N元組關(guān)系對抽取形式如表 4所示。

表4 警務文本N元組關(guān)系對

（2）基于BERT的關(guān)系分類模型

BERT通過大型跨域語料庫使用遮蔽語言模型和下一句預測任務共同預訓練文本表示。警務文本信息抽取對BERT的應用方法如圖13所示，模型的輸入序列的整體結(jié)構(gòu)為：{[CLS],w1,w2,…,wn, [SEP],s1,s2,…,si, [SEP],o1,o2,…,oj, [SEP]}，w為句子序列，s和o為實體序列。序列經(jīng)過BERT分詞處理，將字符轉(zhuǎn)換為字id，然后映射到字嵌入向量，字嵌入向量E表示為E={E1,E2,…,En}。經(jīng)過多層Transformer的Encoder編碼，最后得到句子的編碼向量。取“[CLS]”這個特殊開始字符對應的向量（“[CLS]”的編碼表示經(jīng)常用于判斷下一個句子）將編碼序列的第一個結(jié)果作為關(guān)系抽取的語義向量。該語義向量在關(guān)系分類器層，經(jīng)過一層全連接層，然后使用softmax函數(shù)計算關(guān)系概率。

（3）關(guān)系抽取應用效果

警務文本的關(guān)系抽取如圖14所示（示例數(shù)據(jù)是模擬的，已經(jīng)完全脫敏）：

關(guān)系抽取結(jié)果如圖15所示（示例數(shù)據(jù)是模擬的，已經(jīng)完全脫敏）：

在相關(guān)警務文本數(shù)據(jù)上進行了足量的數(shù)據(jù)標注，并基于此對實體抽取和關(guān)系抽取的N元組進行了相關(guān)指標的考評，結(jié)果如表 5所示，采用流水線式的命名實體識別及關(guān)系抽取整體的準確率和召回率在95%以上。

表5 警務文本信息抽取評測指標

3. 警情事件論元聯(lián)合信息抽取

3.1 應用場景：警情事件論元抽取

警情事件識別與抽取是構(gòu)建警情知識圖譜的重要環(huán)節(jié)，目的是從非結(jié)構(gòu)化警情文本中識別出描述事件的句子，并從中抽取出與事件描述相關(guān)的信息（事件元素、因果關(guān)系），最后以結(jié)構(gòu)化的形式存儲。警情文本的事件類型包括社會安全類、事故災難類、網(wǎng)絡輿情類、治安和刑事案件類、公共衛(wèi)生類等5大類。

事件類型還可根據(jù)警情業(yè)務進一步細分為子類型，比如社會安全類可分為社會安全事件、涉穩(wěn)事件、涉外事件、恐怖主義事件等4小類。事件發(fā)生子類的事件采用2.3.4節(jié)表示方法，將事件表示為實體、觸發(fā)詞、事件論元以及事件類型組成的復合知識單元。如圖16所示（示例數(shù)據(jù)是模擬的，已經(jīng)完全脫敏），警情案件文本按照圖9所示流程識別觸發(fā)詞為“家門被撬”后判別事件類型為盜竊案件，最終抽取出事件論元及角色實現(xiàn)文本結(jié)構(gòu)化分析。

3.2 事件論元角色聯(lián)合抽取模型

在實踐應用中百分點參考分層二進制標注框架（Hierarchical Binary Tagging）[15]，將論元抽取視作事件觸發(fā)詞與事件論元的映射關(guān)系，模型的整體結(jié)構(gòu)如圖17所示，主要包括如下幾個部分：

（1）BERT 編碼器：通過BERT得到每個詞的詞表征，把BERT的輸出當作詞向量使用；

（2）事件論元標注器：該部分用于識別所有可能的事件論元。其通過對每一個位置的編碼結(jié)果用兩個分類器（全連接層）進行分類，來判斷其是否是事件論元的開始或結(jié)束位置，激活函數(shù)為Sigmoid。

（3）事件角色標注器：針對每一個事件論元，都需要對其進行之后的事件論元的角色進行預測。由圖中可知，其與事件論元標注器基本一致，主要區(qū)別在于每一個事件類型獨享一組事件論元角色分類器，同時還要將事件論元作為特征和BERT詞向量拼接后作為輸入。

警情文本事件論元角色聯(lián)合信息抽取在大多數(shù)人工標注數(shù)據(jù)集及實際應用中取得了較好的結(jié)果，在效果較差的某些事件類型的文本中通過增加人工標注數(shù)據(jù)可提升模型的準確率。

總結(jié)與展望

本文首先辨析了知識獲取、知識抽取、信息抽取類似概念本質(zhì)的區(qū)別與聯(lián)系，然后總結(jié)了百分點行業(yè)知識圖譜構(gòu)建流程方法，指出知識定義是信息抽取的前提條件，在此基礎(chǔ)上介紹了當前結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息抽取的理論、工具和經(jīng)典算法。文末結(jié)合百分點在法律百科詞條、警務文本、行業(yè)實際圖譜構(gòu)建項目中，介紹信息抽取算法應用方法和效果，幫助讀者深入了解信息抽取的實踐應用狀況?？偟膩碚f，信息抽取對構(gòu)建行業(yè)知識圖譜具有重要的價值，同時面臨著巨大的挑戰(zhàn)，應充分借助深度遷移學習的發(fā)展帶來的機遇，一方面發(fā)展數(shù)據(jù)智能標注技術(shù)降低人工標注成本，另一方面突破模型對于標注數(shù)據(jù)數(shù)量的依賴，并在更多的實際業(yè)務需求中進行實踐和應用。

參考資料

[1]中國中文信息學會.知識圖譜發(fā)展報告（2018）

[2]中國電子技術(shù)標準化研究院.知識圖譜標準化白皮書，2019年

[3]清華大學人工智能研究院.人工智能之知識圖譜，2019年第2期

[4]GB/T 23703.2 知識管理第2部分：術(shù)語

[5]趙軍，劉康，周有光等.開放式文本信息抽取. 中科院自動化所，中文信息學報，2011年

[6]圖數(shù)據(jù)庫白皮書.中國信息通信研究院云計算與大數(shù)據(jù)研究所.2019年

[7]王昊奮.行業(yè)知識圖譜構(gòu)建與應用101.PlantData

[8]陳玉博.事件抽取與金融事件圖譜構(gòu)建.中科院自動化所，2018年

[9]王昊奮，漆桂林，陳華鈞.知識圖譜方法、實踐與應用.電子工業(yè)出版社

[10]黃晴雁，牟永敏.命名實體識別方法研究進展.現(xiàn)代計算機,2018年12月

[11]劉瀏，王東波.命名實體識別研究綜述.情報學報，2018年

[12]李冬梅，張揚等.實體關(guān)系抽取方法研究綜述.計算機研究與發(fā)展，2019年6月

[13]Suncong Zhend等.JointExtraction of Entities and Relations Based on a Novel Tagging Scheme.中科院自動化所，ACL2017

[14]鄒馨儀.基于深度學習的金融事件抽取技術(shù)研究.電子科技大學，2017年

[15]Zhepei Wei等.ANovel Cascade Binary Tagging Framework for Relational Triple Extraction，吉林大學.2020ACL

分享到

百分點

xiesc

相關(guān)推薦

近期文章

熱門標簽