亚洲精品乱拍国产一区二区三区,久久精品国产99国产精2020丨 ,中文无码人妻有码人妻中文字幕

圖1.優(yōu)酷視頻標(biāo)題數(shù)據(jù)集樣例

“實體漏標(biāo)”樣本數(shù)據(jù)如下：

圖2. 不完全標(biāo)注數(shù)據(jù)樣例

三、“不完全標(biāo)注問題”主流解決方案

目前針對“未標(biāo)注實體問題”的解決方案大致分為以下幾種：

①AutoNER + Fuzzy CRF：通過自動抽取短語回標(biāo)訓(xùn)練集[1]；

②AutoNER + 自訓(xùn)練：通過多輪迭代偽標(biāo)簽進行自訓(xùn)練，達到自動降噪的目的[2]；

③positive-unlabeled（PU）learning：為每個標(biāo)簽構(gòu)建不同的二分類器，從而減輕噪聲數(shù)據(jù)的影響[3]；

④Partial CRF：拓展改進CRF，使其可以繞過未標(biāo)注實體進行訓(xùn)練[4]。

上述各類解決方案存在如下的一些缺陷：

方案①依賴于遠(yuǎn)程監(jiān)督的質(zhì)量，因而從本質(zhì)上來講，未標(biāo)注實體問題仍然存在；方案②的多輪迭代自訓(xùn)練過程計算非常耗時；方案③中雖然為不同標(biāo)簽單獨劃分了數(shù)據(jù)，但是未標(biāo)注的實體仍然會影響相應(yīng)實體類型的分類器；方案④中在繞過未標(biāo)注實體的同時，忽略了負(fù)樣本的作用，只適用于含有非常少量漏標(biāo)實體的高質(zhì)量數(shù)據(jù)集。

四、技術(shù)方案

本次比賽我們使用的技術(shù)包括Classifier-stacking、Word-merging Representation、PredictionMajority Voting (PMV)等，下面將會逐一介紹。

在我們的技術(shù)方案中，Classifier-stacking算法被用來作為基礎(chǔ)組件對數(shù)據(jù)集進行交叉推斷，實現(xiàn)數(shù)據(jù)集的“修復(fù)”。并且我們?nèi)诤狭硕喾N特定領(lǐng)域的預(yù)訓(xùn)練詞向量來讓我們的實體邊界識別更加精準(zhǔn)。同時我們在不同的預(yù)訓(xùn)練模型上進行對比實驗，找出與任務(wù)最匹配的預(yù)訓(xùn)練模型，最終在集成學(xué)習(xí)的幫助下，將模型的潛力發(fā)揮到最大。

我們的技術(shù)方案相較于上一節(jié)提到的四大主流方案在以下幾方面有了改進。一是采用Classifier-stacking算法將未標(biāo)注實體問題從數(shù)據(jù)層面轉(zhuǎn)移到算法層面，能減輕模型對高質(zhì)量數(shù)據(jù)集的依賴性；二是針對性地使用特定領(lǐng)域預(yù)訓(xùn)練詞向量對實體邊界進行了一定的約束，改善了實體抽取的完整度。三是就比賽而言，我們用實驗充分對比了不同預(yù)訓(xùn)練模型在當(dāng)前數(shù)據(jù)集的表現(xiàn)異同，使我們的算法效果在本次比賽的具體場景下得到更大的發(fā)揮。

4.1 構(gòu)造不完全數(shù)據(jù)集的方法探討

對于不完全標(biāo)注數(shù)據(jù)集的構(gòu)造，大致可以分為三種：

①從完整標(biāo)注語料隨機去除一定量word_level的標(biāo)注；

②從完整標(biāo)注語料隨機去除一定量span_level的標(biāo)注；

③從完整標(biāo)注語料隨機去除一定量span_level的標(biāo)注，并將所有O標(biāo)簽也去除。

其中，word_level是指任意的“多字片段”，span_level 則是指的某個完整實體片段，具體含義可參考下圖樣例。

從實際應(yīng)用場景來看，第3種做法更符合標(biāo)注人員漏標(biāo)場景的真實樣本，因為首先大部分情況下的標(biāo)注遺漏都會發(fā)生在實體層面，而非字的層面，因而第1種做法并不妥當(dāng)；其次，在真實標(biāo)注場景下，我們會將所有未被標(biāo)注人員作為實體標(biāo)注出來的Token，統(tǒng)一作為O標(biāo)簽處理，因此對于O標(biāo)簽和遺漏實體，我們無法將其區(qū)分開來，所以方法2也不符合真實的不完全標(biāo)注樣本“生產(chǎn)”場景。

數(shù)據(jù)樣例如下圖所示，其中A.1、A.2、A.3分別為如上所述的三種數(shù)據(jù)構(gòu)造方法：

圖3. 構(gòu)造不完整標(biāo)注的數(shù)據(jù)方法

4.2 Classifier-stacking算法流程及要點

訓(xùn)練集通過K-Fold交叉驗證的形式，K-1與K-2分別訓(xùn)練標(biāo)注模型進行交叉推斷來“修復(fù)”數(shù)據(jù)集，然后用“修復(fù)”后的訓(xùn)練集訓(xùn)練出final模型，不斷迭代上述過程，直到驗證集效果達標(biāo)。

圖4.Classifier-stacking算法流程圖

在構(gòu)造Loss函數(shù)時，我們在CRF loss函數(shù)的基礎(chǔ)上進行改造，對于不完整標(biāo)注的序列，應(yīng)當(dāng)給予所有可能的完整序列一個可訓(xùn)練權(quán)重矩陣q，如下圖所示：

圖5 不同的Loss構(gòu)造方法

相較于原生CRF損失函數(shù)，以及平均分配權(quán)重的Uniform 損失函數(shù)，可訓(xùn)練權(quán)重的做法使得模型在每次迭代訓(xùn)練中對每個標(biāo)記為O的Token的候選標(biāo)簽給予不同的“關(guān)注度”，從而使數(shù)據(jù)的“修復(fù)過程”更快且更精準(zhǔn)地完成。

對于以上幾種不同Loss函數(shù)的標(biāo)簽權(quán)重可視化示意如下，顏色的深淺示意了權(quán)重的分布情況。

圖6. Loss函數(shù)中可訓(xùn)練權(quán)重的可視化示意圖

4.3 Word-merging Representation 方法的應(yīng)用

預(yù)訓(xùn)練詞向量[5,6]是許多神經(jīng)語言模型中的標(biāo)準(zhǔn)組件，在命名實體識別中，引入詞匯信息是提升中文NER指標(biāo)的重要手段。引入詞匯信息可以強化實體邊界，特別是對于span較長的實體邊界更加有效，并且也是一種數(shù)據(jù)增強的方式，引入詞匯信息的增強方式對于小樣本下的中文NER增益明顯。

本次比賽我們從[7]獲得具有不同性質(zhì)的預(yù)訓(xùn)練向量來進行我們的實驗，實驗中采用了基于Skip-Gramwith Negative Sampling (SGNS)技術(shù)訓(xùn)練的詞向量，如下表所示。具體做法是將Transformer-model的輸出H通過詞匯融合層，做一次詞匯增強表征。我們利用中文分詞工具和詞向量表征來獲取每個樣本的不同詞匯層特征，并將得到的詞匯特征對齊融入到原本的字符特征中，然后輸入到線性層進行標(biāo)簽路徑的映射。最后通過CRF學(xué)習(xí)標(biāo)簽路徑的約束進一步提升模型的預(yù)測效果。

表1. Word2vec / Skip-Gram with Negative Sampling (SGNS)

[1] The dimension of the Chinese Word Vectors is 300.

4.4 Prediction Majority Voting (PMV) 投票法的應(yīng)用

在模型的預(yù)測階段，我們采用了Prediction Majority Voting (PMV) 投票法進行實體擇優(yōu)推斷。我們嘗試了兩種不同的組合方式來利用多模型的輸出，第一種方法很簡單，對于k個模型，每個模型為句子中的每個單詞中分配候選標(biāo)簽，并在所有k種預(yù)測結(jié)果中，選擇獲得多數(shù)票最多的實體作為最終預(yù)測輸出。另一種方法是對于每一個Token，將各個模型預(yù)測結(jié)果取平均值，得到唯一的標(biāo)簽序列輸出。實驗表明，在本次任務(wù)中，前一種策略相對而言對實體邊界的查準(zhǔn)率更高。

4.5 不同預(yù)訓(xùn)練模型的表現(xiàn)效果研究

下表展示了我們利用不同預(yù)訓(xùn)練模型進行實驗的效果對比，作為選取合適的預(yù)訓(xùn)練模型的參考依據(jù)。

從結(jié)果可以看出BERT-wwm模型的效果最差，顯著低于使用更多預(yù)訓(xùn)練數(shù)據(jù)的BERT-wwm-ext模型。說明模型訓(xùn)練數(shù)據(jù)量大小直接影響了實體抽取的效果。從精確性、召回率和F1來看，RoBERTa -wwm-ext模型都要顯著高于其他模型。

鑒于預(yù)訓(xùn)練模型在體系結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)上的差異，我們可以通過結(jié)果做如下推測：首先，使用更多數(shù)據(jù)進行預(yù)訓(xùn)練，可能有助于提高模型性能。這可以解釋為什么BERT-wwm-ext模型（訓(xùn)練數(shù)據(jù)為5.4B Token）比BERT-wwm模型（訓(xùn)練數(shù)據(jù)為0.4B Token）具有更好的性能。其次，去掉下一句預(yù)測任務(wù)（NSP）和增加訓(xùn)練步數(shù)（1M步）的策略，導(dǎo)致RoBERTa-wwm ext模型性能具有顯著優(yōu)勢，因為RoBERTa-wwm ext模型和BERT-wwm ext模型都是在包含大約54億個Token的Wikipedia文本和擴展數(shù)據(jù)標(biāo)記上訓(xùn)練的。

表2.預(yù)訓(xùn)練模型的影響評估實驗

為了比較這些預(yù)訓(xùn)練模型對訓(xùn)練集尺度變化的魯棒性，我們進一步研究了在訓(xùn)練集尺度從2000個樣本到10000個樣本變化時，開發(fā)集上的性能曲線。總體趨勢如下圖所示。結(jié)果表明，訓(xùn)練集規(guī)模的減小對RoBERTa-wwm-ext模型的影響最小，也即在小樣本數(shù)據(jù)集的場景下，我們傾向于選擇表現(xiàn)更好的RoBERTa-wwm-ext模型來作為我們的預(yù)訓(xùn)練模型。

圖7. 預(yù)訓(xùn)練模型對訓(xùn)練數(shù)據(jù)集規(guī)模的魯棒性研究實驗

五、評測結(jié)果

通過對本次比賽采用數(shù)據(jù)集的類型分析，我們選用了基于Weibo和Sougou News預(yù)料訓(xùn)練的詞向量進行融合實驗，實驗結(jié)果如下表所示。在開發(fā)集上使用了Sougou News詞向量的模型表現(xiàn)更優(yōu)。

表3.詞向量融合表征實驗

我們在最終測試集上使用了k-fold（k=10）交叉驗證，并利用10個基本模型進行特定策略的PMV投票，在NLPCC-2020 AutoIE排行榜上提交的最終結(jié)果F1為84.75。

表4.模型集成學(xué)習(xí)實驗

總結(jié)

本次比賽是在解決不完全數(shù)據(jù)集NER的難題上的一次嘗試，我們在Classifier-stacking技術(shù)路徑之上，融合了特定領(lǐng)域詞向量表征和Prediction Majority Voting (PMV)等方法，為解決不完整標(biāo)注數(shù)據(jù)場景下的信息抽取難題提供了有效且易于實施的解決方案。在信息抽取領(lǐng)域，本方案能夠在一定程度上緩解監(jiān)督模型對高質(zhì)量標(biāo)注數(shù)據(jù)的依賴，使得信息抽取更易于在工業(yè)界落地實施。

參考資料

[1] Shang J , Liu L , Gu X , et al.Learning Named Entity Tagger using Domain-Specific Dictionary[C]// Proceedingsof the 2018 Conference on Empirical Methods in Natural Language Processing.2018.

[2] Jie Z , Xie P , Lu W , et al.Better Modeling of Incomplete Annotations for Named Entity Recognition[C]//2019 Annual Conference of the North American Chapter of the Association forComputational Linguistics (NAACL). 2019.

[3] Peng M , Xing X , Zhang Q , etal. Distantly Supervised Named Entity Recognition using Positive-UnlabeledLearning[J]. 2019.

[4] Nooralahzadeh F , Lnning J T ,Vrelid L . Reinforcement-based denoising of distantly supervised NER withpartial annotation[C]// Proceedings of the 2nd Workshop on Deep LearningApproaches for Low-Resource NLP (DeepLo 2019). 2019.

[5] Tomas Mikolov, Ilya Sutskever,Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations ofwords and phrases and their compositionality. In NIPS.

[6] Jeffrey Pennington, RichardSocher, and Christopher D. Manning. 2014. Glove: Global vectors forwordrepresentation. In EMNLP.

[7]?Shen Li, Zhe Zhao, Renfen Hu,Wensi Li, Tao Liu, Xiaoyong Du. 2018. Analogical Reasoning on ChineseMorphological and Semantic Relations. In ACL.

【來源：百分點】

分享到

xiesc

近期文章

近期文章

熱門標(biāo)簽

xiesc

相關(guān)推薦