石教祥 朱禮軍 魏 超 張玄玄
(中國科學(xué)技術(shù)信息研究所,北京 100038)
命名實體識別(Named Entity Recognition,NER),又稱作專名識別、命名實體,是指識別文本中具有特定意義的實體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞以及時間、數(shù)量、貨幣、比例數(shù)值等。NER是語義知識庫、知識圖譜的基本組件,旨在發(fā)現(xiàn)自然文本中的專有名詞并將其歸類到預(yù)定類別中。在大數(shù)據(jù)時代,面向公開領(lǐng)域的NER研究相對成熟,已作為知識庫構(gòu)建的一項關(guān)鍵技術(shù)為機(jī)器翻譯、自動問答等應(yīng)用系統(tǒng)提供底層支撐,但在如金融科技(Financial Technology,F(xiàn)inTech)、生物醫(yī)藥、軍事等專業(yè)領(lǐng)域,往往缺乏可直接用于模型訓(xùn)練的數(shù)據(jù)集;在特定領(lǐng)域,由于專業(yè)性強(qiáng),重新標(biāo)注數(shù)據(jù)依賴領(lǐng)域?qū)<?,這種勞動密集且耗時的缺陷制約了NER的快速發(fā)展。因此,針對特定領(lǐng)域,如何利用少量標(biāo)注樣本進(jìn)行NER研究就顯得十分必要。
在現(xiàn)有的研究中,學(xué)者們通常利用少樣本(Few-shot)學(xué)習(xí)思路來解決少量標(biāo)注情況下的分類任務(wù),少樣本NER方法從變換特征和增強(qiáng)數(shù)據(jù)質(zhì)量的角度劃分為遷移學(xué)習(xí)(transfer learning,TL)和主動學(xué) 習(xí)(active learning,AL)兩大類[1-2]。TL的核心思想是將在源域數(shù)據(jù)上建立的知識模型復(fù)用至目標(biāo)領(lǐng)域,以實現(xiàn)模型共建和知識共享。AL則利用漸進(jìn)式采樣抽取“不確定性”(uncertainty)高、易混淆的樣本進(jìn)行標(biāo)注,迭代訓(xùn)練模型進(jìn)而提高擬合能力[3]。TL在通用領(lǐng)域NER任務(wù)中表現(xiàn)良好,但是TL依賴領(lǐng)域之間的強(qiáng)相似性,當(dāng)源域與目標(biāo)域數(shù)據(jù)差異較大時,僅僅通過TL模型很難捕獲到豐富的領(lǐng)域信息,模型之間知識遷移適應(yīng)性較差。AL通過計算樣本的“不確定性”程度進(jìn)行標(biāo)注,從而提升單一領(lǐng)域數(shù)據(jù)的質(zhì)量,但是基于“不確定性”原則選取的樣本沒有考慮領(lǐng)域?qū)嶓w中的離群孤立點現(xiàn)象。此外,由于面向單一領(lǐng)域數(shù)據(jù),AL難以充分利用領(lǐng)域外海量數(shù)據(jù)中蘊含的知識信息,限制了模型效果的進(jìn)一步提升。
在金融科技等專業(yè)領(lǐng)域僅僅使用TL或者AL方法不足以實現(xiàn)模型最優(yōu),為此本文提出一種全新設(shè)計的主動學(xué)習(xí)采樣策略,并與TL方法進(jìn)行融合形成統(tǒng)一框架,即基于語義相似度與不確定性的主動遷移學(xué)習(xí)方法(Active Transfer Learning method based on Semantic Similarity and Uncertainty,ATL-SSU)。該方法在提升單一領(lǐng)域內(nèi)數(shù)據(jù)的信息量的同時,將域外海量知識進(jìn)行整合,提升NER效果。
本文的主要貢獻(xiàn)是提出了融合遷移學(xué)習(xí)和主動學(xué)習(xí)的統(tǒng)一框架,并提出了更加全面的主動學(xué)習(xí)采樣策略。在NER任務(wù)中,遷移學(xué)習(xí)利用海量的外部知識來訓(xùn)練模型,主動學(xué)習(xí)通過增強(qiáng)同一領(lǐng)域數(shù)據(jù)質(zhì)量提高分類器性能,兩者結(jié)合將充分利用領(lǐng)域內(nèi)和領(lǐng)域之間的信息。因此,本文提出了一種融合的分類框架:基本分類器由 BERT(bidirectional encoder representations from transformers)[4]和Bi-LSTM-CRF(bidirectional long-short term memory with a conditional random field)[5]串聯(lián)組成,其中BERT是基于海量通用領(lǐng)域知識構(gòu)建的預(yù)訓(xùn)練語言模型,Bi-LSTM-CRF是特征學(xué)習(xí)器。之后,利用主動學(xué)習(xí)采樣策略迭代輸入語料對模型進(jìn)行微調(diào)以提高模型性能。此外,本文針對主動學(xué)習(xí)面臨的“不完全特征描述”“離群孤立點”等問題,提出了基于聯(lián)合語義相似度的主動學(xué)習(xí)采樣策略。在度量計算中,聯(lián)合考慮未標(biāo)注樣本和已標(biāo)注樣本的信息含量和語義距離,這種聯(lián)合利用較少的樣本可以更加充分地擬合模型,進(jìn)而減少標(biāo)注成本。
NER是一項較為成熟的研究,相關(guān)的模型層出不窮。近年來,深度學(xué)習(xí)的興起帶來了一波又一波的技術(shù)浪潮,它們在通用的NER任務(wù)中表現(xiàn)出色,然而這些模型的訓(xùn)練往往依賴于大規(guī)模標(biāo)注數(shù)據(jù)集,在缺乏足量標(biāo)注數(shù)據(jù)集的專業(yè)領(lǐng)域上容易發(fā)生過擬合現(xiàn)象。因此,也有許多研究集中在少樣本學(xué)習(xí),甚至零樣本學(xué)習(xí)(zero-shot learning)中[6]。
在少樣本NER任務(wù)中,遷移學(xué)習(xí)利用領(lǐng)域相似性,利用分布式詞表示構(gòu)建詞共享語義空間,然后再遷移神經(jīng)網(wǎng)絡(luò)的參數(shù)至目標(biāo)領(lǐng)域,實現(xiàn)領(lǐng)域之間數(shù)據(jù)共享和模型共建。按照遷移知識表現(xiàn)形式的不同,遷移學(xué)習(xí)NER方法大致可分為基于微調(diào)、元學(xué)習(xí)和特征變換的方法?;谖⒄{(diào)的遷移學(xué)習(xí)方法是通過訓(xùn)練大規(guī)模語料構(gòu)建共享語義空間來實現(xiàn)知識的遷移,如Giorgi等[7]基于LSTM進(jìn)行網(wǎng)絡(luò)權(quán)重的遷移,首先將源域模型參數(shù)遷移至目標(biāo)領(lǐng)域初始化,之后進(jìn)行微調(diào)使適應(yīng)任務(wù)需要。最近,也有不少學(xué)者利用預(yù)訓(xùn)練(pre-trained)遷移學(xué)習(xí)模型來實現(xiàn)微調(diào),預(yù)訓(xùn)練模型充分利用了詞義和語義特性,能強(qiáng)有力地捕捉潛在語義和句子關(guān)系,這種語境化的詞嵌入在NER任務(wù)中表現(xiàn)突出[6]?;谠獙W(xué)習(xí)的遷移學(xué)習(xí)方法將學(xué)習(xí)水平從數(shù)據(jù)提升至任務(wù)層面,學(xué)習(xí)歸納有關(guān)跨任務(wù)數(shù)據(jù)更一般的規(guī)律性,這種方式試圖建立一種在不同任務(wù)間都具有良好表現(xiàn)的模型。而基于特征變換的遷移學(xué)習(xí)方法主要解決領(lǐng)域適配性差的問題,這種方式通過特征互相轉(zhuǎn)移或者特征映射來減少領(lǐng)域之間差異。也有不少學(xué)者從跨領(lǐng)域、跨應(yīng)用、跨語言等角度測試遷移的可行性,還有利用諸如本體庫、知識庫、啟發(fā)式規(guī)則等外部知識來解決少樣本NER問題[8-9]。
此外,主動學(xué)習(xí)也可被用來解決少樣本NER問題。主動學(xué)習(xí)通過一定的度量方式對語料進(jìn)行精煉以提高模型擬合效率。在學(xué)習(xí)過程中,經(jīng)過種子語料訓(xùn)練過的基礎(chǔ)分類器用來預(yù)測未標(biāo)注數(shù)據(jù),而選擇器從預(yù)測樣本池中選擇出信息量大的樣本交給領(lǐng)域?qū)<疫M(jìn)行人工標(biāo)注,這些新樣本被加入初始種子語料中進(jìn)行新一輪的模型訓(xùn)練[10]。在整個過程中,選擇器的采樣策略最為關(guān)鍵。在當(dāng)前的研究中,基于不確定性(uncertainty)的樣本選擇方法是最常用的策略。其基本思想是選擇當(dāng)前模型易混淆、置信度低的樣本。如在二分類任務(wù)中基于不確定的策略傾向于選擇后驗概率接近0.5的樣本,而對于多分類序列標(biāo)注任務(wù)通常利用信息熵(information entropy,IE)來度量樣本的不確定性程度,熵值大的優(yōu)先被挑選。如Chen等[11]在生物醫(yī)學(xué)文本上利用不確定性標(biāo)準(zhǔn)度量樣本的信息量,這種方式通過降低統(tǒng)計學(xué)習(xí)的期望誤差對未標(biāo)記樣本進(jìn)行優(yōu)化選擇,能夠有效減少標(biāo)注數(shù)據(jù)的工作量?;谥鲃訉W(xué)習(xí)的NER本質(zhì)上增強(qiáng)同一分布數(shù)據(jù)質(zhì)量,選擇出信息量最大的一部分樣本進(jìn)行訓(xùn)練,在缺乏標(biāo)注數(shù)據(jù)時能節(jié)省一部分標(biāo)注成本。
整體上,基于TL和AL的方法都能在一定程度上解決少樣本問題。其中,TL利用海量外界通用領(lǐng)域知識來輔助NER任務(wù),AL則是通過增強(qiáng)同一領(lǐng)域數(shù)據(jù)質(zhì)量以提高模型性能。但在專業(yè)領(lǐng)域,僅僅使用一種方法很難達(dá)到預(yù)期效果,如僅利用TL獲取的外部知識不足以擬合模型,要實現(xiàn)良好效果仍需要一定量標(biāo)注數(shù)據(jù)來進(jìn)行微調(diào)。而AL基于不確定標(biāo)準(zhǔn)選擇樣本,這些樣本包含豐富的領(lǐng)域信息,但AL策略忽略了大量的外部知識。一種可行的思路是將TL和AL結(jié)合起來形成統(tǒng)一框架。在通用領(lǐng)域,已經(jīng)有一些學(xué)者嘗試兩種方法結(jié)合,但針對金融科技等特殊領(lǐng)域,相關(guān)的研究還較少[1]。為此,本文擬構(gòu)建一種融合遷移學(xué)習(xí)的主動學(xué)習(xí)框架,并且為進(jìn)一步提高模型的準(zhǔn)確性,改進(jìn)基于不確定性標(biāo)準(zhǔn)的采樣策略,通過增加語義相似性權(quán)值削減采樣中離群孤立點影響,以實現(xiàn)最佳的NER效果。
針對少樣本NER任務(wù),大多數(shù)工作考慮使用TL和AL方法,遷移學(xué)習(xí)利用領(lǐng)域相似性實現(xiàn)模型共建和數(shù)據(jù)共享。這種方式可以利用海量互聯(lián)網(wǎng)文本信息在通用領(lǐng)域?qū)崿F(xiàn)良好的效果,但在專業(yè)領(lǐng)域中,僅利用通用領(lǐng)域信息不足以訓(xùn)練模型,導(dǎo)致NER性能偏低。而主動學(xué)習(xí)通?;凇安淮_定性”標(biāo)準(zhǔn),通過挖掘?qū)嶓w內(nèi)蘊信息來增強(qiáng)同一領(lǐng)域數(shù)據(jù)的質(zhì)量,這種方式從領(lǐng)域數(shù)據(jù)包含的信息量出發(fā),優(yōu)先選擇信息量豐富的樣本,但對于金融科技等特殊領(lǐng)域,部分實體屬于未登錄詞、實體差異性較大,基于“不確定性”的主動學(xué)習(xí)采樣策略對于實體特征的描述不完全,領(lǐng)域數(shù)據(jù)之間存在的離群孤立點未被充分考慮。針對遷移學(xué)習(xí)領(lǐng)域?qū)嶓w識別性能偏低、基于“不確定性”的主動學(xué)習(xí)采樣策略特征描述不完全的問題,提出了一種可行的思路,就是融合遷移學(xué)習(xí)和主動學(xué)習(xí),考慮更加全面的采樣策略。鑒于此,借助預(yù)訓(xùn)練TL模型輔助語義表示,并通過主動學(xué)習(xí)采樣策略增強(qiáng)領(lǐng)域數(shù)據(jù)。這種經(jīng)過精心挑選的樣本包含豐富的信息量(informativeness),對模型性能的提升效果明顯。本文將整個框架命名為基于語義相似度與不確定性的主動遷移學(xué)習(xí)方法Active Transfer Learning method based on Semantic Similarity and Uncertainty,ATL-SSU)。該框架從提高基礎(chǔ)分類器性能和全面采樣入手,將為少樣本NER提供新的解決方案。
如圖1所示,本文的研究主要包含分類器模塊(Classifier)和選擇器模塊(Selector)。Classifier模塊的作用是訓(xùn)練每一輪更新后的數(shù)據(jù)并提高分類性能,而Selector模塊是為了挑選出最有價值的樣本。在實踐中,維護(hù)一個動態(tài)樣本池迭代地參與訓(xùn)練:首先利用種子語料Initial Corpus訓(xùn)練出基礎(chǔ)分類器Classifier;然后使用該分類器對未標(biāo)記樣本Unlabeled pool進(jìn)行預(yù)測;最后通過選擇器Selector挑選出置信度最高的一組新示例,并加入Labeled pool樣本池中迭代訓(xùn)練。特別地,在Classifier中,引入了BERT預(yù)訓(xùn)練語言模型(pre-train model),以充分表征中文字詞的語義,并利用Bi-LSTM-CRF進(jìn)行序列約束以提高分類精度。此外,在選擇器Selcetor中,充分考慮離群孤立點(outlier)現(xiàn)象,利用結(jié)合語義相似度(semantic similarty)和不確定性(uncertainty)度量的主動采樣策略來削減離群孤立點的影響。
圖1 基于深度遷移主動學(xué)習(xí)的NER框架
在ATL-SSU中,基礎(chǔ)分類器Classifier的構(gòu)建極為關(guān)鍵。為此,借鑒TL微調(diào)機(jī)制,提出基于BERT-Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)的中文NER識別方法。這種TL微調(diào)機(jī)制將預(yù)訓(xùn)練模型與循環(huán)神經(jīng)網(wǎng)絡(luò)模型融合,能夠?qū)崿F(xiàn)較高的準(zhǔn)確率,有助于后續(xù)Selector進(jìn)行更精準(zhǔn)的樣本挑選。該方法由BERT預(yù)訓(xùn)練模型、Bi-LSTM神經(jīng)網(wǎng)絡(luò)和CRF線性鏈組合而成,BERT-Bi-LSTM-CRF框架如圖2所示。其中,BERT作為語義表示輸入,Bi-LSTM抽取特征,CRF獲取概率最大標(biāo)簽。與傳統(tǒng)的NER模型相比,BERT-Bi-LSTM-CRF關(guān)鍵是BERT預(yù)訓(xùn)練語言模型的引入,BERT通過無監(jiān)督建模的方式學(xué)習(xí)海量互聯(lián)網(wǎng)語義信息,能夠充分表征實體的語義信息,基于BERT進(jìn)行TL微調(diào)可以有效地提高NER性能。
圖2 BERT-Bi-LSTM-CRF模型結(jié)構(gòu)
BERT是一種基于TL微調(diào)機(jī)制的多層雙向Transformer編碼器,它的特征表示依賴于左右上下文信息。Transformer則利用attention機(jī)制對文本建模,如式(1)所示,對于輸入的字向量矩陣Query(Q)、Key(K)、Value(V)和向量維度dk,通過softmax歸一化獲取每個向量的全局權(quán)重表示為
之后再利用MultiHead位置嵌入來實現(xiàn)高速并行計算,Multi-Attention機(jī)制由幾個按比例縮放的點積注意力組成,每個注意力從不同的維度和表示空間學(xué)習(xí)語義信息,計算方式如式(2)、式(3)所示,WiK,WiQ,WiV為權(quán)重矩陣。
為 了 訓(xùn)練Transformer,BERT采用Masked LM和Next Sentence Prediction方式。Masked LM的目的是根據(jù)上下文來預(yù)測masked字詞的原始詞語,而Next Sentence Prediction用來判斷兩個語句對是否連續(xù),如表1所示。
表1 下一句預(yù)測
與其他LM相比,BERT這種語境化的詞嵌入在NLP中表現(xiàn)突出[4],在中文NER任務(wù)中,谷歌的Chinese BERT-Base應(yīng)用最為廣泛。該模型由海量中文Wikipedia頁訓(xùn)練而成,具有良好的語義表征能力。鑒于此,本文引入Chinese BERTBase模型參與訓(xùn)練。
在Selecor模塊中,基礎(chǔ)采樣是基于不確定性(Uncertainty)標(biāo)準(zhǔn)的采樣策略,這種策略通過計算樣本的信息熵(Information Entropy)來衡量樣本的不確定性程度[3]。然而,在專業(yè)領(lǐng)域,數(shù)據(jù)差異性大,僅利用不確定性采樣策略存在不完全特征描述問題,在采樣中會挑選出大量離群孤立點(Outliers),而Outiliers會降低模型的分類性能。為此,本文從樣本的代表性和不確定性的角度出發(fā),考慮更加全面特征描述,提出結(jié)合語義相似度和不確定性度量的主動采樣策略。
2.3.1 基于不確定性的主動學(xué)習(xí)
在主動學(xué)習(xí)中,基于不確定性標(biāo)準(zhǔn)的采樣策略最為常見。其基本思想是挑選當(dāng)前模型最不能確定的樣本進(jìn)行人工標(biāo)注。如在二分類任務(wù)中基于不確定的策略傾向于選擇后驗概率接近0.5的樣本,如果用SVM來訓(xùn)練模型的話,可以挑選距離分類面最近的一些樣本進(jìn)行標(biāo)注。而對于多分類序列標(biāo)注任務(wù),可以用信息熵來度量樣本的不確定性程度。如對于給定的序列X =( x1,x2, … ,xi)和 標(biāo)記序列Y =( y1,y2,… ,yi),x被預(yù)測為Y的不確定性,可以用式(4)、式(5)、式(6)來度量。
基于最低置信度原則(Least Confidence,LC)[12]:
其中,P(y*|x)表示的是序列樣本x對應(yīng)的最可能標(biāo)簽序列,如在使用LSTM-CRF模型時,表示當(dāng)前序列x屬于標(biāo)簽y*的概率。
最大歸一化樣本采樣策略(Maximum Normalized Log-Probability,MNLP)[1]:
LC策略傾向于選擇長句子,因此經(jīng)過歸一化的采樣策略逐漸成為主流。在本文中,針對NER這種序列標(biāo)注任務(wù),利用概率計算信息熵(Information Entropy,IE)的最大歸一化樣本采樣策略進(jìn)行挑選,具體公式是:
其中,P(y)為預(yù)測標(biāo)簽的條件分布概率,M為標(biāo)簽的個數(shù),n為序列的長度。在NER等這種序列標(biāo)注任務(wù)中,MNLP考慮平均信息熵,能夠準(zhǔn)確表示句子所含信息量。因此,在本文研究中,使用這種方法作為baseline方法。
2.3.2 結(jié)合語義相似度的不確定性
基于不確定性的采樣策略可以優(yōu)先挑選出最有標(biāo)注價值的樣本。但是針對特定領(lǐng)域的數(shù)據(jù),僅僅考慮不確定性標(biāo)準(zhǔn)作為度量對特征描述是不完全的。因此,有必要考慮更加全面的采樣策略。如在圖3所示的樣本分布中(圖中圓形表示未標(biāo)注樣本,三角形為已標(biāo)注樣本,虛線表示初始的分類線)。如果根據(jù)不確定性標(biāo)準(zhǔn)采樣,應(yīng)該計算樣本的信息熵大小,優(yōu)先選擇信息熵最大的樣本。如圖3中左圖所示,當(dāng)信息熵時,離分類面最近的樣本A被優(yōu)先選擇。但在實際中,樣本A在整個樣本分布中屬于離群樣本,這種樣本所包含的信息不具有代表性,為避免出現(xiàn)孤立點的消極影響,有必要考慮全局樣本的信息量。
如圖3中右圖所示,在基于不確定性采樣得到樣本的信息熵后,添加語義相似度的權(quán)值來消減離群孤立點的負(fù)面影響,也即當(dāng)Φ B · Sim(B, C ) >Φ A ·Sim( A,C)時,優(yōu)先選擇樣本B。這是一種計算信息密度(Information Density,ID)的度量方式,它對于樣本的描述更為全面,有助于Selector挑選出信息量更豐富的樣本。對于給定的不確定性值ΦSE,信息密度ΦID的計算如式(7):
圖3 基于信息密度的采樣策略
整體上結(jié)合語義相似度與不確定性度量的算法(ATL-SSU)計算步驟是:
輸入:Labed samples(L)和Unlabeled samples(U)。
輸出:更新后的ATL-SSU模型。
While的終止條件是:①訓(xùn)練基礎(chǔ)模型ATL?SSUi(L);②利 用ATL?SSUi預(yù)測U;③計算U的不確定性ΦU;④計算U與L的 相似度ΦU·sim(X(U), X(L));⑤挑 選出Top K的無標(biāo)注樣本集K;⑥更新樣本池,L= L+ K, U = U ?K, i=i+1。
本文實驗數(shù)據(jù)選用《人民日報》(Chinese Daily News)、金融科技文本(FinTech Corpus)兩種不同的語料。其中,Chinese Daily News是公開的數(shù)據(jù)集,而FinTech Corpus是2019年12月從人民網(wǎng)科技板塊以“金融科技”為關(guān)鍵詞檢索到的68篇文本經(jīng)專家標(biāo)注形成的實驗語料。本文研究中的金融科技命名實體指的是與金融科技行業(yè)緊密相關(guān)的各種實體的統(tǒng)稱。語料庫包括:技術(shù)(FT_technology)、產(chǎn)品(FT_product)、金融行為(FT_behavior)、金融現(xiàn)象(FT_phenomenon)、金融事件(FT_event)、法律法規(guī)(FT_norm)等6類領(lǐng)域?qū)嶓w和人名(Person)、組織機(jī)構(gòu)名(Organization)、地名(Location)、時間(Time)等4類通用實體。兩種語料的實體統(tǒng)計信息如表2所示。
表2 語料中實體數(shù)目分布情況
在實驗之前,將標(biāo)注好的數(shù)據(jù)隨機(jī)劃分為4個子數(shù)據(jù)集,分別為InitTrain、IterTrain、Valid、Tests。其中,InitTrain數(shù)據(jù)集共有500句,用于模型的初始訓(xùn)練;IterTrain數(shù)據(jù)集共有1 000句,可看作是未標(biāo)注數(shù)據(jù)集,供模型每輪迭代使用;Valid數(shù)據(jù)集共有200句,用作交叉驗證;Test數(shù)據(jù)集共有400句,用作測試集。在實驗過程中,每次從IterTrain數(shù)據(jù)集中選出100句數(shù)據(jù)添加到InitTrain數(shù)據(jù)集中,之后進(jìn)行迭代訓(xùn)練,迭代一共進(jìn)行10輪。
本輪實驗為驗證結(jié)合預(yù)訓(xùn)練TL的有效性,也即對比BERT-Bi-LSTM-CRF與Bi-LSTMCRF的性能。具體地,從Chinese Daily News和FinTech Corpus 語料庫中各選擇1 500句訓(xùn)練集,500句作為測試集,對比在相同規(guī)模訓(xùn)練數(shù)據(jù)下,BERT-Bi-LSTM-CRF和Bi-LSTM-CRF模 型在中文NER中的準(zhǔn)確率(P)、召回率(R)和F1值。為避免隨機(jī)性,在每種語料中實驗3次取平均值。實驗結(jié)果如表3所示。
由表3可知,無論是通用領(lǐng)域數(shù)據(jù)集還是專業(yè)領(lǐng)域數(shù)據(jù)集,使用BERT預(yù)訓(xùn)練語言模型的框架其準(zhǔn)確率(P)、召回率(R)、F1值都比不使用預(yù)訓(xùn)練模型的效果有顯著提升。在Chinese Daily News和FinTech Corpus數(shù)據(jù)集中Bi-LSTMCRF模型的F1值比較低,分別為41.58%和39.32%,而使用BERT-Bi-LSTM-CRF模型,F(xiàn)1值分別為85.03%和62.97%。這是因為在BERTBi-LSTM-CRF模型中,引入了BERT這種經(jīng)過大規(guī)模語料訓(xùn)練的預(yù)訓(xùn)練語言模型,BERT采用了雙向Transformer結(jié)構(gòu),可表征的語義空間足夠大,并且self-attention機(jī)制有效克服了長距離依賴問題,能夠?qū)ι舷挛恼Z義進(jìn)行充分學(xué)習(xí),因此在NER任務(wù)中相較于常規(guī)詞向量或者單獨的one-hot編碼效果顯著。這也表明采用大規(guī)模語料預(yù)訓(xùn)練的特征向量包含更加豐富的信息,模型的刻畫能力更強(qiáng),有助于識別效果的提升。
表3 兩種模型的對比實驗結(jié)果
對于通用領(lǐng)域數(shù)據(jù)集Chinese Daily News而言,使用BERT對F1值提升43.45%,提升近一倍。而對于金融科技領(lǐng)域數(shù)據(jù)集FinTech Corpus,F(xiàn)1值提升23.65%,提升效果為60.3%。金融科技領(lǐng)域性較強(qiáng),數(shù)據(jù)差異性較大,領(lǐng)域數(shù)據(jù)常常含有不規(guī)范用語,而BERT采用的是大規(guī)模通用語料訓(xùn)練而成,因此在金融科技領(lǐng)域基于BERT模型NER的性能提升不如在人民日報新聞通用語料。但從標(biāo)準(zhǔn)差的角度來看,無論是Bi-LSTMCRF模型還是BERT-Bi-LSTM-CRF模型,在金融科技數(shù)據(jù)集中其標(biāo)準(zhǔn)差普遍高于通用領(lǐng)域數(shù)據(jù)集。這在一定程度上表明,在金融科技等專業(yè)領(lǐng)域,數(shù)據(jù)的差異性較大,存在著較多的奇異點數(shù)據(jù)。從整體上來看,使用BERT預(yù)訓(xùn)練語言模型對NER任務(wù)有顯著提升,但是不容忽視的是在實驗中選取的是一次挑取1 500句樣本參與訓(xùn)練。因此,有必要在不損失模型精度的同時進(jìn)一步減少標(biāo)注量。鑒于此,將利用當(dāng)前有效融合預(yù)訓(xùn)練遷移學(xué)習(xí)的主動學(xué)習(xí)NER框架進(jìn)行實驗。
本實驗為驗證結(jié)合相似度的深度主動學(xué)習(xí)的有效性,即對比結(jié)合相似度的主動學(xué)習(xí)和單獨的主動學(xué)習(xí)方法的差異。其中,模型均為BERTBi-LSTM-CRF,主動學(xué)習(xí)迭代次數(shù)為10次,初始訓(xùn)練集為InitTrain,共500句,每次迭代從IterTrain中隨機(jī)挑選100句樣本,加入到InitTrain中進(jìn)行訓(xùn)練,用這種方式模擬人工標(biāo)注的過程。用F值評價模型的標(biāo)注效果,為消減誤差,每輪實驗進(jìn)行3次取平均值作為結(jié)果。具體地,設(shè)置如下對比實驗。
Baseline all方法(簡稱ALL):采用完全標(biāo)注數(shù)據(jù)集,即一次訓(xùn)練完成InitTrain和IterTrain中的所有數(shù)據(jù)。
Baseline random方法(簡稱Random):采用隨機(jī)主動學(xué)習(xí)方法,即每次從IterTrain中隨機(jī)挑選100句樣本,添加進(jìn)InitTrain中。
Baseline active方法(簡稱Active-U):采用基于不確定性的主動學(xué)習(xí)方法,即每次訓(xùn)練中通過基于不確定性的采樣方法[3],挑選出Top 100的數(shù)據(jù)進(jìn)行迭代。
Active Transfer Learning method based on Semantic Similarity and Uncertainty方 法(簡 稱ATL-SSU):是本文提出的方法,采用基于不確定性和相似度結(jié)合的主動遷移學(xué)習(xí)方法。
分別在Chinese Daily News和FinTech Corpus語料上進(jìn)行實驗,如圖4、圖5所示。Chinese Daily News數(shù)據(jù)集中僅使用初始的500句訓(xùn)練數(shù)據(jù)訓(xùn)練模型的F1值為0.784 2,而全部的1 500條訓(xùn)練數(shù)據(jù)F1值為0.850 3。對于FinTech Corpus 數(shù)據(jù)集,初始的500句訓(xùn)練數(shù)據(jù)的F1值為0.521 7,而10輪迭代后的1 500句的F1值為0.629 5。對于Active-U和ATL-SSU方法而言,10輪迭代中的F1值顯著高于Random方法。如在第一輪迭代,同樣的600條數(shù)據(jù),Active-U和ATL-SSU方法F1值皆高于Random方法。這證明在相同樣本數(shù)量情況下,經(jīng)過主動學(xué)習(xí)挑選的數(shù)據(jù)具有更多的信息量,能讓模型盡快收斂。
圖4 在Chinese Daily News數(shù)據(jù)集上對比實驗結(jié)果
圖5 在FinTech Corpus數(shù)據(jù)集上對比實驗結(jié)果
另外,隨著主動學(xué)習(xí)迭代次數(shù)的增加F1值也在緩慢增加。其中,在Chinese Daily News數(shù)據(jù)集中,Active-U方法在第7次迭代時就能達(dá)到所有數(shù)據(jù)量訓(xùn)練的效果,而ATL-SSU方法(本文方法)達(dá)到最佳的模型訓(xùn)練效果時次數(shù)是6。對于FinTech Corpus 數(shù)據(jù)集而言,Active-U方法在第8次達(dá)到最優(yōu)的效果,ATL-SSU方法在第7次。如圖6所示,在兩數(shù)據(jù)集中,通用語料Chinese Daily News的ATL-SSU方法僅用1 100條數(shù)據(jù)就能接近使用全部1 500條數(shù)據(jù)的效果,而在FinTech Corpus中要接近最優(yōu)效果是1 200條。這表明在通用領(lǐng)域數(shù)據(jù)的差異性要小于專業(yè)領(lǐng)域,經(jīng)過樣本選擇策后能更快挑選出代表性樣本。如表4所示,Active-U和ATL-SSU方法都能減少一定的標(biāo)注成本。其中在Chinese Daily News數(shù)據(jù)集中,Active-U方法能節(jié)省20.00%的標(biāo)注成本,ATL-SSU則為26.67%;在FinTech Corpus數(shù)據(jù)集中,Active-U方法能節(jié)省13.33%的標(biāo)注成本,ATL-SSU為20.00%。從整體來看,ATL-SSU方法節(jié)省的成本更多,相較于只要基于不確定性標(biāo)準(zhǔn)的Active-U方法,ATL-SSU方法可進(jìn)一步減少6.67%的標(biāo)注成本。此外,如圖4、圖5所示,結(jié)合語義相似度的ATL-SSU方法F1值曲線普遍高于Active-U方法,也更加平滑穩(wěn)定。這表明ATL-SSU方法能有效規(guī)避離群樣本點的影響,并且呈現(xiàn)出更為穩(wěn)定的F1表現(xiàn),證明了結(jié)合不確定性和相似度權(quán)值的主動學(xué)習(xí)方法的有效性。
圖6 模型達(dá)到最優(yōu)時所需句子數(shù)
表4 Active和ATL-SSU萬法節(jié)省的差額數(shù)據(jù)占整體比例
實體識別是文本挖掘中的一個階段。本文研究面向特定領(lǐng)域標(biāo)注數(shù)據(jù)少問題,利用融合遷移學(xué)習(xí)和主動學(xué)習(xí)的方法抽取出領(lǐng)域?qū)嶓w,減少了大規(guī)模語料中的人工成本,提高了實體識別效率,有助于顛覆性技術(shù)識別、熱點事件發(fā)現(xiàn)、地平線掃描等工作的進(jìn)行。本文提出的融合預(yù)訓(xùn)練遷移學(xué)習(xí)模型的中文領(lǐng)域主動學(xué)習(xí)NER框架,主要包含TL分類器和AL選擇器兩部分,重點解決領(lǐng)域NER中特征描述不完全導(dǎo)致的準(zhǔn)確率低的問題。在金融科技領(lǐng)域,本文的方法F1值相較于LSTM-CRF提高23.65%,這表明富含外部語義信息的BERT表征能有效提升領(lǐng)域?qū)嶓w特征的廣度,進(jìn)而顯著提高識別精度。此外,本文的方法還可以節(jié)省26.67%的標(biāo)注成本,相較于基線方法提高6.67%,這表明語義相似度的添加能有效削減離群點的影響。本文提出的基于預(yù)訓(xùn)練語言模型的中文領(lǐng)域主動學(xué)習(xí)NER框架能夠有效節(jié)省標(biāo)注成本,同時能夠提升F1值。因此,該模型是有效的。
中文領(lǐng)域NER較通用領(lǐng)域更加困難,本文研究中相同標(biāo)注數(shù)據(jù),模型在金融科技領(lǐng)域的數(shù)據(jù)集中的F1值為62.97%,而通用領(lǐng)域語料的F1值為85.03%,相差22.07%,這表明在面向特定領(lǐng)域時還需要考慮更多的領(lǐng)域特性,在后續(xù)的研究中還要充分考慮領(lǐng)域詞邊界、未登錄詞等問題,以期進(jìn)一步提升模型的性能。