国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的命名實(shí)體識(shí)別綜述

2021-10-19 09:22:44鄧依依鄔昌興魏永豐萬仲保黃兆華
中文信息學(xué)報(bào) 2021年9期
關(guān)鍵詞:語料命名實(shí)體

鄧依依,鄔昌興,魏永豐,萬仲保,黃兆華

(華東交通大學(xué) 軟件學(xué)院,江西 南昌 330013)

0 引言

隨著數(shù)據(jù)的爆炸式增長,人工從海量的文本中尋找有用的信息無疑是一項(xiàng)費(fèi)時(shí)費(fèi)力的任務(wù),因此信息抽取研究應(yīng)運(yùn)而生。作為其關(guān)鍵技術(shù)之一的命名實(shí)體識(shí)別(Named Entity Recognition,NER)多年來受到學(xué)術(shù)領(lǐng)域和工業(yè)界的廣泛關(guān)注。命名實(shí)體識(shí)別同時(shí)也是眾多自然語言處理(Natural Language Processing,NLP)應(yīng)用的基礎(chǔ),如實(shí)體關(guān)系抽取、知識(shí)圖譜構(gòu)建和智能問答等。

命名實(shí)體識(shí)別任務(wù)旨在從非結(jié)構(gòu)化的文本中自動(dòng)識(shí)別出所需的實(shí)體,并將其標(biāo)記為預(yù)定義的類別,例如人名、地名和組織機(jī)構(gòu)名等。該任務(wù)于1995年在第六屆MUC(the Sixth Message Understanding Conference,MUC-6)會(huì)議上首次被提出[1]。隨后,命名實(shí)體識(shí)別的研究在不同語言和不同領(lǐng)域中得到廣泛開展,關(guān)注的實(shí)體從人名等通用實(shí)體擴(kuò)展到包含疾病名等領(lǐng)域特定實(shí)體,實(shí)體類別的數(shù)量從幾種到上百種不等。表1列出了英語和漢語中常用于NER模型訓(xùn)練和性能評(píng)估的數(shù)據(jù)集。這些數(shù)據(jù)集來自新聞、財(cái)經(jīng)和生物醫(yī)學(xué)等領(lǐng)域,涉及的文體包括規(guī)范的新聞文本、維基百科文本和用戶生成網(wǎng)絡(luò)文本等。從當(dāng)前的研究情況來看,雖然大量的研究工作針對(duì)語料資源豐富的語言(例如,英語)和領(lǐng)域(例如,生物醫(yī)學(xué))展開,但近年來低資源語言和領(lǐng)域的命名實(shí)體識(shí)別受到越來越多的關(guān)注,而漢語命名實(shí)體識(shí)別則一直受到國內(nèi)研究人員的高度重視。從識(shí)別性能來看,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法在規(guī)范的文本上(如CoNLL2003數(shù)據(jù)集[2])識(shí)別人名、地名和機(jī)構(gòu)名的F1值達(dá)到了93.3%[3],可以滿足基本應(yīng)用的要求。但是,在用戶生成網(wǎng)絡(luò)文本數(shù)據(jù)集W-NUT17上,Lin等人的實(shí)驗(yàn)結(jié)果顯示,F(xiàn)1值不到50%[4],遠(yuǎn)未達(dá)到實(shí)用的要求。因此,命名實(shí)體識(shí)別依然是一個(gè)重要且值得深入研究的課題。

表1 常用的命名實(shí)體識(shí)別數(shù)據(jù)集

非重疊(非嵌套)命名實(shí)體識(shí)別通常被建模成一個(gè)序列標(biāo)注任務(wù),即給序列(句子)中的每個(gè)字或詞指定一個(gè)標(biāo)簽。如圖1所示,根據(jù)常用的BIO標(biāo)注模式,通過預(yù)測(cè)輸入句子中每個(gè)詞的標(biāo)簽,并連接相應(yīng)的標(biāo)簽就可得出該句子中實(shí)體的邊界及類型(<1-1,地名,武漢市>、<2-3,機(jī)構(gòu)名,長江醫(yī)院>、<5-5,人名,王林>)。其中,B代表命名實(shí)體的起始詞,I代表實(shí)體的非起始詞, O為其他字符;B-Org代表機(jī)構(gòu)名的起始詞,I-Org代表機(jī)構(gòu)名的非起始詞,B-Per代表人名的起始詞。近年來,重疊(嵌套)命名實(shí)體識(shí)別受到越來越多研究者的關(guān)注。重疊命名實(shí)體是一種特殊的命名實(shí)體,即在一個(gè)實(shí)體的內(nèi)部還存在著一個(gè)或多個(gè)其他的實(shí)體,例如組織機(jī)構(gòu)名“武漢大學(xué)”中的“武漢”也是地名。重疊命名實(shí)體的識(shí)別難以直接使用上述基于序列標(biāo)注的模型,而通常采用層疊式模型[5]或基于區(qū)域的模型[6]。本文主要介紹非重疊命名實(shí)體識(shí)別的相關(guān)研究,在不造成理解歧義的情況下,后文把非重疊命名實(shí)體(識(shí)別)簡稱為命名實(shí)體(識(shí)別)。

圖1 命名實(shí)體識(shí)別任務(wù)實(shí)例

早期的命名實(shí)體識(shí)別方法主要包括基于規(guī)則的方法和基于人工特征的方法。當(dāng)制定的規(guī)則能較準(zhǔn)確地反映出文本的特性時(shí),基于規(guī)則的方法往往能取得較高的準(zhǔn)確率,但這極大地依賴于語言學(xué)家的專業(yè)知識(shí),且有限的規(guī)則難以將變化無窮的實(shí)體較全面地識(shí)別出來[7]。而后,隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法在NLP領(lǐng)域的廣泛使用,基于人工特征的方法取得了比基于規(guī)則的方法更好的性能。這類方法通?;诖罅咳斯ざx的特征,使用隱馬爾可夫模型 (Hidden Markov Model, HMM)[8]或條件隨機(jī)場(chǎng) (Conditional Random Fields,CRF)[9]在大量人工標(biāo)注的語料上訓(xùn)練命名實(shí)體識(shí)別模型?;谌斯ぬ卣鞯姆椒ㄍㄟ^統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法從大量標(biāo)注語料中學(xué)習(xí)知識(shí),而不再需要人工定義的規(guī)則。這類方法的不足之處主要包括:①需要人工定義能反映實(shí)體特性的特征集合,方法的性能主要依賴于所采用的特征是否具有識(shí)別度; ②對(duì)標(biāo)注語料的依賴性也較強(qiáng),需要在大量人工標(biāo)注的語料上訓(xùn)練模型,而構(gòu)建大規(guī)模標(biāo)注語料庫是一項(xiàng)費(fèi)時(shí)費(fèi)力的事情。

近年來,基于深度學(xué)習(xí)的方法廣泛應(yīng)用于自然語言處理領(lǐng)域中,在多數(shù)任務(wù)上都取得了較好的效果[10-13]。與早期的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法相比,基于深度學(xué)習(xí)的方法在自動(dòng)學(xué)習(xí)特征、運(yùn)用深層次語義知識(shí)和緩解數(shù)據(jù)稀疏問題等方面具有明顯的優(yōu)勢(shì)。具體表現(xiàn)在:①可以自動(dòng)學(xué)習(xí)特定于任務(wù)的分布式特征,從而避免了需要人工定義特征的問題; ②可以自動(dòng)學(xué)習(xí)詞、短語和句子等不同粒度語言單位的語義向量表示,從而有利于深層次語義的理解和計(jì)算; ③從數(shù)據(jù)稀疏的角度看,自動(dòng)學(xué)習(xí)的分布式特征的低維連續(xù)向量表示也優(yōu)于人工定義特征的高維離散向量表示; ④能夠方便地整合并遷移來自各種異構(gòu)數(shù)據(jù)源的信息,從而有效地緩解低資源語言和領(lǐng)域人工標(biāo)注語料短缺的問題。就命名實(shí)體識(shí)別而言,研究人員探索了大量基于深度學(xué)習(xí)的方法,并取得了實(shí)質(zhì)性的進(jìn)展。這類方法借助神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征并訓(xùn)練序列標(biāo)注模型,性能超過了傳統(tǒng)的基于人工特征的方法,是當(dāng)前的研究熱點(diǎn)之一。為了方便這個(gè)領(lǐng)域的研究人員和應(yīng)用人員,本文對(duì)近年來基于深度學(xué)習(xí)的命名實(shí)體識(shí)別(NER)的研究工作進(jìn)行梳理,將其大致分為以下三大類進(jìn)行介紹:

(1) NER的一般框架:從輸入層、編碼層和解碼層出發(fā),介紹主流命名實(shí)體識(shí)別模型的一般框架,詳細(xì)介紹現(xiàn)有工作中各層的典型實(shí)現(xiàn),并分析它們的優(yōu)缺點(diǎn)。

(2) 漢語NER:在闡述漢語命名實(shí)體識(shí)別的特點(diǎn)后,重點(diǎn)介紹各種融合字詞信息(1)在漢語中,詞指分詞處理后的文本單元,例如“醫(yī)院”,而字即指單個(gè)漢字,例如,“醫(yī)”和“院”;在英語等語言中,對(duì)應(yīng)的是詞(word)和字符(character)。的模型,其既能夠利用詞的相關(guān)信息又能避免漢語分詞可能帶來的錯(cuò)誤。

(3) 低資源NER:介紹低資源語言和領(lǐng)域的命名實(shí)體識(shí)別,主要包括跨語言遷移的方法、跨領(lǐng)域遷移的方法、跨任務(wù)遷移的方法以及集成自動(dòng)標(biāo)注語料的方法等,其能夠有效地緩解人工標(biāo)注語料短缺的問題。

基于深度學(xué)習(xí)的命名實(shí)體識(shí)別研究已經(jīng)持續(xù)多年,現(xiàn)在已進(jìn)入一個(gè)相對(duì)成熟的階段,但該方向的綜述還比較少,而有關(guān)漢語命名實(shí)體識(shí)別和低資源命名實(shí)體識(shí)別研究進(jìn)展的介紹更是少之又少。Yadav和Bethard[14]依據(jù)當(dāng)前基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型中輸入層表示的不同進(jìn)行分類介紹,分為基于字符表示的模型、基于詞表示的模型和基于字詞混合表示的模型。Li等[15]指出上述綜述更多地關(guān)注命名實(shí)體識(shí)別模型的輸入,進(jìn)而從提取字詞信息的輸入層、融合上下文信息的編碼層和標(biāo)記解碼層出發(fā)介紹當(dāng)前主流的模型。不同于現(xiàn)有綜述的分類方式,本文首先介紹基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型的一般框架,然后重點(diǎn)介紹漢語命名實(shí)體識(shí)別及低資源語言和領(lǐng)域的命名實(shí)體識(shí)別的研究現(xiàn)狀。目的是讓讀者對(duì)基于深度學(xué)習(xí)的命名實(shí)體識(shí)別研究進(jìn)展有一個(gè)較為全面的了解,便于日后研究和應(yīng)用工作的開展。

1 NER的一般框架

基于深度學(xué)習(xí)的NER模型通常以詞作為基本的標(biāo)記單元,即為文本中的每個(gè)詞預(yù)測(cè)一個(gè)標(biāo)簽,連接相應(yīng)的標(biāo)簽就可得出該文本中實(shí)體的邊界及類型。其一般框架如圖2(a)所示:輸入層用于把詞相關(guān)的信息表示為向量;編碼層學(xué)習(xí)融合上下文信息的詞的向量表示,該表示可以認(rèn)為是特定于任務(wù)的特征;解碼層用于預(yù)測(cè)文本中每個(gè)詞對(duì)應(yīng)的標(biāo)簽。Huang等[16]提出的基于BiLSTM-CRF的命名實(shí)體識(shí)別模型是極具代表性的工作之一,如圖2(b)所示。該模型的輸入層僅使用預(yù)訓(xùn)練的詞向量,不使用任何人工特征。編碼層使用BiLSTM(Bidirectional Long Short Term Memory)從兩個(gè)方向建模詞的上下文信息,前向LSTM從左至右學(xué)習(xí)詞在上文中的表示,后向LSTM從右至左學(xué)習(xí)詞在下文中的表示。解碼時(shí)使用一個(gè)CRF層(conditional random field,CRF)利用標(biāo)簽之間的依賴關(guān)系,搜索最優(yōu)的標(biāo)簽序列。例如,表示人名開頭的標(biāo)簽B-Per后面不可能出現(xiàn)表示地名中間的標(biāo)簽I-Loc。實(shí)驗(yàn)顯示,上述基于BiLSTM-CRF的模型取得了與當(dāng)時(shí)最好模型可比的性能。隨后,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法成為研究的熱點(diǎn),眾多研究人員分別探索了不同的輸入層、編碼層和解碼層對(duì)識(shí)別性能的影響。下面分別對(duì)相關(guān)的研究工作進(jìn)行介紹。

圖2 NER的一般框架(a)及經(jīng)典的BiLSTM-CRF模型(b)

1.1 輸入層

除了最主要的詞向量特征外,輸入層還經(jīng)常使用字符向量特征、形態(tài)學(xué)特征和基于實(shí)體詞典(Gazetteer)的特征等作為補(bǔ)充信息。

字符向量特征被證實(shí)是非常通用且有效的信息,主要表現(xiàn)在以下兩點(diǎn):①可以顯式地利用前綴和后綴等子詞級(jí)(Sub-word Level)的特征; ②可以很自然地緩解低頻詞的詞向量質(zhì)量不可靠、未登錄詞沒有詞向量的問題。形態(tài)學(xué)特征對(duì)詞形豐富語言的NER非常有用,例如,屈折語系語言拉丁語和德語等,少數(shù)民族語言維吾爾語和哈薩克語等。

基于實(shí)體詞典(Gazetteer)的特征主要是為了利用已有的地名詞典、機(jī)構(gòu)名詞典以及藥品名詞典等,對(duì)特定領(lǐng)域的NER非常有效。例如,Lample等[17]在輸入層除了使用預(yù)訓(xùn)練的詞向量外,還使用一個(gè)字符級(jí)的BiLSTM網(wǎng)絡(luò)學(xué)習(xí)基于字符的詞表示(Character-based Word Representations)作為補(bǔ)充。實(shí)驗(yàn)發(fā)現(xiàn),與Luo等[18]提出的添加大量人工特征并且將實(shí)體識(shí)別與實(shí)體鏈接進(jìn)行聯(lián)合訓(xùn)練的復(fù)雜模型相比,Lample等[17]提出的模型取得了可比的性能。更進(jìn)一步,Chiu 和Nichols[19]聯(lián)合使用預(yù)訓(xùn)練的詞向量、基于字符級(jí)CNN (Conventional Neural Network)學(xué)習(xí)的詞表示、字符的大小寫特征和基于實(shí)體詞典的特征作為模型的輸入。Yadav等[20]首次在基于深度學(xué)習(xí)的NER模型中融入詞綴信息等形態(tài)學(xué)特征,在多種語言上獲得了更好的性能。Lin等[21]針對(duì)實(shí)體中經(jīng)常包含低頻詞和未登錄詞的情況,設(shè)計(jì)了一種基于詞頻的可靠性機(jī)制,以靈活地選擇和組合詞向量特征和字符向量特征,在復(fù)雜數(shù)據(jù)集OntoNotes 5.0[22]上其性能遠(yuǎn)超基線模型。

總的來說,在輸入層中通常以詞作為基本單位,即以預(yù)訓(xùn)練的詞向量為主要特征,同時(shí)把字符特征和形態(tài)學(xué)等特征作為補(bǔ)充信息。

1.2 編碼層

在編碼層,常用的BiLSTM網(wǎng)絡(luò)已表現(xiàn)出良好的序列建模能力,能較好地學(xué)習(xí)文本中詞之間的依賴關(guān)系。然而,BiLSTM也存在以下幾個(gè)方面的缺陷:①序列中當(dāng)前詞的計(jì)算依賴于前一個(gè)詞的計(jì)算結(jié)果,導(dǎo)致其不能并行計(jì)算,計(jì)算效率不如卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)和基于注意力機(jī)制的Transformer網(wǎng)絡(luò)[23]; ②建模局部上下文(也稱短距離的詞之間的依賴)的能力不如CNN; ③理論上,BiLSTM可以建模任意長距離的詞之間的依賴,但實(shí)際中由于梯度消失問題,其建模長距離依賴的能力不如Transformer網(wǎng)絡(luò); ④BiLSTM沒有考慮句子的結(jié)構(gòu)信息。

基于上述原因,研究人員探索了不同網(wǎng)絡(luò)結(jié)構(gòu)的編碼層對(duì)NER性能的影響。例如,Strubell等[24]提出一種改進(jìn)的 CNN用作編碼器,不但充分利用CNN捕獲局部上下文的能力及其運(yùn)算的可并行性,還通過層疊和允許不連續(xù)的輸入等方式擴(kuò)展CNN捕獲長距離詞之間依賴的能力。與經(jīng)典的BiLSTM -CRF模型相比,其運(yùn)算速度大幅提升,且達(dá)到了可比的性能。Chen等[25]首先使用CNN建模詞的局部上下文,然后層疊一種門控關(guān)系網(wǎng)絡(luò)(Gated Relation Network)建模句子中詞之間的長距離依賴關(guān)系,在CoNLL2003數(shù)據(jù)集上獲得了高達(dá)91.44%的F1值。Li等[26]提出基于雙向遞歸神經(jīng)網(wǎng)絡(luò)(Bi-directional Recursive Neural Networks,BRNN)的模型以引入短語句法樹信息;Jie 和 Lu[27]改進(jìn)BiLSTM-CRF模型,進(jìn)而利用依存句法樹信息。雖然在編碼層中利用句法信息可以提高NER的性能,但是在大多數(shù)語言中如何自動(dòng)獲取句子的句法樹是一個(gè)問題。

近年來,Transformer模型逐漸進(jìn)入了大家的視野,其開創(chuàng)性地將自注意力機(jī)制(Self-Attention)作為編碼器的核心,直接建模句子中任意距離的詞之間的依賴。Transformer雖然很快在機(jī)器翻譯和語言模型等任務(wù)上展示了很好的性能,但Guo等[28]的實(shí)驗(yàn)證實(shí)原始的Transformer在NER上的性能并不理想。隨后,Yan等[29]指出原始Transformer中的位置編碼方式雖然能捕獲詞之間的距離信息,但不能得到詞之間的前后關(guān)系信息,而這些信息對(duì)NER是非常重要的。基于這一問題,他們提出一種能同時(shí)感知距離和前后關(guān)系的注意力機(jī)制,用于改進(jìn)Transformer,在NER上取得了較好的效果。

從近幾年的研究可以發(fā)現(xiàn),BiLSTM依然是NER模型中用得較多的編碼層,可能的原因之一是其可以同時(shí)較好地建模詞之間的短距離依賴(雖然不如CNN)和長距離依賴(雖然不如Transformer)?;贑NN或Transformer的編碼層則具有可以并行計(jì)算、速度相對(duì)更快的特點(diǎn)。

1.3 解碼層

在解碼階段,常用的CRF層不但考慮對(duì)應(yīng)于每個(gè)詞的分類標(biāo)簽的概率,還建模了相鄰標(biāo)簽之間的依賴關(guān)系。CRF解碼層輸出一個(gè)最優(yōu)的標(biāo)簽序列,而不是單獨(dú)為序列中的每個(gè)詞預(yù)測(cè)一個(gè)標(biāo)簽,在多數(shù)序列標(biāo)注任務(wù)(不僅是NER)上都能取得較好的效果。然而,CRF層也有以下方面的不足:①在輸入序列較長或需要標(biāo)記的實(shí)體類型較多時(shí),速度較慢; ②只建模了相鄰的分類標(biāo)簽之間的依賴關(guān)系。

對(duì)于上述第一個(gè)不足,如果對(duì)性能要求不是很高,可以直接使用一個(gè)Softmax分類層為句子中的每個(gè)詞單獨(dú)解碼。對(duì)于上述第二個(gè)不足,Shen等[30]把命名實(shí)體識(shí)別看成是一個(gè)序列生成問題,他們基于RNN網(wǎng)絡(luò)(Recurrent Neural Network)逐個(gè)生成句子中詞的分類標(biāo)簽,并把前一個(gè)詞的預(yù)測(cè)標(biāo)簽用作當(dāng)前詞的標(biāo)簽預(yù)測(cè)的輸入。Shen等[30]的模型不僅在性能上優(yōu)于使用CRF解碼的模型,且當(dāng)標(biāo)記的實(shí)體類型較多時(shí)其訓(xùn)練速度也更快。另外,Zhai等[31]則首次應(yīng)用指針網(wǎng)絡(luò)(Pointer Networks)[32]來生成序列標(biāo)簽,其目的是利用已識(shí)別出的實(shí)體信息輔助預(yù)測(cè),同樣取得了較好的效果。雖然基于RNN等網(wǎng)絡(luò)進(jìn)行解碼可以利用標(biāo)簽之間的長距離依賴關(guān)系,但在NER任務(wù)上的性能與CRF層相比并沒有實(shí)質(zhì)性的提升,可能的原因是命名實(shí)體標(biāo)簽之間更多的是局部的依賴關(guān)系。

目前,以BERT等基于超大規(guī)模語料預(yù)訓(xùn)練的語言模型為基礎(chǔ)的NER模型在多個(gè)常用的數(shù)據(jù)集上取得了最佳的性能[3,11],得益于超大規(guī)模語料中的知識(shí),這類模型的性能遠(yuǎn)超上述以普通詞向量等作為輸入的BiLSTM-CRF模型。例如,在BERT上簡單疊加一個(gè)Softmax分類層在CoNLL2003數(shù)據(jù)集上獲得了高達(dá)92.8%的F1值[11]。然而,這類NER模型的不足之處在于其規(guī)模太大,需要很強(qiáng)的計(jì)算能力,難以運(yùn)行在大多數(shù)便攜式設(shè)備上。最近,研究人員基于知識(shí)蒸餾相關(guān)方法[33]把BERT等大模型學(xué)到的知識(shí)遷移到小模型中[34-35],成倍地減少了運(yùn)行所需的空間和時(shí)間。這類小模型可以運(yùn)行在便攜式設(shè)備上,并在文本分類等多個(gè)任務(wù)上取得了可比的性能。

2 漢語NER

與英語等語言相比,漢語的一個(gè)顯著特點(diǎn)是詞之間沒有明確的邊界?;谏疃葘W(xué)習(xí)的漢語NER模型可大致分為以下三類:①基于詞的模型,其首先對(duì)文本分詞,然后再基于詞進(jìn)行命名實(shí)體識(shí)別,如圖1所示[36]。這類模型可以利用詞的相關(guān)信息,但主要缺點(diǎn)是分詞不可避免地存在錯(cuò)誤[37],從而引起實(shí)體識(shí)別的錯(cuò)誤。②基于字的模型,其不對(duì)文本分詞,直接以漢字作為實(shí)體識(shí)別模型的輸入[38-39]。這類模型可以避免分詞錯(cuò)誤帶來的問題,通常能取得比基于詞的模型更好的效果,但其沒有利用詞的相關(guān)信息,例如詞的邊界和語義等[40]。③融合字詞信息的模型,其主要研究如何在基于字的模型中利用詞的相關(guān)信息[41-42]。

基于詞的漢語NER模型和基于字的漢語NER模型大都遵循第1節(jié)介紹的一般框架,這里不再贅述。目前,漢語NER的研究熱點(diǎn)在于融合字詞信息的模型,其性能優(yōu)于前兩類模型[43]。前期,研究者在多任務(wù)學(xué)習(xí)框架下同時(shí)訓(xùn)練漢語NER模型和分詞模型,通過信息共享利用分詞模型學(xué)到的詞邊界特征[44-46]。這類方法僅僅利用了詞的邊界信息,沒有利用詞的語義信息,而且還需要大量人工標(biāo)注的漢語分詞語料,因此其適用性并不強(qiáng)。下面詳細(xì)介紹近期融合字詞信息的漢語NER的相關(guān)工作,大致可分為基于字詞圖的方法和基于字詞編碼的方法。

2.1 基于字詞圖的方法

基于字詞圖的方法首先基于句子中的字和所有潛在詞構(gòu)建一個(gè)字詞圖作為模型的輸入,然后設(shè)計(jì)專門的編碼層來融合字和詞的信息。與早期基于多任務(wù)學(xué)習(xí)的方法相比,基于字詞圖的方法需要的外部資源較少,通常僅需一個(gè)已有的或自動(dòng)構(gòu)建的詞典,而且可以同時(shí)利用詞的邊界信息和語義信息。

Zhang和Yang[47]首次提出了基于Lattice-LSTM的漢語NER模型,如圖3所示。該模型的輸入層是一個(gè)由當(dāng)前句子中的所有字以及所有潛在詞構(gòu)成的Lattice,其中潛在詞可以通過匹配已有的或自動(dòng)構(gòu)建的詞典得到。Lattice可以看作是一個(gè)字詞圖,其中相鄰的字之間有邊相連,潛在詞的首字和尾字之間同樣通過邊相連接。在編碼層,擴(kuò)展常用的基于字的LSTM網(wǎng)絡(luò),在從左至右編碼句子中字信息的同時(shí),通過潛在詞所在的邊融合詞的信息。該模型在獲取字信息的基礎(chǔ)上顯式地融合了詞的邊界信息和語義信息,還避免了因分詞錯(cuò)誤而可能導(dǎo)致的錯(cuò)誤傳播問題,提高了漢語命名實(shí)體識(shí)別的性能。

圖3 基于Lattice-LSTM的漢語NER模型

針對(duì)基于字的漢語命名實(shí)體識(shí)別中如何利用詞信息的問題,上述基于Lattice-LSTM的模型的提出是解決該問題的重要一步。但是,其也存在以下幾個(gè)方面的缺點(diǎn):①Lattice保留了所有潛在詞的信息,這也帶來了潛在詞沖突的問題,從而可能引入噪聲。例如,圖3 的Lattice 中“市長”和“長江”之間存在的沖突往往需要全局語義才能區(qū)分。②沿著字序列從左至右處理信息,導(dǎo)致無法很好地融合與字自匹配的詞(即詞中包含該字)的信息,而這對(duì)命名實(shí)體識(shí)別是很重要的。例如,在標(biāo)注“長”時(shí),其自匹配的詞“長江”的信息還未輸入到模型中。③Lattice-LSTM本質(zhì)仍為LSTM網(wǎng)絡(luò),無法實(shí)現(xiàn)并行化,通過引入額外的邊來處理詞的信息,模型的復(fù)雜性大幅度增加,導(dǎo)致運(yùn)行速度進(jìn)一步降低。另外,由于與句子中每個(gè)字關(guān)聯(lián)的潛在詞的個(gè)數(shù)可能不同,使模型無法進(jìn)行批處理訓(xùn)練,導(dǎo)致訓(xùn)練速度較慢。

為了緩解基于Lattice-LSTM的模型中潛在詞沖突的問題,同時(shí)提升運(yùn)行速度,Gui等[48]在CNN模型的基礎(chǔ)上結(jié)合Rethinking機(jī)制[49]對(duì)漢語命名實(shí)體識(shí)別進(jìn)行研究,其編碼層如圖4所示。該模型把句子中的字和潛在詞組織成了一個(gè)層次類型的結(jié)構(gòu),也可以認(rèn)為是一個(gè)字詞圖。具體地,給定輸入的句子和所有潛在詞,模型層疊多個(gè)窗口為2的基于字的CNN層[50]編碼字特征和潛在詞特征;使用注意力機(jī)制融合字和詞的信息(簡潔起見,圖4中未畫出);引入Rethinking機(jī)制把CNN頂層所得的全局語義信息反饋到CNN底部的各層,調(diào)整潛在詞對(duì)應(yīng)的權(quán)重,從而緩解潛在詞之間的沖突問題。實(shí)驗(yàn)表明,其在多個(gè)漢語數(shù)據(jù)集上的結(jié)果均優(yōu)于基于Lattice-LSTM的模型,且運(yùn)行速度更快。

圖4 基于CNN+Rethinking機(jī)制的編碼層

Gui等[51]提出一種基于圖神經(jīng)網(wǎng)絡(luò)的漢語NER模型,并把漢語NER問題看作是一個(gè)圖節(jié)點(diǎn)的分類問題。如圖5所示,他們把輸入句子轉(zhuǎn)換成一個(gè)基于字和詞的有向圖。句子中的每個(gè)字對(duì)應(yīng)一個(gè)節(jié)點(diǎn),潛在詞看成是連接其首尾字的邊節(jié)點(diǎn),整個(gè)句子對(duì)應(yīng)一個(gè)全局節(jié)點(diǎn),全局節(jié)點(diǎn)與圖中其他節(jié)點(diǎn)都有邊相連(簡潔起見,圖5中省略了這些邊)?;凇叭诤稀隆诤稀钡膱D信息處理方法[52],模型能夠很好地建模字、詞和整個(gè)句子之間信息的交互。實(shí)驗(yàn)表明,Gui等[51]的模型在四個(gè)常用的漢語數(shù)據(jù)集OntoNotes 4.0[53]、MSRA[54]、Weibo[55]和Resume[47]上都取得了很好的結(jié)果。該模型在利用字詞信息的同時(shí),有效地緩解了基于Lattice-LSTM的模型存在的以下問題:① 通過引入全局節(jié)點(diǎn)建模句子的語義,有利于緩解潛在詞沖突的問題; ②基于圖的模型易于并行化,能提高運(yùn)行的速度。

圖5 基于字和詞的句子有向圖

同一時(shí)期,Sui等[56]提出一種基于協(xié)同圖神經(jīng)網(wǎng)絡(luò)的漢語NER模型,其在編碼層使用三個(gè)不同結(jié)構(gòu)的圖網(wǎng)絡(luò)建模句子中字與潛在詞之間不同類型的信息交互。其中,C-圖(Contain-graph)用于融合字及其自匹配的詞信息,T-圖(Transition-graph)用于融合字與其最鄰近的詞信息,L-圖(Lattice-graph)用于匹配Lattice-LSTM模型中所建模的詞信息。模型通過疊加一個(gè)聚合層(Fusion Layer)整合三個(gè)圖網(wǎng)絡(luò)建模的信息,達(dá)到信息互補(bǔ)的目的。實(shí)驗(yàn)表明,Sui等[56]的模型在多個(gè)數(shù)據(jù)集上獲得了較好的性能,且運(yùn)行速度成倍地快于基于Lattice-LSTM的模型。

2.2 基于字詞編碼的方法

上述基于字詞圖的方法雖然可以較好地融合字和詞的信息以提高漢語NER的性能,但不足之處是其編碼層通常依賴于字詞圖的結(jié)構(gòu),導(dǎo)致方法的可移植性不高。另外,引入的編碼層通常相對(duì)復(fù)雜,不能滿足需要實(shí)時(shí)響應(yīng)的相關(guān)工業(yè)領(lǐng)域的應(yīng)用需求?;谧衷~編碼的方法通常只需改變NER模型的輸入層,即把字和詞的信息統(tǒng)一編碼成聯(lián)合表示作為模型的輸入。這類方法比較簡單,可以適用于多種類型的編碼層,易于移植,而且能取得與基于字詞圖的方法可比的性能。

Ma等[40]提出了一種基于Soft-Lexicon編碼字詞信息的漢語NER方法,其主要思想是在模型的輸入層把字和詞的信息編碼成聯(lián)合表示。如圖6所示,對(duì)于句子中的字“長”,其對(duì)應(yīng)的Soft-Lexicon表示為B、M、E和S四個(gè)集合,其中B表示以當(dāng)前字開頭的潛在詞的集合,M表示中間包含當(dāng)前字的潛在詞的集合,E表示以當(dāng)前字結(jié)尾的詞的集合,S集合中包含的潛在詞是當(dāng)前字本身,不存在相應(yīng)的詞則用None代替。為了進(jìn)一步利用預(yù)訓(xùn)練的詞向量信息,每個(gè)集合分別表示為其包含詞的向量的融合。如果集合中只有一個(gè)詞,則直接用這個(gè)詞的詞向量作為該集合的向量表示;如果有多個(gè)詞,則使用一種基于詞頻計(jì)算的權(quán)重加權(quán)求和多個(gè)詞向量。最后,拼接當(dāng)前字的向量表示及其對(duì)應(yīng)的B、M、E和S集合的向量表示作為字詞信息的聯(lián)合表示,用作模型的輸入。上述基于Soft-Lexicon的輸入層不僅利用了潛在詞的邊界信息,還利用了詞的語義信息。由于該方法只調(diào)整了輸入層,能適用于常用的如BiLSTM、CNN或Transformer等編碼層,方法的可移植性強(qiáng)。實(shí)驗(yàn)表明,Ma等[40]的方法能獲得與當(dāng)前最好模型可比的性能,同時(shí)成倍地加快實(shí)體識(shí)別的速度。

圖6 基于Soft-Lexicon的輸入層

Liu等[57]提出一種簡單的字詞編碼輸入層,并以BiLSTM作為模型編碼層的方法。具體地,把句子中當(dāng)前字的向量和以該字結(jié)尾的潛在詞的向量拼接起來作為前向LSTM的輸入,把句子中當(dāng)前字的向量和以該字開頭的潛在詞向量拼接起來作為后向LSTM的輸入。當(dāng)一個(gè)位置有多個(gè)潛在詞時(shí),他們嘗試了最短詞優(yōu)先、最長詞優(yōu)先、平均詞向量和基于注意力機(jī)制融合詞向量的方法,把多個(gè)潛在詞表示為一個(gè)向量。雖然文章中以BiLSTM作為編碼層,但提出的字詞編碼輸入層經(jīng)過簡單調(diào)整后可適用于其他的編碼層。Li等[58]提出一種基于Flat-Lattice的輸入層,其把所有潛在詞直接拼接在輸入句子后面形成一個(gè)擴(kuò)展的字詞序列,然后設(shè)計(jì)了一種位置編碼的方法,用于編碼字和詞的相對(duì)位置。在模型的編碼層,直接使用原始的Transformer來融合字和詞的信息。與Ma等[40]提出的方法相比,Li等[58]提出的字詞編碼方法只適用于基于Transformer的NER模型。

與英語等語言的命名實(shí)體相比,漢語命名實(shí)體有其自身的特點(diǎn),導(dǎo)致其更難識(shí)別。主要包括:①漢語文本的詞之間沒有明確的邊界; ②漢語命名實(shí)體缺少明顯的詞形變換特征,比如英語等語言中的前后綴、大小寫等; ③漢語命名實(shí)體中存在大量縮寫、中英文混用和實(shí)體相互重疊等現(xiàn)象[59]。近年來,漢語命名實(shí)體識(shí)別的研究主要針對(duì)漢語的詞之間沒有明確的邊界這一特點(diǎn)展開。在重疊命名實(shí)體識(shí)別方面,雖然已有大量針對(duì)英語重疊命名實(shí)體識(shí)別的研究[60-62],但聚焦于漢語重疊命名實(shí)體識(shí)別的研究還較少,主要原因之一可能是沒有被廣泛認(rèn)可的相關(guān)語料庫[63]。

3 低資源的NER

訓(xùn)練基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型通常需要大量人工標(biāo)注的語料,然而,在大多數(shù)語言和領(lǐng)域中并沒有或者只有少量標(biāo)注的語料。低資源的NER是當(dāng)前研究熱點(diǎn)之一,其性能的提高是NER走向廣泛實(shí)際應(yīng)用的前提。該方面相關(guān)的研究工作可大致分為以下幾類:跨語言遷移的方法、跨領(lǐng)域遷移的方法、跨任務(wù)遷移的方法和集成自動(dòng)標(biāo)注語料的方法。

3.1 跨語言遷移的方法

跨語言遷移方法的基本思路是利用資源豐富語言的標(biāo)注數(shù)據(jù)幫助低資源語言進(jìn)行命名實(shí)體識(shí)別。通常把資源豐富的語言稱為源語言,把低資源的語言稱為目標(biāo)語言。當(dāng)目標(biāo)語言沒有任何標(biāo)注語料時(shí)(zero resource),跨語言遷移的方法可大致分為基于數(shù)據(jù)遷移的方法和基于模型遷移的方法兩大類。

3.1.1 基于數(shù)據(jù)遷移的方法

基于數(shù)據(jù)遷移的方法通常借助文本翻譯和標(biāo)簽映射等手段把源語言中的標(biāo)注數(shù)據(jù)轉(zhuǎn)換成目標(biāo)語言的標(biāo)注數(shù)據(jù),然后基于這些數(shù)據(jù)訓(xùn)練NER模型用于目標(biāo)語言。例如,Ni等[64]提出了一種在可比的語料庫上進(jìn)行標(biāo)簽映射的方法,用于創(chuàng)建自動(dòng)標(biāo)記的目標(biāo)語言數(shù)據(jù),并設(shè)計(jì)了一種啟發(fā)式的方案篩選出高質(zhì)量的標(biāo)注數(shù)據(jù)。Mayhew等[65]基于容易獲得的雙語詞典,使用一種類似短語機(jī)器翻譯[66]的方法自動(dòng)翻譯源語言的標(biāo)注文本。Xie等[67]首先基于雙語詞向量自動(dòng)構(gòu)建雙語詞典,然后把源語言的標(biāo)注文本翻譯成目標(biāo)語言,在訓(xùn)練目標(biāo)語言的NER模型時(shí)使用自注意力機(jī)制代替BiLSTM作為編碼器,以緩解不同語言詞序不同的問題?;跀?shù)據(jù)遷移方法的優(yōu)點(diǎn)是可以利用目標(biāo)語言的相關(guān)信息,缺點(diǎn)是自動(dòng)生成的目標(biāo)語言的標(biāo)注數(shù)據(jù)不可避免地存在錯(cuò)誤。

3.1.2 基于模型遷移的方法

基于模型遷移的方法通常先學(xué)習(xí)語言無關(guān)的特征,然后在源語言的標(biāo)注語料上訓(xùn)練NER模型直接用于目標(biāo)語言。例如,Wu和Dredze[68]直接使用基于104種語言訓(xùn)練的多語言版本BERT[11]學(xué)習(xí)語言無關(guān)的詞和句子表示,用于分本分類、詞性標(biāo)注和NER等多個(gè)跨語言任務(wù),取得了很好的效果。Keung等[69]在多語言版本BERT的基礎(chǔ)上進(jìn)一步使用對(duì)抗學(xué)習(xí)[70]的方法,以學(xué)習(xí)更好的與語言無關(guān)的特征。Chen等[71]同樣基于對(duì)抗學(xué)習(xí)的方法提取語言無關(guān)的特征,并動(dòng)態(tài)地計(jì)算源語言和目標(biāo)語言之間的相似度,從而更有效地實(shí)現(xiàn)從多個(gè)源語言到目標(biāo)語言的知識(shí)遷移。Bari等[72]首先訓(xùn)練一個(gè)源語言NER模型,然后基于無標(biāo)注的目標(biāo)語言語料進(jìn)行調(diào)優(yōu)(Fine-tuning)。為了在兩種語言之間建立聯(lián)系,他們基于對(duì)抗學(xué)習(xí)的方法把兩種語言的詞向量映射到同一語義空間;為了在兩種語言的NER任務(wù)之間建立聯(lián)系,他們提出了一種融合參數(shù)共享和特征增強(qiáng)的調(diào)優(yōu)方法。Wu等[73]提出了一種加強(qiáng)的元學(xué)習(xí)(meta-learning)方法,基于少量的目標(biāo)語言測(cè)試數(shù)據(jù)對(duì)訓(xùn)練好的源語言模型進(jìn)行調(diào)優(yōu),取得了很好的效果?;谀P瓦w移方法的優(yōu)點(diǎn)是不需要生成目標(biāo)語言的標(biāo)注數(shù)據(jù),缺點(diǎn)是沒有充分利用目標(biāo)語言的相關(guān)信息。

最近,Wu等[74]指出基于數(shù)據(jù)遷移的方法和基于模型遷移的方法是可以互補(bǔ)的,但這兩種方法都沒有充分利用大量容易獲得的目標(biāo)語言中的未標(biāo)注數(shù)據(jù)。雖然在基于對(duì)抗學(xué)習(xí)的方法中[69,71]通常會(huì)用到目標(biāo)語言的文本,但其目的是學(xué)習(xí)語言無關(guān)的特征,往往丟失了特定于目標(biāo)語言的相關(guān)信息。因此,他們首先分別基于數(shù)據(jù)遷移和模型遷移的方法訓(xùn)練兩個(gè)目標(biāo)語言的NER模型;然后,基于這兩個(gè)模型標(biāo)注大量目標(biāo)語言的文本用于進(jìn)一步調(diào)優(yōu),得到第三個(gè)目標(biāo)語言的NER模型;最后,利用知識(shí)蒸餾[33]的方法集成這三個(gè)模型中的知識(shí),取得了當(dāng)前最好的性能。類似地,Wu等[75]提出了一種基于知識(shí)蒸餾的方法,用于在只有訓(xùn)練好的源語言NER模型而源語言訓(xùn)練數(shù)據(jù)不可得到的情況下實(shí)現(xiàn)知識(shí)跨語言的遷移。

當(dāng)目標(biāo)語言有少量的標(biāo)注語料時(shí)(Few resource),一種可行的方法是先在源語言語料上基于模型遷移或數(shù)據(jù)遷移的方法訓(xùn)練一個(gè)目標(biāo)語言NER模型,然后使用少量目標(biāo)語言的標(biāo)注語料對(duì)學(xué)到的模型進(jìn)一步調(diào)優(yōu)。另一種常見的方法是在不同語言的NER模型之間通過共享參數(shù)的策略遷移知識(shí)。例如,Yang等[76]共享不同語言的NER模型中字符級(jí)的編碼層;Lin等[77]同時(shí)共享字符級(jí)和單詞級(jí)的編碼層;Zhou等[78]在共享參數(shù)的基礎(chǔ)上,提出一種雙重對(duì)抗訓(xùn)練的方法用于學(xué)習(xí)更好的語言無關(guān)特征,同時(shí)處理了源語言和目標(biāo)語言數(shù)據(jù)極度不平衡的問題。

3.2 跨領(lǐng)域遷移的方法

跨領(lǐng)域遷移方法的基本思路是利用資源豐富領(lǐng)域的標(biāo)注數(shù)據(jù)幫助低資源領(lǐng)域進(jìn)行命名實(shí)體識(shí)別??珙I(lǐng)域和跨語言本質(zhì)上是一致的,不同的語言也可以認(rèn)為是不同的領(lǐng)域,因此跨語言遷移的方法與跨領(lǐng)域遷移的方法是基本類似的。

當(dāng)目標(biāo)領(lǐng)域沒有標(biāo)注語料時(shí),通常使用模型遷移的方法。例如,Jia等[79]提出了一種基于跨領(lǐng)域語言模型的方法,用于目標(biāo)領(lǐng)域無監(jiān)督的命名實(shí)體識(shí)別。該方法基于大量無標(biāo)注的源領(lǐng)域文本和目標(biāo)領(lǐng)域文本分別訓(xùn)練語言模型,基于源領(lǐng)域標(biāo)注語言訓(xùn)練一個(gè)NER模型,并設(shè)計(jì)了一種參數(shù)生成網(wǎng)絡(luò),以實(shí)現(xiàn)跨領(lǐng)域的知識(shí)遷移和跨任務(wù)(語言模型和NER)的知識(shí)遷移。在多個(gè)目標(biāo)領(lǐng)域上的實(shí)驗(yàn)顯示,該方法取得了較好的效果。Liu等[80]指出在有些資源極度缺乏的目標(biāo)領(lǐng)域,無標(biāo)注的文本也不容易獲得,因此提出了一種僅需源領(lǐng)域標(biāo)注語料的跨領(lǐng)域NER模型。具體地,他們首先引入一個(gè)輔助任務(wù)用來識(shí)別句子中的詞是否為實(shí)體,以學(xué)習(xí)實(shí)體的一般表示,從而減輕不同領(lǐng)域之間的差異性;其次,引入了一個(gè)混合的實(shí)體專家框架(Mixture of Entity Experts)來避免模型過擬合源領(lǐng)域訓(xùn)練數(shù)據(jù)。以英文CoNLL-2003為源領(lǐng)域語料,該方法在多個(gè)零資源的目標(biāo)領(lǐng)域取得了與Jia等[79]的模型可比的性能。

當(dāng)目標(biāo)領(lǐng)域有少量的標(biāo)注語料時(shí),通?;诠蚕韰?shù)或特征映射等策略在領(lǐng)域之間遷移知識(shí)。例如,He和Sun[81]聯(lián)合使用源領(lǐng)域和目標(biāo)領(lǐng)域的標(biāo)注語料訓(xùn)練多個(gè)共享參數(shù)的NER模型,并在訓(xùn)練時(shí)基于源領(lǐng)域句子和目標(biāo)領(lǐng)域句子的相似度調(diào)整該句子的學(xué)習(xí)率。Yang等[76]基于層次循環(huán)神經(jīng)網(wǎng)絡(luò)和參數(shù)共享策略,提出了多個(gè)分別用于跨領(lǐng)域、跨語言和跨任務(wù)的序列標(biāo)注模型。Lee等[82]首先使用源領(lǐng)域的標(biāo)注語料訓(xùn)練NER模型,然后使用少量目標(biāo)領(lǐng)域的標(biāo)注語料對(duì)模型進(jìn)行調(diào)優(yōu)。Wang等[83]在共享源領(lǐng)域和目標(biāo)領(lǐng)域NER模型的詞向量層和編碼層的基礎(chǔ)上,設(shè)計(jì)了兩種標(biāo)簽感知約束代價(jià)用于特征遷移和參數(shù)遷移。Lin和Lu[84]提出了一種輕量級(jí)的跨領(lǐng)域自適應(yīng)性方法。具體地,他們先在一個(gè)已經(jīng)訓(xùn)練好的源領(lǐng)域NER模型中添加自適應(yīng)的神經(jīng)網(wǎng)絡(luò)層,然后基于少量的目標(biāo)領(lǐng)域語料進(jìn)行調(diào)優(yōu)。這種方法的好處是僅需要訓(xùn)練好的源領(lǐng)域NER模型,而不再需要源領(lǐng)域的標(biāo)注語料。Wang等[85]提出了一種多任務(wù)學(xué)習(xí)框架,同時(shí)利用多個(gè)源領(lǐng)域的標(biāo)注數(shù)據(jù)幫助目標(biāo)領(lǐng)域,取得了較好的效果。

3.3 跨任務(wù)遷移的方法

跨任務(wù)遷移方法的基本思路是利用相關(guān)任務(wù)中的信息幫助命名實(shí)體識(shí)別。例如,詞性信息和漢語中詞的邊界信息顯然對(duì)命名實(shí)體是有用的。早在2008年,Collobert和Weston[86]在多任務(wù)學(xué)習(xí)框架下基于CNN網(wǎng)絡(luò)聯(lián)合訓(xùn)練詞性標(biāo)注、語義角色標(biāo)注和命名實(shí)體識(shí)別等任務(wù),通過共享參數(shù)的方式遷移知識(shí)。Lin等[77]在多任務(wù)學(xué)習(xí)框架下聯(lián)合訓(xùn)練多種語言下的多個(gè)相關(guān)任務(wù)。Sanh等[87]則在層次多任務(wù)學(xué)習(xí)框架下聯(lián)合訓(xùn)練命名實(shí)體識(shí)別、實(shí)體提及和關(guān)系抽取等任務(wù)。他們認(rèn)為這些任務(wù)需要的語義具有層次性,應(yīng)該關(guān)聯(lián)到不同的神經(jīng)網(wǎng)絡(luò)層。Aguilar等[88]針對(duì)社交媒體數(shù)據(jù)中存在不正確的語法結(jié)構(gòu)、拼寫錯(cuò)誤和非正式縮寫等問題,提出使用更具一般性的命名實(shí)體分割任務(wù)(預(yù)測(cè)一個(gè)詞是否為實(shí)體)作為輔助任務(wù)幫助命名實(shí)體識(shí)別任務(wù),在WNUT-17數(shù)據(jù)集上獲得了很好的效果。Kruengkrai等[89]則提出聯(lián)合訓(xùn)練句子級(jí)的分類任務(wù)和命名實(shí)體識(shí)別任務(wù),好處是可以利用大量較容易獲得的句子級(jí)的標(biāo)注語料。

上述方法大都需要利用相關(guān)任務(wù)中有標(biāo)注的訓(xùn)練數(shù)據(jù),與之不同,Rei[90]和Liu等[91]聯(lián)合訓(xùn)練語言模型和命名實(shí)體識(shí)別模型,好處是可以在大量無標(biāo)注的語料上基于語言模型學(xué)習(xí)語法和語義知識(shí),取得了較好的效果。最近,以BERT等基于超大規(guī)模語料預(yù)訓(xùn)練的語言模型為基礎(chǔ)的NER模型在多個(gè)數(shù)據(jù)集上取得了最佳的性能[3,11],這也可以看作是一種跨任務(wù)遷移的方法。該類模型通常以預(yù)訓(xùn)練好的BERT作為編碼層,然后在命名實(shí)體標(biāo)注任務(wù)上進(jìn)一步調(diào)優(yōu)??傊?,跨任務(wù)遷移的方法大都通過共享參數(shù)的方式遷移知識(shí),以提高命名實(shí)體識(shí)別的性能。

3.4 集成自動(dòng)標(biāo)注語料的方法

基于語言/領(lǐng)域遷移的方法雖然能夠有效地緩解標(biāo)注語料短缺的問題,但是具有豐富標(biāo)注資源的語言或領(lǐng)域是非常少的,且存在標(biāo)注類別不同的問題,因此在很多實(shí)際應(yīng)用中難以找到可以遷移的資源。例如,在電子商務(wù)領(lǐng)域中通常需要識(shí)別商品的名稱,而資源豐富的領(lǐng)域往往標(biāo)注的是人名、地名和機(jī)構(gòu)名等通用的實(shí)體。

為此,一些研究者提出集成自動(dòng)標(biāo)注語料的方法,首先通過某種方法自動(dòng)標(biāo)注大量語料,然后集成它們用于提高低資源NER的性能。自動(dòng)標(biāo)注語料一般使用基于Wikipedia 等Web資源自動(dòng)抽取的方法[92]或基于知識(shí)庫/領(lǐng)域?qū)嶓w詞典匹配的方法[93]。雖然可以較容易地生成大量自動(dòng)標(biāo)注的語料,但這些語料中往往存在較多的噪聲。如圖7所示,基于商品名稱詞典匹配的方法自動(dòng)生成的標(biāo)注語料可能出現(xiàn)以下幾種情況:①正確標(biāo)注,句子中所有的商品都正確標(biāo)注了; ②部分標(biāo)注,句子中的商品“普通冰箱”正確標(biāo)注了,而“智能冰箱”漏標(biāo)了; ③噪聲標(biāo)注,句子中的商品“機(jī)器人”標(biāo)注錯(cuò)誤,正確的應(yīng)該是“掃地機(jī)器人”。因此,集成自動(dòng)標(biāo)注語料的方法重點(diǎn)研究如何有效地利用正確標(biāo)注和部分標(biāo)注的數(shù)據(jù),同時(shí)減少噪聲標(biāo)注數(shù)據(jù)的影響。

圖7 自動(dòng)標(biāo)注語料的示例

Yang等[93]首先基于詞典匹配的方法自動(dòng)標(biāo)注語料,然后使用Partial-CRF[94]在少量人工標(biāo)注的語料和大量自動(dòng)標(biāo)注的語料上訓(xùn)練NER模型。此外,他們還基于強(qiáng)化學(xué)習(xí)[95]訓(xùn)練一個(gè)選擇器,用于篩選掉具有噪聲的標(biāo)注數(shù)據(jù)。Shang等[96]提出一種“連接-斷開”的標(biāo)注方法代替常用的基于CRF或者Partial-CRF的方法。他們訓(xùn)練一個(gè)二分類器用于預(yù)測(cè)相鄰的兩個(gè)字/詞是否在同一個(gè)實(shí)體內(nèi),是則為“連接”,不是則為“斷開”。采用這種標(biāo)注方法的主要原因是自動(dòng)標(biāo)注語料中的某些實(shí)體邊界可能有誤,但其中大部分字/詞之間的“連接”關(guān)系是對(duì)的。例如,圖7噪聲標(biāo)注的商品名“機(jī)器人”中,“機(jī)”與“器”、“器”與“人”之間的“連接”關(guān)系是對(duì)的。實(shí)驗(yàn)結(jié)果表示,他們提出的方法在多個(gè)數(shù)據(jù)集上的結(jié)果優(yōu)于常用的Partial-CRF方法。Mayhew等[97]提出一種自動(dòng)調(diào)整權(quán)重的方法,其訓(xùn)練一個(gè)迭代的二分類器為自動(dòng)標(biāo)注語料中的每個(gè)實(shí)體計(jì)算權(quán)重,主要目的是降低漏標(biāo)實(shí)體的權(quán)重。例如,圖7部分標(biāo)注句子中的 “智能冰箱”被漏標(biāo)記為其他字符,降低其權(quán)重有利于處理這類噪聲問題。Peng等[98]則把命名實(shí)體識(shí)別任務(wù)建模成一個(gè)PU(Positive-unlabeled)學(xué)習(xí)問題,其把基于詞典匹配方法自動(dòng)標(biāo)注的實(shí)體作為正例,把剩余的部分作為未標(biāo)注文本訓(xùn)練模型。這種方法的優(yōu)點(diǎn)是可以較好地解決漏標(biāo)實(shí)體的問題,從而降低對(duì)詞典規(guī)模和質(zhì)量的要求。Liang等[99]提出了一種兩階段的NER模型,其首先使用大量自動(dòng)標(biāo)注的語料訓(xùn)練以BERT為編碼層的NER模型,然后使用自訓(xùn)練(Self-training)的方法進(jìn)一步調(diào)優(yōu)模型。

Cao等[92]提出了一種不需要任何人工標(biāo)注語料訓(xùn)練NER模型的方法。他們首先基于Wikipedia自動(dòng)構(gòu)建大量標(biāo)注語料,然后通過計(jì)算標(biāo)注的置信度和覆蓋度兩個(gè)指標(biāo)把語料分成高質(zhì)量和低質(zhì)量兩部分。例如,圖7中正確標(biāo)注句子是高質(zhì)量的標(biāo)注語料,而部分標(biāo)注句子和噪聲標(biāo)注句子則是低質(zhì)量的。為了充分利用低質(zhì)量的語料,他們?cè)O(shè)計(jì)了一個(gè)基于字的分類任務(wù),即針對(duì)其中標(biāo)注的實(shí)體中的每個(gè)字,預(yù)測(cè)它們的實(shí)體類別。例如,對(duì)圖7噪聲標(biāo)注句子僅分別預(yù)測(cè)“機(jī)”“器”和“人”的類別。訓(xùn)練這個(gè)分類模型利用了大量正確的標(biāo)注信息,同時(shí)降低了噪聲的影響。因此,上述分類模型中的編碼器建模了大量的上下文語義信息,可用于初始化NER模型中的編碼器。最后,他們?cè)诟哔|(zhì)量的自動(dòng)標(biāo)注語料上繼續(xù)對(duì)該NER模型進(jìn)行調(diào)優(yōu)。Lison等[100]則融合基于多種方法自動(dòng)標(biāo)注的語料用于訓(xùn)練NER模型。他們首先基于訓(xùn)練好的領(lǐng)域外NER模型、實(shí)體詞典和啟發(fā)式規(guī)則等方式標(biāo)注語料;然后,訓(xùn)練一個(gè)隱馬爾可夫模型把經(jīng)過多種方式自動(dòng)標(biāo)注的語料(一份領(lǐng)域內(nèi)的語料,多份標(biāo)簽)融合在一起(一份標(biāo)簽);最后,基于融合后的語料訓(xùn)練NER模型。同期,Safranchik等[101]則引入一類連接規(guī)則(Linking rules)用于推斷句子中可能是實(shí)體的文本片段,例如,同一文檔中多次出現(xiàn)的n-grams。然后,他們提出了一種基于擴(kuò)展的HMM的NER模型,并聯(lián)合使用基于詞典匹配等方法自動(dòng)標(biāo)注的語料和基于連接規(guī)則生成的語料訓(xùn)練模型。

實(shí)際應(yīng)用中,絕大部分的語言和領(lǐng)域都是低資源(甚至零資源)的,如何提高這些語言和領(lǐng)域命名實(shí)體識(shí)別的性能是當(dāng)前的研究熱點(diǎn)之一?;谥R(shí)遷移的思路,大量跨語言遷移或跨領(lǐng)域遷移的相關(guān)研究工作不同程度地提高了低資源NER的性能。然而,由于標(biāo)注語料豐富的語言和領(lǐng)域非常少,這些方法的適用范圍受到一定的限制。相比較而言,自動(dòng)標(biāo)注語料的方法可以快速地、低成本地獲取大量含噪聲的標(biāo)注語料?,F(xiàn)有研究工作已證實(shí),集成這些自動(dòng)標(biāo)注的語料可以實(shí)質(zhì)性地提高低資源NER的性能。鑒于BERT等預(yù)訓(xùn)練語言模型的成功(超大規(guī)模無標(biāo)注文本的利用),有理由相信如何更好地利用大量自動(dòng)標(biāo)注的命名實(shí)體語料將是未來重要的研究方向之一。

4 性能對(duì)比

4.1 不同模型F1值對(duì)比

為了讓讀者對(duì)基于深度學(xué)習(xí)的NER模型的性能有一個(gè)直觀的了解,本節(jié)列舉了一些具有代表性的模型和方法在常用數(shù)據(jù)集上的F1值。F1值常用于評(píng)估命名實(shí)體識(shí)別模型的性能,具體計(jì)算如式(1)所示。

F1=2*P*R/(P+R)

P=T1/(T1+T2)

R=T1/(T1+T3)

(1)

其中,T1表示正確識(shí)別出的實(shí)體數(shù),T2表示錯(cuò)誤識(shí)別出的實(shí)體數(shù),T3表示未被識(shí)別出的實(shí)體數(shù),P(Precision)表示查準(zhǔn)率,R(Recall)表示查全率。需要說明的是,本節(jié)所列結(jié)果均來源于所引用的文獻(xiàn)。

表2列出最近的基于深度學(xué)習(xí)的NER模型在CoNLL2003和OntoNotes 5.0這兩個(gè)常用的英語數(shù)據(jù)集上的F1值。其中,CoNLL2003數(shù)據(jù)集中標(biāo)注了人名、地名、組織機(jī)構(gòu)名及其他類別4種實(shí)體, 來自于路透社新聞;而OntoNotes 5.0所標(biāo)注的實(shí)體類別有18種之多,且由多個(gè)不同領(lǐng)域的文本組成,實(shí)體識(shí)別的難度更大。

表2 基于深度學(xué)習(xí)的NER模型在英文數(shù)據(jù)集CoNLL2003和OntoNotes 5.0上的性能對(duì)比

從表2可以看出:①在輸入層中,字符信息是詞信息的有益補(bǔ)充,“詞+字符”的輸入模式是事實(shí)上的標(biāo)準(zhǔn); ②采用不同編碼層(BiLSTM、CNN、樹結(jié)構(gòu)引導(dǎo)的神經(jīng)網(wǎng)絡(luò)或Transformer)的模型之間性能上并沒有明顯的差別; ③解碼層使用簡單的Softmax直接分類能取得與CRF可比的性能,這說明編碼層可能已經(jīng)捕獲到了標(biāo)簽之間的依賴關(guān)系; ④基于BERT的NER模型的性能顯著地高于以前的模型,在兩個(gè)數(shù)據(jù)集上均取得了當(dāng)前最好的性能,這主要是因?yàn)榛诖笠?guī)模文本預(yù)訓(xùn)練的BERT中包含有大量的語義信息?;谏疃葘W(xué)習(xí)的NER模型雖然在CoNLL2003和OntoNotes 5.0等比較正規(guī)的文本上取得了超過90%的F1值,但在網(wǎng)絡(luò)文本數(shù)據(jù)集W-NUT17上F1值還不到50%[4],遠(yuǎn)未達(dá)到實(shí)用的要求。這充分說明命名實(shí)體識(shí)別依然是一個(gè)極具挑戰(zhàn)性的任務(wù)。

4.2 不同數(shù)據(jù)集上F1值對(duì)比

表3列出了最近的漢語NER模型在OntoNotes 4.0(ON)、MSRA、Weibo(WB)以及Resume(RS)四個(gè)常用的漢語數(shù)據(jù)集上的F1值。數(shù)據(jù)集OntoNotes 4.0來自新聞、廣播等多個(gè)領(lǐng)域,標(biāo)注了人名、產(chǎn)品名、日期等18種實(shí)體;數(shù)據(jù)集MSRA來自新聞?lì)I(lǐng)域,只標(biāo)注了人名、組織機(jī)構(gòu)名和地名3種實(shí)體。數(shù)據(jù)集Weibo和Resume分別來自社交媒體新浪微博和新浪財(cái)經(jīng),Weibo中標(biāo)注了人名、地名、組織機(jī)構(gòu)名和地緣政治4種實(shí)體, Resume標(biāo)注了教育機(jī)構(gòu)、職業(yè)、職稱等8種實(shí)體。

表3 漢語NER模型的性能對(duì)比

從表3中可以看出:①在基于字的漢語NER模型中融入詞的信息實(shí)質(zhì)性地提高了識(shí)別的性能,原因是其在利用詞信息的同時(shí)避免了漢語分詞可能帶來的錯(cuò)誤。這也表明針對(duì)漢語的特點(diǎn)設(shè)計(jì)相應(yīng)的NER模型是非常重要的; ②簡單的基于字詞編碼的方法取得了與基于字詞圖的方法可比的、甚至更好的性能; ③在識(shí)別難度較小的MSRA和RS數(shù)據(jù)集上取得了超過90%的F1值,而在識(shí)別難度較大的ON和WB數(shù)據(jù)集上的F1值則低得多。對(duì)比表3中數(shù)據(jù)集OntoNotes 4.0(漢語)與表2中數(shù)據(jù)集OntoNotes 5.0(英語)的F1值,可以發(fā)現(xiàn)模型在這兩個(gè)相似數(shù)據(jù)集上的性能差異非常明顯,這從某種程度上說明漢語命名實(shí)體識(shí)別的難度要高于英文命名實(shí)體識(shí)別,如何針對(duì)漢語的特點(diǎn)設(shè)計(jì)NER模型是一個(gè)值得深入研究的問題。

4.3 跨語言遷移的NER方法的F1值對(duì)比

在低資源NER的相關(guān)研究中,研究者使用的數(shù)據(jù)集不太統(tǒng)一,難以進(jìn)行直接對(duì)比。表4中僅列出了最近跨語言遷移的NER方法的F1值,這些方法假定目標(biāo)語言是零資源的,并采用單一源語言到單一目標(biāo)語言的遷移方式(一對(duì)一遷移)。常使用CoNLL2003(English-en)作為資源豐富的源語言,使用CoNLL2002(Spanish-es和Dutch-nl)和CoNLL2003(German-de)中的一部分語料作為目標(biāo)語言的測(cè)試集。以上數(shù)據(jù)集標(biāo)注的實(shí)體包括人名、地名、機(jī)構(gòu)名和其他類別4種。從表4中可以看出:①近年來,跨語言遷移的NER方法的性能取得了顯著的提高; ②基于模型遷移的方法的性能明顯好于基于數(shù)據(jù)遷移的方法; ③Wu等[74]的方法綜合數(shù)據(jù)遷移方法和模型遷移方法的優(yōu)點(diǎn),取得了當(dāng)前最好的性能。這些結(jié)果充分說明了跨語言遷移方法的有效性,是一個(gè)值得深入研究的方向。

表4 跨語言遷移的NER方法的性能對(duì)比

5 結(jié)語

基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法在性能上已經(jīng)超過了早期基于人工特征的方法,是目前的研究熱點(diǎn)之一。本文從命名實(shí)體識(shí)別的一般框架、漢語命名實(shí)體識(shí)別和低資源的命名實(shí)體識(shí)別三個(gè)方面著手介紹近年來的相關(guān)研究工作,并分析了它們的優(yōu)缺點(diǎn)。基于這些分析,我們建議未來命名實(shí)體識(shí)別的研究工作可以從以下幾個(gè)方面展開:

(1) 非正式文本的命名實(shí)體識(shí)別研究。目前基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型的一般框架趨于成熟,在新聞等正式文本上也取得了比較滿意的性能。但是,這些模型在非正式文本上的性能還比較低,離實(shí)際應(yīng)用仍有較大的差距。在自媒體快速發(fā)展的今天,如何提高非正式文本的命名實(shí)體識(shí)別的性能是一個(gè)迫切需要解決的問題?,F(xiàn)有框架是否適用于非正式文本也是一個(gè)值得考慮的問題。

(2) 領(lǐng)域特定命名實(shí)體識(shí)別研究。目前針對(duì)人名、地名和機(jī)構(gòu)名等通用命名實(shí)體識(shí)別的研究較多,而對(duì)于領(lǐng)域特定命名實(shí)體識(shí)別的研究則相對(duì)較少,例如,電子商務(wù)文本中商品名等實(shí)體的識(shí)別。領(lǐng)域特定命名實(shí)體的準(zhǔn)確識(shí)別是信息抽取的前提和基礎(chǔ),是這些領(lǐng)域走向智能信息處理的關(guān)鍵之一。

(3) 篇章級(jí)的命名實(shí)體識(shí)別研究。目前的模型主要利用實(shí)體本身及其所在句子中的上下文信息進(jìn)行識(shí)別,而沒有考慮篇章級(jí)信息的應(yīng)用。例如,Gui等[102]指出一個(gè)篇章中多次出現(xiàn)的文本片段的類型(某種實(shí)體或非實(shí)體)大部分情況下是一致的,并設(shè)計(jì)出一個(gè)兩階段的模型以利用這些信息,取得了較好的性能。篇章級(jí)的命名實(shí)體識(shí)別研究才剛剛起步,一方面篇章級(jí)的哪些信息對(duì)命名實(shí)體識(shí)別有用尚不清楚,另一方面如何改進(jìn)現(xiàn)有模型以高效地利用篇章信息也是一個(gè)問題。

(4) 經(jīng)濟(jì)高效的命名實(shí)體識(shí)別研究。現(xiàn)有的模型雖然取得了較好的性能,但往往在訓(xùn)練和應(yīng)用時(shí)都需要耗費(fèi)大量的計(jì)算資源。例如,性能領(lǐng)先的基于BERT的命名實(shí)體識(shí)別模型[11]對(duì)計(jì)算資源的要求非常高。如何在識(shí)別性能和計(jì)算效率之間達(dá)到平衡是一個(gè)很實(shí)際的問題,也是命名實(shí)體識(shí)別技術(shù)廣泛運(yùn)用的關(guān)鍵之一。

(5) 漢語命名實(shí)體識(shí)別的進(jìn)一步研究。與英語等語言相比,漢語具有詞之間沒有明確的邊界、缺少詞形變換等特點(diǎn),使得其命名實(shí)體識(shí)別的難度更大。當(dāng)前漢語命名實(shí)體識(shí)別的研究主要針對(duì)詞之間沒有明確的邊界這一特點(diǎn)展開,對(duì)其他特點(diǎn)的探索和利用非常不充分。深入研究漢語與英語等語言中實(shí)體的差異,并設(shè)計(jì)相應(yīng)的模型是提高漢語命名實(shí)體識(shí)別性能的有效手段之一。

(6) 集成自動(dòng)標(biāo)注語料的命名實(shí)體識(shí)別研究。雖然跨語言遷移和跨領(lǐng)域遷移的方法都能在一定程度上緩解標(biāo)注資源短缺的問題,但標(biāo)注資源豐富的語言和領(lǐng)域畢竟非常少,限制了這些方法的適用范圍。集成自動(dòng)標(biāo)注語料的方法僅需要實(shí)體詞典等相對(duì)容易獲得的資源,可以快速地應(yīng)用于一種新的語言或一個(gè)新的領(lǐng)域,適用范圍更廣。但是,如何有效地克服自動(dòng)標(biāo)注語料中噪聲的影響,依然是一個(gè)極具挑戰(zhàn)性的問題。

猜你喜歡
語料命名實(shí)體
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
有一種男人以“暖”命名
東方女性(2018年3期)2018-04-16 15:30:02
為一條河命名——在白河源
散文詩(2017年17期)2018-01-31 02:34:08
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
额济纳旗| 安庆市| 德庆县| 谢通门县| 荔浦县| 星座| 六盘水市| 宁夏| 玛曲县| 莆田市| 平泉县| 浦县| 色达县| 固始县| 克山县| 云梦县| 宜春市| 汕头市| 天等县| 榆林市| 斗六市| 门源| 千阳县| 会宁县| 大同县| 印江| 修文县| 泉州市| 上栗县| 香港 | 佳木斯市| 大化| 那坡县| 舒城县| 西盟| 安平县| 贵港市| 永登县| 固镇县| 景东| 洛南县|