西爾艾力·色提,艾山·吾買爾,王路路,吐爾根·依布拉音,馬喆康,買合木提·買買提
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,烏魯木齊 830046;2.新疆大學(xué)新疆多語種信息技術(shù)重點實驗室,烏魯木齊 830046;3.新疆大學(xué)軟件學(xué)院,烏魯木齊 830046)
命名實體識別(Named Entity Recognition,NER)作為自然語言處理的基本任務(wù)之一,受到國內(nèi)外研究人員的廣泛關(guān)注,并且隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,其取得了重要的研究成果。例如,COLLOBERT[1]、LAMPLE[2]等人將命名實體識別轉(zhuǎn)換為序列標(biāo)注問題,并利用深度學(xué)習(xí)技術(shù)捕獲命名實體的詞和字符信息,實現(xiàn)文本中命名實體的精準(zhǔn)識別。通過將深度學(xué)習(xí)技術(shù)與字符信息相結(jié)合對文本序列標(biāo)注數(shù)據(jù)進(jìn)行建模,能夠有效提高命名實體識別性能,然而現(xiàn)有中文命名實體識別方法[3-4]多數(shù)使用單詞向量特征對命名實體進(jìn)行表示,忽略了漢字字符特征的表征能力。針對該問題,國內(nèi)外研究人員也進(jìn)行了一系列關(guān)于字符特征表示的研究。例如,LU[5]、DONG[6]等人利用字符信息和單詞信息提高了命名實體的識別精度,但其沒有考慮單詞與字符以及字符與字符之間的位置關(guān)系。本文提出一種單詞-字符引導(dǎo)注意力網(wǎng)絡(luò)(Word-Character Guided Attention Network,WCGAN)的旅游文本命名實體識別方法。將不同層次的引導(dǎo)注意力網(wǎng)絡(luò)進(jìn)行集成學(xué)習(xí)以獲取命名實體的單詞和字符信息,同時捕獲單詞與字符、字符與字符之間的位置信息。
傳統(tǒng)NER方法通常采用機(jī)器學(xué)習(xí)技術(shù)或者人工標(biāo)注特征[7]進(jìn)行命名實體識別。文獻(xiàn)[8]提出一種基于SVM語料庫檢索模式和重復(fù)MWEs的NER識別方法,實驗結(jié)果表明該方法優(yōu)于基于規(guī)則的命名實體識別方法。文獻(xiàn)[9]建立了條件隨機(jī)場(Conditional Random Field,CRF)命名實體識別系統(tǒng),在捷克語、西班牙語等語料庫上的測試結(jié)果表明其具有較好的識別效果。然而,人工參數(shù)設(shè)計特征對上述方法的性能有較大影響,因此識別穩(wěn)定性相對較差。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,其在特征學(xué)習(xí)中表現(xiàn)出強(qiáng)大的自學(xué)習(xí)能力并在命名實體識別中得到廣泛應(yīng)用[10-11]。文獻(xiàn)[12]使用字符卷積神經(jīng)網(wǎng)絡(luò)(CharCNN)捕獲了文本中的字符特征,并用字符特征表示命名實體,實現(xiàn)命名實體的準(zhǔn)確識別。文獻(xiàn)[13]使用字符序列標(biāo)注方法對中文文本進(jìn)行標(biāo)注,提高了中文命名實體的識別精度。文獻(xiàn)[14]將Max margin神經(jīng)網(wǎng)絡(luò)用于中文社交網(wǎng)絡(luò)文本并識別出其中的命名實體。文獻(xiàn)[15]提出一種半監(jiān)督的命名實體識別模型,該模型在中文社交網(wǎng)絡(luò)進(jìn)行跨領(lǐng)域識別并取得較好的識別效果。文獻(xiàn)[16]將雙向LSTM與條件隨機(jī)場相結(jié)合對文本序列進(jìn)行標(biāo)注,實現(xiàn)命名實體的準(zhǔn)確識別。文獻(xiàn)[17]提出一種任務(wù)感知神經(jīng)語言模型,對文本序列中的命名實體進(jìn)行權(quán)重賦值,提高了命名實體的識別精度。文獻(xiàn)[18]提出一種用于文本序列標(biāo)記的半監(jiān)督多任務(wù)學(xué)習(xí)方法,實現(xiàn)文本中命名實體的精確識別。上述方法雖然提高了命名實體的識別精度,但多數(shù)是基于單一特征對文本中的命名實體進(jìn)行表示,忽略了大量的細(xì)節(jié)信息,而本文提出的WCGAN方法,從單詞和字符兩個方面對文本序列進(jìn)行建模實現(xiàn)信息互補,同時強(qiáng)調(diào)單詞與字符之間的關(guān)聯(lián)性,進(jìn)一步使用字符信息突出單詞的關(guān)鍵性。
漢字字符是單詞的基本組成單位,其不僅具有獨立的語義信息,而且可以通過漢字字符推斷出單詞的詞義,即單詞和漢字信息對中文命名實體的識別具有重要作用。如圖1所示,本文將多個漢字字符按照一定的位置信息組合形成單詞和命名實體?!吧胶!庇伞吧健焙汀昂!眱蓚€漢字字符組成,且具有一定的位置關(guān)系,而“山?!焙汀伴L城”兩個單詞經(jīng)過前后位置的組合形成關(guān)于地址的命名實體。因此,字符及字符的位置信息有助于進(jìn)一步突出單詞信息,也可以提高字符與單詞之間的關(guān)聯(lián)性。在圖1中,Char-Tag和Word-Tag表示文本中命名實體的標(biāo)簽,B表示命名實體的初始單元,M表示命名實體的中間單元,E表示命名實體的結(jié)尾單元,O表示非命名實體,ComName表示旅游地址。
圖1 單詞和字符的標(biāo)簽信息Fig.1 Label informations of words and characters
單詞引導(dǎo)注意力網(wǎng)絡(luò)(Word Guided Attention Network,WGAN)模型先借助詞嵌入技術(shù)[19]將文本中的每個單詞(命名實體和非實體)映射到一個密集的低維向量空間中,再通過引導(dǎo)注意力的雙向長短時記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)捕獲文本中命名實體的單詞信息。Bi-LSTM網(wǎng)絡(luò)[6,20]能獲取文本的上下文信息以及文本中命名實體的單詞信息,使得單詞與文本之間建立失聯(lián)關(guān)系。WGAN模型的具體步驟如下:
1)在Bi-LSTM網(wǎng)絡(luò)中,T時刻隱藏層HT的計算公式如式(1)所示:
其中,oT表示T時刻輸出門,CT表示T時刻記憶單元的激活狀態(tài)。oT和CT的計算公式如式(2)所示:
其中,Wo表示輸出門的權(quán)重矩陣,bo表示輸出門的偏置值,fT表示T時刻忘記門的輸出,iT表示T時刻記憶門的值表示T時刻臨時記憶單元的狀態(tài)。相關(guān)計算公式如式(3)所示:
其中,Aw表示隨機(jī)初始化單詞的上下文向量。對單詞的注意力系數(shù)進(jìn)行加權(quán)求和,得到命名實體中詞的注意力表示形式uw,如式(6)所示:
4)根據(jù)WGAN捕獲文本中顯著的命名實體單詞,最終得到命名實體的單詞表示信息。
在中文文本中字符是單詞的基本組成單位,當(dāng)文本的語義相差較小時,字符信息顯得尤為重要,且字符之間的排列也會影響命名實體的準(zhǔn)確提取。本文設(shè)計一種基于字符引導(dǎo)注意力網(wǎng)絡(luò)(Character Guided Attention Network,CGAN)的字符信息提取模型。CGAN模型的具體步驟如下:
1)利用CNN[23]和雙向獨立循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-IndRNN)[24]提取中文文本中命名實體的字符信息。
2)采用位置注意力網(wǎng)絡(luò)(Pos-Attention)進(jìn)一步捕獲字符信息,同時獲取命名實體中字符之間的位置信息,在字符與字符之間建立位置關(guān)聯(lián),從而提高命名實體的識別效果。
3)替換CNN中卷積層預(yù)定義的1-of-m并對其進(jìn)行編碼[23],將預(yù)定義輸入的字符長度設(shè)置為225,對超過預(yù)定義長度的字符進(jìn)行裁剪,空缺的字符用0進(jìn)行填充,計算公式如式(7)所示:
4)基于池化層進(jìn)一步捕獲命名實體的字符信息。池化層的輸出如式(8)所示:
本文利用CNN提取命名實體中字符的空間信息,為進(jìn)一步獲取命名實體中字符的時序信息,將池化層輸出的特征向量輸入雙向獨立循環(huán)神經(jīng)網(wǎng)絡(luò)。雙向獨立循環(huán)神經(jīng)網(wǎng)絡(luò)層T時刻的輸出如式(9)所示:
其中,σ表示激活函數(shù),U表示輸入層到隱藏層的權(quán)重矩陣。
將雙向獨立循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出作為位置注意力機(jī)制的輸入[25],進(jìn)一步捕獲字符在上下文中的位置信息并分配相應(yīng)的權(quán)重值,以提高字符信息的表征能力和命名實體的識別精度,具體計算公式如式(10)所示:
其中,uc表示命名實體中字符的表示形式,Ws2、Ws1表示權(quán)重矩陣。
通過字符引導(dǎo)注意力網(wǎng)絡(luò)模型,本文捕獲了文本中命名實體的字符信息,同時獲取了字符之間的位置信息,并在字符之間建立了關(guān)聯(lián)關(guān)系。在使用CNN提取字符的空間信息時,本文設(shè)計的CharCNN結(jié)構(gòu)與文獻(xiàn)[26]的CharCNN結(jié)構(gòu)有所差異,將原結(jié)構(gòu)的最大池化層和全連接層變換為全局平均池化層和雙向獨立循環(huán)神經(jīng)網(wǎng)絡(luò)層。
本文提出的WCGAN方法主要由WGAN和CGAN模型聯(lián)合組成,其能同時捕獲文本命名實體的單詞和字符信息,并使兩者之間形成信息互補,同時使用字符信息增強(qiáng)命名實體的顯著性,進(jìn)一步強(qiáng)調(diào)單詞中字符之間的位置信息。本文首先使用WGAN方法學(xué)習(xí)文本的單詞特征,獲得文本中命名實體的局部信息;其次采用注意力機(jī)制引導(dǎo)Bi-LSTM對嵌入網(wǎng)絡(luò)文本進(jìn)行編碼,并對關(guān)鍵信息分配更高的權(quán)重比,以降低冗余信息且使其更多關(guān)注顯著性單詞特征;然后通過CGAN模型捕獲文本中命名實體的字符信息,使其更好地挖掘出不同命名實體之間的細(xì)微差別,進(jìn)一步捕獲命名實體中字符之間的位置信息,同時強(qiáng)調(diào)了字符與單詞之間的關(guān)聯(lián)性,并與WGAN模型實現(xiàn)信息互補,以增強(qiáng)命名實體之間的辨識度;最后利用CRF對文本中的命名實體進(jìn)行識別。WCGAN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 WCGAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of WCGAN
WCGAN方法的具體步驟如下:
1)通過WGAN得到命名實體的詞表示形式uw,利用CGAN得到命名實體中的字符表示形式uc。
2)將詞和字符信息進(jìn)行融合,獲得字符增強(qiáng)型的命名實體特征u,計算公式如式(11)所示:
3)利用CRF獲取命名實體的標(biāo)簽預(yù)測值[27],計算公式如式(12)所示:
可見,本文提出的WCGAN方法利用字符信息能有效增強(qiáng)命名實體的辨識度。
為驗證WCGAN方法的有效性,在兩組中文實驗數(shù)據(jù)集上進(jìn)行測試驗證并與WGAN和CGAN模型進(jìn)行比較,同時使用精確率、召回率和F值作為評價指標(biāo)確保結(jié)果的正確性和一致性。
本文使用的數(shù)據(jù)集為:1)ResumeNER公開數(shù)據(jù)集[4],該數(shù)據(jù)集包括國家、教育、人名、組織和職業(yè)5類命名實體,其中,命名實體數(shù)量為16 565,訓(xùn)練集數(shù)據(jù)量為9 380,驗證集數(shù)據(jù)量為2 185,測試集數(shù)據(jù)量為5 000;2)TourismNER自定義數(shù)據(jù)集,該數(shù)據(jù)集是筆者從各旅游網(wǎng)站收集的旅游景點、人物、地址3類命名實體,其中,命名實體數(shù)量為13 840,訓(xùn)練集數(shù)據(jù)量為5 536,驗證集數(shù)據(jù)量為4 152,測試集數(shù)據(jù)量為4 152。
本文對WCGAN方法中相關(guān)初始化參數(shù)進(jìn)行設(shè)置。WGAN詞嵌入維度為300維。CGAN采用1-of-m編碼策略,擴(kuò)展單元數(shù)量為512,當(dāng)其少于512個漢字字符時使用0進(jìn)行填充,當(dāng)其多于512時只需映射512個字符,該參數(shù)設(shè)置與CharCNN[26]類似。優(yōu)化函數(shù)為Adam,迭代次數(shù)為200,Dropout為0.25,學(xué)習(xí)率為0.02,當(dāng)?shù)?0次后將學(xué)習(xí)率設(shè)置為0.001。
為進(jìn)一步驗證WCGAN方法的優(yōu)越性,將其與目前主流的中文命名實體識別方法進(jìn)行比較:
1)CRF[28]:該方法先對文本中的命名實體進(jìn)行標(biāo)注,再使用CRF對各類命名實體的標(biāo)簽進(jìn)行預(yù)測。
2)Bi-LSTM+CRF[20]:該方法將獲得的外部單詞嵌入CRF擴(kuò)展的Bi-LSTM中進(jìn)行編碼,提高了模型運行效率,并增加了命名實體識別的準(zhǔn)確度。相關(guān)超參數(shù)的設(shè)置如下:學(xué)習(xí)率為0.005,優(yōu)化函數(shù)為SGD,丟碼率為0.5,隱藏層維度為100,外部詞嵌入維度為100。
3)Bi-LSTM+CNN+CRF[12]:該方法利用卷積神經(jīng)網(wǎng)絡(luò)提取命名實體的字符信息,并將不同字符之間的信息進(jìn)行組合,輸入Bi-LSTM中對每個單詞的上下文進(jìn)行建模,然后使用CRF模型進(jìn)行解碼,其在無需特征工程的情況下提高了命名實體的識別效果。相關(guān)超參數(shù)的設(shè)置如下:詞嵌入維度為100,優(yōu)化函數(shù)為SGD,學(xué)習(xí)率為0.015,批處理大小為10。
4)Char-Dense[27]:該方法利用密集連接網(wǎng)絡(luò)捕獲命名實體的字符信息,能有效減少訓(xùn)練時間,并提高字符位置信息利用率及模型魯棒性和有效性。該方法使用Adam作為優(yōu)化函數(shù)。
5)CAN-NER[4]:該方法使用卷積神經(jīng)網(wǎng)絡(luò)捕獲文本中命名實體的字符信息,并利用自注意力機(jī)制和GUR模型來刻畫相鄰字符之間的關(guān)聯(lián)性和句子的上下文語義信息。
6)LSTM+CRF[6]:該方法利用不同通道來捕獲中文社交網(wǎng)絡(luò)中的命名實體,采用隨機(jī)化嵌入詞向量的方式將命名實體嵌入到網(wǎng)絡(luò)層中,并將不同的通道參數(shù)進(jìn)行共享,使得該方法能更好地捕獲文本中命名實體的上下文信息。
3.3.1 WGAN中不同識別模型對識別效果的影響
為驗證WCGAN方法中WGAN和CGAN模型對命名實體識別的影響,以ResumeNER和TourismNER數(shù)據(jù)集為基準(zhǔn)數(shù)據(jù)集進(jìn)行實驗測試,結(jié)果如表1所示。
表1 不同識別模型的實驗結(jié)果對比Table 1 Comparison of experimental results of different recognition models %
由表1可以看出:1)WCGAN方法的F值在兩種數(shù)據(jù)集上均表現(xiàn)最好,分別為93.491%和92.860%,相比WGAN模型分別提高了2.119和1.939個百分點,其主要原因為WCGAN方法使用字符信息增加了關(guān)鍵單詞的關(guān)注度,并進(jìn)一步強(qiáng)調(diào)單詞中字符與字符之間的關(guān)聯(lián)性和位置信息,從而實現(xiàn)了信息互補,相比CGAN模型分別提高了1.238和1.380個百分點,其主要原因為CGAN模型丟失了大量的單詞信息;2)CGAN模型相比WGAN模型F值更高,其主要原因為WGAN模型在捕獲單詞信息時,忽略了命名實體單詞中字符與字符之間的關(guān)聯(lián)性以及命名實體之間的細(xì)微差別,從而導(dǎo)致WGAN模型的識別效果劣于CGAN模型。
3.3.2 WGAN中不同命名實體對識別效果的影響
為驗證WCGAN方法的準(zhǔn)確性,對ResumeNER和TourismNER數(shù)據(jù)集中不同命名實體的識別效果進(jìn)行實驗測試。不同命名實體的混淆矩陣如圖3所示。從圖3中可以較為直觀地看出不同命名實體在ResumeNER和TourismNER數(shù)據(jù)集中的分類效果,其中O在圖3(a)和圖3(b)中的F值均為最高,其主要原因為中文文本中非實體占比較大。
圖3 不同命名實體的分類結(jié)果Fig.3 Classification results of different named entities
3.3.3 WGAN在小樣本數(shù)據(jù)集上的識別效果
為驗證WCGAN方法對小樣本數(shù)據(jù)集中命名實體的識別效果,以ResumeNER基準(zhǔn)數(shù)據(jù)集為基礎(chǔ),分別使用1%、10%、20%、30%和40%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)并迭代20次,剩余數(shù)據(jù)中測試和驗證數(shù)據(jù)的數(shù)量均等,實驗結(jié)果如圖4所示。
圖4 在小樣本數(shù)據(jù)集上的識別結(jié)果Fig.4 Recognition results on small sample datasets
由圖4可以看出:1)隨著訓(xùn)練數(shù)據(jù)集的增加,F(xiàn)值逐漸升高,WCGAN方法的F值相比CGAN和WGAN模型更高,其主要原因為WCGAN方法對字符和單詞建立關(guān)聯(lián)性,且使用不同模型學(xué)習(xí)相應(yīng)的特征信息形成信息互補;2)隨著數(shù)據(jù)集規(guī)模的增加,3種方法的損失值也有所下降,且WCGAN方法的損失值始終處于最低狀態(tài),這表明在相同超參數(shù)的情況下,WCGAN方法能更好地學(xué)習(xí)命名實體的特征。
3.3.4 命名實體識別方法性能對比
為驗證WCGAN方法的命名實體識別性能優(yōu)勢,將其與目前主流的中文命名實體識別方法進(jìn)行對比,實驗結(jié)果如表2所示。由表2可以看出:1)與CRF方法相比,LSTM+CRF、Bi-LSTM+CRF和Bi-LSTM+CNN+CRF方法具有更好的識別效果,其主要原因為這些方法使用組合模型更好地捕獲了文本中命名實體的深層抽象信息,并在一定程度上解決了淺層機(jī)器學(xué)習(xí)方法使用人工參與設(shè)置特征帶來的誤差問題;2)與Char-Dense方法相比,CAN-NER方法在兩個基準(zhǔn)數(shù)據(jù)集上的F值分別提高了2.640和2.953個百分點,結(jié)果表明注意力機(jī)制能更好地捕獲文本命名實體的序列信息,并對文中的關(guān)鍵信息進(jìn)行突出,驗證了注意力機(jī)制在命名實體識別方面的有效性;3)WCGAN方法在兩種基準(zhǔn)數(shù)據(jù)集均取得了較好的識別效果,其主要原因為WCGAN方法能捕獲命名實體的單詞信息、字符信息以及字符與字符之間的位置信息,并且強(qiáng)調(diào)了字符與單詞之間的關(guān)聯(lián)性。
表2 7種命名實體識別方法的性能對比Table 2 Performance comparison of seven NER methods %
3.3.5 可視化結(jié)果
為驗證WCGAN方法能更好地捕獲命名實體的字符信息以及增強(qiáng)單詞的表征能力,本文以TourismNER基準(zhǔn)數(shù)據(jù)集為實驗數(shù)據(jù),同時展示了多種命名實體識別方法的可視化結(jié)果,顏色越亮表示字符越重要。由圖5可以看出,WCGAN方法能有效捕獲命名實體的關(guān)鍵字符信息,在旅游命名實體“山海長城馳名中外”中“山”、“海”“、長”和“城”4個字符就被突出顯示。由此可見,WCGAN方法在捕獲細(xì)節(jié)特征方面效果更好。
圖5 字符信息的可視化結(jié)果Fig.5 Visual results of character information
本文提出基于單詞-字符引導(dǎo)注意力網(wǎng)絡(luò)的中文旅游命名實體識別方法。通過單詞引導(dǎo)注意力網(wǎng)絡(luò)和字符引導(dǎo)注意力網(wǎng)絡(luò)模型捕獲命名實體的單詞特征和字符信息,同時在單詞和字符之間建立關(guān)聯(lián)關(guān)系,并利用字符信息增強(qiáng)單詞特征的表征能力,使得字符信息和單詞特征間形成信息互補。在ResumeNER和TourismNER基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,WCGAN方法能有效提高中文命名實體的識別效果。下一步將在無外部嵌入特征的情況下,研究基于圖卷積神經(jīng)網(wǎng)絡(luò)的中文旅游文本命名實體識別方法。