環(huán)科尤,華卻才讓,才讓當(dāng)知,多杰才讓
(1. 青海師范大學(xué) 計算機學(xué)院,青海 西寧 810016;2. 藏語智能信息處理及應(yīng)用國家重點實驗室,青海 西寧 810008;3. 青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008)
命名實體識別(Named Entity Recognition,NER)是自然語言處理(Natural Language Processing,NLP)任務(wù)中重要的基礎(chǔ)性工作之一,其主要目的是識別給定文本中的命名實體。NER還可用于處理很多下游NLP任務(wù),例如,句法分析、關(guān)系提取、事件提取、問答系統(tǒng)和機器翻譯等。而格薩爾史詩經(jīng)典版本《霍嶺》中史詩人物超過了1 000人、場景或故事地點達(dá)800多個,生活用具1 000多種,武器鎧甲等400多種,甚至戰(zhàn)馬名稱也多達(dá)140多個,戰(zhàn)神等神祇更是多達(dá)400多個[1]。若對實體如此龐雜的史詩語料做命名實體自動識別處理,將有助于提升下游藏文信息處理領(lǐng)域的質(zhì)量。
目前,在英文和漢文的命名實體識別方面相關(guān)研究者已經(jīng)做了許多研究,并且研究內(nèi)容和實驗成果也相對很好[2-6]。而藏文命名實體識別研究中,于洪志[7]、竇嶸[8]和金明[9]等融合詞典和基于規(guī)則方法進(jìn)行了藏文命名實體識別的初步嘗試,是最早可查的關(guān)于此領(lǐng)域的研究成果。后來,加羊吉[10]、華卻才讓[11]和珠杰[12]等用了基于混合和基于神經(jīng)網(wǎng)絡(luò)的方法來研究藏文命名實體。其中,華卻才讓[11]、加羊吉[10]、劉飛飛[13]和貢保才讓[14]等研究了三大類的藏文命名實體。其他研究者研究了一類實體的識別性能。對比以上論文及實驗結(jié)果發(fā)現(xiàn),目前研究三大類藏文命名實體識別中最高的綜合性能為89.09%[10],以及研究單一類藏文命名實體識別中最高的F值分別是藏文機構(gòu)名為91.09%[11]、藏文人名為88.30%[15]、藏文地名為88.45%[16]。
除上述命名實體識別研究的不同方法,各實驗數(shù)據(jù)的內(nèi)容及規(guī)模也有所不同。尤其是藏文命名實體的類型與數(shù)量部分,實體的標(biāo)注類型僅限于人名、地名和機構(gòu)名,識別類型相對較少,未見到針對特定領(lǐng)域命名實體自動識別的研究文獻(xiàn)。為此藏文命名實體識別存在進(jìn)一步研究和提升的空間,為進(jìn)一步豐富藏文命名實體的研究領(lǐng)域,補充和構(gòu)建不同領(lǐng)域的語料數(shù)據(jù)資源庫。本研究以具有豐富藏文命名實體類型的格薩爾史詩為研究對象,主要以格薩爾史詩經(jīng)典版本《北方降魔》《霍嶺大戰(zhàn)》《悶嶺大戰(zhàn)》和《姜嶺大戰(zhàn)》等著名的四部降魔史[17]的文獻(xiàn)資源為基礎(chǔ),提出了以藏文音節(jié)(Tibetan Syllable,TS)為基本單元的TS-BILSTM-CRF的格薩爾史詩命名實體識別(簡稱GesarNER)方法。將格薩爾文獻(xiàn)中的命名實體歸納總結(jié),并分為六種類型,以半自動方式標(biāo)注了較大規(guī)模的格薩爾命名實體語料庫,經(jīng)實驗取得了良好的結(jié)果。
格薩爾史詩的命名實體非常豐富,該史詩中除了包含傳統(tǒng)的人名、故事地名、組織機構(gòu)名等的命名方式外,還包括其獨具特色的神祗、神獸坐騎、武器鎧甲等實體,每種實體被賦予了獨特的文化背景。本文依據(jù)格薩爾史詩的命名實體的特征,制定了六種格薩爾命名實體類型,具體內(nèi)容如下。
人名實體以人類為區(qū)分個體,給每個個體給定的特定名稱符號,即每個人都有的一種代號[18]。本文研究的格薩爾史詩中人名實體主要包括人名和神祗名,其結(jié)構(gòu)特征以四音節(jié)和六音節(jié)為主。
地名實體是指人們賦予某一特定空間位置上對自然或人文地理實體的專有名稱[20]。本文研究的格薩爾史詩中,地名實體主要以四、六音節(jié)為主,包括場景、宮殿和城堡。
格薩爾史詩是多領(lǐng)域研究的知識資源,本文從命名實體識別的角度來探索及研究,并制定了六種類型的格薩爾命名實體。其中,第六種實體類型是生活用具及需要分類但還未分類的其他實體組成,這種類型的實體特征暫時無法詳細(xì)地歸納,需要進(jìn)一步研究。
在自然語言處理中,詞向量表示也稱分布式表示(Distributed Representation)或詞嵌入(Word Embedding),其目標(biāo)是將語言的基本單元用最優(yōu)化的向量表示,以便計算機能夠更好地理解自然語言[22]。藏文詞向量表示的語言單元為構(gòu)件、字丁、字、音節(jié)和詞等,其中音節(jié)作為詞向量的語言單元,其預(yù)處理效果優(yōu)于其他語言單元,只要解決藏文緊縮詞對音節(jié)邊界的影響即可。
藏文音節(jié)是指以藏文音節(jié)點為界限的藏文字符組合,是由藏文字丁構(gòu)成的最小的語言基本單位[23]。以藏文音節(jié)為基本單元的語料處理方法有兩種,一種是按音節(jié)點和特殊符號來切分音節(jié);另一種是在第一種方法的基礎(chǔ)上采用規(guī)則和還原法來切分緊縮音節(jié)。前者保留了原語料的完整正結(jié)構(gòu)和文法接續(xù)特征,對信息抽取和句法分析、語義分析等自然語言處理的下層任務(wù)有很好的支撐作用。后者雖然較大地提升了分詞的效果,但會破壞原語料的語言結(jié)構(gòu),出現(xiàn)多余的字詞,不符合藏文語法規(guī)律,因此,本文的預(yù)處理方法是第一種方法,其方法沒有改變原語料的語法規(guī)律、處理效率優(yōu)于第二種方法,省時省力。兩種方法的結(jié)果如表1所示。
表1 藏文音節(jié)基本單元的切分結(jié)果對比
算法1 格薩爾史詩的實體邊界算法Input: 讀入格薩爾史詩TextOutput: 抽取格薩爾史詩Named entity1.entitys 識別Text中所有實體2. outputs []3. θ <-實體詞綴是緊縮4. ψ <-含有詞綴ra的特殊實體集合5. φ <-含有詞綴sa的特殊實體集合6. For entity ∈ entitys Do7. words = entity8. If words[-1][-2:] in θ Then9. outputs.add(entity[:-2])10. Else If words[-1] not in ψ and words[-1][-1]=="ra" Then11. outputs.add(entity[:-1])12. Else If words[-1] not in φ and words[-1][-1]=="sa" Then13. outputs.add(entity[:-1])14. Else15. outputs.add(entity)16. Return Outputs
長短時記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),它能夠在更長的序列中有更好的表現(xiàn),同時能解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。LSTM單元結(jié)構(gòu)如圖1所示。
LSTM的核心主要包括遺忘門、輸入門、輸出門以及記憶Word。輸入門與遺忘門兩者的共同作用就是舍棄無用的信息,把有用的信息傳入到下一時刻。對于整個結(jié)構(gòu)的輸出,主要是記憶Word的輸出和輸出門的輸出相乘所得到的。其結(jié)構(gòu)如式(1)~式(6)所示。
it=σ(Wxixt+Whiht -1+Wcict -1+bi)
(1)
zt=tanh(Wxcxt+Whcht -1+bc)
(2)
ft=σ(Wxfxt+Whfht -1+Wcfct -1+bf)
(3)
ct=ftct -1+ittanh(Wxcxt+Whcht -1+bc)
(4)
ot=σ(Wxoxt+Whoht -1+Wcoct+bo)
(5)
ht=ottanh(ct)
(6)
其中,σ是sigmoid函數(shù)。W是權(quán)重矩陣,b是偏置向量,it,ft,ot分別是輸入門、遺忘門及輸出門和單元向量,zt是待增加的內(nèi)容,ct是t時刻的更新狀態(tài),ht則是整個LSTM單元t時刻的輸出。在序列標(biāo)記中可以在給定的時間內(nèi)同時獲得過去和未來的輸入特征,因此我們利用了文獻(xiàn)[24]中提出的雙向LSTM網(wǎng)絡(luò),雙向長短時記憶網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
在預(yù)測當(dāng)前標(biāo)簽時,BILSTM善于處理長距離的上下文信息,但無法處理標(biāo)簽間的依賴信息。CRF比其他概率圖模型能夠利用更加豐富的標(biāo)簽分布信息,能通過鄰近標(biāo)簽的關(guān)系獲得一個最優(yōu)的預(yù)測序列,并彌補BILSTM的缺點。本實驗將TS-BILSTM網(wǎng)絡(luò)與CRF網(wǎng)絡(luò)相結(jié)合,形成一個TS-BILSTM-CRF網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。
圖1 長短時記憶的單元結(jié)構(gòu)
圖2 雙向長短時記憶模型
圖3 TS-BILSTM-CRF網(wǎng)絡(luò)
實驗數(shù)據(jù)為格薩爾史詩《北方降魔》《霍嶺大戰(zhàn)》《悶嶺大戰(zhàn)》和《姜嶺大戰(zhàn)》等四部降魔史為主的文本語料。數(shù)據(jù)處理經(jīng)過了三個步驟: 首先,把收集的語料切分為句子級別的文本;其次,把句子級別的文本進(jìn)行基于音節(jié)模式的分詞;最后,在基于音節(jié)分詞的數(shù)據(jù)中識別有意義的詞匯或命名實體,經(jīng)人工校對后構(gòu)建了規(guī)模達(dá)10萬多句的實體標(biāo)注語料庫。實驗數(shù)據(jù)中訓(xùn)練集占80%,剩余作為測試集和開發(fā)集,分別對數(shù)據(jù)中的史詩人物(PER)、史詩地名(LOC)、史詩部落名(ORG)、武器鎧甲(WEA)、神獸坐騎(HER)和生活用具(LIV)進(jìn)行識別,其具體的數(shù)據(jù)統(tǒng)計如表2所示。
表2 實驗數(shù)據(jù)統(tǒng)計表
通過多次試驗來優(yōu)化參數(shù),最終各個參數(shù)設(shè)置如下: 字嵌入向量維度設(shè)置為300;優(yōu)化算法設(shè)置為隨機梯度下降法的擴展(Adaptive moment estimation,Adam);模型訓(xùn)練次數(shù)設(shè)置為2 500;批量處理個數(shù)設(shè)置為100;隱藏層神經(jīng)單元個數(shù)設(shè)置為256;學(xué)習(xí)率初始化設(shè)置為0.001;為了防止雙向長短時記憶網(wǎng)絡(luò)過擬合問題,在各模型的輸入輸出中采用Dropout,取值為0.5。
實體識別實驗需要一個初始音節(jié)向量,使用大量文本語料訓(xùn)練音節(jié)向量效率更高。本實驗把藏文音節(jié)作為模型的音節(jié)向量單位,用Word2Vec語言模型CBOW(Continuous Bag-of-Words)[25],其實驗訓(xùn)練100、200、300以及400維度的向量分別進(jìn)行對比。實驗發(fā)現(xiàn),向量維度過高,實驗數(shù)據(jù)中的噪聲容易被捕獲,出現(xiàn)過擬合情況;向量維度過低,獲取的特征信息不完整,產(chǎn)生欠擬合狀況。因此本實驗的向量維度為300,結(jié)果如圖4所示。
圖4 不同維度音節(jié)向量實驗對比
本實驗采用準(zhǔn)確率P(Precision)、召回率R(Recall)以及F(F-Score)值來評判模型的性能[26]。3個評價指標(biāo)的計算公式定義如式(7)~式(9)所示。
(1) 在有限的訓(xùn)練次數(shù)(即2 500次)內(nèi)TS-BILSTM-CRF優(yōu)于TS-GRU-CRF、TS-IDCNN-CRF、TS-LSTM和TS-LSTM-CRF的結(jié)果,所以,在該實驗中選用了雙向LSTM和CRF結(jié)合的方法。其他超參數(shù)的選取類似此對比方法。圖5是基本超參數(shù)不變只有不同迭代時刻的準(zhǔn)確率。
圖5 不同迭代時刻的準(zhǔn)確率
(2) 在已公開的藏文命名實體識別中,研究三類藏文命名實體識別的最高綜合性能為89.09%[10],研究單一類藏文命名實體識別的最高F值分別是: 組織機構(gòu)名為91.09%[11]、人名為88.30%[15]、地名為88.45%[16]。對比已公開的實驗,基于TS-BILSTM-CRF模型的人名、地名、組織機構(gòu)名,以及三類藏文命名實體識別的綜合性能分別提升了4.91個百分點、4.66個百分點、1.04個百分點、3.72個百分點。而武器鎧甲、神獸坐騎、生活用具是本文首次識別的命名實體類型,目前沒有對比系統(tǒng)。以上對比是不同模型和不同數(shù)據(jù)等不同依據(jù)下的結(jié)果,對識別方法或模型的有效性無法做出明確的評價。
為了驗證本文所提出的數(shù)據(jù)及實驗的有效性,從格薩爾史詩(以四部降魔史為主)中隨機抽取98 918條句子作為訓(xùn)練集和9 289 條句子作為測試集進(jìn)行實驗,在同一數(shù)據(jù)集上設(shè)置了基于藏文音節(jié)為基本單元的5組對比試驗,結(jié)果如表3所示。
表3 格薩爾史詩命名實體識別實驗對比
實驗表明,由于雙向LSTM能夠獲取上下文有效信息特征,再加上CRF能夠充分考慮標(biāo)注序列的順序性,得到全局最優(yōu)標(biāo)注序列。相比于其他四種模型方法,基于TS-BILSTM-CRF模型的命名實體識別的P、R和F值三項指標(biāo)分別提升了4.39個百分點、7.80個百分點、6.10個百分點。具體識別效果如表4所示。
表4 格薩爾史詩命名實體識別實驗結(jié)果
(3) 為了進(jìn)一步展現(xiàn)實驗的識別效果,本文設(shè)計了格薩爾史詩命名實體識別系統(tǒng),主要功能有命名實體識別、實體種類分析、實體出現(xiàn)次數(shù)統(tǒng)計等。其可視化系統(tǒng)界面如圖6所示。
圖6 GesarNER可視化系統(tǒng)
本文針對特定的格薩爾領(lǐng)域存在標(biāo)注數(shù)量較少且實體識別困難、識別精度不高的問題,提出了一種基于TS-BILSTM-CRF的命名實體識別方法,針對緊縮詞和實體邊界詞黏著問題,設(shè)計了格薩爾實體邊界識別算法。在自建數(shù)據(jù)集上實驗證明,基于TS-BILSTM-CRF的方法充分學(xué)習(xí)了文本的特征信息,使得P、R和F值三項指標(biāo)均有較大程度的提升,優(yōu)于本實驗的其他模型。本方法為專業(yè)領(lǐng)域的實體識別提供一種有效的解決思路。
未來工作中,將擴充格薩爾史詩命名實體標(biāo)注語料的規(guī)模,在已有研究的基礎(chǔ)上,嘗試基于BERT(Bidirectional Encoder Representation from Transformers)嵌入雙向LSTM-CRF模型,改進(jìn)格薩爾命名實體識別方法,為創(chuàng)建格薩爾知識圖譜和藏文實體抽取等任務(wù)奠定基礎(chǔ)。