楊啟萌 禹 龍 田生偉 艾山 吾買爾
指代(Anaphora)作為一種常見的語言現(xiàn)象,廣泛存在于自然語言的表達之中.它對語言的簡化表達、主題的突出性描述和語言表達連貫性起著重要的作用.對指代成分準確無歧義的消解有助于機器分析和語篇理解[1].在語言學(xué)中,指代詞稱為照應(yīng)語(Anaphor),用于指向另一個語言單位,被指代詞稱為先行語(Antecedent),用于被指向的語言單位,指代消解(Anaphora Resolution)就是確定照應(yīng)語所指代的先行語的過程[2].維吾爾語人稱代詞指代消解是研究人稱代詞與句中名詞和名詞性短語的指代關(guān)系,圖1 給出維吾爾語人稱代詞指代消解例句.
圖1 維吾爾語人稱代詞指代消解例句Fig.1 The example of Uyghur personal pronoun anaphora resolution
如果一個人稱代詞存在指代關(guān)系,那么它與相關(guān)文本中的一個或多個提及的名詞或名詞性短語關(guān)聯(lián).本句中“(吾斯英)”和“(他)”存在指代關(guān)系,“(布葛熱汗)”和“(他)”不存在指代關(guān)系.
近年來,隨著深度學(xué)習(xí)技術(shù)在語音識別、計算機視覺、圖像識別等領(lǐng)域的重大突破,學(xué)者們嘗試將深度學(xué)習(xí)模型應(yīng)用于自然語言處理任務(wù)中.例如Kim使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)進行句子建模,解決情感分類任務(wù)[3],Irsoy等使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)進行意見分析[4],Tai 等使用長短時記憶網(wǎng)絡(luò)(Long short term memory network,LSTM)解決情感分類問題[5],這些基于深度學(xué)習(xí)的方法在自然語言處理任務(wù)中取得了比以往研究更好的分類效果.
指代消解作為自然語言處理一個重要子任務(wù),深度學(xué)習(xí)模型在指代消解中得到廣泛的研究.這些研究關(guān)注照應(yīng)語和候選先行語的語義信息,應(yīng)用大量的神經(jīng)網(wǎng)絡(luò)模型進行候選先行語預(yù)測[6?8].目前的研究主要針對中文和英文等具有充足語料庫的語種,對維吾爾語等小語種的研究不夠深入,針對小語種的研究無論是語料標注還是實體識別都需要掌握多級語法知識、語義知識,甚至相應(yīng)語言領(lǐng)域知識,在當前自然語言處理的研究階段,要獲取和學(xué)習(xí)研究中所需知識仍比較困難.人稱代詞指代消解作為指代消解任務(wù)更細粒度的一個分支,不僅依賴照應(yīng)語和候選先行語特征信息,還要關(guān)注距離特征和上下文語境信息.例如句子:
(因為吾斯英是當代的大學(xué)者之一,所以布葛熱汗尊敬他)
我們普遍認為與照應(yīng)語距離越近的候選先行語存在指代關(guān)系概率越大,根據(jù)候選先行語“(吾斯英)”、“(學(xué)者)”和“(布葛熱汗)”,很難推斷“(吾斯英)”是否為照應(yīng)語“(他)”正確的先行語,在這種情況下,研究者會錯誤地判斷“(布葛熱汗)”為“(他)”的先行語,因為文本中“(布葛熱汗)”與“(他)”距離更近.但是,候選先行語“(吾斯英)”才是照應(yīng)語“(他)”正確的先行語.所以,人稱代詞指代消解應(yīng)該充分考慮候選先行語距離特征和更深層次的語境信息.
針對以上問題,本文提出基于多注意力機制的深度學(xué)習(xí)模型應(yīng)用于維吾爾語人稱代詞指代消解任務(wù).注意力機制最早應(yīng)用于視覺圖像領(lǐng)域,目的是在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中將注意力集中到圖像的特定部分.Mnih 等首次提出在RNN 模型上使用注意力機制進行圖像分類[9],驗證了注意力機制在圖像處理領(lǐng)域的有效性.隨后Bahdanau 等將注意力機制應(yīng)用于機器翻譯任務(wù)[10],模型取得了顯著的效果并使注意力機制成功應(yīng)用于自然語言處理領(lǐng)域.隨著研究不斷深入,Yin 等提出基于注意力機制的卷積神經(jīng)網(wǎng)絡(luò)進行句子建模[11],Wang 等使用基于注意力機制的LSTM 解決細粒度的情感分析問題[12],這些方法的提出驗證了注意力機制結(jié)合深度學(xué)習(xí)模型的有效性.
本文結(jié)合三種注意力機制來構(gòu)造CMAIR 模型:1)詞向量注意力機制:突出照應(yīng)語和候選先行語的重要程度,2)距離注意力機制:有效表達不同詞語對消解結(jié)果的貢獻度,3)詞性注意力機制:是句中詞和詞性的關(guān)聯(lián).同時,本文結(jié)合IndRNN 構(gòu)造語境特征,并將這4 種特征作為模型的輸入,可以從多個層面學(xué)習(xí)詞語級和句子級特征信息,提高指代消解性能.
本文提出的CMAIR 模型使用3 種注意力機制和語境特征構(gòu)建模型,使模型關(guān)注多種特征信息.最后,將CMAIR 模型在維吾爾語數(shù)據(jù)集進行實驗,實驗結(jié)果表明,本方法取得了比以往研究更好的分類效果.本文的主要貢獻有5 方面:
1)提出一種結(jié)合語境的多注意力獨立循環(huán)網(wǎng)絡(luò)(CMAIR)應(yīng)用在維吾爾語人稱代詞指代消解任務(wù)中,實驗取得了當前研究最好效果;
2)本文首次考慮結(jié)合語境的深度學(xué)習(xí)模型,學(xué)習(xí)詞序關(guān)聯(lián)和依賴關(guān)系,結(jié)合語境信息增強了特征表達力;
3)本文提出的詞向量、詞性、距離注意力機制能從三方面獲取更深層次的特征信息,彌補了單注意力機制僅關(guān)注內(nèi)容層面信息的不足;
4)CMAIR 模型結(jié)構(gòu)簡單,具有很強的魯棒性和泛化能力,無需額外的句法分析和語義依存分析相關(guān)知識;
5)提出一種距離識別算法,能準確計算待消解對距離,識別不同詞在句中重要程度,使CMAIR 可以充分利用距離信息.
指代消解作為自然語言處理重要子任務(wù),是細粒度的文本分類任務(wù),更加關(guān)注照應(yīng)語和候選先行語深層次語義特征,一直以來都得到眾多學(xué)者的研究和關(guān)注.Soon 等首次給出利用機器學(xué)習(xí)的方法進行指代消解基本步驟,其思想是把指代消解任務(wù)看作二分類問題,從已標注好的語料庫中提取語料的各類詞法、語法、語義特征作為消解框架的輸入并利用分類器完成指代消解任務(wù)[13];Ng 等對Soon 等研究進行了改進,抽取53 個特征,指代消解的效果有顯著地改善[14];Yang 等提出將特征方法和聚類相結(jié)合,模型消解性能有較大的提高[15];這些方法通過傳統(tǒng)的機器學(xué)習(xí)構(gòu)造文本語法、句法等特征,能充分利用文本內(nèi)容層面特征,有效進行指代關(guān)系識別.此外,指代消解在多種語言已得到廣泛的研究.
近年來,隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的廣泛應(yīng)用,許多研究者也利用深度學(xué)習(xí)方法解決指代消解任務(wù).Chen 等針對此問題提出一種深度神經(jīng)網(wǎng)絡(luò)模型,在他們的工作中,照應(yīng)語和候選先行語用前饋神經(jīng)網(wǎng)絡(luò)編碼[16].Clark 等嘗試對指代消解的一種神經(jīng)網(wǎng)絡(luò)Mention Rank 模型的啟發(fā)式損失函數(shù)中的超參數(shù)利用強化學(xué)習(xí)方式進行優(yōu)化,提出一種獎勵衡量機制,跟其他方式相比結(jié)果突出[17].Iida等提出一種句內(nèi)主題指代關(guān)系并利用多列卷積神經(jīng)網(wǎng)絡(luò)(Multi-column CNN)來預(yù)測指代關(guān)系,在多個基準測試中取得了很好的結(jié)果[8].Yin 等建立一個深度記憶網(wǎng)絡(luò)獲取零代詞和先行語語義關(guān)聯(lián)信息[18].這些方法使用深度學(xué)習(xí)技術(shù)來解決指代消解問題,可以在不需要依存樹、句法關(guān)系的情況下通過深度神經(jīng)網(wǎng)絡(luò)更好地學(xué)習(xí)文本的深層次特征信息,取得了比傳統(tǒng)機器學(xué)習(xí)方法更好的分類效果.
針對維吾爾語指代消解問題,目前已有學(xué)者進行研究.李敏等提出一種基于棧式自編碼深度學(xué)習(xí)的算法進行維吾爾語名詞短語指代消解[19].田生偉等挖掘維吾爾語隱含的上下文語義層面特征,提出利用BiLSTM 的深度學(xué)習(xí)機制進行基于深層語義信息的維吾爾語人稱代詞指代消解,維吾爾語人稱代詞指代消解的F 值達到76.86%,證明了該方法的有效性[20].李冬白等通過堆疊多層RBM 網(wǎng)絡(luò)和一層BP 網(wǎng)絡(luò)構(gòu)建DBN 深度網(wǎng)絡(luò)學(xué)習(xí)模型,經(jīng)過維吾爾語語料庫測試,F 值達到83.81%,該方法能有效提升維吾爾語人稱代詞指代消解性能,推動了維吾爾語指代消解的研究[21].
本文提出的CMAIR 模型與現(xiàn)有技術(shù)的主要區(qū)別在于多注意力機制和IndRNN 的應(yīng)用,我們將指代消解作為多注意力機制和IndRNN 環(huán)境下關(guān)注詞語重要程度和學(xué)習(xí)文本深層次語境特征的過程.在IndRNN 模型的幫助下,CMAIR 模型學(xué)習(xí)以順序的方式對候選先行語進行分類,從而做出全局最優(yōu)的決策.
獨立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN)是由Li 等提出的一種新型網(wǎng)絡(luò)結(jié)構(gòu),不僅可以解決傳統(tǒng)RNN 所存在的梯度消失和梯度爆炸問題,還學(xué)習(xí)長期依賴關(guān)系;此外,借助ReLU 等非飽和激活函數(shù),訓(xùn)練之后IndRNN 更具魯棒性,并且通過堆疊多層IndRNN還可以構(gòu)建比現(xiàn)有RNN 更深的網(wǎng)絡(luò)[22].實驗結(jié)果表明,與傳統(tǒng)的CNN 和LSTM 相比,使用IndRNN可以在各種任務(wù)中取得更好的結(jié)果.IndRNN 基本結(jié)構(gòu)如圖2 所示.
圖2 IndRNN 結(jié)構(gòu)圖Fig.2 The structure diagram of IndRNN
其中weight 和Recurrent+ReLU 表示每一時間步對輸入的處理步驟,ReLU 是激活函數(shù),為了加速訓(xùn)練,每層之后插入了批標準化(Batch normalization,BN),通過堆疊這種基礎(chǔ)架構(gòu),可以建立一個深度IndRNN 網(wǎng)絡(luò).其用公式可以表示為:
其中循環(huán)權(quán)重μ是一個向量,⊙表示Hadamard積(對應(yīng)元素相乘).同一圖層中的每個神經(jīng)元都與其他神經(jīng)元不相連,通過疊加兩層或更多層的IndRNN,可以將神經(jīng)元連接.對于第n個神經(jīng)元,隱藏層hn,t可以通過以下公式得到:
其中wn和un分別表示第n行的輸入權(quán)重和當前權(quán)重,每個神經(jīng)元只接收當前狀態(tài)隱藏層和輸入信息.IndRNN 中的每個神經(jīng)元都有獨立的時空特征,隨著參數(shù)被共享,RNN 被視為多層感知器.與傳統(tǒng)的RNN 不同,IndRNN 將隨時間獨立地聚合空間模式.
由于權(quán)重層用來處理輸入,可以將其自然地擴展到其他多個圖層中加深處理過程.IndRNN 結(jié)構(gòu)簡單,也可以很容易地添加到不同的網(wǎng)絡(luò)結(jié)構(gòu)中.
對于分詞后長度為n的句子,保留句中名詞、名詞短語和人稱代詞,去除其他詞語,得到s={w1,w2,···,wi,···,ai,···,wn},其中wi為第i個分詞,ai為人稱代詞.分別把s中詞語逐個向前匹配得到待消解對,例如ai逐個向前匹配得到{aiwi?1,aiwi?2,aiwi?3,···,aiw1,},本文的任務(wù)是針對ai確定其正確對應(yīng)的先行語,完成維吾爾語指代消解,例如句子:
(因為吾斯英是當代的大學(xué)者之一,所以布葛熱汗尊敬他)
本文通過三種注意力機制充分利用文本語義信息,輸入CNN 進行卷積核池化操作提取文本局部特征,并結(jié)合IndRNN 挖掘深層次語境信息從而有效完成指代消解任務(wù).如圖3 所示,CMAIR 模型主要由5 部分組成:
圖3 多注意力機制IndRNN 模型框架圖Fig.3 IndRNN model framework with multiple attention mechanisms
1)注意力矩陣輸入層:存儲三種注意力機制的注意力特征向量信息.
2)CNN 層:將3 種注意力特征向量和handcrafted 特征向量合并為輸入特征矩陣,依次進行卷積和池化操作,為了使網(wǎng)絡(luò)模型結(jié)構(gòu)簡單化,本文選用一層卷積的方式進行輸入數(shù)據(jù)提取局部特征,并使用最大池化進一步降低數(shù)據(jù)計算復(fù)雜度,CNN 層可以保留文本豐富的重要局部特征.
3)IndRNN 層:將長度為n的句子s={w1,w2,w3,···,wi,···,wn}的詞向量依次輸入IndRNN 中,其中wi為第i個分詞,IndRNN 可以學(xué)習(xí)文本長期依賴關(guān)系,挖掘更深層次語境特征,用于后續(xù)的處理過程.
4)全連接層:用于結(jié)合模型中CNN 層提取的局部特征和IndRNN 提取的語境特征,形成輸入特征向量的綜合表示,并作為輸出層的輸入.
5)輸出層:本文選用Softmax分類器進行分類,從而確定照應(yīng)語和候選先行語指代關(guān)系.分類結(jié)果中,對于一個照應(yīng)語Anaphor和n個候選先行語Antecedent,Antecedentk(k=1,2,···,n)為照應(yīng)語Anaphor正確對應(yīng)的先行語.
為了更好地識別候選先行語和人稱代詞指代關(guān)系,本文使用3 種注意力機制使模型從不同層面關(guān)注實體重要信息,并加入IndRNN 學(xué)習(xí)文本長期依賴關(guān)系,挖掘文本語境信息,獲取語境特征,結(jié)合3種注意力機制作為模型的輸入,并在全連接層加入語境特征能有效減少模型復(fù)雜度提高指代消解性能.
如表1 所示,對于長度為n的句子s={w1,w2,w3,···,wi,···,wn},其中wi為第i個分詞,分別對wi標注句中成分,并將每個詞語映射為k維向量,對于句子s依次按時序把wi輸入IndRNN 學(xué)習(xí)詞語長期依賴關(guān)系并獲取語境特征,取指代鏈中候選先行語和照應(yīng)語兩兩匹配形成待消解對,再從詞典提取待消解對中候選先行語和照應(yīng)語詞向量、詞性向量和距離向量構(gòu)建3 種注意力機制.
表1 詞語句中成分標注Table 1 Component labeling of words in sentences
1)詞向量注意力機制:提取待消解對中候選先行語、照應(yīng)語詞向量,并分別與其他詞向量矩陣做運算操作得到詞向量注意力特征矩陣,這是待消解對中對于文本內(nèi)容層面的注意力.
2)詞性注意力機制:是詞和詞性關(guān)聯(lián)的屬性,是對詞向量注意力的進一步補充,可以讓模型從另一方面關(guān)注待消解對,從而學(xué)到更多隱藏信息.
3)距離注意力機制:該方法是融合待消解對中候選先行語與照應(yīng)語間隔詞語詞向量的方式作為待消解對距離表示.結(jié)合其他兩種注意力機制可以充分表述句中每個詞語的重要程度.
4)語境特征:是句子級的特征表達和注意力機制的補充,可以學(xué)習(xí)句中詞連續(xù)性和長期依賴關(guān)系.
融合3 種注意力機制作為模型的輸入,可以從不同角度關(guān)注待消解對特征信息,在全連接層加入語境特征可以更準確表達待消解對關(guān)系,并減小網(wǎng)絡(luò)復(fù)雜度,從而可以有效識別指代關(guān)系,提高指代消解性能.
注意力機制是使模型在訓(xùn)練過程中高度關(guān)注特定信息,以達到更好的分類效果.對于人稱代詞指代消解任務(wù),文本內(nèi)容層面信息最為重要,多方面關(guān)注分析照應(yīng)語和候選先行語語義信息可提高指代消解性能.
本文提出詞向量注意力機制用于維吾爾語人稱代詞指代消解任務(wù).對于完整句子s={w1,w2,w3,···,wi,···,wn},wi為第i個分詞,提取詞典中wi詞向量矩陣,再根據(jù)式(3)、(4)和其他詞向量矩陣做運算操作獲取詞向量注意力特征矩陣CT.
其中vvvi為分詞wi詞向量,Zt?1為分詞wi在上一時刻t ?1 的上下文信息,fATT為softmax打分函數(shù),矩陣CT表示每一個詞語的重要程度(即概率),注意力特征矩陣CT可以改寫成下式:
其中α為可調(diào)參數(shù),表示每一個詞重要程度.利用得到的注意力特征矩陣和wi詞向量矩陣運算即可得到模型輸入矩陣:
其中⊕表示拼接操作,本文采用注意力特征矩陣和原詞向量簡單拼接操作構(gòu)建模型輸入矩陣.
照應(yīng)語和候選先行語內(nèi)容層面分析是指代消解的關(guān)鍵,對于候選先行語和照應(yīng)語在詞典中出現(xiàn)頻率較低的情況下僅使用詞向量注意力機制會降低指代消解準確率.針對此問題提出一種基于詞性注意力機制用于彌補僅關(guān)注文本內(nèi)容層面信息的不足.
針對句子s={w1,w2,w3,···,wi,···,wn},本文對句中每個分詞詞性進行重新標注,標注結(jié)果如表2 所示.
表2 詞性標注Table 2 Part of speech tagger
標注結(jié)果是標注詞語和詞性的組合,是標注詞語和詞性的關(guān)聯(lián),對于長度為n的句子,可以將標注結(jié)果表示為式(7)的形式,其中wi是第i個詞,ci是詞性,⊕為拼接操作.
對于候選先行語是名詞短語情況,由于名詞短語包含多個詞語,處理方式和以上不同.針對這種情況,本文提取名詞短語中所有詞語的詞向量注意力矩陣,并按照式(8)的方式獲取名詞短語詞性注意力特征矩陣:
α是名詞短語重要程度,可以手動設(shè)置也可以在模型訓(xùn)練過程中自動學(xué)習(xí).
和詞向量處理方式一樣,提取所有句中標注結(jié)果映射為詞性向量矩陣RK×V,其中K為詞典大小,V為每一個詞性標注結(jié)果映射的詞向量維度,即為詞性注意力矩陣.指代消解對中提取候選先行語和照應(yīng)語詞性注意力矩陣并按照式(3)、(4)獲取詞性特征注意力矩陣.
先行語和照應(yīng)語的距離隱藏著重要信息,對提高指代消解性能起著關(guān)鍵作用.本文提出兩種距離計算方式,第一種方式為對于候選先行語wi和照應(yīng)語wn提取所有間隔詞語wi+1,n?1,提取方式如圖4所示,并從詞典提取W中所有詞向量并通過算法1中式(9)運算作為wi與wn距離表示,其中α為每個詞的重要程度.
圖4 距離計算方式舉例Fig.4 Example of distance calculation
第二種方式為直接計算待消解對詞語間隔個數(shù)并映射為K維詞向量并結(jié)合詞向量、詞性注意力特征矩陣和語境特征作為模型的輸入,本文使用算法1計算不同情況下待消解對距離表示.
我們普遍認為待消解對中候選先行語和照應(yīng)語距離越近存在指代關(guān)系的概率越大.對于圖4 中的例子,我們認為“(他)”和“(布葛熱汗)”存在指代關(guān)系的概率大于“(吾斯英)”,因為“(布葛熱汗)”在句中距離“(他)”最近,但是“(吾斯英)”才是“(他)”正確的先行語.針對此問題,本文提出一種距離識別算法用來準確識別待消解對中候選先行語和照應(yīng)語的距離.其計算過程如算法1 所示.
算法1.距離識別算法.
輸入.長度為n的句子s
輸出.所有指代消解對距離L
步驟1.將照應(yīng)語的位置的值置為0,所有候選先行語的位置置為n,n為句子的長度;
步驟2.定義工作指針p從照應(yīng)語的位置向前掃描;
步驟3.若掃描對象是詞語wi(非候選先行語),則將wi加入集合L,若掃描對象是標點符號,加入集合L,執(zhí)行步驟4 繼續(xù)掃描;
步驟4.若掃描對象是候選先行語,按照式φ1計算距離,其中l(wèi)en(L)為集合L的長度,fATT為詞典中詞語Li的詞向量,α為L中每一個詞語Li的重要程度,num(punc)為集合L中包含標點符號的數(shù)量;
步驟5.將集合L置空并執(zhí)行步驟2 繼續(xù)掃描,若照應(yīng)語和句中所有候選先行語匹配完成,停止掃描.
句子級的特征隱藏著重要信息,對指代消解性能的提升有重要的作用.本文從句子層面關(guān)注文本深層次信息獲取語境特征.對于長度為n的句子s={w1,w2,w3,···,wi,···,wn},把每一個分詞wi映射為k維向量wi∈RK作為獨立循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,相比于傳統(tǒng)的RNN 和LSTM 網(wǎng)絡(luò)IndRNN 可以保留長期記憶,處理長序列,訓(xùn)練得到的模型具有魯棒性,在處理長序列依賴問題方面的性能優(yōu)于傳統(tǒng)的RNN 和LSTM 模型.
針對維吾爾語人稱代詞指代消解,本文結(jié)合維吾爾語語言現(xiàn)象和語法特征,如表3 所示選擇7 個hand-crafted 特征用于消解任務(wù).
表3 hand-crafted 特征Table 3 The feature of hand-crafted
卷積神經(jīng)網(wǎng)絡(luò)可以提取文本局部特征,獲取輸入向量更多的隱藏信息,從而更好地識別指代關(guān)系.卷積層可以利用多卷積核獲取輸入結(jié)構(gòu)化特征,卷積操作得到特征向量圖:
上式中x為3 種注意力特征矩陣,w為對應(yīng)權(quán)重矩陣,b為偏置項.對于有m個卷積核的卷積操作其得到的特征圖表示如下:
池化操作可以進一步處理特征圖,保留重要特征,減少模型復(fù)雜度.對于有n個窗口的池化層下采樣后的結(jié)果表示如下:
模型采用sigmoid激活函數(shù),如式(13)所示,其中z為卷積層或池化層的輸出.
本文中池化層和IndRNN 層的輸出作為全連接層的輸入,并使用softmax分類器得到分類結(jié)果,CNN和IndRNN 的特征合并與分類如式(14)、(15)所示.
其中Wa為全連接層權(quán)重矩陣,Ac為合并特征矩陣,本文使用反向傳播進行模型訓(xùn)練并使用最小化交叉熵來優(yōu)化模型,交叉熵函數(shù)為:
其中,N為輸入樣本數(shù),y(i)為第i個樣本實際類別,則為模型預(yù)測類別.
將本文提出的方法在維吾爾語數(shù)據(jù)集上進行實驗,解決維吾爾語人稱代詞指代消解任務(wù).通過在不同神經(jīng)網(wǎng)絡(luò)進行對比實驗,證明了CMAIR 模型的有效性.在實驗過程中,本文使用Word2Vec的Skip-Gram 算法訓(xùn)練生成詞典[23].每一個詞對應(yīng)詞向量維度為150 維.在詞典處理中使用均勻分布U(?0.01,0.01)的方式隨機初始化詞典中未登陸詞,并采用去停用詞的方式進行詞典優(yōu)化,提高詞向量搜索效率.由于維吾爾語語法特征無需對其進行分詞操作,詞性信息在數(shù)據(jù)集中進行標注.對于名詞短語本文采用標注關(guān)鍵詞的方式,例如名詞短語(當代大學(xué)者之一),其中(學(xué)者)為短語關(guān)鍵詞,在提取詞向量時給予關(guān)鍵詞較大的權(quán)重,并采用短語中每一個詞向量累加求均值的方式表示名詞短語詞向量矩陣和詞性向量矩陣.
目前,中文和英文指代消解任務(wù)已經(jīng)非常成熟,標注語料完善.維吾爾語作為小語種,指代消解相關(guān)研究正在起步階段,還未見有標注數(shù)據(jù)集相關(guān)報道.因此,本文針對維吾爾語人稱代詞指代消解任務(wù)進行了數(shù)據(jù)采集和標注.
本文數(shù)據(jù)集均摘自新華網(wǎng)維吾爾文頻道和天山網(wǎng),篩選出含有人稱代詞相關(guān)數(shù)據(jù),在維吾爾語專家的指導(dǎo)下完成語料標注工作.在本次實驗中,采用427 篇標注語料.共包含數(shù)據(jù)實例44 571 條,其中存在指代關(guān)系的正例為11 831 條,不存在指代關(guān)系的負例為32 740 條.
本文使用3 種注意力機制結(jié)合語境特征完成實驗.實驗中注意力特征向量經(jīng)CNN 提取更高層次語義特征,詞序列輸入IndRNN 獲取語境特征,再由Softmax分類器得到最終分類結(jié)果.實驗結(jié)果顯示,在表4 所示參數(shù)設(shè)置時,分類效果最佳.本文采用隨機初始化參數(shù)并使用梯度下降最小化目標函數(shù)[24].另外,應(yīng)用Dropout 在CNN 和IndRNN 的輸出層以減少模型參數(shù),加速模型訓(xùn)練和防止過擬合[25].
表4 實驗參數(shù)設(shè)置Table 4 Hyper parameters of experiment
為了衡量指代消解結(jié)果的質(zhì)量,本文選用準確率(P)、召回率(R)、F 值(F)三種重要指標評測指代消解實驗結(jié)果,準確率為正確消解的個數(shù)與實際消解個數(shù)的比率,反應(yīng)模型的準確程度,召回率是正確消解的對象數(shù)與應(yīng)消解對象數(shù)的比率,反應(yīng)模型的完備性,F 值是準確率和召回率的調(diào)和平均值,計算方式為F=2×P ×R/(P+R).
為了驗證CMAIR 模型的有效性,本文將模型實驗結(jié)果與以往學(xué)者的研究結(jié)果做比較.實驗結(jié)果如表5 所示,從表中可以看出,本文提出的CMAIR模型取得了最好的分類效果(F 值為86.86%),其中相比于田生偉等實驗結(jié)果,F 值提高10%,相比于李冬白等的實驗結(jié)果F 值提高3.61%,說明該方法能有效提高維吾爾語人稱代詞指代消解性能,證明了CMAIR 模型的有效性.
表5 與以往研究對比(%)Table 5 Compared with previous studies (%)
為了研究和對比指代消解在不同模型和CMAIR 在不同情況下的性能,提出如下3 種對比實驗:1)3 種注意力機制的有效性;2)詞向量和詞性向量維度對CMAIR 性能影響;3)hand-crafted特征與語境特征對CMAIR 性能影響.
將本文提出的3 種注意力機制使用以下模型在相同的數(shù)據(jù)集上進行實驗:
1)CNN:基本的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入為hand-crafted 特征;
2)ATT-CNN-1:單注意力的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將詞向量注意力特征矩陣與hand-crafted 特征作為模型輸入,形成單注意力機制;
3)ATT-CNN-2:兩種注意力的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入為詞向量注意力特征矩陣、詞性注意力特征矩陣和hand-crafted 特征;
4)ATT-CNN-3:多注意力機制的卷積神經(jīng)網(wǎng)絡(luò)模型,輸入為3 種注意力特征矩陣與hand-crafted特征;
本文將提出的4 組實驗在維吾爾語數(shù)據(jù)集上進行對比,分析維吾爾語人稱代詞指代消解性能.表6給出4 組實驗在不同模型下的實驗結(jié)果.
從表6 結(jié)果可以看出,本文提出的3 種注意力機制在維吾爾語數(shù)據(jù)集上實驗都取得了不錯的分類結(jié)果.其中ATT-CNN-3 在維吾爾語人稱代詞指代消解任務(wù)中性能達到最優(yōu).分析結(jié)果可知,加入詞向量注意力機制的ATT-CNN-1 比只加入handcrafted 特征的CNN 模型F 值提升3.97%,這說明普通的CNN 沒有針對待消解對提取更多的特征信息,所以無法準確識別照應(yīng)語和候選先行語指代關(guān)系.證明了詞向量注意力特征矩陣含有豐富的語義信息,可以準確表達上下文關(guān)系,在模型訓(xùn)練過程中突出待消解對詞語重要性,從而提高指代消解性能.
表6 不同模型消解性能對比(%)Table 6 Comparison of different model anaphora resolution performance (%)
加入詞向量、詞性注意力機制的ATT-CNN-2相比于單注意力機制的ATT-CNN-1 模型F 值提高1.77%,這說明加入詞性注意力特征能在模型訓(xùn)練過程中高度關(guān)注照應(yīng)語和候選先行語詞和詞性關(guān)聯(lián)信息,彌補了僅依賴文本內(nèi)容信息的不足,從而提高指代消解性能,這也說明了詞性注意力機制在維吾爾語人稱代詞指代消解的有效性.
對比ATT-CNN-3 和其他三種模型實驗結(jié)果可以看出,加入3 種注意力機制的ATT-CNN-3 模型的三類評測指標都達到最優(yōu),相比于CNN、ATT-CNN-1 和ATT-CNN-2,其F 值分別提高6.46%、2.49% 和0.72%,說明加入多注意力機制的模型能從不同層面關(guān)注待消解對信息,從而能更好地識別指代關(guān)系,驗證了多注意力機制在維吾爾語人稱代詞指代消解任務(wù)中的有效性.
為了進一步對比本文提出的CMAIR 模型在維吾爾語人稱代詞指代消解任務(wù)中的分類效果,訓(xùn)練不同維度詞向量分析詞向量維度對分類結(jié)果影響.分別使用10 維、50 維、100 維、150 維和200 維訓(xùn)練生成詞向量矩陣和詞性向量矩陣,實驗結(jié)果如圖5所示.
使用不同維度詞向量和詞性向量構(gòu)造三種注意力特征并在CMAIR 模型進行5 倍交叉驗證實驗,從圖5 結(jié)果可以看出,在向量維度為0 時,即模型中不使用注意力機制,其F 值最低,加入10 維向量后分類效果有小幅度提升,可以看出低維度向量不能充分表達文本語義信息,使模型在訓(xùn)練過程中沒有學(xué)習(xí)待消解對高維特征.在加入50 維向量構(gòu)建注意力特征作為模型輸入時,模型性能有大幅度提升,可以說明高維向量可以表達文本深層次語義信息,提高模型學(xué)習(xí)能力.當向量維度在50 到150 時,模型F 值仍有提升,但提升效果不是很顯著,并在150 維時達到最優(yōu).當向量維度達到200 維時,分類效果有所下降,這說明當向量維度達到一定閾值時,會產(chǎn)生不能充分表達待消解對信息和過擬合現(xiàn)象,導(dǎo)致分類結(jié)果產(chǎn)生波動.合理的選用向量維度對分類結(jié)果有重要的影響,所以本文選取150 維作為詞向量和詞性向量的維度.
圖5 不同維度詞向量分類F-score 比較Fig.5 Comparison of different dimension word vector classification F-score
hand-crafted 作為指代消解分類重要信息,對分類結(jié)果起著重要作用,本文在以往研究的基礎(chǔ)上添加了語境特征,為了探究hand-crafted 和語境特征的有效性,分別移除hand-crafted 和語境特征實驗,實驗結(jié)果如表7 所示,從表中可以看出,去除hand-crafted,僅包含注意力特征和語境特征的情況下(Vattention+Vcontext)其F 值相比于CMAIR 模型降低了5.55%,本文選用的hand-crafted 是結(jié)合維吾爾語語言現(xiàn)象和語法特征提出的反應(yīng)待消解對在規(guī)則和知識方面的表示與聯(lián)系.
表7 不同特征類型對指代消解性能影響(%)Table 7 The effect of different feature types on the anaphora resolution (%)
分析實驗結(jié)果可知,去除hand-crafted 的指代消解性能明顯下降,證明了hand-crafted 的引入對提高指代消解性能起著關(guān)鍵作用.分析表7 中去除語境特征的實驗結(jié)果Vhand-crafted+Vattention可以看出相比于去除hand-crafted 的實驗F 值提升了2.09%,這是由于相比于hand-crafted 特征,語境特征含有豐富的上下文語境信息,能在模型訓(xùn)練過程中學(xué)習(xí)詞序關(guān)系和詞依賴關(guān)系,是句子連續(xù)分布式向量表示,另外,IndRNN 可以保留長期記憶,處理長序列,對模型性能提升有關(guān)鍵性作用.相比于CMAIR 實驗結(jié)果,去除語境特征的F 值降低3.46%,這說明多注意力機制雖能從不同層面關(guān)注文本特征,但缺少文本連續(xù)性的表述,輸入詞序列的連續(xù)性和依賴性也對模型性能的提升有較大的作用.本文通過引入hand-crafted 信息充分體現(xiàn)了維吾爾語語言和語法特征,語境特征的引入能關(guān)注句子級的特征信息,確認了待消解對中照應(yīng)語和候選先行語的聯(lián)系,從而取得了更好的分類效果.
在維吾爾語人稱代詞指代消解任務(wù)中,如今大部分的研究都是結(jié)合hand-crafted 和深度學(xué)習(xí)的方式進行,這種方式僅依賴原始輸入特征,不能突出每個詞在句中的重要程度和關(guān)注詞語多層面特征.本文基于注意力機制和語境特征的研究,提出一種多注意力機制的維吾爾語人稱代詞指代消解方法,該模型結(jié)合3 種注意力機制,從待消解對中候選先行語和照應(yīng)語不同層面分析語義信息.同時,提出一種距離識別算法,能有效識別待消解對距離,使模型能充分學(xué)習(xí)距離信息.此外,本文在以往的研究基礎(chǔ)上加入語境特征,用于輸入詞序列并學(xué)習(xí)句中每一個詞的詞序關(guān)聯(lián)和依賴關(guān)系.實驗結(jié)果表明,加入多注意力機制和語境特征的CMAIR 模型能顯著提升維吾爾語人稱代詞指代消解性能.
致謝
感謝王縣縣、王歡歡、牛苗、祁青山等同學(xué)在本文提供幫忙和支持,在此謹向他們致以誠摯的謝意.