基于多層注意力機(jī)制的回指消解算法

2020-02-19 11:26劉雨江付立軍劉俊明呂鵬飛

計算機(jī)工程 2020年2期

劉雨江,付立軍,劉俊明,呂鵬飛

(1.中國科學(xué)院大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049; 2.中國科學(xué)院沈陽計算技術(shù)研究所研究生部,沈陽 110168;3.中國地質(zhì)圖書館信息技術(shù)研究中心,北京 100083)

0 概述

指代是常見的語言現(xiàn)象,在描述性語言中較為頻繁地出現(xiàn),尤其是當(dāng)語料篇幅較長時,極易造成信息抽取不完整的情況。指代關(guān)系既要考慮一個或多個詞對組成實體的指代,又要考慮名詞、名詞性詞組以及隱藏名詞或指代部分對上述實體的指代。根據(jù)被指代部分(或先行詞部分)與指代部分是否有語義關(guān)聯(lián),指代現(xiàn)象被分為共指和回指[1]。共指表示被指代部分與指代部分均指向客觀存在的同一個實體;回指表示被指代部分與指代部分僅在特定語境下才有關(guān)系,即指代部分在某些上下文中時能指代被指代部分,當(dāng)脫離這種上下文時不能表明是否存在指代關(guān)系。根據(jù)被指代部分和指代部分是否出現(xiàn)隱藏實詞,指代現(xiàn)象又被分為顯性指代和零指代。由于在數(shù)據(jù)集中顯性指代和零指代會同時出現(xiàn),因此對這2種情況分別進(jìn)行考慮。在具體實驗中,第1種為顯性指代和零指代混合出現(xiàn)的情況,第2種為僅有零指代出現(xiàn)的情況。本文主要研究回指關(guān)系判別,屬于回指解析。與文獻(xiàn)[2-3]的目的相似,通過回指消解,減少指代現(xiàn)象干擾,可以提高語料在后續(xù)深入研究時的可用性,為信息抽取、知識圖譜構(gòu)建、人工智能對話等任務(wù)提供高質(zhì)量語料。

對于回指關(guān)系判別,需要上下文與被指代部分和指代部分的詞共同構(gòu)建輸入。文獻(xiàn)[4]基于上下文編碼思想,構(gòu)建了2個多層編碼器,同時對上下文和待翻譯語料進(jìn)行編碼,完成了翻譯過程中指代消解工作,而文獻(xiàn)[5-6]則采用基于事實方法。文獻(xiàn)[4]通過構(gòu)建傳統(tǒng)規(guī)則模板實現(xiàn)基于全局推理的回指消解方法,提高了位置三元組信息抽取的準(zhǔn)確率。在共指消解研究上,更多地考慮了不同表達(dá)對同一事實的不同描述方式。文獻(xiàn)[6]通過識別出同一個事實,再以該事實為核心尋找并抽取相關(guān)信息。另有一部分文獻(xiàn)的指代消解研究方法基于mention-ranking方法,即先獲取所有可能被指代的部分,再根據(jù)指代部分和這些被指代部分評分進(jìn)行篩選,評分最高的就是當(dāng)前指代結(jié)果。文獻(xiàn)[7-9]均采用此方法,區(qū)別在于文獻(xiàn)[7]使用RNN訓(xùn)練被指代部分集合與指代部分組成序列,文獻(xiàn)[8]使用普通神經(jīng)網(wǎng)絡(luò)訓(xùn)練指代部分與被指代部分集合組成向量,文獻(xiàn)[9]使用強(qiáng)化學(xué)習(xí)方法使得被指代部分進(jìn)行選擇時具有傾向性。在研究范疇上,文獻(xiàn)[7]是共指消解,文獻(xiàn)[8-9]均為回指消解。針對專有名詞和代詞,文獻(xiàn)[10]采用表述識別二次分類,提高了漢語指代消解的性能。上述研究方法均考慮到了上下文、候選集合、語義關(guān)聯(lián)等情況。

本文在研究回指消解時考慮指代部分與被指代部分周圍的信息,將這部分信息作為一種引導(dǎo),使得相同代詞在嵌入周圍信息時能構(gòu)建一種輸入模式,并由注意力機(jī)制實現(xiàn)。在模型設(shè)計上考慮多層注意力機(jī)制指代部分、被指代部分、周圍信息、原文信息的綜合處理過程,以捕捉上述信息的關(guān)聯(lián)關(guān)系。

1 相關(guān)工作

在已有的研究中,回指消解主要參考注意力機(jī)制及機(jī)器閱讀理解模型進(jìn)行構(gòu)建。本文模型在構(gòu)建時參考了這兩部分的研究。

1.1 注意力機(jī)制

基于注意力機(jī)制的Transformer網(wǎng)絡(luò)結(jié)構(gòu)最早由谷歌在2017年提出[11],其主要針對機(jī)器翻譯問題,認(rèn)為之前機(jī)器翻譯模型大量地使用RNN及改進(jìn)的RNN類網(wǎng)絡(luò)會導(dǎo)致速度下降。RNN網(wǎng)絡(luò)的缺點是無法實現(xiàn)并行計算,而Transformer網(wǎng)絡(luò)結(jié)構(gòu)中的注意力網(wǎng)絡(luò)可以有效地避免該問題。注意力網(wǎng)絡(luò)本質(zhì)上是多層的前向神經(jīng)網(wǎng)絡(luò),通過計算目標(biāo)與來源之間的概率值作為注意力,用于增強(qiáng)或減弱網(wǎng)絡(luò)對某些詞的關(guān)注程度,并在誤差反傳中進(jìn)行調(diào)整。由于注意力網(wǎng)絡(luò)的時間復(fù)雜度小于RNN類網(wǎng)絡(luò),因此本文選擇注意力網(wǎng)絡(luò)結(jié)構(gòu)用于模型構(gòu)建。

1.2 閱讀理解模型

分析機(jī)器閱讀理解模型對研究回指消解模型具有指導(dǎo)性作用。在閱讀理解模型中,用于訓(xùn)練的數(shù)據(jù)格式為問題集、答案集和文章集,通過對問題和文章進(jìn)行編碼,并使用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,再通過Softmax層將得到的結(jié)果映射到全部詞表中得到答案。文獻(xiàn)[12]使用類似方法,利用多次迭代的GRU網(wǎng)絡(luò)構(gòu)建模型,最后通過計算候選答案的可能性實現(xiàn)閱讀理解任務(wù)。文獻(xiàn)[13]完成閱讀理解任務(wù)時將答案定位在原文中,預(yù)測的結(jié)果分別為起始答案位置和終止位置,然后分別計算誤差,再求出2個誤差的算術(shù)平均數(shù)作為訓(xùn)練優(yōu)化方向。而嘗試使用閱讀理解方式解決回指消解幾乎不可行,在分析訓(xùn)練數(shù)據(jù)之后可以發(fā)現(xiàn),在閱讀理解的每一個實例中,問題中一部分詞匯必然出現(xiàn)在答案周圍。結(jié)合文獻(xiàn)[13]中的BERT模型,可以推斷在“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練策略下,使用自注意力機(jī)制可令文章對問題詞匯分配更高的注意力概率值,從而找到答案。在回指消解任務(wù)中,指代部分和被指代部分周圍的詞可能完全不一致,又因為這2個部分本身有很大可能性是不同詞匯組成,所以無法構(gòu)建類似于閱讀理解任務(wù)的輸入模式。根據(jù)上述分析,本文提出一種多層注意力模型,通過構(gòu)建“詞/詞組-語句片段-整篇文章”的關(guān)聯(lián)注意力,并嵌入到最終需要判斷的2個部分中,再計算出是否具有關(guān)聯(lián)關(guān)系。這種過程無需考慮是否在指代部分和被指代部分有相同的詞,也不必考慮兩部分是否部分一致,通過層次映射關(guān)系即可構(gòu)造出當(dāng)前語境下兩部分信息的向量,進(jìn)而判斷是否為指代關(guān)系。

1.3 已有指代消解方法

近年來中文零指代的研究較多,這種情況可以在Google學(xué)術(shù)搜索的返回結(jié)果中體現(xiàn)。文獻(xiàn)[14]給出基于翻譯對比的詞映射指代消解策略。這種策略通過邏輯回歸與聚類的思想為中文、英文以及中英混合文都構(gòu)建了一個判別器,并給出了4種消解方法,其中有代表性的為方法2和方法4。方法2先考慮使用混合文判別器給出指代部分和被指代部分的判別概率,若大于0.5則認(rèn)為是指代。如果在英文中找不到中文代詞翻譯后得到的詞,則直接采用中文判別器,這種方法得到的召回率較高。方法4同時使用了3種判別器并在訓(xùn)練時調(diào)整每種判別器權(quán)重。文獻(xiàn)[15-16]也采用基于翻譯的方法,它們在判斷指代關(guān)系時增加了很多模板規(guī)則與模板參數(shù),直接使用模板規(guī)則進(jìn)行判斷。文獻(xiàn)[17]總結(jié)了5種中文指代消解模型,能夠基本涵蓋到目前為止的主流方法,其包含了3種二元分類模型、傳統(tǒng)規(guī)則模型和排序模型。中文零指代研究相對較新,基本采用深度學(xué)習(xí)方法。文獻(xiàn)[9]通過強(qiáng)化學(xué)習(xí)解決零指代問題,文獻(xiàn)[18]采用注意力機(jī)制,在構(gòu)建指代對時采用了3組不同的RNN,文獻(xiàn)[19]采用一個BP神經(jīng)網(wǎng)絡(luò)分別提取了距離特征、指代部分與被指代部分的前綴上下文、關(guān)鍵動詞和關(guān)鍵賓語,并將這些內(nèi)容編碼通過使用LSTM進(jìn)行訓(xùn)練。

本文在考慮了數(shù)據(jù)集指代分布特征和當(dāng)前研究熱點之后將實驗分為下列對應(yīng)的兩部分:1)構(gòu)建所有指代實例,并與文獻(xiàn)[14-15]進(jìn)行對比;2)僅構(gòu)建零指代實例,并與文獻(xiàn)[9,17-18]進(jìn)行對比。

2 回指消解判別算法模型

回指消解判別算法模型主要依據(jù)多頭注意力機(jī)制進(jìn)行構(gòu)建。在模型構(gòu)建方面,本文主要在模型結(jié)構(gòu)和結(jié)果判別上進(jìn)行研究與創(chuàng)新。

2.1 模型結(jié)構(gòu)與執(zhí)行過程

輸入信息分為5類,包括指代部分詞匯、指代部分周圍詞匯信息、原文信息、被指代部分詞匯和被指代部分周圍詞匯信息。輸入信息均需要進(jìn)行位置信息嵌入,嵌入過程考慮隨機(jī)指定位置向量,并將得到的位置向量與詞向量相加。令vocab_size表示詞總數(shù),dvocab表示詞向量維度,length表示當(dāng)前輸入長度,vocab_slice表示嵌入位置信息之前的詞向量集合,vocabe表示嵌入位置后的結(jié)果,計算公式為:

position=random(vocab_size,dvocab)×

slice(length)

vocabe= vocab_slice+position

使用位置信息嵌入主要考慮到多頭注意力機(jī)制的計算方式,根據(jù)文獻(xiàn)[8],位置信息在CNN和RNN類網(wǎng)絡(luò)中不必要,而在多頭注意力機(jī)制中位置信息的唯一來源是外部輸入,因此必須進(jìn)行計算。

在得到具有位置信息的輸入之后,構(gòu)建多頭注意力機(jī)制進(jìn)行指代部分與其周圍語句的映射向量,并將此法應(yīng)用于被指代部分與其周圍語句、原文與指代部分、原文與被指代部分,在第2個注意力層上得到2組計算結(jié)果。最后將得到的結(jié)果在第2個維度上拼接,通過Softmax方法求出二分類概率,進(jìn)而判斷是否存在指代關(guān)系。該模型與文獻(xiàn)[20]提出的模型思路相近,但是其在輸入構(gòu)建時考慮屬性與實體對應(yīng),這里考慮指代部分/被指代部分與周圍信息的聯(lián)系。算法模型結(jié)構(gòu)如圖1所示,多頭注意力機(jī)制模型結(jié)構(gòu)如圖2所示。根據(jù)上述內(nèi)容,算法模型過程表述如下:將指代部分信息、指代部分周圍詞信息、原文信息、被指代部分信息、被指代部分周圍詞信息進(jìn)行向量化表示,分別嵌入位置信息作為輸入。依據(jù)該方法分別得到指代部分向量、指代部分周圍信息向量、原文部分向量、被指代部分向量和被指代部分周圍信息向量。將指代部分向量與指代部分周圍信息向量進(jìn)行多頭注意力機(jī)制計算,再使得到的結(jié)果繼續(xù)與原文部分向量采用相同方法計算,得到指代部分在當(dāng)前模型中的特征結(jié)果。該結(jié)果能夠體現(xiàn)多層注意力機(jī)制條件下原文和指代部分周圍詞信息對指代部分的作用,利用同樣的方式計算得到被指代部分在當(dāng)前模型中的特征結(jié)果。最后,將兩組特征結(jié)果連接組成一個綜合結(jié)果,并利用Softmax層將它映射在判別空間中,進(jìn)行指代與否的判斷。

圖1 算法模型結(jié)構(gòu)

圖2 多頭注意力機(jī)制模型結(jié)構(gòu)

2.2 多頭機(jī)制的具體應(yīng)用

多頭注意力機(jī)制在應(yīng)用于機(jī)器翻譯時,包含“編碼器-編碼器”“解碼器-解碼器”和“編碼器-解碼器”3種注意力輸入方式,文獻(xiàn)[11]給出了輸入方式的過程,計算公式為:

本文考慮分層次使用多頭注意力機(jī)制構(gòu)建模型,將多頭注意力機(jī)制應(yīng)用于分層結(jié)構(gòu)中,使得相鄰層次的信息能夠獲得充分交互。指代部分周圍詞匯與指代詞/指代詞組有包含關(guān)系,因此可以通過注意力機(jī)制計算指代詞/指代詞組在其周圍詞條件下的概率,進(jìn)而通過這種概率對每一個指代部分詞進(jìn)行加權(quán),獲取指代部分相對周圍信息的向量,記作指代擴(kuò)展向量。同理,被指代部分采用相同方法也可以獲取這種向量,記作被指代擴(kuò)展向量。通過這種方式可以構(gòu)建特定語句中每一個指代部分/被指代部分唯一向量,這種唯一性體現(xiàn)了相同詞在不同語句中會被映射為一個僅屬于該句的向量。這避免了以下的情形:因語境不同導(dǎo)致無法根據(jù)相同內(nèi)容的2個部分判斷指代關(guān)系。在獲取上述指代擴(kuò)展向量與被指代擴(kuò)展向量之后,需要與原文向量進(jìn)行注意力機(jī)制計算?？紤]到原有指代部分的詞匯可能在原文中出現(xiàn)多次,因此沒有直接用原指代部分向量與原文向量進(jìn)行計算。比如代詞“它”,很可能在原文中出現(xiàn)不止一次,但是直接輸入這種向量會使判斷指代關(guān)系變得困難,因為在無周圍信息的情況下無法確定這個代詞指代的實體。而在經(jīng)歷上述擴(kuò)展過程之后,無論是指代部分還是被指代部分都能在保留自身屬性信息情況下附加周圍語句的影響,在與原文進(jìn)行計算時,可以防止出現(xiàn)一對多映射,即相同待確定的指代關(guān)系在不同語境下出現(xiàn)判斷結(jié)果相反的情況。令xe、span_xe、articlee、we、span_we、attention_output分別代表位置信息嵌入之后的指代部分、指代部分周圍信息和原文信息、被指代部分、被指代部分周圍信息、用于計算概率的輸出結(jié)果,計算公式如下:

extend_xe=attention(xe,span_xe,span_xe)

extend_we=attention(we,span_we,span_we)prone=

attention(extend_xe,articlee,articlee)

anae=attention(extend_we,articlee,articlee)

attention_output=concat(prone,anae)

2.3 結(jié)果判別與算法復(fù)雜度分析

在得到指代擴(kuò)展向量與被指代擴(kuò)展向量被原文擴(kuò)展后的結(jié)果時,可以構(gòu)建模型輸出部分。由于輸入部分包含指代項和被指代項,因此輸出部分采用二分類方法直接判斷是否存在指代關(guān)系。在控制輸出向量維度為2時,采用Softmax函數(shù)構(gòu)建輸出向量,用作分類的2個元素分別表示預(yù)測類別的概率值。選取這種預(yù)測策略的原因在于負(fù)例構(gòu)建時具有隨機(jī)性。負(fù)例參考文獻(xiàn)[11]中上下句預(yù)測方法,即使用約50%正例和50%負(fù)例混合構(gòu)建訓(xùn)練和預(yù)測數(shù)據(jù)。在同時考慮判斷為正例或負(fù)例條件下,選擇Softmax函數(shù)進(jìn)行計算。根據(jù)文獻(xiàn)[21],在二分類情況下,Softmax等效于Sigmoid映射,不使用Sigmoid函數(shù)的原因會在實驗部分說明。令predi表示第i次的預(yù)測結(jié)果,yi表示第i次的真實結(jié)果,則對應(yīng)于n組結(jié)果,訓(xùn)練過程的loss值公式如下:

predi=Softmax(attention_outputi)

算法中時間消耗最大的部分為多層注意力機(jī)制計算部分,在構(gòu)建模型時對時間復(fù)雜度和空間復(fù)雜度的分析如下:

RNN類網(wǎng)絡(luò):RNN類網(wǎng)絡(luò)需要考慮常見的LSTM與GRU。LSTM將計算4組參數(shù),分別對應(yīng)輸入門、輸出門、遺忘門和候選態(tài)。LSTM更新公式為:

yt=f(yt-1,xt)

其中,t為句子長度,若此向量維度為d,隱藏層和輸出層的維度均為h,反向傳播時時間復(fù)雜度和前向時的計算相同,一個單層LSTM處理之后的時間消耗可以表示為8×t×h×(d+h+1),而將LSTM修改為GRU之后,時間消耗表示為6×t×h×(d+h+1)。因此,采用LSTM或GRU進(jìn)行一次類似本算法模型中的多頭注意力機(jī)制計算,時間復(fù)雜度為O(t×d×h2)。由于LSTM、GRU消耗空間最大的時刻是矩陣相乘計算,因此空間復(fù)雜度可表示為O(n2),其中n=max(d,h)。

多頭注意力機(jī)制:根據(jù)注意力機(jī)制計算公式,僅注意力網(wǎng)絡(luò)部分消耗的時間可表示為2×t×d2。若前向傳遞連接層輸出的維度不變,整體消耗的時間為8×t×d2,因此一次多頭注意力模型的時間復(fù)雜度為O(t×d2)。根據(jù)注意力機(jī)制計算過程,消耗空間最大的時刻是矩陣相乘計算,因此空間復(fù)雜度可表示為O(d2)。

因此,若LSTM或GRU的輸出維度也為d,則時間復(fù)雜度為O(t×d3),明顯高于多頭注意力機(jī)制,而空間復(fù)雜度則幾乎相同。

3 實驗與結(jié)果分析

考慮到顯性指代和零指代均存在以及僅存在零指代這2種情況,設(shè)計了4組實驗和6篇文獻(xiàn)進(jìn)行對比,并記錄結(jié)果。

3.1 數(shù)據(jù)集與評價標(biāo)準(zhǔn)

實驗數(shù)據(jù)選擇Conll-2012分享任務(wù)中的OntoNotes5.0數(shù)據(jù)集,僅選用中文部分。中文部分?jǐn)?shù)據(jù)集包含了1 391個訓(xùn)練文件和172個測試文件;訓(xùn)練文件包含句子總數(shù)36 487組,測試文件包含句子總數(shù)6 083組;構(gòu)建顯性指代訓(xùn)練例子共計133 326個,測試?yán)庸灿?0 074個;構(gòu)建零指代訓(xùn)練例子共計20 563個,測試?yán)庸灿? 146。單個文件中可能不只包含1篇文章,回指消解結(jié)果位于單篇文章后。數(shù)據(jù)集內(nèi)容與新聞報道有關(guān),包括廣播會話、廣播新聞、雜志、通訊新聞、電話對話和博客文章共計6個類別。因此,使用這部分?jǐn)?shù)據(jù)集進(jìn)行實驗?zāi)軌蛘故就ㄓ谜Z料環(huán)境下回指消解過程。

評價標(biāo)準(zhǔn)選擇文獻(xiàn)[14]給出的實驗結(jié)果。該文獻(xiàn)使用了相同數(shù)據(jù)集,旨在通過機(jī)器翻譯解決漢語回指消解,同時給出了文獻(xiàn)[15]的實驗結(jié)果。文獻(xiàn)[14-15]都采用了基于機(jī)器翻譯的結(jié)果,且文獻(xiàn)[14]的結(jié)果分為方法2和方法4兩組。

3.2 實驗過程

指代關(guān)系對構(gòu)建過程參考文獻(xiàn)[13]中上下句預(yù)測方法,即通過模型區(qū)分原有正例和隨機(jī)負(fù)例,用于訓(xùn)練和預(yù)測的正負(fù)例數(shù)量比接近1∶1。由于文獻(xiàn)[14]在訓(xùn)練分類器時構(gòu)建正例和負(fù)例的比例為1∶1且負(fù)例隨機(jī)選取,因此本文采用這種構(gòu)建策略。對于單個文獻(xiàn)多篇文章的情況,會將每篇文章及其附帶的消解結(jié)果分開。為防止數(shù)據(jù)訓(xùn)練時對GPU顯存占用過大,指代部分與被指代部分的長度限制在64,指代部分與被指代部分的周圍信息長度限制在72,單篇文獻(xiàn)長度限制在384。訓(xùn)練時學(xué)習(xí)速率為1e-5,用于防止過擬合的dropout值為0.4。單次實驗批量大小為105,注意力機(jī)制下“注意力頭”大小為64,數(shù)量為12。訓(xùn)練次數(shù)為10萬次,相當(dāng)于訓(xùn)練集完整循環(huán)625次。

在實驗過程中對6個類別分別進(jìn)行實驗,最后將得到的6組精確率、召回率、F值求算術(shù)平均數(shù),作為最終結(jié)果。在實驗過程中補(bǔ)充了2個對比實驗:1)將“注意力頭”大小由16增加為64;2)增加了僅含零指代的實驗,并與當(dāng)前最新零指代數(shù)據(jù)集進(jìn)行對比。

3.3 結(jié)果分析

顯性指代和零指代均存在時的實驗結(jié)果如表1所示,其中,本文方法及對比文獻(xiàn)的方法均是6組數(shù)組結(jié)果的均值。文獻(xiàn)[14]的訓(xùn)練集為OntoNotes5.0,包括1 391個中文文件和1 940個英文文件,測試集為166個中文文件;文獻(xiàn)[15]采用相同的數(shù)據(jù)集。

表1 顯性指代和零指代均存在時的實驗結(jié)果對比

在上述實驗結(jié)果中,模型中不同注意力頭對應(yīng)的F值均超過文獻(xiàn)[14]的方法2以及文獻(xiàn)[15]的方法。文獻(xiàn)[14]方法4則僅有精確率被本文方法超過。對上述結(jié)果分析如下:OntoNotes5.0中文數(shù)據(jù)集既包含顯性指代消解,又包含零指代消解。文獻(xiàn)[14]僅研究顯性回指消解,為保持原數(shù)據(jù)集給出的指代特征,考慮顯性指代和零指代混合出現(xiàn)的情況。本文方法在混合了零指代數(shù)據(jù)時與文獻(xiàn)[14]效果相接近。相比較僅研究零指代,如文獻(xiàn)[9]在隨機(jī)構(gòu)建一個負(fù)例僅研究零指代時,模型的精確率、召回率、F值分別為70.8%、69.8%、70.0%,其中,F值高出文獻(xiàn)[14]12.8%。為保證訓(xùn)練過程和判別邏輯與文獻(xiàn)[9]一致,增加一個對比實驗,對比實驗在構(gòu)建負(fù)例時不是隨機(jī)構(gòu)建,而是考慮將所在文章中比當(dāng)前零指代序號小的全部被指代部分都作為這個指代詞的負(fù)例,以適配模型的訓(xùn)練策略。

從實驗中可以發(fā)現(xiàn),當(dāng)正例過少時,損失函數(shù)值在下降過程中使得正例準(zhǔn)確率較低,因此在構(gòu)建負(fù)例時通過復(fù)制正例將兩者比例調(diào)整為1∶1再進(jìn)行訓(xùn)練。構(gòu)建的訓(xùn)練集例子數(shù)增加到199 841個,測試集例子數(shù)增加到27 646個,此時,精確率、召回率、F值分別為64.9%、57.5%、60.7%,F值仍比文獻(xiàn)[9]高出3.2%。相比于文獻(xiàn)[8]使用候選集合構(gòu)建的方式,這種訓(xùn)練方式需要訓(xùn)練的負(fù)例數(shù)量更多,因此本文的模型更具優(yōu)勢。由于采用相同的數(shù)據(jù)集,文獻(xiàn)[9,18-19]訓(xùn)練集與測試集的文件數(shù)和句子數(shù)與本文相同,構(gòu)建的訓(xùn)練例子數(shù)為12 111個,測試?yán)訑?shù)為1 713個,對比結(jié)果如表2所示,其中本文方法及對比文獻(xiàn)的方法均是6組數(shù)組結(jié)果的均值,由于被引用文獻(xiàn)未給出精確率和召回率,這里僅比較F值。

表2 僅存在零指代時指代判別分析比較結(jié)果

進(jìn)一步分析預(yù)測結(jié)果可以發(fā)現(xiàn),OntoNotes5.0回指消解的真實結(jié)果中有一大部分為多次同詞指代。以文件cmn_0010.onf為例,Chain 1_15編號下被指代部分為“爸爸”,而對應(yīng)的指代部分有16組結(jié)果,其中15組為“爸爸”。這種情況導(dǎo)致了模型一旦判斷一組結(jié)果錯誤,就可能連續(xù)判斷所有的這類結(jié)果錯誤。

Sigmoid函數(shù)可以將一個任意實數(shù)轉(zhuǎn)化到[0,1]上進(jìn)行二分類。在實驗過程中發(fā)現(xiàn)若采用Sigmoid函數(shù)作為loss,會導(dǎo)致精確率和召回率極低。觀察輸出的倒數(shù)第2層數(shù)據(jù)可知,隨機(jī)構(gòu)建的負(fù)例因為不存在規(guī)律,會嚴(yán)重壓縮正例結(jié)果空間,無法找到一個合適的概率閾值區(qū)分正例和負(fù)例。Softmax函數(shù)會同時預(yù)測正例概率和負(fù)例概率,判斷時根據(jù)概率值的大小,而不是根據(jù)一個固定閾值,因此能夠一定程度上避免Sigmoid函數(shù)的缺陷。

4 結(jié)束語

本文提出一種回指消解方法,通過構(gòu)建多層注意力模型實現(xiàn)不同層次信息的處理。根據(jù)注意力機(jī)制計算指代部分和被指代部分在其周圍信息和原文條件下的向量表示,進(jìn)而得出是否存在指代關(guān)系。該方法可使指代部分和被指代部分在當(dāng)前語境下直接進(jìn)行指代關(guān)系判別,對于顯性指代和零指代2種情況都有較好的效果。在測試數(shù)據(jù)集上的實驗結(jié)果表明,模型在采用隨機(jī)負(fù)例生成策略時,顯性指代和零指代均存在情況下的F值為70.4%,僅存在零指代時為70.0%,在構(gòu)建全部可能的負(fù)例時,僅存在零指代時F值為60.7%。下一步將考慮適當(dāng)增加詞性、語義相似度等外部信息,并通過嵌入信息的方式構(gòu)建詞向量進(jìn)行訓(xùn)練,或采用共指解析中候選集方法,在縮小結(jié)果空間的條件下提高召回率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡