国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合句法依存樹注意力的關(guān)系抽取研究*

2020-10-26 06:36張翠周茂杰楊志清
廣東通信技術(shù) 2020年10期
關(guān)鍵詞:句法文檔注意力

[張翠 周茂杰 楊志清]

1 引言

在互聯(lián)網(wǎng)高速發(fā)展的今天,網(wǎng)絡(luò)中存在著數(shù)據(jù)龐大的非結(jié)構(gòu)化數(shù)據(jù),如何從這些非結(jié)構(gòu)化數(shù)據(jù)提獲取有用信息,是自然語言處理領(lǐng)域所面對的重大問題之一。信息抽取是要在大量的非結(jié)構(gòu)化數(shù)據(jù)中提取出結(jié)構(gòu)化的信息,是自然語言處理中一個重要組成部分,包括:實(shí)體抽取、關(guān)系抽取及事件抽取等方面。信息抽取方法得到的數(shù)據(jù)可以廣泛應(yīng)用于自動問答系統(tǒng),知識圖譜構(gòu)建等方面。關(guān)系抽取用于識別出實(shí)體間存在的關(guān)系,現(xiàn)有的抽取方法包括模式匹配法、詞典驅(qū)動法、機(jī)器學(xué)習(xí)法及混合抽取法等。傳統(tǒng)的關(guān)系抽取通常是基于規(guī)則的方法,這類方法需要花大量的精力構(gòu)建識別規(guī)則,且準(zhǔn)確率較高,但是規(guī)則庫不能覆蓋所有的規(guī)則,所以存有召回率較低的問題。隨著機(jī)器學(xué)習(xí)的發(fā)展,可以將信息抽取任務(wù)當(dāng)作命名實(shí)體識別任務(wù),利用機(jī)器學(xué)習(xí)方法,不需建立規(guī)則庫,對于新規(guī)則可以通過學(xué)習(xí)獲得其特征,取得較好的識別效果。

深度學(xué)習(xí)的方法在信息分類工作中取得了巨大成功,關(guān)系抽取任務(wù)可以定義為:在一段文本中包括兩個或多個實(shí)體,根據(jù)給定的文本信息,準(zhǔn)確判斷出實(shí)體間存在的關(guān)系。有的抽取任務(wù)是根據(jù)文本定義出關(guān)系類型,再利用文本的信息進(jìn)行分類,即關(guān)系分類。

基于深度學(xué)習(xí)的關(guān)系抽取由文本預(yù)處理、文本表示、模型學(xué)習(xí)3個部分組成。文本的預(yù)處理是關(guān)系抽取的基礎(chǔ),要在文本中提取出用于機(jī)器學(xué)習(xí)的特征,例如,文本的詞信息,語法、句法信息等。文本表示需要將文本的特征轉(zhuǎn)化成機(jī)器學(xué)習(xí)能識別的數(shù)字信息,如獨(dú)熱(One-hot)表示法、分布式表示方法等,獨(dú)熱(One-hot)表示法的數(shù)據(jù)具有稀疏性,且不能表示出文本的語義信息,分布式表示法可以利用Word2vec方法將獨(dú)熱(One-hot)表示數(shù)據(jù)變成稠密向量表示,且在向量中嵌入了文本的語義信息。數(shù)據(jù)的分類模型需要通過學(xué)習(xí)得到,常用的網(wǎng)絡(luò)模型有遞歸神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等,現(xiàn)有的研究中也有將上述幾種神經(jīng)網(wǎng)絡(luò)組合在一起,獲取不同的特征組合,也有研究在網(wǎng)絡(luò)模型中加入注意力制,以達(dá)到選擇重要特征的目的。

現(xiàn)有的研究中,一方面提取了大量的文本信息進(jìn)行組合,數(shù)據(jù)的維度不斷增加,且提升的效果不明顯。另一方面,不斷改進(jìn)機(jī)器學(xué)習(xí)算法,利用網(wǎng)絡(luò)模型組合等,增加模型的復(fù)雜度,這些方法提升了機(jī)器學(xué)習(xí)的效果,但是沒有解決數(shù)據(jù)融合的問題。本文將采用句法依存樹構(gòu)建注意力布模型,與雙向長短記憶網(wǎng)絡(luò)結(jié)合,實(shí)現(xiàn)語義與句法結(jié)構(gòu)的融合,提升關(guān)系抽取效果。

2 相關(guān)研究

實(shí)體關(guān)系是指一個文檔中兩個實(shí)體間存在的一種語義聯(lián)系,用一個二元組表示,其中和為文檔中存在的兩個實(shí)體,R表示兩個實(shí)體間的關(guān)系,如因果關(guān)系,包含關(guān)系等。關(guān)系抽取的任務(wù)就是要通過文本檔中的文本信息判斷兩個實(shí)體間是否存在關(guān)系及是何種關(guān)系。

現(xiàn)有的關(guān)系抽取方法中,基于機(jī)器學(xué)習(xí)的方法的效果最好,應(yīng)用最廣泛。基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法按照是否需要標(biāo)注的學(xué)習(xí)語料資源支持可以分成有監(jiān)督學(xué)習(xí)法、無監(jiān)督學(xué)習(xí)法和半監(jiān)督學(xué)習(xí)法,其中有監(jiān)督學(xué)習(xí)法準(zhǔn)確率較高,但需要大量的標(biāo)注學(xué)習(xí)資源;無監(jiān)督學(xué)習(xí)法不需要標(biāo)注語料資源,但是準(zhǔn)確率有特提高。為了解決標(biāo)注資料庫不足的問題,Mintzr提出了遠(yuǎn)程監(jiān)督的學(xué)習(xí)法[1],依據(jù)現(xiàn)有的標(biāo)注語料庫,對語料庫中的語名以句包為單位進(jìn)行學(xué)習(xí)分類,只要句包中有一個句子與語料庫中的正例匹配,則認(rèn)為句包中所有的句子為正例。

在機(jī)器學(xué)習(xí)關(guān)系抽取方法中最常用、效果最好的是有監(jiān)督算法,根據(jù)關(guān)系實(shí)例的表示方式不同分為基于特征向量的方法和基于核函數(shù)的方法[6]。早期的關(guān)系抽取主要研究的是特征工程上,從文檔中提取多種能表示文檔的特征,包括文檔的語義信息,語法,詞語之間的距離、句法信息等等,而且可以通合多個信息融合,達(dá)到表達(dá)的提升。甘麗新等用句法樹信息進(jìn)行關(guān)系抽取,構(gòu)造了句法樹向量表示,并且用支持向量機(jī)進(jìn)行分類,取得了效好分類效果,說明句法信息是文本的一個重要特征[5]。

深度學(xué)習(xí)的以神經(jīng)網(wǎng)絡(luò)的發(fā)展為技撐,不需要進(jìn)行特征的構(gòu)造和篩選,而是通過學(xué)習(xí)的方法,自動從原數(shù)據(jù)中提取最具代表性的特征,用于表示文檔。在現(xiàn)有的學(xué)習(xí)方法中,最典型的是循環(huán)神經(jīng)網(wǎng)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。CNN模型可以有效提取文本的局部特征,而且可以通過多個卷積核的設(shè)計(jì),得到多種局部特征表示。由于卷積核的增加,導(dǎo)致了信息的成幾何倍數(shù)的增加,故在網(wǎng)絡(luò)中加入了最大池化層,可以在信息量不增加的情況下最大限度的保留特征信息,同時增大了感受野。CNN網(wǎng)絡(luò)最大的缺點(diǎn)是損失了全局信息[3,9]。RNN網(wǎng)絡(luò)文檔當(dāng)作詞語序列,可以有效獲得文本的上下文信息,但是在學(xué)習(xí)過程中會產(chǎn)生梯度消失和梯度爆炸的現(xiàn)象。LSTM網(wǎng)絡(luò)模型在RNN的基礎(chǔ)上加入了記憶和遺忘控制單元,可以有效的控制網(wǎng)絡(luò)中上下文的記憶,而且可以避免梯度消失和梯度爆炸[11]。GRU網(wǎng)絡(luò)對LSTM網(wǎng)絡(luò)的和中變化,將兩個控制單元變成了一個控制單元,網(wǎng)絡(luò)結(jié)構(gòu)更簡單元,且不影響學(xué)習(xí)的效果。為了有效地對上下文LSTM可以對當(dāng)前輸入前面的。

為了有效表示文本,除了文本的語義特征,研究人員不斷提取大量其它的特征,用于機(jī)器學(xué)習(xí)算法中,包括:詞匯、句法、語義和位置特征,這些特征都可增加文本的表達(dá)能力,但是現(xiàn)有方法多是將文本特征向量化后,簡單拼接在一起,沒有做到有機(jī)融合,所以改進(jìn)算法的效果提升有限。Zhou利用雙向長短記憶網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合進(jìn)行關(guān)系抽取,該方法采用注意力機(jī)制能有效學(xué)習(xí)詞的重要性[11]。馮建周利用改進(jìn)注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)實(shí)體關(guān)系抽取模型[12],將語句向量與關(guān)系表示向量的相關(guān)性進(jìn)行排序,并按高到低逐個加入到向量組合中,形成新的向量表示,用新構(gòu)建的向量表示計(jì)算與關(guān)系向量的相關(guān)性,得到了關(guān)系最相關(guān)的句子組合,對包含同一實(shí)體對的句子集合,從中盡可能地找出所有體現(xiàn)該實(shí)體對關(guān)系的正實(shí)例,有效解決了句子噪聲的影響。

以上方法沒有學(xué)習(xí)到文本序列內(nèi)部的位置信息,因?yàn)槲臋n中的位置信息與修飾方法聯(lián)系更緊密,只是用物理位置表示詞的分布,無法真實(shí)刻畫出文本的內(nèi)部信息[7,8]。為了解決上述問題,本論文將文檔內(nèi)部的句法依存樹作內(nèi)部結(jié)構(gòu)分析的工具,用句法依存描述詞與詞之間的關(guān)系[13,14],并用構(gòu)建注意力表示方法,與雙向門控神經(jīng)網(wǎng)絡(luò)結(jié)合,進(jìn)行實(shí)體關(guān)系抽取算法設(shè)計(jì)。

3 模型介紹

本文將關(guān)系抽取模型分成5層,預(yù)處理層采用自然語言處理工具將文檔進(jìn)行分層及清洗,得到文檔的詞匯表示。詞匯是進(jìn)行后續(xù)處理的基本單元。第2層是詞嵌入層,因?yàn)闄C(jī)器學(xué)習(xí)只能識別數(shù)值、向量類型的數(shù)據(jù),所以要把文字轉(zhuǎn)化成數(shù)學(xué)表達(dá)式。第3層是機(jī)器學(xué)習(xí)層,為了能準(zhǔn)確根據(jù)文檔中上下文信息抽取實(shí)體之間的關(guān)系,本文采用雙向長短記憶網(wǎng)絡(luò)(Bi-LSTM)模型進(jìn)行訓(xùn)練識別。第4層是注意力層,通過學(xué)習(xí)得到的向理平等對待文本中的每個詞,這樣不符合人們的認(rèn)識和對文檔的處理方式,所以需要按照文本的重要性取不同的權(quán)重信息。將注意力權(quán)重與機(jī)器學(xué)習(xí)的隱藏向量相乘得文檔的語義表示。最后通過softmax函數(shù)計(jì)算文檔中所具有的關(guān)系類別??傮w設(shè)計(jì)如圖1所示。

3.1 詞向量表示

圖1 系統(tǒng)總體設(shè)計(jì)模型

詞向量表是自然語言處理的基礎(chǔ),常用的表示方法包括獨(dú)熱表示法和分布式表示法。本文采用Word2vec方法將詞語作向量化表示。給定一個句子表示句子中的詞語,將其中一個d維的向量表示,V為S的向量表示,的維度為d,為詞的向量表示。

3.2 長短記憶網(wǎng)絡(luò)(Bi-LSTM)

在LSTM模型中的控制單元由一個用于記錄狀態(tài)的記憶單元C和3控制單元(輸入門i、輸出門o和遺忘門f)組成。在時間節(jié)點(diǎn)t,數(shù)據(jù)進(jìn)入控制單元后,LSTM可以選擇記住和遺忘某些信息,控制信息輸出,并將這些狀態(tài)信息傳遞到下一時刻t+1,各控制信息計(jì)算方法如式(1)至式(5)所示。

其中:ft,it,ot分別表示t時刻遺忘門、輸入門、輸出門的控制信息,用于控制信息的更新,達(dá)到信息增加和減少的目的,Ct表示對記憶單元的更新,表示遺忘多少信息以及當(dāng)前輸入信息哪些需要更新到當(dāng)前的記憶單元中。ht隱藏層的輸出結(jié)果,由輸出門決定哪些信息最終輸出。表示 sigmoid 函數(shù),Wf、Wt、Wo,bf、bi、bo分別表示3個門的權(quán)重以及偏置值。

單向LSTM解決了對上文的依賴問題,但不能利用下文的信息。一個詞的語義和情感不僅與之前的歷史信息有關(guān),還與后文的信息有著密切關(guān)系,所以本文利用采用雙向LSTM,一組詞向量分別作為正向和反向LSTM網(wǎng)絡(luò)的輸入,兩個LSTM的輸出拼接后,傳送到Softmax函數(shù)進(jìn)行分類。

3.3 注意力機(jī)制

注意力機(jī)制是機(jī)器學(xué)習(xí)上,對于某一時刻的一個輸出y,它在輸入X上各部分的注意力分布,即在X上的權(quán)重信息[8,12]。現(xiàn)有的注意力都是基于詞語的共現(xiàn)特征計(jì)算得到,語言的表達(dá)靈活,結(jié)構(gòu)松散,兩個距離相近的詞不一定有很強(qiáng)的語義聯(lián)系,而且不同的人有不同表達(dá)方式,導(dǎo)致訓(xùn)練和識別的結(jié)果存在誤差較高的現(xiàn)象。

任何一種語言都會其特定的語法結(jié)構(gòu),詞語有詞性,不管句子的表達(dá)如何變化,其修飾關(guān)系是固定的,而且修飾關(guān)系不會因?yàn)樵~匯量的多少而改變,修飾關(guān)系是根據(jù)語法規(guī)則制定的,具有較強(qiáng)魯棒性。

在提取句子的特征時,一方面用到了詞向量表示,而且用到了距離向量,增加了其表達(dá)的精確性,在語料庫的句子結(jié)構(gòu)變化不大,詞匯量也相差不大,所以可以起到一定的激勵作用,當(dāng)用到開放式的語料進(jìn)行實(shí)驗(yàn)時,由于語料的表達(dá)、數(shù)量變化較大,所以距離信息起不到促進(jìn)作用。

句法依存樹是句子中詞語之間的相互依存關(guān)系和句法結(jié)構(gòu)信息的一種表示方式,包括主謂,動賓,定中等,將句子中所有的詞語之間的句法修法表示出來,以句子中的關(guān)鍵動詞為根節(jié)點(diǎn),形成一個樹狀結(jié)構(gòu)[14]。句法依存樹可以清晰的表達(dá)出句子中詞與詞之間的邏輯關(guān)系,不管在物理上距離多遠(yuǎn),只要存在相互修飾關(guān)系,則在樹中的距離會很相近,這也彌補(bǔ)了表達(dá)中不規(guī)范的問題。為了句子中詞語間的邏輯關(guān)系,并用于關(guān)系抽取工作中,本文首先利用工具得到文本的依存樹表示,依存樹以核心詞為根,并且根據(jù)語法規(guī)則把詞與詞的關(guān)系描述出來加入到樹中,把一個句子中所有詞之間的關(guān)系加入到樹后,就得到了這個句子的句法依存樹。句法依存很好的描述了詞與詞的關(guān)系,傳統(tǒng)的機(jī)器學(xué)習(xí)算法通常將句法依存關(guān)系轉(zhuǎn)化成向量,與文本的語義向量合并后,用于機(jī)器學(xué)習(xí)的輸入,這樣的學(xué)習(xí)方并沒有與語義向量進(jìn)行有效融合,所以本文利用句法依存樹生成圖表示法,并用于計(jì)算注意力,最后用注意力向量與語向量相乘,真正實(shí)現(xiàn)句法向量與語義向量的融合。具體步驟如下。

① 生成語法依存樹。例如:“北京在2008舉辦奧運(yùn)會”。經(jīng)過分詞,句法分析得到句法分析樹,如圖2所示。

圖2 句法依存樹表示

② 根據(jù)圖2的依存樹結(jié)果,生成有向圖結(jié)構(gòu),在有向圖中,忽略圖中具體依存關(guān)系,只關(guān)注其是否存在關(guān)系,在關(guān)系二維表中一個值表示第i個詞與第j個詞是否存在依存關(guān)系,表示公式為式(6)。

③ 利用第2步的生成的二維表,計(jì)算出句子的注意力分布,如式(7)所示

④ 得到了句子的注意力分布,將注意力權(quán)重與雙向門控神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的隱藏向量進(jìn)行注意力融合計(jì)算,得到語義值,如式(8)所示:

4 實(shí)驗(yàn)結(jié)果及分析

4.1 數(shù)據(jù)來源

本文選取SemEval(2010Task8)關(guān)系分類數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集樣本總數(shù)10 717,全部為標(biāo)注樣本,其中訓(xùn)練數(shù)據(jù)集有8 000個樣本,測試數(shù)據(jù)集有2 717個樣本,包括9種有向關(guān)系和1種無向關(guān)系。其中有向關(guān)系包括“Component-Whole”、“Member- Collection”、“Entity-Origin”、“Entity-Destination”、“Product-Producer”、“Message-Topic”、“Content-Container”、“Instrument-Agency”和“Cause-Effect”,無向關(guān)系指“Other”關(guān)系。

4.2 實(shí)驗(yàn)設(shè)計(jì)

本論文采用了哈工大的語言技術(shù)平臺LTP作為支持進(jìn)行語法樹構(gòu)建,利用Python進(jìn)行程序設(shè)計(jì)完成機(jī)器學(xué)習(xí)訓(xùn)練,機(jī)器學(xué)習(xí)部分超參數(shù)設(shè)置如下:利用Adam優(yōu)化器,訓(xùn)練的詞向量維度為300,因?yàn)檫@個維度是訓(xùn)練時間和效果綜合指標(biāo)最好;采用dropout值為5.0;學(xué)習(xí)率為0.01;迭代次數(shù):200,隱藏層維度為300。

本論文采用通用的準(zhǔn)確率(Precision)、召回率(Recall)和F1值3個指標(biāo)對模型算法性能進(jìn)行評價(jià),針對某一實(shí)體關(guān)系類型的抽取結(jié)果,具體評價(jià)公式為(9-11):

4.3 實(shí)驗(yàn)數(shù)據(jù)及分析

采用本論文算法經(jīng)典算法做比較,包括最經(jīng)經(jīng)典的LSTM算法、Bi-LSTM算法和Bi-LSTM+self-ATT算法,其中Bi-LSTM+self-ATT是融入了自注意力的雙向門控神經(jīng)網(wǎng)絡(luò),其采用的是自注意力,注意力沒有很好的融入到語義特征中。本論文所采用的模型算法在精度和召回率上分別有5%和1.5%的提升,說明本算法的改進(jìn)是有效的。實(shí)驗(yàn)結(jié)果如表1所示。

表1 實(shí)驗(yàn)結(jié)果比較

5 結(jié)論

本論文通過對句法依存樹分析,并采用二維表表示,利用句法依存樹建注意力機(jī)制,與雙向門控神經(jīng)網(wǎng)絡(luò)結(jié)合,實(shí)現(xiàn)了句法與語義的有機(jī)融合。在關(guān)系抽取模型的實(shí)驗(yàn)中采用開放的SenEval10 task8作為語料資源進(jìn)行訓(xùn)練和測試,測試結(jié)果表示本算法的改進(jìn)是有效的。下一步的研究需要進(jìn)一步研究句子特征的有機(jī)融合,提升關(guān)系抽取的效果。

猜你喜歡
句法文檔注意力
淺談Matlab與Word文檔的應(yīng)用接口
讓注意力“飛”回來
有人一聲不吭向你扔了個文檔
述謂結(jié)構(gòu)與英語句法配置
句法二題
詩詞聯(lián)句句法梳理
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
A Beautiful Way Of Looking At Things
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat