国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分段注意力匹配網(wǎng)絡(luò)的跨領(lǐng)域少樣本關(guān)系分類

2021-10-12 04:53:12戴尚峰孫承杰單麗莉劉秉權(quán)
中文信息學(xué)報(bào) 2021年8期
關(guān)鍵詞:段長實(shí)例分段

戴尚峰,孫承杰,單麗莉,林 磊,劉秉權(quán)

(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)

0 引言

關(guān)系分類是自然語言處理中重要的研究內(nèi)容,目的是從給定的句子中判斷兩個(gè)實(shí)體的關(guān)系類型。現(xiàn)有的關(guān)系分類任務(wù)多依賴于人工標(biāo)注語料,不僅花費(fèi)大量的人力和物力,而且由于標(biāo)注成本高,存在著標(biāo)注語料匱乏問題。遠(yuǎn)程監(jiān)督的方法使用知識(shí)庫對(duì)文本進(jìn)行啟發(fā)式標(biāo)注,部分解決了標(biāo)注語料匱乏問題,但是遠(yuǎn)程監(jiān)督獲得的語料存在噪聲,并且知識(shí)庫中的長尾分布問題在語料中同樣存在,因此少樣本關(guān)系分類任務(wù)被提出。在少樣本關(guān)系分類任務(wù)中,模型需要在未訓(xùn)練過的關(guān)系類型上僅用極少數(shù)據(jù)進(jìn)行關(guān)系分類。然而,在實(shí)際應(yīng)用中,測(cè)試數(shù)據(jù)通常與訓(xùn)練數(shù)據(jù)來自不同的領(lǐng)域,這會(huì)導(dǎo)致模型在同領(lǐng)域測(cè)試數(shù)據(jù)上表現(xiàn)較好,而在不同領(lǐng)域測(cè)試數(shù)據(jù)上效果較差。針對(duì)上述問題,本文就跨領(lǐng)域少樣本關(guān)系分類任務(wù)進(jìn)行研究,模型需要進(jìn)一步在不同領(lǐng)域的測(cè)試數(shù)據(jù)上進(jìn)行少樣本關(guān)系分類。

在當(dāng)前的少樣本關(guān)系分類方法中,以句子級(jí)別表示為主,這類方法首先編碼句子向量,然后使用不同算法進(jìn)行聚合和少樣本關(guān)系分類,如Prototypical Network[1]、Graph Neural Network[2]等,但是預(yù)測(cè)性能均差強(qiáng)人意。這是因?yàn)榛诰渥蛹?jí)別表示的方法往往難以精確地通過一個(gè)向量表示句子信息,而基于單詞級(jí)別表示的方法,可以更為細(xì)粒度地表示文本信息,如多層次匹配聚合網(wǎng)絡(luò)MLMAN[3],在少樣本關(guān)系分類任務(wù)FewRel 1.0[4]上取得了較好的效果?;谖谋鞠嗨贫扔?jì)算的方法可以降低領(lǐng)域差異性帶來的影響,文獻(xiàn)[5]構(gòu)建了跨領(lǐng)域測(cè)試數(shù)據(jù)集的少樣本關(guān)系分類任務(wù)FewRel 2.0,并提出了BERT-PAIR方法,使用BERT[6]模型計(jì)算句子間單詞的交互信息,通過計(jì)算文本相似度選出與查詢實(shí)例(query instance)最相似的支持集合(support set),在FewRel 2.0領(lǐng)域適應(yīng)任務(wù)中,取得了該任務(wù)基線模型中的最好效果。

本文提出了模型PAMN(Piecewise Attention Matching Network),在BERT-PAIR[5]的基礎(chǔ)上進(jìn)一步融合句子相似度計(jì)算方法,針對(duì)關(guān)系抽取問題,將句子分段進(jìn)行匹配,能夠更準(zhǔn)確地計(jì)算關(guān)系實(shí)例間的相似度。PAMN在編碼層使用BERT[6]模型,將句子根據(jù)實(shí)體位置分為三段,針對(duì)段長分布的跨領(lǐng)域差異性,使用動(dòng)態(tài)段長進(jìn)行段長領(lǐng)域自適應(yīng),在句子匹配層使用基于分段注意力機(jī)制的句子相似度計(jì)算方法,PAMN取得了目前FewRel 2.0領(lǐng)域適應(yīng)任務(wù)測(cè)評(píng)榜單上的最好效果。

1 相關(guān)工作

近年來,基于度量的方法在少樣本學(xué)習(xí)任務(wù)中被廣泛研究。基于度量的方法使用映射函數(shù)對(duì)查詢實(shí)例和支持集合進(jìn)行映射,并對(duì)映射后的向量通過度量函數(shù)分類。Prototypical Network[1]將查詢實(shí)例和支持集合中的實(shí)例映射到同一空間,使用支持集合中實(shí)例向量的中心來表示該支持集合向量,距離查詢實(shí)例向量最近的支持集合向量為查詢實(shí)例所屬的類別;Siamese Network[7]使用孿生結(jié)構(gòu)對(duì)查詢實(shí)例和支持集合中的實(shí)例進(jìn)行編碼,并使用距離度量函數(shù)衡量距離的遠(yuǎn)近;Matching Network[8]引入了注意力機(jī)制和外部記憶,使模型可以更好地融合支持集合的特征;Graph Neural Network[2]加強(qiáng)了實(shí)例間的信息交互,將查詢實(shí)例向量和所有支持集合中的實(shí)例向量置于圖中,通過圖神經(jīng)網(wǎng)絡(luò)進(jìn)行向量的交互和更新;Induction Network[9]則通過動(dòng)態(tài)路由的方式對(duì)支持集合中的實(shí)例特征進(jìn)行聚合。由于少樣本關(guān)系分類任務(wù)屬于少樣本學(xué)習(xí)任務(wù)中的一種,上述提到的少樣本學(xué)習(xí)方法都可以遷移到少樣本關(guān)系分類任務(wù)中,但需要將編碼方式針對(duì)關(guān)系分類實(shí)例進(jìn)行更改。

對(duì)于少樣本關(guān)系分類任務(wù),研究人員提出了更具有針對(duì)性的方法?;陬A(yù)訓(xùn)練的方法通過針對(duì)性預(yù)訓(xùn)練來加強(qiáng)模型對(duì)關(guān)系分類任務(wù)的預(yù)先理解,Soares等[10]認(rèn)為相同的實(shí)體對(duì)中存在著相似的關(guān)系類型,并基于這個(gè)假設(shè)使用大量無監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,取得了當(dāng)時(shí)FewRel 1.0少樣本關(guān)系分類任務(wù)測(cè)評(píng)榜單上的最好效果?;诰渥酉嗨贫扔?jì)算的少樣本關(guān)系分類方法屬于少樣本學(xué)習(xí)中基于度量的方法,可以減少模型在對(duì)句子編碼時(shí)損失的特征,有較好的領(lǐng)域適應(yīng)性,多層次匹配聚合網(wǎng)絡(luò)MLMAN[3]使用基于單詞級(jí)別與實(shí)例級(jí)別的注意力機(jī)制對(duì)查詢實(shí)例和支持集合進(jìn)行多層次匹配聚合;BERT-PAIR[5]方法使用BERT[6]模型計(jì)算句子相似度,取與查詢實(shí)例相似度最高的支持集合為查詢實(shí)例的預(yù)測(cè)類別,取得了當(dāng)時(shí)FewRel 2.0領(lǐng)域適應(yīng)任務(wù)基線模型中的最好效果,證明了基于句子相似度計(jì)算的跨領(lǐng)域少樣本關(guān)系分類模型的有效性。

2 問題定義

在少樣本關(guān)系分類任務(wù)中,由于訓(xùn)練集與測(cè)試集沒有關(guān)系類型交集,在測(cè)試集上進(jìn)行預(yù)測(cè)時(shí),對(duì)于給定的待分類查詢實(shí)例(query instance),通過N個(gè)支持集合(support set)來表示N種關(guān)系類型,每個(gè)支持集合中有K個(gè)相同關(guān)系的實(shí)例。判斷查詢實(shí)例屬于給定支持集合中的哪一個(gè),這樣一次預(yù)測(cè)稱為一次NwayKshot分類。在訓(xùn)練集中我們以同樣的方式進(jìn)行數(shù)據(jù)構(gòu)建,通過訓(xùn)練來提升模型在測(cè)試集中的效果。

我們將關(guān)系類型實(shí)例表示為(x,e1,e2,r),其中,x為該實(shí)例的句子,e1、e2分別為該句子中的頭實(shí)體和尾實(shí)體,r為e1、e2間存在的的關(guān)系類型;N個(gè)支持集合表示為S={Si={sij=(xij,ei,j,1,ei,j,2,ri)|j=1,…,K}|i=1,…,N},sij表示支持集合Si中的第j個(gè)實(shí)例;待分類關(guān)系類型的查詢實(shí)例表示為q=(x,e1,e2,rt),t∈{1,…,N},t為需要進(jìn)行預(yù)測(cè)的類別。表1列舉了FewRel 1.0數(shù)據(jù)集中一次3 way 2 shot少樣本關(guān)系分類,我們需要判斷查詢實(shí)例中的實(shí)體(Anjani Putra,harsha)的關(guān)系類型與哪一個(gè)支持集合(S1,S2,S3)中的實(shí)體關(guān)系類型相同。

表1 FewRel 1.0數(shù)據(jù)集 3 way 2 shot例子

3 分段注意力匹配網(wǎng)絡(luò)(PAMN)

3.1 模型總體架構(gòu)

在少樣本關(guān)系分類任務(wù)中,對(duì)于給定的查詢實(shí)例q=(x,e1,e2,rt),t∈{1,…,N}與N個(gè)支持集合S={Si={sij=(xij,ei,j,1,ei,j,2,ri)|j=1,…,K}|i=1,…,N}。我們通過句子相似度計(jì)算的方式來計(jì)算查詢實(shí)例和支持集合的相似度。首先,我們計(jì)算查詢實(shí)例q和第i個(gè)支持集合Si中第j個(gè)實(shí)例sij的相似度simij,并取均值Simi=mean(simij),j∈{1,…,K}作為q與Si的相似度,最后取t=argmax(Simi)作為預(yù)測(cè)類別。在計(jì)算simij時(shí)經(jīng)過編碼層和句子匹配層。編碼層使用預(yù)訓(xùn)練模型BERT[6]對(duì)q與sij進(jìn)行單詞級(jí)別的編碼,句子匹配層使用分段注意力機(jī)制計(jì)算編碼后的q與sij的相似度simij。分段注意力匹配網(wǎng)絡(luò)PAMN結(jié)構(gòu)如圖1所示。

圖1 分段注意力匹配網(wǎng)絡(luò)PAMN結(jié)構(gòu)

3.2 編碼層

在計(jì)算支持集合Si中的第j個(gè)實(shí)例sij與查詢實(shí)例q相似度時(shí),我們使用預(yù)訓(xùn)練語言模型BERT[6](BERT for sequence classification)對(duì)sij、q進(jìn)行編碼,輸入BERT的句子對(duì)編碼方式與BERT-PAIR[5]相同。句中的頭實(shí)體、尾實(shí)體周圍分別使用

特殊符號(hào)[e1,start]、[e1,end]、[e2,start]、[e2,end]進(jìn)行標(biāo)識(shí),將兩個(gè)句子分別表示為如下序列(頭實(shí)體在前,尾實(shí)體在后),如式(1)、式(2)所示。

其中,sentence1、sentence2表示sij和q構(gòu)成待匹配的句子對(duì),m為經(jīng)過填補(bǔ)或截取后的固定句長,w1,1、w1,m分別表示sentence1的第一個(gè)和最后一個(gè)單詞。輸入BERT之前,在句子對(duì)前面加入BERT中的[cls]符號(hào),中間和末尾加入[sep]符號(hào),拼接如式(3)所示。

(3)

使用BERT中的segment_label對(duì)兩個(gè)句子中的單詞進(jìn)行區(qū)分,如式(4)所示。

(4)

將input_sequence和每個(gè)單詞的segment_la-bel轉(zhuǎn)化為詞向量和segment_label向量,對(duì)應(yīng)位置相加后輸入BERT,得到sentence1、sentence2對(duì)應(yīng)的單詞向量序列v1∈Rm×d、v2∈Rm×d,m為句長,d為BERT輸出單詞向量的維度。與PCNN[11]類似,將向量v1,v2按照兩個(gè)實(shí)體結(jié)束符位置e1,end,e2,end分為三段,并使用動(dòng)態(tài)段長m1,n,m2,n(見3.5節(jié))進(jìn)行填補(bǔ)或截?cái)?,得?v1,n∈Rm1,n×d,v2,n∈Rm2,n×d,n∈{1,2,3}。我們認(rèn)為對(duì)應(yīng)段間的相似單詞更具有針對(duì)性,并且可以減少跨段的無意義相似單詞對(duì)于句子相似度計(jì)算的影響,接下來,在句子匹配層,我們將通過分段注意力機(jī)制計(jì)算sentence1與sentence2的句間相似度。

3.3 句子匹配層

對(duì)于3.2節(jié)得到的段矩陣v1,n∈Rm1,n×d,v2,n∈Rm2,n×d,n∈{1,2,3},在句子匹配層使用分段注意力機(jī)制計(jì)算句間相似度,對(duì)于對(duì)應(yīng)段[v1,n,v2,n],首先分別將v1,n和v2,n輸入全連接層,并使用tanh激活函數(shù),如式(5)、式(6)所示。

分段注意力機(jī)制中,我們認(rèn)為對(duì)應(yīng)段間單詞的相似度更有意義,使用矩陣乘法得到對(duì)應(yīng)段注意力矩陣Mn,其中,Mn,i,j表示sentence1第n段的第i個(gè)單詞v′1,n,i和sentence2第n段的第j個(gè)單詞v′2,n,j的相似度,i∈{1,…,m1,n},j∈{1,…,m2,n},如式(7)所示。

Mn,i,j=(v′1,n,i)Tv′2,n,j

(7)

使用交叉注意力獲取對(duì)應(yīng)段中的相似特征表示。對(duì)于sentence1中第n段sentence1,n的每個(gè)單詞向量的相似特征,使用sentence2的對(duì)應(yīng)段sentence2,n中單詞向量的加權(quán)和來表示,sentence2,n中每個(gè)單詞向量的相似特征以同樣的方式通過sentence1,n表示,加權(quán)權(quán)重為對(duì)應(yīng)段注意力矩陣Mn中的單詞相似度。

接下來,將對(duì)應(yīng)段的特征表示進(jìn)行融合,如式(16)所示。

mn=tanh([v1,n,max;v1,n,avg;v2,n,max;v2,n,avg]W5+b5)

(16)

對(duì)于所有對(duì)應(yīng)段使用上述相同的操作,不同段的全連接層使用不同參數(shù)(全連接層參數(shù)為W1~W15和b1~b15,其中,W1~W5、b1~b5為第一段參數(shù);W6~W10、b6~b10為第二段參數(shù);W11~W15、b11~b15為第三段參數(shù)),得到m1,m2,m3,拼接得到m,如式(17)所示。

m=[m1;m2;m3]

(17)

最后經(jīng)過全連接層將m映射為1維向量,即表示sentence1與sentence2(sij與q)的句間相似度,如式(18)所示。

simij=(tanh(mW16+b16))W17+b17

(18)

3.4 預(yù)測(cè)方法與損失函數(shù)

在預(yù)測(cè)階段,根據(jù)查詢實(shí)例q與支持集合Si中每個(gè)實(shí)例sij的相似度simij的均值,表示q與Si整體的相似度Simi=mean(simij),j∈{1,…,K}。取相似度最大的支持集合St的下標(biāo)t=argmax(Simi),i∈{1,…,N}作為預(yù)測(cè)標(biāo)簽。使用交叉熵?fù)p失函數(shù)計(jì)算預(yù)測(cè)相似度Simi與標(biāo)簽yi間的損失值,如式(19)、式(20)所示。

3.5 段長分布與動(dòng)態(tài)段長

在實(shí)驗(yàn)階段,我們發(fā)現(xiàn)雖然FewRel 1.0訓(xùn)練集、FewRel 1.0驗(yàn)證集與FewRel 2.0驗(yàn)證集(數(shù)據(jù)集介紹見4.1節(jié))均沒有關(guān)系類型交集,但是由于FewRel 2.0驗(yàn)證集領(lǐng)域不同,導(dǎo)致它與其他兩個(gè)數(shù)據(jù)集句長分布差異較大(經(jīng)過BERT Tokenizer[6]處理后的句長),我們統(tǒng)計(jì)了三個(gè)數(shù)據(jù)集的句長均值、標(biāo)準(zhǔn)差,以及句子根據(jù)實(shí)體分為三段后不同段的段長均值和標(biāo)準(zhǔn)差,如圖2所示。

圖2 FewRel1.0訓(xùn)練集、驗(yàn)證集和FewRel 2.0驗(yàn)證集不同段的長度均值、標(biāo)準(zhǔn)差

從圖2可以看出,段長分布存在著較大的跨領(lǐng)域差異性,無論是句長還是每一段的段長,F(xiàn)ewRel 2.0驗(yàn)證集都存在長度較長且標(biāo)準(zhǔn)差較大的問題,我們使用動(dòng)態(tài)段長實(shí)現(xiàn)領(lǐng)域適應(yīng)。首先,輸入BERT的句子對(duì)長度從訓(xùn)練集的115(單句長m=56,加上頭部的[cls]與中間和尾部的[sep]標(biāo)識(shí)符后,句長由(115)修改為驗(yàn)證集的243(單句長m=120),同時(shí),在NwayKshot分類時(shí)共有Q×N×K(Q為預(yù)測(cè)的Query數(shù)目)個(gè)句子對(duì),在分段進(jìn)行填補(bǔ)或截?cái)鄷r(shí),我們將長度設(shè)置為Q×N×K個(gè)句子對(duì)中該段段長均值的1.5倍,如式(21)所示。

(21)

其中,1≤i≤Q×N×K,1≤n≤3,m1,n,m2,n分別表示第i個(gè)句子對(duì)中第一個(gè)句子sentencei,1與第二個(gè)句子sentencei,2每段的動(dòng)態(tài)段長,leni,1,n,leni,2,n表示sentencei,1與sentencei,2根據(jù)實(shí)體分為三段后每段的長度,這樣每次NwayKshot分類時(shí)動(dòng)態(tài)段長會(huì)根據(jù)段長均值進(jìn)行自適應(yīng),使得填補(bǔ)或截?cái)嗪蟮亩伍L可以覆蓋大部分段長,同時(shí)不會(huì)變得過長或過短,當(dāng)我們?cè)诓煌I(lǐng)域數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)時(shí),段長會(huì)根據(jù)領(lǐng)域進(jìn)行自適應(yīng)。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

我們的訓(xùn)練集為FewRel 1.0訓(xùn)練集,共有64種關(guān)系類型,每類有700個(gè)關(guān)系實(shí)例;驗(yàn)證集為FewRel 1.0驗(yàn)證集和FewRel 2.0領(lǐng)域適應(yīng)任務(wù)驗(yàn)證集,其中,F(xiàn)ewRel 1.0驗(yàn)證集有16種關(guān)系類型,每類有700個(gè)關(guān)系實(shí)例,F(xiàn)ewRel 2.0驗(yàn)證集共有10種關(guān)系類型,每類有100個(gè)關(guān)系實(shí)例;測(cè)試集由Few-Rel 2.0領(lǐng)域適應(yīng)任務(wù)測(cè)評(píng)提供,共有15種關(guān)系類型,每類有100個(gè)關(guān)系實(shí)例,其中,訓(xùn)練集、驗(yàn)證集、測(cè)試集沒有關(guān)系類型交集,最后我們將驗(yàn)證集上效果最好的模型提交到FewRel 2.0領(lǐng)域適應(yīng)任務(wù)測(cè)評(píng)中,得到測(cè)試集結(jié)果。

4.2 數(shù)據(jù)構(gòu)建

在訓(xùn)練與測(cè)試時(shí),均需要將數(shù)據(jù)構(gòu)建為少樣本NwayKshot分類數(shù)據(jù),構(gòu)建算法如表2所示。

表2 N way K shot 分類數(shù)據(jù)構(gòu)建算法

4.3 訓(xùn)練細(xì)節(jié)與參數(shù)設(shè)置

我們的模型在5 way 5 shot上進(jìn)行訓(xùn)練,在5 way 1 shot(5-1)、5 way 5 shot(5-5)、10 way 1 shot(10-1)、10 way 5 shot(10-5)上進(jìn)行驗(yàn)證和測(cè)試,通過分類準(zhǔn)確率來評(píng)估模型性能。

由于每次NwayKshot分類數(shù)據(jù)構(gòu)建使用隨機(jī)抽樣的方式,為了能夠充分地學(xué)習(xí)訓(xùn)練集信息,使得訓(xùn)練集的每個(gè)數(shù)據(jù)都經(jīng)過模型訓(xùn)練,我們將訓(xùn)練次數(shù)設(shè)置為30 000次,同時(shí)每訓(xùn)練1 000次,使用驗(yàn)證集對(duì)模型進(jìn)行驗(yàn)證,驗(yàn)證次數(shù)設(shè)置為1 000次,并保存驗(yàn)證集準(zhǔn)確率最高的模型參數(shù)。設(shè)置較高的驗(yàn)證頻率是因?yàn)槟P蛿M合速度較快,為了保存模型領(lǐng)域適應(yīng)性最好的參數(shù),需要在整個(gè)訓(xùn)練期間保持較高的驗(yàn)證頻率,防止得到的模型參數(shù)過擬合。訓(xùn)練完成后,為了準(zhǔn)確評(píng)估模型在驗(yàn)證集上的效果,使用被保存的模型參數(shù)在驗(yàn)證集上進(jìn)行5 000次驗(yàn)證,把得到的準(zhǔn)確率作為驗(yàn)證集評(píng)估結(jié)果。

我們使用BERTbase參數(shù)對(duì)BERT模型進(jìn)行參數(shù)初始化,對(duì)BERT之外的參數(shù)使用Xavier[12]進(jìn)行初始化,學(xué)習(xí)率設(shè)置為10-5,優(yōu)化器使用Adamw[13],同時(shí)在BERT模型后以0.2的概率對(duì)單詞序列向量進(jìn)行dropout,防止模型對(duì)數(shù)據(jù)過擬合。BERT模型輸出維度d為768,全連接層W1~W15輸出維度為460,W16、W17輸出維度分別為230和1。

4.4 實(shí)驗(yàn)結(jié)果

我們?cè)贔ewRel 2.0領(lǐng)域適應(yīng)任務(wù)測(cè)評(píng)中提交模型,與FewRel 2.0論文中的模型Proto(BERT)、Proto-ADV(CNN)、BERT-PAIR進(jìn)行對(duì)比,結(jié)果如表3所示。

表3 不同模型在FewRel 2.0測(cè)試集上的準(zhǔn)確率 (單位: %)

PAMN在FewRel 2.0領(lǐng)域適應(yīng)任務(wù)測(cè)評(píng)中取得了當(dāng)前榜單上的最好效果,相較于FewRel 2.0領(lǐng)域適應(yīng)測(cè)評(píng)中最好的模型BERT-PAIR,準(zhǔn)確率提升超過10個(gè)百分點(diǎn),證明了PAMN在領(lǐng)域適應(yīng)任務(wù)中的有效性。同時(shí)我們將在dropout=0.1時(shí)訓(xùn)練的模型提交到FewRel 1.0測(cè)評(píng)中,并與FewRel 1.0測(cè)評(píng)中效果最好的模型BERT-PAIR、MLMAN進(jìn)行對(duì)比,由于MTB[10]使用了大量額外數(shù)據(jù)對(duì)實(shí)體關(guān)系預(yù)測(cè)進(jìn)行針對(duì)性預(yù)訓(xùn)練,所以這里不與MTB進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表4所示。

表4 不同模型在FewRel 1.0測(cè)試集上的準(zhǔn)確率 (單位: %)

由于FewRel 1.0偏向于特定領(lǐng)域,我們沒有針對(duì)FewRel 1.0對(duì)PAMN進(jìn)行過多調(diào)整,僅調(diào)低dropout,降低模型的泛化性,與BERT-PAIR[5]模型相比,PAMN在FewRel 1.0任務(wù)上同樣有著2至3個(gè)百分點(diǎn)的提升。

4.5 對(duì)比實(shí)驗(yàn)

為了分析PAMN中各部分結(jié)構(gòu)對(duì)于模型的影響。我們?cè)贔ewRel 2.0驗(yàn)證集上設(shè)置了兩組對(duì)比實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)中的標(biāo)準(zhǔn)模型將句子分為三段,并使用非孿生結(jié)構(gòu)的PAMN。第一組實(shí)驗(yàn)研究分段注意力機(jī)制對(duì)模型的影響,我們分別使用不將句子分段的PAMN,將句子分為四段(第四段為整個(gè)句子)的PAMN與標(biāo)準(zhǔn)模型進(jìn)行比較。第二組實(shí)驗(yàn)研究孿生結(jié)構(gòu)對(duì)模型的影響,孿生結(jié)構(gòu)有著較好的泛化性,我們將網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整為孿生結(jié)構(gòu),即對(duì)兩個(gè)句子的對(duì)應(yīng)段使用共享參數(shù)的全連接網(wǎng)絡(luò),與標(biāo)準(zhǔn)模型進(jìn)行比較。

第一組實(shí)驗(yàn)研究分段注意力機(jī)制對(duì)模型的影響,其中分三段為標(biāo)準(zhǔn)模型,在FewRel 2.0驗(yàn)證集上的結(jié)果如表5所示。

表5 不同分段數(shù)模型在FewRel 2.0驗(yàn)證集上的準(zhǔn)確率 (單位: %)

從表5可以看出,將整個(gè)句子分為三段比不分段效果要好,分析原因可能有: ①在少樣本關(guān)系分類問題中,同一關(guān)系分類實(shí)例,不同段各司其職,表達(dá)不同的內(nèi)容,段與段間的表達(dá)方式、數(shù)據(jù)分布存在較大差異。PAMN模型的分段匹配結(jié)構(gòu),能夠更精準(zhǔn)地利用每一段的語義信息。②不同關(guān)系分類實(shí)例間分布差異較大(句長標(biāo)準(zhǔn)差大),相較于匹配長度較長、句式復(fù)雜的整句,PAMN匹配長度更短、句式簡單且分布波動(dòng)較小(標(biāo)準(zhǔn)差小)的段,可以獲得更好的匹配結(jié)果。下面的句1和句2即為一對(duì)關(guān)系分類匹配實(shí)例:

句1: [CHKT]e1is a Canadian radio station, airing at 1430 AM in [Toronto]e2,Ontario.

句2: [WSFF]e1is licensed to [Vinton, Virginia]e2, serving Metro Roanoke.

根據(jù)實(shí)體位置進(jìn)行分段后,“[CHKT]e1”和“[WSFF]e1”為第一段,“is a Canadian radio station, airing at 1430 AM in [Toronto]e2”和“is licensed to [Vinton, Virginia]e2”為第二段,“,Ontario”和“,serving Metro Roanoke”為第三段,對(duì)應(yīng)段之間存在著較強(qiáng)的匹配關(guān)系,符合模型匹配時(shí)的期望。

但是不分段時(shí)可以額外匹配到兩個(gè)句子中不同段間單詞的相似特征,這部分特征是將句子分為三段時(shí)所缺少的。將句子分為四段(第四段為整個(gè)句子)相當(dāng)于在三段的基礎(chǔ)上加入了整個(gè)句子不同段間相似單詞的特征,既考慮了相同段間的特征,又考慮了不同段間的特征,但是實(shí)驗(yàn)結(jié)果卻表明,分為四段比分為三段模型準(zhǔn)確率要低,這說明引入不同段間的特征反而影響了模型的表現(xiàn),我們認(rèn)為這是因?yàn)椴煌伍g特征中噪聲較多,即無意義的相似特征較多,導(dǎo)致真正能對(duì)文本匹配起作用的特征混在噪聲中,因而無法起到預(yù)期的作用。

第二組實(shí)驗(yàn)研究孿生結(jié)構(gòu)對(duì)模型的影響,其中,非孿生結(jié)構(gòu)為標(biāo)準(zhǔn)模型,在FewRel 2.0驗(yàn)證集上的結(jié)果如表6所示。

表6 非孿生與孿生結(jié)構(gòu)模型在FewRel 2.0驗(yàn)證集上的準(zhǔn)確率 (單位: %)

在孿生結(jié)構(gòu)測(cè)試部分,不同模型性能差異非常大,使用非孿生結(jié)構(gòu)時(shí)效果較好,而使用孿生結(jié)構(gòu)時(shí)效果較差,我們認(rèn)為使用相同的參數(shù)對(duì)向量進(jìn)行映射會(huì)導(dǎo)致向量相似度增加,向量的部分特征會(huì)被減弱,導(dǎo)致在句子匹配層誤差增加,模型性能降低。

5 總結(jié)

本文提出了基于分段注意力機(jī)制的跨領(lǐng)域少樣本關(guān)系分類方法PAMN,通過句子相似度計(jì)算的方法計(jì)算查詢實(shí)例和支持集合實(shí)例間的相似度,具有良好的領(lǐng)域適應(yīng)性,同時(shí)針對(duì)關(guān)系分類實(shí)例使用分段注意力機(jī)制進(jìn)行分段匹配,使得模型可以更準(zhǔn)確地計(jì)算關(guān)系分類實(shí)例間的句子相似度,最后針對(duì)不同領(lǐng)域間段長分布差異的問題,使用動(dòng)態(tài)段長進(jìn)行段長領(lǐng)域自適應(yīng)。PAMN取得了目前FewRel 2.0領(lǐng)域適應(yīng)測(cè)評(píng)榜單的最好效果。

猜你喜歡
段長實(shí)例分段
一類連續(xù)和不連續(xù)分段線性系統(tǒng)的周期解研究
測(cè)斜段長在井眼軌跡計(jì)算中的影響
分段計(jì)算時(shí)間
截鋼筋
3米2分段大力士“大”在哪兒?
太空探索(2016年9期)2016-07-12 10:00:04
觀察
聚乙二醇嵌段長碳鏈二酸共聚物的合成與酶降解研究
中國塑料(2014年1期)2014-10-17 02:46:33
完形填空Ⅱ
完形填空Ⅰ
關(guān)于年齡分段的描述
大洼县| 台山市| 汪清县| 东方市| 南城县| 沙田区| 越西县| 萝北县| 华坪县| 民和| 汝阳县| 抚远县| 那曲县| 黔南| 邯郸市| 富阳市| 翁牛特旗| 邵武市| 长春市| 漳平市| 洞头县| 澜沧| 青河县| 买车| 澳门| 崇明县| 南漳县| 肇源县| 霍林郭勒市| 正镶白旗| 福海县| 农安县| 汝城县| 精河县| 德化县| 许昌县| 恭城| 藁城市| 门源| 贵州省| 新乡县|