国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多視角匹配和比較-聚合框架的文本匹配模型

2022-04-29 03:51田學(xué)志王同喜
電腦知識與技術(shù) 2022年4期
關(guān)鍵詞:自然語言處理深度學(xué)習(xí)

田學(xué)志 王同喜

摘要:機(jī)器理解、答案選擇和文本蘊(yùn)涵等許多自然語言處理任務(wù)都需要對序列進(jìn)行比較。序列間重要單元的匹配是解決這些問題的關(guān)鍵。文章引用了一種基于多角度匹配的方法來改進(jìn)通用的“比較聚合”框架的文本匹配模型。給定兩個句子p和q,模型首先使用預(yù)訓(xùn)練的詞嵌入模型將其轉(zhuǎn)換為向量矩陣,然后對其進(jìn)行編碼使每個詞都能獲得上下文信息,接下來對編碼后的兩個句子進(jìn)行多視角匹配,然后使用卷積神經(jīng)網(wǎng)絡(luò)將匹配結(jié)果聚合成定長的匹配向量,最后基于匹配向量進(jìn)行決策。將改進(jìn)后的模型在WiKiQA和Quora數(shù)據(jù)集上進(jìn)行了測試,實(shí)驗(yàn)結(jié)果表明相比原來的模型性能有較大的提升。

關(guān)鍵詞:深度學(xué)習(xí);自然語言處理;文本匹配;文本相似度

中圖分類號:TP311? ? ?文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2022)04-0103-03

1 引言

最近,對序列匹配問題的一些研究的一個共同特點(diǎn)是使用了“比較-聚合”框架[1]。在這樣的框架中,兩個序列的比較是通過比較兩個分別代表整個序列的向量來完成的,然后聚合這些比較結(jié)果,做出最終決定。然而框架[2]中的比較部分的組成單元選擇過于單一,并且比較函數(shù)過于簡單,不能很好比較兩個序列中的語義相似性。所以在本文中,筆者引入了一種多視角、多比較決策的比較匹配方法[3]。

2 問題描述

可以將QA任務(wù)的每個例子表示為一個包含三個元素的元組(P, Q, y),其中P= (p1, ..., pj, ..., pM)是一個長度為M的句子,Q= (q1, ..., qi, ..., qN)是另一個長度為N的句子,y∈ Y是表示P,Q之間關(guān)系的標(biāo)簽。QA任務(wù)可以表示為基于訓(xùn)練集估計(jì)條件概率Pr(y|P, Q),并通過y*= arg maxy∈YPr(y|P, Q).預(yù)測測試示例的關(guān)系。具體地說在問答匹配任務(wù)中P是一個問題,Q是一個候選答案,Y={0,1},y=1表示Q是對P的回答,y=0則表示不是。

3 方法

本節(jié),首先在第3.1小節(jié)介紹比較-聚合框架模型,然后在第3.2小節(jié)中給出引入的多角度匹配操作。

3.1 模型介紹

筆者提出的基于多角度、多比較策略的比較-聚合框架模型來估計(jì)概率分布Pr(y|P, Q)。圖1顯示了模型結(jié)構(gòu),模型分為以下五個層次。

1)詞嵌入層

這一層的目標(biāo)是用預(yù)訓(xùn)練的GloVe模型[4]將P和Q中的每個單詞用d維向量來表示這一層的輸入是兩個由單詞序號組成序列,輸出是兩個由詞向量組成的序列P: [p1, ...,pM]和Q: [q1, ...,qN]。

2)上下文表示層

該層使用遞歸神經(jīng)網(wǎng)絡(luò)來處理這兩個序列,使用LSTM[5]的改進(jìn)版本,其中只保留用于記憶有意義單詞的輸入門。其中⊙為逐元素相乘,W和b是要學(xué)習(xí)的參數(shù),Wi、Wu∈Rl×d,bi、bu∈Rl?!癰?eX”表示將偏置向量b重復(fù)X次。

3)比較層

這是模型的核心層。這一層的目標(biāo)是將P的每個上下文嵌入(時間步長)與Q的所有上下文嵌入(時間步長)進(jìn)行比較。如圖1所示,將p的每個時間步與q的所有時間步進(jìn)行多角度匹配操作?得到匹配結(jié)果T=[tp1,...,tpM],將在第3.2小節(jié)中詳細(xì)介紹?這一操作。這一層的輸出是一個匹配向量序列(圖1中?操作的正上方),其中每個匹配向量對應(yīng)于一個時間步與另一個句子的所有時間步的匹配結(jié)果。

4)聚合層

該層用于將兩個序列的匹配向量聚合成一個定長匹配向量。將匹配向量輸入單層CNN網(wǎng)絡(luò)進(jìn)行聚合得到一個定長匹配向量。

其中r∈Rn×l,n為CNN的窗口數(shù),文中使用的CNN結(jié)構(gòu)為text-CNN[6]中所使用的結(jié)構(gòu)相同。

5)預(yù)測層

該層使用了一個兩層前饋神經(jīng)網(wǎng)絡(luò)并使用SoftMax激活函數(shù)來評估概率分布Pr(y|P, Q)。

3.2 多角度匹配

多角度匹配首先定義一個相似度函數(shù)

其中v 1與v 2表示的是兩個d維度的向量,W ∈ R l × d 是權(quán)重,其維度為( l , d ),其中l(wèi)表示的是匹配的角度數(shù)量,結(jié)果m是一個l維度的向量,m = [ m 1 , . . . , m k , . . . , m l ]每一個mk表示的是第k個角度的匹配結(jié)果,其值的相似度計(jì)算方法如下

如圖2所示,fm有四種策略來求相似度。

(1) Full-Matching.如圖2(a)所示,該策略會把序列P每個時間步pi和序列Q最后一個時間步qN進(jìn)行相似度計(jì)算。

(2) Max-Matching.如圖2(b)所示,該策略會把序列P每個時間步pi和序列Q每個時間步qj進(jìn)行相似度計(jì)算,最后只保留每個維度的最大值。

(3) Attentive-Matching.如圖2(c)所示,該策略首先會計(jì)算序列P每個時間步pi和序列Q每個時間步qj余弦相似度,然后用該相似度作為對應(yīng)時刻的權(quán)重與序列Q加權(quán)平均得到注意力加權(quán)的序列Qmean,最后求序列P每個時間步pi和序列Qatt每個時間步的相似度。

(4) Max-Attentive-Matching.如圖2(d)所示,該方法和Attentive-Matching類似,只不過把加權(quán)求平均改為求最大值。

將這四種匹配策略應(yīng)用到序列P的每個時間步上,并將生成的四個向量串聯(lián)起來作為序列P的每個時間步的匹配向量。

4 實(shí)驗(yàn)及結(jié)果

4.1 數(shù)據(jù)集

本文采用公開的WikiQA數(shù)據(jù)集和Quora數(shù)據(jù)集,其中WikiQA數(shù)據(jù)集由問題ID、問題、回答ID、回答和標(biāo)簽組成,標(biāo)簽為0表示不是答案,為1則表示是答案,數(shù)據(jù)集有20360條訓(xùn)練數(shù)據(jù)、2733條驗(yàn)證數(shù)據(jù)、6165條測試數(shù)據(jù)。而Quora數(shù)據(jù)集同樣由以上特征組成,但是標(biāo)簽為0表示語義不同,為1則表示語義相同,數(shù)據(jù)集有404000條數(shù)據(jù),本文按8:1:1將其劃分為訓(xùn)練集、驗(yàn)證集、測試集。

4.2 模型參數(shù)設(shè)置

詞嵌入層使用使用預(yù)訓(xùn)練的glove.6B.300d,里面包含常用英文單詞的詞向量,向量維度為300,問題長度為30,答案長度為90,batch_size為64,所有隱藏層節(jié)點(diǎn)數(shù)均為128,dropout為0.5,學(xué)習(xí)率為0.001,匹配角度數(shù)為8。

4.3 實(shí)驗(yàn)結(jié)果及分析

首先驗(yàn)證匹配角度數(shù)量對實(shí)驗(yàn)結(jié)果的影響,將匹配角度數(shù)量分別設(shè)置為{4,8,12,16,20},在其他參數(shù)不變的情況下在Quora數(shù)據(jù)集上進(jìn)行測試。結(jié)果如圖3所示,可以看到模型就算是只增加4個匹配角度也能有較大的提升,但不宜增加過多,匹配角度數(shù)量大于16之后雖然還能提升但會增加模型訓(xùn)練難度。

筆者還驗(yàn)證了四種匹配策略在該模型上的有效性。每次測試都會去除一種匹配決策,并與全匹配策略和改進(jìn)之前的策略進(jìn)行比較,在Quora數(shù)據(jù)集上測試。結(jié)果如表1所示,從表中可以看出去除任何一種匹配策略都將影響模型的性能,并且明顯優(yōu)于改進(jìn)之前的策略,驗(yàn)證了匹配策略在模型中的有效性。

最后對比了模型在采用改進(jìn)之前的策略和改進(jìn)之后的策略在WikiQA數(shù)據(jù)集上的測試結(jié)果,結(jié)果如表2所示??梢钥闯龈倪M(jìn)匹配策略之后模型性能有較大的提升。

5 結(jié)束語

本文將一種基于多視角的匹配策略引用到基于“比較聚合”框架的文本匹配模型中在性能上取得了較大的提升,但仍然有很多提升空間,還可以在多個粒度上來表達(dá)句子并在不同粒度上進(jìn)行匹配,在上下文表示層還可以使用更高級復(fù)雜的基于RNN的網(wǎng)絡(luò)來提高模型性能。

參考文獻(xiàn):

[1] Wang S, Jiang J. A compare-aggregate model for matching text sequences[J]. arXiv preprint arXiv:1611.01747, 2016.

[2] Wang Z, Bian W, Li S, et al. Improved Compare-Aggregate Model for Chinese Document-Based Question Answering[C]//National CCF Conference on Natural Language Processing and Chinese Computing. Springer, Cham, 2017: 712-720.

[3] Wang Z, Hamza W, Florian R. Bilateral multi-perspective matching for natural language sentences[J]. arXiv preprint arXiv:1702.03814, 2017.

[4] 周艷平,朱小虎.基于正負(fù)樣本和Bi-LSTM的文本相似度匹配模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(4):175-180.

[5] 孟金旭,單鴻濤,萬俊杰,賈仁祥.BSLA:改進(jìn)Siamese-LSTM的文本相似模型[J/OL].計(jì)算機(jī)工程與應(yīng)用:1-10[2022-01-04].http://kns.cnki.net/kcms/detail/11.2127.TP.20210726.0907.014.html.

[6] 郭知鑫,鄧小龍.基于BERT-BiLSTM-CRF的法律案件實(shí)體智能識別方法[J].北京郵電大學(xué)學(xué)報,2021,44(4):129-134.

收稿日期:2021-09-15

作者簡介:田學(xué)志(1998—),男,湖北武漢人,碩士,學(xué)生,研究方向?yàn)樽匀徽Z言處理。

猜你喜歡
自然語言處理深度學(xué)習(xí)
基于組合分類算法的源代碼注釋質(zhì)量評估方法
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
詞向量的語義學(xué)規(guī)范化
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析