国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聯(lián)合注意力機(jī)制與MatchPyramid的文本相似度分析算法

2022-10-18 01:02:58孫海春朱容辰孫天楊
關(guān)鍵詞:特征提取注意力卷積

代 翔,孫海春,朱容辰,孫天楊

中國(guó)人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038

文本相似度計(jì)算是自然語(yǔ)言處理領(lǐng)域的核心技術(shù)之一,在自動(dòng)問答系統(tǒng)、信息檢索、自動(dòng)文本摘要、文本分類等自然語(yǔ)言處理的任務(wù)中都有著廣泛的應(yīng)用[1]。隨著深度學(xué)習(xí)的迅速發(fā)展,文本相似度計(jì)算方法層出不窮,孿生網(wǎng)絡(luò)結(jié)構(gòu)是文本相似度計(jì)算常采取的一種網(wǎng)絡(luò)結(jié)構(gòu),將兩個(gè)文本分別輸入到兩個(gè)子網(wǎng)絡(luò)中,子網(wǎng)絡(luò)常采用卷積神經(jīng)網(wǎng)絡(luò)或者長(zhǎng)短期記憶網(wǎng)絡(luò),通過這兩個(gè)獨(dú)立的子網(wǎng)絡(luò)分別對(duì)兩個(gè)文本進(jìn)行特征提取,然后將子網(wǎng)絡(luò)輸出的特征向量采用曼哈頓距離等距離度量方法進(jìn)行計(jì)算即得到兩個(gè)文本的相似度得分。這種以孿生網(wǎng)絡(luò)為主體的文本相似度計(jì)算方法,善于捕獲單文本內(nèi)部的特征,但文本之間沒有產(chǎn)生交互,因而完全忽略了文本之間的關(guān)聯(lián)信息。之后,注意力機(jī)制被引入到文本相似度計(jì)算當(dāng)中用來建模文本之間的交互信息,例如給定以下兩個(gè)文本:

A:He said the foodservice pie business doesn’t fit the company’s long-term growth strategy.

B:The foodservice pie business does not fit our long-term growth strategy.

當(dāng)對(duì)A 句中“foodservice”進(jìn)行編碼時(shí),注意力機(jī)制可以使我們看到B句中各個(gè)單詞對(duì)“foodservice”的影響力,影響力越高,對(duì)A句中“foodservice”進(jìn)行編碼的過程中貢獻(xiàn)度就越大。通過這種方式,使兩個(gè)文本在編碼過程中融入彼此的信息從而產(chǎn)生交互。MatchPyramid 模型提出一種新穎的交互方式,其在編碼過程中使兩個(gè)文本詞向量矩陣進(jìn)行點(diǎn)積,將兩個(gè)文本融合為圖的模式。接著使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)該二維圖進(jìn)行特征提取,在卷積的過程中兩個(gè)文本在不同層級(jí)的特征上產(chǎn)生信息交互。本文針對(duì)傳統(tǒng)的MatchPyramid 模型進(jìn)行改進(jìn),在輸入編碼層加入多頭自注意力機(jī)制和互注意力機(jī)制增強(qiáng)對(duì)文本內(nèi)部特征和文本間關(guān)聯(lián)特征的表達(dá)。其次使用了密集連接的卷積神經(jīng)網(wǎng)絡(luò),彌補(bǔ)了模型對(duì)長(zhǎng)距離依賴特征提取的不足,結(jié)果表明本文模型在文本相似度計(jì)算任務(wù)上表現(xiàn)更好。

1 Related works

早期,人們判斷兩段文本是否相似主要依賴于關(guān)鍵字匹配,這種匹配方式完全忽略了語(yǔ)義的影響,對(duì)于語(yǔ)義相似而字面差距大的文本識(shí)別效果不好。之后,人們逐漸考慮到了語(yǔ)義理解在文本相似度計(jì)算中的重要性,使用一系列的機(jī)器學(xué)習(xí)算法如LSA、PLSA、LDA將文本從稀疏的高維空間映射到低維語(yǔ)義空間,在低維語(yǔ)義空間計(jì)算相似度。在這一時(shí)期初步考慮到了語(yǔ)義,但一詞多義等問題仍是難點(diǎn)。Mikolov等人[2]創(chuàng)造出的word2vec模型,該模型使用大量的語(yǔ)料庫(kù)訓(xùn)練,不僅使單詞從過去稀疏的獨(dú)熱編碼轉(zhuǎn)換到了稠密的分布式詞向量表示方法,極大降低了單詞表示維度,也考慮到了單詞的語(yǔ)義。Pennington等人[3]在word2vec的基礎(chǔ)上提出了glove向量,相比word2vec 單單考慮到了單詞局部的上下文信息,glove 通過共現(xiàn)矩陣考慮到了整個(gè)語(yǔ)料庫(kù)的全局信息,對(duì)單詞的語(yǔ)義表達(dá)更充分。劉繼明等人[4]提出PO-SIF算法,將word2vec詞向量使用SIF算法轉(zhuǎn)化為句向量,然后計(jì)算句向量之間的相似度。Huang 等人[5]提出了DSSM模型,首次將神經(jīng)網(wǎng)絡(luò)模型運(yùn)用到文本相似度計(jì)算當(dāng)中,DSSM 模型使用的是詞袋模型,但其提出了詞哈希技術(shù),將單詞切割為三字母表示,極大地降低了單詞向量的維度,接著將降維后的單詞向量投入到全連接神經(jīng)網(wǎng)絡(luò)中抽取相應(yīng)的語(yǔ)義特征。隨后,Shen 等人[6]提出了CLSM模型,該文認(rèn)為,DSSM模型采用詞袋模型忽略了文本中的詞序,文中利用滑動(dòng)窗口順序取詞,然后利用詞哈希技術(shù)降維,在一定程度上考慮到了文本的位置信息。同時(shí),在特征提取層,用卷積神經(jīng)網(wǎng)絡(luò)替代全連接神經(jīng)網(wǎng)絡(luò),通過卷積層操作融入局部上下文信息,但忽略了全局信息。后續(xù)又出現(xiàn)了LSTMDSSM[7]等模型提升對(duì)文本長(zhǎng)距離依賴特征的提取表現(xiàn)。Hu等人[8]提出了ARC-I和ARC-II模型,ARC-I單純使用CNN 分別對(duì)文本提取特征,兩個(gè)文本之間并沒有交互。而ARC-II 模型屬于交互學(xué)習(xí)的模型,模型從兩個(gè)文本分別抽取詞向量組合起來進(jìn)行全卷積,以此加強(qiáng)對(duì)關(guān)聯(lián)特征的提取。Yin等人[9]提出了ABCNN模型,將注意力機(jī)制與CNN 相結(jié)合進(jìn)行特征表示。Wan 等人[10]提出了MV-LSTM 模型,使用雙向LSTM 對(duì)語(yǔ)句重編碼,然后將編碼后的句向量以多種方式進(jìn)行交互操作,最后使用k-Max 池在每個(gè)交互矩陣上提取最大信號(hào)。2016年,Liang等人[11]提出了MatchPyramid模型,該模型將兩個(gè)文本的詞向量矩陣通過點(diǎn)積轉(zhuǎn)化為二維圖的形式,然后使用CNN 對(duì)二維圖進(jìn)行卷積操作。Mueller 等人[12]提出了孿生LSTM 模型評(píng)估句子之間的語(yǔ)義相似性,將詞嵌入作為L(zhǎng)STMs的輸入,把句子編碼為固定大小的向量來表達(dá)句子潛在意義,然后對(duì)兩個(gè)向量計(jì)算曼哈頓距離。Parikh 等人[13]提出了可分解注意力模型,該模型將兩個(gè)句子分解成每個(gè)詞的軟對(duì)齊機(jī)制,來計(jì)算當(dāng)前文本中每個(gè)詞與另一段文本的注意力得分從而得到每個(gè)詞的加權(quán)向量,該模型強(qiáng)調(diào)單詞之間的對(duì)應(yīng)關(guān)系。Wang等人[14]提出了適用于句子匹配任務(wù)的比較聚合框架,研究了在對(duì)兩個(gè)句子向量進(jìn)行匹配過程中使用不同比較函數(shù)的效果。在2017 年,Nie 等人[15]提出了SSE 模型,在編碼層使用堆疊的雙向LSTM,同時(shí)每層Bilstm的輸入都是前面所有層輸出的連接,最后一層的輸出接最大池化形成固定向量后輸入到分類器中。Chen 等人[16]提出了ESIM 模型,該模型在編碼層使用Bilstm 對(duì)輸入詞向量在當(dāng)前語(yǔ)境下重編碼,接著對(duì)輸出的兩個(gè)文本向量使用注意力加權(quán),加權(quán)后的向量與原始向量采取多種方式組合。最后將生成的向量連接起來再輸入到Bilstm中進(jìn)行特征提取。Wang等人[17]提出了BIMPM模型,該模型對(duì)于孿生Bilstm 的每一步進(jìn)行交互匹配,且提出了多種匹配方式,實(shí)現(xiàn)更細(xì)粒度的交互機(jī)制。Yi等人[18]提出了MCAN模型,注意力機(jī)制通常用來關(guān)注重點(diǎn)信息,本文中將注意力機(jī)制視為特征提取器,將多種注意力機(jī)制視為從不同的視角提取文本特征,增強(qiáng)了文本特征表示。Chen 等人[19]提出將對(duì)抗網(wǎng)絡(luò)應(yīng)用到文本相似度建模任務(wù)上,認(rèn)為這種方式能更好的建模了兩個(gè)文本之間的共同特征。Kim等人[20]提出DRCN模型,結(jié)合密集連接和注意力機(jī)制的遞歸模型進(jìn)行文本相似度計(jì)算,文中使用5 層Bilstm 模型,每層的輸入都采用密集連接包含了之前所有層的輸出,同時(shí)為了避免密集連接機(jī)制所造成的的維度增大,引入自編碼器壓縮高維向量到固定長(zhǎng)度,這種密集連接機(jī)制避免了底層特征的丟失。趙琪等人[21]提出膠囊網(wǎng)絡(luò)和BIGRU 的聯(lián)合模型,認(rèn)為膠囊網(wǎng)絡(luò)可以提取文本的局部特征,BIGRU 可以提取文本的全局特征,該模型在Quora數(shù)據(jù)集上準(zhǔn)確率達(dá)到86.16%。

交互式模型能很好地建模文本之間的關(guān)聯(lián)特征,傳統(tǒng)的MatchPyramid 模型的特點(diǎn)決定了它在句內(nèi)特征與長(zhǎng)距離依賴特征方面的提取還有改善的空間。基于此,本文提出融合注意力機(jī)制的增強(qiáng)MatchPyramid 模型,多頭自注意力機(jī)制彌補(bǔ)了模型在單文本內(nèi)部特征提取的不足,互注意力機(jī)制則增強(qiáng)了對(duì)文本間交互特征的表示,同時(shí),采用密集連接的卷積神經(jīng)網(wǎng)絡(luò)提升模型在長(zhǎng)距離依賴特征提取上的表現(xiàn)。結(jié)果表明,本文模型在文本相似度計(jì)算任務(wù)上有更優(yōu)良的表現(xiàn)。

2 模型架構(gòu)

本文的模型分為輸入編碼層、特征提取層、特征分析判斷層。如圖1 所示為本文模型架構(gòu)圖。在輸入編碼層,首先使用自編碼器(autoencoder,AE)對(duì)初始詞向量降維,降維后的詞向量作為多頭自注意力和互注意力機(jī)制的輸入,通過多頭自注意力機(jī)制,可以提取到單文本的內(nèi)部語(yǔ)義特征,捕獲文本內(nèi)部的詞依賴關(guān)系;互注意力機(jī)制更善于提取句間特征,對(duì)兩個(gè)句子中更相似的部分給予更高的關(guān)注。本文將兩種注意力的輸出以不同形式相組合,然后將形成的多種特征與初始詞向量相連接形成新的詞向量矩陣。傳統(tǒng)的MatchPyramid 模型將兩個(gè)文本通過點(diǎn)積形成單通道圖的形式,本文首先將新形成兩個(gè)文本向量通過轉(zhuǎn)換矩陣映射到多個(gè)特征子空間,然后使特征子空間的文本向量對(duì)應(yīng)點(diǎn)積形成多通道圖作為特征提取層的輸入,相比于單通道圖輸入到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,映射到多個(gè)特征子空間再進(jìn)行特征提取更能突出某些特征。在特征提取層相比于傳統(tǒng)的MatchPyramid 模型,本文使用了密集連接的卷積神經(jīng)網(wǎng)絡(luò),使底層特征能夠傳遞到最高層,避免了特征信息的丟失。本文的密集連接卷積神經(jīng)網(wǎng)絡(luò)分為3個(gè)DenseBlock,其中前2 個(gè)DenseBlock 包含4 個(gè)卷積模塊,第3 個(gè)DenseBlock 包含2 個(gè)卷積模塊。每個(gè)卷積模塊都包括Batch Normalization 層、卷積層、ReLU 層,其中最后一個(gè)卷積模塊增加池化層進(jìn)行特征降維。本文池化層聯(lián)合平均池和最大池進(jìn)行組合池化。在特征分析判斷層,本文的分類器是一個(gè)多層感知機(jī)(multilayer perceptron,MLP),由兩個(gè)全連接神經(jīng)網(wǎng)絡(luò)組成,網(wǎng)絡(luò)間加入ReLU 激活函數(shù)和batch normalization 層,最后使用Sigmoid函數(shù)進(jìn)行二分類。

2.1 輸入編碼層

2.1.1 自編碼器

在輸入編碼層,不像之前的模型直接使用注意力加權(quán)后的詞向量矩陣代替初始的glove詞向量矩陣作為后續(xù)網(wǎng)絡(luò)的輸入。本文將多頭自注意力機(jī)制與互注意力機(jī)制的輸出以多種形式組合并與原始300 維預(yù)訓(xùn)練的glove向量相連接作為后續(xù)網(wǎng)絡(luò)的輸入。假如直接將多個(gè)詞向量矩陣按照?qǐng)D1模式相連接,那么詞向量的維度將達(dá)到1 500 維,極大地增加模型運(yùn)行時(shí)間。因此為防止詞向量長(zhǎng)度過大造成計(jì)算量的急劇上升,本文增加了自編碼器用于降低維度。本文的自編碼器只包含編碼層,去除了解碼層,使用自編碼器將300維glove向量壓縮到64 維,然后將降維后的詞向量作為多頭自注意力機(jī)制和互注意力機(jī)制的輸入,這極大地降低了注意力層的計(jì)算量。

圖1 總體模型架構(gòu)Fig.1 Overall model architecture

2.1.2 多頭自注意力機(jī)制

在公式(4)中,將h次注意力機(jī)制的結(jié)果按照維度dv進(jìn)行拼接后,通過W0進(jìn)行線性變換得到的結(jié)果即為最終的多頭注意力。

本文多頭自注意力機(jī)制的輸入為經(jīng)自編碼器壓縮過的詞向量矩陣,因此輸入輸出的詞向量長(zhǎng)度均為64維。

2.1.3 互注意力機(jī)制

文本相似度建模是基于雙文本,因此既要考慮單文本內(nèi)部的依賴特征,也要關(guān)注文本之間的關(guān)聯(lián)特征。將預(yù)訓(xùn)練的300 維Glove 向量輸入到自編碼器,向量長(zhǎng)度被壓縮到64 維,然后將壓縮后的向量輸入互注意力機(jī)制中,公式(5)和(6)表示輸入的兩個(gè)壓縮后的詞向量矩陣P2和Q2,對(duì)P2中的任何一個(gè)單詞,要衡量其與Q2中每個(gè)單詞間的相關(guān)程度。這在現(xiàn)實(shí)中具有很好的解釋性,在判斷兩個(gè)語(yǔ)句之間的相似性時(shí),兩個(gè)語(yǔ)句的單詞之間相關(guān)程度并不是一致的,更要關(guān)注重點(diǎn)信息。為了計(jì)算pi對(duì)Q2的注意力,首先根據(jù)公式(7)計(jì)算出pi與Q2中每個(gè)單詞之間的相關(guān)程度,然后將所有得到的值使用公式(8)歸一化即得到pi與Q2之間每個(gè)單詞的注意力權(quán)重,最后根據(jù)公式(9)使用注意力權(quán)重對(duì)Q2的每個(gè)詞向量加權(quán)求和即得到最終的pi對(duì)Q2的注意力值。

在得到多頭自注意力與互注意力的輸出后,不像以往的模型直接使用注意力的輸出作為后續(xù)網(wǎng)絡(luò)的輸入,本文將注意力的輸出以多種方式組合并與底層的詞向量相連接。以文本P(文本Q類似)為例,本文計(jì)算互注意力和多頭自注意力之間的差值以及二者之間的元素點(diǎn)積,如公式(10)將注意力機(jī)制的輸出、差值、元素點(diǎn)積的結(jié)果與原始的300 維Glove 向量相連接,得到的詞向量為556維,認(rèn)為這樣能夠更好地對(duì)文本進(jìn)行表示。

圖2 單頭注意力計(jì)算過程Fig.2 Calculation process of single head attention

2.1.4 多通道映射

傳統(tǒng)的MatchPyramid 模型將兩個(gè)文本的詞向量矩陣通過點(diǎn)積形成單通道二維圖的形式,圖中的每個(gè)像素點(diǎn)即為兩個(gè)單詞的詞向量點(diǎn)積后得到的實(shí)數(shù)值。本文提出將兩個(gè)文本的詞向量矩陣映射到多個(gè)表示子空間中,由公式(11)生成初始化三維張量M,其中mi的維度與輸入的詞向量矩陣的維度一致,均為seq_len×embed_size,l代表要映射的通道數(shù),具體來說對(duì)于輸入的詞向量矩陣P5和Q5而言,根據(jù)公式(12)將詞向量矩陣P5與M進(jìn)行元素點(diǎn)積,最終將詞向量矩陣映射到20個(gè)特征子空間中,對(duì)Q5進(jìn)行同樣的操作。

經(jīng)多通道映射后得到的P6和Q6的形狀為l×seq_len×embed_size,將二者做點(diǎn)積,形成多通道二維圖的形式,形狀為l×seq_len×seq_len,其中某單通道二維圖的像素點(diǎn)即代表在該表示子空間下兩個(gè)單詞的詞向量點(diǎn)積后得到的實(shí)數(shù)值。該多通道二維圖即為后續(xù)特征提取層的輸入。

2.2 特征提取層

傳統(tǒng)的MatchPyramid 模型在特征提取層將兩個(gè)文本詞向量矩陣經(jīng)點(diǎn)積后形成的單通道二維圖直接輸入到多層CNN中進(jìn)行特征提取,依靠CNN層的堆疊雖然能在一定程度上加強(qiáng)對(duì)文本長(zhǎng)距離特征的提取,但是也在一定程度上造成了底層特征的損失。本文在特征提取層使用密集連接的CNN,通過密集連接的方式將底層的特征傳遞到頂層的卷積層。這種將不同卷積層的特征圖相連接的方式,可以實(shí)現(xiàn)特征重用,既使模型能夠提取文本長(zhǎng)距離依賴特征,又減少了底層特征的損失。如圖3 所示,特征提取層主要由3 個(gè)DenseBlock 組成,其中前2個(gè)DenseBlock均包含4個(gè)卷積模塊,最后1個(gè)DenseBlock 由2 個(gè)卷積模塊組成。其中每個(gè)卷積模塊都包含batch normalization層、卷積層、ReLU層,最后一個(gè)卷積模塊添加池化層用于對(duì)特征圖降維。

圖3 特征提取層流程圖Fig.3 Flow chart of feature extraction layer

Batch normalization層在本文的網(wǎng)絡(luò)中發(fā)揮很大的作用,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練十分復(fù)雜,每層網(wǎng)絡(luò)的一個(gè)很細(xì)微的變化通過層層傳遞,就會(huì)逐漸被放大,當(dāng)我們對(duì)初始層的輸入進(jìn)行歸一化的處理后,數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)的隱藏層的變換會(huì)導(dǎo)致深度模型中間層網(wǎng)絡(luò)的輸入數(shù)據(jù)的分布不斷變化,然后網(wǎng)絡(luò)去不斷地調(diào)整以適應(yīng)這種新的數(shù)據(jù)分布,從而影響到訓(xùn)練速度。中間層網(wǎng)絡(luò)輸入數(shù)據(jù)分布的變化引起后續(xù)網(wǎng)絡(luò)數(shù)據(jù)分布的改變,這種神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中中間層數(shù)據(jù)分布的變化也被稱為內(nèi)部協(xié)方差偏移。batch normalization 是歸一化網(wǎng)絡(luò)層,在卷積層前添加batch normalization 層可以使每層卷積網(wǎng)絡(luò)的輸入數(shù)據(jù)分布保持穩(wěn)定,從而使網(wǎng)絡(luò)快速收斂,并且有利于提高網(wǎng)絡(luò)的泛化能力。

對(duì)于batch normalization層的具體計(jì)算是針對(duì)每一批數(shù)據(jù)進(jìn)行的,首先根據(jù)公式(13)計(jì)算出每批數(shù)據(jù)的均值,m代表batch_size:

但是如果單純的將每層網(wǎng)絡(luò)的輸入數(shù)據(jù)做歸一化處理,那么上層網(wǎng)絡(luò)所學(xué)習(xí)到的特征分布就會(huì)被破壞。因此,為了保留上層網(wǎng)絡(luò)學(xué)習(xí)到的特征分布,batch normalization 算法在對(duì)批數(shù)據(jù)歸一化處理后加入了變換重構(gòu),如公式(16),其中γ和β是可學(xué)習(xí)參數(shù),從該公式中可以看出,當(dāng)γ與β的值接近于批標(biāo)準(zhǔn)差和均值時(shí),特征分布就會(huì)被還原,從而起到恢復(fù)特征分布的作用。

本文特征提取層的輸入數(shù)據(jù)的形狀為batch_size×l×seq_len×seq_len,l代表輸入通道數(shù)。在本文的Denseblock模塊中,每一個(gè)卷積模塊的輸入都會(huì)采取密集連接的機(jī)制,根據(jù)公式(17)將前面所有卷積模塊的輸出都連接起來作為本層卷積模塊的輸入,其中函數(shù)Hl是卷積模塊中batch normalization 層、卷積層、ReLU 層、池化層一系列操作的組合,xl代表每一個(gè)卷積模塊的輸出。

2.3 特征分析判斷層

在特征分析判斷層將特征提取層最終輸出的特征圖展平然后輸入到分類器中。該層主要包含一個(gè)多層感知器,由兩層全連接神經(jīng)網(wǎng)絡(luò)組成,在每層全連接神經(jīng)網(wǎng)絡(luò)前添加batch normalization層對(duì)輸入數(shù)據(jù)做歸一化處理,最后使用Sigmoid 函數(shù)進(jìn)行二分類從而判斷出兩個(gè)文本是否相似。損失函數(shù)本文使用的是二分類交叉熵?fù)p失函數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集為Quora Question Pairs[17],該數(shù)據(jù)集包含多個(gè)字段,囊括了問題對(duì)的序號(hào)以及標(biāo)識(shí)問題對(duì)是否具有相同的含義的序號(hào),1代表問題對(duì)具有相同釋義,0 代表該問題對(duì)之間無關(guān)聯(lián)。數(shù)據(jù)集一共包含404 000 個(gè)問題對(duì),將其劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集包括384 000條數(shù)據(jù),驗(yàn)證集和測(cè)試集各10 000 條數(shù)據(jù)。本文在數(shù)據(jù)處理方面,去除了停用詞,句子最大長(zhǎng)度設(shè)置為40 個(gè)字符,長(zhǎng)度不足40 個(gè)字符的則補(bǔ)齊,超過40個(gè)字符的句子則截取前40個(gè)字符。

3.2 實(shí)驗(yàn)設(shè)置

本文使用預(yù)訓(xùn)練的300維Glove向量做初始化詞嵌入,對(duì)于未登錄詞隨機(jī)初始化。優(yōu)化器選擇Adam,超參數(shù)設(shè)置方面,學(xué)習(xí)率設(shè)置為0.001,batch_size 設(shè)置為64,epoch 設(shè)置為20。本文的實(shí)驗(yàn)環(huán)境為:pytorch1.6.0,python3.6.9。

3.3 評(píng)價(jià)指標(biāo)

文本相似度計(jì)算屬于二分類任務(wù),兩個(gè)文本若被判斷為相似則分類為1,不相似便被分類為0。對(duì)此,本文使用準(zhǔn)確率、精確率、召回率、F1值和Auc值來評(píng)價(jià)模型的好壞。

準(zhǔn)確率,即預(yù)測(cè)結(jié)果中正確預(yù)測(cè)的樣本占所有預(yù)測(cè)結(jié)果的比重:

3.4 實(shí)驗(yàn)結(jié)果及分析

針對(duì)本文提出的模型,實(shí)施了4 個(gè)實(shí)驗(yàn)進(jìn)行驗(yàn)證:(1)將本文的模型其他的一些基準(zhǔn)模型進(jìn)行對(duì)比;(2)進(jìn)行消融實(shí)驗(yàn),探索模型各部分是否發(fā)揮積極作用;(3)對(duì)密集連接的卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)進(jìn)行了探索;(4)探討了BN層的位置對(duì)本文模型的影響。

如表1所示,在Quora Question Pairs數(shù)據(jù)集上將本文模型與其他文章中所提出的模型進(jìn)行對(duì)比,相比于文獻(xiàn)[11]提出的MatchPyramid 模型,文獻(xiàn)[22]提出的聯(lián)合孿生LSTM網(wǎng)絡(luò)在準(zhǔn)確率和F1值上均有所提升。傳統(tǒng)的MatchPyramid 模型,將兩段文本的詞向量矩陣通過點(diǎn)乘形成二維圖,在此過程中,兩段文本已經(jīng)進(jìn)行了初次交互,而后續(xù)利用多層卷積神經(jīng)網(wǎng)絡(luò)對(duì)該二維圖進(jìn)行特征提取,能夠獲得文本短語(yǔ)特征、語(yǔ)法和語(yǔ)義等高階特征。文獻(xiàn)[22]提出的模型,在MatchPyramid模型的基礎(chǔ)上,通過利用LSTM 的長(zhǎng)期記憶性,從而保留了一些文本內(nèi)長(zhǎng)距離依賴特征,因此效果要好于傳統(tǒng)的Match-Pyramid 模型。而相比于以上所提出的模型,本文的模型在輸入編碼層融合了多頭自注意力機(jī)制和互注意力機(jī)制,自注意力機(jī)制相比于LSTM 網(wǎng)絡(luò),不僅能夠提取出文本全局特征,而且更能銳化關(guān)鍵特征,充分表示出單文本內(nèi)部的特征依賴,而互注意力機(jī)制通過對(duì)兩段文本進(jìn)行交互加權(quán),進(jìn)一步加強(qiáng)了文本間交互特征的表示,最后將點(diǎn)積形成的單通道圖映射到多個(gè)表示子空間,以豐富特征表達(dá)。在特征提取層本文采取了密集連接的卷積神經(jīng)網(wǎng)絡(luò),將底層邊緣特征與高階特征相結(jié)合,避免了特征損失,最終本文的模型準(zhǔn)確率達(dá)到86.62%,F(xiàn)1值達(dá)到86.93%,相比前文所提到的模型有所提升。

表1 基準(zhǔn)模型對(duì)比Table 1 Comparison of benchmark models單位:%

如表2所示,本文對(duì)模型各部分發(fā)揮的作用做出了定量的分析,將注意力機(jī)制的結(jié)果與原始詞向量相連接,會(huì)使詞向量表示能力更加健壯,從而對(duì)模型的性能產(chǎn)生影響。特征映射將形成的單通道圖映射到多個(gè)表示子空間,豐富了底層的特征表示,同時(shí)在密集連接的卷積神經(jīng)網(wǎng)絡(luò)中,特征映射的通道數(shù)會(huì)對(duì)后續(xù)多層卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)造成較大影響。

表2 消融實(shí)驗(yàn)對(duì)比Table 2 Comparison of ablation experiments單位:%

BN層在每個(gè)卷積層和最終的全連接層都發(fā)揮著作用,一方面,提高網(wǎng)絡(luò)的收斂速度,另一方面,在一定程度上抑制模型的過擬合,提高模型的泛化能力,因此當(dāng)去除了所有的BN層后,模型的過擬合現(xiàn)象比較嚴(yán)重,使得模型的效果更差。最后,可以看出dense 網(wǎng)絡(luò)對(duì)模型的提升效果并不太好,原因在于實(shí)驗(yàn)中為了提高模型的運(yùn)行速度,本文模型在加深模型深度的同時(shí),降低了卷積層的通道數(shù),從而減少了模型的參數(shù)量,不可避免地削弱了特征提取層的表征能力,使得dense 網(wǎng)絡(luò)對(duì)模型的提升效果不明顯。

在特征提取層,本文采取了密集連接的卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)的增加能使模型提取更高層次的特征,但盲目的增加網(wǎng)絡(luò)層數(shù),一方面過深的網(wǎng)絡(luò)也會(huì)導(dǎo)致模型過擬合,另一方面過深的網(wǎng)絡(luò)會(huì)引起參數(shù)量的急劇增長(zhǎng),從而加劇了模型時(shí)間復(fù)雜度。因此,選取適當(dāng)?shù)木W(wǎng)絡(luò)層數(shù)也是本文需要探索的目標(biāo)。如表3 所示給出了不同深度的卷積層下模型的效果,可以看出當(dāng)層數(shù)為10時(shí)最合適。

表3 不同卷積層數(shù)實(shí)驗(yàn)對(duì)比Table 3 Experimental comparison of different convolution layers 單位:%

將BN層置于卷積層之后,激活層之前,可以使卷積層的輸出落在激活函數(shù)的非飽和區(qū)從而緩解梯度爆炸或梯度消失的問題。本文測(cè)試了將BN層分別置于卷積層前后的效果,如表4所示BN層位于卷積層之前效果更好,原因在于本文的密集連接在每個(gè)卷積層的輸入都會(huì)接受到其他層的輸出,因此若將BN層置于卷積模塊中卷積層之后激活層之前,那么歸一化的效果只會(huì)作用于當(dāng)前層的輸出,然而下一層網(wǎng)絡(luò)的輸入是之前所有層的輸出相連接,因此BN層歸一化的效果被極大的削弱了,所以對(duì)于本文而言,將BN層置于卷積層之前效果更好。

表4 BN層位置對(duì)比Table 4 Comparison of ablation experiments單位:%

4 結(jié)束語(yǔ)

本文對(duì)傳統(tǒng)的MatchPyramid 模型進(jìn)行了改進(jìn),通過多頭自注意力機(jī)制和互注意力機(jī)制,彌補(bǔ)了傳統(tǒng)的MatchPyramid 模型對(duì)單文本內(nèi)特征和雙文本間依賴特征提取的不足,采取多通道映射將單通道圖映射到多個(gè)表示子空間豐富了特征表達(dá),也能對(duì)關(guān)鍵特征起到銳化作用。接著使用密集連接的卷積神經(jīng)網(wǎng)絡(luò)使得底層特征能夠參與到最終的分類決策當(dāng)中,避免了特征損失。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在文本相似度計(jì)算任務(wù)上效果很好。

猜你喜歡
特征提取注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
Bagging RCSP腦電特征提取算法
A Beautiful Way Of Looking At Things
基于MED和循環(huán)域解調(diào)的多故障特征提取
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
霞浦县| 阿瓦提县| 乌拉特前旗| 漳平市| 沐川县| 吉首市| 黔西县| 石阡县| 四平市| 绥江县| 兰溪市| 呼伦贝尔市| 汝城县| 察哈| 南平市| 桂阳县| 九寨沟县| 洪泽县| 武定县| 仪陇县| 湖口县| 大庆市| 湖州市| 鹰潭市| 隆尧县| 饶阳县| 永年县| 巴塘县| 鹤壁市| 青冈县| 太原市| 鲁山县| 泸水县| 吉林省| 开封县| 山东| 仙游县| 永宁县| 赣榆县| 三台县| 平乡县|