国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種簡化門控結(jié)構(gòu)的增強(qiáng)序列文本語義匹配模型研究

2022-01-04 15:05:02黃靜陳新府豪
軟件工程 2022年1期

黃靜 陳新府豪

摘? 要:在自然語言處理的文本相似度匹配方面,針對長短期記憶網(wǎng)絡(luò)擁有多個(gè)控制門層,導(dǎo)致其在訓(xùn)練過程中需要一定的硬件計(jì)算能力和計(jì)算時(shí)間成本,提出一種基于Bi-GRU的改進(jìn)ESIM文本相似度匹配模型。該模型在雙向LSTM(BiLSTM)的ESIM模型的基礎(chǔ)上,通過Bi-GRU神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)訓(xùn)練,提高模型的訓(xùn)練性能。實(shí)驗(yàn)表明,在公開數(shù)據(jù)集QA_corpus和LCQMC上分別進(jìn)行測試,改進(jìn)后的ESIM模型較之原先模型,在結(jié)果數(shù)據(jù)對比圖中,絕大部分組的損失函數(shù)數(shù)值均小于原先模型,準(zhǔn)確率數(shù)值均大于原先模型。

關(guān)鍵詞:相似度匹配;雙向長短期記憶網(wǎng)絡(luò);Bi-GRU;ESIM

中圖分類號(hào):TP391.1? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):2096-1472(2022)-01-50-05

Abstract: In terms of text similarity matching in natural language processing, the long and short-term memory network has multiple control gate layers, which requires a certain amount of hardware computing power and computing time cost during the training process. Aiming at these problems, this paper proposes an improved ESIM (Enhanced Sequential Inference Model) text similarity matching model based on Bi-GRU. Based on the ESIM model of bidirectional LSTM (Long Short-Term Memory), the proposed model is trained by Bi-GRU neural network to improve the training performance of the model. The improved ESIM model is tested on QA_corpus and LCQMC (Large-scale Chinese Question Matching Corpus) respectively. Test results show that compared with the original model, the loss function values of most groups are lower than the original model, and the accuracy values are higher than the original model.

Keywords: similarity matching; bidirectional LSTM; Bi-GRU; ESIM

1? ?引言(Introduction)

相似度匹配是自然語言處理領(lǐng)域的一個(gè)重要分支[1],是問答系統(tǒng)[2]、信息檢索[3]及對話系統(tǒng)[4]等領(lǐng)域的關(guān)鍵技術(shù)之一。在基于概率和統(tǒng)計(jì)方法方面的研究中,BERGER等[5]提出應(yīng)用統(tǒng)計(jì)模型,將檢索詞拓展到近義詞,增大檢索范圍。郭慶琳等[6]通過適當(dāng)增加詞頻改進(jìn)DF算法,彌補(bǔ)個(gè)別有用信息的誤濾,并將特征項(xiàng)在特征選擇階段的權(quán)重應(yīng)用到文檔集合,改進(jìn)TF-IDF算法,提高其精度。石琳等[7]通過調(diào)整特征項(xiàng)的權(quán)重改進(jìn)TF-IDF算法,優(yōu)化權(quán)重計(jì)算。張奇等[8]提出三對向量分別代表TF-IDF、bi-gram、tri-gram的值,通過回歸模型計(jì)算得出相似度。

基于概率、統(tǒng)計(jì)方法的相似度匹配在實(shí)際運(yùn)用中取得不錯(cuò)的效果,但隨著深度學(xué)習(xí)在圖像、語音方面的發(fā)展,學(xué)者們開始利用深度學(xué)習(xí)模型進(jìn)行自然語言處理[9]。深度學(xué)習(xí)模型特征能夠自動(dòng)提取,并且相比于前者泛化性能更好。HUANG等[10]提出以輸入、表示、匹配三層為架構(gòu)的DSSM模型;ZHOU等[11]提出BiLSTM雙向長短期記憶網(wǎng)絡(luò)模型;GERS等[12]在LSTM的基礎(chǔ)上,增加了窺視孔連接;CHEN等[13]提出以雙向LSTM(BiLSTM)和tree-LSTM為結(jié)構(gòu)的ESIM模型,此外還有多種LSTM的變體研究。LSTM因自身存在多個(gè)控制門層,每個(gè)單元需要四個(gè)線性層,因此訓(xùn)練時(shí)需要較大的存儲(chǔ)帶寬。

針對LSTM網(wǎng)絡(luò)的不足,本文采取在LSTM基礎(chǔ)上將忘記門和輸入門融合的GRU網(wǎng)絡(luò)融合ESIM模型,提出基于Bi-GRU的改進(jìn)ESIM文本相似度匹配模型,在實(shí)際計(jì)算任務(wù)中相比于改進(jìn)之前收斂速度加快。

2? ?相關(guān)模型介紹(Introduction to relevant models)

2.1? ?Word2vec模型

Word2vec模型是2013 年Goolge開源的一款詞嵌入模型,用于將文本內(nèi)容生成詞向量,投影到向量空間以便后續(xù)做向量運(yùn)算,其中包括連續(xù)詞袋CBOW和跳字Skip-gram兩種模型。

本文使用Skip-gram模型,通過詞本身來預(yù)測其上下文。該模型結(jié)構(gòu)分為三層,分別為輸入層、投影層、輸出層,具體如圖1所示。

最大化似然函數(shù),如式(1)所示。

損失函數(shù)通過最大似然函數(shù)取對數(shù)并取反,如式(2)所示。

在式(2)中,m表示窗口大小并大于零,T表示訓(xùn)練文本大小。Skip-gram模型計(jì)算條件概率即根據(jù)給定詞推測其上下文詞匯的概率,如式(3)所示。

2.2? ?LSTM模型

RNN屬于時(shí)間序列網(wǎng)絡(luò),能存儲(chǔ)歷史信息,但在序列過長的情況下會(huì)產(chǎn)生梯度消失的問題[14]。LSTM作為RNN的特殊形態(tài),用于處理該問題。LSTM的網(wǎng)絡(luò)結(jié)構(gòu)包含三個(gè)門層,分別是用于保留或刪除上一時(shí)刻狀態(tài)的忘記門層、用于決定保存輸入當(dāng)前時(shí)刻的輸入門層,以及用于控制當(dāng)前時(shí)刻輸出的輸出門層。具體的模型結(jié)構(gòu)如圖2所示。

忘記門公式如式(4)所示。

忘記門通過sigmoid激活函數(shù)實(shí)現(xiàn),當(dāng)其值為1時(shí),表示保留信息;當(dāng)其值為0時(shí),表示舍棄信息。

輸入門公式如式(5)—式(7)所示。

輸入門也可成為更新門,用于更新當(dāng)前網(wǎng)絡(luò)單元的狀態(tài),通過sigmoid、tanh激活函數(shù)協(xié)同調(diào)節(jié)網(wǎng)絡(luò),來決定更新哪些信息。

輸出門公式如式(8)、式(9)所示。

輸入門和單元狀態(tài)共同決定輸出,即LSTM的最終輸出[15]。

2.3? ?GRU模型

GRU(Gated Recurrent Unit)模型是LSTM模型的一種特殊類型,其結(jié)構(gòu)是在LSTM的基礎(chǔ)上,將忘記門和輸入門融合并混合單元狀態(tài)和隱藏狀態(tài),得到只含更新門和重置門的結(jié)構(gòu)模型。更新門控制上一時(shí)刻狀態(tài)信息流入當(dāng)前時(shí)刻的程度,重置門是控制上一時(shí)刻狀態(tài)信息寫入當(dāng)前時(shí)刻的閥門。具體的結(jié)構(gòu)模型如圖3所示。

更新門公式如式(10)所示。

重置門公式如式(11)所示。

GRU模型的單元輸出公式如式(12)、式(13)所示。

由于GRU相比于LSTM的結(jié)構(gòu)更加簡化,因此在循環(huán)神經(jīng)網(wǎng)絡(luò)的長依賴問題方面展現(xiàn)出更好的性能。

2.4? ?ESIM模型

ESIM模型的英文全稱為Enhancing Sequential Inference Model,是一種為自然語言推斷而生的加強(qiáng)版LSTM[16]。其工作原理為:通過給定的前提推導(dǎo)出假設(shè),再由損失函數(shù)判斷和的關(guān)聯(lián)程度,當(dāng)此模型進(jìn)行文本相似度匹配時(shí),損失函數(shù)的工作從判斷推理與假設(shè)之間的關(guān)聯(lián)轉(zhuǎn)向判斷兩序列是否同義。

ESIM模型有雙向LSTM(BiLSTM)和tree-LSTM兩種結(jié)構(gòu),分為四層,分別是輸入編碼層(Input Encoding)、局部推理模型層(Local Inference Modeling)、推理合成層(Inference Composition)、池化層(Pooling)。本文為了高效簡潔,選擇BiLSTM結(jié)構(gòu)進(jìn)行研究,具體的結(jié)構(gòu)模型如圖4所示。

輸入編碼層的輸入結(jié)構(gòu)為已訓(xùn)練完成的詞向量或添加詞嵌入層,再將輸入通過雙向LSTM(BiLSTM)網(wǎng)絡(luò)對輸入值進(jìn)行編碼,即特征提取。輸出結(jié)果為和,如式(14)、式(15)所示,其中和即為前提和假設(shè)。

(2)Local Inference Modeling

局部推理模型層是將特征值做差異性處理,引入注意力機(jī)制,上一層的輸出和的注意力權(quán)重矩陣計(jì)算公式如式(16)所示。

再根據(jù)注意力權(quán)重計(jì)算a和b權(quán)重加權(quán)后的值,計(jì)算公式如式(17)、式(18)所示。

此處的計(jì)算方法是與做加權(quán)。同理,的計(jì)算方法也是與做加權(quán)。

得到計(jì)算出的編碼值和加權(quán)編碼值后,再對其做差異性計(jì)算,通過將編碼值和加權(quán)編碼值進(jìn)行相減、相乘再拼接,結(jié)果向量如式(19)、式(20)所示。

(3)Inference Composition

推理合成層用于捕獲和的局部推理信息及其上下文信息,再進(jìn)行推理組合操作,將值送入池化層,對其進(jìn)行最大池化和平均池化的操作并拼接得到固定長度的向量,最后將值送入全連接層與softmax輸出層。計(jì)算公式如式(21)—式(23)所示。

3? ?實(shí)驗(yàn)(Experiment)

本次實(shí)驗(yàn)使用TensorFlow為深度學(xué)習(xí)框架,通過jieba分詞分解文本,并以Word2vec將詞轉(zhuǎn)換為詞向量,利用Bi-GRU網(wǎng)絡(luò)搭建ESIM模型,最后分別在兩個(gè)公開數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練學(xué)習(xí),檢測改進(jìn)后的ESIM模型相比于改進(jìn)前的ESIM模型的損失函數(shù),以及準(zhǔn)確率伴隨不斷迭代的收斂性能。

3.1? ?實(shí)驗(yàn)環(huán)境

本文訓(xùn)練模型所處的實(shí)驗(yàn)環(huán)境和硬件相關(guān)的配置如表1所示。

3.2? ?實(shí)驗(yàn)數(shù)據(jù)集

本文訓(xùn)練模型時(shí)使用的公開數(shù)據(jù)集分別是QA_corpus和LCQMC。其中,公開數(shù)據(jù)集QA_corpus的訓(xùn)練數(shù)據(jù)為100,000 條,驗(yàn)證數(shù)據(jù)為10,000 條,測試數(shù)據(jù)為10,000 條,并有人工標(biāo)注標(biāo)簽1和0,表示語義相似與否。LCQMC是哈爾濱工業(yè)大學(xué)在自然語言處理國際頂會(huì)COLING2018上構(gòu)建的語義匹配數(shù)據(jù)集,其中訓(xùn)練數(shù)據(jù)為238,876 條,驗(yàn)證數(shù)據(jù)為8,802 條,測試數(shù)據(jù)為12,500 條,并有人工標(biāo)注標(biāo)簽1和0,表示語義相似與否。

3.3? ?參數(shù)設(shè)置

本文模型的實(shí)現(xiàn)主要基于Python和TensorFlow。其中,模型訓(xùn)練的相關(guān)參數(shù)分別如下:詞向量的維度設(shè)為100 維,嵌入隱層單元數(shù)設(shè)為512 維,上下文隱層單元數(shù)設(shè)為256 維,學(xué)習(xí)率設(shè)為0.001,每個(gè)批次的訓(xùn)練數(shù)據(jù)數(shù)設(shè)為1,024,訓(xùn)練的總輪次數(shù)設(shè)為50 次。

為了在訓(xùn)練過程中避免過擬合現(xiàn)象的產(chǎn)生,設(shè)置Dropout參數(shù)[17]。本文將Dropout值的大小設(shè)為0.7,該參數(shù)的含義是指在向前傳播過程中,以一定的概率讓某神經(jīng)元的激活值停止工作,進(jìn)而使網(wǎng)絡(luò)變得稀疏,模型的泛化能力更強(qiáng),從而減少局部特性的依賴和不同特征之間的協(xié)同效應(yīng)[18]。

3.4? ?實(shí)驗(yàn)結(jié)果及分析

將本文提出的改進(jìn)Bi-GRU-ESIM模型和原始ESIM模型進(jìn)行訓(xùn)練效果對比,以相同的參數(shù)及超參數(shù)設(shè)置在兩個(gè)公開數(shù)據(jù)集上訓(xùn)練,完成兩組對比實(shí)驗(yàn)。將損失函數(shù)和準(zhǔn)確率作為衡量模型訓(xùn)練的性能,同時(shí)記錄且對比評估50 次總訓(xùn)練輪數(shù)的完成時(shí)間。

本文采用平方損失函數(shù)作為描述性能的標(biāo)準(zhǔn)之一,如式(24)所示。先進(jìn)行反向傳播,將數(shù)據(jù)值代入損失函數(shù),通過梯度下降更新網(wǎng)絡(luò)中的參數(shù),再讓正向傳播過程中的損失函數(shù)不斷減小[19],隨著訓(xùn)練次數(shù)的增加,損失函數(shù)數(shù)值由大變小趨于穩(wěn)定,代表訓(xùn)練完成。

準(zhǔn)確率(Accuracy)隨著迭代次數(shù)的增加呈現(xiàn)由小到大的變化,并趨于最終穩(wěn)定,定義如式(25)所示。

在公開數(shù)據(jù)集QA_corpus上訓(xùn)練,總數(shù)據(jù)量為100,000 條,每批次訓(xùn)練數(shù)為1,024 條,訓(xùn)練總輪數(shù)為50 次。在訓(xùn)練過程中打印出每一批次的損失函數(shù)和準(zhǔn)確率,得到4,851 組迭代數(shù)據(jù),將改進(jìn)前后的實(shí)驗(yàn)結(jié)果繪圖對比,分析模型的學(xué)習(xí)效果。由于數(shù)據(jù)密集,并且損失函數(shù)和準(zhǔn)確率收斂最終趨于平穩(wěn)之后的數(shù)據(jù)接近重合,因此截取前250 組收斂速率明顯的數(shù)據(jù)對比以便更加直觀。損失函數(shù)對比如圖5所示,準(zhǔn)確率對比如圖6所示。

在公開數(shù)據(jù)集LCQMC上訓(xùn)練,總數(shù)據(jù)量為238,876 條,每批次訓(xùn)練數(shù)為1,024 條,訓(xùn)練總輪數(shù)為50 次。在訓(xùn)練過程中通過程序打印出每一批次各個(gè)迭代步驟的損失函數(shù)和準(zhǔn)確率,得到11,651 組迭代數(shù)據(jù),將改進(jìn)前與改進(jìn)后的數(shù)據(jù)繪制成折線圖對比,分析訓(xùn)練效果。由于數(shù)據(jù)密集,并且損失函數(shù)和準(zhǔn)確率收斂最終趨于平穩(wěn)之后的數(shù)據(jù)接近重合,因此截取前250 組收斂速率明顯的數(shù)據(jù)對比以便更加直觀。損失函數(shù)對比如圖7所示,準(zhǔn)確率對比如圖8所示。

改進(jìn)前后兩模型分別在兩個(gè)數(shù)據(jù)集上完成訓(xùn)練所需的時(shí)間如表2所示。

改進(jìn)前后兩模型分別在QA_corpus和LCQMC提供的測試數(shù)據(jù)上測試得到的損失函數(shù)和準(zhǔn)確率如表3、表4所示。

本文的實(shí)驗(yàn)結(jié)果分析如下:

(1)由圖5和圖6中的數(shù)據(jù)對比可以得出,隨著訓(xùn)練的不斷迭代,Bi-GRU-ESIM模型的損失函數(shù)的下降收斂和準(zhǔn)確率上升收斂速度在相同迭代步數(shù)下要比BiLSTM-ESIM模型更快。

(2)由圖5和圖7相比,圖6和圖8相比,LCQMC數(shù)據(jù)集數(shù)據(jù)量是QA_corpus數(shù)據(jù)集數(shù)據(jù)量的2.4 倍,可以得出在訓(xùn)練數(shù)據(jù)量較少的情況下,Bi-GRU-ESIM模型訓(xùn)練的收斂速度比BiLSTM-ESIM模型更快。

(3)由表3和表4可以得出,改進(jìn)后的Bi-GRU-ESIM模型較之改進(jìn)前的模型在準(zhǔn)確率測試方面較為相近。但在結(jié)合表2分析下得出,Bi-GRU-ESIM模型與BiLSTM-ESIM模型達(dá)到相同的準(zhǔn)確度性能時(shí),改進(jìn)后的模型完成訓(xùn)練所需要的總時(shí)間比改進(jìn)前的模型完成訓(xùn)練需要的總時(shí)間要少。

4? ?結(jié)論(Conclusion)

本文提出的基于Bi-GRU的改進(jìn)ESIM文本相似度匹配模型與基于BiLSTM-ESIM的模型相比,在訓(xùn)練的收斂速度上有所提升,并且在訓(xùn)練數(shù)據(jù)較少的情況下,因Bi-GRU-ESIM模型的門層較少,所以訓(xùn)練的收斂速度更快。雖然ESIM模型在改進(jìn)前后的測試效果接近,但在模型訓(xùn)練的時(shí)間上,Bi-GRU-ESIM模型所需要的學(xué)習(xí)時(shí)間更少,這就意味著與改進(jìn)前的ESIM模型相比,改進(jìn)后的ESIM模型達(dá)到相近的效果所需要的硬件資源和計(jì)算成本更少,因此改進(jìn)后模型的學(xué)習(xí)性能有所提高,具有一定的實(shí)用價(jià)值和現(xiàn)實(shí)意義。

由于此次改進(jìn)只針對優(yōu)化學(xué)習(xí)速率,對于提高模型準(zhǔn)確度方面實(shí)際效果差別不大,因此在提高模型學(xué)習(xí)性能的基礎(chǔ)上優(yōu)化模型的準(zhǔn)確率將是下一步研究的重點(diǎn)和方向。

參考文獻(xiàn)(References)

[1] 周艷平,朱小虎.基于正負(fù)樣本和Bi-LSTM的文本相似度匹配模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(04):175-180.

[2] 侯瑩,陳文勝,王丹寧,等.智能問答技術(shù)在網(wǎng)絡(luò)運(yùn)維服務(wù)中的研究[J].軟件工程,2020,23(09):9-12.

[3] 張超,陳利,李瓊.一種PST_LDA中文文本相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(02):375-377,383.

[4] 劉征宏,謝慶生,李少波,等.基于潛在語義分析和感性工學(xué)的用戶需求匹配[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2016,50(02):224-233.

[5] BERGER A, LAFFERTY J. Information retrieval as statistical translation[J]. ACM SIGIR Forum, 2017, 51(2):219-226.

[6] 郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計(jì)算的研究[J].計(jì)算機(jī)應(yīng)用研究,2008(11):3256-3258.

[7] 石琳,徐瑞龍.基于Word2vec和改進(jìn)TF-IDF算法的深度學(xué)習(xí)模型研究[J].計(jì)算機(jī)與數(shù)字工程,2021,49(05):966-970.

[8] 張奇,黃萱菁,吳立德.一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[J].中文信息學(xué)報(bào),2005(02):93-99.

[9] 王寒茹,張仰森.文本相似度計(jì)算研究進(jìn)展綜述[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,34(01):68-74.

[10] HUANG P S, HE X, GAO J, et al. Learning deep structured semantic models for web search using clickthrough data[C]// QI H, ARUN I, WOLFGANG N, et al. Proceedings of the 22nd ACM International Conference on Conference on Information & Knowledge Management. New York, United States: ACM, 2013:2333-2338.

[11] ZHOU P, SHI W, TIAN J, et al. Attention-Based bidirectional long short-term memory networks for relation classification[C]// ERK K, SMITH N A. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Berlin, Germany: The Association for Computer Linguistics, 2016: 207-212.

[12] GERS F A, SCHMIDHUBER J. Recurrent nets that time and count[C]//LEWIS R D, KENNEDY J, ANDRUSKIEWICZ M, et al. EEE-INNS-ENNS International Joint Conference on Neural Networks. Como, Italy: IEEE, 2000:189-194.

[13] CHEN Q, ZHU X, LING Z, et al. Enhanced LSTM for natural language inference[C]// MOHIT B, HENG J. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics, 2017:1657-1668.

[14] YOUSFI S, BERRANI S, GARCIA C. Contribution of recurrent connectionist language model in improving LSTM-based Arabic text recognition in videos[J]. Pattern Recognition, 2017, 41(5):245-254.

[15] 陶永才,吳文樂,海朝陽,等.一種結(jié)合LSTM和集成算法的文本校對模型[J].小型微型計(jì)算機(jī)系統(tǒng),2020,41(05):967-971.

[16] 馬宇生.基于深度文本匹配模型的智能問答系統(tǒng)問題相似度研究[D].上海:上海師范大學(xué),2020.

[17] 黃建強(qiáng),趙梗明,賈世林.基于biLSTM的新型文本相似度計(jì)算模型[J].計(jì)算機(jī)與數(shù)字工程,2020,48(09):2207-2211,2278.

[18] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1):1929-1958.

[19] 盧超.基于深度學(xué)習(xí)的句子相似度計(jì)算方法研究[D].太原:中北大學(xué),2019.

作者簡介:

黃? ? ? 靜(1965-),女,博士,教授.研究領(lǐng)域:通信工程,大數(shù)據(jù),深度學(xué)習(xí).

陳新府豪(1996-),男,碩士生.研究領(lǐng)域:嵌入式與物聯(lián)網(wǎng),智能信息處理.

陆丰市| 新宾| 宣化县| 综艺| 崇礼县| 民丰县| 卢湾区| 民乐县| 鹤壁市| 海晏县| 济南市| 和平县| 张家川| 鄢陵县| 武穴市| 济源市| 新密市| 安丘市| 诸城市| 托克托县| 汾阳市| 晋州市| 基隆市| 阿克苏市| 万山特区| 孝感市| 鹿泉市| 韶山市| 水富县| 黑山县| 江川县| 德化县| 汕尾市| 都兰县| 广平县| 台前县| 濮阳县| 常熟市| 黄浦区| 文化| 丽江市|