李景玉
摘? 要:孿生網(wǎng)絡(luò)因自身特點(diǎn)被應(yīng)用于句子相似度計(jì)算,但若模型只關(guān)注構(gòu)成句子本身的詞語(yǔ),是無(wú)法獲得該詞語(yǔ)更多的語(yǔ)義信息的。針對(duì)這一問(wèn)題,該文基于BERT模型,提出基于BERT的孿生網(wǎng)絡(luò)計(jì)算句子語(yǔ)義相似度的方法,該方法通過(guò)BERT模型,得到具有豐富語(yǔ)義信息的句子向量,再利用該向量在孿生網(wǎng)絡(luò)中計(jì)算相似度。在公開(kāi)數(shù)據(jù)集LCQMC上的實(shí)驗(yàn)結(jié)果表明,基于BERT的孿生網(wǎng)絡(luò)計(jì)算句子語(yǔ)義相似度方法的Accuracy優(yōu)于基于卷積孿生網(wǎng)絡(luò)計(jì)算句子語(yǔ)義相似度方法。
關(guān)鍵詞:BERT? 孿生網(wǎng)絡(luò)? 句子向量? 句子相似度
中圖分類(lèi)號(hào): TP312? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: The Siamese network is applied to sentence similarity computation due to its characters. However, if observe the words of sentence, it can’t get more semantic information from words. According to this problem, A sentence semantic similarity computation based on BERT in Siamese network. Through BERT model, the sentence vector with more semantic information is get. Then using this vector compute sentence similarity in Siamese network. Experimental results on LCQMC datasets shows that the sentence semantic similarity computation method based on BERT in Siamese network is better than the sentence semantic similarity computation method in Siamese CNN architecture.
Key Words: BERT; Siamese network; Sentence vector; Sentence similarity
1? 相關(guān)工作
計(jì)算句子語(yǔ)義相似度是自然語(yǔ)言處理中的一個(gè)重要的基礎(chǔ)問(wèn)題,這項(xiàng)技術(shù)被廣泛地應(yīng)用于信息檢索、問(wèn)答系統(tǒng)、機(jī)器翻譯等方面。比如:在信息檢索中,需要計(jì)算查詢項(xiàng)和數(shù)據(jù)庫(kù)中文檔的匹配,而問(wèn)答系統(tǒng)中,需要計(jì)算查詢問(wèn)題和候選答案之間的匹配程度。而計(jì)算句子語(yǔ)義相似度這項(xiàng)基礎(chǔ)技術(shù)直接影響著上層應(yīng)用系統(tǒng)的效能,因此目前仍有眾多學(xué)者熱衷于改進(jìn)句子語(yǔ)義相似度的計(jì)算方法。
傳統(tǒng)的句子語(yǔ)義相似度計(jì)算方法主要有基于編輯距離的句子相似度計(jì)算方法[1]、基于詞的句子相似度計(jì)算方法[2-3]、基于本體詞典的句子相似度計(jì)算方法[4]等。而隨著機(jī)器學(xué)習(xí)的發(fā)展,以及深度學(xué)習(xí)的廣泛應(yīng)用,越來(lái)越多的學(xué)者開(kāi)始利用神經(jīng)網(wǎng)絡(luò)構(gòu)建模型來(lái)計(jì)算句子語(yǔ)義相似度。常用的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Networks)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network),學(xué)者們會(huì)利用卷積神經(jīng)網(wǎng)絡(luò)獲取句子中的局部和全局語(yǔ)義相關(guān)關(guān)系,以得到文本的綜合語(yǔ)義表示,從而計(jì)算句子語(yǔ)義相似度[5],同時(shí)也會(huì)利用依存句法等語(yǔ)義信息構(gòu)建網(wǎng)絡(luò)計(jì)算句子語(yǔ)義相似度[6-7]。但是使用一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)學(xué)習(xí)兩個(gè)句子需要分成兩步,這有可能會(huì)造成不一致的問(wèn)題,因此能夠在同一時(shí)間同時(shí)學(xué)習(xí)兩個(gè)句子的孿生網(wǎng)絡(luò),走入研究學(xué)者的視野。在計(jì)算英文句子的語(yǔ)義相似度時(shí),基于字符級(jí)別變長(zhǎng)序列的雙向長(zhǎng)短期記憶(LSTM,Bidirectional Long Short-Term Memory)的孿生網(wǎng)絡(luò)結(jié)構(gòu)[8]表現(xiàn)良好。最近一項(xiàng)研究將基于CNN的孿生網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)用于中文句子語(yǔ)義相似度的計(jì)算[9]。
該文在文獻(xiàn)[9]的研究成果基礎(chǔ)上,提出一種通過(guò)BERT獲取詞嵌入向量作為輸入,采用孿生網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算句子相似度的方法,該文的主要貢獻(xiàn)如下:(1)該文引入句子中詞語(yǔ)的詞向量作為輸入,增強(qiáng)了句子的語(yǔ)義表示;(2)該文在改進(jìn)了向量間距離的計(jì)算公式;(3)該文在孿生網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上,應(yīng)用詞向量,有效提升了句子相似度計(jì)算的性能。
2 基于BERT的孿生網(wǎng)絡(luò)算法
2.1 BERT
Devlin等人[10]于2018年提出一種基于深層Transformer的預(yù)訓(xùn)練語(yǔ)言模型——BERT(Bidirectional Encoder Representation from Transformers)。BERT一經(jīng)問(wèn)世,就在多個(gè)自然語(yǔ)言處理任務(wù)中表現(xiàn)優(yōu)異,比如信息抽取[11]、文本分類(lèi)[12]等。而這正是由于BERT能夠在大規(guī)模無(wú)標(biāo)注文本中挖掘出豐富的語(yǔ)義信息,通過(guò)BERT模型可以得到上下文語(yǔ)義表示,再進(jìn)一步進(jìn)行后續(xù)計(jì)算。BERT預(yù)訓(xùn)練模型的基本模型結(jié)構(gòu)是由多層Transformer構(gòu)成,該文在BERT模型結(jié)構(gòu)基礎(chǔ)上,結(jié)合自身任務(wù)設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)如圖1所示。
BERT模型共分為三層:輸入層、編碼層、輸出層。輸入層的初始輸入為句子和句子開(kāi)頭標(biāo)識(shí)[CLS]、結(jié)尾標(biāo)識(shí)[SEP],其中句子根據(jù)詞表劃分后的字符串,記為,由此得到,句子可以表示成字符串的集合。由字嵌入向量、分段嵌入向量、位置編碼向量組合而成后,得到BERT輸入向量。輸入向量經(jīng)過(guò)由多層Transformer構(gòu)成的編碼層后,得到BERT模型的輸出向量。該文將若干字符串的輸出向量經(jīng)過(guò)計(jì)算轉(zhuǎn)換成句子的句子級(jí)表示。
2.2 孿生網(wǎng)絡(luò)架構(gòu)
該文構(gòu)建的孿生網(wǎng)絡(luò)架構(gòu)如圖2所示。在這個(gè)網(wǎng)絡(luò)架構(gòu)中,輸入數(shù)據(jù)是通過(guò)BERT模型得到句子的句子級(jí)表示和句子的句子級(jí)表示,通過(guò)向量間距離的計(jì)算公式得到最終的相似度。
該文在文獻(xiàn)[7]采用的距離公式基礎(chǔ)上,通過(guò)實(shí)驗(yàn)比對(duì),得出改進(jìn)版的曼哈頓距離公式:
其中公式(1)中和是兩個(gè)句子的句子級(jí)表示,設(shè)置為BERT模型中超參數(shù)隱藏層大小。該文采用文獻(xiàn)[7]中公式(1)進(jìn)行實(shí)驗(yàn)時(shí),發(fā)現(xiàn)損失率并沒(méi)有呈現(xiàn)出減小的趨勢(shì),故對(duì)公式(1)進(jìn)行了改進(jìn),變成對(duì)向量差的和求平均值。此時(shí)進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)損失率呈減小的趨勢(shì),說(shuō)明模型學(xué)習(xí)到了知識(shí),該方法可行。
在向量間相似度計(jì)算完成后,使用MSE(mean-square error)作為損失函數(shù),經(jīng)過(guò)計(jì)算后得到最終的相似度結(jié)果。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
句子相似度是指兩個(gè)句子的語(yǔ)義匹配程度,該文將該問(wèn)題轉(zhuǎn)化為判斷兩段文本是否相似的二分類(lèi)任務(wù),即結(jié)果采用0和1分別表示句子語(yǔ)義相似和句子語(yǔ)義不相似。該文實(shí)驗(yàn)所采用的數(shù)據(jù)來(lái)自哈爾濱工業(yè)大學(xué)(深圳)[13] LCQMC(A Large-scale Chinese Question Matching Corpus),該數(shù)據(jù)集由從百度知道不同領(lǐng)域的用戶問(wèn)題中抽取構(gòu)建,是百度知道領(lǐng)域的中文問(wèn)題匹配數(shù)據(jù)集。
數(shù)據(jù)集中包括238766條訓(xùn)練數(shù)據(jù)和12500條測(cè)試數(shù)據(jù),如表1中數(shù)據(jù)樣例所示,標(biāo)簽1表示兩個(gè)句子為相似文本,標(biāo)簽0表示兩個(gè)句子為不相似文本。
3.2實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)計(jì)算機(jī)硬件配置:Intel Core i9處理器,32GB內(nèi)存,NVIDIA RTX 2060顯卡。
實(shí)驗(yàn)計(jì)算機(jī)軟件配置:Windows10 操作系統(tǒng),Python 3.8,torch 1.9.0,CUDA 11.1。
3.3 評(píng)價(jià)指標(biāo)
該文實(shí)驗(yàn)用于判斷文本的相似度,采用評(píng)價(jià)指標(biāo)Accuracy。
3.4 實(shí)驗(yàn)結(jié)果及分析
該文使用PyTorch版bert-base-chinese構(gòu)建字符串向量。當(dāng)設(shè)定迭代次數(shù)為6次時(shí),分別采用不同的學(xué)習(xí)率進(jìn)行對(duì)測(cè)試集進(jìn)行預(yù)測(cè),得到結(jié)果如表1。從表1中我們可以看到,學(xué)習(xí)率2e-5到3e-5的accuracy的提升并不多,更大的學(xué)習(xí)率將會(huì)使得模型Accuracy降低,故該文模型最終采用學(xué)習(xí)率3e-5。
在通過(guò)BERT模型獲得句子級(jí)表示時(shí),分為兩種主要的處理方式,一種叫作CLS,是指取CLS標(biāo)志的最后一層輸出作為句子向量;另一種叫作AVG,是指句子向量通過(guò)取序列最后一層的輸出求平均獲得。該文分別用兩種方式對(duì)測(cè)試集進(jìn)行了預(yù)測(cè),同時(shí)與文獻(xiàn)[7]的最好結(jié)果進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2。實(shí)驗(yàn)發(fā)現(xiàn),使用AVG方式得到的句子級(jí)表示在進(jìn)行相似度計(jì)算后,得到的Accuracy最高,達(dá)到83.94%。
4 結(jié)語(yǔ)
句子相似度計(jì)算作為自然語(yǔ)言處理的基礎(chǔ)任務(wù),一直受到研究學(xué)者的關(guān)注。該文通過(guò)引入BERT詞嵌入向量作為輸入,再利用孿生網(wǎng)絡(luò)架構(gòu)計(jì)算句子相似度。實(shí)驗(yàn)結(jié)果表明,基于BERT的孿生網(wǎng)絡(luò)計(jì)算句子相似度的方法要優(yōu)于基于卷積孿生網(wǎng)絡(luò)計(jì)算句子相似度的方法,最終Accuracy達(dá)到83.94%,提高6.63%。
參考文獻(xiàn)
[1] 車(chē)萬(wàn)翔,劉挺,秦兵,等.基于改進(jìn)編輯距離的中文相似句子檢索[J].高技術(shù)通訊,2004,14(7):15-19.
[2] 呂學(xué)強(qiáng),任飛亮,黃志丹,等.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版,2003(6):531-534.
[3] 楊思春.一種改進(jìn)的句子相似度計(jì)算模型[J].電子科技大學(xué)學(xué)報(bào),2006(6):956-959.
[4] 劉宏哲.一種基于本體的句子相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2013,40(1):251-256.
[5] 李霞,劉承標(biāo),章友豪,等.基于局部和全局語(yǔ)義融合的跨語(yǔ)言句子語(yǔ)義相似度計(jì)算模型? [J].中文信息學(xué)報(bào),2019,33(6):18-26.
[6] 楊萌,李培峰,朱巧明.一種基于Tree-LSTM的句子相似度計(jì)算方法[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2018,54(3):481-486.
[7] 胡艷霞,王成,李弼程,等.基于多頭注意力機(jī)制Tree-LSTM的句子語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2020,34(3):23-33.
[8] NECULOIU P.VERSTEEGH M,ROTARU M.Learning Text Similarity with Siamese Recurrent Networks[C]//Proceedings of the 1st Workshop on Representation Learning for NLP.2016:148-157.
[9] SHI H X,WANG C,SAKAI T. A Siamese CNN Architecture for Learning Chinese Sentence Similarity[C]//Proceedings of the 1st Conference of the Asia-Pacifific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing: Student Research Workshop.2020:24-29.
[10]DEVLIN J,CHANG M W,LEEK,et al. BERT:Pre-training of Deep Bidirectional Transformer for Language Understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.2019:4171-4186.
[11]杜慧祥,楊文忠,石義樂(lè),等.基于BERT和卷積神經(jīng)網(wǎng)絡(luò)的人物關(guān)系抽取研究[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版,2021,53(3):49-55.
[12]楊文浩,劉廣聰,羅可勁.基于BERT和深層等長(zhǎng)卷積的新聞標(biāo)簽分類(lèi)[J].計(jì)算機(jī)與現(xiàn)代化,2021(8):94-99.
[13]LIU X,CHEN Q C,DENG C,et al.LCQMC:A Large-scale Chinese Question Matching Corpus[C]//Proceedings of the 27th International Conference on Computational Linguistics.2018:1952-1962.