基于BERT的短文本相似度判別模型

2021-04-13 08:46:36方子卿陳一飛

電腦知識與技術(shù) 2021年5期

方子卿陳一飛

摘要：短文本的表示方法和特征提取方法是自然語言處理基礎(chǔ)研究的一個重要方向，具有廣泛的應(yīng)用價值。本文提出了BERT_BLSTM_TCNN模型，該神經(jīng)網(wǎng)絡(luò)模型利用BERT的遷移學(xué)習，并在詞向量編碼階段引入對抗訓(xùn)練方法，訓(xùn)練出包括句的語義和結(jié)構(gòu)特征的且泛化性能更優(yōu)的句特征，并將這些特征輸入BLSTM_TCNN層中進行特征抽取以完成對短文本的語義層面上的相似判定。在相關(guān)數(shù)據(jù)集上的實驗結(jié)果表明：與最先進的預(yù)訓(xùn)練模型相比，該模型在有著不錯的判定準確率的同時還有參數(shù)量小易于訓(xùn)練的優(yōu)點。

關(guān)鍵詞：詞向量模型;自然語言處理;短文本相似度;卷積神經(jīng)網(wǎng)絡(luò);循環(huán)神經(jīng)網(wǎng)絡(luò)

Abstract： Short text representation methods and feature extraction methods are an important direction of basic research in natural language processing， and have a wide range of applications. This paper proposes the BERT_BLSTM_TCNN model. The neural network model uses BERT's transfer learning and introduces an adversarial training method in the word vector encoding stage to train sentence features that include the semantic and structural features of the sentence and have better generalization performance， and combine these The feature is input into the BLSTM_TCNN layer for feature extraction to complete the similarity determination on the semantic level of the short text. The experimental results on the relevant data set show that： compared with the most advanced pre-training model， this model has a good judgment accuracy rate and also has the advantages of small parameters and easy training.

Key words： word embedding model; natural language processing; short text similarity; convolutional neural networks; recurrent neural networks

近些年來隨著個人計算機的普及和各種網(wǎng)絡(luò)信息技術(shù)的快速進步，數(shù)字化的文本數(shù)量也隨之呈現(xiàn)爆炸式的增長。其中很大一部分是短文本，如微信、微博等社交網(wǎng)絡(luò)上的信息和博文、京東、淘寶等網(wǎng)絡(luò)商城上關(guān)于出售商品的評價、電子政務(wù)平臺里的群眾意見反饋等。雖然數(shù)據(jù)量的激增對現(xiàn)行的信息處理系統(tǒng)是一種挑戰(zhàn)，但大數(shù)據(jù)的出現(xiàn)也使得新方法的研究成為可能。如何將這些語料資源進行篩選分類，使之成為有用的、真正有價值的素材，成為最需要解決的核心問題。文本的相似度判定是自然語言處理領(lǐng)域中的一個基礎(chǔ)任務(wù)，研究準確快速的相似度判定方法對信息的初步篩選分類和更進一步的處理都有重大意義。

文本相似度判定可以被看成是一種特殊的文本分類任務(wù)，即一個二分類（相似或者不相似）問題。近幾年的機器學(xué)習尤其是深度學(xué)習快速發(fā)展也使得其成為研究文本分類的一個熱門方向。目前深度學(xué)習中主流的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)有卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）兩種。卷積神經(jīng)網(wǎng)絡(luò)在提取特征方面具有不錯的效果并首先在圖像領(lǐng)域取得突破，然后逐步應(yīng)用于文本領(lǐng)域。Kim Y[1]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于句子分類任務(wù)的模型設(shè)計中，并通過一系列實驗證明了方法的有效性。Lei等[2]為了使CNN更好地適應(yīng)文本處理，在標準卷積層基礎(chǔ)上進行非線性化改造。Wang等[3]利用聚類算法進行語義擴展，再通過CNN進行分類。Joulin等[4]將訓(xùn)練好的詞向量進行加權(quán)求和形成可以良好表示句子的句向量。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠很好地處理任意長度的序列并捕獲上下文信息，LSTM（長短期記憶網(wǎng)絡(luò)）是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種改進模型，其具有能夠存儲上下文信息的特點。Arevian[5]在實際文本分類任務(wù)中應(yīng)用了循環(huán)神經(jīng)網(wǎng)絡(luò)。Yang Z等[6]在LSTM的基礎(chǔ)上通過引入了注意力機制進行改進并在文本分類任務(wù)上獲得了不錯的效果。Tang等[7]在處理情感分類任務(wù)時結(jié)合使用了卷積神經(jīng)網(wǎng)絡(luò)和門控神經(jīng)網(wǎng)絡(luò)來進行文本表示。Zhou等[8]使用卷積神經(jīng)網(wǎng)絡(luò)對向量化的詞語進特征抽取后輸入長短時記憶網(wǎng)絡(luò)形成句子的表示。Lai等[9]在使用RNN構(gòu)建文本表示后直接進行最大池化操作以獲取最有效的分類信息。上述研究表明CNN與RNN（尤其是LSTM等改進模型）已經(jīng)在文本分類領(lǐng)域取得一定的進展，利用深度學(xué)習的方法構(gòu)建模型表示文本和文本相似度判定，已經(jīng)被證明可以獲得了良好的效果。

如何將短文本的信息更加有效的表示是進行相似句對判定的基礎(chǔ)。基于統(tǒng)計學(xué)知識的文本表示模型等模型雖然簡單有效，但是在處理短文本時由于本身的維度過高和數(shù)據(jù)稀疏的問題使得其無法更進一步提升。2013年，Mikolov等[10]人提出了基于word embedding（即詞嵌入方法）的word2vec模型。相比于其他文本表示方法word2vec不僅可以從根本上解決了“維度災(zāi)難”問題，訓(xùn)練獲得的向量還能夠在語義層面上體現(xiàn)詞間的關(guān)系 [11]。用這種方法訓(xùn)練出來的詞向量，能從根本上來提升文本分類任務(wù)的效果。ELMo[12]和BERT[13]兩種最新的詞向量模型在2018相繼被提出。尤其是后者，剛一問世就在多個自然語言處理任務(wù)上取得了突破。目前，BERT預(yù)訓(xùn)練模型由于其靈活的訓(xùn)練方式和不錯效果，在許多任務(wù)中被深入的研究和應(yīng)用。因此，在一系列BERT預(yù)訓(xùn)練模型中選用小參數(shù)量的BERT-base作為模型的向量編碼層，采用了遷移學(xué)習中fine-tune（微調(diào)）的方法來調(diào)整預(yù)訓(xùn)練模型，使得訓(xùn)練出來的模型可以更好地適應(yīng)金融領(lǐng)域的短文本相似句對判定任務(wù)。

1 BERT_BLSTM_TCNN模型

基于BERT預(yù)訓(xùn)練模型提出了BERT_BLSTM_TCNN模型，該模型主要由詞嵌入階段的BERT-base層和用于特征抽取的BLSTM_TCNN層兩大部分組成。將文本預(yù)處理后的相似句對，對輸入BERT-base層。在詞嵌入階段利用BERT-base預(yù)訓(xùn)練模型并引入對抗訓(xùn)練的FGM（快速梯度方法）訓(xùn)練相似句對進行詞向量編碼，再將訓(xùn)練好的[CLS]向量輸入進入BLSTM_TCNN層，該階段主要對其進行特征抽取，過濾掉對相似度判定任務(wù)沒有幫助的特征，使得效果相比于直接利用BERT-base模型連接全連接層（Dense層），在相似句對判定表現(xiàn)上有所提高。BERT_BLSTM_TCNN模型結(jié)構(gòu)如圖1所示。

1.1文本預(yù)處理

文本預(yù)處理是進行詞嵌入之前的重要步驟，對詞嵌入生成的向量有較大的影響。中文文本與拉丁語系文本不同的是，中文文本中既沒有空格作為天然分詞符號，同時也存在大量的單字成詞現(xiàn)象。所以使用分詞的方式處理中文短文本雖然可行，但是由于中文詞語數(shù)量巨大，如果對其進行向量化則需要大量相關(guān)語料，同時也容易導(dǎo)致維度災(zāi)難。對于中文短文本來說，基于字的編碼方式直接利用BERT遷移學(xué)習進行向量化已經(jīng)被實踐證明是十分有效的。

經(jīng)過對數(shù)據(jù)集的分析，實驗所用數(shù)據(jù)集較為干凈且由于大多數(shù)句子為問句，所以在句尾一般包含更多的有效信息。因此在數(shù)據(jù)預(yù)處理階段，主要工作是對數(shù)據(jù)集中的長句進行處理。因為長句包含的信息干擾較多，這給其核心含義的提取增加了難度，所以對于一些長句需要進行截斷操作來限制其長度從而達到消除干擾的目的，提高文本表示的效率。

1.2 BERT-base層

將預(yù)處理后的相似句對進行拼接，在拼接時在首位添加[CLS]向量和兩句之間增加[SEP]向量，并進行相應(yīng)的初始化后輸入BERT預(yù)訓(xùn)練模型。BERT采用了Transformer進行編碼，預(yù)測詞或者字的時候通過在訓(xùn)練中引入了Self-attention（自注意力）機制 [14]雙向綜合的考慮了上下文特征，這樣可以使訓(xùn)練出的句向量更加準確的獲得語義層面的信息（Token embeddings）。同時BERT還通過判斷給定的兩個句子是否是連續(xù)的方式捕捉句子級別的特征（Segment Embeddings）。此外BERT還通過對句中每個字符獨立編碼的設(shè)計，在訓(xùn)練后可以獲得字符間相對位置的信息（Position embeddings）。最后得到的句向量為Token embeddings（包含詞或者字的信息）、Segment Embeddings（包含句子和句間信息）和Position embeddings（包含位置信息）三者相加的結(jié)果。該向量可以直接作為相似句對的表示輸入后續(xù)的BLSTM_TCNN層完成特征提取。

1.3 對抗學(xué)習生成對抗樣本

對抗訓(xùn)練是通過正則化的手段增強模型的抗干擾能力的一種訓(xùn)練技巧，目前已經(jīng)有多種算法可以實現(xiàn)。其目的是通過對攻擊樣本的構(gòu)造，讓模型在不同的攻擊樣本中訓(xùn)練得到較強的識別性。選擇在Token embeddings階段引入Fast Gradient Method（快速梯度方法，F(xiàn)GM）[15]技術(shù)來生成對抗樣本并加入訓(xùn)練集中一同訓(xùn)練，使得訓(xùn)練得到的模型擁有識別對抗樣本的能力，其增加的擾動為：

通過在訓(xùn)練中添加擾動生成對抗樣本并輸入，可以幫助優(yōu)化模型參數(shù)來提高魯棒性，從而實現(xiàn)對干擾的防御。實驗結(jié)果顯示，在Token embedding階段進行對抗擾動能有效提高模型的性能。

1.3 BLSTM_TCNN層

長短時記憶網(wǎng)絡(luò)（LSTM）是一種特殊的RNN，其既保持了傳統(tǒng)RNN能夠接受任意長度序列的輸入，又規(guī)避了傳統(tǒng)RNN存在的梯度消失和梯度爆炸的缺陷。雙向長短時記憶網(wǎng)絡(luò)（BLSTM）則在原有基礎(chǔ)上加強了上下文的關(guān)聯(lián)性，實際應(yīng)用中證明有著更好的效果。利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）進行卷積和池化操作來提取對文本相似度判定任務(wù)有用的特征，來提高準確率。通過對BLSTM_TCNN設(shè)計和構(gòu)建，在使用BERT-base預(yù)訓(xùn)練模型進行文本表示后將BLSTM與CNN相結(jié)合進行特征抽取，使之更好地適應(yīng)短文本相似句對判定任務(wù)。

BLSTM_TCNN模型主要由兩大部分組成：雙向長短時記憶網(wǎng)絡(luò)（BLSTM）和文本卷積神經(jīng)網(wǎng)絡(luò)（TCNN）。其中，BLSTM 層捕捉輸入的句向量中可能相關(guān)的上下文信息，TCNN層用于篩選和提取對相似判定有效的特征。

1.3.1 BLSTM

前向LSTM和后向LSTM分別捕捉輸入序列的上下文信息，二者之間沒有信息交換，僅在輸出時將二者進行拼接，形成最終的輸出。其對應(yīng)轉(zhuǎn)換函數(shù)公式如下：

1.3.2 TCNN層

卷積神經(jīng)網(wǎng)絡(luò)最先應(yīng)用于計算機視覺領(lǐng)域，其優(yōu)點是可以很好地提取對象的局部特征，比如相同的一個物體，雖然可能周邊環(huán)境發(fā)生改變但是物體本身的特征沒有發(fā)生改變，可以通過這個特點識別出物體 [18]。輸入的文本信息經(jīng)過前述BERT-base層和BLSTM層后，已經(jīng)有相當多的信息被向量化，此時需要CNN來進行特征抽取以篩選出對相似度判定有效的特征。通常來說，單層卷積捕捉的特征是有限的，因此為了獲取較為全面的特征需要根據(jù)文本特點對卷積層和池化層進行設(shè)計。在單個通道中，輸入的向量在卷積層進行一維卷積得到特征，然后在池化層選取這些特征中的最大值。最后將每個通道中得到的特征進行拼接構(gòu)成新的向量來表示文本。重復(fù)前述卷積與池化操作若干次，直至提取的特征滿足相似度判定要求后輸入下一層。經(jīng)過閱讀相關(guān)資料和實驗測試，在前三次卷積層池化層交替設(shè)置后，模型效果都有一定提升，而再往上堆疊卷積層和池化層后效果下降。綜合BLSTM輸出向量的維度，以及對有效特征的估計，需要利用三層尺度遞減的卷積核捕捉向量有效的特征，這樣既保證了信息的全面性也在一定程度上減輕了過擬合的影響。設(shè)輸入的向量為M，其中的維度為d，卷積操作如式（12）所示。

1.3.3 SoftMax層

最后選用SoftMax作為判定層，并使用交叉熵函數(shù)（式13所示）作為代價函數(shù)進行訓(xùn)練：

2實驗結(jié)果和分析

2.1數(shù)據(jù)集介紹

螞蟻金融語義相似度數(shù)據(jù)集 AFQMC（Ant Financial Question Matching Corpus），該數(shù)據(jù)集是金融領(lǐng)域（阿里螞蟻金融）的專業(yè)數(shù)據(jù)集，對研究金融領(lǐng)域的相似度判定以及后續(xù)的真實性驗證有很強的相關(guān)性。同時它也開放了模型得分排行榜方便比較模型的優(yōu)劣。數(shù)據(jù)示例如表1所示。

其中l(wèi)abel 為1代表短文本句對相同，label為 0代表短文本句對不同。這類的短文本相似句對的數(shù)據(jù)量為訓(xùn)練集34334，驗證集4316，測試集3861。

2.2實驗設(shè)置和評估指標

實驗設(shè)備為個人臺式電腦（PC），在Windows 10專業(yè)版系統(tǒng)下的Anaconda虛擬環(huán)境下進行的實驗，內(nèi)存16GB，利用GPU加速，GPU為 RTX2060。訓(xùn)練時長根據(jù)模型大小的不同和參數(shù)的不同在40分鐘至3小時不等。

檢驗輸出的結(jié)果和標準答案對比。測評指標為準確率，計算公式為：

準確率 = 正確預(yù)測數(shù)目 / 總問題對數(shù)目

2.4實驗結(jié)果

2.4.1在CLUE benchmark進行與其他模型對比

其中 RoBERTa-wwm-large [19]和BERT-wwm-ext [19]模型是哈工大訊飛實驗室基于BERT和Roberta[21]訓(xùn)練方法引入全詞遮蓋和中文語料訓(xùn)練等改進的模型。NEZHA-large[20]和NEZHA-base[20]則是華為諾亞方舟實驗室在BERT訓(xùn)練方法的基礎(chǔ)上增加了相對位置編碼函數(shù)、全詞掩碼、混合精度訓(xùn)練、優(yōu)化器改進等優(yōu)化的模型。BERT-base[13]是谷歌提出的小參數(shù)預(yù)訓(xùn)練模型。ALBERT-xxlarge[21]是在BERT訓(xùn)練方法的基礎(chǔ)上通過參數(shù)共享的方式降低了內(nèi)存，從而達到提升訓(xùn)練速度效果的改進模型。RoBERTa-large[22] 是Facebook提出的模型，其主要改進是在更多語料和訓(xùn)練時長下，通過在訓(xùn)練方法上使用動態(tài)Masking機制代替BERT原有的靜態(tài)Masking機制、引入輸入多個句子判斷連續(xù)性任務(wù)代替雙句連續(xù)性判斷任務(wù)等。ERNIE-base[23]則是百度提出的基于知識增強的模型，其主要通過對實體概念的建模學(xué)習更加符合實際應(yīng)用中的語義關(guān)系。通過在測試集上表現(xiàn)已認證模型排行榜可以看出以下幾點結(jié)論：①與BERT-base模型相比，BERT_BLSTM_TCNN模型因為附加特征提取層的緣故，參數(shù)量有較小的增加，而準確率卻提高了0.6%，在小參數(shù)模型中擁有比較優(yōu)秀的表現(xiàn);②盡管提出的模型在最終準確率上并沒有做到最高的準確率，與表中最好的RoBERTa-wwm-large相比準確率差2.2%左右，但是由于在詞向量階段使用的預(yù)訓(xùn)練模型BERT-base參數(shù)量較小，最終參數(shù)量卻僅僅是其三分之一。小參數(shù)量意味了更快的訓(xùn)練速度和更低的運算資源需求，其訓(xùn)練和使用也是更加方便的;③模型的參數(shù)量對最終相似句對判定準確率有一定的影響，但是并不是參數(shù)越多結(jié)構(gòu)越復(fù)雜的模型效果就越好。例如RoBERTa-wwm-large表現(xiàn)要比 NEZHA-large和NEZHA-base要好，其參數(shù)量卻遠小于后兩者。因為大參數(shù)模型擁有更多的層數(shù)和更復(fù)雜的結(jié)構(gòu)，其綜合性能可能更優(yōu)，但是在某些特定任務(wù)中，其中一些參數(shù)對最終結(jié)果會產(chǎn)生一定干擾致使模型性能下降。

2.4.2不同模型結(jié)構(gòu)比較

由上表可以明顯看出，相比于直接加入全連接層，加入TCNN和BLSTM效果都有所提升，并且BERT_BLSTM_TCNN的效果最好。說明經(jīng)過一定的結(jié)構(gòu)設(shè)計，是能夠在特征抽取階段對BERT訓(xùn)練出的[CLS]向量在相似度相關(guān)的維度上進行修正以提高相似度判定的準確度。

2.4.3預(yù)處理和對抗學(xué)習對模型效果的影響

與沒有引入擾動和進行短文本的句子截斷相比，引入擾動后，在合適的擾動權(quán)重下效果有所提升。同時截斷長句也能在一定程度上提高模型的對相似度判定的準確率。

3結(jié)論

相比于直接使用大參數(shù)的預(yù)訓(xùn)練模型進行微調(diào)來適配任務(wù)，對小參數(shù)模型進行改良來獲得一個比較良好的效果是更具有應(yīng)用價值的。使用大參數(shù)模型意味著更多的計算資源的需求，這無疑是在無形中增加模型研究和應(yīng)用的成本。雖然大數(shù)據(jù)量和大參數(shù)量的模型也有著調(diào)試方便、特征多樣等優(yōu)點，但是其研究和使用門檻也會隨著參數(shù)量的增加越來越高，阻礙了其的實際應(yīng)用。尤其在涉及語義相似度的任務(wù)研究時，基于大參數(shù)預(yù)訓(xùn)練模型進行調(diào)試可以較快地獲得較好的效果，但是如果一個任務(wù)用簡單模型就可以達成相對不錯的效果，其應(yīng)用價值無疑是更為廣泛的。提出的BERT_BLSTM_TCNN模型利用小參數(shù)的預(yù)訓(xùn)練模型附加特征抽取層等方法，可以在小參數(shù)量的前提下在相似句對判定任務(wù)中達到較好的效果，說明小參數(shù)的預(yù)訓(xùn)練模型仍有很大的潛力可以挖掘。相比于近年來大熱且不斷更新的大參數(shù)量模型設(shè)計，對已經(jīng)發(fā)布小參數(shù)詞嵌入模型的調(diào)優(yōu)改良的關(guān)注度相對較低，但是這并不代表BERT-base甚至是參數(shù)量更小的預(yù)訓(xùn)練模型已經(jīng)沒有研究價值。未來，如何特定任務(wù)場景下取得計算資源和模型參數(shù)量之間的平衡，使模型最具研究和應(yīng)用價值會是一個值得給予關(guān)注的方向。

參考文獻：

[1] Kim Y. Convolutional Neural Networks for Sentence Classification[EB/OL]. [2014-9-3]. https：//arxiv.org/abs/1408.5882.

[2] Lei T， Barzilay R， Jaakkola T. Molding CNNs for text： non-linear， non-consecutive convolutions[J]. Indiana University Mathematics Journal， 2015， 58（3）：1151-1186.

[3] Wang P. Semantic Clustering and Convolutional Neural Network for Short Text Categorization[J]. 數(shù)字內(nèi)容技術(shù)與服務(wù)研究中心， 2015：352-357.

[4] Joulin A，Grave E，Bojanowski P， et a1. Bag of tricks for efficient text classification[C].Proceedings of the 15th Conference ofthe European Chapter of the Association for Computational Linguistics.2017： 427-431.

[5] Arevian G. Recurrent Neural Networks for Robust Real-World Text Classification[C].IEEE/WIC/ACM International Conference on Web Intelligence. IEEE， 2007：326-329.

[6] Yang Z， Yang D， Dyer C， et al. Hierarchical Attention Networks for Document Classification[C]. Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. 2017.

[7] Tang D， Qin B， Liu T . Document Modeling with Gated Recurrent Neural Network for Sentiment Classification[C]. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015.

[8] Zhou C， Sun C， Liu Z， et al. A C-LSTM Neural Network for Text Classification[J]. Computer ence， 2015， 1（4）：39-44.

[9] Lai S W，Xu L H，Liu K，et a1. Current convolutional neural networks for text lassification[C]. oceedings of the Twenty-Ninth A AAI Conference Oil rtificial Intelligence，2016：2268-2273.

[10] Mikolov T， Sutskever I， Chen K， et al. Distributed Representations of Words and Phrases and their Compositionality[J]. Advances in Neural Information Processing Systems， 2013： 3111-3119.

[11] 牛雪瑩，趙恩瑩. 基于Word2Vec的微博文本分類研究[J]. 計算機系統(tǒng)應(yīng)用， 2019（8）：256-261.

[12] Peters M E， Neumann M， Iyyer M， et al. Deep contextualized word representations[C]. Proceedings of the 56th Annual Meeting of the Azssociation for Computational Linguistics， Stroudsburg： ACL press，2018：2227-2237.

[13] Devlin J ， Chang M W ， Lee K ， et al. BERT： Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL].[2019-5-24]. https：//arxiv.org/abs/1810.04805.

[14] Vaswani A， Shazeer N， Parmar N， et al. Attention Is All You Need[C]. Advances in neural information processing systems. Stroudsburg： MIT Press，2017： 5998-6008.

[15] Goodfellow I J， Shlens J， Szegedy C. Explaining and harnessing adversarial examples[EB/OL]. [2015-3-20]. https：//arxiv.org/abs/1412.6572.

[16] 徐銘輝，姚鴻勛. 基于句子級的唇語識別技術(shù)[J]. 計算機工程與應(yīng)用， 2005（08）：89-91.

[17] Nowak J， Taspinar A， Scherer R. LSTM recurrent neural networks for short text and sentiment classification[A]. International Conference on Artificial Intelligence and Soft Computing[C]. Cham， 2017： 553-562.

[18] 周飛燕，金林鵬，董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計算機學(xué)報， 2017，40（6）：1229-1251.

[19] Cui Y， Che W， Liu T， et al. Pre-Training with Whole Word Masking for Chinese BERT[EB/OL]. [2019-10-29]. https：//arxiv.org/abs/1906.08101.

[20] Wei J， Ren X， Li X， et al. NEZHA： Neural Contextualized Representation for Chinese Language Understanding[EB/OL]. [2019-9-5]. https：//arxiv.org/abs/1909.00204.

[21] Lan Z， Chen M， Goodman S， et al. ALBERT： A Lite BERT for Self-supervised Learning of Language Representations[EB/OL]. [2020-2-9]. https：//arxiv.org/abs/1909.11942.

[22] Liu Y， Ott M， Goyal N， et al. RoBERTa： A Robustly Optimized BERT Pretraining Approach[EB/OL].[2019-7-26]. https：//arxiv.org/abs/1907.11692.

[23] Sun Y， Wang S， Li Y， et al. ERNIE： Enhanced Representation through Knowledge Integration[EB/OL].[2019-4-19]. https：//arxiv.org/abs/1904.09223.

【通聯(lián)編輯：王力】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于BERT的短文本相似度判別模型