汪錦云,向陽
基于關鍵詞圖表示的文本語義去重算法
汪錦云,向陽*
(同濟大學 電子與信息工程學院,上海 201804)( ? 通信作者電子郵箱epiphany@#edu.cn)
網絡中存在大量語義相同或者相似的冗余文本,而文本去重能夠解決冗余文本浪費存儲空間的問題,并能為信息抽取任務減少不必要的消耗。傳統的文本去重算法依賴文字重合度信息,而沒有較好地利用文本語義信息,同時也無法捕捉長文本中距離較遠句子之間的交互信息,去重效果不理想。針對文本語義去重問題,提出一種基于關鍵詞圖表示的長文本去重算法。首先,通過抽取文本對中的語義關鍵詞短語,將文本對表示為以關鍵詞短語為節(jié)點的圖;其次,通過多種方式對節(jié)點進行編碼,并利用圖注意力網絡(GAT)學習節(jié)點之間的關系,從而得到文本對圖的向量表示,并判斷文本對是否語義相似;最后,根據文本對的語義相似度進行去重處理。與傳統算法相比,所提算法能有效利用文本的語義信息,并能通過圖結構將長文本中距離較遠的句子用關鍵詞短語的共現關系連接起來,從而增加不同句子之間的語義交互。實驗結果表明,所提算法在兩個公開數據集CNSE (Chinese News Same Event)和CNSS(Chinese News Same Story)上都取得了比Simhash、BERT (Bidirectional Encoder Representations from Transformers)微調、概念交互圖(CIG)等傳統算法更好的表現。具體地,所提算法在CNSE數據集上的F1值達到84.65%,在CNSS數據集上的F1值達到90.76%,說明所提算法可以有效提升文本去重任務的效果。
文本語義去重;關鍵詞抽取;文本匹配;圖表示;圖注意力網絡
隨著互聯網技術和互聯網產業(yè)的快速發(fā)展,網絡成為越來越多信息的載體,信息的獲取和利用也變得容易。文本作為信息最重要的載體之一,在網絡上具有傳播速度快、傳播范圍廣等特點,在人們的信息獲取過程中起著重要的作用。
在互聯網時代,網絡文本存在被大量轉載、簡單修改再發(fā)布等問題,同時也存在對同一新聞事件的不同描述等,導致網絡文本存在大量冗余問題,為后續(xù)信息抽取、利用增加了復雜性,因此各種文本去重技術應運而生。文本去重技術能夠判斷兩篇文本是否屬于語義相同或相似文本,選擇將冗余文本去除,從而節(jié)省存儲空間,同時為后續(xù)利用自然語言處理技術處理數據、抽取所需信息減少數據量,提高數據處理效率。
文本去重問題實質是通過計算兩篇文本之間的語義相似度判斷兩篇文本是否屬于語義相同或者相似文本,從而決定是否丟棄處理。文本去重算法從構建文本特征方法的角度可以分為兩類。一類是以Simhash[1-2]為代表的基于哈希的去重算法,其他的類似算法還有Minhash[3]、局部敏感哈希(Locality Sensitive Hash, LSH)[4]、MurmurHash算法[5]等?;诠K惴ǖ奈谋救ブ胤椒ǖ闹饕硎菍⑽谋巨D化為定長的二進制編碼,再通過二進制編碼之間的距離判斷文本是否屬于相似文本,因此這類方法高度依賴文字重復度信息,難以反映文本的語義信息。如圖1所示,文本1與文本2雖然都表達了相似的語義,但文字重復度較低,因此通過Simhash算法得到的海明距離相差較大;而文本3與文本4雖然語義不同,但在字面上有較多文字重復,得到的海明距離相差較小。另一類是基于深度學習模型的語義去重算法,如基于深度網絡的深度結構語義模型(Deep Structured Semantic Model, DSSM)[6]、卷積潛在語義模型(Convolutional Latent Semantic Model, CLSM)[7]等。目前基于深度學習的中文文本去重算法多聚焦于中文短文本去重問題,而相較于短文本,長文本在結構層次上更為復雜,蘊含更多語義信息。這些結構信息和文本中復雜的語義信息對計算文本相似度進行文本去重至關重要,應當在算法中被充分利用。此外,多數深度學習算法獨立地抽取兩篇文本的特征并轉化為向量表示[8]計算相似度,丟失了兩篇文本之間的交互信息。
圖1 Simhash相似度示例
針對以上問題,本文提出一種基于關鍵詞圖表示的文本去重算法。首先,通過構建語法分析樹與詞性標注確定關鍵詞短語候選集,引入預訓練語言模型獲取兩篇文本中的關鍵詞短語的嵌入表示,使得抽取出的關鍵詞短語可以很好地表示文本的語義信息。其次,將關鍵詞作為圖的節(jié)點,共現關系作為圖的邊,將文本對構建成圖模型,從而將長文本中距離較遠的句子通過關鍵詞的共現關系聯系起來,增強不同句子之間的語義交互,同時可以使得模型通過后期訓練學習到兩篇文本之間的交互信息。最后,拼接多種方式抽取得到的節(jié)點特征向量,通過圖注意力網絡(Graph Attention Network, GAT)[9-10]訓練,得到圖的最終向量表示,將文本對圖的向量表示送入分類器中判斷兩篇文本是否相似,進而進行去重處理。
本文的主要工作總結如下:
1)提出一種基于關鍵詞圖表示的長文本去重算法。該算法以語義關鍵詞短語為節(jié)點,共現關系為邊,通過圖表示,更好地增強文本中句子的語義交互;同時引入基于注意力機制的GAT,更好地學習各節(jié)點之間的關系,從而提升模型的表現。
2)提出一種引入語法解析樹和預訓練語言模型的關鍵詞抽取算法。該算法引入預訓練模型獲取關鍵詞短語的語義表示,相較于傳統關鍵詞抽取方法,更關注語義信息的利用和關鍵詞與文本之間的語義相似度,抽取出的關鍵詞短語能夠更好地表示文本語義信息。
3)本文提出的基于關鍵詞圖表示的長文本去重算法,在CNSE(Chinese News Same Event)和CNSS(Chinese News Same Story)[11]兩個公開數據集上展開實驗,所提算法取得超越先前基線算法模型的結果。
以Simhash為代表的傳統文本去重算法通常使用哈希函數將文本編碼成二進制簽名值,通過簽名值之間的距離判斷文本是否需要去重處理。這類方法可以有效地利用文本字面信息,相較于傳統hash、LSH等算法,不會因為個別文字的差異導致簽名值之間存在較大的差別,可以在一定程度上表征文本內容的相似度;并且哈希算法是一種高效的算法,因此Simhash等去重算法被廣泛應用于文本去重、網頁去重等領域。后續(xù)很多學者基于Simhash算法提出了很多改進措施[12-13],并取得了不錯的效果。隨著深度學習的快速發(fā)展,深度學習方法被用于處理文本去重任務,早期使用詞嵌入編碼完成文本匹配計算,但是詞嵌入編碼本身無法解決短語、句子的語義表示問題,也無法解決文本匹配的非對稱性問題,導致去重效果不佳。隨著大型預訓練語言模型的出現和圖表示學習的發(fā)展,文本嵌入表示能夠融入更多語義信息,同時標注數據的使用大幅提高了模型的表征能力,提升了文本去重的效果。
關鍵詞抽取指為了方便用戶能夠快速地掌握文本的中心內容,從文本中抽取一定量的關鍵詞表示文本的語義信息。關鍵詞抽取從訓練方法上可以分為無監(jiān)督抽取方法[14]和有監(jiān)督抽取方法[15]兩類。
無監(jiān)督關鍵詞抽取方法不需要人工標注訓練集合的過程,因此更加快捷且成本較低,主要分為3類:1)基于統計特征的關鍵詞抽取,如詞頻(Term Frequency, TF)、詞頻?逆文本頻率(Term Frequency-Inverse Document Frequency, TF-IDF);2)基于詞圖模型的關鍵詞抽?。?6],如TextRank;3)基于主題模型的關鍵詞抽?。?7-18],如潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)。
有監(jiān)督關鍵詞抽取算法可以將關鍵詞抽取問題轉化為多種自然語言處理任務,主要分為基于序列標注[19]的關鍵詞抽取算法、基于分類模型的關鍵詞抽取算法和基于序列生成的關鍵詞抽取算法。有監(jiān)督關鍵詞抽取算法可以根據標注數據訓練調節(jié)多種信息對關鍵詞抽取的影響程度,取得了相較于無監(jiān)督關鍵詞抽取算法更優(yōu)的效果。
DeepWalk是最早實現圖表示學習[20]的工作之一。DeepWalk提出的背景問題是對社交網絡上的每個成員分類。此后,研究者針對大規(guī)模網絡計算提出了LINE(Large-scale Information Network Embedding)算法、DeepWalk和LINE算法的升級算法Node2Vec,具有很高的適應性。Kipf等[21]提出融入卷積神經網絡(Convolutional Neural Network, CNN)的圖卷積網絡(Graph Convolutional Network, GCN)。圖注意力網絡(GAT)[9-10]是在圖表示學習中引入注意力機制,能夠有效學習節(jié)點與鄰居節(jié)點的關系,實現對不同鄰居節(jié)點的權值自適應匹配,提高模型的表征能力。
目前,圖表示學習被廣泛應用在文本相似度計算和文本匹配問題中。Liu等[11]提出一種概念交互圖(Concept Interaction Graph,CIG)的圖表示學習模型,通過將文本轉化為圖,較好地概括文本,并且通過GCN學習節(jié)點特征,大幅提升中文長文本匹配效果。
為了充分利用文本的語義信息,增強文本對之間的信息交互,本文提出基于關鍵詞圖表示的長文本去重算法。該算法整體架構如圖2所示。整個算法可以分為4個部分:首先引入預訓練模型抽取出兩篇文本的關鍵詞;其次根據抽取出的關鍵詞構建文本對圖表示;再次對圖的節(jié)點編碼并通過GAT模型訓練進行匹配聚合;最后將生成的文本對的向量表示送入分類器中分類,并根據分類結果進行去重處理。
圖2 基于關鍵詞圖表示的中文長文本去重算法整體結構
對關鍵詞候選集合中的候選短語按照相似度得分排序,選取相似度得分較高詞語作為文本的關鍵詞。
當構建出以聚合后的關鍵詞簇為節(jié)點的圖后,需要匹配兩篇文本中的句子與節(jié)點。首先計算每一個句子與每一個節(jié)點之間的余弦相似度,匹配句子與相似度最高的節(jié)點。其次,為了構建圖中各節(jié)點之間的邊的初始權重,將每個節(jié)點匹配的句子拼接為序列表示節(jié)點的特征,按式(5)計算每兩個節(jié)點之間的TF-IDF相似度,確定兩節(jié)點之間的初始權重。
訓練過程中,需要計算每個節(jié)點與它的鄰居節(jié)點的注意力得分(Attention score),再根據注意力得分融合鄰居節(jié)點的表示得到該節(jié)點的新的表示,使用式(8)計算:
多頭注意力機制能夠使得特征向量映射到不同的子空間,通過聚合不同子空間的向量能夠得到更好的特征向量表示,GAT訓練過程如圖3所示。
圖3 多頭注意力GAT訓練過程
判斷文本對是否語義相同或相似是一個二分類任務,文本對通過基于關鍵詞的圖表示,將該任務轉化為圖的二分類任務,經過編碼和基于多頭注意力機制的GAT訓練后得到文本對的向量表示,再將向量送入分類器中,通過多層感知機(Multi-Layer Perceptron, MLP)對向量分類。
為了公平且全面地評估基于關鍵詞圖表示的長文本去重算法,本文選用了兩個公開數據集,分別是CNSE和CNSS[11]。這兩個數據集經過相關領域專家的標注,并且被廣泛使用于驗證去重匹配算法的有效性。其中CNSE數據集中含有29 063對長文本對,被標注是否兩篇文本在描述同一新聞事件;CNSS數據集中含有33 503對長文本對,被標注是否兩篇文本在描述同一故事。在這兩個數據集中,60%的樣本作為數據集,20%作為驗證集,另外的20%作為測試集。兩個數據集的信息如表1所示。
兩個數據集中文本的平均詞數為734,最大的文本詞數為21 791,并且兩個數據集中負樣本的產生均不是隨機產生的,而是選擇包含類似關鍵字的文本對,并排除TF-IDF相似度低于特定閾值的樣本,增加了分類的難度。
表1 數據集信息
為了評估基于關鍵詞圖表示的長文本去重算法的性能,將本文算法與8種基線算法對比,基線算法主要可以分為以下4類:
1)基于哈希的去重算法。
Simhash算法是一種基于局部敏感哈希(locality sensitive hash)的文本去重算法,通過將高維的特征向量映射為低維的特征向量,比較兩個向量的海明距離(Hamming Distance)確定文本是否重復或高度相似。
2)基于詞匯語義相似度的算法。
①BM25算法[25]是一種基于概率檢索模型提出的算法,用以評價文檔之間的相關性。
②LDA模型[26]是一種基于生成式貝葉斯概率模型,通過主題找出文本與文本之間的關系。
3)基于深度學習模型的算法。
①短文本語義匹配SimNet(SimilarityNet)[27]是一種在深度學習框架下進行端到端建模的有監(jiān)督學習模型。
②DSSM[6]主要通過將兩段文本編碼為固定長度的向量,再通過兩個向量間計算相似度計算兩段文本之間的關系。
③C-DSSM[7]是一種通過使用CNN抽取局部信息,再在上層采用最大池化的方式抽取歸納全局信息,判斷文本是否相似的算法。
④CIG[11]是一種使用圖結構表示文本,對圖編碼并判斷文本是否匹配的算法。
4)基于大規(guī)模預訓練語言模型的方法。
BERT(Bidirectional Encoder Representations from Transformers)微調[28]是一種基于預訓練模型,對它微調生成文本向量,判斷文本是否相似的算法。
實驗采用通用的二分類評價標準評估算法效果,分別為準確率(Accuracy)和F1值(F1 score),計算公式如下:
其中:真正例表示將標簽為正樣本預測為正類的數量;假反例表示將標簽為正樣本預測為正類的數量;假正例表示將標簽為正樣本預測為正類的數量;真反例表示將標簽為正樣本預測為正類的數量;為精確率,代表在所有預測為正的例子中,實際上為正的比例;為召回率,代表在所有實際為正的例子中,預測為正的比例。
表2展示了不同算法在CNSE和CNSS數據集上的實驗結果。本文算法在CNSE和CNSS兩個數據集上都取得比基線算法更好的結果。相較于基于哈希的去重算法,本文算法在CNSE和CNSS數據集上F1值分別提高了44.6%和53.3%;相較于基于詞匯語義相似度的去重算法,本文算法在CNSE和CNSS數據集上F1值分別提高了27.1%~35.6%和28.9%~31.3%;相較于其他基于深度學習模型的去重算法,本文算法在CNSE和CNSS數據集上F1值分別提高了2.3%~74.3%和0.8%~59.9%;相較于基于大規(guī)模預訓練語言模型的去重算法,本文算法在CNSE和CNSS數據集上F1值分別提高了6.9%和4.2%。從表2中可以看出,傳統的去重算法相較于深度學習算法在只利用文本字面信息的情況下去重效果不佳,而本文算法利用文本的語義信息并增強文本之間的信息交互,顯著提升去重效果。
表2 CNSE和CNSS數據集上不同算法的實驗結果 單位:%
為了驗證本文提出的基于關鍵詞圖表示的中文長文本去重算法各模塊的有效性,本文在CNSS和CNSE兩個數據集上進行了消融實驗。表3展示了本文算法的消融實驗結果。首先,嘗試只使用孿生網絡或只基于規(guī)則編碼節(jié)點,以驗證不同編碼方式對文本去重效果的影響,可以看出,基于規(guī)則的節(jié)點編碼方式在CNSE及CNSS數據集上的F1值分別為82.71%和88.52%,均優(yōu)于孿生網絡編碼方式的結果(74.22%和80.80%),取得了更好的文本去重效果。其次,驗證關鍵詞聚合對文本去重的影響,對節(jié)點進行社區(qū)檢測,即找到網絡中聯系緊密的部分,將它們聚合為關鍵詞短語簇,這些簇內部聯系稠密,簇之間聯系稀疏,結果表明對節(jié)點聚合會使F1值降低0.4~1.7個百分點,原因是聚合節(jié)點會忽略聚合節(jié)點之間的關系。最后,驗證GAT學習對結果的有效性,結果顯示,通過GAT訓練能夠使F1值提升1.8~7.7個百分點。
注:“Siam”表示通過孿生網絡對節(jié)點的句子編碼,“Sim”表示通過基于特定規(guī)則對節(jié)點編碼,“cd”表示對節(jié)點進行社區(qū)檢測,“GAT”表示使用采用圖注意力網絡學習節(jié)點特征。
從表2~3中可以看出,本文算法在這兩個數據集上達到的結果優(yōu)于所有8種基線模型,在兩個數據集上F1值達到了84.65%和90.76%,充分說明本文提出的基于關鍵詞圖表示的長文本去重算法可以有效提升文本去重即文本相似匹配任務中的表現。相較于另一圖表示學習算法CIG,幾乎在各環(huán)節(jié)表現均有所提升。
分析實驗結果,可以總結如下:
1)在關鍵詞抽取階段,引入預訓練模型能夠在抽取關鍵詞的過程中考慮更多詞語的語義信息,從而更好地表示文本整體的語義信息,同時后期采用關注詞匯的編碼方式能夠更有效地利用關鍵詞中的信息,從而達到更佳的實驗效果。
2)相較于其他表示文本的方式,通過圖表示文本對能夠達到更好的效果。將兩篇文本表示為一張圖,避免了獨立對兩篇文本處理,融入了兩篇文本的交互信息。同時引入GAT多頭注意力網絡顯著提高了模型的效果,這是因為經過GAT網絡學習,考慮了圖的拓撲信息,使得模型捕捉每個節(jié)點與鄰居節(jié)點之間的交互關系。
3)當文本長度較大時,傳統的去重方法的效果較差,它們很難獲得合適的上下文向量表示匹配,文本中距離較遠的句子也很難進行信息交互。通過以關鍵詞為節(jié)點并通過關鍵詞之間的共現關系將文本對表示成圖,能夠有效聯系長文本中距離較遠的句子,從而交互語義信息,克服文本長度帶來的困難,因此能夠取得較好的效果。
4)本文算法在使用Sim編碼特征時的效果(82.71%和88.52%)優(yōu)于使用Siam編碼特征的效果(74.22%和80.80%),這是因為使用孿生網絡的優(yōu)點是增強兩段文本之間的信息交互,而本文通過將文本對表示成圖已經能夠對文本中的句子進行信息交互,所以收益較小。
針對語義去重問題,提出了一種基于關鍵詞圖表示的語義去重算法,引入預訓練模型抽取出關鍵詞并構建基于關鍵詞的圖表示,將長文本去重任務轉化為文本對圖分類任務,引入多種方法對節(jié)點的特征編碼,通過圖表示學習的方式學習求解。同時,引入多頭注意力圖神經網絡學習抽取圖節(jié)點特征,注意力機制使得模型能夠捕獲節(jié)點之間的權重關系,增強了節(jié)點之間的信息交互。通過在CNSE和CNSS兩個公開數據集上進行了實驗,實驗結果表明本文算法取得了出色的表現。本文提出的基于關鍵詞圖表示的中文長文本去重算法充分展現了算法的優(yōu)越性與可行性。
基于關鍵詞圖表示的語義去重算法在實驗中表現出了較好的性能,但是時間復雜度較高,關鍵詞抽取階段和圖網絡訓練階段消耗時間較長;此外,長文本結構信息未能被完全有效地利用。后續(xù)工作中,將考慮如何提升模型效率,降低算法的時間復雜度,同時將其他文本結構信息融合到網絡表示中,以提升去重算法的效率與表現。
[1] CHARIKAR M. Similarity estimation techniques from rounding algorithms[C]// Proceedings of the 34th ACM Symposium on Theory of Computing. New York: ACM, 2002:380-388.
[2] 王誠,王宇成. 基于Simhash的大規(guī)模文檔去重改進算法研究[J]. 計算機技術與發(fā)展, 2019, 29(2):115-119.(WANG C, WANG Y C. Research on improved large-scale documents deduplication algorithm based on Simhash[J]. Computer Technology and Development, 2019, 29(2):115-119.)
[3] BRODER A Z. On the Resemblance and containment of documents[C]// Proceedings of the 1997 International Conference on Compression and Complexity of Sequences. Piscataway: IEEE, 1997: 21-29.
[4] INDYK P, MOTWANI R. Approximate nearest neighbors: towards removing the curse of dimensionality[C]// Proceedings of the 30th ACM Symposium on Theory of Computing. New York: ACM, 1998:604-613.
[5] APPLEBY A. MurmurHash[EB/OL]. (2011-03-01) [2022-08-22].https://sites.google.com/site/murmurhash.
[6] HUANG P S, HE X, GAO J, et al. Learning deep structured semantic models for Web search using clickthrough data[C]// Proceedings of the 22nd ACM International Conference on Information and Knowledge Management. New York: ACM, 2013:2333-2338.
[7] SHEN Y, HE X, GAO J, et al. A latent semantic model with convolutional-pooling structure for information retrieval[C]// Proceedings of the 23rd ACM International Conference on Information and Knowledge Management. New York: ACM, 2014:101-110.
[8] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07) [2022-08-22].https://arxiv.org/pdf/1301.3781.pdf.
[9] VELI?KOVI? P, CUCURULL G, CASANOVA A, et al. Graph attention networks[EB/OL]. (2018-02-04) [2022-08-22].https://arxiv.org/pdf/1710.10903.pdf.
[10] ZHANG T, LIU B, NIU D, et al. Multiresolution graph attention networks for relevance matching[C]// Proceedings of the 27th ACM International Conference on Information and Knowledge Management. New York: ACM, 2018:933-942.
[11] LIU B, NIU D, WEI H, et al. Matching article pairs with graphical decomposition and convolutions[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 6284-6294.
[12] 彭雙和,圖爾貢·麥提薩比爾,周巧鳳. 基于Simhash的中文文本去重技術研究[J]. 計算機技術與發(fā)展, 2017, 27(11):137-140, 145.(PENG S H, MAITISABIER T, ZHOU Q F. Research on deduplication technique of Chinese text with Simhash[J]. Computer Technology and Development, 2017, 27(11):137-140, 145.)
[13] 張亞男,陳衛(wèi)衛(wèi),付印金,等. 基于Simhash改進的文本去重算法[J]. 計算機技術與發(fā)展, 2022, 32(8):26-32.(ZHANG Y N, CHEN W W, FU Y J, et al. Improved text deduplication algorithm based on Simhash[J]. Computer Technology and Development, 2022, 32(8): 26-32.)
[14] SUN Y, QIU H, ZHENG Y, et al. SIFRank: a new baseline for unsupervised keyphrase extraction based on pre-trained language model[J]. IEEE Access, 2020, 8:10896-10906.
[15] YE J, GUI T, LUO Y, et al. One2Set: generating diverse keyphrases as a set[C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2021:4598-4608.
[16] BARUNI J S, SATHIASEELAN J G R. Keyphrase extraction from document using RAKE and TextRank algorithms[J]. International Journal of Computer Science and Mobile Computing, 2020, 9(9):83-93.
[17] CHO T, LEE J H. Latent keyphrase extraction using LDA model[J]. Journal of Korean Institute of Intelligent Systems, 2015, 25(2):180-185.
[18] 朱澤德,李淼,張健,等. 一種基于LDA模型的關鍵詞抽取方法[J]. 中南大學學報(自然科學版), 2015, 46(6):2142-2148.(ZHU Z D, LI M, ZHANG J, et al. A LDA-based approach to keyphrase extraction[J]. Journal of Central South University (Science and Technology), 2015, 46(6):2142-2148.)
[19] DING L, ZHANG Z, LIU H, et al. Automatic keyphrase extraction from scientific Chinese medical abstracts based on character-level sequence labeling[J]. Journal of Data and Information Science, 2021, 6(3):35-57.
[20] HAMILTON W L, YING R, LESKOVEC J. Representation learning on graphs: methods and applications[J]. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2017, 40(3):52-74.
[21] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[EB/OL]. (2017-02-22) [2022-08-22].https://arxiv.org/pdf/1609.02907.pdf.
[22] PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA: ACL, 2018:2227-2237.
[23] CHE W, LIU Y, WANG Y, et al. Towards better UD parsing: deep contextualized word embeddings, ensemble, and treebank concatenation[C]// Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. Stroudsburg, PA: ACL, 2018:55-64.
[24] ARORA S, LIANG Y, MA T. A simple but tough-to-beat baseline for sentence embeddings[EB/OL] (2022-07-22) [2022-08-22].https://openreview.net/pdf?id=SyK00v5xx.
[25] 陳樂樂,黃松,孫金磊,等. 基于BM25算法的問題報告質量檢測方法[J]. 清華大學學報(自然科學版), 2020, 60(10):829-836.(CHEN L L, HUANG S, SUN J L, et al. Bug report quality detection based on the BM25 algorithm[J]. Journal of Tsinghua University (Science and Technology), 2020, 60(10): 829-836.)
[26] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3:993-1022.
[27] ZHENG C, SUN Y, WAN S, et al. RLTM: an efficient neural IR framework for long documents[C]// Proceedings of the 28th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2020:5457-5463.
[28] DEVLIN J, CHANG W M, LEE K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: ACL, 2019:4171-4186.
Text semantic de-duplication algorithm based on keyword graph representation
WANG Jinyun, XIANG Yang*
(,,201804,)
There are a large number of redundant texts with the same or similar semantics in the network. Text de-duplication can solve the problem that redundant texts waste storage space and can reduce unnecessary consumption for information extraction tasks. Traditional text de-duplication algorithms rely on literal overlapping information, and do not make use of the semantic information of texts; at the same time, they cannot capture the interaction information between sentences that are far away from each other in long text, so that the de-duplication effect of these methods is not ideal. Aiming at the problem of text semantic de-duplication, a long text de-duplication algorithm based on keyword graph representation was proposed. Firstly, the text pair was represented as a graph with the keyword phrase as the vertex by extracting the semantic keyword phrase from the text pair. Secondly, the nodes were encoded in various ways, and Graph Attention Network (GAT) was used to learn the relationship between nodes to obtain the vector representation of text to the graph, and judge whether the text pairs were semantically similar. Finally, the de-duplication processing was performed according to the text pair’s semantical similarity. Compared with the traditional methods, this method can use the semantic information of texts effectively, and through the graph structure, the method can connect the distant sentences in the long text by the co-occurrence relationship of keyword phrases to increase the semantic interaction between different sentences. Experimental results show that the proposed algorithm performs better than the traditional algorithms, such as Simhash, BERT (Bidirectional Encoder Representations from Transformers) fine-tuning and Concept Interaction Graph (CIG), on both CNSE (Chinese News Same Event) and CNSS (Chinese News Same Story) datasets. Specifically, the F1 score of the proposed algorithm on CNSE dataset is 84.65%, and that on CNSS dataset reaches 90.76%. The above indicates that the proposed algorithm can improve the effect of text de-duplication tasks effectively.
text semantic de-duplication; keyword extraction; text matching; graph representation; Graph Attention Network (GAT)
This work is partially supported by National Natural Science Foundation of China (72071145).
WANG Jinyun, born in 1998, M. S. candidate. His research interests include natural language processing, machine learning, big data.
XIANG Yang, born in 1962, Ph.D., professor. His research interests include natural language processing, data mining, knowledge graph.
1001-9081(2023)10-3070-07
10.11772/j.issn.1001-9081.2022101495
2022?10?12;
2022?11?29;
國家自然科學基金資助項目(72071145)。
汪錦云(1998—),男,江西上饒人,碩士研究生,主要研究方向:自然語言處理、機器學習、大數據; 向陽(1962—),男,上海人,教授,博士,CCF高級會員,主要研究方向:自然語言處理、數據挖掘、知識圖譜。
TP391.1
A
2022?12?02。