張弛 周艷玲 張貫虹
摘要:為了更加準確地計算文本特征權重,提高文本相似度計算的精確度,文章提出了一種基于《知網(HowNet)》語義知識庫的加權語義復雜網絡文本相似度計算方法.該方法首先以特征詞為節(jié)點,以特征詞窗口共現為邊,以特征詞的TF-IDF值為特征詞節(jié)點的初始權重,以融合共現頻率和概念間語義距離計算特征詞節(jié)點之間邊的權重,構建加權語義文本復雜網絡.然后利用綜合特征指數作為加權語義網中文本的特征權重.最后基于公開數據集和KNN算法進行文本聚類實驗,實驗結果表明,在基于F-度量值標準上本文提出的方法要優(yōu)于傳統(tǒng)基于向量空間模型的TF-IDF方法和另一種結合復雜網絡權重的方法.
關鍵詞:復雜網絡;特征詞;KNN算法;文本相似度;HowNet
中圖分類號:TP391.1 ?文獻標識碼:A ?文章編號:1673-260X(2019)05-0019-05
隨著互聯網的普及和使用,互聯網中文本數據的產生正在以指數級的速度增長,如何從龐大的信息庫中提取有用的信息就依賴于文本挖掘技術[1],其如何能夠實時、高效地挖掘出對社會生產、生活有價值的信息,已經成為文本聚類、信息檢索、問答系統(tǒng)等諸多研究領域知識管理者和研究者所要亟待解決的問題.
文本相似度計算是文本數據挖掘中需要解決的關鍵問題之一.傳統(tǒng)的文本相似度計算方法是基于統(tǒng)計特征的TF-IDF算法[2-4],該方法是將文本經過預處理后表示為一個向量的形式,向量中每個元素值為特征詞的詞頻(TF)和逆文本頻率(IDF)的乘積,這樣就可以通過計算向量之間的差異來衡量文本之間的相似性.這種方法的優(yōu)點是既可以排除文本中的低區(qū)分度詞,又可以避免在文本集中分布廣泛的高頻詞干擾文本相似度計算結果.但是這種方法同樣忽略了特征詞自身一般都具備豐富的語義,詞與詞之間的關系也不是相互孤立的,詞語間的語義關系、詞與詞之間共同出現的頻率和詞的上下文結構信息等都將影響著文本相似度計算結果的準確性[5-7].
近年來,隨著復雜網絡科學研究的發(fā)展,在自然語言處理研究領域中也發(fā)現了小世界特性[8],為國內外學者研究文本的相似度計算提供了新的思路.文獻[9-11]等基于語義知識庫的方法,通過對特征詞進行概念或義項的映射,計算特征詞所對應的概念或義項的語義相似性、相關度和語義距離等來構建文本復雜網絡,并使用復雜網絡的物理結構特征進行關鍵詞的提取研究,如節(jié)點度、介數、聚集系數等.文獻[12]、文獻[13]根據特征詞之間的語義關系構建文本復雜網絡,然后利用復雜網絡社區(qū)的結構特性,使用社區(qū)挖掘算法來進行特征選擇.文獻[14]引入相似性和相關性對詞語語義關系進行復雜網絡構建,通過調節(jié)各個參數的權重進行特征項選擇.雖然這些研究已經取得較好的成果,但它們都未考慮節(jié)點對全局網絡的影響,忽略了在文本復雜網絡中特征詞的位置、共現頻率、全局統(tǒng)計信息等因素的重要性,造成在文本網絡構建中邊權重計算方法不科學,結果不準確,導致最終計算結果存在較大偏差.
鑒于特征詞本身具備的豐富語義特征,本文綜合考慮了特征詞間的語義相似性、統(tǒng)計TF-IDF值以及共現頻率等因素,提出了一種基于《知網(How Net)》語義知識詞典的文本加權語義網絡構建和相似度計算方法.該方法首先對文本進行分詞、去停用詞操作,并依據復雜網絡中的小世界特性,以特征詞為節(jié)點,以特征詞的TF-IDF值作為節(jié)點的初始權重,以特征詞窗口共現為邊,基于《知網(How Net)》語義詞典將特征詞映射為詞典中的概念,考慮到特征詞在文本中的共現系數,融合共現系數和概念間語義距離計算特征詞之間邊的權重,充分利用了文本的結構信息和全局統(tǒng)計信息.最后使用余弦相似性公式計算向量化文本之間的相似度,使用K最近鄰(KNN)分類算法在標準數據集上對文本進行分類實驗,對本文提出的加權語義網絡方法、文獻[11]提出的結合復雜網絡的方法以及文獻[2]提出的基于統(tǒng)計的向量空間方法進行實驗對比,驗證了本文提出的基于加權語義復雜網絡的方法能夠有效提高文本相似度計算結果的準確性.
1 相關理論
1.1 復雜網絡特性
復雜網絡是指在結構、節(jié)點類型和連接形式等方面復雜的網絡,該類網絡具有明顯小世界、無標度等特征[16].在復雜網絡中不同的統(tǒng)計量能夠反映不同的物理含義,對復雜網絡結構拓撲的分析,能夠剖析系統(tǒng)演化的過程和內部存在的機制,本文主要使用如下的復雜網絡物理統(tǒng)計特征量對節(jié)點的重要性進行評估.
1.1.1 節(jié)點加權度
1.2 加權語義網
語義網是一個語義網絡系統(tǒng),它系統(tǒng)地描述了現實中詞匯與詞匯之間的各種語義關系.因為詞匯之間一般都具有豐富的語義關系,傳統(tǒng)上直接計算文本特征詞之間的語義關系是很困難的.目前,常用兩種方法對特征詞進行語義關系的計算,一種是基于大規(guī)模語料庫的方法[18],一種是基于世界知識的方法[19].考慮到前者需要大量的語料作為訓練集,使用中經常受到語料庫規(guī)模的影響;本文選擇了使用基于世界知識的《知網(How Net)》語義詞典進行語義復雜網絡的構建,這種方法相對前者更加簡單、有效.借助《知網(How Net)》語義知識詞典,將特征詞轉化為知識詞典中的概念,這樣每個特征詞都將對應于《知網(How Net)》知識庫中的特定的概念.這樣就可以使用概念之間的距離來間接度量特征詞之間的語義聯系,能夠區(qū)別出不同文本特征詞之間的語義相似性和差異性.借鑒文獻[15]在概念層面上對距離的計算,本文對概念間距離的計算也使用語義距離、語義重合度、層次關系三個因素,利用概念間語義距離作為對應特征詞之間關系強弱的衡量標準.如圖1所示為基于《知網(How Net)》語義詞典的概念距離計算案例.
語義距離:表示為在《知網(How Net)》語義詞典中兩個概念之間的最短路徑長度,文中用D(Si,Sj)表示兩個概念Si和Sj之間的語義距離,值越小表示兩個概念所對應特征詞的間關系就越相近,以圖1中節(jié)點S7和S4為例,D(S7,S4)=3.
語義重合度:表示為兩個概念所擁有的共同父節(jié)點數量,擁有的共同父節(jié)點數量越多,說明概念間關系越相近.使用C(Si,Sj)表示概念Si和Sj之間的語義重合度.以圖1中節(jié)點S7和S4、S7和S8為例,C(S4,S7)=2,C(S7,S8)=3.
層次深度:用Hi和Hj表示兩個概念Si和Sj的所在語義樹中的層次深度,隨著兩個概念間的層次深度差增加,所對應詞匯之間的相似性就越小.
2 基于改進加權語義網絡的文本相似度計算
2.1 文本特征詞之間語義相似度計算
通常在文本復雜網絡中,特征詞節(jié)點之間邊的權重是難以直接衡量的,特征詞之間權重的精確性將直接影響到文本特征詞提取的正確性.本文綜合考慮詞匯的共現頻率權重、語義距離、語義重合度和層次深度這四個方面的因素作為語義復雜網絡中邊的權重.
2.5 算法流程
使用本文提出的文本復雜網絡構建和特征詞權重計算方法,對文本的特征詞進行特征權重計算,提高文本相似度計算結果的精度,算法描述如下:
輸入:帶有類標簽的訓練文本集D1和測試文本集D2.
輸出:帶有類標簽的測試文本集D2.
(1)對訓練集D1和測試集D2分別進行分詞和去停用詞操作,得到初始訓練集和測試集特征詞集合.
(2)對訓練集D1中的每篇文檔使用第2.1節(jié)介紹的方法,分別計算特征詞節(jié)點和邊的權重,構建文本加權語義復雜網絡.
(3)根據2.3節(jié)介紹的方法,對訓練集D1中的每篇文檔,使用綜合特征指數CFi計算每篇文檔中每個特征詞的權重,選取文檔權重排名靠前的m個特征詞作為該文檔的特征選擇結果,形成訓練集數據詞典.
(4)根據訓練集數據詞典,對測試集D2中的每篇文檔,使用2.1節(jié)介紹的方法,進行加權語義復雜網絡構建和特征詞特征綜合權重計算,形成待分類的測試文檔特征向量.
(5)根據步驟(4)的數據字典,對待分類文檔進行特征詞選擇,使用公式7計算待分類文檔與數據字典中的每一個文檔的相似度,選取相似度值排名靠前的k篇文本作為相似文檔集.
(6)根據相似文檔的文本類別標記,統(tǒng)計這k篇相似文檔中出現次數最多的類別標記為該待分類文檔最終的類別標記.
(7)對測試集D2中的每個文檔特征向量,循環(huán)重復步驟(5)和步驟(6),直到測試集中的每篇文檔都確定一個類別標簽.
3 實驗驗證分析
3.1 實驗數據及方法
實驗數據選取復旦大學提供的中文語料庫中的農業(yè)、政治、經濟、體育和環(huán)境五個類別,每個類別中各隨機選取800篇.本文采用Java語言開發(fā)環(huán)境,使用jdk版本為1.8.0_121,分詞軟件使用中國科學院計算技術研究所的ICTCLAS軟件[17],選取哈爾濱工業(yè)大學的中文停用詞表,包含767個停用詞,并使用《知網(HowNet)》計算中文特征詞之間的相似度,具體實驗過程如下:
本文使用三組實驗進行對比,第一組采用本文提出的基于加權語義的方法,第二組實驗采用文獻[13]提出的綜合復雜網絡特性的計算方法,第三組實驗采用文獻[2]提出的基于向量空間模型的算法.實驗中公式?茁i采用文獻[9]的取值,即?茁1為0.4、?茁2為0.3、?茁3為0.3.為了驗證本文所提出方法在計算結果上的準確性,本文使用KNN分類算法在標準數據集上進行文本分類實驗,根據分類的結果來驗證本文所提出算法的有效性.KNN分類算法中,K取值為15,特征維數取值為1200,實驗時采用5折交叉驗證法,取這五次的F1平均值作為最終的分類結果.
3.2 實驗評價方法
3.3 實驗結果與分析
三組實驗的文本分類結果在各類別中的F1值和平均值如表1所示.
將實驗結果的F1平均值繪制成柱狀圖,如圖2所示.
從表1和圖2可以看出,無論是每個類別還是實驗最終的F1平均值,實驗一的F1值比實驗二和實驗三都要高,這說明本文提出的文本相似度計算方法相比文獻[13]提出的結合復雜網絡的方法和文獻[2]提出的向量空間模型算法,可以更加有效地提高文本相似度計算結果的精確性,使最終的分類結果更加準確.實驗一和實驗二相比,同是使用基于復雜網絡的構建和特征選擇方法,但是實驗二在文本復雜網絡的構建中并未考慮特征詞的共現因素,而且需要調節(jié)的參數較多,增加了算法的時間復雜度.實驗二和實驗三相比可以看出,使用結合復雜網絡特征選擇的實驗二因為考慮了特征詞之間的語義關系和統(tǒng)計特征,使得最終的分類效果要比單純TF-IDF方法結果好.
4 結束語
本文提出了一種改進的加權語義復雜網絡文本相似度計算方法,首先基于文本特征詞的統(tǒng)計特征,融合特征詞的共現頻率和語義距離,計算文本復雜網絡中特征詞節(jié)點間邊的權重,然后對文本的特征詞綜合指數進行計算,根據綜合特征指數值的大小,對特征項向量進行選降維處理,使用相似度計算公式對文本進行相似度計算.最后通過對三組實驗結果的對比分析,驗證了本文所提出的方法能夠充分利用文本網絡中特征詞節(jié)點間的語義信息、結構信息和統(tǒng)計信息,提高相似度計算結果的準確性.但是鑒于文本相似度計算的復雜性,本文的研究還有一定的局限性,例如特征詞所在文本的位置、特征詞與句子、句子與句子之間的關系等因素,這些還都有待于進一步的研究.
參考文獻:
〔1〕崔嘉樂,姜明洋,裴志利,盧奕南. 基于深度學習的文本挖掘研究[J]. 內蒙古民族大學學報(自然科學版),2016(05):403-407.
〔2〕Salton G,Wong A,Yang C.A Vector Space Model for Automatic Indexing[J]. Communications of ACM. 1975, 18(11): 613-620.
〔3〕葉雪梅,毛雪岷,夏錦春,王波.文本分類TF-IDF算法的改進研究[J].計算機工程與應用,2018(12):1-8.
〔4〕周源,劉懷蘭,杜朋朋,廖嶺.基于改進TF-IDF特征提取的文本分類模型研究[J].情報科學,2017, 35(05):111-118.
〔5〕夏冰,李寶安,呂學強.綜合詞位置和語義信息的專利文本相似度計算[J].計算機工程與設計,2018, 39(10):3087-3091.
〔6〕孫麗莉,張小剛.一種基于HowNet語義計算的綜合特征詞權重計算方法[J].統(tǒng)計與決策,2018, 34(18):82-85.
〔7〕葛斌,李芳芳,郭絲路,湯大權.基于知網的詞匯語義相似度計算方法研究[J].計算機應用研究,2010, 27(09):3329-3333.
〔8〕Cancho R F I , R V Solé. The small world of human language.[J]. Proc Biol Sci, 2001, 268(1482):2261-2265.
〔9〕Zhao Hui, Liu Huailiang, Fan Yunjie. Study on the Application of Complex Network Theory in Chinese Text Feature Selection [J]. New Technology of Library and Information Service, 2012(9): 23-28.
〔10〕Liu G, Zhai Z W. Research on Keywords Extraction of Chinese Documents Based on TEXT-NET [C]. In: Proceedings of the 2011 International Conference on Electric Information and Control Engineering. 2011: 6074-6077.
〔11〕趙京勝,張麗,肖娜.基于復雜網絡的中文文本關鍵詞提取研究[J].青島理工大學學報,2018,39(03):102-108.
〔12〕Jia X Q.Feature Selection Algorithm Based on the Community Dis covery[C].In: Proceedings of the 7th International Conference on Computational Intelligence and Security.2011:455-458.
〔13〕尹麗英,趙捧未.基于語義網絡社團劃分的中文文本分類研究[J].圖書情報工作,2014,58(19):124-128.
〔14〕杜坤,劉懷亮,郭路杰.結合復雜網絡的特征權重改進算法研究[J].現代圖書情報技術,2015(11):26-32.
〔15〕廖開際,楊彬彬.基于加權語義網的文本相似度計算的研究[J].情報雜志,2012,31(07):182-186.
〔16〕汪小帆、李翔、陳關榮.復雜網絡理論及其應用[M].清華大學出版社,2006.
〔17〕Wu Z B, Palmer M. Verb Semantics and Lexical Selection [C]. In: Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 1994: 133-138.
〔18〕Semantic Similarity Measures in MeSH Ontology and Their Application to Information Retrieval on Medline[EB/OL].[2007-12-10].http://www.intelligence.tuc.gr/publications/Hliautakis.pdf.
〔19〕張碩望,歐陽純萍,陽小華,劉永彬,劉志明.融合《知網》和搜索引擎的詞匯語義相似度計算[J].計算機應用,2017,37(04):1056-1060.