趙旭東,亞森·艾則孜
(新疆警察學院 信息安全工程系,新疆 烏魯木齊 830011)
基于互信息和余弦相似度的維吾爾文不良文檔信息過濾方案
趙旭東,亞森·艾則孜
(新疆警察學院 信息安全工程系,新疆 烏魯木齊830011)
針對網(wǎng)頁中的維吾爾文不良文檔信息的過濾問題,提出一種基于互信息和余弦相似度的不良文檔信息過濾方案。首先,對輸入文檔進行預(yù)處理,過濾掉無用單詞。然后,利用文檔頻率(DF)和互信息(MI)相結(jié)合,從文檔中提取出高區(qū)分度的特征向量。最后,利用TF-IDF方法對特征進行加權(quán),并計算加權(quán)特征向量與分類模板中的各類加權(quán)特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實驗結(jié)果表明,該方案能夠有效過濾不良維吾爾文文檔,正確過濾率達到了83.5%。
維吾爾文;不良文檔過濾;互信息;余弦相似度;TF-IDF
互聯(lián)網(wǎng)的高速發(fā)展促使著人類社會的進步,其蘊涵的共享資源不僅提高了人們的工作學習效率,還豐富著人們的業(yè)余生活。但由于其開放性的特點,各種良莠不齊的垃圾信息也隨之泛濫,特別是反動、色情、暴力或帶有明顯情緒煽動言論的不良信息的入侵,不僅威脅著網(wǎng)絡(luò)信息的安全,更極大地危害著社會的穩(wěn)定和人們的身心健康[1]。因此,開發(fā)網(wǎng)頁文檔信息過濾技術(shù)尤為重要。
隨著國家對新疆地區(qū)的大力投入,使其信息化建設(shè)得到快速發(fā)展,維吾爾文等少數(shù)民族語種的大量文字信息開始以數(shù)字化形式呈現(xiàn)。對維吾爾文書寫的大量網(wǎng)頁文檔數(shù)據(jù)進行信息過濾,對新疆地區(qū)的穩(wěn)定具有重要的意義[2]。目前,對于英文和中文等大語種的文檔過濾技術(shù)已經(jīng)得到大量研究,并趨于成熟。然而,對于維吾爾文表述的數(shù)字文檔的過濾,相關(guān)方面的研究還處于起步階段[3]。維吾爾文是一種黏著性語言,具有比較復(fù)雜的時態(tài)變化和豐富的形態(tài)結(jié)構(gòu)[4]。目前,學者提出了一些對維吾爾文的文檔分類技術(shù),例如文獻[5]提出一種基于語義詞特征提取的維吾爾文文本的分類方法,用一種組合統(tǒng)計量(DME)來度量文本中相鄰單詞之間的關(guān)聯(lián)程度,以此來提取特征詞。文獻[6]利用χ2統(tǒng)計量來提取詞干,并利用支持向量機(SVM)算法來構(gòu)造了維吾爾文文本分類器。
本文結(jié)合維吾爾文特點,提出一種基于互信息和余弦相似度的維吾爾文不良文檔信息過濾方案。首先,對輸入文檔進行預(yù)處理,過濾掉無用信息。然后,利用文檔頻率(Document Frequency,DF)和互信息(Mutual Information,MI)相結(jié)合,提取文檔中最能代表文檔屬性的特征向量。最后,計算提取的特征向量與分類模板中的各類特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實驗結(jié)果表明,本文方案能夠有效過濾不良維吾爾文文檔。
本文提出一種維吾爾文文檔信息過濾方案,首先,需要收集一些已分類的文檔作為訓練文檔集。本文過濾方案主要包括3個部分:1)維吾爾文文檔預(yù)處理階段:在該階段,過濾掉停留詞,并提取維吾爾文單詞的詞干,以降低文檔維度。2)特征提取階段:本文使用文檔頻率(DF)法根據(jù)特征出現(xiàn)頻率提取初始特征集,然后利用互信息(MI)法計算特征與類之間的互信息來獲得最終特征集,以一組特征向量來表示一個文檔,即用向量空間模型(VSM)表示文檔。3)文檔過濾階段:通過詞頻-逆向文件頻率 (TF-IDF)方法對提取的特征進行加權(quán),計算輸入文檔特征向量與訓練文檔集獲得的分類模板中各類的特征向量之間的余弦相似度,來判斷輸入文檔的屬性。另外,在文檔過濾之后,通過人為判斷文檔過濾正確性,并作為反饋來調(diào)整相似度比較的判斷閾值R,以獲得最佳過濾性能。本文文檔過濾方案框架如圖1所示。
圖1 本文文檔過濾方案框架
1.1文檔預(yù)處理
維吾爾文文檔預(yù)處理主要包括兩個部分:文檔過濾和詞干提取。其中,文檔過濾用于過濾掉文檔中非維吾爾文文字和停用詞;詞干提取是用來提取文檔中具有真正含義的詞匯。經(jīng)過文檔預(yù)處理,可將文檔原始特征維度降低約一半。
文檔去噪過程中,首先對文檔進行過濾,獲得維吾爾文單詞集。然后,通過和事先準備好的停用詞表進行比對,過濾掉停用詞。停用詞為對文檔主題沒有貢獻,不包含文章類別信息的詞,例如介詞、副詞、代詞等。去掉停留詞能夠?qū)崿F(xiàn)特征降維,提高分類精度[7]。
詞干提取過程中,首先,根據(jù)維吾爾文單詞與單詞之間的空格符來進行分詞。由于維吾爾文單詞是由字母拼寫而成的,通過將不同的詞綴粘貼到單詞的頭部來實現(xiàn)語法功能,所以,提取文檔中能夠代表真實含義的詞匯是困難的。維吾爾文中,同一詞干可以演變?yōu)楹芏嗖煌x的詞語,雖然這些詞語的詞形不同,但詞義卻不會有很大區(qū)別[8]。其中一個典型例子如表1所示。為了提取單詞的詞義,并考慮特征的數(shù)量,本文以詞干(學校)作為特征項,以此從文檔中提取出詞干集。
1.2基于DF和MI的特征提取
目前,主流的特征提取方法有文檔頻率(DF)、信息增益(IG)、χ2統(tǒng)計量(CHI)和互信息(MI)等[9]。這些特征選擇方法基本思想都是基于一種評估函數(shù),評估每個特征詞的價值,然后根據(jù)價值將特征詞從高到低進行排序,根據(jù)設(shè)定的特征數(shù)量,從高到低提取特征詞作為特征集合,以此獲得具有高區(qū)別能力的特征集并降低特征維數(shù)。
表1 維吾爾詞語變體
DF方法只計算文檔集中具有特征項文檔的數(shù)量,若只利用其來提取特征較為粗糙[10]。MI方法根據(jù)特征和類別共同出現(xiàn)的概率,度量特征和類別的相關(guān)性,所提取的特征較為精確,但計算量較大[11]。為此,本文將DF方法和MI方法相結(jié)合,首先,在預(yù)處理后的文檔中利用DF方法,計算出具有每個詞條的文檔數(shù),將在設(shè)定上下限閾值之間的特征加入到初始特征集中,以此去掉一些低頻詞和高頻詞。然后,在生成的初始特征集上,根據(jù)每個詞干和每個類別之間的MI值來選擇具有較高類別區(qū)分能力的詞干作為最終特征,進一步降低特征維數(shù)。
DF方法中的文檔頻率指文檔集中出現(xiàn)某個特征項的文檔個數(shù)。在文檔集中含有該特征的文檔數(shù)量為:
本文設(shè)定DF(v)的上下閾值分別為5%~70%。出現(xiàn)頻率低于5%的特征視為很少出現(xiàn)的特征,其在文檔分類中的作用較小。而出現(xiàn)頻率大于70%的特征,由于在文檔中廣泛分布,所以其區(qū)別性較低。
特征V=(v1,v2,…,vd)和類C=(c1,c2,…,ck)之間的MI可表示為:
特征v1在類c1中出現(xiàn)的概率越高,則互信息I(c1,v1)就越大,則相關(guān)性越大。若本文設(shè)定對每類提取N個特征,那么則將互信息從大到小排名前N的特征作為特征向量。
1.3基于余弦相似度的文檔過濾
在提取文檔特征之后,可通過計算輸入文檔和訓練模板之間的相似度來判斷文檔屬性。其中,訓練模板是通過從已知文檔類別的訓練集中提取的特征訓練獲得,其由每種文檔類別的特征向量組成。
目前,計算相似度的主流方法是計算兩個文檔特征向量的內(nèi)積或內(nèi)積的某種相關(guān)系數(shù)。其中,向量內(nèi)積表示的是一個向量在另一個向量上的投影,內(nèi)積越大,兩個文本相似度就越大。本文采用夾角余弦距離公式來計算其相似度,夾角余弦相似度衡量的是向量空間兩個向量的夾角,更加體現(xiàn)的是方向上的差異,而不是位置,這就是歐式距離和夾角余弦的最大不同之處。向量夾角的余弦值越大,表明兩者之間的相似度越大。
在計算余弦相似度之前,需要對特征進行加權(quán)。本文利用經(jīng)典的TF-IDF方法[12],根據(jù)特征項的詞頻(TF)和逆文檔頻率(IDF)來加權(quán)特征,并進行歸一化處理到[0,1]范圍內(nèi),表達式為:
其中,tfvi為詞頻,表示特征vi在文檔d中出現(xiàn)的次數(shù);idfvi為逆文檔頻率,表示訓練文檔集中包含特征vi的文檔數(shù)量(即DF(vi))倒數(shù)的log值,表達式為:
令A(yù)=(a1,a2,…,an)和B=(b1,b2,…,bn)表示兩個特征向量對應(yīng)的權(quán)重向量,那么這兩個特征權(quán)重向量之間的余弦相似度如式(5)所示:
在相似度計算結(jié)束后,設(shè)定將相似度大于閾值R的文檔返回給用戶,否則屏蔽該文檔。
2.1實驗數(shù)據(jù)
為了評估本文方案的性能,構(gòu)建一個計算平臺,以Intel酷睿i5作為CPU,主頻為2.4 Ghz,應(yīng)用Windows7系統(tǒng)環(huán)境,利用Matlab2011進行實驗。
對于維吾爾文的文本分類應(yīng)用,目前還沒有可使用的標準文本集。由于本文方案是應(yīng)用于不良信息過濾領(lǐng)域,所以本文從新疆政府網(wǎng)、天山網(wǎng)和新疆公安犯罪數(shù)據(jù)庫中的不良文檔中收集了2 000篇文檔,通過人工方式將其分為5類文檔:1)正常文檔、2)暴恐傾向文檔、3)色情文檔、4)賭博文檔、5)反動言論文檔,其中正常文檔800篇,其它各類不良文檔分別為300篇。在數(shù)據(jù)集中均勻選取1 200篇文本作為訓練集,剩余800篇作為測試集。
2.2性能指標
本文采用分類中常用的性能指標F1值[13]來評估方案性能,其由分準確率(Precision)和召回率(Recall)計算獲得。對于某一個類別i,其準確率、召回率、F1值分別可以描述為:
在對過濾器性能進行統(tǒng)計計算時,用宏均值(Macro-F1)參數(shù)來反應(yīng)過濾器的性能,表達式為:
2.3分類過濾實驗
實驗中,首先對維吾爾文文本集進行預(yù)處理,為了方便后續(xù)處理,把文本轉(zhuǎn)換成UTF-8二進制編碼格式[14]。然后,過濾掉文本中的非維吾爾文字符和停用詞。預(yù)處理結(jié)束后,獲得一個具有24 420個詞的初始詞語集。然后進行詞干提取,將同一詞根演變而來的特征進行聚合,使詞干數(shù)降維到13 826個。
然后通過本文提出DF+MI特征提取算法,提取出和類別具有高互信息(高區(qū)分度)的詞干組成最終特征向量。設(shè)定每個類別提取500~2 000個特征詞作為特征向量,表2列出了暴恐和反動文檔類中的前5個特征詞。
表2 2種類別的前5名高區(qū)分度的特征詞
將本文方案與文獻[5]和文獻[6]提出的方案進行比較,在特征向量大小為500~2 000個特征詞下,以Macro-F1作為性能指標評估正確分類過濾的性能。實驗中,每次實驗計算所有測試文檔被分為5個類的F1值,并取宏均值Macro-F1,相同實驗執(zhí)行10次,最終獲得平均Macro-F1值,結(jié)果如圖2所示。
圖2 各種方案分類過濾的Macro-F1值
從圖2可以看出,隨著特征數(shù)量的增加,各種方案的過濾性能逐漸提高,但當達到一定程度上呈現(xiàn)平穩(wěn)狀態(tài)。這是因為,特征選取數(shù)量過少時,導致很多對分類過濾具有較大貢獻的特征詞被遺漏[15];當特征數(shù)量過多時,就會造成特征冗余,增加計算復(fù)雜度,從而影響了分類過濾性能。然而,本文方案始終保持最高的分類過濾性能,當特征向量長度為1 400左右時,性能最佳,獲得的F1值達到了0.835。這是因為本文在特征提取階段首先利用DF方法過濾掉一些特征詞,降低了特征提取的計算量。同時,利用余弦距離來計算輸入文檔
為了凈化新疆地區(qū)維吾爾文網(wǎng)頁中的不良文檔,促進地區(qū)穩(wěn)定,文中提出一種基于互信息和余弦相似度的維吾爾文網(wǎng)頁不良文檔信息過濾方案。利用文檔頻率(DF)和互信息(MI)相結(jié)合,從文檔中提取出高區(qū)分度的特征向量。利用TF-IDF方法對特征進行加權(quán),并計算加權(quán)特征向量與分類模板中的各類加權(quán)特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實驗結(jié)果表明,與其它方案相比,本文方案能夠有效過濾網(wǎng)頁中的不良維吾爾文文檔。
[1]丁霄云,劉功申,孟魁.基于一類SVM的不良信息過濾算法改進[J].計算機科學,2013,40(11):86-90.
[2]阿力木江·艾沙,庫爾班·吾布力,吐爾根·依布拉音.維吾爾文Bigram文本特征提?。跩].計算機工程與應(yīng)用,2015,51 (3):216-221.
[3]熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計算機工程,2014,40(10):132-136.
[4]亞力青·阿里瑪斯,哈力旦·阿布都熱依木,陳洋.基于向量空間模型的維吾爾文文本過濾方法[J].新疆大學學報:自然科學版,2015(2):221-226.
[5]吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J].中文信息學報,2014,28(6):140-144.
[6]阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力.基于SVM的維吾爾文文本分類研究[J].計算機工程與科學,2012,34(12):140-144.
[7]Uysal A K,Gunal S.The impact of preprocessing on text classification[J].Information Processing&Management,2014,50(7):104-112.
[8]田生偉,鐘軍,禹龍.維吾爾文多詞領(lǐng)域術(shù)語的自動抽?。跩].中文信息學報,2015,29(2):133-141.
[9]李建林.一種基于PCA的組合特征提取文本分類方法[J].計算機應(yīng)用研究,2013,30(8):2398-2401.
[10]Bharti K K,Singh P K.Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering[J].Expert Systems with Applications,2015,42(6):3105-3114.
[11]Shadvar A.Dimension reduction by mutual information feature extraction[J].International Journal of Computer Science&Information Technology,2012,4(3):231-245.
[12]張保富,施化吉,馬素琴.基于TFIDF文本特征加權(quán)方法的改進研究[J].計算機應(yīng)用與軟件,2011,28(2):17-20.
[13]Liu J.A Network Information filtering method based on node energy transfer[J].Advanced Materials Research,2014,25 (9):4400-4404.
[14]阿力木江·艾沙,吐爾根·依布拉音,艾山·吾買爾,等.基于機器學習的維吾爾文文本分類研究 [J].計算機工程與應(yīng)用,2012,48(5):110-112.
[15]Arasaratnam I.Sensor fusion with square-root cubature information filtering[J].Intelligent Control&Automation,2013,4(1):11-17.
A uyghur bad text information filtering scheme based on mutual information and Cosine similarity
ZHAO Xu-dong,Yasen·AIZEZI
(Department of Information Safety Engineering,Xinjiang Police College,Urumqi 830011,China)
For the issues that the Uyghur bad text information filtering in the web page,an information filtering scheme based on mutual information and cosine similarity is proposed.First,the input document is preprocessed to filter out useless words. Then,the combination of document frequency(DF)and mutual information(MI)is used to extract the feature vector which with high degree of differentiation.Finally,the feature is weighted by the TF-IDF method,and calculate the cosine similarity between the weighted feature vector and the weighted feature vectors in the classification template,so as to classify the documents and filter out the bad document information.Experimental results show that the proposed scheme can effectively filter the bad Uyghur documents,and the correct filtering rate is 83.5%.
Uyghur;bad text information;mutual information;cosine similarity;TF-IDF
TN918
A
1674-6236(2016)16-0109-04
2016-02-06稿件編號:201602020
新疆維吾爾自治區(qū)自然科學基金科研項目(2015211A016)
趙旭東(1977—),男,安徽蕪湖人,碩士,講師。研究方向:信息安全、軟件工程等。