龔 靜,胡平霞,李春媚
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院信息技術(shù)系,湖南 衡陽(yáng) 421005)
文本分類是指通過分析文本的內(nèi)容自動(dòng)將文本分配到預(yù)先定義的類別中,其目標(biāo)是將語(yǔ)義相近的文本組織到同一個(gè)類別中,以便對(duì)文本集進(jìn)行組織和管理[1]。文本分類被廣泛應(yīng)用在網(wǎng)頁(yè)文本歸類、垃圾郵件過濾等領(lǐng)域。文本分類的步驟為:①文本的分詞;②文本的表示;③特征項(xiàng)權(quán)值計(jì)算;④特征選擇;⑤文本分類[2]。
在文本分類中,人們較多地研究特征選擇算法與文本分類算法,而對(duì)特征項(xiàng)權(quán)值計(jì)算方法的研究非常少,特征項(xiàng)的權(quán)值是衡量某個(gè)特征項(xiàng)在文本表示中的重要程度或區(qū)分能力的強(qiáng)弱[3],即這個(gè)特征項(xiàng)在多大程度上能夠代表這個(gè)文本,可知,選擇不同的特征項(xiàng)權(quán)值計(jì)算方法將會(huì)對(duì)文本分類的結(jié)果產(chǎn)生非常大的影響。因此,文章在既考慮特征項(xiàng)的頻率因素,又考慮特征項(xiàng)的語(yǔ)義因素的基礎(chǔ)上提出了一種新的特征項(xiàng)權(quán)值計(jì)算方法,采用支持向量機(jī)(Support Vector Machine,VSM)分類算法進(jìn)行了分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明此方法能有效提高文本分類的正確率。
中文文本的內(nèi)容是用自然語(yǔ)言來描述的,具有有限的結(jié)構(gòu)甚至沒有結(jié)構(gòu),其語(yǔ)義計(jì)算機(jī)是不能直接理解的,所以需要對(duì)中文文本進(jìn)行相應(yīng)的處理[4],即預(yù)處理,從中抽取標(biāo)志文本內(nèi)容的元數(shù)據(jù),即特征項(xiàng)。特征項(xiàng)可以是字、詞、短語(yǔ)或語(yǔ)義單元,一般來講,詞是具有獨(dú)立語(yǔ)義特性的最小單位,因此,在中文文本中以詞為單位來抽取特征項(xiàng),最后用結(jié)構(gòu)化的形式表示這些特征項(xiàng)。目前,在中文文本信息處理中,效果較好且應(yīng)用較廣的表示方法為向量空間模型。在VSM 中,一個(gè)文本用向量空間中的一個(gè)點(diǎn)來描述[5],其形式為:其中為特征項(xiàng),為特征項(xiàng)的權(quán)重,簡(jiǎn)寫為??芍?,向量空間模型中每一維的值表示特征項(xiàng)在該文本中的權(quán)重,用來刻畫該特征項(xiàng)對(duì)表示文本內(nèi)容的重要程度。特征項(xiàng)權(quán)值的計(jì)算原則就是最大限度地區(qū)別不同的文本。一般使用的特征項(xiàng)權(quán)值計(jì)算方法是詞語(yǔ)頻率與,但是,這兩種方法還存在一些不足,影響文本分類的效果,因此文章從頻率與語(yǔ)義兩個(gè)方面來計(jì)算特征項(xiàng)的權(quán)重。
2.1.1 特征項(xiàng)頻率
特征項(xiàng)頻率是指特征項(xiàng)在文檔中出現(xiàn)的次數(shù),在不同類別的文檔中特征項(xiàng)出現(xiàn)的頻率存在很大的差異,因此,特征項(xiàng)頻率是文本分類的重要參考因素之一,在最初的文本分類中權(quán)值的計(jì)算就是采用。
2.1.2 逆文檔頻率
文檔頻率是指在整個(gè)文本集中出現(xiàn)該特征項(xiàng)的文本數(shù)[6]。逆文檔頻率是指特征項(xiàng)出現(xiàn)在較多的文本中,它的重要性就低,相反,如果集中出現(xiàn)在少數(shù)文本中,它的重要性就越高。
綜合考慮特征項(xiàng)頻率與逆文檔頻率,得到了特征項(xiàng)頻率的計(jì)算公式,也就是通常的公式[7],見公式(1):
其中,是指特征項(xiàng)在文本中出現(xiàn)的頻率,是文本集中文本的個(gè)數(shù),是指特征項(xiàng)在文本數(shù)據(jù)集中出現(xiàn)的文本個(gè)數(shù),是逆文本頻數(shù)。
這樣通過頻率計(jì)算得到,接著考慮特征項(xiàng)的語(yǔ)義信息,然后通過逐步修改權(quán)值的方式來真正體現(xiàn)特征項(xiàng)在文本中的重要程度。
特征項(xiàng)的語(yǔ)義分析是從中文文本的語(yǔ)義角度出發(fā),用相應(yīng)的權(quán)重來反映特征項(xiàng)的語(yǔ)義信息,在此主要從特征項(xiàng)的同現(xiàn)、位置、長(zhǎng)度等方面來考慮。
2.2.1 詞同現(xiàn)頻率
在中文文本中,句義的表達(dá)是由詞與詞的關(guān)系及組成句的詞義表達(dá)的,出現(xiàn)在同一句中的詞兩兩之間的同現(xiàn)關(guān)系表現(xiàn)句子的意義。如果兩個(gè)詞同時(shí)出現(xiàn)在同一句子中,說明這兩個(gè)詞具有最直接的相關(guān)性[8]。增加詞共現(xiàn)概念的向量空間模型比單純的基于詞頻的向量空間模型更能反映文本的內(nèi)容和語(yǔ)義。
設(shè)詞在文本中出現(xiàn)的總次數(shù)為,即詞頻,詞在文本中出現(xiàn)的總的次數(shù)為,即詞頻,詞與詞同現(xiàn)頻率記為(句內(nèi)不重復(fù)計(jì)數(shù)),可知=,因此,文章定義詞與的同現(xiàn)概率計(jì)算方法為公式(2)。
其中,為詞與詞的同現(xiàn)概率,可知=,≡1。
最終,就得到了一個(gè)關(guān)于文本的詞與詞之間的一個(gè)同現(xiàn)概率矩陣,它是一個(gè)行列的對(duì)稱矩陣,表示該文本特征項(xiàng)的數(shù)量。
文章利用該矩陣對(duì)的權(quán)值進(jìn)行修正,特征項(xiàng)的權(quán)值修正為公式(4):
可見,加強(qiáng)了同現(xiàn)概率大的特征項(xiàng)的權(quán)重,同現(xiàn)概率大表示該詞通常被其他詞修飾或修飾其他詞,所以,文章就認(rèn)為該詞是一個(gè)比較重要的詞,是能夠體現(xiàn)文本的主題思想,它的權(quán)重應(yīng)該得到相應(yīng)的加強(qiáng),并且也加強(qiáng)了與之關(guān)聯(lián)比較大的詞語(yǔ)權(quán)重,新得到的文本特征描述蘊(yùn)涵了詞的同現(xiàn)特點(diǎn),突出了該文本的語(yǔ)義信息,符合人們的思維習(xí)慣。
2.2.2 特征長(zhǎng)度權(quán)重
一般說來,長(zhǎng)詞的頻率較低,是面向內(nèi)容的,而短詞的頻率較高、含義多,是面向功能的[9]。適當(dāng)提高長(zhǎng)詞的權(quán)重,有利于分割詞匯,以便更加準(zhǔn)確地體現(xiàn)出特征項(xiàng)在文本中的重要程度。因此,長(zhǎng)詞應(yīng)該具備較高的權(quán)重,因此,文章將權(quán)值修正為公式(5):
其中,表示詞的長(zhǎng)度,如“數(shù)字電子計(jì)算機(jī)”中
2.2.3 位置權(quán)重
國(guó)外學(xué)者進(jìn)行過統(tǒng)計(jì),體現(xiàn)文本主題的句子,10% 出現(xiàn)在段尾,80% 出現(xiàn)在段首[10]。同樣,國(guó)內(nèi)研究者通過統(tǒng)計(jì)得出中文新聞的標(biāo)題與主題的符合率為94%,而中文期刊自然科學(xué)論文的標(biāo)題與主題的符合率為97%。這些數(shù)據(jù)說明特征項(xiàng)的位置不一樣,對(duì)文本的作用也不一樣,盡管有些特征項(xiàng)的頻率不高,但是它卻能夠很好地反映文本的內(nèi)容。所以,針對(duì)性不同位置的特征項(xiàng)進(jìn)行了加權(quán),設(shè)位置權(quán)重計(jì)算方法如公式(6)所示。
設(shè)特征項(xiàng)的位置權(quán)重為,其值為:
設(shè)為特征項(xiàng)在相應(yīng)位置出現(xiàn)的次數(shù),進(jìn)行了位置加權(quán)的特征項(xiàng)權(quán)值計(jì)算方法在此定義如公式(7)所示:
設(shè)待分類的文本集合為,文本集合的個(gè)數(shù)為,特征項(xiàng)集合為,特征項(xiàng)權(quán)值計(jì)算方法描述如下:
對(duì)于每個(gè)特征項(xiàng),其中;每個(gè)文本,其中
Step 1 首先統(tǒng)計(jì)特征項(xiàng)在文本中出現(xiàn)的次數(shù)及它與同時(shí)出現(xiàn)在同一個(gè)句子內(nèi)的次數(shù),特征在文本集中出現(xiàn)的文本頻率,特征項(xiàng)的位置信息以及的詞長(zhǎng)。
Step 2 將Step1 得到的與利用公式(1)計(jì)算基于特征項(xiàng)頻率特性的權(quán)值();
Step 3 利用step1 中得到的建立同現(xiàn)概率矩陣,然后利用公式(4)修正特征項(xiàng)權(quán)值();
Step 4 利用Step1 計(jì)入的詞長(zhǎng),然后利用公式(5)修正特征項(xiàng)權(quán)值();
Step 5 利用Step1 中給出的位置信息,然后利用公式(7)修正特征項(xiàng)權(quán)值();
Step 6 得到特征項(xiàng)最終權(quán)值為(),程序結(jié)束。
為了檢驗(yàn)此種權(quán)值計(jì)算方法的有效性,采用與通用的詞頻與方法進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)用VC++實(shí)現(xiàn),在Celeron(R)2.6G,4GB 內(nèi)存的計(jì)算機(jī)上進(jìn)行。用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的ICTCLAS 分詞系統(tǒng)進(jìn)行分詞,采用的分類算法為支持向量機(jī)算法,SVM 是基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,能夠較好地處理小樣本情況下的學(xué)習(xí)問題,能夠利用核函數(shù)思想把非線性問題轉(zhuǎn)化為線性問題來解決,能夠大大降低算法的復(fù)雜度,因此被廣泛應(yīng)用在文本分類領(lǐng)域。實(shí)驗(yàn)文本數(shù)據(jù)來源于復(fù)旦大學(xué)國(guó)際數(shù)據(jù)庫(kù),訓(xùn)練語(yǔ)料是由人工標(biāo)注類別的,6個(gè)類別共641 篇文本,測(cè)試語(yǔ)料626個(gè)文本,訓(xùn)練語(yǔ)料與測(cè)試語(yǔ)料基本上是1:1 的比例。分類結(jié)果評(píng)價(jià)指標(biāo)采用F-measure,其計(jì)算如公式(8)所示,得到的實(shí)驗(yàn)結(jié)果如表1 所示。
表1 比較實(shí)驗(yàn)結(jié)果
通過對(duì)實(shí)驗(yàn)結(jié)果比較分析,文章中提出的權(quán)值計(jì)算方法的F- meature 平均值比以詞頻為權(quán)重的計(jì)算方法平均高出了14.11%,比方法平均高出6.78%??芍?,此方法更能突出特征項(xiàng)對(duì)文本內(nèi)容的貢獻(xiàn)程度,實(shí)驗(yàn)結(jié)果證明此方法更有效。
無論對(duì)于文本分類還是文本聚類,特征項(xiàng)權(quán)值計(jì)算都是其中的一個(gè)基礎(chǔ)環(huán)節(jié),選不同的權(quán)值計(jì)算方法對(duì)文本分類的準(zhǔn)確率有很大的影響,文章提出的權(quán)值計(jì)算方法在實(shí)際的分類系統(tǒng)中取得了比較好的效果。但是,實(shí)驗(yàn)中是采用支持向量機(jī)SVM 分類器來進(jìn)行分類的,以后將嘗試將此權(quán)值計(jì)算方法與其他文本分類算法相結(jié)合,以期提高文本分類的整體性能,與此同時(shí)也將嘗試將此算法思想運(yùn)用到文本聚類、自動(dòng)文摘中去。
[1]路永和,李焰鋒.改進(jìn)TF-IDF 算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J].圖書情報(bào)工作,2013(2):91-95.
[2]張愛華,靖紅芳.文本分類中特征權(quán)重因子的作用研究[J].中文信息學(xué)報(bào),2010(5):97-101.
[3]龔靜,李安民.一種改進(jìn)的k-means 中文文本聚類算法[J].湖南工業(yè)大學(xué)學(xué)報(bào),2008.3:52-55.
[4]楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].吉林大學(xué),2013.6.
[5]譚金波.文本層次分類中特征項(xiàng)權(quán)重算法的比較研究[J].情報(bào)雜志,2007(9):87-91.
[6]NAVEENKMAR N,BATRI.K.An Empirica l Study on Term Weights for Text Categorization[J].International Journal of Advanced Information Science and Technology 2012(11):43-46.
[7]龔靜,曾莉.用于文本分類的特征選擇方法[J].湖南環(huán)境生物職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008(9):24-26.
[8]寇莎莎,魏振軍.自動(dòng)文本分類中權(quán)值公式的改進(jìn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2005(6):1616-1618.
[9]侯艷釵.基于詞語(yǔ)權(quán)重的中文文本分類算法的研究[D].石家莊:河北工業(yè)大學(xué),2010.
[10]李凱齊,刁興春,曹建軍.基于信息增益的文本特征權(quán)重改進(jìn)算法[J].計(jì)算機(jī)工程,2011(1):16-18.