文本分類(lèi)中基于CHI改進(jìn)的特征選擇方法*

2019-01-15 05:02宋呈祥陳秀宏

傳感器與微系統(tǒng) 2019年2期

宋呈祥，陳秀宏，牛強(qiáng)

(江南大學(xué) 數(shù)字媒體學(xué)院，江蘇無(wú)錫 214122)

0 引言

合理的特征選擇，不僅可以降低文本特征維度，還能降低分類(lèi)時(shí)間復(fù)雜度，提高分類(lèi)效果[1]。近年來(lái)，越來(lái)越多的特征選擇算法涌現(xiàn)，這些方法大多數(shù)都是基于頻率或者概率對(duì)特征詞進(jìn)行權(quán)重計(jì)算，并根據(jù)排名選取TOP-K特征詞?？ǚ浇y(tǒng)計(jì)量(Chi-square statistics,CHI)是一種常用的特征選擇方法，具備更低的時(shí)間復(fù)雜度和應(yīng)用便利性[2]，其統(tǒng)計(jì)特征詞在文本中是否出現(xiàn)，但沒(méi)有考慮詞頻和特征詞分散度、集中度等信息。Galavotti L等人[3]通過(guò)研究特征詞與類(lèi)別的正負(fù)相關(guān)性問(wèn)題，引入一種新的相關(guān)系數(shù)方法對(duì)CHI模型進(jìn)行優(yōu)化，使得模型性能有了一定的提高。Jin C等人[4]使用樣本方差計(jì)算詞的分布信息，并考慮最大詞頻信息來(lái)改進(jìn)CHI方法，在三個(gè)數(shù)據(jù)集上均取得較好的結(jié)果。葉敏等人[5]通過(guò)在CHI特征選擇算法中引入分散度、頻度等特征因子，并考慮位置和詞長(zhǎng)信息改進(jìn)詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)賦權(quán)公式，提出一種用來(lái)描述特征詞的權(quán)重分布情況的特征選擇算法，提高特征詞的類(lèi)別鑒別能力。高寶林等人[6]通過(guò)引入類(lèi)內(nèi)和類(lèi)間分布因子，提出基于類(lèi)別的CHI特征選擇方法，減少了低頻詞帶來(lái)的干擾，并且降低了特征詞在類(lèi)間均勻分布時(shí)對(duì)分類(lèi)帶來(lái)的負(fù)貢獻(xiàn)。袁磊[7]考慮不均衡文本長(zhǎng)度的影響，對(duì)特征詞頻進(jìn)行歸一化處理，同時(shí)融合特征詞的類(lèi)別信息，提出了一種改進(jìn)CHI特征選擇算法。但這些方法都沒(méi)有考慮分布在少數(shù)文本集合的高頻特征詞。

由于傳統(tǒng)CHI方法是在全局范圍內(nèi)進(jìn)行特征選擇而未考慮特征詞頻信息，且沒(méi)有考慮特征詞的出現(xiàn)與類(lèi)負(fù)相關(guān)的情況，故本文提出一種新的基于CHI特征選擇方法，考慮位置特性而改進(jìn)TF-IDF權(quán)重計(jì)算公式，并分別使用支持向量機(jī)(support vector machine,SVM)和樸素貝葉斯(naive Bayes)方法對(duì)文本分類(lèi)。實(shí)驗(yàn)結(jié)果表明，該方法分類(lèi)效果優(yōu)于傳統(tǒng)CHI方法和文獻(xiàn)[6]的方法。

1 相關(guān)概念與方法

1.1 CHI

CHI是用來(lái)衡量特征詞tk和類(lèi)別ci之間的相關(guān)聯(lián)程度。假設(shè)tk和ci之間符合具有一階的自由度χ2分布，則tk與ci的CHI值定義為[2]

(1)

(2)

式中m為類(lèi)別數(shù)目。

1.2 特征權(quán)重計(jì)算

特征選擇后需計(jì)算各特征詞的權(quán)重大小，以衡量某個(gè)特征詞在文本中區(qū)別能力的強(qiáng)弱。TF-IDF是一種經(jīng)典的特征權(quán)重計(jì)算方法，在信息檢索占有重要地位[8]，其計(jì)算公式如下

(3)

式中nij為特征詞wi在第j篇文本中出現(xiàn)的頻度，|Dj|為第j篇文本的長(zhǎng)度，n為文本集的文本總數(shù)，df(wi)為文本集中出現(xiàn)特征詞wi的文本數(shù)目。如果一個(gè)詞在某篇文本出現(xiàn)的次數(shù)多且在其他文本中包括該詞的文本數(shù)少，那么其就越和該文本主題相關(guān)，區(qū)分能力也就越強(qiáng)[9]。為了消除文本長(zhǎng)度對(duì)TF-IDF值的影響，一般將其進(jìn)行歸一化處理。

2 改進(jìn)的文本分類(lèi)方法

2.1 基于位置改進(jìn)的TF-IDF權(quán)重計(jì)算公式

傳統(tǒng)的TF-IDF公式在計(jì)算特征詞權(quán)重時(shí)只考慮詞頻和包含它的文本數(shù)量，沒(méi)有考慮特征詞出現(xiàn)的位置，然而特征詞的位置信息從某種程度也反映了其重要性。如果特征詞出現(xiàn)在文本的標(biāo)題、摘要或者關(guān)鍵詞處，則其應(yīng)該獲得更高的權(quán)重。于是，改進(jìn)的頻度 (稱(chēng)為位置頻度，pos_n)為

pos_nij=nij×(1+log2(T(wi)+1))

(4)

式中T(wi)為特征詞wi出現(xiàn)在標(biāo)題、摘要或者關(guān)鍵詞處的總次數(shù)。當(dāng)T(wi)=0時(shí)，pos_nij=nij，該式值即為傳統(tǒng)的特征詞頻度。式(4)表明，如果一個(gè)特征詞在標(biāo)題、摘要、關(guān)鍵詞出現(xiàn)的次數(shù)越多，那么它的權(quán)值應(yīng)越高，也就越重要。將式(4)替換式(3)中的nij，便可得到包含特征詞位置的改進(jìn)TF-IDF權(quán)重公式位置 TF-IDF (position TF-IDF,PTF-IDF)

(5)

2.2 CHI的優(yōu)化

針對(duì)傳統(tǒng)CHI全局特征選擇以及未考慮詞頻信息等問(wèn)題，考慮特征分布系數(shù)(feature distribution coefficient，F(xiàn)DC)如下

(6)

(7)

式中N(tk,ci)為類(lèi)ci出現(xiàn)特征tk的文本數(shù)，N(tk)為文本集中出現(xiàn)tk的文本總數(shù)，m為類(lèi)別數(shù)。于是，當(dāng)類(lèi)ci中出現(xiàn)特征tk的文本數(shù)小于平均每個(gè)類(lèi)中出現(xiàn)tk的文本數(shù)時(shí)，NCF值為負(fù)數(shù)，CHI值就會(huì)是負(fù)數(shù)，此時(shí)刪除與類(lèi)ci負(fù)相關(guān)的特征即可避免負(fù)相關(guān)對(duì)分類(lèi)的影響。最后給出改進(jìn)的特征選擇公式IMPCHI(improved CHI)為

IMPCHI(tk,ci)=CHI(tk,ci)FDC(tk)NCF(tk,ci)

(8)

綜上所述，得到以下改進(jìn)的特征選擇和權(quán)重計(jì)算的文本分類(lèi)算法流程:

1)文本預(yù)處理。文本預(yù)處理包括詞性標(biāo)注、去除特殊符號(hào)以及停用詞；只保留名詞、動(dòng)詞和形容詞等重要詞語(yǔ)，獲取文本詞語(yǔ)(標(biāo)題、關(guān)鍵詞、摘要、正文和類(lèi)別)集合。

2)特征選擇。使用本文算法計(jì)算訓(xùn)練集文本詞語(yǔ)集合和每個(gè)類(lèi)別的NCF,CHI,FDC值，得到每個(gè)詞和對(duì)應(yīng)類(lèi)別的IMPCHI值；對(duì)于重復(fù)的詞，取最大值作為該詞最終的IMPCHI值。將每個(gè)詞按IMPCHI降序排序，根據(jù)語(yǔ)料文本特征選取TOP-K作為整個(gè)語(yǔ)料集的特征詞集合。

3)權(quán)重計(jì)算。對(duì)于每篇文本的詞語(yǔ)集合，若步驟(2)的特征詞集合含有該詞，使用考慮特征詞位置特性的PTF-IDF賦權(quán)公式計(jì)算該詞的權(quán)重，構(gòu)造文本特征向量。

4)分類(lèi)器訓(xùn)練。利用步驟(3)得到訓(xùn)練集文本特征向量，并訓(xùn)練分類(lèi)器。

5)測(cè)試分析。將測(cè)試集分別進(jìn)行步驟(1)、步驟(3)處理獲取測(cè)試集文本特征向量，并對(duì)步驟(4)得到的分類(lèi)器測(cè)試評(píng)估，輸出實(shí)驗(yàn)結(jié)果。

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)數(shù)據(jù)利用網(wǎng)易新聞?wù)Z料庫(kù)和復(fù)旦大學(xué)中文語(yǔ)料庫(kù)，其中網(wǎng)易新聞?wù)Z料庫(kù)包括汽車(chē)、文化、經(jīng)濟(jì)、醫(yī)藥、軍事和體育六個(gè)大類(lèi)，隨機(jī)選取每個(gè)類(lèi)別的300篇文本，以2∶1的比例組成訓(xùn)練集和測(cè)試集；復(fù)旦大學(xué)中文語(yǔ)料庫(kù)，隨機(jī)選取的訓(xùn)練集和測(cè)試集文本數(shù)量如表1。

表1 復(fù)旦大學(xué)中文語(yǔ)料庫(kù)訓(xùn)練集和測(cè)試集的選取情況

實(shí)驗(yàn)中，使用中科院NLPIR[10]工具對(duì)語(yǔ)料進(jìn)行預(yù)處理。實(shí)驗(yàn)分別采用TF-IDF和PTF-IDF公式對(duì)特征選擇后的特征詞計(jì)算其權(quán)重；并利用臺(tái)灣大學(xué)的Chang Chih-chung教授等人[11]開(kāi)發(fā)的線性核函數(shù)SVM分類(lèi)器和Weka平臺(tái)Naive Bayes分類(lèi)器[12]對(duì)語(yǔ)料文本進(jìn)行分類(lèi)。

實(shí)驗(yàn)性能評(píng)估使用宏F1值 (macro_F1)來(lái)度量所有類(lèi)別的總體分類(lèi)指標(biāo)

(9)

式中m為類(lèi)別個(gè)數(shù)；Pi,Ri分別為ci類(lèi)的查準(zhǔn)率(Precision,P)和查全率(Recall,R)；macro_P為宏查準(zhǔn)率；macro_R為宏查全率。

實(shí)驗(yàn)中各個(gè)方法表示為：E1為傳統(tǒng)CHI特征選擇+TF-IDF權(quán)重計(jì)算的實(shí)驗(yàn)；E2為傳統(tǒng)CHI 特征選擇+PTF-IDF權(quán)重計(jì)算的實(shí)驗(yàn)；E3為文獻(xiàn)[6]提出的C-ICHI方法+TF-IDF權(quán)重計(jì)算的實(shí)驗(yàn)；E4為IMPCHI特征選擇 +TF-IDF權(quán)重計(jì)算的實(shí)驗(yàn)；E5為IMPCHI特征選擇 +PTF-IDF權(quán)重計(jì)算的實(shí)驗(yàn)。

3.1 在不同語(yǔ)料庫(kù)上的SVM分類(lèi)實(shí)驗(yàn)

在不同語(yǔ)料庫(kù)的SVM分類(lèi)對(duì)比實(shí)驗(yàn)結(jié)果如圖1。

圖1 不同特征維度的SVM分類(lèi)宏F1值

可見(jiàn)，當(dāng)特征集合維度增大時(shí)，宏F1值也隨著變大。在網(wǎng)易新聞?wù)Z料庫(kù)中，特征維度1 500時(shí)，E5達(dá)到宏F1值最大值87.46 %，但E1此時(shí)宏F1已經(jīng)下降，E4,E5雖然宏F1值也在輕微下降,但E1，E3下降更加明顯，表明本文提出的IMPCHI方法更加穩(wěn)定，綜合性能更好。在復(fù)旦大學(xué)新聞?wù)Z料庫(kù)中，特征集合維度2 500時(shí)，達(dá)到86.27 %的宏F1值，E5比E1，E3分別高出4.31 %，1.47 %，但是當(dāng)特征集合維度繼續(xù)增大時(shí)，因?yàn)樘卣髟~集合含有很多冗余特征，致使宏F1值變小。E3引入類(lèi)內(nèi)和類(lèi)間分布因子等因素，雖然宏F1值比E1高，但低于E4，E5。因?yàn)樵谔卣鬟x擇時(shí)，對(duì)于位置特性、一些大量分布于少量文本集的特征等因素，對(duì)于提升CHI特征選擇的分類(lèi)性能不可忽視。在計(jì)算特征權(quán)重時(shí)，本文提出的PTF-IDF權(quán)重公式，考慮特征詞位置權(quán)重，出現(xiàn)的位置越重要，得分越高，網(wǎng)易新聞?wù)Z料庫(kù)和復(fù)旦大學(xué)中文語(yǔ)料庫(kù)中E2比E1分別提升平均1.19 %,2.85 %的宏F1值。PTF-IDF單純考慮位置特性不能達(dá)到理想的分類(lèi)效果，使E2結(jié)果不如E3和E4方法。

在網(wǎng)易新聞?wù)Z料庫(kù)和復(fù)旦大學(xué)中文語(yǔ)料庫(kù)中，在宏F1值分別達(dá)到最大值時(shí)分析各個(gè)類(lèi)別的宏F1值，如表2、表3。各個(gè)類(lèi)別宏F1值差別明顯，原因是不同文本長(zhǎng)度對(duì)于結(jié)果的影響，如果文本較短，含有很多空值，使向量稀疏，造成分類(lèi)結(jié)果較低。若文本含有詞數(shù)較多，并含有一些類(lèi)別區(qū)分度高頻詞語(yǔ)，使宏F1值較大，本文提出的方法能有效改善傳統(tǒng)CHI和TF-IDF的缺陷，過(guò)濾掉低頻詞語(yǔ)，改善不同特征詞的權(quán)重，使得分類(lèi)效果更好，性能更穩(wěn)定。

表2 網(wǎng)易新聞?wù)Z料庫(kù)中特征維度1500時(shí)的不同類(lèi)別的SVM分類(lèi)宏F1值 %

表3 復(fù)旦大學(xué)中文語(yǔ)料庫(kù)中特征維度2500時(shí)不同類(lèi)別的SVM分類(lèi)宏F1值 %

3.2 在復(fù)旦語(yǔ)料庫(kù)上的Naive Bayes分類(lèi)實(shí)驗(yàn)

為了驗(yàn)證本文方法在不同分類(lèi)器的可行性，Naive Bayes分類(lèi)對(duì)比實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 復(fù)旦中文語(yǔ)料庫(kù)中不同特征維度的Naive Bayes分類(lèi)宏F1值

由圖2可得，隨著特征維度增大，宏F1值變化比較平緩；在特征維度3 000維時(shí)，E5達(dá)到86.98 %宏F1值，而E3在2 500維達(dá)到最大值84.79 %。同時(shí)，還驗(yàn)證了本文提出的方法在不同分類(lèi)器上都是可行的。

4 結(jié)束語(yǔ)

特征選擇在文本分類(lèi)過(guò)程中具有重要作用。本文提出了一種改進(jìn)的CHI統(tǒng)計(jì)特征選擇方法，同時(shí)提出修正因子解決特征詞與類(lèi)別負(fù)相關(guān)的困擾，并將改進(jìn)后TF-IDF的權(quán)重計(jì)算方法用于特征詞的權(quán)值計(jì)算，使其分類(lèi)效果有了明顯提高。在后續(xù)工作中，將考慮特征詞的語(yǔ)義關(guān)系，進(jìn)一步進(jìn)行特征降維，在減少算法時(shí)間復(fù)雜度的同時(shí)提高分類(lèi)效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡