楊新怡 肖利雪
(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710121)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們獲得信息的方式越來越多,而現(xiàn)今社會中新媒體的盛行,讓更多的人選擇互聯(lián)網(wǎng)來記錄自己在某一時刻的心理情感,而這些用戶越來越多的評價情感文本隨之增加,因此就會產(chǎn)生很多的文本數(shù)據(jù),但是如何管理和篩選這些文本是至關(guān)重要的[1]。數(shù)據(jù)挖掘方法中最值得研究的是文本分類,它是將根據(jù)文本中的情感詞的情感偏向,給定整個文本的情感。文本分類一般過程是第一步進(jìn)行初始文本預(yù)處理,將預(yù)處理后的文本進(jìn)行特征降維,將降維后的文本表示成計(jì)算機(jī)可以識別的方式,分類器的選擇與訓(xùn)練、將需要分類的文本進(jìn)行分類以及結(jié)果評價[2]。文本表示就是將文本表示成計(jì)算機(jī)可以識別的方式,一般是將一個分詞后的一個中文詞條看作最小的表示單位,一個中文詞條視為一維的語義載體,特征空間就是由全部的中文詞條組成,而有些特征項(xiàng)是對于文本分類沒有幫助的[3]。所以,文本分類的流程中必須要做特征降維。特征降維主要有兩種方法,分別是特征選擇和特征提?。?~7]。
目前,特征選擇方法是:信息增益法(IG),文檔頻率法(DF),互信息方法(MI),卡方檢驗(yàn)法(CHI),加權(quán)對數(shù)似然(WLLR)和加權(quán)頻率和可能性(WFO)[8]。其中就特征選擇實(shí)驗(yàn)結(jié)果最優(yōu)的是IG和CHI。但是它們還是存在一些不足的地方,針對它們的優(yōu)缺點(diǎn)的改進(jìn)算法也是層出不群。在信息增益的方法上,李學(xué)明等[9]提出一種基于信息增益與信息熵的TFIDF算法,主要的研究點(diǎn)是發(fā)現(xiàn)權(quán)重的影響因素有特征詞在不同位置的分布,對特征詞在類內(nèi)和類間做了研究。LIU[10]等提出一種新的結(jié)合LW 索引與序列正向搜索算法的特征選擇算法。文獻(xiàn)[11]使用不同的加權(quán)方法,特征選擇方法是自適應(yīng)遺傳算法,采用多種不同的分類方法對文本分類進(jìn)行研究。HE等[12]通過添加權(quán)重因子來平衡特征項(xiàng)對分類的影響。在卡方統(tǒng)計(jì)的方法上,文獻(xiàn)[13]等是對CHI特征選擇算法的優(yōu)化算法,它的優(yōu)化方法是基于特征項(xiàng)的分布位置差異以及文獻(xiàn)[14]通過對傳統(tǒng)CHI 方法選擇精度的影響因素進(jìn)行分析,提出了消除特征項(xiàng)與類別負(fù)相關(guān)對特征選擇精度影響的改進(jìn)算法。以上兩者都是傳統(tǒng)的文本分類卡方統(tǒng)計(jì)改進(jìn)方式。
上述的方法大多數(shù)都是對傳統(tǒng)文本的分類有較好的效果,相比較而言,情感文本就包含更多的情感信息,觀點(diǎn)信息。所以,如果只使用傳統(tǒng)文本的分類方式,對情感文本去做分類是片面的,我們要做到剖析其隱含的情感色彩[15]。本文主要是在眾多特征選擇算法中,選擇出兩種較優(yōu)的特征選擇算法,將其進(jìn)行算法融合,經(jīng)過實(shí)驗(yàn)證明,融合后的特征選擇算法在情感文本分類有較好的實(shí)驗(yàn)效果。
文本分類的主要目的是對于提供的文本信息進(jìn)行分類。在數(shù)據(jù)挖掘中,對文本分類主要有兩大主要部分組成。第一是訓(xùn)練分類效果良好的分類器,第二就是文本分類。在訓(xùn)練分類器是通常是將已經(jīng)準(zhǔn)備好的訓(xùn)練樣本作為輸入,經(jīng)過一些預(yù)處理工作,再選擇一些有代表性的分類算法進(jìn)行分類,最終的分類結(jié)果就是如圖1(a)所示。那對于文本分類,其實(shí)就是將我們已經(jīng)訓(xùn)練好的文本分類器對指定待分類數(shù)據(jù)集的使用,如圖1(b)所示??偟膩碚f,文本分類整體過程就是預(yù)處理、訓(xùn)練、分類的過程。
圖1 文本分類流程圖
文本分類預(yù)處理即中文分詞和去停用詞。中文分詞,即Chinese Word Segmentation,即將一個漢字序列進(jìn)行切分,得到一個個單獨(dú)的詞。本文選用專用分詞的python 庫jieba,具有分詞效果好,分詞快等特點(diǎn)[16]。去停用詞主要是要確定停用詞表,目前使用最多的停用詞表就是哈工大停用詞表,百度停用詞表,四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫[17~18]。本文是將主流的三種停用詞表做了整合,然會將文本預(yù)處理后得到的特征詞與此整合的詞表做匹配。如果文本預(yù)處理后的特征詞有在停用詞表中,則表明這個特征詞是無用的。
在文本預(yù)處理后得到特征項(xiàng),但是這些特征項(xiàng)還是包含了很多的無用干擾項(xiàng),所以還需要進(jìn)行進(jìn)一步的篩選。本文采用空間向量模型(VSM)將預(yù)處理后的特征項(xiàng)做了初始化,將每一個特征項(xiàng)表示為該文檔的特征向量的一個分量。最后,經(jīng)過初始化的特征集就是后續(xù)特征選擇步驟的輸入。
在信息增益中,選出的特征詞是否有用其判斷標(biāo)準(zhǔn)是這些特征詞的區(qū)分力,如果這個特征詞蘊(yùn)含的區(qū)別信息越明顯,那它就是有用的,即計(jì)算存在特征t 與不存在特征t 兩種情況之間的計(jì)算差值。
對于分類器而言,類別C 為變量,n 表示類別的總數(shù),取值范圍為C1,C2,…,Cn,而其類別出現(xiàn)時所相對應(yīng)的概率是P(C1),P(C2),…,P(Cn),此時分類器的熵表示為
對于無特征t 的狀況下,所表達(dá)的是分類器中已經(jīng)包含特征t,但是t 已經(jīng)是一個定值,這種情況下的信息的熵就是計(jì)算t 固定時的信息熵,即條件熵,則無特征t 時的信息熵計(jì)算公式可以表示為
式中:P(t)表示T 出現(xiàn)的概率,P(tˉ)表示T 不出現(xiàn)的概率。最終特征T 給分類器帶來的信息增益分類器原來的熵與固定特征T 后的條件熵之差:IG(T)=H(C)-H(C|T )
CHI 特征選擇算法是以假設(shè)特征詞與類別相互獨(dú)立為前提,計(jì)算這兩個變量之間的值(即偏差程度)。如果計(jì)算得到的值越大(即偏差越大),則特征詞與類別越相關(guān)。假設(shè)特征變量t 與類別c相互獨(dú)立,則t 對于類別c 的CHI統(tǒng)計(jì)量表示為
式中,參數(shù)A 表示屬于類別c 且包含特征詞t 的文檔數(shù),參數(shù)B 表示不屬于類別c 但包含特征詞t 的文檔數(shù),參數(shù)C 表示屬于類別c 但不包含特征詞t的文檔數(shù),參數(shù)D 表示既不屬于類別c 也不包含特征詞t 的文檔數(shù),參數(shù)N 表示文檔的總數(shù),上述公式計(jì)算特征詞t 與類別c 之間的相關(guān)性,當(dāng)t 與c相互獨(dú)立時,χ2( )t,c =0 ;當(dāng)t 與c 相關(guān)性越強(qiáng),χ2(t,c)值越大,即特征詞t 中與類別c 就越相關(guān)。
針對CHI 和IG 特征選擇方法存在的不足進(jìn)行研究和分析,本文提出一種通過加權(quán)實(shí)現(xiàn)IG和CHI兩種特征選擇算法的融合的特征選擇算法,使用IG_CHI 特征選擇算法選出具有較強(qiáng)類別表征性的特征項(xiàng),可以在兩種方法中取一個權(quán)值α,綜合其弊端
同時為了更加突出蘊(yùn)含情感的詞條,在選取合適的特征詞時,對情感特征詞的IG(T,C)_CHI 值乘上β 值,即
式中:y 取0 和1,當(dāng)特征詞為情感特征詞時,y 取1,反之取0。
實(shí)驗(yàn)環(huán)境:操作系統(tǒng)是Windows10 64 位,處理器是Inter Core i7-8550U,內(nèi)存是8GB,實(shí)驗(yàn)數(shù)據(jù)集是爬取京東電腦的評論數(shù)據(jù),總共爬取相關(guān)數(shù)據(jù)50152 條,其中對商品好評為25065 條,差評為25087 條。以此作為樣本集對本文改進(jìn)的算法進(jìn)行驗(yàn)證,特征加權(quán)方式是TFIDF,分類器選擇是SVM分類器。
先對數(shù)據(jù)進(jìn)行分詞,去掉停用詞等預(yù)處理操作,其中分詞使用python 的jieba 庫,對分詞后的結(jié)果進(jìn)行進(jìn)一步篩選去除無用信息,再采用選取的兩種傳統(tǒng)的特征選擇算法,以及本文中優(yōu)化后的算法,將傳統(tǒng)算法與改進(jìn)算法做對比實(shí)驗(yàn)。
對于情感分類結(jié)果評價的指標(biāo)有查準(zhǔn)率(Precision),召回率(Recall)和F-測度值(F-measure)。
對于情感傾向性分類問題,可將樣例根據(jù)其真實(shí)類別與預(yù)測類別的組合劃分為真正類(True Positive,TP),假正類(False Positive,F(xiàn)P),真反類(True NegatIverson,TN),假反類(False Negative,F(xiàn)N)四種情況,真實(shí)類別與預(yù)測類別組合劃分的標(biāo)識結(jié)果如表1所示。
表1 真實(shí)類別與預(yù)測類別組合劃分
其中,F(xiàn)P 是將原本屬于正類的樣本預(yù)測成正類,分類正確;FN 是將原本屬于正類的樣本錯分到負(fù)類,分類錯誤;FP 是將原本屬于負(fù)類的樣本錯分到正類,分類錯誤;TN 是將原本屬于負(fù)類的樣本預(yù)測成負(fù)類,分類正確。
查準(zhǔn)率P,查全率R 以及F -測度值分別定義為
其中β 是一個調(diào)整因子,用來調(diào)節(jié)P 和R 之間的相互關(guān)系,β 通常取為1,則有
本文分別采用傳統(tǒng)CHI方法,IG方法以及本文提出的IG_CHI 方法進(jìn)行特征提取,并采用SVM 進(jìn)行分類。表2 為CHI、IG 方法以及本文提出的IG_CHI 方法在不同維度下情感分類的結(jié)果。由表可以看出,基于信息增益與CHI融合的特征選擇算法提取的特征采用SVM 算法在相同特征維度下的識別率要高于其他兩種特征提取算法,當(dāng)特征維度達(dá)到1500 本文提出的算法識別率較高,達(dá)到87.22%。說明本文提出的特征選擇算法能夠較準(zhǔn)確地提取出文本中的特征。
表2 在不同維度下的情感分類準(zhǔn)確率
本文提出了一種基于CHI 和IG 的特征選擇融合算法,通過大量的傳統(tǒng)特征選擇算法與融合算法的對比實(shí)驗(yàn),結(jié)果也證明了該算法對于文本情感分類有明顯效果。對于不同的語言環(huán)境,權(quán)重值的設(shè)定是一個動態(tài)不確定因子,對特征提取的準(zhǔn)確性具有一定的影響,因此,將進(jìn)一步研究根據(jù)不同語言環(huán)境下的準(zhǔn)確率自適應(yīng)的調(diào)整情感詞的權(quán)重,成為本文后續(xù)研究的方向。