姚嚴(yán)志,李建良
(南京理工大學(xué) 理學(xué)院,南京 210094)
隨著網(wǎng)絡(luò)的普及,網(wǎng)絡(luò)上時(shí)刻都在產(chǎn)生大量的文本信息,為了滿足用戶面對(duì)海量文本時(shí)多樣化的需求,對(duì)文本信息進(jìn)行有效的分類就顯得至關(guān)重要.在文本分類領(lǐng)域中,用向量空間模型表示文本的方法應(yīng)用尤為普遍.用向量空間模型表示文本,需經(jīng)過(guò)分詞、特征選擇、權(quán)重計(jì)算等步驟,而權(quán)重計(jì)算方法的優(yōu)劣直接影響著分類算法的性能表現(xiàn).權(quán)重計(jì)算的方法多種多樣,常用的包括文檔頻率、信息增益、互信息、卡方分布、TF-IDF 等[1].
TF-IDF 算法自提出以來(lái),因其算法相對(duì)簡(jiǎn)單和有較高的準(zhǔn)確率及召回率,一直受到廣泛應(yīng)用[2].但該算法的權(quán)重計(jì)算僅考慮了特征詞的詞頻和逆文檔頻率等,仍還有許多可改進(jìn)的空間.因此,很多學(xué)者分析TFIDF的缺陷,對(duì)其進(jìn)行了相應(yīng)的改進(jìn).How 等[2]提出利用Category Term Descriptor (CTD)來(lái)改進(jìn)TF-IDF,考慮不同類別的文檔數(shù)可能存在數(shù)量級(jí)的差距,以改善類別數(shù)據(jù)集偏斜所引起的誤差;徐冬冬等[3]引入逆類頻率因子和類別比率因子用以修正TF-IDF 權(quán)重算法,得到基于類別描述的TF-IDF-CD 方法,葉雪梅等[4]針對(duì)新詞識(shí)別對(duì)分類結(jié)果的影響,提出了基于網(wǎng)絡(luò)新詞的改進(jìn)文本分類TF-IDF 算法;許甜華等[5]通過(guò)引入去中心化詞頻因子和特征詞位置因子以加強(qiáng)特征權(quán)重的準(zhǔn)確性.
本文使用TF-IDF 算法計(jì)算特征詞權(quán)重,對(duì)特征詞在不同規(guī)模文檔集中的權(quán)重加以比較,具體分析了特征詞的類信息對(duì)于權(quán)重的影響,并在此基礎(chǔ)上提出一種新的衡量特征詞的類間、類內(nèi)分布信息的改進(jìn)方法.改進(jìn)方法增加兩個(gè)新的權(quán)值,類間離散因子和類內(nèi)離散因子,將其與經(jīng)典的TF-IDF 算法結(jié)合,進(jìn)而提出了改進(jìn)的TF-IDF-DI 算法.改進(jìn)的權(quán)重計(jì)算方法有效改善了TF-IDF 算法對(duì)類信息不敏感的問(wèn)題.本文通過(guò)樸素貝葉斯模型對(duì)改進(jìn)后的算法的分類性能進(jìn)行驗(yàn)證.實(shí)驗(yàn)證明,改進(jìn)后的權(quán)重算法在測(cè)試數(shù)據(jù)集上的表現(xiàn),在準(zhǔn)確率、召回率和F1 值上均優(yōu)于經(jīng)典的TF-IDF 算法.
TF-IDF 算法作為計(jì)算特征項(xiàng)權(quán)重的算法,在文本分類中的應(yīng)用極為廣泛,其主要思想為:在某一特定文檔中,某詞語(yǔ)的出現(xiàn)頻率越高,且數(shù)據(jù)集中包含該詞語(yǔ)的文檔數(shù)越少,說(shuō)明該詞語(yǔ)越是能標(biāo)志文檔內(nèi)容的屬性,其權(quán)重自然也就越大[6-9].計(jì)算公式如下:
其中,w(tj,di) 表示特征詞權(quán)重;id f(tj,di)表示特征詞在文檔di中的出現(xiàn)頻率;N表示文檔集中的文檔總數(shù);nj表示文檔集中出現(xiàn)特征詞tj的文檔數(shù).
在使用時(shí)考慮到文檔長(zhǎng)度不同對(duì)權(quán)值計(jì)算的影響,我們通常會(huì)對(duì)公式做歸一化處理[10],得到公式如下:
傳統(tǒng)TF-IDF 并不能很好的區(qū)分類間和類內(nèi)分布所帶來(lái)的影響.類間分布指的是特征詞在不同類別間的分布情況,通常認(rèn)為集中分布于某個(gè)類別的特征詞,相比于在各個(gè)類別均勻分布的特征詞,更能體現(xiàn)該類別的內(nèi)容屬性;類內(nèi)分布指的是特征詞在某類別內(nèi)的分布情況,通常認(rèn)為在某類別內(nèi)各文檔均普遍出現(xiàn)的特征詞能夠更好的表現(xiàn)該類別的內(nèi)容屬性,反之對(duì)于僅出現(xiàn)于類別內(nèi)一小部分文檔的特征詞,往往特征詞只是體現(xiàn)了該小部分文檔的內(nèi)容屬性,我們應(yīng)適當(dāng)降低其權(quán)重.
我們使用IMDB 語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)來(lái)說(shuō)明以上問(wèn)題.IMDB 語(yǔ)料庫(kù)收集了50 000 條來(lái)自互聯(lián)網(wǎng)的嚴(yán)重兩極分化的電影評(píng)論,我們從中分別隨機(jī)抽取200、500、1000 條評(píng)論,根據(jù)式(2) 計(jì)算特征詞的TFIDF 權(quán)重,并進(jìn)一步計(jì)算特征詞在正類評(píng)論、負(fù)類評(píng)論中的平均TF-IDF 權(quán)重.為保證實(shí)驗(yàn)的隨機(jī)性,我們重復(fù)以上實(shí)驗(yàn)多次,并計(jì)算特征詞的平均TF-IDF 權(quán)重.表1是部分特征詞在不同文檔集的權(quán)重.
表1 部分特征詞在不同文檔集的平均TF-IDF 權(quán)重
在實(shí)驗(yàn)中我們發(fā)現(xiàn)大部分特征詞在不同的文檔集中使用TF-IDF 算法計(jì)算的權(quán)重均有較大差別,能夠較好的體現(xiàn)特征詞的內(nèi)容屬性,如表1中的特征詞“awkward”.但是我們也發(fā)現(xiàn)部分特征詞在有些文檔集中的TF-IDF 十分接近,如特征詞“fighting”在樣本容量為500的文檔集和特征詞“sincere”在樣本容量為1000的文檔集中,它們?cè)谡惡拓?fù)類的評(píng)價(jià)中的TFIDF 權(quán)重都極為接近.我們進(jìn)一步統(tǒng)計(jì)分析了此類權(quán)重接近的特征詞在正類評(píng)論和負(fù)類評(píng)論中的詞頻和文檔頻率.表2從不同容量的文檔集中選取了部分TF-IDF權(quán)重接近的特征詞,并分別比較了其在正類評(píng)論和負(fù)類評(píng)論中的詞頻、文檔頻率信息.
通過(guò)表2可以發(fā)現(xiàn)部分特征詞的TF-IDF 權(quán)重極為接近,但其在不同類別的詞頻、文檔頻率卻有著較大的差異.這說(shuō)明在該情況下TF-IDF 算法并不能很好的反映特征詞的類間、類內(nèi)的分布信息,因此提出一種新的衡量特征詞的類間、類內(nèi)分布信息的方法就顯得尤為重要了.
表2 部分TF-IDF 權(quán)重接近的特征詞在正類評(píng)論和負(fù)類評(píng)論中的詞頻、文檔頻率
文獻(xiàn)[11]提出了改進(jìn)的TF-IDF-DI 方法通過(guò)變異系數(shù),即特征詞詞頻在類間、類內(nèi)的分布標(biāo)準(zhǔn)差與均值之比來(lái)描述其類間、類內(nèi)離散程度,但仍有其缺陷:當(dāng)特征詞在各類別中的平均出現(xiàn)頻率或特征詞在某類別中的各文檔的平均出現(xiàn)頻率較小,以至趨近于0 時(shí),即使微小的擾動(dòng)也會(huì)導(dǎo)致也會(huì)對(duì)系數(shù)產(chǎn)生巨大的影響,不利于準(zhǔn)確描述特征詞的類信息.
本文提出一種新的類間、類內(nèi)離散程度的描述方法,進(jìn)而提出了改進(jìn)的TF-IDF-CI 算法.我們引入特征詞的類間離散度因子CIac和類內(nèi)離散度因子CIic.CIac通過(guò)特征詞在不同類別文檔集的詞頻的分布標(biāo)準(zhǔn)差來(lái)描述特征詞的類間分布信息;CIic通過(guò)特征詞在類別ck內(nèi)的詞頻與類別ck內(nèi)實(shí)際包含該特征詞的文檔的詞頻之差描述特征詞的類內(nèi)分布信息.通過(guò)類信息的引入,改進(jìn)的算法加強(qiáng)了區(qū)分特征詞類別分布信息的能力.下面分別給出衡量類間離散度CIac和類內(nèi)離散度CIic的方法:
其中,S(tj) 指 特征詞tj在各類別之間的詞頻的分布標(biāo)準(zhǔn)差;s(tj,ck)指 特征詞tj在類別ck的詞頻與類別ck中實(shí)際包含該特征詞的文檔的詞頻之差,計(jì)算方法如下:
其中,TF(tj,ck) 表示特征詞tj在類別ck中的出現(xiàn)頻率;表示特征詞tj在各類別中的平均出現(xiàn)頻率;N(ck)表示類別ck中的文檔數(shù);n(tj,ck) 表示類別ck中包含特征詞tj的文檔數(shù);C為文檔集的總類別數(shù).
在式(3)-式(6)中,我們給出了類間離散因子CIac和類內(nèi)離散度因子CIic的計(jì)算方法.易發(fā)現(xiàn)特征詞tj在不同類別中的分布標(biāo)準(zhǔn)差越大時(shí),特征詞tj越能體現(xiàn)不同類別的內(nèi)容屬性,分類能力越強(qiáng);特征詞tj在類別ck中的詞頻與特征詞tj在類別ck中實(shí)際包含該特征詞的文檔中的詞頻,兩者之差越大時(shí),說(shuō)明特征詞tj是更突出表現(xiàn)了類別ck中部分文檔的內(nèi)容屬性而不是類別ck的整體的內(nèi)容屬性,分類能力越弱.可見特征詞的分類能力與CIac成正比,與CIic成反比.基于此我們得到了改進(jìn)的TF-IDF-CI 算法:
其中,W(tj,di,ck)是改進(jìn)的特征權(quán)重;w(tj,di)為式(2)中計(jì)算所得的特征詞tj在文檔di中的權(quán)重.
同樣采用表1中所使用的文檔集進(jìn)行實(shí)驗(yàn),表3給出部分特征詞根據(jù)改進(jìn)的TF-IDF-CI 算法在不同文檔集中計(jì)算所得的特征權(quán)重,并與TF-IDF 算法計(jì)算的權(quán)重進(jìn)行對(duì)比.
通過(guò)表3的對(duì)比容易發(fā)現(xiàn),改進(jìn)的TF-IDF-CI 算法有效改善了TF-IDF 算法并能很好的反映特征詞類間、類內(nèi)的分布信息的問(wèn)題.如特征詞“fighting”在樣本容量為500的文檔集和特征詞“sincere”在樣本容量為1000的文檔集中,使用TF-IDF 算法的計(jì)算的特征權(quán)重極為接近,但使用TF-IDF-CI 算法則得到了有效的改善.同時(shí),通過(guò)實(shí)驗(yàn)也可發(fā)現(xiàn)如“awkward”等使用TF-IDF 算法可以很好區(qū)分的特征詞,在使用TF-IDF-CI 算法計(jì)算特征權(quán)重時(shí)亦不會(huì)有很大的偏差.
表3 部分特征詞在不同文檔集的TF-IDF 權(quán)重與TF-IDF-CI 權(quán)重對(duì)比
實(shí)驗(yàn)使用的語(yǔ)料庫(kù)是搜狗新聞數(shù)據(jù)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)包含來(lái)自搜狐新聞的健康、體育、社會(huì)、娛樂(lè)等18 個(gè)頻道的新聞數(shù)據(jù).實(shí)驗(yàn)選取了健康、教育、軍事、汽車、體育5 類共5000 篇文檔作為訓(xùn)練樣本,另選取500 篇文檔作為測(cè)試樣本.
分詞使用的是Hanlp的StandardTokenizer 分詞器.同時(shí)還對(duì)分詞后的數(shù)據(jù)集進(jìn)行去體停用詞的處理,將常用的停用詞(的,并不,而且等) 進(jìn)行過(guò)濾.為驗(yàn)證改進(jìn)的TF-IDF-CI 算法對(duì)分類性能的影響,實(shí)驗(yàn)分別采用經(jīng)典的TF-IDF 算法、TF-IDF-DI 算法、改進(jìn)的TFIDF-CI 算法計(jì)算特征詞的權(quán)重,并使用樸素貝葉斯算法進(jìn)行文本分類,評(píng)估指標(biāo)使用準(zhǔn)確率(Precision,P)、召回率(Recall,R)、F1 值3 個(gè)指標(biāo)[12].分類器在測(cè)試集上的分類性能分別如表4所示.
表4 不同權(quán)重算法的分類性能對(duì)比(%)
通過(guò)實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)使用改進(jìn)的TF-IDF-CI 算法對(duì)特征詞權(quán)重進(jìn)行計(jì)算,并使用樸素貝葉斯算法對(duì)文本進(jìn)行分類,準(zhǔn)確率、召回率和F1 值都相比于經(jīng)典的TFIDF 算法有了一定的提升,其中類別“健康”的提升最為明顯,F1 值較TF-IDF 提升了約6.42%,較TF-IDF-DI 提升了約3.23%.這說(shuō)明改進(jìn)的TF-IDF-CI 算法相比于TF-IDF 算法,較好的考慮了特征詞的類間、類內(nèi)的分布信息,能很好的分辨出集中分布于某類別且在該類別內(nèi)相對(duì)均勻出現(xiàn)的特征詞,從而達(dá)到了提升分類性能的效果.
本文以特征詞權(quán)重的計(jì)算方法為研究對(duì)象,總結(jié)了現(xiàn)有的一些方法,并著眼于使用相對(duì)廣泛的經(jīng)典的TF-IDF 算法,對(duì)國(guó)內(nèi)外研究者在TF-IDF 算法的研究成果進(jìn)行了介紹.本文對(duì)TF-IDF 算法在不同的文檔集中的表現(xiàn)做了具體的分析對(duì)比,針對(duì)TF-IDF 算法未能很好區(qū)分特征詞類間、類內(nèi)分布的問(wèn)題,做了詳細(xì)的研究.基于此本文提出了一種新的衡量特征詞類間、類內(nèi)分布信息的方法,提出了基于類信息的改進(jìn)的TFIDF-CI 算法.最后通過(guò)樸素貝葉斯模型對(duì)改進(jìn)后的算法的分類性能進(jìn)行驗(yàn)證.實(shí)驗(yàn)發(fā)現(xiàn),改進(jìn)的TF-IDFCI算法不論在準(zhǔn)確率、召回率、F1 值上,均優(yōu)于經(jīng)典的TF-IDF 算法,由此證實(shí)了改進(jìn)算法的有效性.
當(dāng)然本文仍有不足之處:首先本文的實(shí)驗(yàn)均在均衡的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),改進(jìn)的TF-IDF-CI 算法在數(shù)據(jù)集偏斜時(shí)的表現(xiàn)還需要進(jìn)一步實(shí)驗(yàn),以驗(yàn)證其性能[2];同時(shí)TF-IDF-CI 算法仍還有改進(jìn)空間,如將特征詞在文本內(nèi)的分布信息,即其位置信息進(jìn)一步納入特征權(quán)重的考慮范疇,這也是筆者今后要研究的內(nèi)容.