国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA和SVM的中文文本分類研究

2016-09-24 01:31宋鈺婷徐德華同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院上海200092
現(xiàn)代計(jì)算機(jī) 2016年5期
關(guān)鍵詞:卡方特征詞互信息

宋鈺婷,徐德華(同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上?!?00092)

基于LDA和SVM的中文文本分類研究

宋鈺婷,徐德華
(同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海200092)

0 引言

在龐大的網(wǎng)絡(luò)中,大多數(shù)信息是以文本形式進(jìn)行存儲(chǔ)的,文本自動(dòng)分類作為重要的文本挖掘方法,成為目前機(jī)器學(xué)習(xí)研究的一個(gè)重點(diǎn)。文本自動(dòng)分類的研究主要包括三個(gè)基本步驟:文本預(yù)處理、特征提取和特征權(quán)重計(jì)算、分類器構(gòu)造等[1]。

特征空間的高維度是文本分類的一個(gè)重要問(wèn)題,而特征提取是解決特征維度高和稀疏性的關(guān)鍵途徑[2]。因此,本文著重改進(jìn)特征提取算法。特征提取方法主要有以下四種:文檔頻率(Document Frequency,DF)、互信息(Mutual Information,MI)、信息增益(Information Gain, IG)和卡方統(tǒng)計(jì)(CHI)。四種特征提取方法都各有優(yōu)劣,其中主要在于這幾種方法對(duì)于低頻詞過(guò)度倚重,忽視了詞與文檔自身的關(guān)系[3]。本文選擇卡方統(tǒng)計(jì)特征提取方法作為主要研究對(duì)象之一。同時(shí),通過(guò)LDA(Latent Dirichlet Allocation,LDA)可以解決傳統(tǒng)的文本分類的不足,能夠從語(yǔ)義出發(fā)考慮相似性的度量。并且,支持向量機(jī)(Support Vector Machine,SVM)能夠處理高維數(shù)據(jù),降低稀疏性的影響[4],是較為合適的文本分類器。因此,本文從語(yǔ)義出發(fā),提出LDA和SVM相結(jié)合的文本分類算法,將LDA與卡方統(tǒng)計(jì)方法相結(jié)合,并與其他三種特征提取方法進(jìn)行對(duì)比,以解決低頻詞問(wèn)題,最后通過(guò)SVM進(jìn)行分類,實(shí)驗(yàn)結(jié)果證明該算法能夠提高分類精度和分類效果。

1 文本分類相關(guān)研究

1.1特征提取

文本分類是指將文檔自動(dòng)分組到預(yù)定義的類別中。文本通過(guò)文本分類的處理后能夠提高的檢索和使用效率。傳統(tǒng)的文本分類直接通過(guò)文本數(shù)據(jù)空間進(jìn)行表示,但是被抓取的文本通常依賴于高維度的特征空間,這也是文本分類的一個(gè)挑戰(zhàn)[6]。特征提取是一種降維的有效方法。特征提取是指從原始數(shù)據(jù)中提取出有效的特征詞,用提取的特征可以表示分類文本。Rogati 和Yang[7]等人對(duì)幾種常見(jiàn)的特征提取方法進(jìn)行改進(jìn),實(shí)驗(yàn)證明改進(jìn)后的MI、IG和CHI分類效果有一定的提高。以下三種特征提取方法將在本文中進(jìn)行對(duì)比實(shí)驗(yàn)。

(1)互信息

互信息是指用來(lái)衡量某個(gè)特征和特定類別的相關(guān)性,計(jì)算出特征詞t和類別C的相關(guān)聯(lián)的信息量?;バ畔](méi)有考慮類間分布和類內(nèi)出現(xiàn)的頻數(shù)等因素,劉海峰等人[8]在此基礎(chǔ)上引入特征項(xiàng)的頻數(shù)信息,提高了特征提取的準(zhǔn)確率。

(2)信息增益

信息增益是指某個(gè)特征詞在整個(gè)文本分類系統(tǒng)中存在與否的信息量的差值,即指該特征文本分類系統(tǒng)帶來(lái)的信息量。信息增益缺乏對(duì)于特征項(xiàng)詞頻的考慮,劉慶和[9]等人綜合考慮頻度、分散度和集中度對(duì)IG進(jìn)行了改進(jìn),提高了其分類精度。

(3)卡方統(tǒng)計(jì)

卡方統(tǒng)計(jì)的特征選擇方法常常用于檢測(cè)兩個(gè)事件的獨(dú)立性,可以用來(lái)度量詞項(xiàng)t與類別C之間的相關(guān)程度,兩者之間關(guān)系類似于具有一維自由度的Z分布。卡方統(tǒng)計(jì)忽略了單一文檔中的出現(xiàn)次數(shù),僅僅從統(tǒng)計(jì)特征的角度進(jìn)行特征提取。針對(duì)此問(wèn)題,裴英博等人[10]通過(guò)去除特征項(xiàng)與類別負(fù)相關(guān)的情況,考慮頻度等因素,改進(jìn)了卡方統(tǒng)計(jì)算法,分類效果得到一定程度的提高。

以上三種特征提取方法均僅考慮特征候選詞出現(xiàn)的文檔數(shù),過(guò)度倚重低頻詞,其改進(jìn)方法也是通過(guò)結(jié)合頻度等因素。Basu等人[11]通過(guò)實(shí)驗(yàn)證明了傳統(tǒng)的特征提取方法在處理詞和文檔本身關(guān)系上有很大的不足。因此,在此基礎(chǔ)上,本文從語(yǔ)義角度,提出結(jié)合LDA對(duì)傳統(tǒng)卡方統(tǒng)計(jì)算法進(jìn)行改進(jìn)。

1.2LDA主題模型

LDA模型是由Blei等人在2003年首次提出,也被稱為三層貝葉斯概率模型,包含詞、主題和文檔結(jié)構(gòu)[12]。

它將一篇文檔看作詞向量的集合,其生成過(guò)程如下:首先對(duì)于一篇文檔d,文檔與主題滿足一個(gè)多項(xiàng)式分布,主題與詞匯表中的詞也滿足一個(gè)多項(xiàng)式分布,這兩個(gè)多項(xiàng)式分布分別帶有超參數(shù)α和B的狄利克雷先驗(yàn)分布。這樣,對(duì)于一篇文檔的構(gòu)成,可以看成是,首先從文檔主題分布θ中抽取一個(gè)主題,然后從抽取到的主題所對(duì)應(yīng)的詞分布?中抽取一個(gè)詞,重復(fù)上述過(guò)程N(yùn)次,即可以構(gòu)成一篇含有N個(gè)詞的文章。其概率模型公式如公式(1)所示。

通過(guò)LDA,即可以獲得詞在主題上的概率分布(公式2),以及文章在主題上的概率分布(公式3),其中K表示主題數(shù),Cwk表示詞w被賦予主題k的次數(shù),Cdk表示文檔d被賦予主題k的次數(shù)。

1.3文本表示方法

在提取特征詞后,需要將文檔用所提取的特征詞來(lái)表示。向量空間模型(VSM)是使用較多且效果較好的表示方法之一。在該模型中,文檔空間被看作是由一組正交向量組成的向量空間。若該空間的維數(shù)為n,則每個(gè)文檔d可被表示為一個(gè)實(shí)例特征向量d?={w1,w2,…,wn}。wn指第n個(gè)詞在文檔d中的權(quán)重。

本文利用TF-IDF公式來(lái)計(jì)算詞的權(quán)重。見(jiàn)公式(4)。

其中tfji指的是第i個(gè)詞在文檔j中出現(xiàn)的頻數(shù),dfi指的是包含第i個(gè)詞的文檔數(shù),N指所有文檔總數(shù)。

1.4文本分類器

隨著文本檢索和分類的需求迅速增長(zhǎng),文本自動(dòng)化分類的研究成果發(fā)展迅速。如今,已經(jīng)有相當(dāng)多的數(shù)據(jù)分類方法和機(jī)器學(xué)習(xí)技術(shù)被應(yīng)用到文本分類當(dāng)中,其中包括支持向量機(jī) (SVM)、貝葉斯算法、K最近鄰(KNN)、決策樹(shù)等分類算法[13]。

支持向量機(jī)[14]是由Joachims首先運(yùn)用到文本分類中,和其他分類算法相比,SVM具有較好的穩(wěn)定性和分類效果[15]。本文采用SVM構(gòu)建分類器。

2 基于LDA和SVM的文本分類

結(jié)合LDA和SVM的中文文本分類流程如下,如圖1所示:

圖1 文本分類流程圖

2.1文本預(yù)處理

本分詞作為中文文本分類的文本預(yù)處理重要的步驟,相比英文文本,中文文本分類需要對(duì)沒(méi)有空格進(jìn)行區(qū)分的中文文本進(jìn)行分詞處理。本文選擇的是由張華平博士帶領(lǐng)團(tuán)隊(duì)研制的ICTCLAS漢語(yǔ)分詞系統(tǒng)。

首先將文本分為訓(xùn)練集和測(cè)試集。然后對(duì)文本進(jìn)行分詞、去停止詞等操作,并將處理好的數(shù)據(jù)按照一定格式進(jìn)行存儲(chǔ)。

2.2結(jié)合LDA主題模型的特征提取

卡方統(tǒng)計(jì)、信息增益和互信息都沒(méi)有從語(yǔ)義的角度考慮,僅僅從統(tǒng)計(jì)的角度來(lái)提取特征詞,本文將以卡方統(tǒng)計(jì)為例,詳細(xì)描述如何通過(guò)結(jié)合主題模型,從語(yǔ)義的角度提取特征詞。

然后選擇形容詞和名詞作為特征詞的候選詞語(yǔ),利用卡方公式,對(duì)某一類別下,例如財(cái)經(jīng)類,計(jì)算出該類別下所有候選特征詞的卡方值,例如“股票”在財(cái)經(jīng)類別下的卡方值。其計(jì)算公式見(jiàn)公式(5):

式中,A表示包含詞項(xiàng)t又屬于分類C的文檔數(shù)目,B表示包含詞項(xiàng)t不屬于分類C的文檔數(shù)目,C表示不包含詞項(xiàng)t但屬于分類C的文檔數(shù)目,D表示既不包含詞項(xiàng)t又不屬于分類C的文檔數(shù)目。N代表所有文檔總數(shù)。

接著,選擇該類下包含該詞次數(shù)最多的文檔,例如在財(cái)經(jīng)類下,包含“股票”一詞最多的文檔為Di,采用公式(6)計(jì)算“股票”與該文檔Di在主題分布下的關(guān)聯(lián)度。某一詞語(yǔ)和某文本的主題關(guān)聯(lián)度,即該詞能在主題上代表該文本的程度。如果出現(xiàn)多個(gè)包含該詞最大數(shù)目相同的文本,則選擇該詞與文本關(guān)聯(lián)度最大的值,作為該詞與該文本的關(guān)聯(lián)度。

接著,把所有包含詞Ti的文檔聚為該類下的一個(gè)子類,稱為詞子類C?,其他不包含該詞的文檔稱為非Ti詞子類。對(duì)于詞的關(guān)系,可以用剛剛算出的詞與包含該詞次數(shù)最多文檔的關(guān)聯(lián)度近似表示。

那么,詞Ti與類C的主題關(guān)聯(lián)性即可表示為公式(7)。

最后,將語(yǔ)義特征與統(tǒng)計(jì)特征(如互信息、信息增益、卡方統(tǒng)計(jì)等)相結(jié)合,例如結(jié)合X2值以及基于潛在語(yǔ)義主題的sim值,得出最終X2,如公式(8)所示。

最后根據(jù)這個(gè)結(jié)果,找出排名在前即特征值較高的詞,作為某一分類下的特征詞。

2.3特征權(quán)重計(jì)算及分類模型

對(duì)于特征權(quán)重計(jì)算,本文仍然是采用傳統(tǒng)的TFIDF值來(lái)表示特征詞的權(quán)重,從而將文檔表示為一組特征向量。

在選出特征詞,并計(jì)算出權(quán)重之后,本文采用LIBSVM算法進(jìn)行文本分類。本文采用的是SVM分類器模型,并將文檔的輸入形式表示為:類別C特征詞1編號(hào):特征詞1權(quán)重特征詞2編號(hào):特征詞2權(quán)重…其核函數(shù)選取的是徑向基內(nèi)核(RBF)。其中特征詞序號(hào)來(lái)自于選出的所有特征詞的集合,特征值為TF-IDF計(jì)算得到的值。LIBSVM讀取訓(xùn)練數(shù)據(jù)得到訓(xùn)練模型,并對(duì)測(cè)試集進(jìn)行分類預(yù)測(cè),最終得到分類準(zhǔn)確率。

3 實(shí)驗(yàn)結(jié)果及分析

為了進(jìn)一步考察改進(jìn)后方法的效果及效率,本文進(jìn)行了如下實(shí)驗(yàn)。

3.1實(shí)驗(yàn)收據(jù)

本實(shí)驗(yàn)使用的是搜狗實(shí)驗(yàn)室中文新聞?wù)Z料庫(kù),總共有8個(gè)分類,每個(gè)分類下有1990篇文檔,其中1590篇用作訓(xùn)練集,400篇用作測(cè)試集。如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練集測(cè)試集及類別分布情況

3.2評(píng)價(jià)指標(biāo)

文本分類中普遍使用的性能評(píng)估指標(biāo)有:查全率R(Recall)和查準(zhǔn)率P(Precision),其中查全率為類別C下正確分類文檔數(shù)與C類測(cè)試文檔總數(shù)之比,查準(zhǔn)率為正確分類文檔數(shù)與被分類器識(shí)別為C類的文檔數(shù)之比。

F-measure,用來(lái)衡量的是查全率和查準(zhǔn)率的綜合,以及對(duì)它們的偏向程度。

3.3實(shí)驗(yàn)結(jié)果分析

本實(shí)驗(yàn)將LDA分別與卡方統(tǒng)計(jì)、互信息和信息增益進(jìn)行結(jié)合,利用改進(jìn)后的特征提取方法提取特征詞并將卡方統(tǒng)計(jì)與其他兩種特征提取方法的分類效果進(jìn)行比較。

(1)LDA主題數(shù)K的比較

在訓(xùn)練LDA主題模型時(shí),由于需要先給出主題K的值,因此實(shí)驗(yàn)分別選擇了主題數(shù)為20,30,40,60,80,100,120等進(jìn)行比較,計(jì)算出不同方法與LDA結(jié)合時(shí)的分類性能,圖中橫坐標(biāo)為不同的主題數(shù)目,縱坐標(biāo)為F值,選取的特征詞個(gè)數(shù)為8000,如圖2所示。

圖2 特征詞個(gè)數(shù)為8000,不同主題數(shù)的分類結(jié)果

圖3 主題數(shù)為60,不同特征值維數(shù)的分類結(jié)果

從圖2中可以看出隨著主題數(shù)目的增長(zhǎng),分類性能雖然越來(lái)越好,但效果變化并不大。而隨著主題數(shù)目的增長(zhǎng),訓(xùn)練LDA模型所需要的時(shí)間卻越來(lái)越長(zhǎng),即消耗很大的代價(jià),卻只得到了一點(diǎn)提高。因此綜合考慮,本文選取60作為主題數(shù)目。

(2)特征詞數(shù)目的比較

為了考察選取的特征詞數(shù)目對(duì)文本分類效果的影響,本文選取了 400,1600,3200,4000,6400,8000,9600,11200,128000,16000個(gè)特征詞進(jìn)行比較,分別采用chi、chi+lda、ig、ig+lda、mi、mi+lda得出文本分類的性能,見(jiàn)圖4.圖中橫坐標(biāo)為特征詞個(gè)數(shù),縱坐標(biāo)為F值,選取的LDA主題數(shù)為60。

從上圖3可以看出,本文提出的結(jié)合LDA的特征提取算法均比原來(lái)的方法分類效果好;另外隨著特征詞個(gè)數(shù)的增多,每一種方法的分類性能也有提高,但是當(dāng)特征詞個(gè)數(shù)過(guò)多時(shí),除了會(huì)導(dǎo)致維度災(zāi)難,也可能會(huì)因?yàn)檫^(guò)多無(wú)用的詞或分類特征不明顯的詞被當(dāng)作特征詞,從而導(dǎo)致分類性能下降。所以在分析比較三種方法分別與LDA結(jié)合后的性能時(shí),選取8000作為特征詞的數(shù)目。

(3)三種方法與LDA結(jié)合的比較

本實(shí)驗(yàn)選擇主題數(shù)K為60,特征詞數(shù)為8000,分別計(jì)算出chi、chi+lda、ig、ig+lda、mi、mi+lda在不同分類下的查準(zhǔn)率、查全率以及F值,實(shí)驗(yàn)結(jié)果如下表2、3、4所示。

表2  CHI和LDA結(jié)合分類結(jié)果

表3  IG和LDA結(jié)合分類結(jié)果

表4 MI和LDA結(jié)合分類結(jié)果

從上面三個(gè)表中可以看出,三種特征提取方法在與LDA主題模型結(jié)合后的分類效果都有一定程度的提高,在不同分類下均能有3%到6%的提高。特別是與CHI結(jié)合時(shí)分類效果較明顯。因?yàn)镃HI在選取特征詞時(shí)傾向于選取那些詞頻相對(duì)較低的詞語(yǔ),而這些詞在某些分類中并不能很好的代表該類下的特征詞,在與LDA結(jié)合后,由于LDA從語(yǔ)義的角度計(jì)算詞的權(quán)重,一定程度上能夠很好地改善CHI低頻詞的選取,從而提高分類的性能。

4 結(jié)語(yǔ)

文本分類涉及到文本表示、相似度計(jì)算和算法決策等多種復(fù)雜的技術(shù),特征選擇在文本分類中具有重要作用。本文研究并改進(jìn)了傳統(tǒng)的特征選擇方法,結(jié)合LDA主題模型計(jì)算出詞和文檔的語(yǔ)義關(guān)系,避免了低頻詞的夸大處理,實(shí)驗(yàn)結(jié)果表明提出的方法對(duì)分類效果提高是有效的,卡方統(tǒng)計(jì)、信息增益、互信息等結(jié)合LDA后分類效果都有明顯提高。其中卡方統(tǒng)計(jì)的分類準(zhǔn)確率提高較為明顯。下一步的研究方向是針對(duì)不同的特征提取方法分別設(shè)計(jì)出不同的與LDA結(jié)合的算法,以更好地利用LDA進(jìn)行文本分類;同時(shí)在進(jìn)行特征值計(jì)算時(shí),也可以結(jié)合LDA主題信息計(jì)算。

[1]Dash M,Liu H.Feature Selection for Classification[J].Intelligent Data Analysis,1997,1(1):131-156.

[2]Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[C].ICML.1997,97:412-420.

[3]代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報(bào),2004,18(1):26-32.

[4]李志清.基于LDA主題特征的微博轉(zhuǎn)發(fā)預(yù)測(cè)[J].情報(bào)雜志,2015,34(9):158-162.

[5]李鋒剛,梁鈺.基于LDA-WSVM模型的文本分類研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(1):21-25.

[6]Wang Z,Qian X.Text Categorization Based on LDA and SVM[C].Computer Science and Software Engineering,2008 International Conference on.IEEE,2008,1:674-677.

[7]Rogati M,Yang Y.High-Performing Feature Selection for Text Classification[C].Proceedings of the Eleventh International Conference on Information and Knowledge Management.ACM,2002:659-661.

[8]劉海峰,姚澤清,蘇展.基于詞頻的優(yōu)化互信息文本特征選擇方法[J].計(jì)算機(jī)工程,2014,40(7):179-182.

[9]劉慶河,梁正友.一種基于信息增益的特征優(yōu)化選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(12):130-134.

[10]裴英博,劉曉霞.文本分類中改進(jìn)型 CHI特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(4).

[11]Basu T,Murthy C A.Effective Text Classification by a Supervised Feature Selection Approach[C].Data Mining Workshops(ICDMW),2012 IEEE 12th International Conference on.IEEE,2012:918-925.

[12]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].the Journal of Machine Learning Research,2003,3:993-1022.

[13]Sebastiani F.Machine learning in Automated Text Categorization[J].ACM Computing Surveys(CSUR),2002,34(1):1-47.

[14]Chang C C,Lin C J.LIBSVM:A Library for Support Vector Machines[J].ACM Transactions on Intelligent Systems and Technology(TIST),2011,2(3):27.

[15]Joachims T.A Support Vector Method for Multivariate Performance Measures[C].Proceedings of the 22nd International Conference onMachine learning.ACM,2005:377-384.

LDA;CHI;Text Classification;SVM

Research on Chinese Text Classification Based on LDA and SVM

SONG Yu-ting,XU De-hua

(School of Economics and Management,Tongji University,Shanghai 200092)

1007-1423(2016)05-0018-06

10.3969/j.issn.1007-1423.2016.05.004

宋鈺婷(1991-),女,江蘇泰州人,碩士研究生,研究方向?yàn)樾畔⒐芾砼c信息系統(tǒng)

2016-01-07

2016-02-18

針對(duì)中文文本分類中特征提取的語(yǔ)義缺失和低頻詞問(wèn)題,提出一種基于LDA和SVM的中文文本分類算法,首先將LDA與卡方統(tǒng)計(jì)特征提取算法結(jié)合,根據(jù)計(jì)算結(jié)果得到Top k個(gè)指定數(shù)目的詞項(xiàng)作為特征詞,使用SVM進(jìn)行分類,并與互信息、信息增益進(jìn)行對(duì)比,結(jié)果分析顯示與主題模型相結(jié)合的卡方統(tǒng)計(jì)特征提取方法有更高的分類精度。

LDA;卡方統(tǒng)計(jì);文本分類;SVM

徐德華,男,副教授,碩士生導(dǎo)師,研究方位為管理信息系統(tǒng)、電子商務(wù)

Against the Chinese text classification feature extraction of semantic loss and low frequency words,proposes a text classification algorithm based on LDA and SVM,which describes CHI feature extraction method combining LDA,according to the results obtained Top k items of specified number of lexical items as feature words,uses SVM classification to realize text classification,compares respectively with mutual information and information gain.The results of the analysis proves that combining CHI feature extraction methods with the topic model have higher classification accuracy.

猜你喜歡
卡方特征詞互信息
卡方檢驗(yàn)的應(yīng)用條件
卡方變異的SSA的FSC賽車轉(zhuǎn)向梯形優(yōu)化方法
基于Simhash改進(jìn)的文本去重算法
卡方檢驗(yàn)的應(yīng)用條件
基于類信息的TF-IDF權(quán)重分析與改進(jìn)①
一種面向財(cái)務(wù)文本分類的TF-IDF改進(jìn)算法
三大抽樣分布的理解與具體性質(zhì)
OPEN:一個(gè)基于評(píng)論的商品特征抽取及情感分析框架
基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
基于互信息的圖像分割算法研究與設(shè)計(jì)
施甸县| 旌德县| 盐亭县| 正宁县| 昭苏县| 文昌市| 乌兰浩特市| 达州市| 垣曲县| 进贤县| 壤塘县| 白河县| 台北市| 兰考县| 阳西县| 定结县| 武威市| 平湖市| 黄石市| 吐鲁番市| 灵川县| 茌平县| 阿巴嘎旗| 开原市| 嘉祥县| 建宁县| 河东区| 夏河县| 桂平市| 东丰县| 美姑县| 蓝山县| 康平县| 晋宁县| 石台县| 博湖县| 盐源县| 城固县| 连山| 绥德县| 九龙城区|