文本分類中TF-IDF算法的改進研究

2022-07-04 02:54吳宗卓

計算技術(shù)與自動化 2022年2期

吳宗卓

關(guān)鍵詞：文本分類;特征選擇;CHI平方統(tǒng)計;TFIDF;分類準確性

隨著在線信息的快速發(fā)展，如何有效地處理大量文本成為一個熱門的研究課題，文本分類是其中的關(guān)鍵任務(wù)之一。文本分類是將新文檔分配給預(yù)先存在的類別，并且已廣泛用于許多領(lǐng)域，如信息檢索、電子郵件分類、垃圾郵件過濾、主題定位。

近年來，大多數(shù)研究集中在尋找新的分類算法上，對信息檢索的文獻表示模型的改進研究很少。傳統(tǒng)模型有三種：向量空問模型、概率模型、推理網(wǎng)絡(luò)模型。向量空問模型把對文本內(nèi)容的處理簡化為向量空間中的向量運算，并且它以空間上的相似度表達語義的相似度，直觀易懂，使用最廣泛。在向量空間模型中，有一些常用的加權(quán)方法，如布爾加權(quán)、頻率加權(quán)、TF-IDF加權(quán)、TFC加權(quán)、LTC加權(quán)、熵加權(quán)，其中TF-IDF加權(quán)是其中使用最廣泛的一種。

提出了對向量空間模型的TF-IDF加權(quán)算法的改進算法。TF-IDF考慮術(shù)語頻率（TF）和逆文檔頻率（IDF），在這種方法中，如果術(shù)語頻率高并且該術(shù)語僅出現(xiàn)在一小部分文檔中，那么這個術(shù)語具有很好的區(qū)分能力，這種方法強調(diào)能夠更多地區(qū)分不同的類，但忽略了這樣一個事實，即經(jīng)常出現(xiàn)在屬于同一類的文檔中的術(shù)語可以代表該特征。因此引入一個新的參數(shù)來表示類內(nèi)特性，然后進行了一些實驗來比較效果，結(jié)果顯示這種改進具有更好的準確性。

1文本分類步驟

文本分類通常包括5個主要步驟：文檔預(yù)處理、文檔表示、降維、模型訓(xùn)練、測試和評估。

1.1文檔預(yù)處理

在這一步中，需要刪除html標簽、稀有單詞、停用詞，并且需要標注一些詞干，這在英語中很簡單，但在中文、日語和其他一些語言中很難。通過文本預(yù)處理后，文檔內(nèi)部的噪音數(shù)據(jù)就被剔除。文檔在內(nèi)容方面就能進行分類使用了。

1.2文件表示

在進行分類之前，需要將文檔轉(zhuǎn)換為計算機可以識別的格式，矢量空間模型（VSM）是最常用的方法。此模型將文檔作為多維向量，并將從數(shù)據(jù)集中選擇的特征作為此向量的維度。其中每一個維度對應(yīng)一個特征詞，如果某個特征詞存在于某個文檔中，那它在矢量空間模型的向量中的值為非零。

1.3降維

因為在文檔中，有成千上萬的單詞，不做處理的話就有成千上萬個特征詞。如果選擇所有單詞作為特征，那么進行分類是不可行的，因為計算機無法處理這樣的數(shù)據(jù)量。因此需要選擇那些最有意義和最具代表性的分類特征作為特征詞，最常用的特征選擇方法包括CHI平方統(tǒng)計、信息增益、互信息、文檔頻率、潛在語義分析。

1.4模型訓(xùn)練

這是文本分類中最重要的部分。寫好改進算法的代碼之后，通過從語料庫中選擇一部分文檔以組成訓(xùn)練集，剩下文檔作為測試集。在訓(xùn)練集上執(zhí)行學(xué)習(xí)，然后生成模型。

1.5測試和評估

此步驟使用從步驟4生成的模型，并對得到的測試集執(zhí)行分類，最后選擇適當(dāng)?shù)乃饕M行評估。

2 TF-IDF

在向量空間模型中，TF-IDF（術(shù)語頻率一逆文檔頻率）是一種廣泛使用的加權(quán)方法，TF-IDF算法是基于這種假設(shè)的：對于最優(yōu)特征詞來說，這些特征詞在一類或一部分文檔中大量出現(xiàn)，而在其他文檔中很少出現(xiàn)或者不出現(xiàn)。所以使用術(shù)語頻率TF就可以劃分相同文本。

另外，考慮一個特征詞在所在文本當(dāng)中的重要程度，認為一個文本中，特征詞出現(xiàn)次數(shù)越高，特征詞就越重要，因此引入了逆文檔頻率IDF。以術(shù)語頻率TF和逆文檔頻率IDF的乘積作為向量空間模型的取值測度。不過在本質(zhì)上IDF是避免噪音數(shù)據(jù)的一種加權(quán)手段，同時認為文本量少就重要，文本量多就不重要，這明顯是有不完全正確的。所以該算法的精度并不高。

TF-IDF沒有考慮不同文件長度對加權(quán)的影響，為了改進這一點，提出了TFC，它實際上是公式（1）的標準化。同時當(dāng)N等于n時，a變?yōu)榱悖@通常出現(xiàn)在小數(shù)據(jù)集中。為防止計算中出現(xiàn)零的結(jié)果需要改進公式（1），TFC如下所示：

LTC是TF-IDF的一種不同格式，它考慮了小數(shù)據(jù)集的限制，它實際上是公式（2）的歸一化。公式為：

3 TF-IDF-IF

關(guān)于TF-IDF的缺點，引入了一個新的參數(shù)來表示類內(nèi)特征，稱之為類頻率，它計算一個類中文檔中的術(shù)語頻率。然后將這個新的加權(quán)方法重命名為TF-IDF-IF，其公式基于公式（2）：

該方法通過引入類中文檔中的術(shù)語頻率，可以緩解IDF認為文本量少就重要、文本量多就不重要的問題。

4實驗和分析

在實驗中，選擇使用常用的路透社Reuters數(shù)據(jù)集和20newsgroup數(shù)據(jù)集。在繼續(xù)之前，進行一些預(yù)處理，例如刪除html標簽，過濾無效字符，刪除停用詞。在此處理之后，對于路透社，選擇了6088個訓(xùn)練樣本，2800個測試樣本共59個類別。對于20newsgroup，選擇8000個訓(xùn)練樣本，2000個測試樣本共20個類。然后使用CHI卡方統(tǒng)計特征選擇方法來選擇1000個特征，然后分別使用TF-IDF、TF-IDF-CF、LTC、TFC方法在一些常用的分類器如樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、KNN、SVM中進行實驗。實驗結(jié)束后，比較了TF-IDF-IF與TF-IDF，LTC，TFC的結(jié)果。

4.1CHI卡方統(tǒng)計

卡方統(tǒng)計是一種非常有用的文本分類特征選擇方法，它可以測量特征和類之間的相關(guān)性。設(shè)N是訓(xùn)練樣本文本總數(shù)，A是文本集中包含特征t且在類別c中的文本個數(shù)，B是文本集中包含特征t在但不屬于類別c的文本個數(shù)，D是文本集中屬于類別c但不包含特征t的文本個數(shù)，E是文本集中不包含特征t也不在類別c中的文本個數(shù)?？ǚ浇y(tǒng)計可以描述為：

當(dāng)卡方統(tǒng)計量y2（t，c）=0時，表示特征和類別沒有關(guān)系，即特征和類別相互獨立?？ǚ浇y(tǒng)計量x2（t，c）越大表示兩者關(guān)系越密切。

4.2實驗

基于這兩個數(shù)據(jù)集，使用CHI平方統(tǒng)計方法來選擇1000個特征，然后使用一些常用的算法如樸素貝葉斯，貝葉斯網(wǎng)絡(luò)，KNN，SVM在一個著名的數(shù)據(jù)挖掘工具WEKA上進行實驗，只考慮比較結(jié)果時的分類準確度：

4.3分析

從表1的實驗結(jié)果可以看出，改進的TF-IDF-CF加權(quán)方法在路透社Reuters和20newsgroup中具有最佳精度，與原始TF-IDF加權(quán)方法相比，精度大大提高。雖然TFC和LTC在像樸素貝葉斯這樣的分類器上比TF-IDF有更好的結(jié)果，但它不像TF-IDF那樣有意義，所以它們通常不用于計算加權(quán)。新方法大大提高精度的原因是TF-IDF只強調(diào)區(qū)分不同類的能力，但低估了表示類本身的能力。在一個類的文檔中出現(xiàn)的術(shù)語越多，該術(shù)語代表該類的重要性就越大。從理論和實驗中，可以看到這種改進可以達到更好的準確性。

5結(jié)論

文本分類是當(dāng)前信息檢索的熱門研究課題，是數(shù)據(jù)挖掘和信息檢索的重要分支。如何提高分類準確率是文本分類中的一個重要課題，為了解決這個問題，已經(jīng)做了大量的研究來尋找能夠提高準確性的新分類器，而本文試圖通過提出改進TF-IDF加權(quán)方法來提高準確性。從實驗中可以看出這種改進顯著提高了準確性，因此認為這種改進是可以接受的。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

文本分類中TF-IDF算法的改進研究