国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類

2020-11-23 07:35王彬司楊濤付軍濤
科技風(fēng) 2020年31期

王彬 司楊濤 付軍濤

摘 要:本文提出一種基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類方法,目的是利用改進(jìn)的TF-IDF算法提取新聞文本中的特征詞集合,然后計(jì)算每個(gè)特征詞的TF-IDF值,并將TF-IDF值形成特征向量作為貝葉斯算法的輸入來(lái)實(shí)現(xiàn)新聞文本的分類。本文隨機(jī)搜集了大量的不同類別的新聞文本進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法對(duì)不同類別的新聞都有較好的分類效果。

關(guān)鍵詞:新聞分類;TF-IDF;貝葉斯算法;特征詞

以前,人們主要從電視、報(bào)紙等傳統(tǒng)媒介獲取新聞,通過(guò)這種方式獲取的新聞數(shù)量有限,且新聞的受眾群體也不太普遍。隨著科技和網(wǎng)絡(luò)時(shí)代的發(fā)展,電腦和智能手機(jī)等電子設(shè)備的普及,人們獲取新聞的方式逐漸轉(zhuǎn)變?yōu)閺木W(wǎng)絡(luò)上獲取為主。網(wǎng)絡(luò)新聞不僅數(shù)據(jù)量巨大,而且更新和傳播的速度都非???。海量的網(wǎng)絡(luò)新聞一方面使用戶可獲得的信息量越來(lái)越多,極大地推動(dòng)信息的傳遞,但另一方面也使用戶獲取自己感興趣或?qū)ψ约河杏眯畔⒌男式档?。因此,?duì)網(wǎng)絡(luò)新聞加以分類,僅呈現(xiàn)給用戶他們比較感興趣的新聞是一個(gè)值得研究的問(wèn)題[1]。

在文本分類領(lǐng)域,統(tǒng)計(jì)學(xué)習(xí)方法是一種被廣泛應(yīng)用的方法。統(tǒng)計(jì)分類方法的基本思想是先將文本分詞,再運(yùn)用一定的規(guī)則將樣本文本轉(zhuǎn)換為特征向量,然后構(gòu)建合適的分類模型,將特征向量作為模型的輸入對(duì)模型進(jìn)行優(yōu)化訓(xùn)練,訓(xùn)練完的模型即可實(shí)現(xiàn)文本的分類。文本分類的方法有很多,目前常用的方法有KNN算法、支持向量機(jī)、貝葉斯算法等。本文將采用一種基于改進(jìn)的TF-IDF和貝葉斯算法的分類方法對(duì)新聞進(jìn)行分類。

1 基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類

1.1 改進(jìn)的TF-IDF算法

TF-IDF算法可以用來(lái)評(píng)估一個(gè)字詞對(duì)一個(gè)語(yǔ)料庫(kù)或文件集中的一份給定文件中的重要程度。一個(gè)字詞的重要性與它在某份文件中出現(xiàn)的次數(shù)正相關(guān),字詞在文件中出現(xiàn)的次數(shù)越多重要性越大,但同時(shí)與它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成負(fù)相關(guān),語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)越多,則該字詞的重要性越小[2,3]。因此,TF-IDF值可以用來(lái)作為對(duì)新聞文本分類的依據(jù)。

詞頻(term frequency,TF)指的是一個(gè)字詞在一份給定文件中出現(xiàn)的總的次數(shù)。逆向文件頻率(inverse document frequency,IDF)可以由語(yǔ)料庫(kù)中的文件總數(shù)除以包含該字詞的文件數(shù)目,再將得到的商取對(duì)數(shù)獲得。若某一字詞在一個(gè)文件內(nèi)部的詞頻較高,而在整個(gè)語(yǔ)料庫(kù)中的詞頻較低,那么這個(gè)字詞對(duì)該文件的重要性比較大。所以,TF-IDF值可以用來(lái)過(guò)濾常用字詞,僅保留文檔中可以突出文檔特征的字詞。

傳統(tǒng)的TF-IDF算法是將經(jīng)過(guò)分詞的文件作為輸入(可通過(guò)結(jié)巴分詞器進(jìn)行分詞,并去除停用詞),輸出是每個(gè)字詞的TF-IDF值,然后將TF-IDF值從大到小排序,取前TOP-N個(gè)字詞作為特征詞用于分類。TF-IDF算法步驟如下:

步驟1:統(tǒng)計(jì)每個(gè)字詞在文件中出現(xiàn)的次數(shù),計(jì)算字詞的TF值,計(jì)算方法如公式(1)所示。

2 實(shí)驗(yàn)結(jié)果

本文隨機(jī)搜集了10類共100000份新聞文本進(jìn)行分類實(shí)驗(yàn),10個(gè)類別分別為體育、軍事、游戲、科技、財(cái)經(jīng)、電影、美食、綜藝、時(shí)尚、情感,每個(gè)類別的新聞樣本各10000份。然后從每個(gè)類別中隨機(jī)抽出7000份作為訓(xùn)練樣本,剩余的3000份作為測(cè)試樣本。最后利用改進(jìn)的TF-IDF和貝葉斯算法的新聞分類方法驗(yàn)證分類效果,各個(gè)類別分類的精確率、召回率和F1值統(tǒng)計(jì)值如下表所示。從統(tǒng)計(jì)值中可見(jiàn),本文所提的方法對(duì)不同類別的新聞的分類精確率都比較高,較好地實(shí)現(xiàn)了新聞文本分類效果。

3 結(jié)語(yǔ)

本文提出了一種基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類方法,并隨機(jī)搜集了大量的體育、軍事、游戲等類別的新聞文本進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法較好地實(shí)現(xiàn)了新聞分類,但如何進(jìn)一步提高新聞分類的精確率,還有待進(jìn)一步研究。

參考文獻(xiàn):

[1]劉冬瑤,劉世杰,陳宇星,張文波,周振.新聞文本自動(dòng)分類概述[J].電腦知識(shí)與技術(shù),2017,13(35).

[2]李春梅.基于TF-IDF的網(wǎng)頁(yè)新聞分類的研究與應(yīng)用[J].貴州師范大學(xué)學(xué)報(bào),2015,33(06).

[3]張?jiān)萍?基于TF-IDF和互信息的推薦算法[J].計(jì)算機(jī)時(shí)代,2019(12).

[4]楊欣,郭建彬.基于改進(jìn)TF-IDF的百度百科詞語(yǔ)相似度計(jì)算[J].甘肅科學(xué)學(xué)報(bào),2019(2).

[5]祁小軍,蘭海翔,盧涵宇,丁蕾錠,薛安琪.貝葉斯、KNN和SVM算法在新聞文本分類中的對(duì)比研究[J].電腦知識(shí)與技術(shù),2019,15(25).

[6]周紅衛(wèi),周宏印.基于向量空間用戶興趣模型的態(tài)勢(shì)情報(bào)信息分發(fā)機(jī)制[J].指揮信息系統(tǒng)與技術(shù),2015,6(6).

[7]梁珂,李健,陳穎雪,劉志鋼.基于樸素貝葉斯的文本情感分類及實(shí)現(xiàn)[I].智能計(jì)算機(jī)與應(yīng)用,2019(5).

[8]馮勇,屈渤浩,徐紅艷,王嶸冰,張永剛.融合TF-IDF和LDA的中文FastText短文分類方法[J].應(yīng)用科學(xué)學(xué)報(bào),2019(03).

[9]曾小芹.基于Python的中文結(jié)巴分析技術(shù)實(shí)現(xiàn)[J].信息與電腦,2019(18).

作者簡(jiǎn)介:王彬,男,漢族,碩士,研發(fā)工程師,研究方向:自然語(yǔ)言處理。