基于NewTF-IDF的新聞文本特征提取算法研究

2021-06-05 11:32閆思賢

湖北民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年2期

黃敏，閆思賢

(1.鄭州輕工業(yè)大學(xué) 軟件學(xué)院，鄭州 450002； 2.鄭州輕工業(yè)大學(xué) 計(jì)算機(jī)與通信工程學(xué)院，鄭州 450002)

在互聯(lián)網(wǎng)時(shí)代，電視或者網(wǎng)絡(luò)平臺(tái)增長(zhǎng)速度較為迅速，在這些平臺(tái)中，可以獲取到的新聞文本數(shù)據(jù)量巨大[1].在國(guó)內(nèi)外，每天發(fā)生的事件不計(jì)其數(shù)，每個(gè)人關(guān)注熱點(diǎn)又各有差異，因此在平臺(tái)中每天都在更新不同的新聞數(shù)據(jù)，引起新聞數(shù)據(jù)暴漲，使得新聞數(shù)據(jù)逐漸繁雜且冗余.若要對(duì)大批量的新聞文本數(shù)據(jù)逐條分類，無(wú)疑是復(fù)雜且低效的工作[2].因此，針對(duì)新聞文本的特征詞提取算法，在學(xué)術(shù)界逐漸嶄露頭角.例如：蔡中祥等[3]提出了一種融合指針網(wǎng)絡(luò)的自動(dòng)文本摘要模型，實(shí)現(xiàn)新聞數(shù)據(jù)的標(biāo)題的自動(dòng)生成；Hakak Saqib等[4]提出一種基于有效特征提取的集成機(jī)器學(xué)習(xí)方法，實(shí)現(xiàn)對(duì)假新聞的分類；Patidar等[5]采用TF-IDF和相似度權(quán)重的方法實(shí)現(xiàn)混合新聞的推薦;Zhuo Zhuo等[6]在Spark上采用TF-IDF算法對(duì)新聞的文本主題進(jìn)行聚類優(yōu)化；等.綜上可知，針對(duì)新聞文本分類的研究吸引較多學(xué)者關(guān)注，并且新聞文本數(shù)據(jù)存在量較大，獲取時(shí)較為簡(jiǎn)便[7]，為文本分類研究提供非常大的便利.但是，在基于傳統(tǒng)TF-IDF文本分類研究中，針對(duì)關(guān)鍵字的提取，只能簡(jiǎn)單地將詞頻和逆文檔頻率掛鉤，忽略關(guān)鍵詞的其他特征，進(jìn)而可能會(huì)使關(guān)鍵詞的提取不精確[8-10].此外，在分類過(guò)程中常遇到判別條件缺乏的情況，因此將導(dǎo)致文本分類準(zhǔn)確率降低[11-13].基于上述分析，針對(duì)文本關(guān)鍵字獲取不精確、判別條件缺乏等問(wèn)題，本文提出一種改進(jìn)的TF-IDF方法，并將該方法應(yīng)用至新聞文本數(shù)據(jù)，實(shí)現(xiàn)新聞文本分類.

1 TF-IDF的算法原理與不足

(1)

(2)

在式(2)中，|D|為整個(gè)語(yǔ)料庫(kù)，|{j:ti∈dj}|為語(yǔ)料庫(kù)中出現(xiàn)某詞的文本個(gè)數(shù).為了避免該詞不存在于語(yǔ)料庫(kù)當(dāng)中使分母為0的情況發(fā)生，所以在分母位置增加1.如果某高頻詞在語(yǔ)料庫(kù)的大量文本中都出現(xiàn)，說(shuō)明這個(gè)詞語(yǔ)對(duì)單個(gè)文本的重要程度就越低，就不是需要被提取的關(guān)鍵詞.此時(shí)，這個(gè)詞語(yǔ)的IDF值就會(huì)越小，進(jìn)而減少此關(guān)鍵詞的權(quán)重.例如，某語(yǔ)料庫(kù)中的文本都是關(guān)于某人的介紹，某人的姓名就可能出現(xiàn)在所有文本當(dāng)中，此時(shí)，IDF值就會(huì)非常小.

綜上，TF-IDF的公式為式(3)所示，它在保留高頻詞的基礎(chǔ)上剔除了大量文本中存在的常見(jiàn)詞語(yǔ)，提取詞語(yǔ)的重要程度較高.TFi,j-IDFi=TFi,j×IDFi,j.

(3)

在對(duì)一篇文章進(jìn)行預(yù)處理之后就可以使用TF-IDF來(lái)提取文章的關(guān)鍵詞，再對(duì)所得關(guān)鍵詞的TF-IDF權(quán)重值進(jìn)行排序后，權(quán)重值靠前的詞語(yǔ)基本就可以代表文章的核心內(nèi)容.此算法的結(jié)果與實(shí)際相差不大，在詞語(yǔ)降噪方面有其特殊優(yōu)勢(shì)，所以一直被廣泛應(yīng)用于各大分類問(wèn)題的研究及搜索引擎的搜詞中.例如，大型企業(yè)谷歌在搜索引擎方面就一直以TF-IDF為信息檢索的重要手段.

TF-IDF的廣泛應(yīng)用無(wú)疑肯定了他的價(jià)值，但是作為一個(gè)特征提取算法還是存在一些不足.它采用的是IDF對(duì)TF進(jìn)行加權(quán)，IDF雖然能在一定程度上提高提取結(jié)果的準(zhǔn)確性，但因?yàn)樗粡年P(guān)鍵詞在語(yǔ)料庫(kù)所有文本中的分布作為權(quán)值，結(jié)構(gòu)過(guò)于單一.本文總結(jié)了在應(yīng)用時(shí)的幾個(gè)缺陷，具體如下.

1)簡(jiǎn)單將詞頻與IDF權(quán)重掛鉤.IDF權(quán)重主要選取了在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)少、頻率小的詞，對(duì)于大量出現(xiàn)在其他文本中的詞語(yǔ)權(quán)重很低，這種方式在大部分情況下是成立的，且具有較好的分類效果.但是，降低常見(jiàn)詞權(quán)重，在別的文本并不完全普適，特別是新聞熱點(diǎn)、網(wǎng)絡(luò)熱詞等.例如，在現(xiàn)今數(shù)據(jù)爆炸的時(shí)代，互聯(lián)網(wǎng)上每過(guò)一段時(shí)間都會(huì)產(chǎn)生一些網(wǎng)絡(luò)熱詞，這些熱詞會(huì)出現(xiàn)在大量的文本當(dāng)中，如果僅以IDF作為權(quán)重因子，那么這些熱詞就會(huì)被當(dāng)作無(wú)效詞過(guò)濾掉了，顯然與實(shí)際情況不符.而且，當(dāng)語(yǔ)料庫(kù)中的文本類型較少甚至類型單一時(shí)，IDF作為加權(quán)因子，就會(huì)失去其存在意義，此時(shí)，關(guān)鍵詞的提取就只能依賴詞頻這一個(gè)特征，不具備科學(xué)合理性.比如，當(dāng)需要處理的文本全部都是數(shù)學(xué)類文本時(shí)，幾乎每一篇文本中都會(huì)出現(xiàn)專業(yè)的數(shù)學(xué)名詞，此時(shí)IDF的值對(duì)于數(shù)學(xué)名詞的提取就只能依賴詞頻這一個(gè)特征來(lái)決定，TF-IDF算法本身也失去了其意義.所以，特征詞的提取并不僅僅依托于IDF這一個(gè)加權(quán)因子，詞性、詞長(zhǎng)、詞位置與詞跨度都是度量關(guān)鍵詞重要程度的主要依據(jù)，下文會(huì)根據(jù)這4種因子在特征詞提取方面的重要程度，給出具體的計(jì)算數(shù)值.

2)未考慮詞語(yǔ)在不同文檔中的分布.TF-IDF算法的依據(jù)就是詞頻和逆文檔率兩個(gè)特征，當(dāng)關(guān)鍵詞的詞頻和逆文檔頻率相同時(shí)，計(jì)算出的結(jié)果是一樣的.但是，這顯然不夠全面，因?yàn)槠渲幸粋€(gè)關(guān)鍵詞可能是分布在同一類型的多個(gè)文檔中，另一個(gè)關(guān)鍵詞可能是分布在語(yǔ)料庫(kù)中不同類型的文檔中.顯然，在同一類型多個(gè)文檔中分布的詞對(duì)此類型更具有代表性.此時(shí)，賦予這兩個(gè)詞一樣的權(quán)值是不合理的，基于此，本文提出了一種基于離散度的算法改進(jìn)，當(dāng)關(guān)鍵詞出現(xiàn)的類別數(shù)越少，離散系數(shù)越大，關(guān)鍵詞權(quán)重越大.

2 NewTF-IDF的實(shí)現(xiàn)過(guò)程

2.1 結(jié)合多組合特征因子的改進(jìn)(CTF-TF-IDF)

關(guān)鍵詞的詞性、詞語(yǔ)長(zhǎng)度、詞語(yǔ)出現(xiàn)位置、詞語(yǔ)復(fù)現(xiàn)的跨度都會(huì)對(duì)特征詞提取結(jié)果產(chǎn)生較大影響.這顯然是傳統(tǒng)的TF-IDF算法所不具備的，為了提高特征項(xiàng)提取的準(zhǔn)確度，本文將上述多個(gè)影響因素組合起來(lái)，把組合特征CTF(Combination-Term-Feature)作為一個(gè)權(quán)重因子對(duì)原始算法進(jìn)行加權(quán)，改善原始算法在語(yǔ)義方面的缺失，提高算法的準(zhǔn)確度.組合特征的加權(quán)公式為式(4)所示：

CTF=[POS(W)+WL(W)+WP(W)+WS(T,S)]，

(4)

其中，POS(W)代表詞性因子，WL(W)代表詞長(zhǎng)因子，WP(W)代表詞位置因子，WS(T,S)代表詞跨度因子.

1)詞性因子.在中文文本數(shù)據(jù)集中，不同詞性的詞語(yǔ)包含的信息量不同，對(duì)文本的重要程度大不相同，詞性是區(qū)分關(guān)鍵詞的重要指標(biāo).一般動(dòng)詞和名詞在文本集中都占有較高的比重，且都是表達(dá)具體事務(wù)的詞，最能表示想要表達(dá)的事物的具體特征，一般應(yīng)給予較高權(quán)重.形容詞和副詞的在文本中的比重低于名詞和動(dòng)詞，且多為名詞和動(dòng)詞的修飾語(yǔ)，所占比重應(yīng)小于名詞和動(dòng)詞.此外，還有一些其他詞性的詞語(yǔ)，在文中所占比重更低，重要程度更低.為了更好地為不同詞性的詞語(yǔ)分配權(quán)值，本文從語(yǔ)料庫(kù)中隨機(jī)挑選了2 000篇新聞數(shù)據(jù)，并用特征提取算法從中提取了5 000個(gè)關(guān)鍵詞，在使用語(yǔ)義分析工具對(duì)上述詞語(yǔ)進(jìn)行詞性分析后，得到各詞語(yǔ)的詞性占比如圖1所示.

圖1 關(guān)鍵詞詞性占比Fig.1 Part of speech ratio of keywords

由圖1可知，動(dòng)詞和名詞的占比最高，動(dòng)詞、名詞和動(dòng)名詞總共的占比為70%，形容詞、副詞的占比約20%，最后約10%為其他詞性，與之前的預(yù)測(cè)相符.因此，結(jié)合圖中詞語(yǔ)的占比分布，給予不同詞性的詞語(yǔ)不同的權(quán)重，具體權(quán)重分布如式(5)所示.

(5)

2)詞長(zhǎng)因子.詞長(zhǎng)(Word Length)也是衡量關(guān)鍵詞重要程度的關(guān)鍵因素之一，不同長(zhǎng)度的詞語(yǔ)包含的信息量會(huì)存在差異.針對(duì)詞長(zhǎng)的權(quán)重研究，目前有兩種主流方法.一是比例法，以關(guān)鍵詞長(zhǎng)度占文本中最長(zhǎng)詞語(yǔ)長(zhǎng)度的比例作為權(quán)重因子進(jìn)行計(jì)算.二是特值法，是對(duì)特定的詞語(yǔ)長(zhǎng)度施加一個(gè)權(quán)重因子，再對(duì)不同的詞語(yǔ)長(zhǎng)度施加不同的權(quán)重因子來(lái)計(jì)算.本文研究的是新聞文本數(shù)據(jù)，在文本中往往詞語(yǔ)的長(zhǎng)度越長(zhǎng)，蘊(yùn)藏的信息量就越多，所以本文選擇比例法給詞長(zhǎng)因子賦值，式(6)為計(jì)算公式.

(6)

在式(6)中，len(W)代表關(guān)鍵詞長(zhǎng)度,max(l)表示文本中最長(zhǎng)的關(guān)鍵詞.

3)詞位置因子.詞語(yǔ)在文本中的位置對(duì)于文本類別的判定很重要.在新聞文本中，標(biāo)題與文章內(nèi)容的符合度一般在98%以上，標(biāo)題一般能代表整篇文章的含義，重要程度最高，所以標(biāo)題要被賦予最高權(quán)重.文章首句一般起到概括全文，總領(lǐng)全局的作用，末句一般起到總結(jié)上文，呼應(yīng)主題的作用，這兩句話一般為文章的中心句所在，表達(dá)含義豐富，重要程度僅次于標(biāo)題，賦予權(quán)重值應(yīng)比標(biāo)題略低，比文中的其他詞語(yǔ)高.所以，針對(duì)上述詞位置(Word Location)因子的計(jì)算公式為式(7)所示.

(7)

4)詞跨度因子.詞跨度(Word Span)的具體含義是關(guān)鍵詞在文本中第一次出現(xiàn)的位置與最后一次出現(xiàn)的位置之間的距離，反映了詞語(yǔ)在文本中出現(xiàn)的范圍大小.通常來(lái)講，詞跨度越大，說(shuō)明詞語(yǔ)在文章中分布范圍越廣，詞語(yǔ)越能代表文章的類型.相反，詞跨度越小，說(shuō)明詞語(yǔ)出現(xiàn)的范圍越集中，只出現(xiàn)在整個(gè)文本中的一部分，不能很好地概括全文主旨.假如某詞語(yǔ)在文中的一定范圍內(nèi)集中出現(xiàn)，會(huì)對(duì)全文的關(guān)鍵詞提取造成較大影響，所以本文使用詞跨度因子過(guò)濾局部高頻詞，避免這一問(wèn)題的發(fā)生，計(jì)算公式如式(8)所示.

(8)

其中，las(T)為詞T在文本d中最后一次出現(xiàn)的序列值，fir(T)為詞T在文本d中首次出現(xiàn)的序列值，SumWords(d)為文本d中詞語(yǔ)數(shù)之和.所以，原始的TF-IDF算法經(jīng)由詞性、詞長(zhǎng)、詞位置、詞跨度等組合特征改進(jìn)后形成改進(jìn)算法的計(jì)算公式如式(9)所示：

CTF-TF-IDF=TF×IDF×[POS(W)+WL(W)+WP(W)+WS(T,d)].

(9)

2.2 結(jié)合離散度的改進(jìn)(TF-IDF-Dis)

離散度表示詞語(yǔ)間的分散程度.相比于在多個(gè)類型間出現(xiàn)的高頻詞而言，在同一類型間出現(xiàn)的高頻詞分布更集中，更能代表所屬類型.所以，對(duì)在同一類型間的高頻詞賦予較高的離散系數(shù)，對(duì)于不同類型間高頻詞賦予較低的離散系數(shù).結(jié)合離散度后，改進(jìn)后的算法能很好地區(qū)分詞語(yǔ)在不同類型間的分布.

離散系數(shù)可以作為一個(gè)權(quán)重因子乘到TF-IDF的算法當(dāng)中，可以很好地改進(jìn)關(guān)鍵詞在不同類型間分布不均的情況.基于上述離散程度的概念，具體的改進(jìn)過(guò)程如下.

(10)

2) 使用標(biāo)準(zhǔn)差除以第1步求得的平均詞頻，求取各類型之間的離散度，即離散系數(shù)，如式(11)表示:

(11)

3) 使用TF-IDF乘以離散系數(shù)就得到原始算法對(duì)于離散程度的改進(jìn)，如式(12)所示:

TF-IDF-Dis=TFi,j×IDFi×Dis.

(12)

當(dāng)關(guān)鍵詞只出現(xiàn)同種類型的文本中時(shí)，集中效果最好，能較好體現(xiàn)文檔的重要程度，取離散系數(shù)的最大值為1，當(dāng)關(guān)鍵詞在語(yǔ)料庫(kù)中的所有類別中都出現(xiàn)時(shí)，說(shuō)明詞語(yǔ)較為分散，不能體現(xiàn)某個(gè)類型文本的重要程度，取離散系數(shù)最小值為0.

至此，對(duì)特征項(xiàng)進(jìn)行評(píng)估時(shí)就不在僅僅考慮關(guān)鍵詞出現(xiàn)的文本個(gè)數(shù)在語(yǔ)料庫(kù)中的整體分布情況.而是融合進(jìn)了關(guān)鍵詞與類別之間的關(guān)系，使算法的準(zhǔn)確率更高.

2.3 NewTF-IDF的實(shí)現(xiàn)

上文中的兩節(jié)內(nèi)容分別是對(duì)原始TF-IDF算法進(jìn)行的組合特征改進(jìn)和離散度改進(jìn).改進(jìn)后的算法更符合邏輯，更加高效.

算法公式是由式(9)得出的CTF-TF-IDF算法及由式(12)得出的TF-IDF-Dis算法融合，生成新的算法公式NewTF-IDF，NewTF-IDF的具體計(jì)算過(guò)程如式(13)所示:

(13)

NewTF-IDF實(shí)現(xiàn)的流程如圖2所示.

圖2 NewTF-IDF算法實(shí)現(xiàn)流程Fig.2 NewTF-IDF algorithm implementation process

3 實(shí)驗(yàn)方案及結(jié)果分析

本文在上一章分別介紹了TF-IDF算法的原理及優(yōu)缺點(diǎn)，并且基于組合特征和離散度分別提出了CTF-TF-IDF算法和TF-IDF-Dis算法，都在一定程度上對(duì)原始TF-IDF算法進(jìn)行了改進(jìn).最終融合二者不同的改進(jìn)特點(diǎn)，生成NewTF-IDF算法，算法不僅在詞性等多組合因素上進(jìn)行了改進(jìn)，還在特征項(xiàng)與類間關(guān)系處進(jìn)行了改進(jìn).為了驗(yàn)證算法改進(jìn)后的具體效果，本文在此設(shè)計(jì)一個(gè)對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證，并結(jié)合原始TF-IDF算法、基于組合特征改進(jìn)的CTF-TF-IDF算法和基于離散度改進(jìn)的TF-IDF-Dis算法共同對(duì)比分析.

3.1 實(shí)驗(yàn)數(shù)據(jù)

搜狗實(shí)驗(yàn)室是由搜狗核心團(tuán)隊(duì)研發(fā)，對(duì)外推出的一個(gè)交流窗口，內(nèi)含豐富的數(shù)據(jù)資源，本章節(jié)所使用的新聞數(shù)據(jù)為搜狗實(shí)驗(yàn)室中的全網(wǎng)新聞數(shù)據(jù)集和搜狐新聞數(shù)據(jù)集.在搜狗實(shí)驗(yàn)室下載完數(shù)據(jù)之后，先進(jìn)行文本預(yù)處理，即分詞、去停用詞，目的是避免無(wú)用數(shù)據(jù)影響實(shí)驗(yàn)效率，提升分類精確度.

從搜狗實(shí)驗(yàn)室下載的數(shù)據(jù)共包含國(guó)內(nèi)、國(guó)際、體育、社會(huì)、娛樂(lè)等共18個(gè)類別，此數(shù)據(jù)來(lái)源豐富，權(quán)威性高，被各大領(lǐng)域頻繁使用，適用于文本分類的研究.為方便實(shí)驗(yàn)，本文從數(shù)據(jù)集中抽取5個(gè)最具代表意義的類別，分別為教育、文化、財(cái)經(jīng)、科技、體育等進(jìn)行實(shí)驗(yàn).由于每個(gè)類別的文本個(gè)數(shù)不一樣，為使實(shí)驗(yàn)精度上升，避免數(shù)據(jù)不平衡干擾結(jié)果，本文分別從5個(gè)類別中選取2萬(wàn)條新聞數(shù)據(jù)進(jìn)行研究.所以本實(shí)驗(yàn)的新聞文本數(shù)據(jù)集為10萬(wàn)條.

3.2 實(shí)驗(yàn)方案

① 從搜狗實(shí)驗(yàn)室下載全網(wǎng)新聞數(shù)據(jù)集與搜狐新聞數(shù)據(jù)集，進(jìn)行去詞和去停用詞等文本預(yù)處理操作.② 用Python自帶的第三方開(kāi)源庫(kù)sklearn庫(kù)對(duì)數(shù)據(jù)進(jìn)行處理.使用庫(kù)中自帶的train_test_split方法把新聞數(shù)據(jù)進(jìn)行劃分，劃分的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集，劃分范圍是依據(jù)此方法中test_size的默認(rèn)參數(shù)0.25，表示數(shù)據(jù)中訓(xùn)練集占到75%，測(cè)試集占到25%.最終得到劃分后訓(xùn)練集文本75 000條，驗(yàn)證集文本25 000條.③ 使用傳統(tǒng)的TF-IDF、CTF-TF-IDF、TF-IDF-Dis方法以及最終融合的NewTF-IDF方法在訓(xùn)練集上進(jìn)行特征項(xiàng)提取.④ 用樸素貝葉斯分類器對(duì)上述4種算法提取出的特征項(xiàng)進(jìn)行分類.分類時(shí)，拉普拉斯平滑系數(shù)使用1.0，訓(xùn)練好數(shù)據(jù)后，使用驗(yàn)證集進(jìn)行驗(yàn)證.驗(yàn)證效果好壞使用精確率P、召回率R、綜合值F1進(jìn)行衡量.效果指標(biāo)越高，代表數(shù)據(jù)特征提取方法越科學(xué).

3.3 結(jié)果與分析

根據(jù)上述實(shí)驗(yàn)步驟得到的4種特征提取算法的分類效果如表1所示，使用P、R、F1 3種指標(biāo)來(lái)描述特征提取的效果，表中數(shù)值越高，代表效果越好.從表1可以看出，本文改進(jìn)的三種算法較傳統(tǒng)的TF-IDF算法的分類效果在各項(xiàng)指標(biāo)上都有提升.尤其是最終融合的NewTF-IDF算法提升效果尤為顯著.從各項(xiàng)指標(biāo)的平均值來(lái)看，在精確率P上，NewTF-IDF比傳統(tǒng)TF-IDF的值高了8.17%，比CTF-TF-IDF提升了3.72%，比TF-IDF-Dis提升了3.12%.在召回率R上，NewTF-IDF比傳統(tǒng)TF-IDF的值高了10.03%，比CTF-TF-IDF提升了5.15%，比TF-IDF-Dis提升了4.65%.在F1上，NewTF-IDF比傳統(tǒng)TF-IDF的值高了9.37%，比CTF-TF-IDF提升了4.44%，比TF-IDF-Dis提升了4.04%.

表1 4種特征提取算法的分類效果Tab.1 The classification effect of four feature extraction algorithms

為了更加直觀清晰的展示改進(jìn)的特征提取算法對(duì)分類器分類的指標(biāo)提升效果，本文根據(jù)表1中的數(shù)據(jù)繪制了4種分類算法的平均P、R、F1值對(duì)比圖，如圖3所示.由圖3可知，通過(guò)折線圖的趨勢(shì)可以快速直觀的看出NewTF-IDF算法在3項(xiàng)指標(biāo)上的數(shù)值均領(lǐng)先于其他算法，證明本文對(duì)特征項(xiàng)提取的改進(jìn)頗具成效.各算法在不同類別下的F1值如圖4所示.

圖3 四種分類算法的平均P、R、F1值圖4 各算法在不同類別下的F1值Fig.3 Average P,R and F1 values of the four classification algorithms Fig.4 F1 value of each algorithm under different categories

在3項(xiàng)評(píng)價(jià)指標(biāo)中，F(xiàn)1值是精確率P和召回率R加權(quán)調(diào)和的平均值，最具有代表性，圖4為4種算法在不同類別中的提取效果的F1值.可以看出CTF-TF-IDF和TF-IDF-Dis在各類別較于傳統(tǒng)TF-IDF都有提升，且NewTF-IDF在各類別的F1值都高于其他類別，證明本文算法改進(jìn)的科學(xué)合理性.

4 結(jié)語(yǔ)

隨著時(shí)代的更迭、科技的進(jìn)步，互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘Ｉ钪斜夭豢缮俚囊徊糠?基于中國(guó)龐大的人口體系，互聯(lián)網(wǎng)上的數(shù)據(jù)每天都呈爆炸式的增長(zhǎng)，大量的數(shù)據(jù)堆積下，肯定有一些數(shù)據(jù)對(duì)于人們的生產(chǎn)、生活、研究等存在價(jià)值.文本數(shù)據(jù)是數(shù)據(jù)傳輸最基礎(chǔ)的媒介，針對(duì)文本關(guān)鍵字獲取不精確、判別條件缺乏等問(wèn)題，本文提出一種結(jié)合多組合特征因子及離散程度的特征提取算法NewTF-IDF.實(shí)驗(yàn)表明，NewTF-IDF在文本特征詞提取方面有更高的準(zhǔn)確率.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡