国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于NewTF-IDF的新聞文本特征提取算法研究

2021-06-05 11:32閆思賢
關(guān)鍵詞:語(yǔ)料庫(kù)權(quán)重詞語(yǔ)

黃 敏,閆思賢

(1.鄭州輕工業(yè)大學(xué) 軟件學(xué)院,鄭州 450002; 2.鄭州輕工業(yè)大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,鄭州 450002)

在互聯(lián)網(wǎng)時(shí)代,電視或者網(wǎng)絡(luò)平臺(tái)增長(zhǎng)速度較為迅速,在這些平臺(tái)中,可以獲取到的新聞文本數(shù)據(jù)量巨大[1].在國(guó)內(nèi)外,每天發(fā)生的事件不計(jì)其數(shù),每個(gè)人關(guān)注熱點(diǎn)又各有差異,因此在平臺(tái)中每天都在更新不同的新聞數(shù)據(jù),引起新聞數(shù)據(jù)暴漲,使得新聞數(shù)據(jù)逐漸繁雜且冗余.若要對(duì)大批量的新聞文本數(shù)據(jù)逐條分類,無(wú)疑是復(fù)雜且低效的工作[2].因此,針對(duì)新聞文本的特征詞提取算法,在學(xué)術(shù)界逐漸嶄露頭角.例如:蔡中祥等[3]提出了一種融合指針網(wǎng)絡(luò)的自動(dòng)文本摘要模型,實(shí)現(xiàn)新聞數(shù)據(jù)的標(biāo)題的自動(dòng)生成;Hakak Saqib等[4]提出一種基于有效特征提取的集成機(jī)器學(xué)習(xí)方法,實(shí)現(xiàn)對(duì)假新聞的分類;Patidar等[5]采用TF-IDF和相似度權(quán)重的方法實(shí)現(xiàn)混合新聞的推薦;Zhuo Zhuo等[6]在Spark上采用TF-IDF算法對(duì)新聞的文本主題進(jìn)行聚類優(yōu)化;等.綜上可知,針對(duì)新聞文本分類的研究吸引較多學(xué)者關(guān)注,并且新聞文本數(shù)據(jù)存在量較大,獲取時(shí)較為簡(jiǎn)便[7],為文本分類研究提供非常大的便利.但是,在基于傳統(tǒng)TF-IDF文本分類研究中,針對(duì)關(guān)鍵字的提取,只能簡(jiǎn)單地將詞頻和逆文檔頻率掛鉤,忽略關(guān)鍵詞的其他特征,進(jìn)而可能會(huì)使關(guān)鍵詞的提取不精確[8-10].此外,在分類過(guò)程中常遇到判別條件缺乏的情況,因此將導(dǎo)致文本分類準(zhǔn)確率降低[11-13].基于上述分析,針對(duì)文本關(guān)鍵字獲取不精確、判別條件缺乏等問(wèn)題,本文提出一種改進(jìn)的TF-IDF方法,并將該方法應(yīng)用至新聞文本數(shù)據(jù),實(shí)現(xiàn)新聞文本分類.

1 TF-IDF的算法原理與不足

(1)

(2)

在式(2)中,|D|為整個(gè)語(yǔ)料庫(kù),|{j:ti∈dj}|為語(yǔ)料庫(kù)中出現(xiàn)某詞的文本個(gè)數(shù).為了避免該詞不存在于語(yǔ)料庫(kù)當(dāng)中使分母為0的情況發(fā)生,所以在分母位置增加1.如果某高頻詞在語(yǔ)料庫(kù)的大量文本中都出現(xiàn),說(shuō)明這個(gè)詞語(yǔ)對(duì)單個(gè)文本的重要程度就越低,就不是需要被提取的關(guān)鍵詞.此時(shí),這個(gè)詞語(yǔ)的IDF值就會(huì)越小,進(jìn)而減少此關(guān)鍵詞的權(quán)重.例如,某語(yǔ)料庫(kù)中的文本都是關(guān)于某人的介紹,某人的姓名就可能出現(xiàn)在所有文本當(dāng)中,此時(shí),IDF值就會(huì)非常小.

綜上,TF-IDF的公式為式(3)所示,它在保留高頻詞的基礎(chǔ)上剔除了大量文本中存在的常見(jiàn)詞語(yǔ),提取詞語(yǔ)的重要程度較高.TFi,j-IDFi=TFi,j×IDFi,j.

(3)

在對(duì)一篇文章進(jìn)行預(yù)處理之后就可以使用TF-IDF來(lái)提取文章的關(guān)鍵詞,再對(duì)所得關(guān)鍵詞的TF-IDF權(quán)重值進(jìn)行排序后,權(quán)重值靠前的詞語(yǔ)基本就可以代表文章的核心內(nèi)容.此算法的結(jié)果與實(shí)際相差不大,在詞語(yǔ)降噪方面有其特殊優(yōu)勢(shì),所以一直被廣泛應(yīng)用于各大分類問(wèn)題的研究及搜索引擎的搜詞中.例如,大型企業(yè)谷歌在搜索引擎方面就一直以TF-IDF為信息檢索的重要手段.

TF-IDF的廣泛應(yīng)用無(wú)疑肯定了他的價(jià)值,但是作為一個(gè)特征提取算法還是存在一些不足.它采用的是IDF對(duì)TF進(jìn)行加權(quán),IDF雖然能在一定程度上提高提取結(jié)果的準(zhǔn)確性,但因?yàn)樗粡年P(guān)鍵詞在語(yǔ)料庫(kù)所有文本中的分布作為權(quán)值,結(jié)構(gòu)過(guò)于單一.本文總結(jié)了在應(yīng)用時(shí)的幾個(gè)缺陷,具體如下.

1)簡(jiǎn)單將詞頻與IDF權(quán)重掛鉤.IDF權(quán)重主要選取了在語(yǔ)料庫(kù)中出現(xiàn)次數(shù)少、頻率小的詞,對(duì)于大量出現(xiàn)在其他文本中的詞語(yǔ)權(quán)重很低,這種方式在大部分情況下是成立的,且具有較好的分類效果.但是,降低常見(jiàn)詞權(quán)重,在別的文本并不完全普適,特別是新聞熱點(diǎn)、網(wǎng)絡(luò)熱詞等.例如,在現(xiàn)今數(shù)據(jù)爆炸的時(shí)代,互聯(lián)網(wǎng)上每過(guò)一段時(shí)間都會(huì)產(chǎn)生一些網(wǎng)絡(luò)熱詞,這些熱詞會(huì)出現(xiàn)在大量的文本當(dāng)中,如果僅以IDF作為權(quán)重因子,那么這些熱詞就會(huì)被當(dāng)作無(wú)效詞過(guò)濾掉了,顯然與實(shí)際情況不符.而且,當(dāng)語(yǔ)料庫(kù)中的文本類型較少甚至類型單一時(shí),IDF作為加權(quán)因子,就會(huì)失去其存在意義,此時(shí),關(guān)鍵詞的提取就只能依賴詞頻這一個(gè)特征,不具備科學(xué)合理性.比如,當(dāng)需要處理的文本全部都是數(shù)學(xué)類文本時(shí),幾乎每一篇文本中都會(huì)出現(xiàn)專業(yè)的數(shù)學(xué)名詞,此時(shí)IDF的值對(duì)于數(shù)學(xué)名詞的提取就只能依賴詞頻這一個(gè)特征來(lái)決定,TF-IDF算法本身也失去了其意義.所以,特征詞的提取并不僅僅依托于IDF這一個(gè)加權(quán)因子,詞性、詞長(zhǎng)、詞位置與詞跨度都是度量關(guān)鍵詞重要程度的主要依據(jù),下文會(huì)根據(jù)這4種因子在特征詞提取方面的重要程度,給出具體的計(jì)算數(shù)值.

2)未考慮詞語(yǔ)在不同文檔中的分布.TF-IDF算法的依據(jù)就是詞頻和逆文檔率兩個(gè)特征,當(dāng)關(guān)鍵詞的詞頻和逆文檔頻率相同時(shí),計(jì)算出的結(jié)果是一樣的.但是,這顯然不夠全面,因?yàn)槠渲幸粋€(gè)關(guān)鍵詞可能是分布在同一類型的多個(gè)文檔中,另一個(gè)關(guān)鍵詞可能是分布在語(yǔ)料庫(kù)中不同類型的文檔中.顯然,在同一類型多個(gè)文檔中分布的詞對(duì)此類型更具有代表性.此時(shí),賦予這兩個(gè)詞一樣的權(quán)值是不合理的,基于此,本文提出了一種基于離散度的算法改進(jìn),當(dāng)關(guān)鍵詞出現(xiàn)的類別數(shù)越少,離散系數(shù)越大,關(guān)鍵詞權(quán)重越大.

2 NewTF-IDF的實(shí)現(xiàn)過(guò)程

2.1 結(jié)合多組合特征因子的改進(jìn)(CTF-TF-IDF)

關(guān)鍵詞的詞性、詞語(yǔ)長(zhǎng)度、詞語(yǔ)出現(xiàn)位置、詞語(yǔ)復(fù)現(xiàn)的跨度都會(huì)對(duì)特征詞提取結(jié)果產(chǎn)生較大影響.這顯然是傳統(tǒng)的TF-IDF算法所不具備的,為了提高特征項(xiàng)提取的準(zhǔn)確度,本文將上述多個(gè)影響因素組合起來(lái),把組合特征CTF(Combination-Term-Feature)作為一個(gè)權(quán)重因子對(duì)原始算法進(jìn)行加權(quán),改善原始算法在語(yǔ)義方面的缺失,提高算法的準(zhǔn)確度.組合特征的加權(quán)公式為式(4)所示:

CTF=[POS(W)+WL(W)+WP(W)+WS(T,S)],

(4)

其中,POS(W)代表詞性因子,WL(W)代表詞長(zhǎng)因子,WP(W)代表詞位置因子,WS(T,S)代表詞跨度因子.

1)詞性因子.在中文文本數(shù)據(jù)集中,不同詞性的詞語(yǔ)包含的信息量不同,對(duì)文本的重要程度大不相同,詞性是區(qū)分關(guān)鍵詞的重要指標(biāo).一般動(dòng)詞和名詞在文本集中都占有較高的比重,且都是表達(dá)具體事務(wù)的詞,最能表示想要表達(dá)的事物的具體特征,一般應(yīng)給予較高權(quán)重.形容詞和副詞的在文本中的比重低于名詞和動(dòng)詞,且多為名詞和動(dòng)詞的修飾語(yǔ),所占比重應(yīng)小于名詞和動(dòng)詞.此外,還有一些其他詞性的詞語(yǔ),在文中所占比重更低,重要程度更低.為了更好地為不同詞性的詞語(yǔ)分配權(quán)值,本文從語(yǔ)料庫(kù)中隨機(jī)挑選了2 000篇新聞數(shù)據(jù),并用特征提取算法從中提取了5 000個(gè)關(guān)鍵詞,在使用語(yǔ)義分析工具對(duì)上述詞語(yǔ)進(jìn)行詞性分析后,得到各詞語(yǔ)的詞性占比如圖1所示.

圖1 關(guān)鍵詞詞性占比Fig.1 Part of speech ratio of keywords

由圖1可知,動(dòng)詞和名詞的占比最高,動(dòng)詞、名詞和動(dòng)名詞總共的占比為70%,形容詞、副詞的占比約20%,最后約10%為其他詞性,與之前的預(yù)測(cè)相符.因此,結(jié)合圖中詞語(yǔ)的占比分布,給予不同詞性的詞語(yǔ)不同的權(quán)重,具體權(quán)重分布如式(5)所示.

(5)

2)詞長(zhǎng)因子.詞長(zhǎng)(Word Length)也是衡量關(guān)鍵詞重要程度的關(guān)鍵因素之一,不同長(zhǎng)度的詞語(yǔ)包含的信息量會(huì)存在差異.針對(duì)詞長(zhǎng)的權(quán)重研究,目前有兩種主流方法.一是比例法,以關(guān)鍵詞長(zhǎng)度占文本中最長(zhǎng)詞語(yǔ)長(zhǎng)度的比例作為權(quán)重因子進(jìn)行計(jì)算.二是特值法,是對(duì)特定的詞語(yǔ)長(zhǎng)度施加一個(gè)權(quán)重因子,再對(duì)不同的詞語(yǔ)長(zhǎng)度施加不同的權(quán)重因子來(lái)計(jì)算.本文研究的是新聞文本數(shù)據(jù),在文本中往往詞語(yǔ)的長(zhǎng)度越長(zhǎng),蘊(yùn)藏的信息量就越多,所以本文選擇比例法給詞長(zhǎng)因子賦值,式(6)為計(jì)算公式.

(6)

在式(6)中,len(W)代表關(guān)鍵詞長(zhǎng)度,max(l)表示文本中最長(zhǎng)的關(guān)鍵詞.

3)詞位置因子.詞語(yǔ)在文本中的位置對(duì)于文本類別的判定很重要.在新聞文本中,標(biāo)題與文章內(nèi)容的符合度一般在98%以上,標(biāo)題一般能代表整篇文章的含義,重要程度最高,所以標(biāo)題要被賦予最高權(quán)重.文章首句一般起到概括全文,總領(lǐng)全局的作用,末句一般起到總結(jié)上文,呼應(yīng)主題的作用,這兩句話一般為文章的中心句所在,表達(dá)含義豐富,重要程度僅次于標(biāo)題,賦予權(quán)重值應(yīng)比標(biāo)題略低,比文中的其他詞語(yǔ)高.所以,針對(duì)上述詞位置(Word Location)因子的計(jì)算公式為式(7)所示.

(7)

4)詞跨度因子.詞跨度(Word Span)的具體含義是關(guān)鍵詞在文本中第一次出現(xiàn)的位置與最后一次出現(xiàn)的位置之間的距離,反映了詞語(yǔ)在文本中出現(xiàn)的范圍大小.通常來(lái)講,詞跨度越大,說(shuō)明詞語(yǔ)在文章中分布范圍越廣,詞語(yǔ)越能代表文章的類型.相反,詞跨度越小,說(shuō)明詞語(yǔ)出現(xiàn)的范圍越集中,只出現(xiàn)在整個(gè)文本中的一部分,不能很好地概括全文主旨.假如某詞語(yǔ)在文中的一定范圍內(nèi)集中出現(xiàn),會(huì)對(duì)全文的關(guān)鍵詞提取造成較大影響,所以本文使用詞跨度因子過(guò)濾局部高頻詞,避免這一問(wèn)題的發(fā)生,計(jì)算公式如式(8)所示.

(8)

其中,las(T)為詞T在文本d中最后一次出現(xiàn)的序列值,fir(T)為詞T在文本d中首次出現(xiàn)的序列值,SumWords(d)為文本d中詞語(yǔ)數(shù)之和.所以,原始的TF-IDF算法經(jīng)由詞性、詞長(zhǎng)、詞位置、詞跨度等組合特征改進(jìn)后形成改進(jìn)算法的計(jì)算公式如式(9)所示:

CTF-TF-IDF=TF×IDF×[POS(W)+WL(W)+WP(W)+WS(T,d)].

(9)

2.2 結(jié)合離散度的改進(jìn)(TF-IDF-Dis)

離散度表示詞語(yǔ)間的分散程度.相比于在多個(gè)類型間出現(xiàn)的高頻詞而言,在同一類型間出現(xiàn)的高頻詞分布更集中,更能代表所屬類型.所以,對(duì)在同一類型間的高頻詞賦予較高的離散系數(shù),對(duì)于不同類型間高頻詞賦予較低的離散系數(shù).結(jié)合離散度后,改進(jìn)后的算法能很好地區(qū)分詞語(yǔ)在不同類型間的分布.

離散系數(shù)可以作為一個(gè)權(quán)重因子乘到TF-IDF的算法當(dāng)中,可以很好地改進(jìn)關(guān)鍵詞在不同類型間分布不均的情況.基于上述離散程度的概念,具體的改進(jìn)過(guò)程如下.

(10)

2) 使用標(biāo)準(zhǔn)差除以第1步求得的平均詞頻,求取各類型之間的離散度,即離散系數(shù),如式(11)表示:

(11)

3) 使用TF-IDF乘以離散系數(shù)就得到原始算法對(duì)于離散程度的改進(jìn),如式(12)所示:

TF-IDF-Dis=TFi,j×IDFi×Dis.

(12)

當(dāng)關(guān)鍵詞只出現(xiàn)同種類型的文本中時(shí),集中效果最好,能較好體現(xiàn)文檔的重要程度,取離散系數(shù)的最大值為1,當(dāng)關(guān)鍵詞在語(yǔ)料庫(kù)中的所有類別中都出現(xiàn)時(shí),說(shuō)明詞語(yǔ)較為分散,不能體現(xiàn)某個(gè)類型文本的重要程度,取離散系數(shù)最小值為0.

至此,對(duì)特征項(xiàng)進(jìn)行評(píng)估時(shí)就不在僅僅考慮關(guān)鍵詞出現(xiàn)的文本個(gè)數(shù)在語(yǔ)料庫(kù)中的整體分布情況.而是融合進(jìn)了關(guān)鍵詞與類別之間的關(guān)系,使算法的準(zhǔn)確率更高.

2.3 NewTF-IDF的實(shí)現(xiàn)

上文中的兩節(jié)內(nèi)容分別是對(duì)原始TF-IDF算法進(jìn)行的組合特征改進(jìn)和離散度改進(jìn).改進(jìn)后的算法更符合邏輯,更加高效.

算法公式是由式(9)得出的CTF-TF-IDF算法及由式(12)得出的TF-IDF-Dis算法融合,生成新的算法公式NewTF-IDF,NewTF-IDF的具體計(jì)算過(guò)程如式(13)所示:

(13)

NewTF-IDF實(shí)現(xiàn)的流程如圖2所示.

圖2 NewTF-IDF算法實(shí)現(xiàn)流程Fig.2 NewTF-IDF algorithm implementation process

3 實(shí)驗(yàn)方案及結(jié)果分析

本文在上一章分別介紹了TF-IDF算法的原理及優(yōu)缺點(diǎn),并且基于組合特征和離散度分別提出了CTF-TF-IDF算法和TF-IDF-Dis算法,都在一定程度上對(duì)原始TF-IDF算法進(jìn)行了改進(jìn).最終融合二者不同的改進(jìn)特點(diǎn),生成NewTF-IDF算法,算法不僅在詞性等多組合因素上進(jìn)行了改進(jìn),還在特征項(xiàng)與類間關(guān)系處進(jìn)行了改進(jìn).為了驗(yàn)證算法改進(jìn)后的具體效果,本文在此設(shè)計(jì)一個(gè)對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證,并結(jié)合原始TF-IDF算法、基于組合特征改進(jìn)的CTF-TF-IDF算法和基于離散度改進(jìn)的TF-IDF-Dis算法共同對(duì)比分析.

3.1 實(shí)驗(yàn)數(shù)據(jù)

搜狗實(shí)驗(yàn)室是由搜狗核心團(tuán)隊(duì)研發(fā),對(duì)外推出的一個(gè)交流窗口,內(nèi)含豐富的數(shù)據(jù)資源,本章節(jié)所使用的新聞數(shù)據(jù)為搜狗實(shí)驗(yàn)室中的全網(wǎng)新聞數(shù)據(jù)集和搜狐新聞數(shù)據(jù)集.在搜狗實(shí)驗(yàn)室下載完數(shù)據(jù)之后,先進(jìn)行文本預(yù)處理,即分詞、去停用詞,目的是避免無(wú)用數(shù)據(jù)影響實(shí)驗(yàn)效率,提升分類精確度.

從搜狗實(shí)驗(yàn)室下載的數(shù)據(jù)共包含國(guó)內(nèi)、國(guó)際、體育、社會(huì)、娛樂(lè)等共18個(gè)類別,此數(shù)據(jù)來(lái)源豐富,權(quán)威性高,被各大領(lǐng)域頻繁使用,適用于文本分類的研究.為方便實(shí)驗(yàn),本文從數(shù)據(jù)集中抽取5個(gè)最具代表意義的類別,分別為教育、文化、財(cái)經(jīng)、科技、體育等進(jìn)行實(shí)驗(yàn).由于每個(gè)類別的文本個(gè)數(shù)不一樣,為使實(shí)驗(yàn)精度上升,避免數(shù)據(jù)不平衡干擾結(jié)果,本文分別從5個(gè)類別中選取2萬(wàn)條新聞數(shù)據(jù)進(jìn)行研究.所以本實(shí)驗(yàn)的新聞文本數(shù)據(jù)集為10萬(wàn)條.

3.2 實(shí)驗(yàn)方案

① 從搜狗實(shí)驗(yàn)室下載全網(wǎng)新聞數(shù)據(jù)集與搜狐新聞數(shù)據(jù)集,進(jìn)行去詞和去停用詞等文本預(yù)處理操作.② 用Python自帶的第三方開(kāi)源庫(kù)sklearn庫(kù)對(duì)數(shù)據(jù)進(jìn)行處理.使用庫(kù)中自帶的train_test_split方法把新聞數(shù)據(jù)進(jìn)行劃分,劃分的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,劃分范圍是依據(jù)此方法中test_size的默認(rèn)參數(shù)0.25,表示數(shù)據(jù)中訓(xùn)練集占到75%,測(cè)試集占到25%.最終得到劃分后訓(xùn)練集文本75 000條,驗(yàn)證集文本25 000條.③ 使用傳統(tǒng)的TF-IDF、CTF-TF-IDF、TF-IDF-Dis方法以及最終融合的NewTF-IDF方法在訓(xùn)練集上進(jìn)行特征項(xiàng)提取.④ 用樸素貝葉斯分類器對(duì)上述4種算法提取出的特征項(xiàng)進(jìn)行分類.分類時(shí),拉普拉斯平滑系數(shù)使用1.0,訓(xùn)練好數(shù)據(jù)后,使用驗(yàn)證集進(jìn)行驗(yàn)證.驗(yàn)證效果好壞使用精確率P、召回率R、綜合值F1進(jìn)行衡量.效果指標(biāo)越高,代表數(shù)據(jù)特征提取方法越科學(xué).

3.3 結(jié)果與分析

根據(jù)上述實(shí)驗(yàn)步驟得到的4種特征提取算法的分類效果如表1所示,使用P、R、F1 3種指標(biāo)來(lái)描述特征提取的效果,表中數(shù)值越高,代表效果越好.從表1可以看出,本文改進(jìn)的三種算法較傳統(tǒng)的TF-IDF算法的分類效果在各項(xiàng)指標(biāo)上都有提升.尤其是最終融合的NewTF-IDF算法提升效果尤為顯著.從各項(xiàng)指標(biāo)的平均值來(lái)看,在精確率P上,NewTF-IDF比傳統(tǒng)TF-IDF的值高了8.17%,比CTF-TF-IDF提升了3.72%,比TF-IDF-Dis提升了3.12%.在召回率R上,NewTF-IDF比傳統(tǒng)TF-IDF的值高了10.03%,比CTF-TF-IDF提升了5.15%,比TF-IDF-Dis提升了4.65%.在F1上,NewTF-IDF比傳統(tǒng)TF-IDF的值高了9.37%,比CTF-TF-IDF提升了4.44%,比TF-IDF-Dis提升了4.04%.

表1 4種特征提取算法的分類效果Tab.1 The classification effect of four feature extraction algorithms

為了更加直觀清晰的展示改進(jìn)的特征提取算法對(duì)分類器分類的指標(biāo)提升效果,本文根據(jù)表1中的數(shù)據(jù)繪制了4種分類算法的平均P、R、F1值對(duì)比圖,如圖3所示.由圖3可知,通過(guò)折線圖的趨勢(shì)可以快速直觀的看出NewTF-IDF算法在3項(xiàng)指標(biāo)上的數(shù)值均領(lǐng)先于其他算法,證明本文對(duì)特征項(xiàng)提取的改進(jìn)頗具成效.各算法在不同類別下的F1值如圖4所示.

圖3 四種分類算法的平均P、R、F1值 圖4 各算法在不同類別下的F1值Fig.3 Average P,R and F1 values of the four classification algorithms Fig.4 F1 value of each algorithm under different categories

在3項(xiàng)評(píng)價(jià)指標(biāo)中,F(xiàn)1值是精確率P和召回率R加權(quán)調(diào)和的平均值,最具有代表性,圖4為4種算法在不同類別中的提取效果的F1值.可以看出CTF-TF-IDF和TF-IDF-Dis在各類別較于傳統(tǒng)TF-IDF都有提升,且NewTF-IDF在各類別的F1值都高于其他類別,證明本文算法改進(jìn)的科學(xué)合理性.

4 結(jié)語(yǔ)

隨著時(shí)代的更迭、科技的進(jìn)步,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚囊徊糠?基于中國(guó)龐大的人口體系,互聯(lián)網(wǎng)上的數(shù)據(jù)每天都呈爆炸式的增長(zhǎng),大量的數(shù)據(jù)堆積下,肯定有一些數(shù)據(jù)對(duì)于人們的生產(chǎn)、生活、研究等存在價(jià)值.文本數(shù)據(jù)是數(shù)據(jù)傳輸最基礎(chǔ)的媒介,針對(duì)文本關(guān)鍵字獲取不精確、判別條件缺乏等問(wèn)題,本文提出一種結(jié)合多組合特征因子及離散程度的特征提取算法NewTF-IDF.實(shí)驗(yàn)表明,NewTF-IDF在文本特征詞提取方面有更高的準(zhǔn)確率.

猜你喜歡
語(yǔ)料庫(kù)權(quán)重詞語(yǔ)
容易混淆的詞語(yǔ)
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補(bǔ)償性辱虐管理行為?*
平行語(yǔ)料庫(kù)在翻譯教學(xué)中的應(yīng)用研究
找詞語(yǔ)
權(quán)重常思“浮名輕”
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
權(quán)重漲個(gè)股跌 持有白馬藍(lán)籌
一枚詞語(yǔ)一門靜
語(yǔ)篇元功能的語(yǔ)料庫(kù)支撐范式介入
松江区| 林周县| 鲁甸县| 罗甸县| 莒南县| 沁水县| 锦屏县| 乌海市| 乐业县| 乌拉特后旗| 财经| 万年县| 永靖县| 依兰县| 筠连县| 宾阳县| 松桃| 同江市| 鄂托克旗| 桦甸市| 任丘市| 高邑县| 喀喇沁旗| 阿克陶县| 岚皋县| 竹溪县| 方正县| 榆中县| 连州市| 沧源| 永泰县| 马边| 龙泉市| 冕宁县| 拜泉县| 龙门县| 曲靖市| 丰原市| 育儿| 临城县| 礼泉县|