国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于類別主題詞集的加權(quán)相似度短文本分類

2022-09-16 06:49王小楠黃衛(wèi)東
關(guān)鍵詞:主題詞類別向量

王小楠,黃衛(wèi)東

(南京郵電大學(xué) 管理學(xué)院,江蘇 南京 210003)

0 引 言

在互聯(lián)網(wǎng)快速發(fā)展的信息時(shí)代,各主流平臺(tái)每天都會(huì)產(chǎn)生數(shù)以萬(wàn)計(jì)的信息,其中短文本的數(shù)量更是數(shù)不勝數(shù)。因此對(duì)短文本的研究有非常長(zhǎng)遠(yuǎn)的意義和廣闊的前景。對(duì)于文本處理的技術(shù)也越來(lái)越先進(jìn)。

短文本分類是自然語(yǔ)言處理的一部分,廣泛應(yīng)用于數(shù)據(jù)挖掘、知識(shí)檢索、情感分類等領(lǐng)域。針對(duì)短文本分類的方法,有統(tǒng)計(jì)的方法和機(jī)器學(xué)習(xí)的方法,深度學(xué)習(xí)近年來(lái)在自然語(yǔ)言處理領(lǐng)域也發(fā)揮了強(qiáng)大的作用。但是短文本分類最大的問(wèn)題在于長(zhǎng)度短,特征數(shù)量少,特征稀疏,提取短文本有用的特征才是對(duì)短文本分類最大的挑戰(zhàn)[1]。針對(duì)這個(gè)問(wèn)題,有很多的學(xué)者進(jìn)行探索,都試圖去擴(kuò)展短文本的特征來(lái)進(jìn)行短文本分類。該文在詞層面上,沒(méi)有對(duì)短文本進(jìn)行擴(kuò)展,而是充分利用詞向量來(lái)計(jì)算詞語(yǔ)間的語(yǔ)義信息,對(duì)短文本進(jìn)行分類。

1 相關(guān)研究

對(duì)于短文本的分類,包括傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)習(xí)方法和深度學(xué)習(xí)方法。

趙曉平用TF-IDF提取短文本中頻率為前N的詞語(yǔ)進(jìn)行Word2Vec向量表示,再計(jì)算文本空間距離進(jìn)行分類[2];TF-IDF算法解決了短文本分類中外部語(yǔ)料依賴的問(wèn)題,但在計(jì)算文本特征時(shí)存在權(quán)重集中和文本區(qū)分度低的問(wèn)題。因此,Duan提出了一種基于卡方統(tǒng)計(jì)和TF-IWF算法的短文本分類方法,在準(zhǔn)確率、召回率、F值上均有提高[3]。Zhou提出了一種基于語(yǔ)義擴(kuò)展的短文本算法,通過(guò)涉及Word2Vec和LDA模型,以提高經(jīng)常因語(yǔ)義依賴和特征稀缺而惡化的分類性能[4]。蓋璇計(jì)算分詞權(quán)重,提出構(gòu)建郵件的特征空間,將郵件特征量化[5];霍光煜用LDA主題模型和K-means聚類算法構(gòu)建模型,對(duì)于新的短文本則采用fast-text深度學(xué)習(xí)進(jìn)行檔案數(shù)據(jù)的智能分類[6]。余本功提出一種結(jié)合主題模型和詞向量的方法構(gòu)建SVM的輸入空間向量,并融合集成學(xué)習(xí)的方式提出的nBD-SVM 文本分類模型[7]。

Zhang針對(duì)短文本分類數(shù)據(jù)不足的問(wèn)題,提出了一種基于TextCNN的中文短文本分類模型,利用回譯實(shí)現(xiàn)數(shù)據(jù)增廣,彌補(bǔ)了訓(xùn)練數(shù)據(jù)的不足[8]。段丹丹利用BERT模型表示短文本的特征向量,再輸入softmax模型進(jìn)行回歸訓(xùn)練和分類[9]。付靜提出改進(jìn)的BERT模型,把詞向量和位置向量作為模型的輸入,通過(guò)多頭注意力機(jī)制獲取長(zhǎng)距離的語(yǔ)義關(guān)系來(lái)提取短文本特征,其次利用Word2Vec融合主題模型來(lái)拓展短文本的特征表示[10]。張斌艷提出基于半監(jiān)督圖的神經(jīng)網(wǎng)絡(luò)模型,在模型構(gòu)建中引入了詞項(xiàng)和文檔之間的關(guān)系來(lái)增強(qiáng)短文本的表示[11]。雷明珠在reslCNN模型的基礎(chǔ)上,引入神經(jīng)主題模型,將信息存儲(chǔ)在記憶網(wǎng)絡(luò)中,加入序列因素,最后,將其輸入具有殘差結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)以及雙向GRU中,提取局部以及全局的語(yǔ)義特征進(jìn)行分類[12]。王渤茹在對(duì)短文本的特征提取階段,對(duì)比了三種方法,其中基于字詞向量的雙路卷積神經(jīng)網(wǎng)絡(luò)比單一的卷積神經(jīng)網(wǎng)絡(luò)效果更好,在此基礎(chǔ)上,提出了深度神經(jīng)決策森林的分類算法[13]。

盡管深度學(xué)習(xí)在自然語(yǔ)言處理方面效果驚人,但是現(xiàn)有的傳統(tǒng)方法利用外部知識(shí)來(lái)處理短文本的稀疏性和歧義性,由于忽略了上下文相關(guān)的特征,準(zhǔn)確率仍有待提高。Liu針對(duì)這個(gè)問(wèn)題將上下文相關(guān)特征與基于時(shí)間卷積網(wǎng)絡(luò)(TCN)和CNN的多階段注意力模型相結(jié)合,并證實(shí)了方法的有效性[14]。Cheng針對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)和雙向長(zhǎng)短期記憶(BiLSTM)無(wú)法區(qū)分重要性詞的問(wèn)題,提出一種改進(jìn)的基于ERNIE_BiGRU模型的分類方法,提高了計(jì)算速度和分類效果[15]。

針對(duì)短文本特征稀疏,分類困難的問(wèn)題,該文提出一種基于類別主題詞集的加權(quán)相似度的短文本分類。選擇出最能代表各類別的詞語(yǔ)組成類別主題詞集,通過(guò)計(jì)算關(guān)鍵詞到主題詞的加權(quán)相似度來(lái)選擇短文本的類別。解決了短文本特征稀疏、特征抽取難度大的問(wèn)題。

2 基于類別主題詞集的加權(quán)相似度分類

針對(duì)短文本存在的數(shù)據(jù)稀疏和特征選擇難度大的問(wèn)題,提出的模型和傳統(tǒng)的特征拓展不同,而是計(jì)算短文本的關(guān)鍵詞和類別主題詞之間的加權(quán)相似度來(lái)對(duì)短文本進(jìn)行分類。該文提出的基于類別主題詞集的加權(quán)相似度算法,其核心思想是通過(guò)TF-IDF選取各類別下的類別主題詞,保留各詞語(yǔ)的TF-IDF值,使用Word2Vec訓(xùn)練出詞向量模型,將短文本預(yù)處理之后的關(guān)鍵詞與各類別下的主題詞的相似度進(jìn)行加權(quán)求和,選擇相似度最大的類別作為短文本的類別。

基于主題詞集的加權(quán)相似度短文本分類算法主要分為四個(gè)模塊:關(guān)鍵詞提取模塊,對(duì)短文本關(guān)鍵詞進(jìn)行分詞、去停用詞處理;類別主題詞模塊,選擇最能代表本類別的詞語(yǔ)構(gòu)成類別主題詞集;詞向量訓(xùn)練模塊,基于內(nèi)部數(shù)據(jù)語(yǔ)料使用Word2Vec訓(xùn)練詞向量,得到詞向量模型;算法分類模塊,將短文本關(guān)鍵詞和類別主題詞相似度進(jìn)行計(jì)算,融合主題詞的權(quán)重,以進(jìn)行分類。框架設(shè)計(jì)如圖1所示。

圖1 框架設(shè)計(jì)

2.1 word2vector模型

word2vector是詞語(yǔ)向量化表示的升級(jí)。從傳統(tǒng)的獨(dú)熱編碼發(fā)展到根據(jù)上下文語(yǔ)義更好地表示詞語(yǔ)。word2vector也叫詞嵌入,詞向量是神經(jīng)網(wǎng)絡(luò)算法進(jìn)行N-gram語(yǔ)言模型訓(xùn)練過(guò)程中的一個(gè)副產(chǎn)品,并能夠在訓(xùn)練過(guò)程中得到詞的向量化表示。語(yǔ)言模型訓(xùn)練時(shí)的目標(biāo)函數(shù)為:

其中,m表示文檔的數(shù)量,n表示每篇文檔的單詞數(shù),p((wij|contextij))表示在上下文為contextij的條件下wij出現(xiàn)的概率。詞向量就是最大化上述目標(biāo)函數(shù)時(shí)的產(chǎn)物。word2vector提供了兩種經(jīng)典的語(yǔ)言模型進(jìn)行訓(xùn)練,分別是CBOW和Skip-gram模型。CBOW是根據(jù)上下文詞語(yǔ)來(lái)預(yù)測(cè)中間詞語(yǔ)。Skip-gram模型與CBOW模型不同,是利用當(dāng)前詞推測(cè)上下文中的相關(guān)詞匯。在訓(xùn)練過(guò)程中,兩種架構(gòu)又各有側(cè)重:CBOW在詞向量的訓(xùn)練速度方面表現(xiàn)出色;Skip-gram雖然在訓(xùn)練速度上較慢,但是其訓(xùn)練低頻詞的效果較好。在該文的模型中需要訓(xùn)練全部的特征詞,所以選擇Skip-gram模型。

2.2 類別主題詞集和貢獻(xiàn)度

主題詞要能最大程度地反映類別信息。將各個(gè)類別下的詞語(yǔ)按照TF-IDF值來(lái)對(duì)詞語(yǔ)進(jìn)行降序排序。選取前TOP-N個(gè)詞語(yǔ)作為類別的主題詞集Ni。主題詞反映類別的不同程度用貢獻(xiàn)度來(lái)表示,并將主題詞的TF-IDF值作為主題詞對(duì)類別的貢獻(xiàn)度。在對(duì)新聞標(biāo)題文本進(jìn)行分詞,去停用詞之后,將所有文本用作語(yǔ)料庫(kù)。TF表示短文本中詞語(yǔ)出現(xiàn)的頻率,IDF表示出現(xiàn)這個(gè)詞語(yǔ)的類別數(shù)。則TF-IDF的計(jì)算方法如公式2:

(2)

其中,wij表示某一類別中的特定詞語(yǔ)出現(xiàn)的次數(shù),∑wj表示特定類別的詞語(yǔ)總數(shù),n表示類別總數(shù),wi表示含有這一詞語(yǔ)的類別數(shù)。為了防止對(duì)數(shù)的真數(shù)和分式的分母為零,用上述公式進(jìn)行修正。

2.3 關(guān)鍵詞到類別的相似度

短文本的關(guān)鍵詞為Mi,主題詞為Ni,短文本中的關(guān)鍵詞到主題詞的相似度用余弦公式(公式3)來(lái)計(jì)算。并且考慮到各類別下的主題詞的TF-IDF值差距過(guò)大會(huì)對(duì)結(jié)果產(chǎn)生影響,所以每個(gè)類別下相同順序的詞語(yǔ)權(quán)重值取平均值作為第TOP-N詞的權(quán)重。用主題詞的TF-IDF值來(lái)代表主題詞對(duì)類別的貢獻(xiàn)度。每個(gè)關(guān)鍵詞與類別的相似度用模型f(xi)表示(公式4),xij表示的是短文本的第i個(gè)關(guān)鍵詞與第j個(gè)主題詞的相似度。貢獻(xiàn)度體現(xiàn)在模型的權(quán)重w中。

(3)

f(xi)=w1xi1+w2xi2+…+wixij+…+wnxin

(4)

因此,短文本到類別的相似度為g(x),如公式5所示。

(5)

選擇短文本相似度最大的類別作為短文本的類別。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集以及數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)在內(nèi)存為16G的windows10系統(tǒng)上進(jìn)行,使用的編程語(yǔ)言為python3.6,編譯器為jupyter notebook。

實(shí)驗(yàn)?zāi)康氖菫榱藴y(cè)試基于類別主題詞集的加權(quán)相似度算法的分類效果。該文使用公開(kāi)的THUCNews語(yǔ)料庫(kù)。THUCNews語(yǔ)料庫(kù)是新浪新聞RSS訂閱頻道2005年—2011年的數(shù)據(jù),共有74萬(wàn)篇新聞文檔,14個(gè)類別。選取其中房產(chǎn)、股票、教育、社會(huì)、時(shí)政、體育、游戲7個(gè)類別的文本進(jìn)行實(shí)驗(yàn)。其中每個(gè)類別訓(xùn)練集為18 000條數(shù)據(jù),測(cè)試集為1 000和2 000條,并將1 000條和2 000條數(shù)據(jù)結(jié)果進(jìn)行對(duì)比。具體實(shí)驗(yàn)數(shù)據(jù)如表1所示。

表1 新聞數(shù)據(jù)集

首先將所有數(shù)據(jù)進(jìn)行分詞和去停用詞處理。選取每個(gè)類別下TF-IDF值為前TOP-50的特征詞作為類別主題詞,如教育類的TOP-30主題詞和TF-IDF值,如圖2所示,‘考研’一詞對(duì)教育類別的貢獻(xiàn)度最高。

圖2 教育類別主題詞集

考慮到各類別下的主題詞的TF-IDF值差距過(guò)大會(huì)對(duì)結(jié)果產(chǎn)生影響,所以每個(gè)類別下相同順序的詞語(yǔ)權(quán)重值取平均值作為第TOP-N詞的權(quán)重,因此選取各類別下TOP順序在同一位置的特征詞的TF-IDF值進(jìn)行平均,得到TOP-50個(gè)主題詞的權(quán)重,如圖3所示。

圖3 各類別平均權(quán)重

3.2 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)中采用精確率(PR)、召回率(RC)、調(diào)和平均值(F1)來(lái)評(píng)價(jià)模型的分類效果,其計(jì)算方法如下。三個(gè)指標(biāo)分別來(lái)評(píng)估測(cè)試集為1 000和2 000時(shí)的精確率、召回率和調(diào)和平均值。

(6)

(7)

(8)

其中,TP是正確地預(yù)測(cè)為正例,F(xiàn)P是錯(cuò)誤地預(yù)測(cè)為正例,F(xiàn)N是錯(cuò)誤地預(yù)測(cè)為反例。精確率(公式6)是正確地被預(yù)測(cè)為正例(TP)占所有實(shí)際被預(yù)測(cè)為正例(TP+FP)的比例,召回率(公式7)是正確地被預(yù)測(cè)為正例(TP)占所有應(yīng)該被預(yù)測(cè)為正例(TP+FN)的比例,F(xiàn)1是PR和RC的調(diào)和平均值(公式8)。

3.3 詞向量模型對(duì)召回率的影響

使用Python環(huán)境下的Gensim庫(kù)訓(xùn)練詞向量模型,Skip-gram模型中,window表示窗口大小,size表示詞向量的維度。通過(guò)不斷增加size的大小,分類召回率在不斷變化。當(dāng)window設(shè)置為8,size大小為15時(shí),達(dá)到曲線的拐點(diǎn),此時(shí)的召回率最高,達(dá)到了88.9%,在此基礎(chǔ)上通過(guò)調(diào)節(jié)參數(shù)window的大小,當(dāng)window為16時(shí),達(dá)到最高召回率91%,如圖4所示,選用此時(shí)的Skip-gram模型訓(xùn)練并計(jì)算關(guān)鍵詞與各類別詞的相似度。

圖4 召回率隨size的變化情況

3.4 基于類別主題詞集的加權(quán)相似度分類算法

如第一條測(cè)試集數(shù)據(jù)為[詞匯 閱讀 關(guān)鍵 考研 暑期 英語(yǔ) 復(fù)習(xí) 指南],類別標(biāo)記為教育類別,標(biāo)簽數(shù)字為2,短文本到各類別的相似度分別為[0.319 846 16,0.287 555 1,0.475 932 26,0.334 259 93,0.296 793 82,0.294 998 77,0.323 647 86],由此判斷此條新聞標(biāo)題屬于教育類別,分類正確。圖5展示了社會(huì)類別數(shù)據(jù)的分類結(jié)果,社會(huì)類別標(biāo)簽為3,預(yù)測(cè)正確的是類別3,預(yù)測(cè)錯(cuò)誤的是3以外的其他標(biāo)簽數(shù)字。

圖5 社會(huì)類別分類結(jié)果

3.5 實(shí)驗(yàn)結(jié)果分析

在測(cè)試集為1 000條和2 000時(shí),測(cè)試文中方法在分類任務(wù)上的分類效果,各類別的精確率、召回率以及調(diào)和平均值如表2所示。

表2 各類別分類指標(biāo)

表2顯示文中分類方法在數(shù)據(jù)集各個(gè)領(lǐng)域類別均能獲得滿意的分類效果,是一種有效的分類算法。其中房產(chǎn)領(lǐng)域效果尤其明顯,在時(shí)政類別效果略遜色于其他類別??赡軙r(shí)政類別新聞標(biāo)題的內(nèi)容較短,而這里基于所有標(biāo)題同樣長(zhǎng)度來(lái)訓(xùn)練Word2Vec所導(dǎo)致的。

將文中方法與三種基于單一模型的分類方法(KNN、Logistic分類、決策樹(shù)分類)進(jìn)行比較,表3展示了測(cè)試集為1 000時(shí)各種算法的精確率(PR)、召回率(RC)和調(diào)和平均值(F1)。

表3 算法對(duì)比結(jié)果 %

表3顯示,前三種基于單一模型的分類方法中,基于決策樹(shù)的分類算法效果最差,表明決策樹(shù)分類模型并不適用于文本分類,決策樹(shù)需要足夠多的特征支持,要想取得一個(gè)較好的效果,須從數(shù)據(jù)中構(gòu)建非常多的特征,做大量的特征工程相關(guān)工作,但是短文本特征稀疏,因此決策樹(shù)并不適合處理高維稀疏矩陣數(shù)據(jù);與三種基于單一模型的分類方法相比,文中方法相較KNN算法、Logistic回歸算法、決策樹(shù)分類算法在精確率上分別提高了2.9%、1.8%、10.2%;在召回率上分別提升了3.0%、1.7%、10.4%;在調(diào)和平均值上分別提高了3.1%、1.8%、10.4%。用加權(quán)相似度算法融合詞向量與類別主題詞集對(duì)短文本進(jìn)行建模,能夠更精細(xì)在詞層面表示文本的語(yǔ)義信息,從而提高短文本的分類效果。

4 結(jié)束語(yǔ)

提出了一種基于類別主題詞集的加權(quán)相似度算法,在詞的層面充分利用詞向量和詞語(yǔ)之間的相似性來(lái)進(jìn)行文本分類,并且還探索了詞向量維度的大小對(duì)結(jié)果的影響。與其他分類算法相比具有一定的優(yōu)勢(shì),例如和機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的算法相比,適合數(shù)據(jù)量不多的情況,無(wú)監(jiān)督學(xué)習(xí)不需要過(guò)多數(shù)據(jù)進(jìn)行訓(xùn)練和學(xué)習(xí),算法簡(jiǎn)單,分類速度快。但是該模型中的權(quán)重選取過(guò)于簡(jiǎn)單,缺乏依據(jù)。后續(xù)將重點(diǎn)研究如何通過(guò)訓(xùn)練得出最優(yōu)的權(quán)重組合。

猜你喜歡
主題詞類別向量
向量的分解
一起去圖書館吧
簡(jiǎn)析基于概率預(yù)測(cè)的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
取消公文主題詞的真正原因是什么?
公文主題詞消失的原因淺析
對(duì)公文中主題詞標(biāo)引的思考
選相紙 打照片
衡南县| 威海市| 旬阳县| 汾西县| 仲巴县| 平昌县| 上饶县| 北京市| 来宾市| 濉溪县| 广州市| 怀来县| 鲁山县| 平乐县| 喀喇| 商河县| 桂平市| 洛隆县| 交口县| 鄂伦春自治旗| 惠州市| 安岳县| 新宾| 江城| 平凉市| 兴和县| 景泰县| 庄浪县| 卢氏县| 南通市| 抚远县| 冀州市| 山丹县| 五大连池市| 隆林| 昌乐县| 达尔| 资讯 | 沂水县| 盈江县| 若羌县|