基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類(lèi)方法

2018-10-26 11:32江澤裔吳志剛

科技資訊 2018年13期

江澤裔吳志剛

摘要：文本分類(lèi)一直是自然語(yǔ)言處理中一個(gè)備受關(guān)注的問(wèn)題，在郵件分類(lèi)、文件檢索、用戶情感識(shí)別等領(lǐng)域有著廣闊的應(yīng)用。同時(shí)人工智能飛速發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域取得了巨大的成功，本文則在傳統(tǒng)方法基礎(chǔ)上，將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在中文短文本分類(lèi)任務(wù)中。與英文文本不同，中文文本文字連貫、搭配豐富，從而存在著文本的特征維度高，特征稀疏等問(wèn)題。本文將卷積神經(jīng)網(wǎng)絡(luò)和Word2vec的Skip-gram方法結(jié)合，應(yīng)用在短文本分類(lèi)中。首先利用Skip-gram得到文本的詞向量表示，然后用卷積神經(jīng)網(wǎng)絡(luò)從向量化的文本中提取特征，在用這些提取出來(lái)的特征進(jìn)行文本分類(lèi)。實(shí)驗(yàn)結(jié)果與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比較，獲得了更高的準(zhǔn)確性，驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)在短文本分類(lèi)中的有效性。

關(guān)鍵詞：卷積神經(jīng)網(wǎng) 絡(luò)文本分類(lèi) 機(jī)器學(xué)習(xí)

中圖分類(lèi)號(hào)：TP391.4 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-3791（2018）05（a）-0013-03

隨著信息技術(shù)的普及以及存儲(chǔ)介質(zhì)的發(fā)展，人們所接觸的文本信息正在呈指數(shù)級(jí)增長(zhǎng)，在整理、篩選和處理文本信息耗費(fèi)的時(shí)間和精力也越來(lái)越多。智能的文本分類(lèi)算法在快速整理海量文件庫(kù)，提高篩選效率等工作中有著重要意義。

針對(duì)文本分類(lèi)的課題，國(guó)內(nèi)外學(xué)者都有廣泛的研究。傳統(tǒng)的文本分類(lèi)方法有向量空間法、K-最近鄰、決策樹(shù)、支持向量機(jī)等方法[1]。這些方法在文本分類(lèi)中取得了不錯(cuò)的效果，但是在表示短文本時(shí)會(huì)出現(xiàn)特征向量維度過(guò)高和數(shù)據(jù)稀疏的問(wèn)題，同時(shí)這些特征值不能夠保存詞語(yǔ)的語(yǔ)法信息和相關(guān)的語(yǔ)義信息。針對(duì)這個(gè)問(wèn)題，H.Saif，et al提出了SentiCircles的方法動(dòng)態(tài)的更新字典中詞匯的權(quán)值，從而表達(dá)文本的含義[2]。Agarwal，et al提出了通過(guò)自然語(yǔ)言的語(yǔ)法形式等手段來(lái)進(jìn)行特征提取[3]。這些方法雖然能夠提取更多的特征信息，但是這些條件同時(shí)也限制了特征提取的泛化能力[4]。

同時(shí)，深度學(xué)習(xí)的蓬勃發(fā)展，在圖像識(shí)別，語(yǔ)音識(shí)別等領(lǐng)域的成功應(yīng)用，使得其很多的理論基礎(chǔ)和先進(jìn)技術(shù)自然的被引用在自然語(yǔ)言處理的領(lǐng)域。

Yoon Kim使用了含有一個(gè)卷積層的卷積神經(jīng)網(wǎng)絡(luò)對(duì)英文斷句進(jìn)行分類(lèi)，對(duì)比了隨機(jī)初始化、預(yù)訓(xùn)練詞向量、靜態(tài)輸入矩陣和動(dòng)態(tài)輸入矩陣等不同的方法，并得出靜態(tài)輸入矩陣的模型分類(lèi)效果較好[5]。Kalchbrenner提出來(lái)一種名為動(dòng)態(tài)卷積網(wǎng)絡(luò)（DCNN）的模型，該模型采用了動(dòng)態(tài)池化的方法，不需要先驗(yàn)知識(shí)的輸入，也不需要人工提取特征[5]。Baotian Hu，et al則利用卷積神經(jīng)網(wǎng)絡(luò)則關(guān)注對(duì)英文短句的建模，通過(guò)設(shè)置一個(gè)最大句子長(zhǎng)度，對(duì)相對(duì)較短的句子采用0填充的方式解決解決不同長(zhǎng)度句子輸入的問(wèn)題[6]。

然而，傳統(tǒng)方法通常關(guān)注文本的統(tǒng)計(jì)信息，忽略了詞匯、句子之間的結(jié)構(gòu)關(guān)系，同時(shí)，中文文本內(nèi)容表達(dá)多樣，蘊(yùn)含意蘊(yùn)深厚，語(yǔ)句結(jié)構(gòu)信息是不可或缺的一部分。本文將采用一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法，不僅僅包含文本詞匯信息，還加入了詞匯結(jié)構(gòu)上的特征，應(yīng)用于文本分類(lèi)問(wèn)題中，并取得了良好的實(shí)驗(yàn)結(jié)果。

1 文本分類(lèi)的過(guò)程

文本分類(lèi)是指將給定文本按其內(nèi)容特點(diǎn)歸到一個(gè)或多個(gè)預(yù)先定義的文本類(lèi)別的過(guò)程，主要包括文本預(yù)處理，文本表示、特征選擇、特征提取、分類(lèi)器分類(lèi)。

1.1 文本預(yù)處理

與英文不同，中文文本在預(yù)處理時(shí)，通常要完成兩個(gè)步驟：首先對(duì)文本進(jìn)行分詞，將一整段文本分割成獨(dú)立的詞匯，另外中文短文本中含有較多維持文本結(jié)構(gòu)的停用詞，往往是“的”“地”“我們”等。這些詞匯不僅不能反映文本的主旨，還會(huì)對(duì)提取關(guān)鍵詞等操作產(chǎn)生較大的影響，因此需將其過(guò)濾。為了使得結(jié)果有意義，訓(xùn)練文本和測(cè)試文本需使用相同的預(yù)處理方法，即相同的分詞方法，相同的刪去停用詞規(guī)則，以及相同的特征選擇和文本表示方式[1，7]。

1.2 文本表示

對(duì)處理過(guò)的文本信息進(jìn)行合理的建模，使得計(jì)算機(jī)能夠高效的處理。通常建模方法有向量空間模型，布爾模型和概率模型等。向量空間模型是目前使用最廣泛的一種文本表示方式。該模型通過(guò)構(gòu)造一個(gè)多維度的向量空間，每一個(gè)維度表示特征集中的一個(gè)特征詞，使得文本之間的相似度可以通過(guò)向量之間的相似度來(lái)計(jì)算。

1.3 特征選擇和特征提取

短文本經(jīng)過(guò)預(yù)處理之后，特征詞的數(shù)量很多，直接利用這些特征詞進(jìn)行分類(lèi)容易引起維度災(zāi)難等問(wèn)題。同時(shí)，還有一部分的特征詞在分類(lèi)算法中的貢獻(xiàn)較小，甚至?xí)?duì)分類(lèi)結(jié)果產(chǎn)生更差的影響。通常會(huì)對(duì)預(yù)處理之后的特征集進(jìn)行特選擇或特征提取。

特征選擇是在當(dāng)前的特征集中，選擇有利于算法分類(lèi)的子集，而特征提取則將當(dāng)前的特征集轉(zhuǎn)化成另一種表現(xiàn)形式，是將原來(lái)的特征集變?yōu)楦邔哟胃映橄蟮募稀?/p>

常用的特征選擇方法有信息增益（Information Gain）和互信息（Mutual Information）等。特征提取的方法則有隱性語(yǔ)義索引（LSI）以及潛在狄利克雷分配模型（LDA）等主題模型的方式。近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)、Doc2vec模型等方法也有很大的發(fā)展，并獲得很不錯(cuò)的結(jié)果。

經(jīng)過(guò)特征選擇或特征提取的后，最終得到短文本的詞向量表示方式，再選擇不同的分類(lèi)算法對(duì)其進(jìn)行分類(lèi)處理[1]。

2 實(shí)驗(yàn)過(guò)程

為驗(yàn)證CNN在短文本數(shù)據(jù)集上的分類(lèi)效果，本文對(duì)比了CNN、SVM和KNN這3種方法，并結(jié)合各個(gè)算法的特點(diǎn)分析了實(shí)驗(yàn)結(jié)果[8，9]。

2.1 數(shù)據(jù)預(yù)處理

本次實(shí)驗(yàn)選用的數(shù)據(jù)庫(kù)是搜狐實(shí)驗(yàn)室中新聞?lì)惖奈谋緮?shù)據(jù)，包括汽車(chē)、財(cái)經(jīng)、IT等10個(gè)類(lèi)別，共約10萬(wàn)篇文檔。并使用jieba中文分詞組件對(duì)文本進(jìn)行分詞，jieba中文分詞組件還擁有詞性標(biāo)注功能，能夠?qū)φZ(yǔ)句分詞后的每個(gè)詞匯標(biāo)注詞性，這樣就能根據(jù)詞性刪去大部分的停用詞。以文本中財(cái)經(jīng)類(lèi)的一段文本為例：

原始文本：這家公司2005年年底注冊(cè)用戶達(dá)到400萬(wàn)，計(jì)劃今年注冊(cè)用戶突破1000萬(wàn)，號(hào)稱是國(guó)內(nèi)最大的第三方網(wǎng)絡(luò)支付平臺(tái)。

分詞結(jié)果：這家/公司/2005/年/年底/注冊(cè)/用戶/達(dá)到/400/萬(wàn)/，/計(jì)劃/今年/注冊(cè)/用戶/突破/1000/萬(wàn)/，/號(hào)稱/是/國(guó)內(nèi)/最大/的/第三方/網(wǎng)絡(luò)/支付/平臺(tái)/。

去除停用詞：這家公司注冊(cè)用戶達(dá)到計(jì)劃注冊(cè)用戶突破號(hào)稱國(guó)內(nèi)最大網(wǎng)絡(luò)支付平臺(tái)分詞完成之后，用Word2vec方法將字詞轉(zhuǎn)為計(jì)算機(jī)可以理解的稠密向量。Word2vec分為CBOW和Skip-Gram兩種模式，由于本次實(shí)驗(yàn)的訓(xùn)練文本數(shù)量充足，Skip-gram模型的表現(xiàn)更佳，則將每個(gè)特征詞通過(guò)Skip-gram模型得到一個(gè)維度為100的特征向量，使得文本信息能夠被計(jì)算機(jī)所識(shí)別和計(jì)算

2.2 實(shí)驗(yàn)過(guò)程

本次研究中選擇的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，文本預(yù)處理完成生成的詞向量，經(jīng)由輸入層輸入到卷積層中，卷積層之后是一個(gè)池化層，最后通過(guò)全連接層輸出結(jié)果。

Ye Zhang，et al基于Yoon Kim的研究結(jié)果，測(cè)試了不同結(jié)構(gòu)，不同參數(shù)設(shè)置的神經(jīng)網(wǎng)絡(luò)在文本分類(lèi)實(shí)驗(yàn)中的性能。通過(guò)對(duì)比實(shí)驗(yàn)，卷積核深度為100～200，同時(shí)詞向量的維度在100～200，卷積核的大小為3×3，4×4，5×5時(shí)效果較好。本次試驗(yàn)中。模型在數(shù)據(jù)集上訓(xùn)練過(guò)程如圖2所示。

從圖2中可以看出，經(jīng)過(guò)迭代訓(xùn)練，模型收斂情況良好，當(dāng)?shù)螖?shù)超過(guò)1000次時(shí)，模型分類(lèi)精度在90%以上，超過(guò)5000次迭代后，模型精度達(dá)到95%。

實(shí)驗(yàn)設(shè)計(jì)了卷積神經(jīng)網(wǎng)絡(luò)方法與另外兩種常用的分類(lèi)方法對(duì)比，隨機(jī)選取了汽車(chē)、財(cái)經(jīng)和旅游3個(gè)領(lǐng)域的短文本進(jìn)行測(cè)試。

從表1可以看出，不同方法在測(cè)試數(shù)據(jù)集上的表現(xiàn)差異較大，KNN方法在整體上遜色于SVM和CNN方法，同時(shí)SVM方法與CNN方法的效果大致相當(dāng)，但CNN方法的總體表現(xiàn)略好于SVM方法。

3 結(jié)果分析

KNN通過(guò)測(cè)試短文本與訓(xùn)練庫(kù)中的短文本相似度來(lái)進(jìn)行分類(lèi)的，與其附近K個(gè)短文本中相同類(lèi)別最多的那些文本同類(lèi)，這種方法存在著較大的弊端，首先不同領(lǐng)域的文本可能存在著較多的相似內(nèi)容，比如，有關(guān)“自駕游”的文本可能存在著較多汽車(chē)的內(nèi)容，但并非屬于汽車(chē)類(lèi)。

SVM的分類(lèi)效果也很好，但由于CNN中還存在著文章詞匯結(jié)構(gòu)的信息，這些信息在分類(lèi)過(guò)程中也有比較重要的作用，例如，開(kāi)頭結(jié)尾處的詞匯往往是與文章主旨相關(guān)，因此卷積神經(jīng)網(wǎng)絡(luò)的性能會(huì)略勝一籌。

4 結(jié)語(yǔ)

本文實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)在中文文本分類(lèi)中的應(yīng)用，并在中文短文本分類(lèi)上取得了較好的效果。較之傳統(tǒng)方法，該方法提高了分類(lèi)精度，且自動(dòng)的提取特征，不需要人為的設(shè)計(jì)，實(shí)現(xiàn)過(guò)程更加方便快捷。

但是該模型仍有需要改進(jìn)的地方。神經(jīng)網(wǎng)絡(luò)模型通常存在著訓(xùn)練周期長(zhǎng)，參數(shù)調(diào)整較難的情況，在保證模型分類(lèi)精度的同時(shí)，引入其他算法以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率將是之后研究的重中之重。

參考文獻(xiàn)

[1] 朱磊.基于Word2vec詞向量的文本分類(lèi)研究[D].西南大學(xué)，2017.

[2] Saif H， He Y， Alani H. Semantic sentiment analysis of twitter[A]. International semantic web conference[C]. 2012：508-524.

[3] Agarwal A， Xie B， Vovsha I， et al. Sentiment analysis of twitter data[A]. Proceedings of the workshop on languages in social media[C].2011：30-38.

[4] Kouloumpis E，Wilson T，Moore JD.Twitter sentiment analysis： The good the bad and the omg[A]. International Conference on Weblogs & Social Media[C].2011：164.

[5] Kim Y. Convolutional neural networks for sentence classification[D].Cornell University，2014.

[6] Hu B，Lu Z，Li H，et al.Convolutional neural network architectures for matching natural language sentences[A].Advances in neural information processing systems[C].2014：2042-2050.

[7] 石志偉，劉濤，吳功宜.一種快速高效的文本分類(lèi)方法[J].計(jì)算機(jī)工程與應(yīng)用，2005（29）：180-183.

[8] 平源.基于支持向量機(jī)的聚類(lèi)及文本分類(lèi)研究[D].北京郵電大學(xué)，2012.

[9] 殷亞博，楊文忠，楊慧婷，等.基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類(lèi)算法研究[J].計(jì)算機(jī)工程，2017（5）：1-6.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于卷積神經(jīng)網(wǎng)絡(luò)的短文本分類(lèi)方法