江澤裔 吳志剛
摘 要:文本分類(lèi)一直是自然語(yǔ)言處理中一個(gè)備受關(guān)注的問(wèn)題,在郵件分類(lèi)、文件檢索、用戶情感識(shí)別等領(lǐng)域有著廣闊的應(yīng)用。同時(shí)人工智能飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域取得了巨大的成功,本文則在傳統(tǒng)方法基礎(chǔ)上,將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在中文短文本分類(lèi)任務(wù)中。與英文文本不同,中文文本文字連貫、搭配豐富,從而存在著文本的特征維度高,特征稀疏等問(wèn)題。本文將卷積神經(jīng)網(wǎng)絡(luò)和Word2vec的Skip-gram方法結(jié)合,應(yīng)用在短文本分類(lèi)中。首先利用Skip-gram得到文本的詞向量表示,然后用卷積神經(jīng)網(wǎng)絡(luò)從向量化的文本中提取特征,在用這些提取出來(lái)的特征進(jìn)行文本分類(lèi)。實(shí)驗(yàn)結(jié)果與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比較,獲得了更高的準(zhǔn)確性,驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)在短文本分類(lèi)中的有效性。
關(guān)鍵詞:卷積神經(jīng)網(wǎng) 絡(luò)文本分類(lèi) 機(jī)器學(xué)習(xí)
中圖分類(lèi)號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2018)05(a)-0013-03
隨著信息技術(shù)的普及以及存儲(chǔ)介質(zhì)的發(fā)展,人們所接觸的文本信息正在呈指數(shù)級(jí)增長(zhǎng),在整理、篩選和處理文本信息耗費(fèi)的時(shí)間和精力也越來(lái)越多。智能的文本分類(lèi)算法在快速整理海量文件庫(kù),提高篩選效率等工作中有著重要意義。
針對(duì)文本分類(lèi)的課題,國(guó)內(nèi)外學(xué)者都有廣泛的研究。傳統(tǒng)的文本分類(lèi)方法有向量空間法、K-最近鄰、決策樹(shù)、支持向量機(jī)等方法[1]。這些方法在文本分類(lèi)中取得了不錯(cuò)的效果,但是在表示短文本時(shí)會(huì)出現(xiàn)特征向量維度過(guò)高和數(shù)據(jù)稀疏的問(wèn)題,同時(shí)這些特征值不能夠保存詞語(yǔ)的語(yǔ)法信息和相關(guān)的語(yǔ)義信息。針對(duì)這個(gè)問(wèn)題,H.Saif,et al提出了SentiCircles的方法動(dòng)態(tài)的更新字典中詞匯的權(quán)值,從而表達(dá)文本的含義[2]。Agarwal,et al提出了通過(guò)自然語(yǔ)言的語(yǔ)法形式等手段來(lái)進(jìn)行特征提取[3]。這些方法雖然能夠提取更多的特征信息,但是這些條件同時(shí)也限制了特征提取的泛化能力[4]。
同時(shí),深度學(xué)習(xí)的蓬勃發(fā)展,在圖像識(shí)別,語(yǔ)音識(shí)別等領(lǐng)域的成功應(yīng)用,使得其很多的理論基礎(chǔ)和先進(jìn)技術(shù)自然的被引用在自然語(yǔ)言處理的領(lǐng)域。
Yoon Kim使用了含有一個(gè)卷積層的卷積神經(jīng)網(wǎng)絡(luò)對(duì)英文斷句進(jìn)行分類(lèi),對(duì)比了隨機(jī)初始化、預(yù)訓(xùn)練詞向量、靜態(tài)輸入矩陣和動(dòng)態(tài)輸入矩陣等不同的方法,并得出靜態(tài)輸入矩陣的模型分類(lèi)效果較好[5]。Kalchbrenner提出來(lái)一種名為動(dòng)態(tài)卷積網(wǎng)絡(luò)(DCNN)的模型,該模型采用了動(dòng)態(tài)池化的方法,不需要先驗(yàn)知識(shí)的輸入,也不需要人工提取特征[5]。Baotian Hu,et al則利用卷積神經(jīng)網(wǎng)絡(luò)則關(guān)注對(duì)英文短句的建模,通過(guò)設(shè)置一個(gè)最大句子長(zhǎng)度,對(duì)相對(duì)較短的句子采用0填充的方式解決解決不同長(zhǎng)度句子輸入的問(wèn)題[6]。
然而,傳統(tǒng)方法通常關(guān)注文本的統(tǒng)計(jì)信息,忽略了詞匯、句子之間的結(jié)構(gòu)關(guān)系,同時(shí),中文文本內(nèi)容表達(dá)多樣,蘊(yùn)含意蘊(yùn)深厚,語(yǔ)句結(jié)構(gòu)信息是不可或缺的一部分。本文將采用一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法,不僅僅包含文本詞匯信息,還加入了詞匯結(jié)構(gòu)上的特征,應(yīng)用于文本分類(lèi)問(wèn)題中,并取得了良好的實(shí)驗(yàn)結(jié)果。
1 文本分類(lèi)的過(guò)程
文本分類(lèi)是指將給定文本按其內(nèi)容特點(diǎn)歸到一個(gè)或多個(gè)預(yù)先定義的文本類(lèi)別的過(guò)程,主要包括文本預(yù)處理,文本表示、特征選擇、特征提取、分類(lèi)器分類(lèi)。
1.1 文本預(yù)處理
與英文不同,中文文本在預(yù)處理時(shí),通常要完成兩個(gè)步驟:首先對(duì)文本進(jìn)行分詞,將一整段文本分割成獨(dú)立的詞匯,另外中文短文本中含有較多維持文本結(jié)構(gòu)的停用詞,往往是“的”“地”“我們”等。這些詞匯不僅不能反映文本的主旨,還會(huì)對(duì)提取關(guān)鍵詞等操作產(chǎn)生較大的影響,因此需將其過(guò)濾。為了使得結(jié)果有意義,訓(xùn)練文本和測(cè)試文本需使用相同的預(yù)處理方法,即相同的分詞方法,相同的刪去停用詞規(guī)則,以及相同的特征選擇和文本表示方式[1,7]。
1.2 文本表示
對(duì)處理過(guò)的文本信息進(jìn)行合理的建模,使得計(jì)算機(jī)能夠高效的處理。通常建模方法有向量空間模型,布爾模型和概率模型等。向量空間模型是目前使用最廣泛的一種文本表示方式。該模型通過(guò)構(gòu)造一個(gè)多維度的向量空間,每一個(gè)維度表示特征集中的一個(gè)特征詞,使得文本之間的相似度可以通過(guò)向量之間的相似度來(lái)計(jì)算。
1.3 特征選擇和特征提取
短文本經(jīng)過(guò)預(yù)處理之后,特征詞的數(shù)量很多,直接利用這些特征詞進(jìn)行分類(lèi)容易引起維度災(zāi)難等問(wèn)題。同時(shí),還有一部分的特征詞在分類(lèi)算法中的貢獻(xiàn)較小,甚至?xí)?duì)分類(lèi)結(jié)果產(chǎn)生更差的影響。通常會(huì)對(duì)預(yù)處理之后的特征集進(jìn)行特選擇或特征提取。
特征選擇是在當(dāng)前的特征集中,選擇有利于算法分類(lèi)的子集,而特征提取則將當(dāng)前的特征集轉(zhuǎn)化成另一種表現(xiàn)形式,是將原來(lái)的特征集變?yōu)楦邔哟胃映橄蟮募稀?/p>
常用的特征選擇方法有信息增益(Information Gain)和互信息(Mutual Information)等。特征提取的方法則有隱性語(yǔ)義索引(LSI)以及潛在狄利克雷分配模型(LDA)等主題模型的方式。近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)、Doc2vec模型等方法也有很大的發(fā)展,并獲得很不錯(cuò)的結(jié)果。
經(jīng)過(guò)特征選擇或特征提取的后,最終得到短文本的詞向量表示方式,再選擇不同的分類(lèi)算法對(duì)其進(jìn)行分類(lèi)處理[1]。
2 實(shí)驗(yàn)過(guò)程
為驗(yàn)證CNN在短文本數(shù)據(jù)集上的分類(lèi)效果,本文對(duì)比了CNN、SVM和KNN這3種方法,并結(jié)合各個(gè)算法的特點(diǎn)分析了實(shí)驗(yàn)結(jié)果[8,9]。
2.1 數(shù)據(jù)預(yù)處理
本次實(shí)驗(yàn)選用的數(shù)據(jù)庫(kù)是搜狐實(shí)驗(yàn)室中新聞?lì)惖奈谋緮?shù)據(jù),包括汽車(chē)、財(cái)經(jīng)、IT等10個(gè)類(lèi)別,共約10萬(wàn)篇文檔。并使用jieba中文分詞組件對(duì)文本進(jìn)行分詞,jieba中文分詞組件還擁有詞性標(biāo)注功能,能夠?qū)φZ(yǔ)句分詞后的每個(gè)詞匯標(biāo)注詞性,這樣就能根據(jù)詞性刪去大部分的停用詞。以文本中財(cái)經(jīng)類(lèi)的一段文本為例:
原始文本:這家公司2005年年底注冊(cè)用戶達(dá)到400萬(wàn),計(jì)劃今年注冊(cè)用戶突破1000萬(wàn),號(hào)稱是國(guó)內(nèi)最大的第三方網(wǎng)絡(luò)支付平臺(tái)。
分詞結(jié)果:這家/公司/2005/年/年底/注冊(cè)/用戶/達(dá)到/400/萬(wàn)/,/計(jì)劃/今年/注冊(cè)/用戶/突破/1000/萬(wàn)/,/號(hào)稱/是/國(guó)內(nèi)/最大/的/第三方/網(wǎng)絡(luò)/支付/平臺(tái)/。
去除停用詞:這家公司注冊(cè)用戶達(dá)到計(jì)劃注冊(cè)用戶突破號(hào)稱國(guó)內(nèi)最大網(wǎng)絡(luò)支付平臺(tái)分詞完成之后,用Word2vec方法將字詞轉(zhuǎn)為計(jì)算機(jī)可以理解的稠密向量。Word2vec分為CBOW和Skip-Gram兩種模式,由于本次實(shí)驗(yàn)的訓(xùn)練文本數(shù)量充足,Skip-gram模型的表現(xiàn)更佳,則將每個(gè)特征詞通過(guò)Skip-gram模型得到一個(gè)維度為100的特征向量,使得文本信息能夠被計(jì)算機(jī)所識(shí)別和計(jì)算
2.2 實(shí)驗(yàn)過(guò)程
本次研究中選擇的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,文本預(yù)處理完成生成的詞向量,經(jīng)由輸入層輸入到卷積層中,卷積層之后是一個(gè)池化層,最后通過(guò)全連接層輸出結(jié)果。
Ye Zhang,et al基于Yoon Kim的研究結(jié)果,測(cè)試了不同結(jié)構(gòu),不同參數(shù)設(shè)置的神經(jīng)網(wǎng)絡(luò)在文本分類(lèi)實(shí)驗(yàn)中的性能。通過(guò)對(duì)比實(shí)驗(yàn),卷積核深度為100~200,同時(shí)詞向量的維度在100~200,卷積核的大小為3×3,4×4,5×5時(shí)效果較好。本次試驗(yàn)中。模型在數(shù)據(jù)集上訓(xùn)練過(guò)程如圖2所示。
從圖2中可以看出,經(jīng)過(guò)迭代訓(xùn)練,模型收斂情況良好,當(dāng)?shù)螖?shù)超過(guò)1000次時(shí),模型分類(lèi)精度在90%以上,超過(guò)5000次迭代后,模型精度達(dá)到95%。
實(shí)驗(yàn)設(shè)計(jì)了卷積神經(jīng)網(wǎng)絡(luò)方法與另外兩種常用的分類(lèi)方法對(duì)比,隨機(jī)選取了汽車(chē)、財(cái)經(jīng)和旅游3個(gè)領(lǐng)域的短文本進(jìn)行測(cè)試。
從表1可以看出,不同方法在測(cè)試數(shù)據(jù)集上的表現(xiàn)差異較大,KNN方法在整體上遜色于SVM和CNN方法,同時(shí)SVM方法與CNN方法的效果大致相當(dāng),但CNN方法的總體表現(xiàn)略好于SVM方法。
3 結(jié)果分析
KNN通過(guò)測(cè)試短文本與訓(xùn)練庫(kù)中的短文本相似度來(lái)進(jìn)行分類(lèi)的,與其附近K個(gè)短文本中相同類(lèi)別最多的那些文本同類(lèi),這種方法存在著較大的弊端,首先不同領(lǐng)域的文本可能存在著較多的相似內(nèi)容,比如,有關(guān)“自駕游”的文本可能存在著較多汽車(chē)的內(nèi)容,但并非屬于汽車(chē)類(lèi)。
SVM的分類(lèi)效果也很好,但由于CNN中還存在著文章詞匯結(jié)構(gòu)的信息,這些信息在分類(lèi)過(guò)程中也有比較重要的作用,例如,開(kāi)頭結(jié)尾處的詞匯往往是與文章主旨相關(guān),因此卷積神經(jīng)網(wǎng)絡(luò)的性能會(huì)略勝一籌。
4 結(jié)語(yǔ)
本文實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)在中文文本分類(lèi)中的應(yīng)用,并在中文短文本分類(lèi)上取得了較好的效果。較之傳統(tǒng)方法,該方法提高了分類(lèi)精度,且自動(dòng)的提取特征,不需要人為的設(shè)計(jì),實(shí)現(xiàn)過(guò)程更加方便快捷。
但是該模型仍有需要改進(jìn)的地方。神經(jīng)網(wǎng)絡(luò)模型通常存在著訓(xùn)練周期長(zhǎng),參數(shù)調(diào)整較難的情況,在保證模型分類(lèi)精度的同時(shí),引入其他算法以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率將是之后研究的重中之重。
參考文獻(xiàn)
[1] 朱磊.基于Word2vec詞向量的文本分類(lèi)研究[D].西南大學(xué),2017.
[2] Saif H, He Y, Alani H. Semantic sentiment analysis of twitter[A]. International semantic web conference[C]. 2012:508-524.
[3] Agarwal A, Xie B, Vovsha I, et al. Sentiment analysis of twitter data[A]. Proceedings of the workshop on languages in social media[C].2011:30-38.
[4] Kouloumpis E,Wilson T,Moore JD.Twitter sentiment analysis: The good the bad and the omg[A]. International Conference on Weblogs & Social Media[C].2011:164.
[5] Kim Y. Convolutional neural networks for sentence classification[D].Cornell University,2014.
[6] Hu B,Lu Z,Li H,et al.Convolutional neural network architectures for matching natural language sentences[A].Advances in neural information processing systems[C].2014:2042-2050.
[7] 石志偉,劉濤,吳功宜.一種快速高效的文本分類(lèi)方法[J].計(jì)算機(jī)工程與應(yīng)用,2005(29):180-183.
[8] 平源.基于支持向量機(jī)的聚類(lèi)及文本分類(lèi)研究[D].北京郵電大學(xué),2012.
[9] 殷亞博,楊文忠,楊慧婷,等.基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類(lèi)算法研究[J].計(jì)算機(jī)工程,2017(5):1-6.