王子牛 王宏杰 高建瓴
摘 ?要: 文本分類是信息檢索、機器問答的基礎(chǔ)性任務(wù),是自然語言理解的一項重要語義任務(wù)。本文提出了一種基于語義強化和特征融合的(LAC)分類模型。該模型首先將Word2vec嵌入的詞向量輸入LSTM進行句子語義的提取,然后將提取的語義特征輸入Attention層進行特征的強化,同時用卷積層提取文本的局部特征,其次把強化的語義特征和利用卷積層提取的局部特征進行融合,最后經(jīng)池化層對特征進行降維,并將經(jīng)池化后的特征向量輸入到全連接層,引入Dropout防止過擬合,得到最終的分類結(jié)果。由于CNN提取特征時存在忽略上下文信息的弊端,所以提出用LATM提取上下文信息,然后進行特征的融合的方法;另外,由于LSTM在捕獲句子信息時會因為距離過長而出現(xiàn)的信息遺漏現(xiàn)象,所以提出將Attention作用于LSTM。通過實驗表明,本文提出的模型比單獨的CNN模型、以及先用LSTM提取語義信息,在進行局部特征提取的LSTM-CNN模型的效果更好。
關(guān)鍵詞: 特征融合;神經(jīng)網(wǎng)絡(luò);LSTM;Attention;自然語言處理
中圖分類號: TP391 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.01.046
本文著錄格式:王子牛,王宏杰,高建瓴. 基于語義強化和特征融合的文本分類[J]. 軟件,2020,41(01):211215
【Abstract】: Text classification is a basic task of information retrieval and machine question answering and an important semantic task of natural language understanding. This paper proposes a classification model based on semantic reinforcement and feature fusion (LAC). The model will first word sentence semantic vector input LSTM are extracted, and then extract the semantic characteristics of the input characteristics of the strengthening of the Attention layer at the same time the local characteristics of convolution layer was used to extract text, secondly to reinforce the semantic characteristics and utilization of the local characteristics of convolution layer of fusion, finally the pooling layer for feature dimension reduction, and after pooling feature vector input to full connection layer, introducing the Dropout prevent fitting, get the final classification result.Due to the disadvantage of ignoring context information when CNN extracts features, a method of extracting context information by Lstm and then fusing features is proposed. In addition, since LSTM may miss information due to the long distance when capturing sentence information, it is proposed to apply attention to LSTM.Experiments show that the model proposed in this paper is better than the CNN model alone and the LSTM model used to extract semantic information first, and the lstm-cnn model used to extract local features is better.
【Key words】: Feature fusion; The neural network; LSTM; Attention; Natural language processing
0 ?引言
隨著互聯(lián)網(wǎng)技術(shù)和科學(xué)技術(shù)的不斷發(fā)展,人們的交流溝通方式發(fā)生了翻天覆地的變化。聊天的媒介由最原始的紙質(zhì)媒介轉(zhuǎn)變?yōu)楝F(xiàn)在的電子媒介,一些新型的電子工具,例如:微博、微信、QQ等時時刻刻在影響并且改變著人們的生活。隨著海量數(shù)據(jù)的不斷產(chǎn)生,國家對人工智能[1]、大數(shù)據(jù)等新興技術(shù)的宣傳和投入,人們?nèi)绾斡行Ш侠淼睦眠@些信息漸漸成為了科研工作者的研究重點。因此,文本分類進行理論的研究以及具體的實踐,對于解決上述的問題,有著十分重要的現(xiàn)實意義。中文文本分類是自然語言處理(NLP)領(lǐng)域的一個重要分支,是信息檢索[2]、數(shù)字圖書館[3]等領(lǐng)域的基礎(chǔ)技術(shù)。傳統(tǒng)的文本表示方法存在著維數(shù)高,數(shù)據(jù)稀疏等問題,隨著深度學(xué)習(xí)在文本方面的運用,這些問題漸漸被解決。目前自然語言處理任務(wù)的兩大主流模型是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)以及他們的變體[4]。這些模型都取得了良好的效果。
文本分類技術(shù),在它的漫長的發(fā)展過程中,可以被概括為以下三個階段:基于知識工程(KE)、基于機器學(xué)習(xí)(ML)和基于神經(jīng)網(wǎng)絡(luò)(NN)。第一,探索階段(1960-1963):1960年,Maron發(fā)表了第一篇關(guān)于文本分類的論文,并對文本自動分類進行了初步研究[5];1963年,Gerald Salton提出了矢量空間模型(VSM)用于文本的表示[6]。第二,理論研究階段(1963-1989):侯漢清教授對中文文本分類的發(fā)展方向進行了理論性的指導(dǎo)同時介紹了國外計算機在自動分類系統(tǒng)、分類檢索等方面的運用。在此之后,國內(nèi)才正式開始了對中文文本分類技術(shù)的研究。1987年,王繼成等人研究出了中文文本分類系統(tǒng)。第三,應(yīng)用實踐階段(1990年至今):機器學(xué)習(xí)方法與知識工程方法相比具有精度高、易于實現(xiàn)的優(yōu)點。基于知識工程的文本分類,因其可移植性差、不可跨領(lǐng)域操作、規(guī)則制定過程繁雜等缺點,90年代末期被機器學(xué)習(xí)的分類方法[7]所取代。
深度學(xué)習(xí)最初運用于圖像識別和語音識別領(lǐng)域,近些年在自然語言處理領(lǐng)域也取得了很大的成功[8]。特別是在2014年Kim.Y提出CNN用于句子分類之后,深度學(xué)習(xí)技術(shù)逐漸取代了傳統(tǒng)的機器學(xué)習(xí)方法已成為主流文本分類技術(shù)。2015年,Lai等人提出了一種無人工特征的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)分類方法RCNN[9],大大提高了文本分類的正確性;2016年,Bahdanau等將注意力機制應(yīng)用到自然語言處理(NLP)領(lǐng)域的機器翻譯[10],在翻譯準確率上較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型有較大提高;2016年,Yang等人提出了一種用于文檔分類的層次注意力機制網(wǎng)絡(luò),在構(gòu)建文檔時對文檔內(nèi)容賦予不同的權(quán)重,簡稱HAN[11];2017年,Joulin等人提出了一種高效的文本分類模型fastText[12],Johnson和Zhang提出了一種基于單詞粒度級別的深層CNN模型,簡稱DPCNN[13],通過增加網(wǎng)絡(luò)的深度提取更加優(yōu)質(zhì)的特征,進而提高分類的性能;2018年,黃民烈教授團隊提出了一種具有自適應(yīng)注意力機制的密集型連接的卷積神經(jīng)網(wǎng)絡(luò),簡稱DCCNN[14],由于獲得的特征尺度比較豐富,注意力機制又能夠自行的選擇合適的特征用于文本分類,預(yù)測精度都有所提高;2019年,Shen和Yi kang等人提出ON-LSTM[15],這篇論文的想法是將樹結(jié)構(gòu)集成在遞歸神經(jīng)網(wǎng)絡(luò)中,在語言建模方面取得良好的性能。
深度學(xué)習(xí)在文本處理領(lǐng)域?qū)崿F(xiàn)了重大突破,獲得比較好的成績。這跟文本向量的表示和文本特征的提取有密切的關(guān)系。文本向量空間模型表示方法與神經(jīng)網(wǎng)絡(luò)的組合使得提取到的文本特征向量越來越精簡而具有代表性。深度學(xué)習(xí)雖然提供了一種有效的方法來減少人工提取特征的數(shù)量,但是這些方法仍然是需要詞匯資源,都依賴于獲得高級別的特征。
本文中提出一種基于語義強化和特征融合的模型。該模型利用長短時記憶網(wǎng)絡(luò)(LSTM)提取句子中重要的語義信息,利用自注意機制(Attention)對句子中的單詞的關(guān)聯(lián)性做進一步的強化,然后與利用CNN提取的特征進行融合。這些都沒有使用先檢的知識或者自然語言處理系統(tǒng),沒有利用任何的外部的語法信息。本文基于THUCNews新聞文本分類數(shù)據(jù)集的子集,分別對CNN、LSTM-CNN、LSTM-ATT-CNN進行了相關(guān)的實驗,結(jié)果表明本文提出模型更加具有競爭性,取得了更好的效果。
1 ?LAC模型
1.1 ?模型結(jié)構(gòu)圖
本文提出的LAC模型結(jié)構(gòu)如圖1所示。
該模型由8部分組成:
(1)輸入層:輸入句子。
(2)嵌入層:將句子中單詞利用Word2vec映射到低維度。
(3)LSTM層:利用LSTM層獲取文本語義 ? 特征。
(4)Attention層:進一步強化LSTM提取的語義特征。
(5)卷積層:提取文本的局部特征。
(6)特征融合:利用TensorFlow框架將(4)和(5)的特征融合,獲得更加科學(xué)的表達。
(7)池化層:特征降維,減少過擬合。
(8)SoftMax層:對文本進行分類。
1.2 ?文本向量化
為了機器能夠理解自然語言,首先需要將自然語言符號數(shù)學(xué)化,即文本向量化[16]。文本向量化直觀理解為將一篇文章表示為0、1向量。
文檔用Z表示,一篇文檔用Y個句子表示,句子用向量S表示。句子S由N個單詞組成, 表示一個單詞向量。S中的每一個單詞 進一步被表示為 , 是一個需要學(xué)習(xí)的參數(shù),v是指詞匯表的大小, 是指詞向量的嵌入維度。 是大小為 的向量,在索引為 的位置值為1,其他位置值為0。
1.3 ?LSTM網(wǎng)絡(luò)模型
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在學(xué)習(xí)模型參數(shù)時,隨著網(wǎng)絡(luò)層數(shù)的增加,會出現(xiàn)只有靠近輸出端的參數(shù)更新而遠離輸出端的參數(shù)難以學(xué)習(xí)和更新的情況,為了解決這個問題提出了RNN的變體長短時記憶網(wǎng)絡(luò)(LSTM)[17]。它被用于機器翻譯[18]、圖像分析[19]、語音識別[20]等許多的領(lǐng)域,漸漸成為解決自然語言處理問題的主流方向。LSTM模型如圖2所示。
2 ?實驗結(jié)果分析
2.1 ?數(shù)據(jù)集
基于THUCNews新聞文本分類數(shù)據(jù)集的子集,選取金融、房地產(chǎn)、體育、家居、教育、科技、時尚、政治、游戲、時尚等十大類作為實驗數(shù)據(jù),每個類別6500條數(shù)據(jù)。數(shù)據(jù)集語料庫分配:訓(xùn)練集5000*10,驗證集500*10,測試集1000*10。
2.2 ?實驗參數(shù)
2.3 ?實驗結(jié)果對比
本文的實驗涉及到的開發(fā)工具跟實驗環(huán)境如下:
硬件環(huán)境:CPU:Inter(R) Core(TM) i5-7500 CPU@3.4 GHz 3.41 GHz,