曹魯慧,鄧玉香,陳通,李釗
(1.山東大學(xué),山東 濟(jì)南 250100;2.山東財(cái)源保障評(píng)價(jià)中心,山東 濟(jì)南 250001;3.山東省電子政務(wù)大數(shù)據(jù)工程技術(shù)研究中心,山東 濟(jì)南 250014;4.齊魯工業(yè)大學(xué)(山東省科學(xué)院)山東省計(jì)算中心(國(guó)家超級(jí)計(jì)算濟(jì)南中心)山東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室, 山東 濟(jì)南 250014)
特征提取是機(jī)器學(xué)習(xí)中一項(xiàng)非常重要的特征工程任務(wù),是處理機(jī)器學(xué)習(xí)任務(wù)的關(guān)鍵,同時(shí)也是數(shù)據(jù)挖掘、信息檢索等領(lǐng)域中非常重要的一項(xiàng)內(nèi)容。在機(jī)器學(xué)習(xí)領(lǐng)域眾多的任務(wù)中,特征提取往往決定任務(wù)結(jié)果的好壞,就常用的分類(lèi)任務(wù)而言,其分類(lèi)結(jié)果的好壞同樣取決于其所提取的特征的質(zhì)量。傳統(tǒng)的特征提取方法通常是人工提取,這種方法提取的特征通常包含與分類(lèi)任務(wù)無(wú)關(guān)以及冗余的特征,此外其特征的維度通常比較大,這不僅使得模型訓(xùn)練過(guò)程效率降低、消耗資源,也會(huì)使模型過(guò)擬合并降低分類(lèi)的準(zhǔn)確率。為了解決特征維度過(guò)大、效率低下的問(wèn)題,通常會(huì)對(duì)傳統(tǒng)方法提取的特征進(jìn)行降維,在所有的特征中挑選一部分最能夠表示文本信息并使得分類(lèi)效果最好的特征子集,但是這將使得分類(lèi)任務(wù)的工作量增大。
近年來(lái)越來(lái)越多的研究者通過(guò)深度學(xué)習(xí)技術(shù)對(duì)特征進(jìn)行提取。Chen等[1]提出使用多個(gè)卷積層與池化層的卷積網(wǎng)絡(luò)來(lái)對(duì)高光譜圖像的特征進(jìn)行提取,然后將提取的特征用于圖像分類(lèi)以及目標(biāo)檢測(cè)并取得了不錯(cuò)的效果。在文本特征提取方面,Liang等[2]對(duì)文本特征提取的方法進(jìn)行了概述,介紹了常用的傳統(tǒng)特征提取方法以及基于深度學(xué)習(xí)的特征提取方法。其中基于深度學(xué)習(xí)的特征提取方法主要包括自編碼神經(jīng)網(wǎng)絡(luò)特征提取、受限波茲曼機(jī)特征提取、循環(huán)神經(jīng)網(wǎng)絡(luò)特征提取以及一些其他的特征提取方法。Saxena等[3]討論了從傳統(tǒng)的詞袋模型方法到非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法在文本分類(lèi)特征提取中的所有應(yīng)用方法,包括詞袋模型、向量空間模型、人工神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)以及深度信念網(wǎng)絡(luò)。Meng等[4]采用弱監(jiān)督多級(jí)神經(jīng)網(wǎng)絡(luò)對(duì)文本特征進(jìn)行提取。Yao等[5]使用了圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行了特征提取和分類(lèi)。因此,結(jié)合深度學(xué)習(xí)進(jìn)行文本特征提取已經(jīng)成為研究領(lǐng)域的熱點(diǎn)。
目前使用深度學(xué)習(xí)技術(shù)提取特征在圖像領(lǐng)域應(yīng)用相對(duì)比較廣泛,在文本特征提取方面文獻(xiàn)報(bào)道相對(duì)較少,尤其是針對(duì)中文文本的特征提取研究成果較為稀缺。同時(shí),使用傳統(tǒng)的手工特征提取方法提取的特征維度通常比較大,使模型訓(xùn)練效率低、消耗資源。因此使用深度學(xué)習(xí)方法對(duì)中文長(zhǎng)文本數(shù)據(jù)集進(jìn)行特征提取,能夠降低文本特征提取的難度,提高模型訓(xùn)練效率,同時(shí)也能夠更準(zhǔn)確地表示文本語(yǔ)義信息。本文使用兩種不同的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)文本特征進(jìn)行提取。一種是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)源于Kim[6]提出的用于句子分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);另一種是本文新提出的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí),使用傳統(tǒng)的TF-IDF以及Word2vec特征提取方法對(duì)文本特征進(jìn)行表示,提取的特征分別放入SVM與隨機(jī)森林分類(lèi)器中,對(duì)中國(guó)知網(wǎng)中文學(xué)術(shù)論文數(shù)據(jù)集進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明,使用卷積神經(jīng)網(wǎng)絡(luò)和卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取的高層文本特征比傳統(tǒng)方法提取的特征更能準(zhǔn)確表示文本信息,同時(shí)使用SVM和隨機(jī)森林分類(lèi)器取得的分類(lèi)效果比原生的神經(jīng)網(wǎng)絡(luò)的效果更好。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)最早應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域并且在處理計(jì)算機(jī)視覺(jué)任務(wù)上已經(jīng)比較成熟,如圖像分類(lèi)、物體檢測(cè)[7-9]、圖像分割等。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來(lái)越多的研究者將其應(yīng)用到自然語(yǔ)言處理領(lǐng)域,Kim[6]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類(lèi)并取得較好的分類(lèi)效果。鑒于卷積網(wǎng)絡(luò)在分類(lèi)任務(wù)中的應(yīng)用比較成熟,本文同樣使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)中文學(xué)術(shù)論文數(shù)據(jù)集進(jìn)行分類(lèi),并建立特征提取模型以提取網(wǎng)絡(luò)中的高層特征來(lái)表示文本的語(yǔ)義信息,使用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 常用文本特征提取卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
本文建立的卷積網(wǎng)絡(luò)特征提取模型是以上述網(wǎng)絡(luò)結(jié)構(gòu)中第8層網(wǎng)絡(luò)的輸出,作為特征提取模型的輸出即使用上述網(wǎng)絡(luò)中最高層的特征作為文本的特征向量。根據(jù)上述網(wǎng)絡(luò)結(jié)構(gòu)可知每個(gè)樣本可用128維的向量進(jìn)行表示,這將大為減少特征的維度,加快分類(lèi)器的訓(xùn)練速度,提高分類(lèi)的準(zhǔn)確率。
TF-IDF(term frequency-inverse document frequency)即詞頻-逆文檔頻率[10-12],是基于統(tǒng)計(jì)學(xué)的計(jì)算詞權(quán)重的方法,是特征向量化的一種常用方法,在信息檢索、數(shù)據(jù)挖掘等領(lǐng)域應(yīng)用非常廣泛。該方法用于評(píng)估一個(gè)詞在該文檔中對(duì)于區(qū)分語(yǔ)料庫(kù)中其他文檔的重要程度,即如果單詞出現(xiàn)在本文檔中的次數(shù)越多,在其他文檔中出現(xiàn)的次數(shù)越少,則表示該詞語(yǔ)對(duì)于這篇文檔具有越強(qiáng)的區(qū)分能力,其權(quán)重值就越大。
TF表示一個(gè)詞在該篇文檔中出現(xiàn)的頻率,用于計(jì)算這個(gè)詞描述文檔內(nèi)容的能力。其計(jì)算公式如下。
(1)
式中,ni,j表示在第j篇文檔中該詞出現(xiàn)的次數(shù),∑knk,j表示對(duì)第j篇文檔中出現(xiàn)的所有詞的次數(shù)求和。
IDF即逆文檔頻率主要是度量一個(gè)詞語(yǔ)的普遍重要性,如果一篇文檔的某個(gè)詞出現(xiàn)在語(yǔ)料庫(kù)中的大多數(shù)文檔中,則說(shuō)明該詞不能夠?qū)ξ臋n進(jìn)行區(qū)分,反之,則說(shuō)明該詞能夠?qū)⒃撈臋n與語(yǔ)料庫(kù)中的其他文檔區(qū)分開(kāi)來(lái)。某一詞語(yǔ)的IDF,是用語(yǔ)料庫(kù)中所有文檔的總數(shù)目除以含有該詞的文檔數(shù)目的商取對(duì)數(shù)。計(jì)算公式如下。
(2)
其中,|D|表示語(yǔ)料庫(kù)中所有文檔的數(shù)目,|{j:ti∈dj}|表示語(yǔ)料庫(kù)中包含詞語(yǔ)ti的文檔數(shù)目。如果詞語(yǔ)不在語(yǔ)料庫(kù)中則會(huì)導(dǎo)致分母為0,為了避免這種情況的發(fā)生,通常分母使用|{j:ti∈dj}|+1。然后
Wi,j=Ti,j×Ii,
(3)
其中,Wi,j表示所計(jì)算文本在語(yǔ)料中的TF-IDF權(quán)重,文檔內(nèi)的高頻率詞語(yǔ)以及該詞語(yǔ)在整個(gè)語(yǔ)料庫(kù)中的低文檔頻率能夠產(chǎn)生較高的TF-IDF權(quán)重值。
Word2vec[13-14]是詞嵌入的一種方式,是谷歌開(kāi)源出的一種詞嵌入工具,也是目前在自然語(yǔ)言處理領(lǐng)域應(yīng)用比較廣泛的一種詞嵌入方式。Word2vec將每個(gè)特征詞映射到向量空間,并使用一個(gè)向量進(jìn)行表示,在一定程度上刻畫(huà)了文本的語(yǔ)義信息,便于計(jì)算特征之間的關(guān)系及相似性。主要包括兩種模型,即跳字模型(skip-gram)和連續(xù)詞袋模型(CBOW)。跳字模型是根據(jù)中心詞去預(yù)測(cè)其上下文的背景詞并根據(jù)預(yù)測(cè)結(jié)果來(lái)不斷調(diào)整中心詞的詞向量。連續(xù)詞袋模型是根據(jù)上下文的背景詞去預(yù)測(cè)中心詞,然后根據(jù)中心詞的預(yù)測(cè)結(jié)果來(lái)不斷調(diào)整上下文背景詞的詞向量。在模型訓(xùn)練過(guò)程中,為了減小計(jì)算復(fù)雜度,采用負(fù)采樣(negative sampling)或分層softmax(hierarchical softmax)兩種訓(xùn)練方式。
卷積神經(jīng)網(wǎng)絡(luò)具有提取局部特征的優(yōu)勢(shì),長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)具有捕獲上下文信息的能力。因此,本文結(jié)合二者的優(yōu)勢(shì),提出一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)的文本分類(lèi)方法。該模型首先使用卷積網(wǎng)絡(luò)對(duì)輸入的文本信息進(jìn)行多組特征提取,并分別對(duì)其進(jìn)行池化以提取文本中重要的特征,然后將提取出的特征進(jìn)行融合送入LSTM神經(jīng)網(wǎng)絡(luò)并經(jīng)過(guò)全連接層輸出分類(lèi)結(jié)果。該模型包含輸入層、詞嵌入層、卷積層、池化層、LSTM網(wǎng)絡(luò)層和全連接層,如表2所示。
表2 卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
由于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型能夠取得較好的分類(lèi)效果,因此,基于該模型建立的特征提取模型提取出的高層特征能夠準(zhǔn)確地表示文本的語(yǔ)義信息。本文建立的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)特征提取模型是以上述網(wǎng)絡(luò)結(jié)構(gòu)中的第10層的輸出作為模型的輸出,根據(jù)上述模型結(jié)構(gòu)可知,每個(gè)樣本可用60維的高層特征向量進(jìn)行表示。
本文使用的學(xué)術(shù)論文數(shù)據(jù)集來(lái)源于中國(guó)知網(wǎng)上的學(xué)術(shù)論文。數(shù)據(jù)集中包含10個(gè)文獻(xiàn)類(lèi)別,分別為化學(xué)、輕工業(yè)手工業(yè)、畜牧與動(dòng)物醫(yī)學(xué)、藥學(xué)、新聞與傳媒、鐵路運(yùn)輸、兒科學(xué)、體育、物理學(xué)、農(nóng)業(yè)經(jīng)濟(jì),每個(gè)類(lèi)別選取40 000條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),其中80%的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),20%的數(shù)據(jù)集作為測(cè)試數(shù)據(jù)。每條數(shù)據(jù)都包含4列,分別為類(lèi)別、標(biāo)題、摘要、關(guān)鍵詞。實(shí)驗(yàn)中將標(biāo)題、關(guān)鍵詞、摘要合并為一條更長(zhǎng)的文本作為實(shí)驗(yàn)數(shù)據(jù)的文本信息,由于數(shù)據(jù)集為非公開(kāi)數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果數(shù)據(jù)均采用5次實(shí)驗(yàn)的平均值。
本文設(shè)計(jì)兩個(gè)對(duì)比實(shí)驗(yàn),即分別使用CNN和提出的CRNN直接對(duì)中文學(xué)術(shù)論文數(shù)據(jù)集進(jìn)行分類(lèi),建立新的文本高層特征提取模型來(lái)提取神經(jīng)網(wǎng)絡(luò)中高層的文本特征,然后將提取的文本特征分別放入支持向量機(jī)(SVM)和隨機(jī)森林分類(lèi)器中進(jìn)行分類(lèi),將得到的分類(lèi)結(jié)果進(jìn)行比對(duì)。使用文本高層特征模型提取的特征在CNN、CRNN、SVM以及隨機(jī)森林中的實(shí)驗(yàn)參數(shù)設(shè)置如表3所示,其中SVM核函數(shù)采用高斯核函數(shù)(RBF),隨機(jī)森林estimator參數(shù)設(shè)為100。
表3 CNN與CRNN文本分類(lèi)實(shí)驗(yàn)配置
TF-IDF是基于統(tǒng)計(jì)學(xué)的一種特征提取方法,本文使用TF-IDF方法對(duì)中文學(xué)術(shù)論文數(shù)據(jù)集進(jìn)行特征提取并放入SVM和隨機(jī)森林分類(lèi)器中對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類(lèi)。實(shí)驗(yàn)中設(shè)置的最大特征個(gè)數(shù)為30 000,最小文檔頻率為2。
本文使用預(yù)訓(xùn)練好的基于中文學(xué)術(shù)論文數(shù)據(jù)集的中文Word2vec詞向量模型,對(duì)中文學(xué)術(shù)論文數(shù)據(jù)集中的每個(gè)特征進(jìn)行表示,然后將每個(gè)樣本中的特征詞向量進(jìn)行求和來(lái)表示整個(gè)文本的特征向量,如下式所示。
ti=xi1⊕xi2⊕…⊕xin,
(4)
式中,ti表示第i個(gè)文本的特征向量,xin表示第i個(gè)文本中第n個(gè)特征的詞向量。
實(shí)驗(yàn)中,使用神經(jīng)網(wǎng)絡(luò)中的詞嵌入層將文本數(shù)據(jù)集中的所有文本特征一次性轉(zhuǎn)化為預(yù)訓(xùn)練好的Word2vec詞向量,而不是使用迭代的方式對(duì)每個(gè)特征詞進(jìn)行詞向量轉(zhuǎn)換,這將提高實(shí)驗(yàn)的效率,節(jié)省實(shí)驗(yàn)時(shí)間。最后將通過(guò)Word2vec詞向量生成的文本特征向量放入SVM和隨機(jī)森林分類(lèi)器中對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行分類(lèi)。
分類(lèi)結(jié)果匯總?cè)绫?所示。由實(shí)驗(yàn)結(jié)果可知,使用基于神經(jīng)網(wǎng)絡(luò)的特征提取方法提取的高層文本特征在分類(lèi)器中獲得的分類(lèi)結(jié)果比使用TF-IDF以及Word2vec方法提取的特征獲得的分類(lèi)效果更好,因此說(shuō)明使用神經(jīng)網(wǎng)絡(luò)提取的高層文本特征向量更能準(zhǔn)確地表示文本的語(yǔ)義信息。
表4 學(xué)術(shù)論文數(shù)據(jù)分類(lèi)結(jié)果
分析其中可能原因:使用TF-IDF方法對(duì)文本進(jìn)行表示時(shí)打亂了詞的順序,忽略了詞的上下文關(guān)系;使用Word2vec方法進(jìn)行文本表示時(shí),由于文本相對(duì)較長(zhǎng),使用詞的詞向量求和來(lái)表示文本向量時(shí)可能會(huì)丟失詞的語(yǔ)義信息。此外,使用神經(jīng)網(wǎng)絡(luò)特征提取模型提取的特征放入SVM和隨機(jī)森林分類(lèi)器所得的分類(lèi)效果略好于使用原生的神經(jīng)網(wǎng)絡(luò)分類(lèi)方法。
本文介紹了自然語(yǔ)言處理中文本特征提取和文本分類(lèi)的相關(guān)研究現(xiàn)狀,對(duì)比了基于深度學(xué)習(xí)和傳統(tǒng)的TF-IDF、Word2vec等文本特征提取方法。在此基礎(chǔ)上提出了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN)的文本特征提取方法,充分結(jié)合CNN在局部特征提取以及循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM具有記憶的優(yōu)勢(shì),將提取的特征前后關(guān)聯(lián),可更好地表達(dá)文本含義。經(jīng)過(guò)論文數(shù)據(jù)集文本分類(lèi)實(shí)驗(yàn)驗(yàn)證,基于深度學(xué)習(xí)的文本特征提取比傳統(tǒng)特征提取更有優(yōu)勢(shì),同時(shí)提出的算法優(yōu)于基于CNN的文本特征提取算法。下一步計(jì)劃對(duì)比更多文本特征選擇的算法,另外針對(duì)中文的文本語(yǔ)義理解,增加注意力機(jī)制,實(shí)現(xiàn)大規(guī)模長(zhǎng)文本的分類(lèi)應(yīng)用。