基于集成神經(jīng)網(wǎng)絡的短文本分類模型

2018-07-19 02:31高云龍左萬利

吉林大學學報（理學版） 2018年4期

高云龍, 左萬利, 王英, 王鑫

(1. 吉林大學計算機科學與技術(shù)學院, 長春 130012; 2. 吉林大學符號計算與知識工程教育部重點實驗室, 長春 130012;3. 長春工程學院計算機技術(shù)與工程學院, 長春 130012)

0 引言

深度學習網(wǎng)絡在計算機視覺、語音識別等領(lǐng)域中已取得許多成果[3]；在自然語言處理領(lǐng)域, 深度學習網(wǎng)絡雖沒有取得系統(tǒng)性的突破, 但也受到廣泛關(guān)注[4]. 卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNN)通過結(jié)合局部感知區(qū)域、共享權(quán)重、空間或時間上的降采樣, 充分利用數(shù)據(jù)本身包含的局部性等特征優(yōu)化網(wǎng)絡結(jié)構(gòu), 并保證一定程度上的位移及變形的不變性；相比于前饋深層神經(jīng)網(wǎng)絡, 遞歸神經(jīng)網(wǎng)絡(recurrent neural networks, RNN)更重視網(wǎng)絡的反饋作用, RNN通過增加當前狀態(tài)與過去狀態(tài)之間的聯(lián)系, 具有一定的記憶功能, 從而有利于捕獲短文本內(nèi)部結(jié)構(gòu)之間的依賴性.

短文本分類模型的構(gòu)建本質(zhì)上是學習文本數(shù)據(jù)中所包含的特征[5], 按照提取特征及分類策略的不同, 本文將短文本分類模型分為兩種：基于語義分析的短文本分類模型和基于神經(jīng)網(wǎng)絡的短文本分類模型. 基于語義分析的短文本分類模型通常通過更多關(guān)注文本內(nèi)在的語義結(jié)構(gòu)、內(nèi)容及文本間的關(guān)聯(lián), 實現(xiàn)對短文本邏輯結(jié)構(gòu)建模, 提取語義特征, 降低特征空間的維度. 在目前基于語義分析的分類模型中, 通常采用詞的分布式表示以及基于LDA(latent Dirichlet allocation)主題模型進行特征提取兩種策略. 在詞的分布式表示算法中, 短文本中的每個詞以詞向量的方式表示[6]. Ma等[7]利用Word2Vec工具在語料庫上進行訓練, 得到了短文本中詞的分布式表示, 并假設詞向量分布服從高斯分布, 利用Bayes框架得到了良好的分類效果. 文獻[8]提出了一種用于表示詞向量的全新方案：將詞向量分為兩個子向量, 分別用于提取形態(tài)以及句法、語義方面的特征, 并通過實驗證明其具有較好的表達效果. 使用LDA主題模型提取語義特征是基于語義分析的短文本分類模型中主要的一種策略, Phan等[9]通過使用pLSA和LDA在主題特征空間構(gòu)造短文本的特征向量, 并結(jié)合最大熵和支持向量機(SVMs)模型進行分類, 取得了較好的實驗結(jié)果. Chen等[10]提出了提取多粒度主題的方案, 可更好地描述短文本語義信息, 從而提高分類效果. Kim[11]首次將CNN應用到句子模型的構(gòu)建中, 并提出了幾種變形. Socher等[12]提出了基于遞歸自編碼的半監(jiān)督學習模型, 該模型可有效學習短文本中多詞短語及句子層次的特征向量表示, 在預測情感分析中取得了較好的效果. He等[13]采用多種不同類型的卷積和池化, 實現(xiàn)對句子的特征表示, 并利用所學習到的特征表示構(gòu)建句子相似度模型. Socher等[14]提出了RNTN模型, 該模型通過使用解析樹中低層的詞向量組合, 計算解析樹中高層節(jié)點的向量表示, 根節(jié)點即代表短文本的特征向量, 從而提取出短文本的語義特征. 基于神經(jīng)網(wǎng)絡的分類模型由于使用詞向量數(shù)據(jù), 并且不依賴于特定語言的句法, 因此在不同類型的數(shù)據(jù)集或不同的語言中都顯示出了良好的擴展性和有效性. 基于以上研究, 本文提出一個基于集成神經(jīng)網(wǎng)絡的短文本分類模型C-RNN, 主要貢獻包括： 1) 用CNN構(gòu)造擴展詞向量, 從而使數(shù)值詞向量可有效描述短文本中形態(tài)、句法及語義特征； 2)利用RNN網(wǎng)絡對短文本語義進行建模, 進一步構(gòu)造短文本的高級抽象特征.

1 短文本分類模型C-RNN框架

本文提出的基于集成神經(jīng)網(wǎng)絡的短文本分類模型(C-RNN)可分為如圖1所示的三部分.

1) 按文獻[8]的擴展詞向量構(gòu)造方式, 利用CNN網(wǎng)絡將短文本中的詞轉(zhuǎn)換為長度固定的詞向量；

2) 利用LSTM網(wǎng)絡進一步對短文本語義信息進行抽象, 并利用隱含節(jié)點之間的聯(lián)系編碼短文本內(nèi)部結(jié)構(gòu)之間的依賴關(guān)系；

3) 將LSTM網(wǎng)絡的輸出作為softmax分類層的輸入, 計算短文本中詞對于目標類別的概率, 從而分析短文本所屬的目標類別.

圖1 C-RNN模型結(jié)構(gòu)Fig.1 Structure of C-RNN model

2 構(gòu)建短文本分類模型C-RNN

2.1 詞向量模型

文獻[8]提出一種全新的詞向量形式, 即對于短文本中每個詞w, 其詞向量表示為u=(rw,rch), 其中: rw為詞語級別的詞向量, 用于捕獲句法、語義層次的特征； rch為字符級別的詞向量, 用于捕獲詞匯形態(tài)層次的特征. 本文采用類似的擴展詞向量表示方式, 即對于短文本中的每個詞w, 其詞向量表示為u=(rw2v,rch), 其中rw2v是由Word2Vec工具在語料庫上訓練得到的詞匯數(shù)量特征表示[15].

假設用于描述語料庫中字符特征的詞匯量為Vchr. 對于包含T個字符特征{ch1,ch2,…, chT}的詞匯w, 首先按下式將特征cht轉(zhuǎn)換為其對應的向量表示:

僅可通過線性化誤差模型辨識的誤差包括僅可過測量辨識的誤差包括δl21，δl23，δl33，δl43；僅可通過間接計算所得的誤差項包括δλ2x，δλ2z，δλ3z，δλ4z；可通過線性化誤差模型和測量辨識的誤差包括δl13，δθ13y，δθ13x，δθ21z，δθ21y，δθ23y，δθ23x，δθ33y，δθ33x，δθ43y，δθ43x。

rchr=Wchrvch,

(1)

其中: Wchr∈dchr×|Vchr|為轉(zhuǎn)換矩陣; vch∈|Vchr|為標識向量, 對應特征位置元素為1，其他位置元素置0. 此時, 詞w對應的向量組為將該向量組作為卷積層的輸入, 進一步提取特征向量：

(2)

2.2 LSTM提取短文本語義信息

LSTM(long short-term memory)是一種典型的RNN網(wǎng)絡, 不同于普通的RNN網(wǎng)絡, LSTM模塊具有忘記門、輸入門、輸出門和記憶存儲單元4個主要部分, LSTM模型的結(jié)構(gòu)如圖3所示. LSTM通過各部分的協(xié)作, 實現(xiàn)信息的記憶及長短期依賴信息的提取。短文本內(nèi)部空間區(qū)域之間存在大范圍的相互依賴性, 編碼這種依賴關(guān)系對短文本的句法、語義分析具有重要作用.

圖2 構(gòu)造字符級別特征向量模型的結(jié)構(gòu)Fig.2 Structure of constructing char-level feature vector model

圖3 LSTM模型結(jié)構(gòu)Fig.3 Structure of LSTM model

LSTM通過稱為“門”的結(jié)構(gòu)去除或增加信息到細胞狀態(tài). 門是一種使信息選擇式通過的方法, 其定義為

2.3 C-RNN模型分類層

對于詞個數(shù)為N的短文本ST中的每個詞wn, 利用LSTM網(wǎng)絡得到其語義表示hn, 并作為softmax分類器的輸入. 對于目標類別j, 得到的概率為

pj=p(j|hn;θ),

(9)

其中θ為C-RNN模型的參數(shù). 則短文本ST屬于類別j的概率為

(10)

通過以上計算可得短文本ST所屬的類別為

(11)

3 實驗分析

3.1 實驗數(shù)據(jù)集

為驗證模型的有效性, 本文采用如下幾種標準數(shù)據(jù)集進行實驗, 語料庫均可通過開源網(wǎng)站獲得.

1) SST(stanford sentiment treebank)[14], 情感分類語料庫, 每個句子作為1條影評, 共有5種類別標簽, 分別為very positive, positive, neutral, negative, very negative;

2) WSD(Web snippet dataset)[9], Web片段數(shù)據(jù)集, 共有8種類型, 包括商業(yè)、體育、健康等.

語料庫的參數(shù)列于表1, 其中：C表示目標類數(shù)；L表示平均句子長度；N表示數(shù)據(jù)集大小; |V|表示詞的規(guī)模; Test表示測試集大小.

表1 語料庫參數(shù)

3.2 卷積層隱含節(jié)點個數(shù)K對模型的影響

卷積層隱含節(jié)點作為特征提取層, 通過與前一層的局部感受相連, 并提取該局部的特征, 該局部特征一旦被提取后, 其與其他特征間的位置關(guān)系也隨之確定；由于每個節(jié)點都提取一種特征, 因此卷積層節(jié)點個數(shù)K決定CNN所提取的特征總數(shù).K值對于C-RNN模型的影響如圖4所示. 由圖4可見, 在兩組數(shù)據(jù)集中, 實驗結(jié)果一致：當K值較小時, 由于無法提取足夠的特征, 從而導致無法準確描述短文本的信息；而當K值較大時, 通常出現(xiàn)特征提取冗余的現(xiàn)象, 此外, 隱含節(jié)點個數(shù)的增加即模型參數(shù)的增長, 對于時間、空間的需求也相應提高.

3.3 稀疏化系數(shù)q值選取對模型的影響

CNN模型通過增加稀疏性約束調(diào)節(jié)模型的復雜度, 在降低模型復雜度的同時, 提高模型的分類精度. 在經(jīng)驗范圍內(nèi), 通過設置不同的q值, 得到的實驗結(jié)果如圖5所示. 由圖5可見, 當q取值過大或過小時, 模型的復雜度也隨之改變, 從而模型的分類精度也依次發(fā)生變化. 當q值過大時, 模型過于稀疏; 當q值過小時, 模型容易出現(xiàn)過擬合現(xiàn)象.

圖4 K值選取對泛化誤差的影響Fig.4 Influence of value K selection on generalization error

圖5 q值選取對泛化誤差的影響Fig.5 Influence of value q selection on generalization error

3.4 采用擴展詞向量對模型的影響

圖6 擴展詞向量與普通詞向量對模型的影響Fig.6 Influence of extended word vectors and common word vectors on models

C-RNN模型采用擴展詞向量作為模型的輸入, 相比于采用Word2Vec工具生成的普通詞向量, 擴展詞短文本中詞的形態(tài)級別特征的數(shù)值抽象, 從而使擴展詞向量可作為短文本形態(tài)、句法及語義多層次的特征描述. 相對于K值和q值的最優(yōu)解, 本文分別采用擴展詞向量及由Word2Vec工具生成的普通詞向量作為C-RNN的輸入, 得到的實驗結(jié)果如圖6所示. 由圖6可見, 擴展詞向量通過多層次的特征抽象, 相比于普通詞向量, 可更好地反映短文本的特征, 從而有利于提高模型的分類準確率.

3.5 C-RNN與其他模型的比較

將C-RNN模型與其他短文本分類模型進行對比, 對于數(shù)據(jù)集SST和WSD, 實驗結(jié)果列于表2. 由表2可見, 本文提出的C-RNN模型在短文本分類問題上具有較好的泛化能力, 實驗結(jié)果優(yōu)于大部分模型.相比于CharSCNN模型[16], C-RNN模型通過使用LSTM網(wǎng)絡增加信息記憶功能, 從而有利于捕獲短文本內(nèi)部結(jié)構(gòu)之間的依賴性, 實現(xiàn)了對短文本語義信息的建模, 提高了分類的準確性；相比于RNTN模型[14], C-RNN模型在判別短文本類別時不需要構(gòu)造句法分析器, 不依賴于某一特定語言, 具有良好的魯棒性；相比于Multi-L[10]和Proposed[7]等基于語義分析的分類模型, C-RNN模型通過集成CNN和LSTM模型, 可有效地提取從詞到短文本的數(shù)值特征, 從而構(gòu)造出更有效的抽象特征, 提高了分類精度.

綜上可見, 本文提出的C-RNN模型通過使用擴展詞向量, 可有效描述短文本中的特征信息；通過使用LSTM網(wǎng)絡增加信息記憶功能, 從而有利于捕獲短文本內(nèi)部結(jié)構(gòu)之間的依賴性, 實現(xiàn)了對短文本語義信息的建模, 提高了模型的分類效果.

表2 模型分類精度對比(%)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡