普次仁,侯佳林,劉 月,翟東海1,
1.西藏大學(xué) 藏文信息技術(shù)研究中心,拉薩 850000
2.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都 610031
深度學(xué)習(xí)算法在藏文情感分析中的應(yīng)用研究*
普次仁1+,侯佳林2,劉 月2,翟東海1,2
1.西藏大學(xué) 藏文信息技術(shù)研究中心,拉薩 850000
2.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都 610031
+Corresponding author:E-mail:441436418@qq.com
PU Ciren,HOU Jialin,LIU Yue,et al.Deep learning algorithm app lied in Tibetan sentiment analysis.Journalof Frontiersof Com puter Scienceand Technology,2017,11(7):1122-1130.
針對(duì)以往進(jìn)行藏文情感分析時(shí)算法忽略藏文語句結(jié)構(gòu)、詞序等重要信息而導(dǎo)致結(jié)果準(zhǔn)確率較低的問題,將深度學(xué)習(xí)領(lǐng)域內(nèi)的遞歸自編碼算法引入藏文情感分析中,以更深層次提取語義情感信息。將藏文分詞后,用詞向量表示詞語,則藏文語句變?yōu)橛稍~向量組成的矩陣;利用無監(jiān)督遞歸自編碼算法對(duì)該矩陣向量化,此時(shí)獲得的最佳藏文語句向量編碼融合了語義、語序等重要信息;利用藏文語句向量和其對(duì)應(yīng)的情感標(biāo)簽,有監(jiān)督地訓(xùn)練輸出層分類器以預(yù)測(cè)藏文語句的情感傾向。在實(shí)例驗(yàn)證部分,探討了不同向量維度、重構(gòu)誤差系數(shù)及語料庫大小對(duì)算法準(zhǔn)確度的影響,并分析了語料庫大小和模型訓(xùn)練時(shí)間之間的關(guān)系,指出若要快速完成模型的訓(xùn)練,可適當(dāng)減小數(shù)據(jù)集語句條數(shù)。實(shí)例驗(yàn)證表明,在最佳參數(shù)組合下,所提算法準(zhǔn)確度比傳統(tǒng)機(jī)器學(xué)習(xí)算法中性能較好的語義空間模型高約8.6%。
深度學(xué)習(xí);情感分析;遞歸自編碼;遞歸神經(jīng)網(wǎng)絡(luò)
文本情感分析,即針對(duì)“人們關(guān)于產(chǎn)品、服務(wù)、事件等實(shí)體的評(píng)論”等文本內(nèi)容做出的情感分類及預(yù)測(cè),在自然語言處理中占有極其重要的地位[1]。藏語作為人類語言的一種,在藏族日常文化交流和信息傳遞中極其重要,因此針對(duì)藏語的文本情感分析,在挖掘藏語文本隱藏信息,了解藏族文化特色及提高國家語言監(jiān)測(cè)力上有較大的作用[2]。而當(dāng)前的情感分析算法,大多基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)、條件隨機(jī)場(chǎng)、信息熵等。將這些算法歸納起來可分為3類:有監(jiān)督、無監(jiān)督和半監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)雖然效果不錯(cuò),但需要大量的人工標(biāo)注數(shù)據(jù)集;無監(jiān)督學(xué)習(xí)完全依賴算法,雖然減少了人力成本,但效果不太理想;而半監(jiān)督學(xué)習(xí)依賴少量人工標(biāo)注數(shù)據(jù)集,借助算法,往往可將結(jié)果發(fā)揮到最佳[3]。許多學(xué)者都利用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,對(duì)文本情感分析進(jìn)行大量的研究。文獻(xiàn)[4]利用文本特征信息分別對(duì)樸素貝葉斯、最大熵、支持向量機(jī)3種模型進(jìn)行訓(xùn)練,結(jié)果表明,支持向量機(jī)在選用一元詞作為特征時(shí)準(zhǔn)確率最高。文獻(xiàn)[5]通過分析文本中短語與正向和負(fù)向情感詞的關(guān)聯(lián)度,并計(jì)算正向關(guān)聯(lián)度和負(fù)向關(guān)聯(lián)度的差值來判斷文本極性,以進(jìn)行情感分析。文獻(xiàn)[6]提出的Dependency-Sentiment-LDA模型,將情感詞的話題語境和局部依賴關(guān)系加入進(jìn)去,大大提高了情感分析的精確度,但此模型依賴人工標(biāo)注數(shù)據(jù)集,降低了整體性能。在微博情感分析中,文獻(xiàn)[7]利用微博中文本的標(biāo)簽、表情符號(hào)等特征,訓(xùn)練分類器進(jìn)行文本情感分析。文獻(xiàn)[8]則將藏語句法結(jié)構(gòu)和語義特征向量結(jié)合起來構(gòu)建語義特征空間,進(jìn)行藏文微博的情感分析。
以上皆是淺層的機(jī)器學(xué)習(xí)算法,然而隨著大數(shù)據(jù)時(shí)代的到來[9-10],淺層學(xué)習(xí)在依靠海量信息做出分析、預(yù)測(cè)的今天,已經(jīng)越來越不能滿足人們的需求。2006年,Hinton等人[11-12]提出的深度學(xué)習(xí),以在海量數(shù)據(jù)中優(yōu)異的學(xué)習(xí)能力,給解決這一問題帶來了福音。接著,Mnih和Hinton[13]提出了一種可擴(kuò)展的分層神經(jīng)網(wǎng)絡(luò)語言模型,提高了神經(jīng)網(wǎng)絡(luò)語言模型的訓(xùn)練速度和結(jié)果精確度。文獻(xiàn)[14]提出了一種循環(huán)神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,建模時(shí)考慮語料的上下文信息,大大降低了模型的出錯(cuò)率。以上模型均忽略了文本語義的結(jié)構(gòu)信息,以致結(jié)果仍不太理想。深度學(xué)習(xí)中的遞歸自編碼模型,因?qū)⒄Z義信息融合在樹形結(jié)構(gòu)中,在文本特征提取、情感分析中表現(xiàn)優(yōu)異,受到諸多研究者的青睞。文獻(xiàn)[15-17]皆是較好的范例。文獻(xiàn)[15]首次用詞向量取代詞袋模型對(duì)詞進(jìn)行編碼,以半監(jiān)督遞歸自編碼的方式訓(xùn)練模型,取得了不錯(cuò)的分析效果。文獻(xiàn)[16]在詞向量表示詞語的基礎(chǔ)上,又引入矩陣來記錄修改與中心詞組合的詞表示法,以使預(yù)測(cè)更加準(zhǔn)確。文獻(xiàn)[17]針對(duì)文獻(xiàn)[16]中參數(shù)太多的缺點(diǎn),引入張量進(jìn)行坐標(biāo)變換,以降低整體算法的參數(shù)數(shù)量。
由于藏語是小語種語言,專門針對(duì)藏語進(jìn)行情感分析的研究少之又少,本文在廣泛閱讀前人資料的基礎(chǔ)上將深度學(xué)習(xí)算法引入藏文情感分析領(lǐng)域,以提高藏語情感分析的準(zhǔn)確度。本文所做工作大體可分為以下三部分:首先,將深度學(xué)習(xí)中的半監(jiān)督遞歸自編碼模型結(jié)合藏語特點(diǎn)引入藏文情感分析領(lǐng)域,以更深層次學(xué)習(xí)語義結(jié)構(gòu)信息,提高分析精確度;其次,探索了該模型在藏語環(huán)境下向量維度、數(shù)據(jù)集大小及重構(gòu)誤差對(duì)情感分析結(jié)果的影響,并找出最佳組合以達(dá)到最好的分析效果;最后,通過實(shí)例驗(yàn)證表明,本文模型比傳統(tǒng)的支持向量機(jī)、特征融合等情感分析準(zhǔn)確度要高。
本文利用半監(jiān)督遞歸自編碼模型并結(jié)合藏語特點(diǎn),進(jìn)行藏文情感分析。首先,對(duì)訓(xùn)練集中的藏文語句進(jìn)行分詞處理,然后利用詞向量對(duì)詞語進(jìn)行編碼,這樣一條語句可以用一個(gè)矩陣來表示;其次,引入半監(jiān)督遞歸自編碼模型,將藏文語句的矩陣表示轉(zhuǎn)換成向量;再次,將語句向量和其對(duì)應(yīng)的情感標(biāo)簽作為輸入,有監(jiān)督地訓(xùn)練輸出層,以預(yù)測(cè)藏語情感信息;最后,討論向量維度、數(shù)據(jù)集大小及重構(gòu)誤差系數(shù)對(duì)模型的影響。
2.1 用詞向量表示藏語詞語
首先,采用西藏大學(xué)藏文信息技術(shù)研究中心研發(fā)的藏語分詞軟件對(duì)訓(xùn)練集語料進(jìn)行分詞處理。然后,對(duì)詞語進(jìn)行向量編碼。如可將詞語“?? ?????????(藏族)”表示為[0.1,0.2,0.7,0.5],“??? ????(同胞)”表示為[0.9,0.5,0.6,0.4]。因此,一條分詞后的藏語句子可用矩陣表示。抽象來說,若一條語句x含有m個(gè)詞,則此語句可表示為x[1:m],句子中第k個(gè)詞可用xk表示。至于xk的向量維度,將在2.4節(jié)中討論,此處假設(shè)維度為n,則xk∈Rn,R為實(shí)數(shù)。若句子中有v個(gè)詞,則藏文語句可用矩陣L∈Rn×|v|表示。
2.2 無監(jiān)督貪心迭代
傳統(tǒng)的遞歸自編碼算法是如圖1所示,將句子中相鄰節(jié)點(diǎn)組合成新的節(jié)點(diǎn),以層層推進(jìn)的方式得到最終藏語句子的向量表示。若一條藏文語句x用向量表示為(x1,x2,…,xm),對(duì)應(yīng)的詞節(jié)點(diǎn)表示為(c1,c2,…,cm),即詞c1的向量表示為x1,詞c2的向量表示為x2,以此類推。計(jì)算c1、c2父節(jié)點(diǎn)p1的方法如式(1):
其中,w(1)∈ Rn×2n為系數(shù)矩陣;b(1)為偏置項(xiàng);f采用tanh函數(shù)。為了評(píng)估p1能否最大限度地表示原始節(jié)點(diǎn)c1、c2的信息,算法通過增加重構(gòu)層(如圖1中形如c′1、c′2的矩形節(jié)點(diǎn)所示),并計(jì)算重構(gòu)層與原始層的誤差來衡量信息前向傳輸時(shí)的損失程度,若誤差過大,將迭代調(diào)整系數(shù)矩陣的權(quán)值,直至誤差收斂。此處式(2)給出重構(gòu)層節(jié)點(diǎn)c′1、c′2的計(jì)算方法,其他節(jié)點(diǎn)可以此類推。重構(gòu)誤差的計(jì)算方法如式(3)所示。
Fig.1 Traditional recursiveauto encoders圖1 傳統(tǒng)的遞歸自編碼算法
由以上可知,傳統(tǒng)的遞歸自編碼算法是在樹形結(jié)構(gòu)已經(jīng)確定的情況下,計(jì)算整體誤差,然后調(diào)整權(quán)值,直至誤差收斂的。然而,這種固定的樹形結(jié)構(gòu),往往不能很好地表達(dá)句子的本意,即此種算法經(jīng)過參數(shù)調(diào)整后所得的誤差,仍然不是最小的。因此,本文將一種基于最佳樹結(jié)構(gòu)的遞歸自編碼算法引入藏語的文本情感分析中。此算法基于貪心迭代的思想,可以很好地將前面生成的藏文語句的矩陣表示轉(zhuǎn)換成向量表示。最佳樹的生成算法思想如下:假如一條藏文語句x中有4個(gè)詞,即x=(c1,c2,c3,c4),首先計(jì)算相鄰詞語間的重構(gòu)誤差,若(c1,c2)重構(gòu)誤差為E1,(c2c3)重構(gòu)誤差為E2,(c3,c4)重構(gòu)誤差為E3,且E2<E1<E3,則在生成樹的第一層,將選用(c2,c3)進(jìn)行組合,其父節(jié)點(diǎn)p2將進(jìn)入第二層節(jié)點(diǎn),此時(shí)第二層節(jié)點(diǎn)變?yōu)?c1,p2,c4);同理,接著計(jì)算第二層相鄰節(jié)點(diǎn)間的重構(gòu)誤差,若(c1,p2)的重構(gòu)誤差小于(p2,c4),則(c1,p2)的父節(jié)點(diǎn)p3將進(jìn)入第三層,此時(shí)第三層節(jié)點(diǎn)為(p3,c4),此時(shí)(p3,c4)的父節(jié)點(diǎn)即為該句子的最佳向量表示,整個(gè)過程以無監(jiān)督的方式生成了最佳樹結(jié)構(gòu)。
以上建樹過程,也是學(xué)習(xí)藏語句子內(nèi)部詞語間語序關(guān)系的過程,學(xué)習(xí)出的最優(yōu)樹結(jié)構(gòu),可以將整條語句的誤差降低到最小值,即這種最佳的樹結(jié)構(gòu)很好地表達(dá)了原始語義。同時(shí),為了突出樹中不同層內(nèi)節(jié)點(diǎn)間誤差對(duì)整棵樹誤差貢獻(xiàn)度不一樣,在計(jì)算重構(gòu)誤差時(shí)加入了相應(yīng)的權(quán)值,如式(4):
其中,n1、n2為當(dāng)前節(jié)點(diǎn)c1、c2下面的詞數(shù)。
計(jì)算父節(jié)點(diǎn)時(shí),可以使用式(5)進(jìn)行歸一化,以方便計(jì)算:
2.3 有監(jiān)督輸出藏語情感傾向
當(dāng)獲得藏語句子的最佳向量表示后,需要加入輸出層,輸出句子的情感傾向。此處輸出層是通過有監(jiān)督的方式訓(xùn)練的,即在句子的向量表示和其相應(yīng)的情感傾向已知的情況下,通過調(diào)整參數(shù)權(quán)值,以使預(yù)測(cè)結(jié)果最優(yōu)。設(shè)藏文語句的向量表示為p,則輸出層情感分類計(jì)算方法如式(6):
其中,softmax(·)為輸出層分類器函數(shù);wlabel為系數(shù)矩陣;label為情感分類數(shù)。輸出層誤差是以交叉熵的方式計(jì)算的,如式(7)所示:
其中,d是一個(gè)k維的概率分布向量(此處情感分類數(shù)label=k),且d;tk為第k種情感的標(biāo)簽值。
2.4 半監(jiān)督遞歸自編碼算法
若藏文數(shù)據(jù)集大小為N,則本次優(yōu)化的目標(biāo)函數(shù)為式(8):
其中,E(x,t;θ)為一條語句的誤差;∑(x,t)E(x,t;θ)則為整個(gè)數(shù)據(jù)集上的誤差。計(jì)算一條語句的誤差,也即遍歷整棵樹所有非終端節(jié)點(diǎn)并計(jì)算其誤差累加和,計(jì)算方法如式(9):
其中,s為一個(gè)非終端三元組;T()為遍歷函數(shù)。為了使結(jié)果預(yù)測(cè)更加準(zhǔn)確,在計(jì)算一個(gè)非終端三元組誤差時(shí),將重構(gòu)誤差和交叉熵誤差結(jié)合起來計(jì)算,如圖2所示。因?yàn)槎咚急戎夭煌?,需要加入?yún)?shù)α以調(diào)整二者比例,所以一個(gè)三元組s的誤差計(jì)算公式為:
Fig.2 A nonterm inal treenode圖2 一個(gè)非終端三元組
優(yōu)化目標(biāo)函數(shù)式(8)時(shí),一般采用L-BFGS(limitedmemory BFGS)算法,可較快速度得出最優(yōu)解,算法所用梯度為:
綜上,此處給出本文進(jìn)行藏語情感分析時(shí)所用算法。
算法TSSRAE(Tibetan sentiment analysis based on semi-supervised RAE)
參數(shù)說明:
TrainingData,訓(xùn)練數(shù)據(jù)集(帶情感標(biāo)簽的藏語語料庫);
θ,參數(shù)集
J,優(yōu)化目標(biāo)函數(shù);
Jsum,訓(xùn)練集誤差和;
x,訓(xùn)練集中的一條語句;
BestTreex,句子x的最優(yōu)結(jié)構(gòu)樹
輸入:TrainingData
輸出:θ
1.Initializeθand usingwordsvector initializeTraining-Data;
2.J←0,Jsum←0;
3.Foreach sentencex∈TrainingData
4. ConstructBestTreexthrough greedy unsupervised RAE;
5.E(x,t;θ)←0;
6. Foreach non-term inalnodes∈BestTreex
12.Repeat2~11 untilJconvergence.
從上述算法訓(xùn)練過程可得,本文算法先以無監(jiān)督的方式得到最佳樹結(jié)構(gòu),然后整個(gè)模型在有監(jiān)督的方式下得到最優(yōu)參數(shù)集,因此本文算法屬于半監(jiān)督形式。
此次實(shí)例驗(yàn)證分兩部分:首先,找出遞歸自編碼算法分析藏語情感傾向時(shí)的最佳參數(shù)組合;接著,利用這組參數(shù)組合初始化本文算法,并和傳統(tǒng)算法作對(duì)比,以證明本文算法的有效性。
本文語料庫由來自西藏大學(xué)藏文信息處理中心的多名骨干成員,在新浪微博、騰訊微博精選的44 000條藏文語句組成,情感傾向分積極和消極兩類,其中積極情感在語料庫中標(biāo)記為1,消極為-1。語料庫分為TibetanCorpus和TibetanCorpusTest兩個(gè)。Tibetan-Corpus主要用于深度學(xué)習(xí)模型訓(xùn)練及后期不同算法之間訓(xùn)練時(shí)間、結(jié)果準(zhǔn)確度對(duì)比;同時(shí)另增加Tibetan-CorpusTest測(cè)試語料庫,以對(duì)比算法間的準(zhǔn)確度和F值,增強(qiáng)實(shí)驗(yàn)結(jié)果的說服力。語料庫詳情如表1語料庫信息表和表2語料庫樣例表所示。
Table1 Corpus information table表1 語料庫信息表
Table 2 Corpusexample table表2 語料庫樣例表
3.1 參數(shù)選擇
用本文算法進(jìn)行藏文情感分析時(shí),詞向量的維度和重構(gòu)誤差系數(shù)對(duì)算法準(zhǔn)確度的影響非常大。因此為了將模型訓(xùn)練到最佳狀態(tài),必須找出一組最優(yōu)組合,使算法準(zhǔn)確度達(dá)到最佳。文獻(xiàn)[3,18]分別給出了中文和英文的選擇方案,此處將通過大量嘗試和多次實(shí)驗(yàn)的方式找出藏語下的最佳組合,即分別設(shè)置詞向量長度為10,20,…,200,重構(gòu)誤差系數(shù)為0.1,0.2,…,0.9,采用排列組合的方式將二者的所有組合方案測(cè)試一遍,統(tǒng)計(jì)出最優(yōu)組合。實(shí)驗(yàn)時(shí),針對(duì)語料庫TibetanCorpus采用十折交叉法(將語料庫TibetanCorpus的4萬條語句分成10份,輪流用其中9份做訓(xùn)練集,1份做測(cè)試集進(jìn)行實(shí)驗(yàn),結(jié)果準(zhǔn)確度取10次實(shí)驗(yàn)的均值),以使結(jié)果更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果如表3詞向量維度和重構(gòu)誤差系數(shù)選擇表所示,統(tǒng)計(jì)相應(yīng)重構(gòu)誤差系數(shù)和詞向量維度下算法的準(zhǔn)確度(準(zhǔn)確度=預(yù)測(cè)正確條數(shù)/總條數(shù))。
從表3中實(shí)驗(yàn)結(jié)果可得出,當(dāng)重構(gòu)誤差系數(shù)為0.2,詞向量維度為110時(shí),本文算法在藏語語料庫中準(zhǔn)確率最高,可達(dá)87.2%。且實(shí)驗(yàn)數(shù)據(jù)表明,當(dāng)重構(gòu)誤差系數(shù)為0.2時(shí),不同向量維度下算法的準(zhǔn)確率幾乎都為當(dāng)前維度下的最好值,進(jìn)一步說明重構(gòu)誤差系數(shù)為0.2,是藏語環(huán)境下的最好選擇。
Table3 Selection tableofword vectordimensionsand reconstruction errorweights表3 詞向量維度和重構(gòu)誤差系數(shù)選擇表
接著,本文將驗(yàn)證語料庫大小和情感分析準(zhǔn)確率及訓(xùn)練時(shí)間之間的關(guān)系,以便后續(xù)研究者在準(zhǔn)確率和訓(xùn)練時(shí)間之間正確地取舍。本次實(shí)驗(yàn)計(jì)算機(jī)采用AMD雙核2.5GHz,內(nèi)存4GB,采用十折交叉法,數(shù)據(jù)量大小從1萬條語句逐漸增加到4萬條,實(shí)驗(yàn)結(jié)果如圖3、圖4所示。
從圖3實(shí)驗(yàn)結(jié)果可得出,隨著數(shù)據(jù)量的增大,算法準(zhǔn)確度逐漸提高,當(dāng)語料庫大小在1萬條語句和2.5萬條語句之間時(shí),算法準(zhǔn)確度增長較快;從2.5萬條增加到4萬條,準(zhǔn)確度只增加了0.2%,說明一定范圍內(nèi)語料庫的大小對(duì)算法準(zhǔn)確度有較大影響,當(dāng)語料庫足夠大時(shí),單純?cè)黾诱Z料庫的數(shù)據(jù)量,很難提高算法準(zhǔn)確度。從圖4可得出,隨著語料庫的增大,模型訓(xùn)練時(shí)間幾乎成倍增長,從1萬條語句時(shí)的5 h,到4萬條語句的65 h,時(shí)間翻了13倍,而準(zhǔn)確度卻只增加了約1%。因此,若需要快速地將模型訓(xùn)練好并以用于情感分析,可適當(dāng)減小訓(xùn)練集,這樣在算法準(zhǔn)確度改變不大的情況下,也能達(dá)到較好的情感分類效果。
Fig.3 Relation between corpusamountand accuracy圖3 語料庫大小和準(zhǔn)確度關(guān)系圖
3.2 算法性能對(duì)比
3.2.1 準(zhǔn)確度和F-measure
Fig.4 Relation between corpusamountand training time圖4 語料庫大小和訓(xùn)練時(shí)間關(guān)系圖
為了驗(yàn)證本文算法的有效性,此處將本文所訓(xùn)練的深度學(xué)習(xí)算法和傳統(tǒng)的支持向量機(jī)[19]、語義空間模型[8]及特征融合模型[20]進(jìn)行藏文情感分析對(duì)比。此處深度學(xué)習(xí)模型重構(gòu)誤差系數(shù)為0.2,詞向量維度為110。實(shí)驗(yàn)時(shí),首先選取語料庫TibetanCorpus,采用十折交叉法,分別測(cè)試語料庫大小為0.3、0.6、1.0、4.0萬條語句時(shí)算法的準(zhǔn)確度,結(jié)果如圖5所示;接著為了增強(qiáng)實(shí)驗(yàn)說服力,將以上算法在TibetanCorpus語料庫的全部4萬條數(shù)據(jù)下訓(xùn)練后,用TibetanCorpusTest進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表4所示。
Fig.5 Accuracy comparison of differentalgorithms圖5 算法準(zhǔn)確度對(duì)比圖
Table4 F-measure comparison of differentalgorithms表4 算法F-measure對(duì)比表
從圖5結(jié)果可得,本文算法TSSRAE藏語情感分析的準(zhǔn)確度比上述最好的傳統(tǒng)機(jī)器學(xué)習(xí)算法的語義空間模型高約8.6%;從表4可得,在測(cè)試語料庫TibetanCorpusTest中,TSSRAE模型的F值比語義空間模型高約8.3%。之所以TSSRAE模型表現(xiàn)優(yōu)異,是因?yàn)樯疃葘W(xué)習(xí)模型能夠更好地獲取傳統(tǒng)算法學(xué)習(xí)不到的文本語義結(jié)構(gòu)信息,并將其保留在樹形結(jié)構(gòu)中,最終以向量的形式輸出到分類器中進(jìn)行情感分析,這些信息在語句情感分析中往往非常重要;并且深度學(xué)習(xí)算法經(jīng)過層層的特征提取,將句子的矩陣表示映射到向量上,使獲得的特征更加精簡、充分,更加有利于后期進(jìn)行情感分析。另外,圖5中語料庫從0.6萬條語句增加到4萬條時(shí),傳統(tǒng)算法準(zhǔn)確度皆變化不大(最高約2.0%),而TSSRAE深度學(xué)習(xí)算法準(zhǔn)確度增加了約6.5%,說明傳統(tǒng)算法對(duì)語料庫學(xué)習(xí)能力沒有深度學(xué)習(xí)算法強(qiáng),即深度學(xué)習(xí)算法能夠從更多的語料中挖掘信息,以調(diào)整模型參數(shù),使算法達(dá)到更佳狀態(tài),作出更準(zhǔn)確的預(yù)測(cè)。
3.2.2 算法訓(xùn)練時(shí)間
此處研究算法在不同大小數(shù)據(jù)集下的訓(xùn)練時(shí)間,以進(jìn)一步探討其優(yōu)劣。語料庫選用TibetanCorpus,實(shí)驗(yàn)時(shí)分別測(cè)試不同算法在數(shù)據(jù)集為0.3、0.6、1.0、4.0萬條語句時(shí)的訓(xùn)練時(shí)間,結(jié)果如表5所示。
Table5 Time consuming comparison of differentalgorithms表5 算法訓(xùn)練耗費(fèi)時(shí)間對(duì)比表
從表5可得,傳統(tǒng)的語義空間模型、特征融合和SVM模型在訓(xùn)練時(shí),訓(xùn)練時(shí)間約為線性增長,即數(shù)據(jù)集從0.3萬到4萬,擴(kuò)大了約13倍,訓(xùn)練時(shí)間則從0.2~0.3 h,漲到了3.0~5.1 h,也增大了13倍左右;而深度學(xué)習(xí)模型TSSRAE,則從最初的0.9 h增長到了65.7 h,時(shí)間擴(kuò)大了70多倍,說明深度學(xué)習(xí)算法雖然準(zhǔn)確度較高,但是訓(xùn)練耗時(shí)太長,特別是在數(shù)據(jù)量較大情況下,要想獲得較好的算法效果,更需要較長的訓(xùn)練時(shí)間。究其原因,和傳統(tǒng)算法比,深度學(xué)習(xí)算法內(nèi)部神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整,算法執(zhí)行過程中不停地調(diào)優(yōu)迭代,都是十分耗時(shí)的工作;數(shù)據(jù)量越大,每一輪的參數(shù)調(diào)整,所執(zhí)行的任務(wù)也就越多,這樣一輪一輪的任務(wù)疊加,使深度學(xué)習(xí)算法的訓(xùn)練時(shí)間幾乎成指數(shù)級(jí)增長。
本文將深度學(xué)習(xí)算法引入藏語的情感分析中,并對(duì)其進(jìn)行了進(jìn)一步的融合,如藏語詞向量的表示,藏文語句最優(yōu)結(jié)構(gòu)樹的獲取等,并通過大量實(shí)驗(yàn)找出了適合藏語的重構(gòu)誤差系數(shù)和詞向量維度,以使算法性能達(dá)到最佳;同時(shí)本文還探討了深度學(xué)習(xí)模型訓(xùn)練時(shí)間和語料庫大小的關(guān)系,指出若要快速建立較好的模型,可適當(dāng)減少語料庫的大??;最后將本文深度學(xué)習(xí)藏語情感分析算法和傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比實(shí)驗(yàn),表明本文深度學(xué)習(xí)算法的有效性。當(dāng)然,本文的研究也存在一定不足,如并未探究語料庫大小對(duì)深度學(xué)習(xí)算法性能的影響,以及深度學(xué)習(xí)中參數(shù)較多引起的過擬合現(xiàn)象等,這都將成為本文今后工作的重心。
[1]Liu Bing.Sentiment analysis and opinionmining[M]//Synthesis Lectures on Human Language Technologies.San Rafael,USA:Morgan&Claypool Publishers,2012.
[2]Cao Hui,Dong Xiaofang,Meng Xianghe.Statistical research on Tibetan newspaperwords[J].Journal of Northwest University forNationalities:NaturalScience,2012,33(3):50-54.
[3]Liang Jun,Chai Yumei,Yuan Huibin,et al.Deep learning for Chinesemicro-blog sentimentanalysis[J].Journal of Chinese Information Processing,2014,28(5):155-161.
[4]Pang Bo,Lee L,Vaithyanathan S.Thumbsup?sentimentclassification using machine learning techniques[C]//Proceedingsof the2002Conference on EmpiricalMethods in Natural Language Processing,Pennsylvania,USA,Jul6-7,2002.Stroudsburg,USA:ACL,2002:79-86.
[5]Turney PD.Thumbs up or thumbs down?semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th AnnualMeeting of the Association for Computational Linguistics,Pennsylvania,USA,Jul 7-12,2002.Stroudsburg,USA:ACL,2002:417-424.
[6]Li Fangtao,Liu Nathan,Jin Hongwei,et al.Incorporating reviewer and product information for review rating prediction[C]//Proceedings of the 22nd International JointConference on Artificial Intelligence,Barcelona,Spain,Jul 16-22,2011.Menlo Park,USA:AAAI,2009:1820-1825.
[7]Davidov D,TsurO,RappoportA.Enhanced sentiment learning using tw itter hashtags and smileys[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters,Beijing,Aug 23-27,2010.Stroudsburg,USA:ACL,2010:241-249.
[8]Yuan Bin,Jiang Tao,Yu Hongzhi.Emotional classification method of Tibetan m icro-blog based on semantic space[J].Application Research of Computers,2016,33(3):682-685.
[9]Du Zhijuan,Wang Shuo,Wang Qiuyue,etal.Survey on social media big data analytics[J].Journal of Frontiers of Computer Scienceand Technology,2017,11(1):1-23.
[10]Hou Jialin,Wang Jiajun,Nie Hongyu.MapReduce performance optimization based on anomaly detection model in heterogeneous cloud environment[J].Journal of Computer Applications,2015,35(9):2476-2481.
[11]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data w ith neural networks[J].Science,2006,313(5786):504-507.
[12]Hinton G E,Osindero S.A fast learning algorithm for deep beliefnets[J].NeuralComputation,2006,18(7):1527-1554.
[13]Mnih A,Hinton G.A scalable hierarchical distributed language model[C]//Proceedings of the 21st International Conference on Neural Information Processing Systems,Vancouver,Canada,Dec 8-10,2008.Red Hook,USA:Curran Associates,2008:1081-1088.
[14]M ikolov T,KarafiátM,Burget L,etal.Recurrent neural network based languagemodel[C]//Proceedings of the 11th Annual Conference of the International Speech Communication Association,Chiba,Japan,Sep 26-30,2010.Red Hook,USA:Curran Associates,2010:1045-1048.
[15]Socher R,Pennington J,Huang EH,etal.Semi-supervised recursive autoencoders for predicting sentimentdistributions[C]//Proceedings of the 2011 Conference on EmpiricalMethods in Natural Language Processing,Edinburgh,UK,Jul 27-31,2011.Stroudsburg,USA:ACL,2011:151-161.
[16]Socher R,Huval B,Manning C D,etal.Semantic compositionality through recursivematrix-vector spaces[C]//Proceedings of the 2012 JointConference on EmpiricalMethods in Natural Language Processing and Computational NaturalLanguage Learning,Jeju Island,Korea,Jul 12-14,2012.Stroudsburg,USA:ACL,2012:1201-1211.
[17]Socher R,Perelygin A,Wu JY,etal.Recursive deepmodels for semantic compositionality over a sentiment treebank[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing,Seattle,USA,Oct18-21,2013.Stroudsburg,USA:ACL,2013:1631-1642.
[18]Socher R.Recursive deep learning for natural language processing and computer vision[D].Palo A lto:Stanford University,2014.
[19]Han Kaixun.Research on text sentiment analysis based on support vector machine[D].Daqing:Northeast Petroleum University,2014.
[20]Zhu Shaojie.Research on text sentiment classification based on deep learning[D].Harbin:Harbin Institute of Technology,2014.
附中文參考文獻(xiàn):
[2]曹暉,董曉芳,孟祥和.藏文報(bào)紙?jiān)~語統(tǒng)計(jì)研究[J].西北民族大學(xué)學(xué)報(bào):自然科學(xué)版,2012,33(3):50-54.
[3]梁軍,柴玉梅,原慧斌,等.基于深度學(xué)習(xí)的微博情感分析[J].中文信息學(xué)報(bào),2014,28(5):155-161.
[8]袁斌,江濤,于洪志.基于語義空間的藏文微博情感分析方法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(3):682-685.
[9]杜治娟,王碩,王秋月,等.社會(huì)媒體大數(shù)據(jù)分析研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2017,11(1):1-23.
[10]侯佳林,王佳君,聶洪玉.基于異常檢測(cè)模型的異構(gòu)環(huán)境下MapReduce性能優(yōu)化[J].計(jì)算機(jī)應(yīng)用,2015,35(9):2476-2481.
[19]韓開旭.基于支持向量機(jī)的文本情感分析研究[D].大慶:東北石油大學(xué),2014.
[20]朱少杰.基于深度學(xué)習(xí)的文本情感分類研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.
普次仁(1970—),男,西藏日喀則人,2008年于西藏大學(xué)藏文信息處理專業(yè)獲得碩士學(xué)位,現(xiàn)為西藏大學(xué)副教授,主要研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí),數(shù)據(jù)挖掘,藏語情感分析。主持國家自然科學(xué)基金、西藏自治區(qū)科技廳軟科學(xué)計(jì)劃項(xiàng)目等,發(fā)表學(xué)術(shù)論文10余篇。
HOU Jialin was born in 1990.He is an M.S.candidate at School of Information Science and Technology,Southwest Jiaotong University.His research interests include deep learning and parallel computing.
侯佳林(1990—),男,河南洛陽人,西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí),并行計(jì)算。
LIU Yuewas born in 1993.She is an M.S.candidate at School of Information Science and Technology,Southwest Jiaotong University.Her research interest is deep learning.
劉月(1993—),女,四川達(dá)州人,西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院碩士研究生,主要研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí)。
ZHAIDonghaiwasborn in 1974.He received the Ph.D.degree in traffic information engineering and control from Southwest Jiaotong University in 2003.Now he is an associate professor at School of Information Science and Technology,Southwest Jiaotong University.His research interests include deep learing,datam ining and image inpainting.
翟東海(1974—),男,山西芮城人,2003年于西南交通大學(xué)交通信息工程及控制專業(yè)獲得博士學(xué)位,現(xiàn)為西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授,主要研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí),數(shù)據(jù)挖掘,數(shù)字圖像處理。主持國家自然科學(xué)基金、國家社會(huì)科學(xué)基金、西藏自治區(qū)科技廳科技計(jì)劃項(xiàng)目等,發(fā)表學(xué)術(shù)論文30余篇。
Deep Learning Algorithm App lied in Tibetan SentimentAnalysis*
PU Ciren1+,HOU Jialin2,LIUYue2,ZHAIDonghai1,2
1.Tibetan Information Technology Research Center,TibetUniversity,Lhasa 850000,China
2.Schoolof Information Science and Technology,Southwest Jiaotong University,Chengdu 610031,China
During Tibetan sentimentanalysis in past,the algorithm always ignores some important information like sentences structure and words order etc,which lead low accuracy of sentiment analysis.To deeply getmore sentimentdetails,this paper proposesa novelapproach of Tibetan sentimentanalysisbased on deep learning.Firstly,one word in Tibetan is represented by aword vectorwhile one sentence is represented by amatrix which is composed by itsword vectors;Secondly,thematrix is turned into a vectorwhich containsmost importantdetails such as sentence meaning and words order etc,through an unsupervised recursive auto encoder algorithm;Finally,the classifier in output layer is trained by supervisedmethod which uses theword vectors and its sentiment tags.In the experiment part,this paper discusses the selection of word vector dimensions and reconstruction errorweights,studies corpus amounthow to affect algorithm accuracy,and analyzes the relation between corpus amount and training time.The experimental results demonstrate that the proposedmethod can improve accuracy up 8.6%compared w ith semantic spacemodelwhich isalmost the best in traditionalmachine learning algorithm.
was born in 1970.He
the M.S.degree in Tibetan information processing from Tibet University in 2008.Now he isan associate professoratTibetUniversity.His research interests include deep learning,datamining and Tibetan sentimentanalysis.
A
:TP391.1
*The National Natural Science Foundation of China under Grant No.61540060(國家自然科學(xué)基金);the National Soft Science Research Program of China underGrantNo.2013GXS4D150(國家軟科學(xué)研究計(jì)劃項(xiàng)目);the Research Program of Science and Technology Departmentof TibetAutonomousRegion(西藏自治區(qū)科技廳科學(xué)研究項(xiàng)目).
Received 2016-11,Accepted 2017-01.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2017-01-05,http://www.cnki.net/kcms/detail/11.5602.TP.20170105.0828.004.htm l
Keywords:deep learning;sentimentanalysis;recursive auto encoder;recursive neuralnetworks