陳 珂 梁 斌 柯文德 許 波 曾國(guó)超
1(廣東石油化工學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系 廣東茂名 525000) 2 (蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215000) (chenke2001@163.com)
隨著微博在社交網(wǎng)絡(luò)上的興起,越來(lái)越多的用戶通過(guò)微博發(fā)表觀點(diǎn)和表達(dá)情感.如何利用機(jī)器學(xué)習(xí)和自然語(yǔ)言處理來(lái)分析微博用戶的情感傾向已得到了越來(lái)越多研究人員的關(guān)注,并成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)之一[1].此外,微博文本句子的長(zhǎng)度偏短和口語(yǔ)化詞語(yǔ)的頻繁使用,使得微博的情感分類相比普通文本情感分類更具有難度和挑戰(zhàn)性.
傳統(tǒng)的情感分類技術(shù)主要有基于規(guī)則和基于機(jī)器學(xué)習(xí)2類:1)基于規(guī)則方法主要采用根據(jù)經(jīng)驗(yàn)或者專家意見得到的統(tǒng)計(jì)特征、情感詞典和模板來(lái)對(duì)文本進(jìn)行情感分類,需要大量的人工干預(yù)[2-3];2)基于機(jī)器學(xué)習(xí)的方法通過(guò)人工標(biāo)注一部分?jǐn)?shù)據(jù)建立訓(xùn)練集,對(duì)訓(xùn)練集的數(shù)據(jù)進(jìn)行特征提取和學(xué)習(xí)來(lái)構(gòu)建一個(gè)分類模型,最后利用訓(xùn)練得到的分類模型來(lái)對(duì)未知標(biāo)簽的測(cè)試數(shù)據(jù)進(jìn)行分類預(yù)測(cè),自動(dòng)實(shí)現(xiàn)情感極性的判斷[4-5].其中基于機(jī)器學(xué)習(xí)方法在過(guò)去的研究中得到很多學(xué)者的重點(diǎn)關(guān)注,總結(jié)出了很多不同分類模型的組合方法.這些方法已廣泛應(yīng)用于情感分析領(lǐng)域,并已取得了很好的成果.但這類方法通常需要依賴復(fù)雜的特征工程,以及需要結(jié)合例如依存關(guān)系分析等外部知識(shí).
近年來(lái),隨著深度學(xué)習(xí)在自然語(yǔ)言領(lǐng)域的研究和發(fā)展,越來(lái)越多的研究員開始用深度學(xué)習(xí)來(lái)解決情感分類問(wèn)題[6].例如Kim[7]用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks, CNN)對(duì)電影評(píng)論進(jìn)行情感分類;Kalchbrenner等人[8]用卷積神經(jīng)網(wǎng)絡(luò)解決Twitter的極性判斷問(wèn)題;Wang等人[9]用長(zhǎng)短期記憶(long-short term memory, LSTM)網(wǎng)絡(luò)對(duì)文本情感極性進(jìn)行分析.這類基于深度神經(jīng)網(wǎng)絡(luò)的模型在無(wú)需大量人工特征的情況下取得了比傳統(tǒng)分類器更好的效果.一些學(xué)者針對(duì)微博短文本特有的特征信息來(lái)構(gòu)建分類模型.例如針對(duì)Twitter文本的大量特征信息,Vo等人[10]提出了使用多樣化特征的Twitter文本情感分類;針對(duì)現(xiàn)有的大量情感信息,陳釗等人[11]提出了將情感特征加入卷積神經(jīng)網(wǎng)絡(luò)的方法;針對(duì)獲取更多的語(yǔ)義信息,劉龍飛等人[12]提出了結(jié)合不同粒度的卷積神經(jīng)網(wǎng)絡(luò)模型.雖然這類方法針對(duì)微博文本情感分類做了改進(jìn)并取得了比傳統(tǒng)方法更好的效果,但這類方法對(duì)情感特征的利用依賴于人工整理的情感詞典,無(wú)法充分利用微博文本的情感信息.同時(shí),這類方法使用單一的特征表示,對(duì)輸入向量的初始值依賴較大,且難以正確表示每個(gè)詞在句子中的重要程度.
針對(duì)上述問(wèn)題,本文提出一種將詞語(yǔ)的詞性進(jìn)行向量化操作作為網(wǎng)絡(luò)模型輸入的方法,該方法通過(guò)將情感詞典中的詞語(yǔ)重新進(jìn)行詞性標(biāo)注,并將不同的詞性取值映射為一個(gè)多維的連續(xù)值向量,從而可以有效將輸入文本的情感特征信息加入網(wǎng)絡(luò)模型,使情感信息得到充分利用.為了更準(zhǔn)確地表示每一個(gè)詞語(yǔ)在輸入句子中的重要程度,本文將句子中不同詞語(yǔ)的位置取值進(jìn)行向量化操作,結(jié)合輸入句子的詞向量和詞性向量形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,可以使網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中通過(guò)多種文本表示來(lái)學(xué)習(xí)句子的情感特征信息,挖掘更多的隱藏特征信息.同時(shí),本文將不同的文本表示組合形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,可以使模型通過(guò)多方面信息學(xué)習(xí)不同輸入特征之間的聯(lián)系,有效降低網(wǎng)絡(luò)對(duì)特征向量初始值的依賴性,在向量隨機(jī)初始化的實(shí)驗(yàn)中也有不錯(cuò)的分類效果.此外,本文提出的多通道卷積神經(jīng)網(wǎng)絡(luò)(multi-channels convolutional neural networks, MCCNN)模型在一次學(xué)習(xí)過(guò)程就可以完成對(duì)不同特征的學(xué)習(xí)和參數(shù)調(diào)整,有效降低了模型的訓(xùn)練時(shí)間代價(jià).在中文傾向性分析評(píng)測(cè)數(shù)據(jù)集(COAE2014)和微博語(yǔ)料數(shù)據(jù)集(micro-blog dataset, MBD)上與文獻(xiàn)[11-12]提出的深度網(wǎng)絡(luò)模型相比取得了更好的性能,最后比較張志琳等人[13]提出的基于傳統(tǒng)分類模型的多樣化特征分類方法也取得了更好的分類效果,從而驗(yàn)證了本文方法的有效性.
本文主要貢獻(xiàn)有4個(gè)方面:
1) 提出了一種MCCNN模型用在情感分析任務(wù)中,該模型將情感分析任務(wù)中不同的特征信息和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,有效提高了情感分類的正確率;
2) 提出了一種將不同詞性映射為多維連續(xù)值的方法,該方法通過(guò)多維的詞性向量,可以使網(wǎng)絡(luò)有效識(shí)別不同詞語(yǔ)種類對(duì)情感分類正確率的影響程度;
3) 將句子中不同詞語(yǔ)的位置特征用連續(xù)值向量的形式加入網(wǎng)絡(luò)模型,在訓(xùn)練過(guò)程中通過(guò)對(duì)位置向量的調(diào)整,可以有效獲取不同詞語(yǔ)在句子中的重要程度;
4) 在多個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)表明,本文提出的MCCNN模型在情感分析任務(wù)中能有效識(shí)別不同類型句子的情感極性,取得更好的分類效果.
文本情感分析是通過(guò)對(duì)文本上下文內(nèi)容的學(xué)習(xí)來(lái)判定文本的情感極性,是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支.2002年P(guān)ang等人[14]提出情感分析之后,有越來(lái)越多的研究員開始關(guān)注情感分析,也有越來(lái)越多的學(xué)者使用機(jī)器學(xué)習(xí)方法來(lái)解決文本情感判定.常用的基于機(jī)器學(xué)習(xí)的情感分類方法主要包括支持向量機(jī)、決策樹、樸素貝葉斯等.在情感分析任務(wù)中,這類方法通過(guò)對(duì)數(shù)據(jù)集的信息提取和特征構(gòu)建,取得了很好的分類效果.基于機(jī)器學(xué)習(xí)的方法通常結(jié)合文本的一元詞特征、二元詞特征、詞性特征、情感特征等,將文本映射為多維向量,并通過(guò)分類模型學(xué)習(xí)特征信息.常用的特征映射方法有One-hot表示方法.該方法把文本的詞條映射為多維向量,但忽略了詞語(yǔ)之間的關(guān)系和文本的語(yǔ)義關(guān)系.Bengio等人[15]在2003年提出了用多維的實(shí)數(shù)向量來(lái)表示文本的詞條,考慮了詞與詞之間的位置關(guān)系和語(yǔ)義信息,總結(jié)出用神經(jīng)網(wǎng)絡(luò)建立統(tǒng)計(jì)語(yǔ)言模型的框架,同時(shí)學(xué)習(xí)詞向量的權(quán)重和概率模型的參數(shù);2013年Mikolov等人[16]實(shí)現(xiàn)了用CBOW模型和Skip-gram模型計(jì)算詞向量的方法,該方法很好地度量詞與詞之間的相似性,得到了很多學(xué)者的關(guān)注和使用.
對(duì)于短文本的情感分析,自2009年Go等人[17]首次提出微博情感分析以來(lái),對(duì)例如微博的短文本情感極性判定也受到了越來(lái)越多人的重點(diǎn)關(guān)注.情感詞典對(duì)情感分類有很大的影響,常用的短文本情感分類技術(shù)是基于短文本的詞向量信息和情感特征信息來(lái)構(gòu)建模型.例如Vo等人[18]加入表情特征自動(dòng)構(gòu)建文本的情感詞典來(lái)對(duì)Twitter文本進(jìn)行情感分析.該方法有效利用了Twitter文本中不同表情隱藏的情感信息,通過(guò)對(duì)表情符號(hào)的學(xué)習(xí),使模型充分利用輸入文本的情感信息,有效提高了情感分類的性能.Tang等人[19]通過(guò)情感種子擴(kuò)充特定領(lǐng)域情感詞對(duì)用戶評(píng)論進(jìn)行情感分類.該方法利用算法對(duì)特定領(lǐng)域數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行情感詞的提取和擴(kuò)充,使輸入語(yǔ)料的情感詞得到有效利用.此類方法都很好地結(jié)合了短文本特有的特征信息進(jìn)行情感極性的判斷,使情感分類有更好的效果.
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的重要網(wǎng)絡(luò)之一,它通過(guò)卷積層和池化層學(xué)習(xí)輸入數(shù)據(jù)的局部特征[20],是基于人工神經(jīng)網(wǎng)絡(luò)而提出的一種前饋神經(jīng)網(wǎng)絡(luò).自20世紀(jì)60年代,Hubel和Wiesel[21]提出卷積神經(jīng)網(wǎng)絡(luò)以來(lái),經(jīng)過(guò)幾十年的發(fā)展,如今CNN已經(jīng)廣泛應(yīng)用于各種領(lǐng)域當(dāng)中.由于卷積神經(jīng)網(wǎng)絡(luò)無(wú)需對(duì)數(shù)據(jù)進(jìn)行復(fù)雜的預(yù)處理,并可以學(xué)習(xí)大量的特征信息,所以卷積神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域都取得了不錯(cuò)的成果.特別是在模式識(shí)別領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)無(wú)需對(duì)圖像進(jìn)行復(fù)雜的預(yù)處理,直接把圖像作為網(wǎng)絡(luò)的輸入,讓卷積神經(jīng)網(wǎng)絡(luò)得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展和深入研究,卷積神經(jīng)網(wǎng)絡(luò)已被越來(lái)越多的學(xué)者應(yīng)用到自然語(yǔ)言處理領(lǐng)域當(dāng)中.目前,卷積神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于語(yǔ)義匹配[22]、詞序列預(yù)測(cè)[23]和情感分析[24]等領(lǐng)域.文獻(xiàn)[7]提出了將CNN模型應(yīng)用到句子分類當(dāng)中,利用多窗口的卷積核對(duì)輸入文本進(jìn)行卷積操作來(lái)提取局部特征.最后在多種數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),有效地提高了句子分類的性能,取得了比以往方法更好的效果.Chen等人[25]通過(guò)動(dòng)態(tài)多樣化池化層卷積神經(jīng)網(wǎng)絡(luò)提取句子中的事件.該方法對(duì)CNN的池化層進(jìn)行改進(jìn),可以有效獲取輸入文本更多的局部特征,保留更多的特征信息,有效獲取輸入文本中的事件信息.文獻(xiàn)[12]以字級(jí)別和詞級(jí)別的文本表示作為CNN的輸入來(lái)學(xué)習(xí)句子的特征信息,通過(guò)不同級(jí)別的文本表示可以得到不同的特征集合.最后利用多卷積核對(duì)特征集合進(jìn)行卷積操作,提取更豐富的情感特征信息,取得了比傳統(tǒng)SVM方法更好的分類效果.文獻(xiàn)[11]提出了一種將卷積神經(jīng)網(wǎng)絡(luò)和情感序列特征結(jié)合應(yīng)用在情感極性分類的WFCNN模型.該模型介紹了一種將情感分類任務(wù)中特有的情感信息和詞向量拼接作為網(wǎng)絡(luò)模型輸入的方法,可以有效利用輸入文本的情感特征信息.本文提出的MCCNN模型和文獻(xiàn)[11]的不同之處在于,本文使用多維連續(xù)值向量的形式來(lái)表示詞語(yǔ)的詞性特征,相比文獻(xiàn)[11]使用二值取值來(lái)表示詞語(yǔ)特征,模型在訓(xùn)練過(guò)程中可以通過(guò)更細(xì)微的參數(shù)調(diào)整來(lái)學(xué)習(xí)句子的情感信息,取得更好的情感分類效果.
在文本情感分類任務(wù)中,文本的詞特征,尤其是情感詞,可以直接影響分類的性能[26].本文通過(guò)對(duì)微博文本中的情感詞進(jìn)行重新標(biāo)注和向量化,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,提出一種結(jié)合情感詞的卷積神經(jīng)網(wǎng)絡(luò)模型(sentiment words convolution neural networks, SWCNN),驗(yàn)證本文提出將情感詞重新標(biāo)注和向量化在情感分析任務(wù)中的有效性.此外,由于微博文本的長(zhǎng)度普遍較短,包含的特征信息有限.為了把卷積神經(jīng)網(wǎng)絡(luò)更好地應(yīng)用到微博的情感傾向分析任務(wù)中,本文在結(jié)合情感詞的基礎(chǔ)上加入句子中詞語(yǔ)的位置信息,提出了一種結(jié)合多種特征的MCCNN模型.該模型把不同的特征信息結(jié)合形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,從而使模型獲取更多的隱藏信息,有效表示每個(gè)詞語(yǔ)在句子中的重要程度,取得更好的情感分類效果.
對(duì)于長(zhǎng)度為n的句子s={w1,w2,…,wn},其中wi為句子s中的第i個(gè)詞條,情感分析的任務(wù)是根據(jù)句子s的詞序列所隱含的特征信息來(lái)判斷句子s的情感極性.基于文獻(xiàn)[7]提出的模型,卷積神經(jīng)網(wǎng)絡(luò)也可以和其他特征結(jié)合作為網(wǎng)絡(luò)的輸入來(lái)構(gòu)建模型.一種簡(jiǎn)單的拼接結(jié)構(gòu)如圖1所示.通過(guò)把詞向量和不同特征的拼接作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,能使網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中針對(duì)不同的特征信息來(lái)學(xué)習(xí)和調(diào)整模型的參數(shù),獲取更多的隱藏信息.
Fig. 1 The structure of features combination圖1 特征拼接模型結(jié)構(gòu)
本文將通過(guò)加入情感分類任務(wù)中最重要的情感特征來(lái)闡述卷積神經(jīng)網(wǎng)絡(luò)和其他特征結(jié)合的方法.介紹在輸入文本內(nèi)容特征的基礎(chǔ)上,結(jié)合情感分析特征的情感詞特征和詞語(yǔ)在句子中的位置特征來(lái)構(gòu)建網(wǎng)絡(luò)模型的輸入矩陣,并利用不同的輸入通道來(lái)接收不同特征信息的組合,使模型在訓(xùn)練過(guò)程中學(xué)習(xí)更豐富的情感特征信息,有效識(shí)別短文本句子的情感極性.
神經(jīng)網(wǎng)絡(luò)通過(guò)接收文本的向量化輸入來(lái)學(xué)習(xí)輸入句子的特征信息,在文本分類任務(wù)中,句子中詞語(yǔ)的內(nèi)容隱含著句子最重要的特征信息.本文以詞為單位來(lái)表示句子,將每一個(gè)詞映射為一個(gè)多維的連續(xù)值向量,可以得到整個(gè)數(shù)據(jù)集詞集合的詞向量矩陣E∈m×|V|,其中m為每個(gè)詞的向量維度,|V|為數(shù)據(jù)集的詞條集合大小.對(duì)于長(zhǎng)度為n的句子s={w1,w2,…,wn},句子中每一個(gè)詞語(yǔ)wi可以映射為一個(gè)m維向量,即ei∈m.
本文利用普通的Hownet*http://download.csdn.net/detail/monkey131499/9491884情感詞集合,對(duì)輸入句子重新進(jìn)行詞性標(biāo)注.如表1所示,通過(guò)將句子中的特殊詞語(yǔ)賦予特定的詞性標(biāo)注,可以讓模型充分利用對(duì)情感分類有重要作用的詞語(yǔ),例如積極和消極情感詞、否定詞、程度副詞等,從而在訓(xùn)練過(guò)程中注重學(xué)習(xí)這些詞語(yǔ)的特征信息.本文除了考慮句子中的情感詞,同時(shí)也對(duì)否定詞和程度副詞重新進(jìn)行詞性標(biāo)注.例如“喜歡”是積極情感詞,而“不喜歡”則是消極情感詞,所以否定詞會(huì)使句子隱含和情感詞相反的情感極性.對(duì)于不同的詞性標(biāo)注,通過(guò)向量化操作,將每一種詞性標(biāo)注映射為一個(gè)多維的連續(xù)值向量tagi∈k,其中tagi為第i個(gè)詞性向量,k為詞性向量維度.網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中可以針對(duì)不同的詞性標(biāo)注來(lái)對(duì)詞性向量的各分量進(jìn)行微調(diào)整,從而可以學(xué)習(xí)到更細(xì)微的特征信息.
Table 1 POS Tagging表1 詞性標(biāo)注
因?yàn)槲⒉┑淖謹(jǐn)?shù)限制,微博文本的長(zhǎng)度普遍比較簡(jiǎn)短,句子所含的情感信息有限,所以詞條在微博中的位置也是微博文本的一個(gè)重要特征.同一個(gè)詞在不同位置出現(xiàn),可能包含不同的信息.計(jì)算句子s中第i個(gè)詞條wi的位置值:
p(wi)=i-len(s)+maxlen,
(1)
其中,p(wi)為wi在句子s中的位置值,i為詞條w在句子s中的位置,len(s)為句子s的長(zhǎng)度,maxlen為輸入的句子最大長(zhǎng)度.和詞性向量操作一樣,本文把每個(gè)位置值映射到一個(gè)l維向量,即positioni∈l,其中positioni為第i個(gè)位置值的向量.
為了驗(yàn)證本文提出的將詞性映射為多維向量方法的有效性,將輸入句子的詞性向量和句子內(nèi)容層面的詞向量結(jié)合作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,提出一種SWCNN模型.如圖2所示,SWCNN模型主要由輸入層、卷積層、池化層和全連接層組成.輸入層接收輸入句子的特征矩陣;卷積層利用卷積核對(duì)輸入的基本單位進(jìn)行卷積操作提取特征;池化層對(duì)卷積層提取到的特征做采樣處理,以過(guò)濾的形式保留重要的特征;全連接層通過(guò)提取到的特征信息輸出待分類句子的分類結(jié)果.
Fig. 2 Model architecture of SWCNN圖2 SWCNN模型結(jié)構(gòu)圖
本文以詞為單位對(duì)句子進(jìn)行卷積操作,對(duì)于長(zhǎng)度為n的句子,其特征表示為
e1:n=e1⊕e2⊕…⊕en,
(2)
tag1:n=tag1⊕tag2⊕…⊕tagn,
(3)
其中,e為詞向量,tag為詞性特征.為了簡(jiǎn)化網(wǎng)絡(luò)模型結(jié)構(gòu),本文使用簡(jiǎn)單拼接操作形成特征矩陣x∈m+k,作為卷積神經(jīng)網(wǎng)絡(luò)的輸入:
x=e⊕tag,
(4)
其中,⊕為拼接操作.本文通過(guò)把特定情感詞映射為多維的詞性特征,這可以使網(wǎng)絡(luò)在訓(xùn)練過(guò)程中通過(guò)調(diào)整詞性特征分量來(lái)優(yōu)化分類模型.實(shí)驗(yàn)中,本文對(duì)句子的輸入設(shè)定一個(gè)最大長(zhǎng)度maxlen,對(duì)于長(zhǎng)度小于maxlen的句子用0向量補(bǔ)全.
卷積層可以通過(guò)不同的卷積核對(duì)輸入矩陣進(jìn)行豐富的局部特征提取,對(duì)于長(zhǎng)度為h的卷積核,可以把句子分為{x0:h-1,x1:h,…,xi:i+h-1,…,xn-h+1:n},然后對(duì)每一個(gè)分量進(jìn)行卷積操作,得到卷積特征圖:
C=(c1,c2,…,cn-h+1),
(5)
其中,ci是對(duì)分量xi:i+h-1進(jìn)行卷積操作后提取得到的信息.
ci=relu(W·xi:i+h-1+b),
(6)
其中,W∈h×(m+k)為卷積核權(quán)重,b∈為偏置.本文在池化層利用max-over-time pooling[27]方法對(duì)特征信息進(jìn)行采樣,提取最重要的特征信息:
(7)
(8)
在MCCNN模型中,把池化層采樣得到的特征信息作為全連接層的輸入,得到分類結(jié)果:
(9)
其中,bf∈為偏置,Wf∈d為全連接層權(quán)重,y為輸出結(jié)果.
如圖3所示,結(jié)合多特征的多通道卷積神經(jīng)網(wǎng)絡(luò)MCCNN模型主要由6部分組成:
1) 輸入層.本文主要使用4個(gè)通道來(lái)接收待分類句子的不同特征組合,使用不同的通道獲取待分類句子更豐富的特征表示.
2) 卷積層.對(duì)于不同的通道,本文使用多窗口多卷積核的方式進(jìn)行卷積操作,獲取不同通道輸入的局部特征,形成特征信息圖.
3) 池化層.為了使每個(gè)通道中的特征信息都能得到充分的利用,本文使用不同的池化層對(duì)不同的通道進(jìn)行下采樣操作,獲取每個(gè)通道中最重要的特征信息.
4) 合并層.本文采用一個(gè)合并層合并從不同通道獲取的局部特征,形成一個(gè)特征向量,并將該特征向量作為隱藏層的輸入.
5) 隱藏層.為了獲取不同通道局部特征之間的聯(lián)系,本文采用一個(gè)隱藏層對(duì)局部特征向量進(jìn)行特征提取,并可以通過(guò)權(quán)重矩陣學(xué)習(xí)不同通道的相互聯(lián)系.
6) 輸出層.本文使用函數(shù)softmax輸出待分類句子的分類結(jié)果.
Fig. 3 Model architecture of MCCNN圖3 多通道卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
和普通的卷積神經(jīng)網(wǎng)絡(luò)相比,MCCNN模型可以通過(guò)不同特征的組合變換形成新的通道作為網(wǎng)絡(luò)的輸入,使模型可以根據(jù)多樣化的輸入,在訓(xùn)練過(guò)程中獲取到更多的語(yǔ)義信息.因?yàn)椴煌卣鹘Y(jié)合除了形成新的特征之外,也可以讓特征之間有相互聯(lián)系和影響.同時(shí),不同通道的特征組合可以讓網(wǎng)絡(luò)在一次學(xué)習(xí)過(guò)程中就能完成對(duì)多個(gè)特征的參數(shù)調(diào)整,降低了網(wǎng)絡(luò)模型的時(shí)間代價(jià).此外,MCCNN模型中的每個(gè)通道是相互獨(dú)立的,在訓(xùn)練過(guò)程中模型可以對(duì)不同的通道使用不同的卷積核和不同的激活函數(shù),使模型學(xué)習(xí)到更加多樣化的信息.MCCNN模型除了使用SWCNN模型用到的詞向量和詞性特征之外,還加入了詞在文本中的位置特征.對(duì)于長(zhǎng)度為n的句子,其位置特征:
position1:n=position1⊕
position2⊕…⊕positionn.
(10)
對(duì)詞特征、詞性特征和位置特征采用不同的組合方式形成4個(gè)不同的通道作為網(wǎng)絡(luò)的輸入.為了使網(wǎng)絡(luò)模型簡(jiǎn)單化,本文在實(shí)驗(yàn)中對(duì)特征的組合使用的是一種簡(jiǎn)單的拼接操作:
V1=w⊕tag⊕position,
(11)
V2=w⊕tag,
(12)
V3=w⊕position,
(13)
V4=tag⊕position,
(14)
和SWCNN模型一樣,對(duì)于每個(gè)通道的特征信息,本文利用不同的卷積層對(duì)不同通道進(jìn)行卷積操作來(lái)提取特征信息,對(duì)于長(zhǎng)度為h的卷積核,卷積操作得到的特征向量圖:
(15)
然后利用池化層對(duì)特征信息進(jìn)行過(guò)濾和提取,獲取最重要的特征信息.實(shí)驗(yàn)中,本文對(duì)4個(gè)通道采用多窗口多卷積核的卷積操作,其中卷積核數(shù)量均為d,通過(guò)池化操作,可以得到池化特征向量圖:
(16)
式(15)(16)中,j={1,2,3,4}為通道下標(biāo).然后將不同通道的特征向量圖通過(guò)合并層可以得到特征向量:
(17)
此外,為了進(jìn)一步獲取更重要的特征信息和獲取不同通道特征信息之間的聯(lián)系,本文在MCCNN的池化層和全連接層之間加入一個(gè)隱藏層:
(18)
其中,R∈q為隱藏層輸出,q為隱藏層輸出維度.Wh∈q×d為隱藏層權(quán)重矩陣,bh∈q為偏置.通過(guò)該隱藏層可以更好地過(guò)濾影響分類性能的信息,獲取到更重要的特征.然后將隱藏層提取到的特征向量作為全連接層的輸入,和SWCNN模型一樣,本文利用一個(gè)函數(shù)softmax輸出待分類句子的分類結(jié)果.實(shí)驗(yàn)中,模型通過(guò)最小化交叉熵來(lái)調(diào)整模型參數(shù),優(yōu)化網(wǎng)絡(luò)模型的分類性能:
(19)
本文采用2014年中文觀點(diǎn)傾向性分析評(píng)測(cè)(COAE2014)語(yǔ)料中的任務(wù)4數(shù)據(jù)集*http://download.csdn.net/detail/hzssssshuo_/8708735和從網(wǎng)上爬取得到的微博文本形成不同的數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),來(lái)對(duì)本文提出方法的性能進(jìn)行評(píng)估.從COAE2014數(shù)據(jù)集中標(biāo)注6 000條帶有極性的數(shù)據(jù),其中正面情緒2 864條、負(fù)面情緒3 136條.為了豐富數(shù)據(jù)集的多樣性,本文從不同領(lǐng)域爬取5 000條帶有極性的微博文本,作為微博語(yǔ)料數(shù)據(jù)集(micro-blog dataset, MBD),其中正面情緒和負(fù)面情緒各2 500條.此外,為了驗(yàn)證本文提出方法在混合數(shù)據(jù)集的情感分類有效性,本文從COAE2014和微博語(yǔ)料數(shù)據(jù)集各抽取5 000條數(shù)據(jù)形成混合數(shù)據(jù)集來(lái)完成對(duì)比試驗(yàn),詳細(xì)的數(shù)據(jù)統(tǒng)計(jì)如表2所示:
Table 2 Statistic of Datasets表2 實(shí)驗(yàn)使用數(shù)據(jù)統(tǒng)計(jì)
本文使用ICTCLAS分詞工具*http://ictclas.nlpir.org/對(duì)表2所示的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注.詞向量和詞性特征由網(wǎng)上爬取的微博語(yǔ)料產(chǎn)生,采用Google的word2vec工具*http://word2vec.googlecode.com/svn/trunk/的skip-gram模型在特征向量可訓(xùn)練實(shí)驗(yàn)中對(duì)詞向量和詞性特征向量進(jìn)行訓(xùn)練,未登錄詞使用均勻分布U(-0.01,0.01)來(lái)隨機(jī)初始化.由于位置特征的取值較少,本文使用均勻分布U(-0.01,0.01)對(duì)位置特征向量進(jìn)行隨機(jī)初始化.實(shí)驗(yàn)中,詞向量維度為100維,詞性特征為50維,位置特征為10維.本文剔除了出現(xiàn)次數(shù)少于5次的詞條,其余參數(shù)使用word2vec的默認(rèn)參數(shù).
本文在實(shí)驗(yàn)中使用了多種窗口卷積核對(duì)輸入向量進(jìn)行卷積操作,卷積核函數(shù)為rectified linear units.訓(xùn)練過(guò)程采用Zeiler[28]提出的Adadelta更新規(guī)則.模型的參數(shù)設(shè)置如表3所示:
Table 3 Hyper Parameters of Experiment表3 模型參數(shù)設(shè)置
將本文提出的2種模型和文獻(xiàn)[11-13]提出的方法在表2所示數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證本文提出方法的有效性,各實(shí)驗(yàn)介紹如下:
1) Rich-features.文獻(xiàn)[13]提出的多樣化分類特征方法,實(shí)驗(yàn)中使用SVM分類器.
2) WFCNN-rand.文獻(xiàn)[11]提出的結(jié)合情感序列的卷積神經(jīng)網(wǎng)絡(luò)模型,但模型詞向量隨機(jī)初始化.
3) WFCNN.文獻(xiàn)[11]提出的WFCNN模型,并使用word2vec訓(xùn)練詞向量.
4) CNN-rand.文獻(xiàn)[12]提出的卷積神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)中詞向量隨機(jī)初始化.
5) CNN.文獻(xiàn)[12]提出的模型,并利用word2vec訓(xùn)練詞向量.
6) SWCNN-rand.本文提出的將詞性取值映射為多維向量加入情感信息的方法,但在實(shí)驗(yàn)中詞性特征采用隨機(jī)初始化.
7) SWCNN.本文提出的將詞性取值映射為多維向量加入情感信息的方法,實(shí)驗(yàn)中詞性特征利用word2vec進(jìn)行訓(xùn)練.
8) MCCNN-rand.本文提出的多通道卷積神經(jīng)網(wǎng)絡(luò)模型,但在實(shí)驗(yàn)中隨機(jī)初始化特征向量.
9) MCCNN.本文提出的多通道卷積神經(jīng)網(wǎng)絡(luò)模型,并利用word2vec訓(xùn)練特征向量.
本文將在表2所示的3個(gè)不同數(shù)據(jù)集上完成9組對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證本文提出方法的有效性.各數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表4所示:
Table 4 Accuracy on Sentiment Classification of Different Models
從表4結(jié)果可以看出,本文提出的MCCNN模型在3個(gè)數(shù)據(jù)集上都取得了最好的情感分類效果,其中在最好的MBD數(shù)據(jù)集上取得了85.80%的分類正確率,相比WFCNN模型的84.00%和CNN模型的83.30%分別提升了1.80%和2.50%,驗(yàn)證了本文提出方法在情感分析任務(wù)中的有效性.從表4結(jié)果也可以看出,利用word2vec訓(xùn)練詞向量的4種深度學(xué)習(xí)模型在3個(gè)數(shù)據(jù)集上都取得了比使用傳統(tǒng)方法的Rich-features模型更好的分類效果,說(shuō)明深度網(wǎng)絡(luò)模型在情感分析任務(wù)中相比傳統(tǒng)方法有更好的效果.對(duì)比文獻(xiàn)[11]提出的WFCNN模型和文獻(xiàn)[12]提出的CNN模型可以看出,加入情感信息的WFCNN模型在3個(gè)數(shù)據(jù)集上的分類正確率相比不使用情感特征信息的CNN模型都有不同程度的提升,說(shuō)明在情感分析任務(wù)中加入情感信息能有效提高情感分析的正確率.對(duì)比本文提出的將特征信息以詞性向量的形式加入卷積神經(jīng)網(wǎng)絡(luò)的SWCNN模型和文獻(xiàn)[11]提出的對(duì)情感信息進(jìn)行二值取值的WFCNN模型可以看出,本文提出的SWCNN模型在使用word2vec訓(xùn)練特征向量和向量隨機(jī)初始化實(shí)驗(yàn)中都取得了比WFCNN模型更好的分類效果.其中,在提升幅度最高的COAE數(shù)據(jù)集上,本文提出的SWCNN相比WFCNN模型的分類正確率分別提升了1.13%和0.83%,說(shuō)明本文提出的將情感信息以向量形式加入卷積神經(jīng)網(wǎng)絡(luò)的方法能使句子的情感特征信息在網(wǎng)絡(luò)模型中得到更充分的利用,從而取得更好的情感分類效果.此外,從表4中結(jié)果也可以看出,4種深度網(wǎng)絡(luò)模型在利用word2vec訓(xùn)練特征向量的實(shí)驗(yàn)中都取得了比向量隨機(jī)初始化更好的分類效果,說(shuō)明了特征向量的初始值會(huì)影響情感分析的分類效果.為了進(jìn)一步分析特征向量的初始值對(duì)分類性能的影響,本文從COAE數(shù)據(jù)集中隨機(jī)抽取5 000條樣本進(jìn)行10倍交叉驗(yàn)證對(duì)比實(shí)驗(yàn),對(duì)比結(jié)果如表5所示:
Table 5 Experimental Results of Cross Validation 表5 交叉驗(yàn)證實(shí)驗(yàn)結(jié)果
綜合表4和表5實(shí)驗(yàn)結(jié)果,4組對(duì)比實(shí)驗(yàn)在隨機(jī)初始化特征向量和利用word2vec訓(xùn)練特征向量的實(shí)驗(yàn)對(duì)比結(jié)果如圖4所示:
Fig. 4 Comparison results of random and word2vecinitialization embedding in different datasets圖4 不同數(shù)據(jù)集上隨機(jī)初始化特征向量和利用word2vec訓(xùn)練特征向量的實(shí)驗(yàn)對(duì)比
從圖4結(jié)果可以看出,使用word2vec訓(xùn)練特征向量的模型在所有的實(shí)驗(yàn)中都取得比隨機(jī)初始化特征向量更好的分類效果,說(shuō)明利用word2vec訓(xùn)練特征向量能有效提高情感分類的正確率.分析結(jié)果可知,相比隨機(jī)初始化特征向量,利用word2vec訓(xùn)練詞向量給詞條賦予初始值可以使網(wǎng)絡(luò)在訓(xùn)練過(guò)程中更好地學(xué)習(xí)和調(diào)整參數(shù),使模型有更優(yōu)的分類性能.此外,從圖4結(jié)果也可以看出,本文提出的MCCNN模型在隨機(jī)初始化特征向量的實(shí)驗(yàn)中也能取得不錯(cuò)的分類效果.同時(shí),隨機(jī)初始化特征向量相比用word2vec訓(xùn)練特征向量的分類正確率降幅較小,說(shuō)明本文提出的MCCNN模型能有效降低模型對(duì)特征向量初始值的依賴.分析實(shí)驗(yàn)結(jié)果可知,利用多通道輸入來(lái)接收待分類句子多樣化表示的MCCNN模型中每個(gè)通道的輸入不僅包含了特征本身的信息,還包含了特征之間的聯(lián)系,模型可以根據(jù)不同通道的特征信息能充分挖掘不同特征之間相互聯(lián)系和更多的隱藏信息,有效彌補(bǔ)了使用單一通道因?yàn)樘卣飨蛄砍跏贾挡缓侠矶y以提取更多特征信息的不足,降低了模型對(duì)向量初始值的依賴.
此外,從表4結(jié)果可以看出,WFCNN,CNN,SWCNN這3個(gè)模型在混合數(shù)據(jù)集COAEMBD上的分類結(jié)果都不理想,3個(gè)模型在COAEMBD數(shù)據(jù)集上的分類正確率相比COAE和MBD數(shù)據(jù)集都有所下降.說(shuō)明當(dāng)數(shù)據(jù)集使用混合領(lǐng)域的數(shù)據(jù)樣本時(shí),普通卷積神經(jīng)網(wǎng)絡(luò)難以結(jié)合不同領(lǐng)域數(shù)據(jù)中的輸入句子來(lái)學(xué)習(xí)整個(gè)數(shù)據(jù)集的特征信息.而對(duì)于本文提出的MCCNN模型,在COAEMBD數(shù)據(jù)集上的分類正確率為85.20%,雖然比在MBD數(shù)據(jù)集上的分類正確率(85.80%)降低了0.60%,但是比COAE數(shù)據(jù)集的分類正確率(84.91%)提升了0.29%.說(shuō)明本文提出的基于多通道的卷積神經(jīng)網(wǎng)絡(luò)模型在混合數(shù)據(jù)集上也能取得不錯(cuò)的分類效果,能有效緩解因數(shù)據(jù)樣本分布不均勻給模型調(diào)參帶來(lái)的難度.因?yàn)镸CCNN模型每個(gè)通道中不同特征的結(jié)合可以使模型提取到輸入句子更豐富的特征信息.同時(shí),MCCNN模型加入了詞語(yǔ)的位置特征信息,能有效表示出每個(gè)詞語(yǔ)在句子中的重要程度,在某類句子樣本數(shù)量有限時(shí)也可以充分挖掘句子的特征信息,從而取得比傳統(tǒng)網(wǎng)絡(luò)模型更好的分類效果.
和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,本文提出了一種將詞性映射為多維詞性向量的方法.通過(guò)將詞性向量和詞語(yǔ)的詞向量結(jié)合,使模型在訓(xùn)練過(guò)程中更好地學(xué)習(xí)輸入句子的情感特征信息.結(jié)合表4的實(shí)驗(yàn)結(jié)果,對(duì)比本文提出的SWCNN模型和傳統(tǒng)方法的WFCNN和CNN模型在不同數(shù)據(jù)集上的情感分類正確率來(lái)分析本文提出方法的有效性,對(duì)比結(jié)果如圖5所示:
Fig. 5 Comparison result of different models on different datasets圖5 模型在3種數(shù)據(jù)集上的對(duì)比結(jié)果
從圖5結(jié)果可以看出,本文提出的將詞性映射為多維向量的SWCNN模型在3個(gè)數(shù)據(jù)集上都取得了最好的分類效果.沒有加入情感特征信息的CNN模型的情感分類效果并不理想,在3個(gè)數(shù)據(jù)集上的分類正確率都比不上加入情感特征信息的WFCNN和SWCNN模型,說(shuō)明在情感分析任務(wù)中加入情感特征信息能有效提高情感分類正確率.此外,對(duì)比以二值特征形式加入情感信息的WFCNN模型,本文提出的SWCNN模型在情感分類任務(wù)中有更好的表現(xiàn),在3個(gè)數(shù)據(jù)集上的情感分類正確率都超過(guò)了WFCNN模型.對(duì)比結(jié)果表明,本文提出的將詞性映射為多維的向量特征可以使模型在訓(xùn)練過(guò)程中通過(guò)調(diào)整詞性向量不同分量的取值來(lái)學(xué)習(xí)更深層次的情感信息,挖掘更多的隱藏特征,從而取得更好的情感分類效果.
為了進(jìn)一步分析不同維度的詞性特征對(duì)分類效果的影響,本文利用SWCNN和MCCNN模型在COAE數(shù)據(jù)集上使用不同維度的詞性特征進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如圖6所示,其中詞性向量維度為0表示不使用詞性向量.
Fig. 6 Comparison of tag embedding in different dimensions圖6 不同維度詞性特征比較
從圖6可以看出,4組實(shí)驗(yàn)在詞性特征維度小于50時(shí)都呈現(xiàn)上升的趨勢(shì),其中隨機(jī)初始化特征向量的MCCNN-rand模型上升最為明顯;但是當(dāng)詞性特征維度超過(guò)50維之后,隨機(jī)初始化特征向量的SWCNN-rand和MCCNN-rand模型隨著維度的增加分類正確率呈現(xiàn)下降趨勢(shì),而利用word2vec訓(xùn)練特征向量初始值的SWCNN和MCCNN模型在詞性特征維度超過(guò)50之后的分類正確率出現(xiàn)了波動(dòng).在隨機(jī)初始化特征向量的2組實(shí)驗(yàn)中,當(dāng)詞性向量的維度增加時(shí),模型可以調(diào)整詞性向量更多的分量參數(shù)來(lái)學(xué)習(xí)待分類句子的情感信息,所以在詞性向量維度小于50時(shí)分類正確率呈現(xiàn)穩(wěn)定上升的趨勢(shì).隨著詞性特征維度的增加,模型在一次迭代過(guò)程需要調(diào)整更多的權(quán)重和向量參數(shù),隨機(jī)初始化特征向量時(shí),有可能會(huì)給詞性賦予一個(gè)和真實(shí)值相差很大的特征向量,使得模型在訓(xùn)練過(guò)程中難以通過(guò)參數(shù)調(diào)整來(lái)逼近真實(shí)的特征向量.所以當(dāng)特征維度超過(guò)某個(gè)閾值時(shí),隨機(jī)初始化特征向量的模型分類正確率會(huì)隨著詞性特征維度的增加而降低.對(duì)于使用word2vec訓(xùn)練特征向量初始值的SWCNN和MCCNN模型,當(dāng)詞性特征維度超過(guò)50時(shí)的分類正確率上升也不明顯,而詞性特征向量維度越大,模型的訓(xùn)練時(shí)間就越長(zhǎng).所以詞性向量的維度并非越大越好.從圖6也可以看出,在詞性特征維度為0,即不使用詞性特征的實(shí)驗(yàn)中,加入位置特征的MCCNN模型相比SWCNN模型有更好的分類正確率,說(shuō)明位置特征能提升模型的分類正確率.
此外,由于內(nèi)容層面的詞特征是卷積神經(jīng)網(wǎng)絡(luò)最主要的特征,所以當(dāng)詞性特征的維度過(guò)大時(shí),模型將無(wú)法主要針對(duì)內(nèi)容層面的詞向量進(jìn)行學(xué)習(xí)和調(diào)參,從而會(huì)影響模型的分類性能.為了分析不同維度的詞向量對(duì)模型分類性能的影響,本文對(duì)SWCNN和MCCNN模型取不同維度的詞向量在COAE數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7所示.
Fig. 7 Comparison of word embedding in different dimensions圖7 不同維度詞向量比較
從圖7結(jié)果可以看出,在詞向量維度小于100時(shí),4組實(shí)驗(yàn)的正確率都有明顯的上升趨勢(shì).在詞向量維度大于100維的時(shí)候,利用word2vec訓(xùn)練詞向量的2組實(shí)驗(yàn)的分類正確率呈現(xiàn)很平緩的上升,說(shuō)明利用word2vec訓(xùn)練詞向量實(shí)驗(yàn)的分類正確率能隨著詞向量維度的增加而提升.但是對(duì)于隨機(jī)初始化詞向量的2組實(shí)驗(yàn),在詞向量維度超過(guò)100的時(shí)候分類正確率都出現(xiàn)了波動(dòng).由于對(duì)向量初始值的依賴,隨著詞向量維度的增加,利用隨機(jī)初始化賦予初始值的模型并不能很好地學(xué)習(xí)向量的特征信息,所以分類正確率出現(xiàn)了波動(dòng).并且,隨著向量維度的增加,模型的訓(xùn)練時(shí)間也會(huì)增加.所以本文在實(shí)驗(yàn)中的詞向量維度設(shè)為100維,詞性向量維度為50維,而作為輔助網(wǎng)絡(luò)模型訓(xùn)練的位置特征向量則取10維.
為了進(jìn)一步分析本文提出方法對(duì)比傳統(tǒng)的深度學(xué)習(xí)模型的優(yōu)點(diǎn),本文從COAE數(shù)據(jù)集中抽取一些典型句子的分類結(jié)果進(jìn)行對(duì)比分析.
如表6所示,對(duì)于句子1和句子2這類情感極性明顯、結(jié)構(gòu)簡(jiǎn)單的句子,普通的CNN,WFCNN模型和本文提出的MCCNN模型都能正確識(shí)別這類句子的情感極性,得到正確的分類結(jié)果.句子3屬于語(yǔ)句較為復(fù)雜的句型.此類句型句子長(zhǎng)度較長(zhǎng),且無(wú)明顯的情感信息,所以普通的卷積神經(jīng)網(wǎng)絡(luò)模型很難通過(guò)有限的訓(xùn)練樣本學(xué)習(xí)到這類句型的情感極性,所以CNN模型得到一個(gè)錯(cuò)誤的分類結(jié)果.而對(duì)于加入特征信息的WFCNN模型和本文提出的MCCNN模型,可以通過(guò)情感特征來(lái)學(xué)習(xí)句子的隱藏特征信息,從而能有效識(shí)別這類句子的情感極性,取得正確的分類結(jié)果.對(duì)于句子4這類字面上沒有明確的情感信息且?guī)в蟹穸ㄔ~的句型,普通CNN模型和加入情感信息的WFCNN都無(wú)法根據(jù)有限的特征信息來(lái)學(xué)習(xí)這類句子的情感極性,從而得到一個(gè)錯(cuò)誤的分類結(jié)果.而對(duì)于MCCNN模型,因?yàn)槎嗤ǖ谰矸e神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的不僅是單個(gè)特征,還有特征之間的聯(lián)系,所以MCCNN模型可以根據(jù)不同特征之間的聯(lián)系來(lái)學(xué)習(xí)到更多的語(yǔ)義信息,比如某個(gè)詞的內(nèi)容、該詞的詞性以及該詞在句子中不同的位置,根據(jù)這些信息,模型就可以自動(dòng)學(xué)習(xí)到這類情感極性語(yǔ)句的結(jié)構(gòu),從而可以得到和人工標(biāo)注一致的結(jié)果.對(duì)于句子5和句子6,是一類關(guān)于反問(wèn)句的樣例,這類句子字面上往往有著和正確極性相反的情感,所以加入情感信息的WFCNN模型僅從單純的字面信息來(lái)判斷句子的情感極性,得到一個(gè)錯(cuò)誤的分類結(jié)果.同樣的,普通的CNN模型也很難根據(jù)句子的信息來(lái)判斷情感極性,所以句子6判斷錯(cuò)誤.對(duì)于MCCNN模型,這類字面上有“?”、“什么”等詞的句型,因?yàn)楸疚奶岢龅姆椒▽?duì)這類詞語(yǔ)進(jìn)行了詞性特征的學(xué)習(xí),所以MCCNN模型可以根據(jù)這些詞在句子中的位置和詞性特征來(lái)學(xué)習(xí)這類句型的情感信息,根據(jù)不用通道的輸入信息學(xué)習(xí)不同特征之間的聯(lián)系,讓模型學(xué)習(xí)到和訓(xùn)練集標(biāo)注一致的分類結(jié)果.對(duì)于句子7和句子8,這一類屬于更復(fù)雜的帶諷刺情感的句型,CNN和WFCNN模型都很難判斷這類數(shù)據(jù)的極性,如句子7和句子8的結(jié)果都和人工標(biāo)注相反.本文提出的MCCNN模型通過(guò)學(xué)習(xí)更多隱藏的語(yǔ)義信息,對(duì)這類數(shù)據(jù)也有比較好的極性判別效果,如句子8結(jié)果和人工標(biāo)注一致.
Table 6 Analysis of Typical Sentences表6 經(jīng)典句型例子分析
本文提出一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)的微博情感分析模型,該模型利用多通道卷積神經(jīng)網(wǎng)絡(luò)提取更多的語(yǔ)義信息和學(xué)習(xí)更多的隱藏信息.實(shí)驗(yàn)結(jié)果表明,本文提出的多通道卷積神經(jīng)網(wǎng)絡(luò)在不同的數(shù)據(jù)集均取得了比對(duì)比方法更好的分類性能,在混合數(shù)據(jù)集COAEMBD數(shù)據(jù)集上也取得不錯(cuò)的分類效果,驗(yàn)證了多通道卷積神經(jīng)網(wǎng)絡(luò)的魯棒性.此外,多通道卷積神經(jīng)網(wǎng)絡(luò)模型降低了對(duì)特征向量初始值的依賴性,這一結(jié)果表明多通道卷積神經(jīng)網(wǎng)絡(luò)可以結(jié)合更多的特征來(lái)學(xué)習(xí)和優(yōu)化模型.但是,通過(guò)分析經(jīng)典例子也可以看出,對(duì)于含有諷刺情感的句子,本文提出的多通道卷積神經(jīng)網(wǎng)絡(luò)模型仍然不能很好地識(shí)別這類句子的情感極性.
在下一步工作中,可以對(duì)不同的通道采用不同的特征組合方式,以及在不同的通道采用不同的激活函數(shù),讓模型學(xué)習(xí)到更多的特征信息,并且針對(duì)帶有諷刺情感的句型來(lái)改進(jìn)本文提出的多通道卷積神經(jīng)網(wǎng)絡(luò)模型.
[1]Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2): 1-135
[2]Joshi A, Balamurali A R, Bhattacharyya P, et al. C-Feel-It: A sentiment analyzer for micro-blogs[C] //Proc of the ACL-HLT 2011 System Demonstrations. Stroudsburg, PA: ACL, 2011: 127-132
[3]Chesley P, Vincent B, Xu Li, et al. Using verbs and adjectives to automatically classify blog sentiment[J]. Training, 2006, 580(263): 233-235
[4]Boiy E, Moens M F. A machine learning approach to sentiment analysis in multilingual Web texts[J]. Information Retrieval, 2009, 12(5): 526-558
[5]Ye Qiang, Zhang Ziqiong, Law R. Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J]. Expert Systems with Applications, 2009, 36(3): 6527-6535
[6]Yu Kai, Jia Lei, Chen Yuqiang, et al. Deep learning: Yesterday, today, and tomorrow[J]. Journal of Computer Research and Development, 2013, 50(9): 1799-1804 (in Chinese)
(余凱, 賈磊, 陳雨強(qiáng), 等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9): 1799-1804)
[7]Kim Y. Convolutional neural networks for sentence classification[C] //Proc of the 2014 Conf on Empirical Methods in Natural Language Processing.Stroudsburg, PA: ACL, 2014: 1746-1751
[8]Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[C] //Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 655-665
[9]Wang Xin, Liu Yuanchao, Sun Chengjie, et al. Predicting polarities of tweets by composing word embeddings with long short-term memory[C] //Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2015: 1343-1353
[10]Vo D T, Zhang Yue. Target-dependent Twitter sentiment classification with rich automatic features[C] //Proc of the 24th Int Joint Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2015: 1347-1353
[11]Chen Zhao, XuRuifeng, Gui Lin, et al. Combining convolutional neural networks and word sentiment sequence features for Chinese text sentiment analysis[J]. Journal of Chinese Information Processing, 2015, 29(6): 172-178 (in Chinese)
(陳釗, 徐睿峰, 桂林, 等. 結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和詞語(yǔ)情感序列特征的中文情感分析[J]. 中文信息學(xué)報(bào), 2015, 29(6): 172-178)
[12]Liu Longfei, Yang Liang, Zhang Shaowu, et al. Convolutional neural networks for Chinese micro-blog sentiment analysis[J]. Journal of Chinese Information Processing, 2015, 29(6): 159-165 (in Chinese)
(劉龍飛, 楊亮, 張紹武, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 中文信息學(xué)報(bào), 2015, 29(6): 159-165)
[13]Zhang Zhilin, Zong Chengqing. Sentiment analysis of Chinese micro blog based on rich-features[J]. Journal of Chinese Information Processing, 2015, 29(4): 134-143 (in Chinese)
(張志琳, 宗成慶. 基于多樣化特征的中文微博情感分類方法研究[J]. 中文信息學(xué)報(bào), 2015, 29(4): 134-143)
[14]Pang B, Lee L, Vaithyanathan S. Thumbs up?: Sentiment classification using machine learning techniques[C] //Proc of the ACL-02 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2002: 79-86
[15]Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(Feb): 1137-1155
[16]Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C] //Proc of the 27th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 3111-3119
[17]Go A, Bhayani R, Huang Lei. Twitter sentiment classification using distant supervision[R/OL]. Palo Alto: Stanford Library Technologies Project, 2009 [2017-01-01]. https://cs.stanford.edu/people/alecmgo/papers/TwitterDistant Superv-ision09.pdf
[18]Vo D T, Zhang Yue. Don’t count, predict! An automatic approach to learning sentiment lexicons for short text[C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 219-224
[19]Tang Duyu, Qin Bing, Zhou Lanjun, et al. Domain-specific sentiment word extraction by seed expansion and pattern generation[J/OL]. [2017-01-04]. https://arxiv.org/pdf/1309.6722.pdf
[20]LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324
[21]Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex[J]. The Journal of Physiology, 1962, 160(1): 106-154
[22]Hu Baotian, Lu Zhengdong, Li Hang, et al. Convolutional neural network architectures for matching natural language sentences[C] //Proc of the 28th Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 2042-2050
[23]Wang Mingxuan, Lu Zhengdong, Li Hang, et al. genCNN: A convolutional architecture for word sequence prediction[C] //Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2015: 1567-1576
[24]Wang Jin, Yu L C, Lai K R, et al. Dimensional sentiment analysis using a regional CNN-LSTM Model[C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 225-230
[25]Chen Yubo, Xu Liheng, Liu Kang, et al. Event extraction via dynamic multi-pooling convolutional neural networks[C] //Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2015: 167-176
[26]Tang Duyu, Wei Furu, Qin Bing, et al. Building large-scale Twitter-specific sentiment lexicon: A representation learning approach[C] //Proc of the 25th Int Conf on Computational Linguistics: Technical Papers. Stroudsburg, PA: ACL, 2014: 172-182
[27]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(Aug): 2493-2537
[28]Zeiler M D. ADADELTA: An adaptive learning rate method[J/OL]. [2017-01-03]. https://arxiv.org/pdf/1212.5701.pdf