中國(guó)人民解放軍陸軍工程大學(xué)通信工程學(xué)院 江蘇 南京 210046
截至2020年3月,我國(guó)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)7.31億,手機(jī)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)7.26億,占手機(jī)網(wǎng)民的81.0%。大多數(shù)網(wǎng)民在瀏覽新聞的同時(shí),通過(guò)發(fā)表評(píng)論來(lái)分享個(gè)人的意見(jiàn)看法、情感表達(dá),這些由網(wǎng)民發(fā)表的評(píng)論通常包含著許多個(gè)人情感信息、立場(chǎng)傾向,通過(guò)收集這些評(píng)論信息加以分析,可以初步了解民眾對(duì)特定事項(xiàng)的觀點(diǎn)與看法,從而進(jìn)一步提煉出輿論走向。
情感分析是指對(duì)人們關(guān)于某一特定話題的輿論所蘊(yùn)含的情緒加以分析,而基于新聞評(píng)論文本信息的情感分析可以有效地梳理民眾針對(duì)新聞報(bào)道的輿論走向,用于應(yīng)對(duì)突發(fā)事件和異常情況檢測(cè),有助于網(wǎng)絡(luò)輿情體系的完善。此外,新聞評(píng)論情感分析還廣泛地應(yīng)用于心理學(xué)、金融學(xué)、社會(huì)學(xué)等相關(guān)領(lǐng)域。
新聞評(píng)論情感分析的相關(guān)方法,可歸納為三個(gè)步驟:新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理、新聞評(píng)論情感特征的提取和新聞評(píng)論情感分類。新聞評(píng)論語(yǔ)料的預(yù)處理主要包含過(guò)濾文本中的停用詞、標(biāo)注分詞詞性、分析文本語(yǔ)法等;新聞評(píng)論情感特征的提取是根據(jù)上一步預(yù)處理的結(jié)果,遵循一定挖掘規(guī)則提取出新聞評(píng)論中蘊(yùn)含的情感特征;最終通過(guò)機(jī)器學(xué)習(xí)形成分類樹,根據(jù)新聞評(píng)論的情感特征將其歸類,實(shí)現(xiàn)新聞評(píng)論文本的自動(dòng)聚類。
新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理是新聞評(píng)論情感極性分析的首要階段,包括分詞、刪除停用詞、詞性標(biāo)注和句法分析等步驟,將日常人們習(xí)慣用語(yǔ)文本數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu)化文本數(shù)據(jù)。分詞處理是將語(yǔ)料庫(kù)中的文本劃分成單個(gè)詞語(yǔ),相比于英文語(yǔ)句中空格可以直接作為切分的依據(jù),中文語(yǔ)句的分詞更為復(fù)雜,需要通過(guò)將語(yǔ)句與詞典中的詞語(yǔ)相匹配等方法來(lái)進(jìn)行分詞處理,也有利用隱馬爾科夫模型(HMM,Hidden Markov Model,)、條件隨機(jī)場(chǎng)(CRF,CanditionalRandom Field)、互信息(MI,Mutual Information)等概率統(tǒng)計(jì)模型的分詞方法,也可以引入語(yǔ)義和句法分析的分詞方法[1]。分詞處理之后,需要對(duì)每個(gè)劃分出來(lái)的詞語(yǔ)進(jìn)行詞性的判斷,比如動(dòng)名詞、副詞、形容詞、介詞、語(yǔ)氣詞等等,并刪除不包含情感信息的介詞、代詞、停用詞等,最后再根據(jù)句子的語(yǔ)法區(qū)分新聞評(píng)論文本的主謂賓,總結(jié)歸納出句法結(jié)構(gòu),具體預(yù)處理過(guò)程如圖1所示。
圖1 新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理
用計(jì)算機(jī)處理文本的情感特征提取,首先需要將原本的文本數(shù)據(jù)轉(zhuǎn)化成計(jì)算機(jī)可識(shí)別的機(jī)器語(yǔ)言,目前最常用的分類模型為向量空間模型(VSM,Vector Space Model),即將文本特征與相應(yīng)的特征權(quán)重相結(jié)合形成有極性的特征向量。
首先作為比對(duì)的依據(jù)需要構(gòu)建情感詞典,根據(jù)情感詞典一一判斷上一步中劃分出的詞語(yǔ)所具有的極性,對(duì)于詞典中未注冊(cè)單詞,可以使用Word2Vec、Doc2Vec等通過(guò)語(yǔ)義相似度轉(zhuǎn)化為同義詞來(lái)確定單詞的極性。采用類似方法做過(guò)研究的如王曉東等人在文獻(xiàn)[2]中提出的Ontology模型,通過(guò)構(gòu)建情感Ontology將語(yǔ)句中有代表性的情感特征詞語(yǔ)抽離出來(lái),根據(jù)該特征詞語(yǔ)的情感極性判斷原文本所具有的情感極性。還有王素格等人在文獻(xiàn)[3]中提出的判別近義詞詞匯情感傾向的方法,這一方法不同的是在建立情感分析詞典時(shí),認(rèn)為同義詞之間在情感分析上具有同樣的傾向性。從以上的分析不難看出這一情感分析方法的關(guān)鍵在于建立完善的情感詞典,但隨著時(shí)代、網(wǎng)絡(luò)的發(fā)展,人們?cè)诎l(fā)表新聞評(píng)論時(shí)涉及的新鮮詞匯也逐漸豐富,一時(shí)間難以窮盡,這給情感詞典的構(gòu)建帶來(lái)了不小的挑戰(zhàn)。
當(dāng)涉及的語(yǔ)料庫(kù)數(shù)據(jù)規(guī)模較大時(shí),需要通過(guò)數(shù)據(jù)挖掘的方法抽取一般的語(yǔ)法特征,總結(jié)規(guī)律,可運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)文本進(jìn)行處理,實(shí)現(xiàn)情感分類。類似的處理方法如文獻(xiàn)[4]通過(guò)分析二元語(yǔ)法的情感傾向建立互信息特征模型,而后利用機(jī)器學(xué)習(xí)算法獲得情感分類器,對(duì)語(yǔ)料庫(kù)中的文本進(jìn)行情感判斷與分類。
現(xiàn)在的網(wǎng)絡(luò)用語(yǔ)及快餐文化,經(jīng)常會(huì)包含一些表情符號(hào),用戶在發(fā)表評(píng)論時(shí)也常常會(huì)夾雜著表情來(lái)表達(dá)觀點(diǎn)和情緒,常見(jiàn)的表情符號(hào)如圖2所示,這些表情符也可以輔助我們有效地為文本做出情感分類。文獻(xiàn)[5]所提出的情感分析方法是多維的,通過(guò)深度學(xué)習(xí),在文本的多維特征中引入表情特征,提高了情感分類的效率與準(zhǔn)確度。
圖2 常見(jiàn)表情符號(hào)
機(jī)器學(xué)習(xí)是建立情感詞典的重要算法,而深度學(xué)習(xí)是其重點(diǎn)研究的領(lǐng)域,其中最常用作情感極性分析的兩種模型工具就是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),主要由輸入層、卷積層、池化層和輸出層構(gòu)成如圖4。其中卷積結(jié)構(gòu)有效降低了深層網(wǎng)絡(luò)占用的內(nèi)存量,減少了卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)總量,提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性和泛化能力,緩解模型的過(guò)擬合問(wèn)題。Kim等人在文獻(xiàn)[6]提出了一種模型可運(yùn)用CNN對(duì)新聞評(píng)論進(jìn)行文本分類,將預(yù)先訓(xùn)練好的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入層,訓(xùn)練出神經(jīng)網(wǎng)絡(luò)模型,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)類別的預(yù)測(cè)。
圖3 CNN文本分類模型結(jié)構(gòu)圖
與卷積神經(jīng)網(wǎng)絡(luò)相比,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)沒(méi)有固定大小的卷積核窗口,沒(méi)有煩瑣的用來(lái)調(diào)節(jié)卷積核大小的參數(shù),他是一類以序列數(shù)據(jù)為輸入的遞歸神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)領(lǐng)域中所有節(jié)點(diǎn)按照鏈?zhǔn)竭B接的神經(jīng)網(wǎng)絡(luò),其最大的特點(diǎn)就是循環(huán)單元在某一時(shí)刻的輸出可以作為輸入再次輸入到循環(huán)單元,有效避免了普通神經(jīng)網(wǎng)絡(luò)輸入輸出相互獨(dú)立的缺陷,通常用于處理包含時(shí)間序列的數(shù)據(jù)。圖4給出了循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),其中ht為輸出層,A為隱藏層,xt為輸入層,前一時(shí)刻的網(wǎng)絡(luò)狀態(tài)可以通過(guò)隱藏層上的鏈?zhǔn)竭B接傳遞給當(dāng)前時(shí)刻,同理,當(dāng)前時(shí)刻的狀態(tài)也可以傳遞給下一時(shí)刻,保持了數(shù)據(jù)中的依賴關(guān)系。
圖4 RNN網(wǎng)絡(luò)結(jié)構(gòu)圖
長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShort-TermMemoryNetwork,LSTM)[7]在1997年由Hochreiter等人提出,在語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等多領(lǐng)域都得到了廣泛的應(yīng)用。它是一種常見(jiàn)的循環(huán)神經(jīng)網(wǎng)絡(luò),其優(yōu)勢(shì)主要體現(xiàn)在處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件。LSTM含有一個(gè)“門”結(jié)構(gòu)用來(lái)對(duì)決定細(xì)胞狀態(tài)中輸入的信息是否要被記住或是輸出,由此更新每一層的隱藏狀態(tài),鑒于其可以改進(jìn)一般RNN模型訓(xùn)練中可能出現(xiàn)的梯度消失問(wèn)題,LSTM通??勺鳛榉蔷€性模型用于文本建模、連續(xù)手寫識(shí)別、自主語(yǔ)音識(shí)別等,其結(jié)構(gòu)圖如圖5所示。
圖5 LSTM結(jié)構(gòu)圖
然而上述提到的幾種神經(jīng)網(wǎng)絡(luò)雖有各自的優(yōu)勢(shì),但本質(zhì)上都是將單個(gè)句子或文本作為神經(jīng)單元的輸入,通過(guò)形成深度神經(jīng)網(wǎng)絡(luò),提取相關(guān)特征信息并將原數(shù)據(jù)分類。這使得句與句之間的關(guān)聯(lián)性信息丟失,上下文之間的局部信息難以體現(xiàn)。針對(duì)這一點(diǎn),文獻(xiàn)[8]提出了LSTM與注意力機(jī)制相結(jié)合的新型神經(jīng)網(wǎng)絡(luò)LSTM-Attention,該神經(jīng)網(wǎng)絡(luò)主要包含六個(gè)部分:文本向量化層、詞語(yǔ)信息特征提取層、詞語(yǔ)Attention層、句子信息特征提取層、句子Attention層、文本分類層,旨在提取學(xué)習(xí)分層次網(wǎng)格結(jié)構(gòu)的文本信息的基礎(chǔ)上,還可以實(shí)現(xiàn)對(duì)重要的詞語(yǔ)和句子的特征提取。該神經(jīng)網(wǎng)絡(luò)模型整體框架如圖6所示。
圖6 LSTM Attention神經(jīng)網(wǎng)絡(luò)整體框圖
利用LSTM-Attention對(duì)新聞評(píng)論進(jìn)行文本分類,主要經(jīng)過(guò)6層操作。詞語(yǔ)構(gòu)成句子,句子構(gòu)成評(píng)論文本,這六層的操作可分別作用于詞語(yǔ)和句子層面,通過(guò)分別提取相應(yīng)特征對(duì)整個(gè)新聞評(píng)論進(jìn)行分析。
綜上所述,卷積神經(jīng)網(wǎng)絡(luò)模型仿造生物的視知覺(jué)機(jī)制,注重全局感知,忽視了詞句之間的關(guān)聯(lián)性,而長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)可以體現(xiàn)更多的文本間信息的長(zhǎng)期依賴性,彌補(bǔ)模型訓(xùn)練中的不足,在引入注意力機(jī)制后,可通過(guò)調(diào)整權(quán)重系數(shù)進(jìn)一步確定對(duì)不同文本的關(guān)注度,使得預(yù)測(cè)與分析更加全面,有效提高了輿情走向判斷的準(zhǔn)確率。
隨著大數(shù)據(jù)時(shí)代的到來(lái),世界信息的儲(chǔ)備量日益倍增,利用機(jī)器學(xué)習(xí)對(duì)海量評(píng)論信息的分析處理可以得到很多有意義的信息,關(guān)于文本的情感分析也有著重要的科研和實(shí)際生活應(yīng)用。
本文對(duì)文本情感分析的常用方法進(jìn)行了簡(jiǎn)要的歸納介紹,其中深度學(xué)習(xí)領(lǐng)域處于這些方法的核心手段,有進(jìn)一步深入研究學(xué)習(xí)的必要性,當(dāng)前也有許多新興算法結(jié)構(gòu)在被提出,不斷地改進(jìn)文本情感分析的處理方式以得到更優(yōu)的結(jié)果,這也是我們下一步需要考慮的關(guān)鍵所在。