淺談基于神經(jīng)網(wǎng)絡(luò)的新聞評(píng)論情感分析

2021-02-27 09:17:24

科學(xué)與信息化 2021年1期

中國(guó)人民解放軍陸軍工程大學(xué)通信工程學(xué)院江蘇南京 210046

引言

截至2020年3月，我國(guó)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)7.31億，手機(jī)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)7.26億，占手機(jī)網(wǎng)民的81.0%。大多數(shù)網(wǎng)民在瀏覽新聞的同時(shí)，通過(guò)發(fā)表評(píng)論來(lái)分享個(gè)人的意見(jiàn)看法、情感表達(dá)，這些由網(wǎng)民發(fā)表的評(píng)論通常包含著許多個(gè)人情感信息、立場(chǎng)傾向，通過(guò)收集這些評(píng)論信息加以分析，可以初步了解民眾對(duì)特定事項(xiàng)的觀點(diǎn)與看法，從而進(jìn)一步提煉出輿論走向。

情感分析是指對(duì)人們關(guān)于某一特定話題的輿論所蘊(yùn)含的情緒加以分析，而基于新聞評(píng)論文本信息的情感分析可以有效地梳理民眾針對(duì)新聞報(bào)道的輿論走向，用于應(yīng)對(duì)突發(fā)事件和異常情況檢測(cè)，有助于網(wǎng)絡(luò)輿情體系的完善。此外，新聞評(píng)論情感分析還廣泛地應(yīng)用于心理學(xué)、金融學(xué)、社會(huì)學(xué)等相關(guān)領(lǐng)域。

新聞評(píng)論情感分析的相關(guān)方法，可歸納為三個(gè)步驟：新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理、新聞評(píng)論情感特征的提取和新聞評(píng)論情感分類。新聞評(píng)論語(yǔ)料的預(yù)處理主要包含過(guò)濾文本中的停用詞、標(biāo)注分詞詞性、分析文本語(yǔ)法等；新聞評(píng)論情感特征的提取是根據(jù)上一步預(yù)處理的結(jié)果，遵循一定挖掘規(guī)則提取出新聞評(píng)論中蘊(yùn)含的情感特征；最終通過(guò)機(jī)器學(xué)習(xí)形成分類樹，根據(jù)新聞評(píng)論的情感特征將其歸類，實(shí)現(xiàn)新聞評(píng)論文本的自動(dòng)聚類。

1 新聞評(píng)論語(yǔ)料的預(yù)處理

新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理是新聞評(píng)論情感極性分析的首要階段，包括分詞、刪除停用詞、詞性標(biāo)注和句法分析等步驟，將日常人們習(xí)慣用語(yǔ)文本數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu)化文本數(shù)據(jù)。分詞處理是將語(yǔ)料庫(kù)中的文本劃分成單個(gè)詞語(yǔ)，相比于英文語(yǔ)句中空格可以直接作為切分的依據(jù)，中文語(yǔ)句的分詞更為復(fù)雜，需要通過(guò)將語(yǔ)句與詞典中的詞語(yǔ)相匹配等方法來(lái)進(jìn)行分詞處理，也有利用隱馬爾科夫模型（HMM,Hidden Markov Model,）、條件隨機(jī)場(chǎng)(CRF,CanditionalRandom Field）、互信息(MI,Mutual Information）等概率統(tǒng)計(jì)模型的分詞方法，也可以引入語(yǔ)義和句法分析的分詞方法[1]。分詞處理之后，需要對(duì)每個(gè)劃分出來(lái)的詞語(yǔ)進(jìn)行詞性的判斷，比如動(dòng)名詞、副詞、形容詞、介詞、語(yǔ)氣詞等等，并刪除不包含情感信息的介詞、代詞、停用詞等，最后再根據(jù)句子的語(yǔ)法區(qū)分新聞評(píng)論文本的主謂賓，總結(jié)歸納出句法結(jié)構(gòu)，具體預(yù)處理過(guò)程如圖1所示。

圖1 新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理

2 新聞評(píng)論文本情感特征的提取

用計(jì)算機(jī)處理文本的情感特征提取，首先需要將原本的文本數(shù)據(jù)轉(zhuǎn)化成計(jì)算機(jī)可識(shí)別的機(jī)器語(yǔ)言，目前最常用的分類模型為向量空間模型(VSM,Vector Space Model)，即將文本特征與相應(yīng)的特征權(quán)重相結(jié)合形成有極性的特征向量。

2.1 基于情感詞典的特征的抽取

首先作為比對(duì)的依據(jù)需要構(gòu)建情感詞典，根據(jù)情感詞典一一判斷上一步中劃分出的詞語(yǔ)所具有的極性，對(duì)于詞典中未注冊(cè)單詞，可以使用Word2Vec、Doc2Vec等通過(guò)語(yǔ)義相似度轉(zhuǎn)化為同義詞來(lái)確定單詞的極性。采用類似方法做過(guò)研究的如王曉東等人在文獻(xiàn)[2]中提出的Ontology模型，通過(guò)構(gòu)建情感Ontology將語(yǔ)句中有代表性的情感特征詞語(yǔ)抽離出來(lái)，根據(jù)該特征詞語(yǔ)的情感極性判斷原文本所具有的情感極性。還有王素格等人在文獻(xiàn)[3]中提出的判別近義詞詞匯情感傾向的方法，這一方法不同的是在建立情感分析詞典時(shí)，認(rèn)為同義詞之間在情感分析上具有同樣的傾向性。從以上的分析不難看出這一情感分析方法的關(guān)鍵在于建立完善的情感詞典，但隨著時(shí)代、網(wǎng)絡(luò)的發(fā)展，人們?cè)诎l(fā)表新聞評(píng)論時(shí)涉及的新鮮詞匯也逐漸豐富，一時(shí)間難以窮盡，這給情感詞典的構(gòu)建帶來(lái)了不小的挑戰(zhàn)。

2.2 基于大規(guī)模語(yǔ)料的統(tǒng)計(jì)特征

當(dāng)涉及的語(yǔ)料庫(kù)數(shù)據(jù)規(guī)模較大時(shí)，需要通過(guò)數(shù)據(jù)挖掘的方法抽取一般的語(yǔ)法特征，總結(jié)規(guī)律，可運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)文本進(jìn)行處理，實(shí)現(xiàn)情感分類。類似的處理方法如文獻(xiàn)[4]通過(guò)分析二元語(yǔ)法的情感傾向建立互信息特征模型，而后利用機(jī)器學(xué)習(xí)算法獲得情感分類器，對(duì)語(yǔ)料庫(kù)中的文本進(jìn)行情感判斷與分類。

2.3 基于表情符號(hào)的特征

現(xiàn)在的網(wǎng)絡(luò)用語(yǔ)及快餐文化，經(jīng)常會(huì)包含一些表情符號(hào)，用戶在發(fā)表評(píng)論時(shí)也常常會(huì)夾雜著表情來(lái)表達(dá)觀點(diǎn)和情緒，常見(jiàn)的表情符號(hào)如圖2所示，這些表情符也可以輔助我們有效地為文本做出情感分類。文獻(xiàn)[5]所提出的情感分析方法是多維的，通過(guò)深度學(xué)習(xí)，在文本的多維特征中引入表情特征，提高了情感分類的效率與準(zhǔn)確度。

圖2 常見(jiàn)表情符號(hào)

3 基于神經(jīng)網(wǎng)絡(luò)的新聞評(píng)論情感分類

機(jī)器學(xué)習(xí)是建立情感詞典的重要算法，而深度學(xué)習(xí)是其重點(diǎn)研究的領(lǐng)域，其中最常用作情感極性分析的兩種模型工具就是卷積神經(jīng)網(wǎng)絡(luò)（CNN）和遞歸神經(jīng)網(wǎng)絡(luò)（RNN）。

3.1 以卷積神經(jīng)網(wǎng)絡(luò)（CNN）分類模型

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，主要由輸入層、卷積層、池化層和輸出層構(gòu)成如圖4。其中卷積結(jié)構(gòu)有效降低了深層網(wǎng)絡(luò)占用的內(nèi)存量，減少了卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)總量，提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性和泛化能力，緩解模型的過(guò)擬合問(wèn)題。Kim等人在文獻(xiàn)[6]提出了一種模型可運(yùn)用CNN對(duì)新聞評(píng)論進(jìn)行文本分類，將預(yù)先訓(xùn)練好的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入層，訓(xùn)練出神經(jīng)網(wǎng)絡(luò)模型，進(jìn)而實(shí)現(xiàn)數(shù)據(jù)類別的預(yù)測(cè)。

圖3 CNN文本分類模型結(jié)構(gòu)圖

3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）分類模型

與卷積神經(jīng)網(wǎng)絡(luò)相比，循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）沒(méi)有固定大小的卷積核窗口，沒(méi)有煩瑣的用來(lái)調(diào)節(jié)卷積核大小的參數(shù)，他是一類以序列數(shù)據(jù)為輸入的遞歸神經(jīng)網(wǎng)絡(luò)，是深度學(xué)習(xí)領(lǐng)域中所有節(jié)點(diǎn)按照鏈?zhǔn)竭B接的神經(jīng)網(wǎng)絡(luò)，其最大的特點(diǎn)就是循環(huán)單元在某一時(shí)刻的輸出可以作為輸入再次輸入到循環(huán)單元，有效避免了普通神經(jīng)網(wǎng)絡(luò)輸入輸出相互獨(dú)立的缺陷，通常用于處理包含時(shí)間序列的數(shù)據(jù)。圖4給出了循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)，其中ht為輸出層，A為隱藏層，xt為輸入層，前一時(shí)刻的網(wǎng)絡(luò)狀態(tài)可以通過(guò)隱藏層上的鏈?zhǔn)竭B接傳遞給當(dāng)前時(shí)刻，同理，當(dāng)前時(shí)刻的狀態(tài)也可以傳遞給下一時(shí)刻，保持了數(shù)據(jù)中的依賴關(guān)系。

圖4 RNN網(wǎng)絡(luò)結(jié)構(gòu)圖

3.3 長(zhǎng)短期記憶網(wǎng)絡(luò)分類模型

長(zhǎng)短期記憶網(wǎng)絡(luò)（LongShort-TermMemoryNetwork，LSTM）[7]在1997年由Hochreiter等人提出，在語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等多領(lǐng)域都得到了廣泛的應(yīng)用。它是一種常見(jiàn)的循環(huán)神經(jīng)網(wǎng)絡(luò)，其優(yōu)勢(shì)主要體現(xiàn)在處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件。LSTM含有一個(gè)“門”結(jié)構(gòu)用來(lái)對(duì)決定細(xì)胞狀態(tài)中輸入的信息是否要被記住或是輸出，由此更新每一層的隱藏狀態(tài)，鑒于其可以改進(jìn)一般RNN模型訓(xùn)練中可能出現(xiàn)的梯度消失問(wèn)題，LSTM通?？勺鳛榉蔷€性模型用于文本建模、連續(xù)手寫識(shí)別、自主語(yǔ)音識(shí)別等，其結(jié)構(gòu)圖如圖5所示。

圖5 LSTM結(jié)構(gòu)圖

然而上述提到的幾種神經(jīng)網(wǎng)絡(luò)雖有各自的優(yōu)勢(shì)，但本質(zhì)上都是將單個(gè)句子或文本作為神經(jīng)單元的輸入，通過(guò)形成深度神經(jīng)網(wǎng)絡(luò)，提取相關(guān)特征信息并將原數(shù)據(jù)分類。這使得句與句之間的關(guān)聯(lián)性信息丟失，上下文之間的局部信息難以體現(xiàn)。針對(duì)這一點(diǎn)，文獻(xiàn)[8]提出了LSTM與注意力機(jī)制相結(jié)合的新型神經(jīng)網(wǎng)絡(luò)LSTM-Attention，該神經(jīng)網(wǎng)絡(luò)主要包含六個(gè)部分：文本向量化層、詞語(yǔ)信息特征提取層、詞語(yǔ)Attention層、句子信息特征提取層、句子Attention層、文本分類層，旨在提取學(xué)習(xí)分層次網(wǎng)格結(jié)構(gòu)的文本信息的基礎(chǔ)上，還可以實(shí)現(xiàn)對(duì)重要的詞語(yǔ)和句子的特征提取。該神經(jīng)網(wǎng)絡(luò)模型整體框架如圖6所示。

圖6 LSTM Attention神經(jīng)網(wǎng)絡(luò)整體框圖

利用LSTM-Attention對(duì)新聞評(píng)論進(jìn)行文本分類，主要經(jīng)過(guò)6層操作。詞語(yǔ)構(gòu)成句子，句子構(gòu)成評(píng)論文本，這六層的操作可分別作用于詞語(yǔ)和句子層面，通過(guò)分別提取相應(yīng)特征對(duì)整個(gè)新聞評(píng)論進(jìn)行分析。

綜上所述，卷積神經(jīng)網(wǎng)絡(luò)模型仿造生物的視知覺(jué)機(jī)制，注重全局感知，忽視了詞句之間的關(guān)聯(lián)性，而長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)可以體現(xiàn)更多的文本間信息的長(zhǎng)期依賴性，彌補(bǔ)模型訓(xùn)練中的不足，在引入注意力機(jī)制后，可通過(guò)調(diào)整權(quán)重系數(shù)進(jìn)一步確定對(duì)不同文本的關(guān)注度，使得預(yù)測(cè)與分析更加全面，有效提高了輿情走向判斷的準(zhǔn)確率。

4 結(jié)束語(yǔ)

隨著大數(shù)據(jù)時(shí)代的到來(lái)，世界信息的儲(chǔ)備量日益倍增，利用機(jī)器學(xué)習(xí)對(duì)海量評(píng)論信息的分析處理可以得到很多有意義的信息，關(guān)于文本的情感分析也有著重要的科研和實(shí)際生活應(yīng)用。

本文對(duì)文本情感分析的常用方法進(jìn)行了簡(jiǎn)要的歸納介紹，其中深度學(xué)習(xí)領(lǐng)域處于這些方法的核心手段，有進(jìn)一步深入研究學(xué)習(xí)的必要性，當(dāng)前也有許多新興算法結(jié)構(gòu)在被提出，不斷地改進(jìn)文本情感分析的處理方式以得到更優(yōu)的結(jié)果，這也是我們下一步需要考慮的關(guān)鍵所在。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡