国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談基于神經(jīng)網(wǎng)絡(luò)的新聞評(píng)論情感分析

2021-02-27 09:17:24
科學(xué)與信息化 2021年1期
關(guān)鍵詞:卷積詞語(yǔ)神經(jīng)網(wǎng)絡(luò)

中國(guó)人民解放軍陸軍工程大學(xué)通信工程學(xué)院 江蘇 南京 210046

引言

截至2020年3月,我國(guó)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)7.31億,手機(jī)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)7.26億,占手機(jī)網(wǎng)民的81.0%。大多數(shù)網(wǎng)民在瀏覽新聞的同時(shí),通過(guò)發(fā)表評(píng)論來(lái)分享個(gè)人的意見(jiàn)看法、情感表達(dá),這些由網(wǎng)民發(fā)表的評(píng)論通常包含著許多個(gè)人情感信息、立場(chǎng)傾向,通過(guò)收集這些評(píng)論信息加以分析,可以初步了解民眾對(duì)特定事項(xiàng)的觀點(diǎn)與看法,從而進(jìn)一步提煉出輿論走向。

情感分析是指對(duì)人們關(guān)于某一特定話題的輿論所蘊(yùn)含的情緒加以分析,而基于新聞評(píng)論文本信息的情感分析可以有效地梳理民眾針對(duì)新聞報(bào)道的輿論走向,用于應(yīng)對(duì)突發(fā)事件和異常情況檢測(cè),有助于網(wǎng)絡(luò)輿情體系的完善。此外,新聞評(píng)論情感分析還廣泛地應(yīng)用于心理學(xué)、金融學(xué)、社會(huì)學(xué)等相關(guān)領(lǐng)域。

新聞評(píng)論情感分析的相關(guān)方法,可歸納為三個(gè)步驟:新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理、新聞評(píng)論情感特征的提取和新聞評(píng)論情感分類。新聞評(píng)論語(yǔ)料的預(yù)處理主要包含過(guò)濾文本中的停用詞、標(biāo)注分詞詞性、分析文本語(yǔ)法等;新聞評(píng)論情感特征的提取是根據(jù)上一步預(yù)處理的結(jié)果,遵循一定挖掘規(guī)則提取出新聞評(píng)論中蘊(yùn)含的情感特征;最終通過(guò)機(jī)器學(xué)習(xí)形成分類樹,根據(jù)新聞評(píng)論的情感特征將其歸類,實(shí)現(xiàn)新聞評(píng)論文本的自動(dòng)聚類。

1 新聞評(píng)論語(yǔ)料的預(yù)處理

新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理是新聞評(píng)論情感極性分析的首要階段,包括分詞、刪除停用詞、詞性標(biāo)注和句法分析等步驟,將日常人們習(xí)慣用語(yǔ)文本數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu)化文本數(shù)據(jù)。分詞處理是將語(yǔ)料庫(kù)中的文本劃分成單個(gè)詞語(yǔ),相比于英文語(yǔ)句中空格可以直接作為切分的依據(jù),中文語(yǔ)句的分詞更為復(fù)雜,需要通過(guò)將語(yǔ)句與詞典中的詞語(yǔ)相匹配等方法來(lái)進(jìn)行分詞處理,也有利用隱馬爾科夫模型(HMM,Hidden Markov Model,)、條件隨機(jī)場(chǎng)(CRF,CanditionalRandom Field)、互信息(MI,Mutual Information)等概率統(tǒng)計(jì)模型的分詞方法,也可以引入語(yǔ)義和句法分析的分詞方法[1]。分詞處理之后,需要對(duì)每個(gè)劃分出來(lái)的詞語(yǔ)進(jìn)行詞性的判斷,比如動(dòng)名詞、副詞、形容詞、介詞、語(yǔ)氣詞等等,并刪除不包含情感信息的介詞、代詞、停用詞等,最后再根據(jù)句子的語(yǔ)法區(qū)分新聞評(píng)論文本的主謂賓,總結(jié)歸納出句法結(jié)構(gòu),具體預(yù)處理過(guò)程如圖1所示。

圖1 新聞評(píng)論語(yǔ)料庫(kù)的預(yù)處理

2 新聞評(píng)論文本情感特征的提取

用計(jì)算機(jī)處理文本的情感特征提取,首先需要將原本的文本數(shù)據(jù)轉(zhuǎn)化成計(jì)算機(jī)可識(shí)別的機(jī)器語(yǔ)言,目前最常用的分類模型為向量空間模型(VSM,Vector Space Model),即將文本特征與相應(yīng)的特征權(quán)重相結(jié)合形成有極性的特征向量。

2.1 基于情感詞典的特征的抽取

首先作為比對(duì)的依據(jù)需要構(gòu)建情感詞典,根據(jù)情感詞典一一判斷上一步中劃分出的詞語(yǔ)所具有的極性,對(duì)于詞典中未注冊(cè)單詞,可以使用Word2Vec、Doc2Vec等通過(guò)語(yǔ)義相似度轉(zhuǎn)化為同義詞來(lái)確定單詞的極性。采用類似方法做過(guò)研究的如王曉東等人在文獻(xiàn)[2]中提出的Ontology模型,通過(guò)構(gòu)建情感Ontology將語(yǔ)句中有代表性的情感特征詞語(yǔ)抽離出來(lái),根據(jù)該特征詞語(yǔ)的情感極性判斷原文本所具有的情感極性。還有王素格等人在文獻(xiàn)[3]中提出的判別近義詞詞匯情感傾向的方法,這一方法不同的是在建立情感分析詞典時(shí),認(rèn)為同義詞之間在情感分析上具有同樣的傾向性。從以上的分析不難看出這一情感分析方法的關(guān)鍵在于建立完善的情感詞典,但隨著時(shí)代、網(wǎng)絡(luò)的發(fā)展,人們?cè)诎l(fā)表新聞評(píng)論時(shí)涉及的新鮮詞匯也逐漸豐富,一時(shí)間難以窮盡,這給情感詞典的構(gòu)建帶來(lái)了不小的挑戰(zhàn)。

2.2 基于大規(guī)模語(yǔ)料的統(tǒng)計(jì)特征

當(dāng)涉及的語(yǔ)料庫(kù)數(shù)據(jù)規(guī)模較大時(shí),需要通過(guò)數(shù)據(jù)挖掘的方法抽取一般的語(yǔ)法特征,總結(jié)規(guī)律,可運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)文本進(jìn)行處理,實(shí)現(xiàn)情感分類。類似的處理方法如文獻(xiàn)[4]通過(guò)分析二元語(yǔ)法的情感傾向建立互信息特征模型,而后利用機(jī)器學(xué)習(xí)算法獲得情感分類器,對(duì)語(yǔ)料庫(kù)中的文本進(jìn)行情感判斷與分類。

2.3 基于表情符號(hào)的特征

現(xiàn)在的網(wǎng)絡(luò)用語(yǔ)及快餐文化,經(jīng)常會(huì)包含一些表情符號(hào),用戶在發(fā)表評(píng)論時(shí)也常常會(huì)夾雜著表情來(lái)表達(dá)觀點(diǎn)和情緒,常見(jiàn)的表情符號(hào)如圖2所示,這些表情符也可以輔助我們有效地為文本做出情感分類。文獻(xiàn)[5]所提出的情感分析方法是多維的,通過(guò)深度學(xué)習(xí),在文本的多維特征中引入表情特征,提高了情感分類的效率與準(zhǔn)確度。

圖2 常見(jiàn)表情符號(hào)

3 基于神經(jīng)網(wǎng)絡(luò)的新聞評(píng)論情感分類

機(jī)器學(xué)習(xí)是建立情感詞典的重要算法,而深度學(xué)習(xí)是其重點(diǎn)研究的領(lǐng)域,其中最常用作情感極性分析的兩種模型工具就是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。

3.1 以卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類模型

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),主要由輸入層、卷積層、池化層和輸出層構(gòu)成如圖4。其中卷積結(jié)構(gòu)有效降低了深層網(wǎng)絡(luò)占用的內(nèi)存量,減少了卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)總量,提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性和泛化能力,緩解模型的過(guò)擬合問(wèn)題。Kim等人在文獻(xiàn)[6]提出了一種模型可運(yùn)用CNN對(duì)新聞評(píng)論進(jìn)行文本分類,將預(yù)先訓(xùn)練好的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入層,訓(xùn)練出神經(jīng)網(wǎng)絡(luò)模型,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)類別的預(yù)測(cè)。

圖3 CNN文本分類模型結(jié)構(gòu)圖

3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)分類模型

與卷積神經(jīng)網(wǎng)絡(luò)相比,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)沒(méi)有固定大小的卷積核窗口,沒(méi)有煩瑣的用來(lái)調(diào)節(jié)卷積核大小的參數(shù),他是一類以序列數(shù)據(jù)為輸入的遞歸神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)領(lǐng)域中所有節(jié)點(diǎn)按照鏈?zhǔn)竭B接的神經(jīng)網(wǎng)絡(luò),其最大的特點(diǎn)就是循環(huán)單元在某一時(shí)刻的輸出可以作為輸入再次輸入到循環(huán)單元,有效避免了普通神經(jīng)網(wǎng)絡(luò)輸入輸出相互獨(dú)立的缺陷,通常用于處理包含時(shí)間序列的數(shù)據(jù)。圖4給出了循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),其中ht為輸出層,A為隱藏層,xt為輸入層,前一時(shí)刻的網(wǎng)絡(luò)狀態(tài)可以通過(guò)隱藏層上的鏈?zhǔn)竭B接傳遞給當(dāng)前時(shí)刻,同理,當(dāng)前時(shí)刻的狀態(tài)也可以傳遞給下一時(shí)刻,保持了數(shù)據(jù)中的依賴關(guān)系。

圖4 RNN網(wǎng)絡(luò)結(jié)構(gòu)圖

3.3 長(zhǎng)短期記憶網(wǎng)絡(luò)分類模型

長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShort-TermMemoryNetwork,LSTM)[7]在1997年由Hochreiter等人提出,在語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯等多領(lǐng)域都得到了廣泛的應(yīng)用。它是一種常見(jiàn)的循環(huán)神經(jīng)網(wǎng)絡(luò),其優(yōu)勢(shì)主要體現(xiàn)在處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件。LSTM含有一個(gè)“門”結(jié)構(gòu)用來(lái)對(duì)決定細(xì)胞狀態(tài)中輸入的信息是否要被記住或是輸出,由此更新每一層的隱藏狀態(tài),鑒于其可以改進(jìn)一般RNN模型訓(xùn)練中可能出現(xiàn)的梯度消失問(wèn)題,LSTM通??勺鳛榉蔷€性模型用于文本建模、連續(xù)手寫識(shí)別、自主語(yǔ)音識(shí)別等,其結(jié)構(gòu)圖如圖5所示。

圖5 LSTM結(jié)構(gòu)圖

然而上述提到的幾種神經(jīng)網(wǎng)絡(luò)雖有各自的優(yōu)勢(shì),但本質(zhì)上都是將單個(gè)句子或文本作為神經(jīng)單元的輸入,通過(guò)形成深度神經(jīng)網(wǎng)絡(luò),提取相關(guān)特征信息并將原數(shù)據(jù)分類。這使得句與句之間的關(guān)聯(lián)性信息丟失,上下文之間的局部信息難以體現(xiàn)。針對(duì)這一點(diǎn),文獻(xiàn)[8]提出了LSTM與注意力機(jī)制相結(jié)合的新型神經(jīng)網(wǎng)絡(luò)LSTM-Attention,該神經(jīng)網(wǎng)絡(luò)主要包含六個(gè)部分:文本向量化層、詞語(yǔ)信息特征提取層、詞語(yǔ)Attention層、句子信息特征提取層、句子Attention層、文本分類層,旨在提取學(xué)習(xí)分層次網(wǎng)格結(jié)構(gòu)的文本信息的基礎(chǔ)上,還可以實(shí)現(xiàn)對(duì)重要的詞語(yǔ)和句子的特征提取。該神經(jīng)網(wǎng)絡(luò)模型整體框架如圖6所示。

圖6 LSTM Attention神經(jīng)網(wǎng)絡(luò)整體框圖

利用LSTM-Attention對(duì)新聞評(píng)論進(jìn)行文本分類,主要經(jīng)過(guò)6層操作。詞語(yǔ)構(gòu)成句子,句子構(gòu)成評(píng)論文本,這六層的操作可分別作用于詞語(yǔ)和句子層面,通過(guò)分別提取相應(yīng)特征對(duì)整個(gè)新聞評(píng)論進(jìn)行分析。

綜上所述,卷積神經(jīng)網(wǎng)絡(luò)模型仿造生物的視知覺(jué)機(jī)制,注重全局感知,忽視了詞句之間的關(guān)聯(lián)性,而長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)可以體現(xiàn)更多的文本間信息的長(zhǎng)期依賴性,彌補(bǔ)模型訓(xùn)練中的不足,在引入注意力機(jī)制后,可通過(guò)調(diào)整權(quán)重系數(shù)進(jìn)一步確定對(duì)不同文本的關(guān)注度,使得預(yù)測(cè)與分析更加全面,有效提高了輿情走向判斷的準(zhǔn)確率。

4 結(jié)束語(yǔ)

隨著大數(shù)據(jù)時(shí)代的到來(lái),世界信息的儲(chǔ)備量日益倍增,利用機(jī)器學(xué)習(xí)對(duì)海量評(píng)論信息的分析處理可以得到很多有意義的信息,關(guān)于文本的情感分析也有著重要的科研和實(shí)際生活應(yīng)用。

本文對(duì)文本情感分析的常用方法進(jìn)行了簡(jiǎn)要的歸納介紹,其中深度學(xué)習(xí)領(lǐng)域處于這些方法的核心手段,有進(jìn)一步深入研究學(xué)習(xí)的必要性,當(dāng)前也有許多新興算法結(jié)構(gòu)在被提出,不斷地改進(jìn)文本情感分析的處理方式以得到更優(yōu)的結(jié)果,這也是我們下一步需要考慮的關(guān)鍵所在。

猜你喜歡
卷積詞語(yǔ)神經(jīng)網(wǎng)絡(luò)
容易混淆的詞語(yǔ)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
找詞語(yǔ)
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
詞語(yǔ)欣賞
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
一枚詞語(yǔ)一門靜
五大连池市| 基隆市| 全椒县| 山丹县| 嘉义市| 马关县| 股票| 涡阳县| 博乐市| 卫辉市| 洪雅县| 淮北市| 龙胜| 宁都县| 泸溪县| 青神县| 安岳县| 乡城县| 花莲市| 页游| 柞水县| 民乐县| 本溪市| 固阳县| 鄂托克前旗| 五河县| 盘锦市| 六盘水市| 崇义县| 东丽区| 镇原县| 浙江省| 新闻| 余姚市| 景洪市| 依兰县| 荣昌县| 高邑县| 沽源县| 肃宁县| 辽中县|