国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT-BiLSTM的水利新聞情感分析研究

2022-07-02 06:08:50蘇天龔炳江
電腦知識與技術(shù) 2022年15期
關(guān)鍵詞:文本分類情感分析

蘇天 龔炳江

摘要:BERT是谷歌AI團(tuán)隊近年來新發(fā)布的自然語言預(yù)訓(xùn)練模型,在11種不同的NLP測試中創(chuàng)出最佳成績,被認(rèn)為是NLP領(lǐng)域中里程碑式的進(jìn)步,因此利用BERT進(jìn)行文本情感分析是一個很熱門的研究方向,該文中水利輿情分析主要是對水利新聞進(jìn)行情感分析。該文對基于詞典、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的情感分類技術(shù)進(jìn)行了分析,并提出了基于完整句分割的BERT-BiLSTM水利新聞文本情感分類模型。該課題可以為水利行業(yè)從業(yè)人員和其他領(lǐng)域的情感分類研究提供較高的指導(dǎo)意義。

關(guān)鍵詞:水利輿情系統(tǒng);NLP;情感分析;BERT-BiLSTM模型;文本分類

中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2022)15-0004-03

1 引言

我國是一個水災(zāi)多發(fā)的國家,水災(zāi)的發(fā)生往往會給人們帶來很多不利的影響。近年來,隨著互聯(lián)網(wǎng)的發(fā)展,人們能夠越來越方便地在網(wǎng)絡(luò)上發(fā)表和水利有關(guān)的新聞和言論,但往往有些新聞或者言論是不正確的,甚至?xí)o社會帶來巨大的負(fù)面影響。因此,利用情感分類技術(shù)檢測負(fù)面新聞的傳播來維護(hù)社會穩(wěn)定是非常有實用價值的。

情感分析主要從分析網(wǎng)絡(luò)輿情發(fā)展而來。國內(nèi)外的學(xué)者研究網(wǎng)絡(luò)輿情焦距情感分析、話題識別、關(guān)鍵詞提取等方面。早期的輿情分析并不是直接用于情感分析,而是用于調(diào)查民意、觀察輿論動向等方面。1996年,美國國防高級研究計劃局DARPA提出了話題檢測與跟蹤技術(shù)TDT的概念,即讓計算機(jī)自動識別文本中的話題。由于國外的互聯(lián)網(wǎng)發(fā)展早于國內(nèi),中文互聯(lián)網(wǎng)也是從這個世紀(jì)才開始發(fā)展起來,因此中文輿情分析是伴隨著互聯(lián)網(wǎng)的發(fā)展才出現(xiàn)的。當(dāng)今時代,水利輿情對社會生活的影響越來越大,利用輿情分析技術(shù)進(jìn)行水利新聞情感分析的需求也越來越迫切。

2 情感分析技術(shù)的比較

2.1 基于詞典的方法

基于詞典的情感分析是通過分析文章中的情感詞對文章做情感分析。詞典方法通過規(guī)則來獲取文章的情感信息,然后以情感詞典中的情感詞去判斷文章的情感表達(dá)程度。這種做法就是建立情感詞典過分依賴人工,并且不能根據(jù)詞之間的聯(lián)系進(jìn)行情感分析。

2.2 基于機(jī)器學(xué)習(xí)的方法

隨著機(jī)器學(xué)習(xí)的發(fā)展Pang[1]等人于2002年率先將機(jī)器學(xué)習(xí)的方法用到文本情感分析中,他們使用各種不同的機(jī)器學(xué)習(xí)分類器分別對從互聯(lián)網(wǎng)上的抓取到的影評信息文本進(jìn)行情感分析。實驗結(jié)果表明,進(jìn)行特征組合的機(jī)器學(xué)習(xí)算法得到的準(zhǔn)確率高達(dá)82.9%。此后,研究者將研究重點放在特征組合上。Mullen和Collier[2]基于前人研究基礎(chǔ)之上,通過更好的特征組合,使用SVM分類器進(jìn)行文本情感分析,這種方式所使用的特征主要有詞匯和互信息特征、主題相似特征和句法關(guān)系特征。但是機(jī)器學(xué)習(xí)的方式依賴于特征的組合[3],如果特征提取不好,最后分析結(jié)果也會不太合理。

2.3 基于深度學(xué)習(xí)的方法

2006年,Hinton等人提出了深度學(xué)習(xí)的概念,深度學(xué)習(xí)逐漸被應(yīng)用到NLP中,并且在NLP方面取得了令人滿意的進(jìn)步。在對文本的編碼方面。2013年,Tomas Mikolov[5]等人提出了Word2Vec,用于處理one-hot編碼文本向量化后維度過高的問題。2015年,Zhu[6]等人提出采用LSTM將中文評論語句建模成詞序列來解決情感分類問題,LSTM可以捕捉到評論語句中的長依賴關(guān)系,可以從整體上分析評論的情感語義。2019年,Raghavendra[7]使用BERT進(jìn)行長文本編碼時,采用了滑動窗口的方式分割長文本。文獻(xiàn)[8]中Sun等人使用截斷和分層的方式對長文本進(jìn)行預(yù)處理,再使用BERT進(jìn)行編碼。近年各種詞向量技術(shù)和深度學(xué)習(xí)算法不斷涌現(xiàn),但是大部分的研究都集中在短文本領(lǐng)域,對長文本進(jìn)行合理向量化進(jìn)行情感分類是一個值得研究的方向。

3 水利新聞情感分析的實現(xiàn)方案

3.1 實驗環(huán)境

實驗采取的環(huán)境見表1。

3.2 數(shù)據(jù)集制作

情感分類算法需要大量的數(shù)據(jù)來進(jìn)行算法模型的訓(xùn)練,但是在水利輿情方面又沒有專門的水利輿情數(shù)據(jù),因此本文使用的數(shù)據(jù)來源于百度新聞和新浪新聞,直接抓取了與水利相關(guān)新聞的URL,在對具體新聞url進(jìn)行內(nèi)容抓取時,對URL進(jìn)行了去重,以防止抓取到重復(fù)的新聞數(shù)據(jù)。在請求URL連接的時獲取到的是頁面代碼和新聞內(nèi)容混合在一起的信息,需要將新聞內(nèi)容從這些雜亂的代碼中提取出來,這里使用BeautifulSoup從爬取的網(wǎng)頁信息中提取新聞標(biāo)題和內(nèi)容,然后把新聞內(nèi)容保存下來。因為不同的新聞網(wǎng)站的頁面結(jié)構(gòu)是不一樣的,因此需要寫不同的新聞抓取代碼來對應(yīng)不同的新聞網(wǎng)站。在新聞抓取時為了提高爬取效率,使用了IP代理池技術(shù)防止單一IP爬取被禁止訪問數(shù)據(jù)。獲取的內(nèi)容主要是新聞標(biāo)題和文章內(nèi)容。文章標(biāo)題中通常蘊(yùn)含了文章的關(guān)鍵信息和新聞的性質(zhì),因此文章標(biāo)題也是必須獲取的內(nèi)容。后續(xù)通過算法對文章標(biāo)題和內(nèi)容的分析來判斷文章具體情感內(nèi)容。由于條件限制,本文一共抓取了1869條新聞數(shù)據(jù),然后對數(shù)據(jù)集進(jìn)行標(biāo)注,分為負(fù)面新聞和正面新聞,負(fù)面新聞標(biāo)為0,正面新聞標(biāo)為1。然后將數(shù)據(jù)集分為訓(xùn)練集和測試集,對算法模型進(jìn)行訓(xùn)練。

3.3 實現(xiàn)方案技術(shù)的選擇

1)文本編碼技術(shù)

文本編碼技術(shù)就是將新聞文本轉(zhuǎn)化為文本向量。因為算法模型無法直接處理新聞文本,所以需要通過文本編碼技術(shù)將新聞文本轉(zhuǎn)化為文本向量輸入算法模型中進(jìn)行處理。One-Hot編碼是一種常見的文本編碼方式。它對于每一個特征,如果它有m個可能值,那么經(jīng)過獨熱編碼后,就變成了m個二元特征。并且,這些特征互斥,每次只有一個激活。因此,數(shù)據(jù)會變成稀疏的。在文本處理中就是將每個詞作為一個特征進(jìn)行編碼。但是這樣的編碼形式無法表征語義信息,并且過多的特征也會使編碼之后的文本向量維度非常高,造成維度災(zāi)難。Word2Vec是一種常用的文本編碼模型,它在編碼中可以考慮詞語上下文之間的關(guān)系,維度比較少,速度也比較快,通用性很強(qiáng),可以用在各種NLP任務(wù)中。但是它無法解決文章中一詞多義的問題。BERT模型解決了一詞多義的問題。BERT是谷歌AI部門的研究人員近年來新發(fā)布的文本預(yù)訓(xùn)練模型,在11種不同的NLP測試中創(chuàng)出最佳成績,在NLP業(yè)引起巨大反響,認(rèn)為是NLP領(lǐng)域里程碑式的進(jìn)步。與最近的其他語言模型不同,BERT旨在聯(lián)合調(diào)節(jié)所有層中的上下文來預(yù)先訓(xùn)練深度雙向表示[9]。BERT可以通過一個額外的輸出層進(jìn)行微調(diào),可以應(yīng)用到大部分自然語言處理任務(wù)中,不需要針對具體的任務(wù)進(jìn)行很大改動,BERT模型如圖1所示。E63E06ED-28E4-4968-AF81-22528AF55FC4

由于輸入BERT中的文本長度最長為512,而有些新聞文本長度卻超過了這個數(shù)字,文獻(xiàn)[8]中的研究人員直接使用截斷文本只保留512個文本或者以512為一段截成多段,但是這樣會丟失數(shù)據(jù)或者破壞文本之間的關(guān)系。本文基于完整句分割的形式,在不超過512長度的基礎(chǔ)之上每次分割出完整句,然后放入BERT進(jìn)行編碼,同新聞的多段編碼之后拼接到一起。主要算法流程如圖2所示。

2)深度學(xué)習(xí)算法

深度學(xué)習(xí)算法比較著名的是CNN卷積神經(jīng)網(wǎng)絡(luò)算法,在卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的每一層都接收來自其前一層的輸出作為其輸入,并將其輸出作為輸入傳遞給下一層。一般的卷積神經(jīng)網(wǎng)絡(luò)中都會有輸入層、卷積層、池化層、全連接層,最后是一個分類層進(jìn)行分類。RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的神經(jīng)元接受的輸入除了前一層網(wǎng)絡(luò)的輸出,還有自身的狀態(tài)信息,其狀態(tài)信息在網(wǎng)絡(luò)中循環(huán)傳遞。但是RNN存在一個主要問題是梯度消失。因為神經(jīng)網(wǎng)絡(luò)的反向傳播算法基于梯度下降的,也就是在目標(biāo)的負(fù)梯度方向上對參數(shù)進(jìn)行調(diào)整。如此一來就要對激活函數(shù)求梯度。又因為 RNN 存在循環(huán)結(jié)構(gòu),因此激活函數(shù)的梯度會乘上多次,這就導(dǎo)致:如果梯度小于1,那么隨著層數(shù)增多,梯度快速減小,即發(fā)生了梯度消失(Gradient Vanishing);如果梯度大于1,那么隨著層數(shù)增多,梯度更新將以指數(shù)形式膨脹,即發(fā)生梯度爆炸(Gradient Exploding)。LSTM是由RNN演化而來的。

長短期記憶模型(LSTM)繼承了RNN處理文本序列模型的特點,在訓(xùn)練時能夠控制梯度的收斂性,并在一定程度解決了梯度爆炸和梯度消失的問題,同時也能夠保持長期的記憶性。為了更好地處理序列信息,研究者提出了雙向長短期記憶網(wǎng)絡(luò)(Bi-directional LSTM,BiLSTM)。BiLSTM模型相對于LSTM兼顧了上下文信息,可以提取文本中更深層次的語義信息。BiLSTM結(jié)構(gòu)如圖3所示。

3)激活函數(shù)

在使用BiLSTM進(jìn)行文本特征提取后,需要使用分類器對文本特征進(jìn)行分類,這里使用Softmax分類器進(jìn)行分類。Softmax分類器就是將上層的輸出通過Softmax函數(shù)映射成0到1范圍內(nèi)的值,所有映射結(jié)果的累計和為1。因為每一個映射的結(jié)果相當(dāng)于分類成對應(yīng)值的概率,就可以選擇概率最大的值作為最終結(jié)果。Softmax函數(shù)又稱歸一化指數(shù)函數(shù),函數(shù)表達(dá)式為:

Softmax函數(shù)本身針對多項分布提出,當(dāng)類別數(shù)是2時,它退化為二項分布。由于Softmax函數(shù)先拉大了輸入向量元素之間的差異(通過指數(shù)函數(shù)),然后才歸一化為一個概率分布,在應(yīng)用到分類問題時,使得各個類別的概率差異比較顯著,最大值產(chǎn)生的概率更接近1,這樣輸出分布的形式更接近真實分布。所以這里使用Softmax進(jìn)行分類。在使用BiLSTM提取了深層次的語義信息之后,將句子的特征向量輸入到Softmax函數(shù)中,然后計算得到對應(yīng)的結(jié)果。

3.4? 算法評價準(zhǔn)則

為驗證模型的有效性,使用機(jī)器學(xué)習(xí)中比較常用的算法評價標(biāo)準(zhǔn):準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F-Measure)來衡量[10],計算公式如式(2)~式(4)。

其中TP(True Positive)表示正面新聞預(yù)測為正面新聞的數(shù)量;FP(False Positive)表示負(fù)面新聞預(yù)測為正面新聞的數(shù)量;FN(False Negative)表示正面新聞預(yù)測為負(fù)面新聞的數(shù)量。之所以選擇這個算法評價指標(biāo)是因為在輿情分析中,負(fù)面新聞所占的比例是非常小的。如果把所有的水利新聞都預(yù)測成非負(fù)面新聞,那么準(zhǔn)確率也是非常高的,這樣的準(zhǔn)確率是沒有任何意義的。因此準(zhǔn)確地將負(fù)面新聞識別出來才能說這個算法模型是合理的,所以在關(guān)注準(zhǔn)確率的同時,也要關(guān)注召回率。而F1值可以同時考慮準(zhǔn)確率和召回率,讓兩者同時達(dá)到最高,取得平衡。

4 對比實驗

由于數(shù)據(jù)集條件的限制,這里采用了80%的新聞文章作為訓(xùn)練集,20%新聞文章作為測試集。為了展現(xiàn)提出的算法模型的優(yōu)勢,算法模型對照實驗分別采取了BERT-LSTM、BERT-BiLSTM和本文提出的基于完整句分割的BERT-BiLSTM三種算法模型進(jìn)行對比實驗,實驗結(jié)果數(shù)據(jù)如表2所示。

5 實驗結(jié)果及分析

通過對比實驗中的結(jié)果數(shù)據(jù)可以看出,基于完整句分割的BERT-BiLSTM模型相較于BERT-BiLSTM和BERT-LSTM的準(zhǔn)確率和召回率更高,F(xiàn)1值也更高。

6 結(jié)束語

本文分析了目前情感分析算法的優(yōu)劣,提出了基于完整句分割的BERT-BiLSTM新聞文本情感分析算法模型。算法模型首先基于完整句對新聞文本進(jìn)行分割,然后使用BERT模型將新聞文本編碼為文本向量,之后將文本向量輸入到BiLSTM中進(jìn)行文本特征提取,最終用Softmax對提取的文本特征向量分類得到結(jié)果數(shù)據(jù)。實驗結(jié)果表明,本文提出的算法相較于之前的效果較好,但是由于數(shù)據(jù)來源較少,算法的整體識別率還有待提高,因此在后續(xù)工作中,可以增加數(shù)據(jù)并進(jìn)一步優(yōu)化算法以達(dá)到更好的效果。

參考文獻(xiàn):

[1] Pang B,Lee L,Vaithyanathan S.Thumbs up:sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing - EMNLP '02.Not Known.Morristown,NJ,USA:Association for Computational Linguistics,2002.

[2] Zainuddin N,Selamat A.Sentiment analysis using Support Vector Machine[C]//2014 International Conference on Computer,Communications,and Control Technology (I4CT).September 2-4,2014,Langkawi,Malaysia.IEEE,2014:333-337.E63E06ED-28E4-4968-AF81-22528AF55FC4

[3] 陳龍,管子玉,何金紅,等.情感分類研究進(jìn)展[J].計算機(jī)研究與發(fā)展,2017,54(6):1150-1170.

[4] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

[5] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems. 2013: 3111-3119.

[6] Zhu X D,Sobhani P,Guo H Y.Long short-term memory over recursive structures[C]//ICML'15:Proceedings of the 32nd International Conference on International Conference on Machine Learning - Volume 37.2015:1604-1612.

[7] Pappagari R,Zelasko P,Villalba J,et al.Hierarchical transformers for long document classification[C]//2019 IEEE Automatic Speech Recognition and Understanding Workshop.December 14-18,2019,Singapore.IEEE,2019:838-844.

[8] Sun C,Qiu X P,Xu Y G,et al.How to fine-tune BERT for text classification?[C]//Chinese Computational Linguistics,2019.

[9] 劉思琴,馮胥睿瑞.基于BERT的文本情感分析[J].信息安全研究,2020,6(3):220-227.

[10] 陳才.NLP技術(shù)在農(nóng)業(yè)輿情分析系統(tǒng)中的應(yīng)用研究[D].北京:北京工業(yè)大學(xué),2019.

【通聯(lián)編輯:唐一東】E63E06ED-28E4-4968-AF81-22528AF55FC4

猜你喜歡
文本分類情感分析
基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評論情感屬性的動態(tài)變化
預(yù)測(2016年5期)2016-12-26 17:16:57
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類技術(shù)研究
象山县| 正定县| 江门市| 汾阳市| 富阳市| 双城市| 临洮县| 宜兰县| 灵川县| 南京市| 荔波县| 綦江县| 乌兰浩特市| 孝感市| 武安市| 西峡县| 佛坪县| 吴江市| 监利县| 武胜县| 色达县| 墨玉县| 临城县| 巴马| 绥阳县| 三亚市| 梁平县| 泰和县| 任丘市| 谢通门县| 连州市| 宜兴市| 巩留县| 固始县| 瓦房店市| 翁牛特旗| 美姑县| 鄂尔多斯市| 噶尔县| 玉溪市| 湘乡市|