国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT-BiLSTM的網(wǎng)民情緒識(shí)別

2021-08-18 21:53:15潘梅
電腦知識(shí)與技術(shù) 2021年18期
關(guān)鍵詞:網(wǎng)民

潘梅

摘要:為幫助政府等相關(guān)部門及時(shí)掌握大眾對(duì)特定公共事件的主要情感傾向,針對(duì)基于詞向量的深度學(xué)習(xí)方法實(shí)現(xiàn)網(wǎng)民情緒識(shí)別,存在高度依賴分詞準(zhǔn)確性、一詞多義等問題,提出基于BERT-BiLSTM的網(wǎng)民情緒識(shí)別方法。首先,基于BERT預(yù)訓(xùn)練模型獲取預(yù)處理后的待識(shí)別文本詞向量;然后,利用BiLSTM提取上下文相關(guān)特征進(jìn)行學(xué)習(xí);最后,通過分類器獲得文本的情感極性,包括積極和消極兩類。通過對(duì)疫情期間網(wǎng)民情緒識(shí)別數(shù)據(jù)集實(shí)驗(yàn)表明,基于BERT-BiLSTM的網(wǎng)民情緒識(shí)別模型P值為88.98%,R值為92.72%,F(xiàn)1值為90.81%,相比于LSTM和BiLSTM模型性能更優(yōu)。本識(shí)別方法可為網(wǎng)民情緒識(shí)別研究提供借鑒,識(shí)別結(jié)果可為政府決策分析和輿情引導(dǎo)提供參考。

關(guān)鍵詞:網(wǎng)民;情緒識(shí)別;BERT;BiLSTM

中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)18-0074-03

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

Emotion Recognition of Internet Users based on BERT-BiLSTM

PAN Mei

(Chengdu Normal University, Chengdu 611130, China)

Abstract: In order to help the government and other relevant departments grasp the main emotional tendencies of the public on specific public events in time, aiming at the problems of high dependence on word segmentation accuracy and polysemy in deep learning method based on word vector to realize internet users emotion recognition, this paper proposes ainternet users emotion recognition method based on BERT-BiLSTM. Firstly, the text word vector with preprocessed and to be recognized is obtained based on the BERT; secondly, the context sensitive features are extracted by the BiLSTM for learning; finally, the emotional polarity of the text, including positive and negative, is obtained through the classifier. The experiments of internet users emotion recognition data set during the epidemic period shows that the Precision is 88.98%, Recall is 92.72%, and F1 is 90.81%based on BERT-BiLSTM, which is better than LSTM and BiLSTM. The recognition method can provide reference for the research of internet users emotion recognition, and the recognition results can provide reference for government decision-making analysis and public opinion guidance.

Key words: internet users; emotion recognition; BERT; BiLSTM

1 引言

隨著互聯(lián)網(wǎng)技術(shù)和移動(dòng)通信技術(shù)的高速發(fā)展,普通大眾均可便捷地在網(wǎng)絡(luò)上對(duì)公共事件發(fā)表評(píng)論和分享觀點(diǎn),通過網(wǎng)絡(luò)表達(dá)對(duì)各種社會(huì)事件的情感態(tài)度。該方式可以迅速傳播和延伸至網(wǎng)絡(luò)各區(qū)域,引發(fā)公眾關(guān)注和熱議,形成網(wǎng)絡(luò)社會(huì)輿論,網(wǎng)絡(luò)輿論通常會(huì)產(chǎn)生巨大的輿論動(dòng)向和影響。公共事件爆發(fā)后,政府須盡快掌握人們對(duì)該話題的關(guān)心程度和發(fā)展趨勢(shì),有效提高其公信力和應(yīng)急管理能力。如新型冠狀病毒(COVID-19)感染的肺炎疫情,迅速引發(fā)國(guó)內(nèi)和國(guó)際輿論的持續(xù)關(guān)注,眾多網(wǎng)民參與疫情相關(guān)話題討論。政府部門需要掌握公眾在該事件傳播過程中的情感狀況和社會(huì)輿論情況,科學(xué)高效地做好防控宣傳和輿情引導(dǎo)工作。因此,對(duì)網(wǎng)民發(fā)表的評(píng)論進(jìn)行情緒識(shí)別分析,把握大眾對(duì)特定事件的主要情感傾向,是輔助政府進(jìn)行決策分析和輿論引導(dǎo)的重要手段。本文通過對(duì)特定公共事件傳播期間網(wǎng)民情緒識(shí)別方法進(jìn)行研究,為及時(shí)準(zhǔn)確掌握網(wǎng)絡(luò)大眾情感提供參考。

網(wǎng)民情緒識(shí)別的核心是對(duì)網(wǎng)民評(píng)論的短文本進(jìn)行情感分析,其主要分為基于情感詞典的方法[1]、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[2]和基于深度學(xué)習(xí)的方法[3]?;谏疃葘W(xué)習(xí)的方法在建模、解釋、學(xué)習(xí)和表達(dá)等方面較優(yōu),但主流的深度學(xué)習(xí)分析方法大多都是基于詞向量的分類,該類模型存在高度依賴分詞準(zhǔn)確性、一詞多義等問題。因此,本文提出基于字向量的BERT-BiLSTM深度學(xué)習(xí)模型進(jìn)行網(wǎng)民情緒識(shí)別方法研究和實(shí)驗(yàn)。

2 BERT-BiLSTM情緒識(shí)別模型

2.1整體設(shè)計(jì)

本文提出的基于BERT-BiLSTM的網(wǎng)民情緒識(shí)別方法主要由3部分組成:BERT預(yù)訓(xùn)練、BiLSTM和情感極性判別,具體如圖1所示。

首先,將待識(shí)別分析的文本進(jìn)行去停用詞、去亂碼等文本預(yù)處理;然后,基于BERT預(yù)訓(xùn)練模型獲取包含上下文語義信息的文本詞向量;接著,利用BiLSTM提取上下文相關(guān)特征進(jìn)行學(xué)習(xí);最后,通過分類器進(jìn)行情感極性判別獲得文本情感類別,包括積極和消極2類。該識(shí)別方法的關(guān)鍵為BERT預(yù)訓(xùn)練和BiLSTM循環(huán)神經(jīng)網(wǎng)絡(luò)。

2.2 BERT預(yù)訓(xùn)練

BERT(Bidirectional Encoder Representations from Transformers)是Devlin J[4]等提出的一種采用多層雙向Transformer 的自然語言處理(NLP)預(yù)訓(xùn)練模型。該模型主要由輸入層、編碼層和輸出層3部分構(gòu)成,如圖2所示。其中, [E1,E2,…En]為模型的輸入;[Trm]為自注意力(Self-attention)機(jī)制編碼轉(zhuǎn)換器;[T1,T2,…Tn]為模型的輸出[4]。

BERT模型采用多層雙向Transformer和Self-attention機(jī)制,其具有雙向功能;該模型聯(lián)合了兩種語義表征方法:一是掩碼語言模型(Masked LM),二是下句預(yù)測(cè)(Next Sentence Prediction)方法,通過聯(lián)合訓(xùn)練實(shí)現(xiàn)了雙向LM模型預(yù)訓(xùn)練。BERT預(yù)訓(xùn)練模型是基于字符實(shí)現(xiàn)文本向量化,能充分利用上下文特征,不依賴分詞準(zhǔn)確性,可有效解決一詞多義等問題。

本文經(jīng)過BRET向量化后的網(wǎng)民評(píng)論文本[X]如式(1)所示:

[X∈{x1,x2,…xn}]? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)

式中,[n]為文本[X]的長(zhǎng)度。

2.3 BiLSTM循環(huán)神經(jīng)網(wǎng)絡(luò)

雙向長(zhǎng)短時(shí)記憶(Bi-directional Long Short-Term Memory, BiLSTM)網(wǎng)絡(luò)是Graves A[5]等提出的一種由前向LSTM(Long Short-Term Memory)和后向LSTM兩個(gè)方向疊加而成的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN),該網(wǎng)絡(luò)可以分析到文本的上文和下文信息,有效解決LSTM僅能分析文本上文信息的單向性問題。BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

BiLSTM的輸入為BERT模型的詞向量[X∈{x1,x2,…xn}],F(xiàn)orward LSTM按[x1,x2,…xn]順序讀取,輸出向量集合[h1,h2,h3,…h(huán)n];Backward LSTM按[xn,…x2,x1]順序讀取,輸出向量集合[{h1,h2,h3,…h(huán)n}];其中,[hn]和[hn]分別為最后時(shí)刻前向隱層和后向隱層的特征向量。拼接[hn]和[hn]獲取文本最終的特征向量[hn],即BiLSTM輸出如式(2)所示:

[hi={hi,hi}]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

式中,[i]為文本[X]的第[i]([i≤n])個(gè)詞。

3 網(wǎng)民情緒識(shí)別實(shí)驗(yàn)

3.1 實(shí)驗(yàn)平臺(tái)

本網(wǎng)民情緒識(shí)別方法研究所需實(shí)驗(yàn)平臺(tái)為:計(jì)算機(jī)、Windows 10操作系統(tǒng)和Pycharm 2019軟件,利用Python編程語言實(shí)現(xiàn),具體參數(shù)如表1所示:

3.2 實(shí)驗(yàn)數(shù)據(jù)

本網(wǎng)民情緒識(shí)別實(shí)驗(yàn)數(shù)據(jù)為疫情期間網(wǎng)民情緒識(shí)別數(shù)據(jù)集[6],約100000條,分為積極、中性和消極3類。其中,積極評(píng)論(標(biāo)記為1)25392條,消極評(píng)論(標(biāo)記為-1)16902條。實(shí)驗(yàn)首先對(duì)數(shù)據(jù)進(jìn)行去無關(guān)符號(hào)等預(yù)處理操作,再將數(shù)據(jù)集按7:3的比例分成訓(xùn)練集和測(cè)試集。

3.3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文設(shè)計(jì)的網(wǎng)民情緒識(shí)別模型的有效性,實(shí)驗(yàn)選取了LSTM和BiLSTM兩種方法與BERT-BiLSTM進(jìn)行對(duì)比,采用精確率P(Precision)、召回率R(Recall)和F1值三個(gè)指標(biāo)來評(píng)估模型的性能。實(shí)驗(yàn)結(jié)果如表2所示:

對(duì)比3種方法的實(shí)驗(yàn)結(jié)果可知,相比于LSTM和BiLSTM模型,BERT-BiLSTM模型的P值、R值和F1值均有較大幅度提升:P值分別提升2.8%和2.57%,R值分別提升6.35%和6.45%,F(xiàn)1值分別提升4.54%和4.47%。由BiLSTM模型值高于LSTM模型值可知,BiLSTM模型在獲取文本上下文特征上的性能更優(yōu),能提取到更多上下文信息;由BERT-BiLSTM模型值高于BiLSTM模型值可知,BERT模型的字符向量比詞向量在獲取文本特征上的性能更優(yōu),能提取到更多文本信息。總之,本文提出的結(jié)合BERT模型和BiLSTM模型的網(wǎng)民情緒識(shí)別方法對(duì)疫情期間網(wǎng)民情緒識(shí)別數(shù)據(jù)集有更優(yōu)的性能。

4 結(jié)束語

本文提出的BERT-BiLSTM算法模型,可以有效實(shí)現(xiàn)網(wǎng)民情緒識(shí)別。在特定公共事件傳播過程中,政府可以采用該方法及時(shí)掌握大眾的主要情感傾向,為其決策分析和輿情引導(dǎo)提供參考,輔助其實(shí)現(xiàn)科學(xué)化高效率辦公。同時(shí),該情緒識(shí)別方法也可以為網(wǎng)民情緒識(shí)別分析研究提供參考。

參考文獻(xiàn):

[1] 馮超,梁循,李亞平,等.基于詞向量的跨領(lǐng)域中文情感詞典構(gòu)建方法[J].數(shù)據(jù)采集與處理,2017,32(3):579-587.

[2] 洪巍,李敏.文本情感分析方法研究綜述[J].計(jì)算機(jī)工程與科學(xué),2019,41(4):750-757.

[3] 金志剛,胡博宏,張瑞.融合情感特征的深度學(xué)習(xí)微博情感分析[J].南開大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,53(5):77-81,86.

[4] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv: 1810.04805, 2019.

[5] Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Network, 2005, 18(5): 602–610.

[6] 北京市政務(wù)數(shù)據(jù)資源網(wǎng). data.beijing.gov.cn

【通聯(lián)編輯:王力】

猜你喜歡
網(wǎng)民
我國(guó)網(wǎng)民規(guī)模達(dá)9.89億 在線教育用戶占34.6%
“臺(tái)獨(dú)聯(lián)署”被島內(nèi)網(wǎng)民嘲
網(wǎng)民低齡化 “小網(wǎng)蟲”的明天誰來守護(hù)
遵義(2018年20期)2018-10-19 07:15:06
有關(guān)公路,網(wǎng)民有話說
突發(fā)公共事件中的網(wǎng)民心理與風(fēng)險(xiǎn)溝通
智能可穿戴2014白皮書
健康管理(2015年1期)2016-02-29 18:44:39
從運(yùn)動(dòng)式清網(wǎng)到常態(tài)化治理下的網(wǎng)民政治參與
現(xiàn)代化網(wǎng)民要有“仁心”“學(xué)心”“公心”
聲屏世界(2015年6期)2015-02-28 15:20:00
微博輿論中網(wǎng)民信息互動(dòng)的擴(kuò)散模式
有感“網(wǎng)民節(jié)”
贞丰县| 隆化县| 玉门市| 双江| 顺平县| 辛集市| 尉犁县| 抚州市| 阿尔山市| 新民市| 宜君县| 云梦县| 浪卡子县| 郎溪县| 南充市| 溧水县| 渑池县| 张家界市| 出国| 乌恰县| 阿拉尔市| 木里| 西乡县| 麻栗坡县| 上林县| 平度市| 玉山县| 开封市| 满城县| 桃园县| 偃师市| 和静县| 南康市| 康乐县| 湘乡市| 海原县| 忻城县| 甘肃省| 屏东市| 突泉县| 新泰市|