国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的COVID-19疫情期間網(wǎng)民情緒分析

2020-12-14 04:35:10劉洪浩
軟件導刊 2020年9期
關(guān)鍵詞:情感分析深度學習

劉洪浩

摘 ?要: 微博文本情緒分析技術(shù)在輿情監(jiān)控等領(lǐng)域具有廣泛應(yīng)用?;趥鹘y(tǒng)機器學習模型和情感詞典進行情感分析的結(jié)果往往不夠理想,如何提升性能成為該領(lǐng)域的一個主要挑戰(zhàn)。本文中我們使用了基于深度學習的BERT以完成語言理解任務(wù)并與傳統(tǒng)做法性能相比較,結(jié)果中BERT模型取得了更好的性能。之后我們利用該模型進行三分類以分析COVID-19疫情期間的微博評論,總體上正面與中立情緒占主導。此外,我們也針對詞頻和詞云進行相關(guān)分析,以期實現(xiàn)全方面了解此次疫情期間社會情感狀態(tài)的目的。

關(guān)鍵詞: 深度學習,詞嵌入,BERT模型,情感分析,微博爬蟲,文本處理

中圖分類號: TP183 ???文獻標識碼: A ???DOI:10.3969/j.issn.1003-6970.2020.09.048

【Abstract】: Sentiment analysis of microblog text is widely used in public opinion monitoring and other fields. The results of sentiment analysis based on traditional machine learning models and sentiment dictionaries are often not ideal. How to improve performance has become a major challenge in this field. In this thesis, we use BERT based on deep learning to complete the language understanding task. Compared with traditional methods, BERT model has achieved better performance. We use the model to analyze microblog comments during the COVID-19 epidemic by conducting a three-category classification and find that positive and neutral emotions are dominant. We also conduct further analysis on word frequency and word cloud to gain more insights into the emotional states during the epidemic.

【Key words】: Deep learning; Word embedding; BERT; Sentiment analysis; Microblog crawler; Text processing

0 ?引言

文本是用于情感分析的典型數(shù)據(jù)集。由于情感文本數(shù)據(jù)的迅速增長和極高應(yīng)用價值,使得自動識別和分析人們在文本中表達的情感成為一種必要。社交網(wǎng)絡(luò)文本情感分析被廣泛應(yīng)用于在金融[1]、市場[2]、社 ?會[3]、娛樂[4]等諸多領(lǐng)域之中,關(guān)于文本情感識別算法相關(guān)的理論研究[5-7]也越發(fā)豐富。越來越多基于社交網(wǎng)絡(luò)的情感分析實踐和研究的出現(xiàn)表明其實用性與科學性。微博短文本已成為國內(nèi)數(shù)據(jù)的情感表達和輿論走向的代表,它為研究社會發(fā)展和人類行為特征提供更多可能性。

新冠肺炎疫情備受社會各界關(guān)注。2020年1月1日至2月20日,疫情相關(guān)微博話題數(shù)超過200個。此次疫情為高熱度的重大社會熱點事件,對疫情期間的情感識別和可視化分析能客觀反映出疫情輿情的發(fā)展動向,有助于有關(guān)機構(gòu)制定合理科學的決策,具有較高研究價值。

文本分類的精度取決于提取語義特征的方法和分類器的種類。本文關(guān)注基于深度學習的中文文本詞嵌入方法與傳統(tǒng)做法的比較和疫情期間情感分析。我們研究了基于深度學習中詞向量技術(shù)的情感識別方法,利用BERT模型和Embedding層預訓練方法,分別進行研究,實驗對比中BERT預訓練模型取得更加準確的結(jié)果。我們將利用BERT模型的分類結(jié)果對此次疫情全面分析,并給出疫情期間微博文本的詞云表示,以提高情感分析的準確度,達到全面了解此次疫情期間社會輿情的目標。

1 ?相關(guān)工作

本節(jié)簡要介紹微博數(shù)據(jù)情感分析的相關(guān)研究,以及獲得詞嵌入的方法。

1.1 ?微博數(shù)據(jù)情感分析

現(xiàn)有文獻中已有較為豐富的針對微博文本的情感分析策略。王培名等人[8]設(shè)計了自適應(yīng)的并發(fā)采集算法優(yōu)化模擬登錄和代理池的構(gòu)造訪客Cookie功能,高效獲取微博數(shù)據(jù),為微博數(shù)據(jù)采集策略提供了多樣性。劉楠[9]針對微博短文本形式的情感分析,歸納新的細粒度情感分析流程,提出TF和TF-IDF歸一化權(quán)重計算方法,與傳統(tǒng)提取特征的方法相比,能夠更準確判斷出多種類情感的權(quán)重,實現(xiàn)了該方法有效性的評估。

1.2 ?詞嵌入

詞嵌入是一種詞的數(shù)字向量化表示,相似含義的詞可用類似的向量表達。詞嵌入的研究關(guān)鍵在于獲得密集低維的分布式特征向量表示詞的不同特征,每一個詞與分布式向量相關(guān)聯(lián),每個詞與向量空間中的點相關(guān)聯(lián),促進與神經(jīng)網(wǎng)絡(luò)詞的更好擬合和學習更新[10]。

2013年Google公司的Mikolov等人[11]開發(fā)出了基于神經(jīng)網(wǎng)絡(luò)訓練詞向量新的模型體系結(jié)構(gòu)Word2Vec,Word2Vec核心思想是通過詞的上下文窗口得到詞的向量化表示得到分布式的詞嵌入,其本質(zhì)是降維操作,將One-Hot編碼形式的詞向量轉(zhuǎn)化為Word2Vec形式,Word2vec包括CBOW與Skip-Gram兩種模型。Pennington等人[12]在2014年提出了繼Word2Vec以后又一具有較大影響力的詞向量訓練方法Glove。Glove是一種無監(jiān)督的詞嵌入模型,采用共現(xiàn)矩陣并對其降維,將局部信息和整體信息結(jié)合,解決了Word2Vec的只考慮詞與局部窗口信息和忽略了語料庫的統(tǒng)計信息的問題。

隨著詞嵌入模型不斷深入研究,詞嵌入模型更新速度越來越快,從傳統(tǒng)機器學習詞袋模型[13]等,發(fā)展到如今基于深度學習的預訓練方法諸如Word2Vec[14]、Glove[15]、 BERT[16]的詞嵌入算法,如今的詞嵌入方法通過神經(jīng)網(wǎng)絡(luò)模型利用更長的上下文來解決自然語言問題[17]。

2 ?研究方法

2.1 ?數(shù)據(jù)獲取

我們采用已標注的10萬余條微博文本語料庫。在數(shù)據(jù)收集階段,我們使用微博API[18]收集微博文本數(shù)據(jù),具體包含create_at(微博發(fā)布時間),id(發(fā)布用戶id),text(微博文本)屬性信息。我們一共收集到2020年1月1日至2月20日疫情期間的1萬余條微博文本作為待分析的文本。圖1展示了研究方法的總體流程。

2.2 ?預處理

我們原始的數(shù)據(jù)集需要經(jīng)過預處理,過濾掉一些不符合要求的文本以便更契合情感分析任務(wù)。我們將對微博數(shù)據(jù)集中的中英文表情和符號表情進行過濾,然后利用jieba庫進行分詞,利用停用詞表進行深度清洗,篩選出停用詞,其中包括數(shù)字,中英文標點符號,語氣詞,無實意詞等。圖2顯示預處理的步驟。

2.3 ?模型

我們將使用訓練神經(jīng)網(wǎng)絡(luò)時擬合詞嵌入層方法。深度神經(jīng)網(wǎng)絡(luò)工具Keras,是一個深度學習框架,Keras的Embedding層和Word2Vec、Glove本質(zhì)上是一樣的,將詞嵌入在淺層神經(jīng)網(wǎng)絡(luò)中用密集向量表示同時在更小維度中集合信息,但其特點是可以和神經(jīng)網(wǎng)絡(luò)一起訓練形成一個端到端的結(jié)構(gòu),以便高效擬合相應(yīng)模型任務(wù)。Keras的Embedding層輸入數(shù)據(jù)要求為整數(shù)編碼,我們利用該庫中的分詞器Tokenizer API生成序列化向量作為嵌入層的輸入,Embedding層被定義為神經(jīng)網(wǎng)絡(luò)的第一個隱藏層。該層使用方式靈活,我們利用該隱藏層作為深度學習模型的一部分共同進行模型學習和訓練,以將整數(shù)映射到Embedding層向量空間中的獲得帶有權(quán)重的密集向量。

同時我們還將使用最新的BERT預訓練模型進行研究,BERT模型由Devlin等人[19]在2018年提出,BERT模型被評為目前自然語言處理效果最佳的深度預訓練模型。BERT預訓練模型較之于以往預訓練模型最大優(yōu)勢在于BERT運用了雙向轉(zhuǎn)換器如圖3所示。BERT的高效能同時體現(xiàn)在其特殊的預訓練方法,包含有Masked Language Model和Next Sentence Prediction。BERT模型的輸入由詞向量,段向量,位置向量三部分組成,如圖4所示。在詞向量里面有兩個特殊標志CLS,SEP。CLS作為第一個向量來得到句子向量,SEP用來區(qū)分句子。為了訓練深度雙向表示模型,需要BERT中的Masked Language Model和Next Sentence Prediction。

我們將利用Embedding層和BERT進行文本預訓練進行情感分類效果比較。神經(jīng)網(wǎng)絡(luò)模型將用到深度學習框架Keras提供了網(wǎng)絡(luò)層線性堆疊的Sequential順序模型來搭載Relu全連接層和Softmax激活函數(shù)層。

2.4 ?可視化分析

我們針對處理后的微博文本數(shù)據(jù)借助第三方wordcloud庫和matplotlib庫對數(shù)據(jù)進行可視化分析。通過統(tǒng)計出高頻詞匯、評論量和平均情感數(shù)值的時間變化,我們從數(shù)字角度定量考察疫情期間輿情發(fā)展的情況,以便更加直觀了解此次疫情對民眾的影響。

3 ?實驗和結(jié)果

在這一節(jié)中,我們將詳細介紹我們在本次實驗中利用上述方法完成的具體實驗工作和結(jié)果。我們將訓練集和測試集經(jīng)過預處理后,如圖2所示。產(chǎn)生了符合情感分析要求的10萬條語料集。

3.1 ?情感分析結(jié)果

我們分別利用Embedding層和BERT模型獲得詞嵌入,再擬合神經(jīng)網(wǎng)絡(luò)構(gòu)建情感識別模型,我們將前述的10萬條語料集劃分為訓練集,驗證集,測試集進行訓練,訓練輪次均為5次。在測試集上進行評估,結(jié)果對比如表1、2所示。

3.2 ?2019n-Cov疫情數(shù)據(jù)可視化結(jié)果

3.2.1 ?情感分類微博數(shù)據(jù)分布

情感分析結(jié)果為典型的三分類,1代表積極,0代表中性,–1代表消極。我們首先從宏觀角度獲得了評論在三種情感中所占數(shù)量,如圖5所示??傮w分析可得,積極情緒文本比消極情緒文本在數(shù)量上較多,表明此次疫情期間網(wǎng)民整體呈現(xiàn)積極心態(tài);中性情緒所占數(shù)量最大也代表了多數(shù)網(wǎng)民對此次疫情的不信謠不傳謠態(tài)度,這也證明了相關(guān)機構(gòu)實施的大眾居家隔離等防疫措施有效性。

3.2.2 ?微博情感時間趨勢

我們從動態(tài)角度深入研究網(wǎng)民情緒變化,如圖6所示。消極情緒在1月20日左右呈現(xiàn)迅速增長趨勢,這可能是由于在1月20日鐘南山院士肯定新冠肺炎存在人傳人現(xiàn)象,加大網(wǎng)民的重視和恐懼程度。從2月8日至10日消極文本數(shù)量達到峰值顯示出李文亮醫(yī)生的逝世可能加重了負面情緒。但國家緊急實施居家隔離和調(diào)配全國力量支援湖北等多項措施,這使得2月10日以后積極情緒占比增大,網(wǎng)民情緒逐漸好轉(zhuǎn)。

3.2.3 ?平均情感數(shù)值時間變換

我們對預測結(jié)果進行情感數(shù)值平均化,得到平均情緒值隨時間的變化趨勢,如圖7所示。網(wǎng)民情緒在1月20號左右進入低沉期,驗證了圖6數(shù)據(jù)所示結(jié)論,之后情緒波動起伏,并在2月9日左右進入網(wǎng)民情緒低谷。之后每日新冠疫情感染人數(shù)逐漸下降,網(wǎng)民情緒逐漸好轉(zhuǎn)。從整體情緒幅度觀察,情緒波動較大,這說明了疫情期間不同地區(qū)的感染人數(shù)和死亡人數(shù)對網(wǎng)民的情緒造成不同程度的影響;在2月10日以后情緒逐漸雖有起伏整體仍保持積極心態(tài),平均情緒數(shù)值逐漸有上升趨勢。

3.2.4 ?詞頻統(tǒng)計

關(guān)注網(wǎng)民疫情期間的熱點話題也是全面了解網(wǎng)民情緒和態(tài)度的重要途徑之一。我們利用測試集根據(jù)詞頻得到高低排序,得到前800詞語的詞云。如圖8所示。由詞云詞頻統(tǒng)計可知此次網(wǎng)民熱點討論為“疫情”、“武漢”、“肺炎”、“冠狀病毒”,“新型”等,這也表明在COVID-19期間,網(wǎng)友對此次新冠肺炎的重視和關(guān)注,同時也代表了冠狀病毒為此次新型肺炎的起源并對社會造成嚴重影響,也導致“口罩”、“醫(yī)院”等資源的缺乏和討論。此外我們可以從“武漢”、“加油”、“醫(yī)院”這些高頻率詞匯中體會到網(wǎng)民對武漢的關(guān)心,以及對所有為新冠肺炎抗爭的醫(yī)護天使的感謝。

4 ?結(jié)論

本文基于深度學習模型BERT比較了其在詞嵌入訓練的優(yōu)越性,并獲得的較準確的情感分析結(jié)果,研究意義總結(jié)為如下三個方面:(1)比較了BERT模型和Embedding層的情感分類效果,解決了預訓練模型中單向信息流問題,并大大減少神經(jīng)網(wǎng)絡(luò)的復雜度; (2)利用疫情之前的微博數(shù)據(jù)作為BERT模型訓練集對COVID-19期間測試集進行情感分類;(3)數(shù)據(jù)化地呈現(xiàn)出此次疫情網(wǎng)民的情緒變化和走向,結(jié)果表明網(wǎng)民在COVID-19疫情期間整體情緒積極。由于詞向量結(jié)合神經(jīng)網(wǎng)絡(luò)的端到端學習模型具有多樣性,后續(xù)可比較Word2Vec,Glove等熱門模型,以獲得更高準確度的詞嵌入模型,同時利用Keras庫構(gòu)建其他形式的神經(jīng)網(wǎng)絡(luò)以加強性能。

參考文獻

[1]蔣鈺慧. 投資者情緒對我國股票市場收益率的影響研究[D]. 上海外國語大學, 2019.

[2]張愛華, 陳超雨. 基于文本分析的中國5G產(chǎn)業(yè)發(fā)展研 ??究——市場主體視角[J]. 北京郵電大學學報(社會科學版), 2019, 21(06): 90-102.

[3]劉雯, 高峰, 洪凌子. 基于情感分析的災害網(wǎng)絡(luò)輿情研 ?究——以雅安地震為例[J]. 圖書情報工作, 2013, 57(20): 104-110.

[4]柳池煜. 票房預測中的社交網(wǎng)絡(luò)評論情感挖掘技術(shù)研究[D]. 南京郵電大學, 2019.

[5]梁軍. 基于深度學習的文本特征表示及分類應(yīng)用[D]. 鄭州大學, 2016.

[6]陳文. 中文短文本跨領(lǐng)域情感分類算法研究[D]. 重慶大學, 2016.

[7]彭浩, 朱望鵬, 趙丹丹, 等. 面向多源社交網(wǎng)絡(luò)輿情的情感分析算法研究[J]. 信息技術(shù), 2019(02): 43-48.

[8]王培名, 陳興蜀, 王海舟, 王文賢. 多策略融合的微博數(shù)據(jù)獲取技術(shù)研究[J]. 山東大學學報(理學版), 2019, 54(05): 28-36+43.

[9]劉楠. 面向微博短文本的情感分析研究[D]. 武漢大學, 2013.

[10]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

[11]MIKOLOV T, CHEN Kai, COR RADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013, 2(12): 27-35.

[12]Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]. Proceedings of the 2014 conference on empirical methods in natural language processing(EMNLP). 2014: 1532-1543.

[13]黃春梅, 王松磊. 基于詞袋模型和TF-IDF的短文本分類研究[J]. 軟件工程, 2020, 23(03): 1-3.

[14]彭曉彬. 基于word2vec的文本情感分析方法研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2016(07): 58-59.

[15]陳珍銳, 丁治明. 基于Glove模型的詞向量改進方法[J]. 計算機系統(tǒng)應(yīng)用, 2019, 28(01): 194-199.

[16]胡春濤, 秦錦康, 陳靜梅, 等. 基于BERT模型的輿情分類應(yīng)用研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用, 2019(11): 41-44.

[17]劉勝杰, 許亮. 基于詞嵌入技術(shù)的文本表示研究現(xiàn)狀綜述[J]. 現(xiàn)代計算機, 2020(01): 40-43.

[18]王鐵剛. 社交媒體數(shù)據(jù)的獲取分析[J]. 軟件, 2015, 36(02): 86-91.

[19]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv: 1810. 04805, 2018.

猜你喜歡
情感分析深度學習
基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
基于詞典與機器學習的中文微博情感分析
在線評論情感屬性的動態(tài)變化
預測(2016年5期)2016-12-26 17:16:57
有體驗的學習才是有意義的學習
電子商務(wù)中基于深度學習的虛假交易識別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學習算法應(yīng)用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
新津县| 承德县| 来凤县| 拉萨市| 潼关县| 武宣县| 萍乡市| 平陆县| 麻城市| 台中市| 图们市| 渝北区| 广德县| 田阳县| 班玛县| 如皋市| 铁力市| 尤溪县| 惠东县| 都江堰市| 新源县| 贵南县| 德昌县| 临颍县| 盘锦市| 闵行区| 中西区| 柳江县| 乌兰察布市| 宝清县| 玉树县| 黄浦区| 曲麻莱县| 商城县| 秀山| 涡阳县| 台东县| 太和县| 法库县| 临沂市| 云浮市|