国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于“情感-原因配對”方法的青少年輿情系統(tǒng)設(shè)計

2022-11-11 09:35:54李宇圣李柏松楊宜穎
電子測試 2022年19期
關(guān)鍵詞:子句爬蟲特征提取

李宇圣,李柏松,楊宜穎

(南華大學(xué)計算機(jī)學(xué)院,湖南衡陽,421200)

0 引言

情感分析作為輿情分析的一個重要模塊,主要負(fù)責(zé)從大量原始文本數(shù)據(jù)中提取情感文本信息,并將得到的文本情緒用于進(jìn)行下一步文本分類。然而目前的大部分輿情分析系統(tǒng)僅僅考慮了文本的情感,并沒有考慮到文本的情感與產(chǎn)生改情感的內(nèi)容是相關(guān)的,降低了輿情分析系統(tǒng)的準(zhǔn)確性。并且目前得到文本情感產(chǎn)生的原因需要事先對文本的情感進(jìn)行標(biāo)注,這一過程耗費(fèi)了大量的人力,含有一定的誤差。

最近,文獻(xiàn)[1]提出了一種有效提取情感文本并檢測情感,原因子句的新方法。本文首次將這種情感-原因配對方法用于青少年輿情分析系統(tǒng)。受人類邏輯表達(dá)的啟發(fā),情感態(tài)度和對應(yīng)原因句一般會在短文中同時出現(xiàn)。例如,有的學(xué)生發(fā)微博說“我終于找到了失蹤的錢包,今天有點小開心”。這句話的前半部分是情緒產(chǎn)生的原因,后半部分代表的是他的情感態(tài)度。通過進(jìn)行情感-原因的配對和過濾,我們能輕松分析出青少年的(尤其是在校學(xué)生)心理狀況,進(jìn)一步幫助校園決策者正確引導(dǎo)學(xué)生持續(xù)健康發(fā)展。

總的來說,本文基于情感-原因配對方法設(shè)計了一個適用于青少年的輿情分析系統(tǒng),利用爬蟲技術(shù),特征提取,情感分析,注意力機(jī)制和可視化技術(shù)登一系列方法步驟,有效地將情感-原因配對方法融入輿情分析系統(tǒng)。通過分析民眾在社交媒體下的評論或博客,從而提取對應(yīng)所表達(dá)的情感及原因,再將其一一配對并進(jìn)行可視化展示,這將有助于年級管理員更加精準(zhǔn)把握青少年學(xué)生情緒起伏的原因,找出影響校園環(huán)境穩(wěn)定的事件,防止負(fù)面輿論的進(jìn)一步擴(kuò)大。本文的主要貢獻(xiàn)總結(jié)如下:

首先,我們?nèi)嫜芯苛水?dāng)前的輿情分析系統(tǒng)及其不足之處。當(dāng)前的輿情分析系統(tǒng)普遍使用手動標(biāo)注情感,這不但僅導(dǎo)致增加了人力物力的額外開支,還會導(dǎo)致標(biāo)注結(jié)果的偏差,最終致使輿論分析不準(zhǔn)確。

其次,針對上述問題,我們將情感-原因配對分析和注意機(jī)制融入輿情分析系統(tǒng),更好地從輿論信息中探索青少年的情緒及其潛在或直接原因,減少了大量不必要的人力和物質(zhì)資源開銷,進(jìn)一步提高了輿情分析的準(zhǔn)確性。

最后,我們構(gòu)建了一個基于情感-原因配對分析的學(xué)生輿情分析系統(tǒng),其中的輿論分析模塊可以定時自動分析輿論信息。我們對系統(tǒng)進(jìn)行了測試,結(jié)果表明該系統(tǒng)能夠達(dá)到自動智能分析的預(yù)期效果。

1 輿情分析與情感分析

輿情分析系統(tǒng)能夠高效準(zhǔn)確地跟蹤、控制輿情的走向與發(fā)展,提高網(wǎng)絡(luò)輿情的引導(dǎo)、管理水平,掌握信息傳播的主動權(quán)。而情感提取是網(wǎng)絡(luò)輿情分析技術(shù)的關(guān)鍵步驟之一。通過設(shè)計恰當(dāng)?shù)乃惴▽Λ@取的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)用戶的情感傾向,能夠更好地幫助輿情分析系統(tǒng)得到產(chǎn)生輿情的原因,并對其的傳播影響、輿情等級進(jìn)行評估,采用合理的手段對輿論進(jìn)行引導(dǎo)和管控。在本節(jié)中,我們主要討論輿情分析的相關(guān)工作,我們將這些相關(guān)的工作分為輿情分析的介紹以及情感提取兩類。

1.1 輿情分析

社交媒體用戶在網(wǎng)上發(fā)布的評論可以被有益地用于提取有意義的信息,從而支持決策者在整個政策周期中的行動,提供了一個一個快速而廉價的信息流[2]。文獻(xiàn)[3]等人將輿情監(jiān)測系統(tǒng)分為輿情信息采集、輿情信息處理、輿情信息分析、輿情服務(wù)四個部分。針對基于關(guān)鍵字統(tǒng)計的輿情分析系統(tǒng),文獻(xiàn)[4]提出了一種基于語義內(nèi)容識別的網(wǎng)絡(luò)輿情監(jiān)測分析系統(tǒng)框架,解決了輿情分析系統(tǒng)中的一些關(guān)鍵問題。文獻(xiàn)[5]通過對熱點自動發(fā)現(xiàn)和深入分析技術(shù)的研究,建立了基于數(shù)據(jù)挖掘的敏感信息分析框架,設(shè)計了敏感信息挖掘方法,有效地彌補(bǔ)了傳統(tǒng)輿情監(jiān)測系統(tǒng)難以應(yīng)對輿情變化的缺點,增強(qiáng)了實用性。文獻(xiàn)[6]提出了基于流的實時主題計算、基于查詢文檔的主題匹配和字段增強(qiáng)等方法,提高了輿情監(jiān)測系統(tǒng)的準(zhǔn)確性。

1.2 情感分析

情感分析和觀點挖掘是從書面語言中分析人們的觀點、情感、評價、態(tài)度和情感的研究領(lǐng)域。它是自然語言處理中最活躍的研究領(lǐng)域之一[7][8],在數(shù)據(jù)挖掘、Web挖掘和文本挖掘中也得到了廣泛的研究。事實上,這項研究已經(jīng)從計算機(jī)科學(xué)擴(kuò)展到管理科學(xué)和社會科學(xué),因為它對企業(yè)和整個社會都很重要[9][10]。文獻(xiàn)[11]提出了一種基于知識的學(xué)習(xí)方法,能夠通過主題模型的選擇偏好,進(jìn)行粗粒度的語義消歧方法,提高了情感分析的準(zhǔn)確性。然而目前互聯(lián)網(wǎng)上的信息有多種呈現(xiàn)形式,因此文獻(xiàn)[12-15]提出了多模態(tài)情感分析的任務(wù),通過視覺、聽覺和文本特征的聯(lián)合使用極大地提高了效率。

情感原因提?。‥motion cause extraction,ECE)是一項旨在提取文本中某些情感背后的潛在原因的任務(wù),近年來由于其廣泛的應(yīng)用而備受關(guān)注。在長文本中根據(jù)事先注釋好的情緒尋找相對應(yīng)的原因,他們構(gòu)建了一個小的中文語料庫進(jìn)行測試。針對于算法存在兩個缺點:1)在提取原因之前,必須對情感進(jìn)行注釋,這大大限制了它在現(xiàn)實場景中的應(yīng)用;2) 先詮釋情感,然后提取原因的方法忽略了它們是相互指示的事實。文獻(xiàn)[16]提出了一個新的任務(wù):情緒-原因?qū)μ崛。‥CPE),旨在提取文檔中潛在的情緒對和相應(yīng)的原因。通過多任務(wù)學(xué)習(xí)進(jìn)行個體情感提取和原因提取,然后進(jìn)行情感-原因配對和過濾,很好地解決了ECE中存在的問題。

在輿情分析中,情感分析是極其關(guān)鍵的一個模塊,如果能在情感分析階段將情感以及情感背后潛在的原因提取出來,將極大地提高輿情分析的精度。然而目前的輿情分析系統(tǒng)需要進(jìn)行人工標(biāo)注,首先標(biāo)注情感,再通過神經(jīng)網(wǎng)絡(luò)挖掘出產(chǎn)生情感的原因。然而這需要極大的人力,且忽略了情感和對應(yīng)的原因是相互關(guān)聯(lián)的。因此我們將基于因果分析的情感原因提取加入到輿情分析系統(tǒng)中,使整個輿情分析系統(tǒng)能夠擺脫人工標(biāo)注的難題,提高輿情分析系統(tǒng)的效率,減少經(jīng)濟(jì)上的開銷。

2 基于“情感-原因配對”方法的輿情系統(tǒng)設(shè)計

2.1 總體設(shè)計流程

如圖1所示,首先我們通過聚焦式網(wǎng)絡(luò)爬蟲獲得初步文本數(shù)據(jù),然后對獲取的文本數(shù)據(jù)進(jìn)行特征提取,在處理后的特征集中,提取文本中的關(guān)鍵字來形成特征。在保證文本原有的核心信息的基礎(chǔ)上,減少需要處理的詞匯數(shù)量,在接下來的情感分析任務(wù)中引入注意力機(jī)制,可以使神經(jīng)網(wǎng)絡(luò)更多地關(guān)注文本中包含情感信息較多的部分,最后我們基于因果關(guān)系對處理后的文本信息進(jìn)行分析,通過多任務(wù)學(xué)習(xí)進(jìn)行個體情感提取和原因提取,然后進(jìn)行情感-原因配對和過濾,提取關(guān)鍵字得出情感等級,最后制成情感等級折線圖和詞云圖進(jìn)行數(shù)據(jù)的可視化展示。

圖1 總體設(shè)計流程

2.2 輿論數(shù)據(jù)采集

大數(shù)據(jù)時代數(shù)據(jù)量突增,數(shù)據(jù)結(jié)構(gòu)復(fù)雜多變,冗余信息占比高,為了更好的解決文本原因情感提取所需要資源來源,本文提出基于聚焦式網(wǎng)絡(luò)爬蟲的輿情獲取技術(shù),并使用webmagic爬蟲框架。WebMagic由四個組件(Downloader、PageProcessor、Scheduler、Pipeline)構(gòu)成,將這些組件結(jié)合并完成多線程的任務(wù)后,你基本上可以對爬蟲的功能做任何定制。

與通用爬蟲不同,聚焦網(wǎng)絡(luò)爬蟲并不追求大的覆蓋,而將目標(biāo)定位抓取與主題相關(guān)的特定網(wǎng)頁,爬取廣度小,精確度高,極大地節(jié)省了硬件和網(wǎng)絡(luò)資源。

我們提出的聚焦式網(wǎng)絡(luò)爬蟲技術(shù)主要分為四個模塊,如圖2所示:(1)瀏覽器模塊,利用該模塊能模擬瀏覽器的一個請求發(fā)送過程,利用不同協(xié)議去獲取URL信息。(2)URL隊列模塊,給爬蟲程序創(chuàng)造隊列,用于存放爬到的URL地址。(3)時間模塊,用于創(chuàng)建進(jìn)程的睡眠時間,使爬蟲程序可以按用戶需求定時執(zhí)行任務(wù)。(4)數(shù)據(jù)庫模塊,通過調(diào)用該模塊,可以連接數(shù)據(jù)庫,并通過編寫數(shù)據(jù)庫語句,使程序能夠?qū)?shù)據(jù)庫進(jìn)行操作。

圖2 基于聚焦網(wǎng)絡(luò)爬蟲的輿論數(shù)據(jù)采集技術(shù)

2.3 特征提取方法

社交媒體帶來了大量的網(wǎng)絡(luò)數(shù)據(jù),其中通常包含復(fù)雜而多樣的文本信息,使得情緒分析難以計算。針對這一問題,我們提出了一種基于注意機(jī)制的深度學(xué)習(xí)特征提取方法。該方法能從大量信息中有選擇地篩選出重要信息并且聚焦到這些內(nèi)容上,同時忽略大多數(shù)不重要的信息,比如從文本中包含的大量詞匯中,抽取出識別度比較高的詞匯,在處理后的特征集中通過相關(guān)技術(shù)可以抽取出關(guān)鍵詞構(gòu)成特征,在保證文本原有的核心信息的基礎(chǔ)上,去除區(qū)分度小的、影響力小的詞匯,減少需要處理的詞匯數(shù)量,從而降低向量空間的維數(shù),簡化計算,提高文本處理的速度和效率。在接下來的情感分析任務(wù)中引入注意力機(jī)制,可以使神經(jīng)網(wǎng)絡(luò)更多地關(guān)注文本中包含情感信息較多的部分。

圖3展示了特征提取方法的總體思路:從整個深度學(xué)習(xí)模型中提取特征向量,編碼器對輸入序列中的每個項進(jìn)行處理,并通過編譯捕獲輸入信息(稱為上下文)。在處理完整個輸入序列之后,編碼器將上下文發(fā)送到解碼器,解碼器逐項開始產(chǎn)生輸出序列;在上下文信息中不妨假設(shè)我們想要得到第i個詞語的表征,對于包含第i個單詞的單詞組合,會生成兩個輸出:一個用于特征提?。ňG色圓圈),另一個用于注意力加權(quán)(紅色圓圈)。這兩個輸出可能共享同一個網(wǎng)絡(luò),但在本文中,我們?yōu)槊總€輸出設(shè)立單獨(dú)的網(wǎng)絡(luò)。在得到最后的注意力權(quán)重之前,注意力(紅色圓圈)的輸出通過需要經(jīng)過sigmoid和softmax層的運(yùn)算。這些注意力權(quán)重會與提取出的特征相乘,以得到詞語的表征。

圖3 輿情分析中的特征提取方法

2.4 輿情分析與可視化展示

經(jīng)過聚焦式爬蟲對文本資源的篩選以及對文本進(jìn)一步的特征提取,我們采用情感-原因部分提取技術(shù),把處理過后的文本通過多任務(wù)學(xué)習(xí)(原因提取和情感提取能相互改善)進(jìn)行個體情感提取和原因提取,然后進(jìn)行情感-原因配對和過濾,提取出關(guān)鍵字和學(xué)生情緒正負(fù)及其強(qiáng)度,最后進(jìn)行數(shù)據(jù)的可視化展示,如圖4。

圖4 輿情分析與可視化展示

具體實現(xiàn)和流程圖如下:

第一步,將一條博客分成幾個子句或詞組。提取出博客中一系列的情感子句和原因子句。

第二步,將笛卡爾積應(yīng)用于情感子句組和原因子句組,獲得所有可能的情感-原因子句對。所有可能的情緒-原因?qū)Χ加扇齻€特征向量表示:情緒子句、原因子句和兩個子句之間的距離(即相關(guān)性)。然后將訓(xùn)練好的邏輯回歸模型檢測每個可能的情感-原因子句對,篩選出有因果關(guān)系的情感-原因子句對。

第三步,分別從每對情感-原因?qū)Φ那楦凶泳渲杏嬎愠銮楦袕?qiáng)度,原因子句中提取出關(guān)鍵詞或字。

第四步,以月或天為單位作時間—情緒強(qiáng)度折線圖和詞云圖進(jìn)行可視化展示。數(shù)據(jù)的呈現(xiàn)也是一種分析,之后管理人員直接通過這些數(shù)據(jù),結(jié)合當(dāng)下情況做貼合實際的分析。通過詞云圖,我們可以知道公眾最近在關(guān)注的問題以及生活中的重大事件,以便于更好地了解相關(guān)情況,及時給與回應(yīng)。通過時間—情緒強(qiáng)度折線圖,我們可預(yù)測下一個輿情高漲點在何時出現(xiàn),重點關(guān)注此刻需要留意人群的情況。

3 總結(jié)

本文主要總結(jié)了現(xiàn)有的輿情分析系統(tǒng)中存在的問題。在青少年成長過程中持續(xù)關(guān)注他們的身心健康發(fā)展至關(guān)重要。輿情分析系統(tǒng)能夠高效準(zhǔn)確地跟蹤、控制輿情的走向與發(fā)展,提高網(wǎng)絡(luò)輿情的引導(dǎo)、管理水平,掌握信息傳播的主動權(quán)?;谝蚬那楦蟹治鰟t能減少輿情分析系統(tǒng)中人為標(biāo)注所帶來的問題。根據(jù)目前我們所了解到的研究,我們是首個將基于因果的情感分析結(jié)合注意力機(jī)制融入到輿情分析系統(tǒng)中。在以后的工作中,我們會持續(xù)改進(jìn),利用分析得到的信息為個人提供可靠建議。

猜你喜歡
子句爬蟲特征提取
命題邏輯中一類擴(kuò)展子句消去方法
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
命題邏輯可滿足性問題求解器的新型預(yù)處理子句消去方法
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
西夏語的副詞子句
西夏學(xué)(2018年2期)2018-05-15 11:24:42
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
Bagging RCSP腦電特征提取算法
命題邏輯的子句集中文字的分類
乌兰浩特市| 通城县| 元阳县| 鹰潭市| 岢岚县| 高台县| 三台县| 望奎县| 雷波县| 四子王旗| 延川县| 旌德县| 德江县| 鹿泉市| 和龙市| 皋兰县| 花莲县| 庄河市| 松江区| 海安县| 根河市| 曲阳县| 南乐县| 乳山市| 塔河县| 平乡县| 新营市| 梧州市| 象山县| 景谷| 阿坝| 新蔡县| 鹤壁市| 盖州市| 大姚县| 西乌珠穆沁旗| 玉龙| 宁波市| 望奎县| 阿巴嘎旗| 汨罗市|