国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進的LST M-C N N模型的高校網(wǎng)絡(luò)輿情預(yù)警研究

2021-12-27 12:40:42張戎秋
淮南師范學(xué)院學(xué)報 2021年6期
關(guān)鍵詞:范數(shù)正則輿情

張戎秋,肖 強

(1.淮南師范學(xué)院 計算機學(xué)院,安徽 淮南232038;2.淮南師范學(xué)院 信息化建設(shè)與管理處,安徽 淮南232038)

網(wǎng)絡(luò)輿情由網(wǎng)絡(luò)言論發(fā)展而來,可以由任何事件刺激所產(chǎn)生的、能迅速通過互聯(lián)網(wǎng)傳播的、人們對于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合[1],它很大程度依賴于網(wǎng)絡(luò)言論主題是否具有很強的敏感性和活躍性[2]。高校師生對社會熱點現(xiàn)象較為敏感,思維活躍,更容易爆發(fā)網(wǎng)絡(luò)輿情。如何及時有效地發(fā)現(xiàn)高校師生新熱度話題中的情感語義傾向,是網(wǎng)絡(luò)輿情預(yù)警的關(guān)鍵問題[3]。為了有效地預(yù)判輿情發(fā)展趨勢,做好高校網(wǎng)絡(luò)輿情熱度話題中的情感傾向性監(jiān)測分析,文章通過采用softsign激活函數(shù)代替LSTM模型中的tanh激活函數(shù);將L1范數(shù)和L2范數(shù)線性組合來正則化LSTM模型中的輸入權(quán)重,兩方面對傳統(tǒng)的LSTM模型進行改進,然后結(jié)合改進的LSTM模型和CNN模型的各自優(yōu)點,組合成改進的LSTM-CNN模型對高校網(wǎng)絡(luò)輿情進行文本情感傾向分類,以獲取網(wǎng)絡(luò)言論主題中潛在的熱度話題,以達(dá)到預(yù)警的目的。

一、長短時記憶網(wǎng)絡(luò)(LSTM)

圖1 LSTM模型內(nèi)部結(jié)構(gòu)

傳統(tǒng)的LSTM是一種順序結(jié)構(gòu)的有監(jiān)督的神經(jīng)網(wǎng)絡(luò),具有學(xué)習(xí)長距離依賴關(guān)系的能力,所以稱為長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)[4-6]。它用存儲單元和門控電路機制來控制丟棄或增加信息,解決時間序列問題,能很好地保留歷史信息,由于特征丟失較少,進而獲得更持久的記憶功能。把LSTM應(yīng)用在文本處理中,對上下文的語義進行提取具有較好的效果。

二、卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)核心架構(gòu)是一種前饋式多層監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)[7],其中每一種特征通過一個卷積核來表示,原始數(shù)據(jù)同每一種卷積核卷積的結(jié)果(特征圖)就是在其特征下的表現(xiàn)情況。首先通過多個卷積核對原始數(shù)據(jù)進行卷積操作,可以很好地提取出原始數(shù)據(jù)的特征,得到該數(shù)據(jù)在多個特征下的特征圖;接著為了獲得特征圖中幾個最突出的元素,再把特征圖進行池化操作;然后運用Dropout正則化方法構(gòu)成Dropout層,最后通過非線性激勵ReLU函數(shù)得到輸出結(jié)果。它是一種多層次堆疊模型,能夠很好地進行局部特征的抽取,經(jīng)常被應(yīng)用于處理時序數(shù)據(jù)和數(shù)字圖像[8-9]。

圖2 CNN模型結(jié)構(gòu)圖

三、改進的LSTM

為了更好地解決神經(jīng)網(wǎng)絡(luò)梯度消失現(xiàn)象,文章對傳統(tǒng)的LSTM神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,利用函數(shù)softsign具有去中心性、反對稱性、可微分性的特征,替代傳統(tǒng)的tanh激活函數(shù)[10]。

softsign函數(shù)相關(guān)表達(dá)式如下:

為了更好地解決過擬合的問題,文章引入L1范數(shù)和L2范數(shù)。通過利用L1范數(shù)正則化LSTM模型,可以使其具有稀疏性;利用L2范數(shù)正則化LSTM模型,可以增強其抗擾動能力。結(jié)合了L1范數(shù)和L2范數(shù)的優(yōu)點,通過將L1范數(shù)和L2范數(shù)線性組合成為一個正則項來約束網(wǎng)絡(luò)中輸入權(quán)重的大小,對一些因子施加懲罰,來正則化傳統(tǒng)的LSTM模型,可以更好地解決神經(jīng)網(wǎng)絡(luò)過擬合的問題,以此來提高預(yù)警效果。

構(gòu)建改進LSTM模型如下:

其中:ht-1表示上一單元的輸出;xt表示本單元的輸入;σ表示sigmoid函數(shù);ft表示用來控制上一單元被遺忘的程度;it用來控制新信息被加入的多少;C~t表示輸入門為C~t中的每一項產(chǎn)生一個在[0,1]內(nèi)的值;Ct表示更新本記憶單元的單元狀態(tài);ht表示本單元的輸出;W表示權(quán)重矩陣;b表示偏置量。

得到網(wǎng)絡(luò)的最終輸出表達(dá)式如下:

其中σ表示softmax函數(shù),Wy為輸出權(quán)重,by為輸出偏置項。

t時刻網(wǎng)絡(luò)均方誤差:

網(wǎng)絡(luò)最終均方誤差為:

其中T表示真實值與輸出值的比較次數(shù)。

通過L1范數(shù)和L2范數(shù)對LSTM模型中輸入權(quán)重W進行正則化后,得到的目標(biāo)函數(shù)表達(dá)式:

運用Adam優(yōu)化器[11](P1-15)對于改進的LSTM模型的目標(biāo)函數(shù)進行最小化,并不斷更新參數(shù),使整個模型的性能得到優(yōu)化。Adam算法是神經(jīng)網(wǎng)絡(luò)中一種基于訓(xùn)練數(shù)據(jù)迭代更新權(quán)重的自適應(yīng)學(xué)習(xí)率的優(yōu)化算法,它利用梯度的一階矩估計和二階矩估計進行動態(tài)調(diào)節(jié)學(xué)習(xí)率,把學(xué)習(xí)率限定在固定范圍內(nèi),這樣使參數(shù)值比較穩(wěn)定,可以加快訓(xùn)練速度。

Adam優(yōu)化算法:

其 中v(k)表 示 一 階 動 量 項,s(k)表 示 二 階 動 量項,g(k)表示時間步序列上的梯度,β1表示為一階矩估計,β2表示二階矩估計的指數(shù)衰減率,○×表示按元素相乘,α為學(xué)習(xí)率,ε為小常數(shù)。

四、基于改進的LSTM-CNN模型的數(shù)據(jù)處理

LSTM具有利用門控機制和存儲單元中的信息來捕獲序列中長期依賴關(guān)系,最終獲得持久記憶能力的特性[12](P1660-1669)。對LSTM模型進行L1范數(shù)和L2范數(shù)的線性組合正則化改進,能夠解決神經(jīng)網(wǎng)絡(luò)的過擬合問題,從而更全面地捕獲高校網(wǎng)絡(luò)輿情序列特征,更好地獲取高校網(wǎng)絡(luò)輿情中文本上下文的關(guān)聯(lián)信息;接著使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對高校網(wǎng)絡(luò)輿情特征信息進行卷積、池化、非線性激勵操作后,能夠更好地抽取局部特征,挖掘出高校網(wǎng)絡(luò)輿情信息的潛在語義信息。把改進的LSTM模型與CNN模型進行組合,構(gòu)建一個改進的LSTM-CNN神經(jīng)網(wǎng)絡(luò)模型,充分地利用了改進的LSTM模型和CNN模型的優(yōu)點。改進的LSTM-CNN模型數(shù)據(jù)處理流程如圖3所示:

圖3 改進的LSTM-CNN模型數(shù)據(jù)處理流程圖

通過改進的LSTM-CNN模型的輸入層輸入數(shù)據(jù)集;在Embeding層,用結(jié)巴(Jieba)分詞對文本進行特征分詞,每個詞使用word2vec的skip-gram模型對詞語進行向量化處理,在詞語向量化處理時,詞向量維度為256時,性能達(dá)到最優(yōu)[13]。迭代次數(shù)設(shè)為1 000次,學(xué)習(xí)率設(shè)為0.001,采用數(shù)據(jù)集信息對改進的LSTM-CNN模型進行訓(xùn)練優(yōu)化。把數(shù)據(jù)集中的文本按情感傾向進行分類,分別分為非負(fù)面情緒、負(fù)面情緒兩大類,來達(dá)到高校網(wǎng)絡(luò)輿情預(yù)警的目的。

五、實驗分析

1.數(shù)據(jù)集

本文數(shù)據(jù)集來源:(1)中國中文信息學(xué)會舉辦的國際自然語言處理和中文計算會議公布的深度學(xué)習(xí)情緒分類評測中文數(shù)據(jù)集;(2)搜狗實驗室下載的新聞分類數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集;(3)爬蟲抓取百度貼吧、新浪微博等主流媒體有關(guān)高校網(wǎng)絡(luò)輿情數(shù)據(jù)信息作為測試集,測試集數(shù)據(jù)要通過數(shù)據(jù)預(yù)處理模塊,把爬取的中文文本進行預(yù)處理,去除冗余信息,中文分詞,停用詞過濾,使用word2vec的skip-gram模型對詞語進行向量化處理,最終文本串變成一系列有效的詞語集合。

2.評價標(biāo)準(zhǔn)

文章引入了精確率P、召回率R和F1值,對改進的LSTM-CNN整體性能進行衡量。精確率P、召回率R和F1值定義分別為:

將正類預(yù)測為正類數(shù),用TP表示;將負(fù)類預(yù)測為正類數(shù),用FP表示;將負(fù)類預(yù)測為負(fù)類數(shù),用TN表示;將正類預(yù)測為負(fù)類數(shù),用FN表示。

3.結(jié)果分析

實驗硬件環(huán)境為:服務(wù)器戴爾R730 CPU 2顆英特 爾 至 強E5-2 650 v4 2.2GHz,30M緩 存,內(nèi)存128GB(8*16GB),DDR4 RDIMM,硬盤3塊300GB 15K RPM SAS2.5英寸熱插拔硬盤,RAID卡1G緩存,網(wǎng)卡2個千兆+4個萬兆??蛻魴CCPU Intel Core i7-10 700K 3.80GHz(八核)、內(nèi)存32GB、顯卡Nvidia GeFroce GTX 2060,軟件基于Ubuntu 20.04平臺,開發(fā)環(huán)境Anaconda+TensorFlow技術(shù)架構(gòu)環(huán)境下進行實驗。

(1)不同的優(yōu)化法對改進的LSTM-CNN模型影響

在NLPCC 2014中文數(shù)據(jù)集和搜狗新聞分類數(shù)據(jù)集上,對改進的LSTM-CNN模型分別采用Adam優(yōu)化算法和傳統(tǒng)的SGD算法進行性能對比,得到測試數(shù)據(jù)上F1值隨迭代次數(shù)的變化情況,實驗結(jié)果如圖4所示。

圖4 Adam優(yōu)化算法與隨機梯度下降(SGD)算法性能比較

實驗結(jié)果表明:通過Adam算法最小化目標(biāo)函數(shù)及更新模型參數(shù),進而使網(wǎng)絡(luò)最優(yōu),提升了整個改進的LSTM—CNN模型的性能。

(2)改進的LSTM-CNN模型的收斂性

為了驗證改進LSTM-CNN模型的收斂性,在NLPCC 2014中文數(shù)據(jù)集和搜狗新聞分類數(shù)據(jù)集上,分別采用改進的LSTM-CNN模型和傳統(tǒng)的LSTM-CNN模型進行預(yù)測,得到測試數(shù)據(jù)上F1值隨迭代次數(shù)的變化情況,實驗結(jié)果如圖5所示。

圖5 兩種模型迭代次數(shù)和F1值的變化情況

實驗表明:改進的LSTM-CNN模型為了避開梯度消失問題,采用了softsign函數(shù)代替了tanh激活函數(shù);為了解決過擬合問題,采用L1范數(shù)和L2范數(shù)線性組合的正則化方法來懲罰傳統(tǒng)的LSTM模型的輸入權(quán)重,在一定程度上提高了傳統(tǒng)的LSTM-CNN網(wǎng)絡(luò)的收斂速度和效果,并提高了傳統(tǒng)的LSTM-CNN預(yù)警精確率。

(3)五種模型性能比較

為了驗證改進的LSTM-CNN方法的有效性,文章在同一數(shù)據(jù)集上運用SVM模型、LSTM模型、LSTM-RNN模型、傳統(tǒng)的LSTM-CNN模型、改進的LSTM-CNN模型分別進行測試實驗,并把實驗結(jié)果進行對比,得到各種模型的精確率、召回率、F1值如表1所示:

表1 五種分類模型的性能比較

實驗結(jié)果表明,改進的LSTM-CNN對于非負(fù)面情緒的分類精確率為88.8%,召回率為84.1%,F(xiàn)1值為86.39%;負(fù)面情緒分類的精確率為89.1%,召回率為87.6%,F(xiàn)1值為88.34%。F1值在非負(fù)面情緒和負(fù)面情緒的預(yù)測結(jié)果均高于SVM模型、LSTM模型、LSTM-RNN模型和傳統(tǒng)的LSTM-CNN模型,說明改進的LSTM-CNN模型性能優(yōu)于其它四種模型,因此文章選擇使用正則化改進的LSTM-CNN模型作為高校輿情信息的分類模型,分類性能提升顯著。

六、結(jié) 論

為了對高校網(wǎng)絡(luò)輿情進行監(jiān)測,對話題的情感傾向性進行分析,有效地預(yù)判輿情發(fā)展趨勢,本研究首先采用softsign函數(shù)代替了tanh激活函數(shù),然后引入L1范數(shù)和L2范數(shù)對LSTM模型進行正則化改進,對一些因子施加懲罰,以更好地解決神經(jīng)網(wǎng)絡(luò)的梯度消失問題和過擬合問題。同時,采用改進的LSTM-CNN模型并對高校網(wǎng)絡(luò)輿情中文本情感傾向進行分類,把網(wǎng)絡(luò)輿情中的文本情感傾向分為非負(fù)面情緒和負(fù)面情緒兩大類,以達(dá)到預(yù)警的目的。最后通過實驗證明,不論是在非負(fù)面情緒語義還是負(fù)面情緒語義的上預(yù)測,改進的LSTM-CNN模型的各項性能指標(biāo)相較于其它的幾種LSTM模型均有所提升,驗證了改進LSTM-CNN模型是有效的。

猜你喜歡
范數(shù)正則輿情
剩余有限Minimax可解群的4階正則自同構(gòu)
類似于VNL環(huán)的環(huán)
基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
輿情
中國民政(2016年16期)2016-09-19 02:16:48
輿情
中國民政(2016年10期)2016-06-05 09:04:16
輿情
中國民政(2016年24期)2016-02-11 03:34:38
有限秩的可解群的正則自同構(gòu)
一類具有準(zhǔn)齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
微博的輿情控制與言論自由
丰台区| 绥棱县| 赣榆县| 宿松县| 阿合奇县| 汾西县| 连平县| 阿拉善左旗| 凌海市| 津市市| 黔西| 青龙| 巫溪县| 广灵县| 漠河县| 襄城县| 永靖县| 都兰县| 玛沁县| 麻栗坡县| 武山县| 大连市| 哈巴河县| 班戈县| 许昌市| 农安县| 南川市| 慈溪市| 梁平县| 房山区| 吉首市| 河津市| 安阳市| 额敏县| 稷山县| 长兴县| 云安县| 互助| 中宁县| 桐梓县| 延边|