国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PCA-CNN的動(dòng)態(tài)短文本分析研究

2022-04-28 09:23林寒冰金秀玲林云霞
科技創(chuàng)新與應(yīng)用 2022年11期
關(guān)鍵詞:聚類卷積暴雨

林寒冰,金秀玲,王 婷,林云霞

(閩江學(xué)院 數(shù)學(xué)與數(shù)據(jù)科學(xué)學(xué)院(軟件學(xué)院),福建 福州 350108)

目前,人們的閱讀途徑已不局限于紙質(zhì)媒體,博客、微博等社交網(wǎng)絡(luò)平臺(tái)成為人們獲取信息的重要來源,但其中的短文本信息繁雜、無序且多樣,不易獲取。本文幫助人們挖掘海量數(shù)據(jù)中的潛在聯(lián)系并篩選信息,提高閱讀效率。通過“人機(jī)對(duì)話”讓枯燥的閱讀更具有趣味性,加強(qiáng)人們閱讀體驗(yàn)感。因此,動(dòng)態(tài)短文本是十分具有研究意義的。

近年來,國(guó)內(nèi)外學(xué)者關(guān)于話題信息獲取方面有大量研究。對(duì)于信息檢索、信息挖掘和信息抽取等自然語(yǔ)言處理技術(shù)可追隨到話題檢測(cè)與跟蹤(Topic Detection and Tracking,TDT)[1]的話題跟蹤任務(wù)階段。傳統(tǒng)文本信息的話題抽取研究最重要的環(huán)節(jié)是文本聚類的過程。在國(guó)內(nèi),尉景輝等[2]用傳統(tǒng)的K-means聚類算法對(duì)長(zhǎng)文本聚類進(jìn)行研究,解決了傳統(tǒng)的K-means聚類算法對(duì)長(zhǎng)文本聚類導(dǎo)致的計(jì)算復(fù)雜度增加、聚類結(jié)果混亂等一系列問題。高長(zhǎng)元等[3]利用CURE算法針對(duì)存儲(chǔ)網(wǎng)絡(luò)用戶的大型數(shù)據(jù)庫(kù)進(jìn)行基于實(shí)際應(yīng)用的改進(jìn)。蔡岳等[4]利用最小二乘法降低文本向量的維度,創(chuàng)建了應(yīng)用于DBSCAN算法的簇關(guān)系樹結(jié)構(gòu)來文本聚類。李云紅等[5]建立了BGRU-CNN模型對(duì)長(zhǎng)文本提取語(yǔ)義關(guān)鍵特征,提高了中文長(zhǎng)文本的分類準(zhǔn)確率。張昱等[6]用組合-卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)新聞文本進(jìn)行分析,提高了新聞文本分類精確率。在國(guó)外,Kim提出了TextCNN[7]算法,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來對(duì)英文長(zhǎng)文本建模,在公有數(shù)據(jù)集上超過了傳統(tǒng)方法的表征??▋?nèi)基梅隆大學(xué)的人員提出了HAN(層次注意力網(wǎng)絡(luò))[8]算法建模更加復(fù)雜的文檔,使用詞、句、段落之間3種的注意力表示一篇文檔。對(duì)于微博短文本的研究,史偉等[9]采用情感圈的方法結(jié)合不同語(yǔ)境,對(duì)文本語(yǔ)義進(jìn)行進(jìn)一步挖掘,在精度、召回率、準(zhǔn)確率方面比傳統(tǒng)基于詞典的方法都得到了提升。張佩瑤等[10]基于詞向量和BTM結(jié)合K-means算法對(duì)微博文本進(jìn)行主題融合,該方法在主題模型提取效率上提高了10%。

綜上文獻(xiàn)分析,自然語(yǔ)言處理中,在研究?jī)?nèi)容上,CNN算法多用于英文文本、固定長(zhǎng)文本的分析,長(zhǎng)文本詞句間的聯(lián)系易把握,以往的研究缺乏對(duì)于當(dāng)今熱門平臺(tái)如微博、知乎等用戶發(fā)布的情感態(tài)度強(qiáng)但詞句聯(lián)系較弱的短文本信息的研究。研究方法上,文本聚類方法有基于劃分K-means聚類算法、基于層次的CURE算法、基于密度的DBSCAN算法及CNN算法,在最新的研究中對(duì)于短文本的研究用到情感圈方法、基于詞向量和BTM結(jié)合K-means聚類算法。以上方法無法同時(shí)獲取文本中的詞語(yǔ)之間關(guān)聯(lián)性及上下文的情感表述,且聚類結(jié)果會(huì)受到特征向量的影響。

因此,本文對(duì)動(dòng)態(tài)短文本關(guān)鍵詞提取方面的空缺展開研究,引入PCA算法,進(jìn)一步融合CNN模型提出PCA-CNN模型,探討動(dòng)態(tài)短文本的關(guān)鍵詞抓取與情感表述問題。該模型既考慮到中文語(yǔ)義復(fù)雜、情感多樣的特點(diǎn),又有降維的作用,提高CNN模型的運(yùn)行速度,PCA算法與CNN的結(jié)合能快速捕捉短文本中的上下詞聯(lián)系,在其他文本中搜索到目標(biāo)事件關(guān)鍵詞并提取出來,提高短文本信息的理解性及關(guān)鍵詞的抓取速度,使用戶快速把握事件發(fā)展關(guān)鍵信息。

1 基礎(chǔ)算法介紹

1.1 PCA降維技術(shù)

PCA(Principal Component Analysis)[11]即主成分分析方法,是廣泛使用的一種數(shù)據(jù)降維算法,通過析取主成分將關(guān)系緊密的眾多特征提取出盡可能少的相互獨(dú)立的新特征,新特征能夠獨(dú)立代表各個(gè)部分的內(nèi)容,使數(shù)據(jù)更易理解。PCA算法降維[12]計(jì)算如下:

(1)將原始數(shù)據(jù)按列組成n行d列矩陣X;

(2)再將每一維(代表一個(gè)屬性的每一列數(shù)據(jù))去零均值化;

(3)然后計(jì)算協(xié)方差矩陣,并對(duì)協(xié)方差矩陣特征值和特征向量進(jìn)行計(jì)算,

(4)接著對(duì)特征值進(jìn)行排序,取前k行組成矩陣P,用數(shù)據(jù)矩陣乘以k個(gè)特征向量組成的矩陣P,得到降到k維的數(shù)據(jù),

PCA降維后,高維數(shù)據(jù)的重要特征在數(shù)據(jù)中能更明確顯示出來,降低算法開銷。

1.2 卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)

CNN模型[13]是一種由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成的自然語(yǔ)言處理模型,每一層的神經(jīng)元呈寬度、高度、深度三維排列。多層的卷積、池化操作能夠捕捉到模型的全局語(yǔ)義信息和更高級(jí)的特征。其中,卷積層作為CNN模型構(gòu)建的核心,對(duì)矩陣卷積計(jì)算獲取其特征。池化層進(jìn)行一種降采樣操作(subsampling),以降低特征圖(feature maps)的特征空間,簡(jiǎn)化計(jì)算復(fù)雜度,減少計(jì)算資源耗費(fèi)。CNN的架構(gòu)圖如圖1所示。

圖1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)圖

CNN中每一層實(shí)施的操作就是把上一層的輸出加權(quán)求和,加上偏置并輸入激活函數(shù),激活函數(shù)輸出的所在層如果不是最后一層,則該輸出是下一層的輸入。計(jì)算公式如下:

其中,hi表示作用后的向量,S為輸入的句子,W表示一個(gè)窗口為m的卷積核,ci表示輸出的特征映射向量,bi表示偏置項(xiàng),α表示非線性激活函數(shù)。

1.3 PCA-CNN模型構(gòu)建

(1)數(shù)據(jù)獲取,在輸入目標(biāo)關(guān)鍵詞后,通過網(wǎng)絡(luò)爬蟲技術(shù)爬取網(wǎng)頁(yè)相關(guān)的文本內(nèi)容、鏈接、ID號(hào)等目標(biāo)數(shù)據(jù)。

(2)數(shù)據(jù)預(yù)處理,提取目標(biāo)數(shù)據(jù)的文本內(nèi)容,進(jìn)行文本清洗,包括去重及去除空格空行、去除停用詞過濾、數(shù)據(jù)降噪等操作后,使用jieba中文分詞,進(jìn)行文本切分后計(jì)算生成特征向量矩陣。采用PCA算法過濾掉非重點(diǎn)特征項(xiàng),去掉特征之間的無關(guān)性并保留語(yǔ)義特征,實(shí)現(xiàn)向量矩陣的初步降維。

(3)在輸入層結(jié)合訓(xùn)練好的CNN模型將文本數(shù)據(jù)向量化。一方面,將分詞完成的測(cè)試集數(shù)據(jù)使用Word2Vec訓(xùn)練[14],選擇skip-gram跳字模型[15]用Softmax函數(shù)作上下文詞分類,轉(zhuǎn)化文本數(shù)據(jù)為大小相同的情感特征詞向量矩陣。另一方面,采用TF-IDF關(guān)鍵詞提取法[16],構(gòu)造出文本矩陣再將詞語(yǔ)轉(zhuǎn)化為詞頻矩陣。

(4)卷積層對(duì)向量矩陣卷積運(yùn)算,對(duì)詞向量矩陣選定卷積核大小為2、3、4,卷積核數(shù)量為64的3層卷積操作。

(5)池化層降低文本特征維度,在對(duì)卷積后的特征圖降采樣,進(jìn)行最大池化Max pooling[17]處理,將特征圖的各個(gè)維度全部降為1,以便后續(xù)最大特征地提取和聚類。

(6)輸出層文本聚類,分類輸出特征詞。結(jié)合池化層輸出的詞向量的最大池化結(jié)果,先輸入全連接層,對(duì)經(jīng)過多次卷積和池化得來的高級(jí)特征采用全連接結(jié)合Softmax函數(shù)[18]進(jìn)行分類后輸出。

(7)特征結(jié)構(gòu)可視化。用Matplotlib繪制分類結(jié)果矩陣的散點(diǎn)圖,采用WordCloud[19]生成文本數(shù)據(jù)的詞云圖,使結(jié)果更加直觀。

(8)應(yīng)用測(cè)試集數(shù)據(jù)對(duì)模型進(jìn)行檢驗(yàn)及模型對(duì)比,判斷其準(zhǔn)確率,不斷提升模型的準(zhǔn)確度。

PCA-CNN模型構(gòu)建流程圖如圖2所示。

圖2 PCA-CNN模型構(gòu)建流程圖

2 實(shí)證分析

2.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備——以“河南暴雨”為例(事件已經(jīng)結(jié)束,已構(gòu)成完整數(shù)據(jù))

本文通過python編程語(yǔ)言,采用訓(xùn)練集和測(cè)試集進(jìn)行研究。

突發(fā)極端事件會(huì)打破人們正常的生活節(jié)奏,往往是大眾的關(guān)注點(diǎn),隨著短文本閱讀的普及,如微博等信息交流平臺(tái)的數(shù)據(jù)所包含的社會(huì)視角、話題影響力逐漸增大,足以反映大眾態(tài)度。本文借助網(wǎng)絡(luò)爬蟲技術(shù),從微博網(wǎng)頁(yè)花費(fèi)21 min爬取2021年7月20日至2021年7月27日的3 830條關(guān)于“河南暴雨”的微博話題。該話題事件現(xiàn)已結(jié)束,相關(guān)的數(shù)據(jù)較為完備,且該突發(fā)事件的相關(guān)話題持續(xù)1周位于熱搜榜首,其數(shù)據(jù)內(nèi)容包含正面負(fù)面、消極積極多維度融合情感態(tài)度的信息。此外,該事件可以充分反映面對(duì)極端突發(fā)事件時(shí),大眾的輿情傾向,國(guó)家和人民采取的緊急響應(yīng)措施,具有代表性。

2.2 “河南暴雨”數(shù)據(jù)預(yù)處理

提取“河南暴雨”的詳細(xì)信息文本,在卷積操作前進(jìn)行文本清洗,去除文本停用詞、無意義詞等冗余信息,降低數(shù)據(jù)噪聲。通過分詞,劃分地點(diǎn)、時(shí)間、事件為具體的詞組,得出鄭州、自然災(zāi)害等詞語(yǔ),進(jìn)一步生成特征向量矩陣,將每條微博轉(zhuǎn)化為一個(gè)特征向量。轉(zhuǎn)化后得到628個(gè)特征向量,數(shù)量過多,需采用PCA降維。

2.3 PCA處理

使用PCA算法,對(duì)生成的m*n維特征矩陣,通過多重組合特征提取方法,計(jì)算協(xié)方差矩陣,每個(gè)向量對(duì)應(yīng)的特征值,排列后選定的前k維正交化的特征項(xiàng),提取出具有代表性的特征項(xiàng),對(duì)特征向量矩陣進(jìn)行初步特征降維處理。如圖3所示,在628個(gè)特征中選取特征值大于1、方差累積貢獻(xiàn)率超過80%的前256個(gè)主成分,確定所采用的維度為256。通過PCA降維,僅保留主要信息令詞特征向量間相互獨(dú)立,提煉語(yǔ)義信息,防止卷積出現(xiàn)過擬合。

圖3 “河南暴雨”相關(guān)數(shù)據(jù)PCA處理碎石圖

2.4 “河南暴雨”數(shù)據(jù)的CNN模型建立

將分詞完成的測(cè)試集文本數(shù)據(jù)轉(zhuǎn)化為大小相同的情感特征詞向量矩陣,采用HowNet構(gòu)建情感詞典,建立詞向量矩陣。河南暴雨訓(xùn)練數(shù)據(jù)的情感特征可分為積極和消極2個(gè)方面,表示積極和正面的賦值為1,表示消極和負(fù)面的賦值為0,得到詞匯向量的映射表。

利用CNN的滑動(dòng)窗口對(duì)所有可能的詞向量組合進(jìn)行卷積操作,得到交互的初步矩陣表示,保留詞矩陣中的特征向量。通過反復(fù)對(duì)比,發(fā)現(xiàn)使用兩層卷積時(shí),關(guān)鍵詞分類結(jié)果中會(huì)出現(xiàn)如“災(zāi)害”“災(zāi)難”等大量語(yǔ)義相似的詞匯,占用特征空間;使用四層卷積時(shí),部分基礎(chǔ)語(yǔ)義相同但具有特征的詞匯如“鐵路損毀”“農(nóng)田損毀”等被過濾,導(dǎo)致過擬合,影響關(guān)鍵詞提取的真實(shí)性。因此選擇三層卷積。具體卷積層和池化層的參數(shù)見表1。

表1 卷積層和池化層各參數(shù)設(shè)置

將“河南暴雨”微博評(píng)論數(shù)據(jù)詞向量矩陣數(shù)值化后,進(jìn)行一次卷積和池化操作,得到尺寸為(8,8,256)的特征矩陣圖,對(duì)文本特征進(jìn)行初步增強(qiáng)。對(duì)此特征矩陣圖進(jìn)行卷積層Conv2、Conv3的特征融合,輸出特征矩陣圖尺寸為(4,4,128),降維處理Maxpool2層的輸出,得到(128,128)的二維矩陣。

輸出層對(duì)特征矩陣與詞矩陣匹配后輸出,關(guān)于“河南暴雨”的目標(biāo)關(guān)鍵詞分類。該信息可分為負(fù)面積極、負(fù)面消極、正面積極、正面消極,但由于在現(xiàn)實(shí)生活中的表達(dá)習(xí)慣和客觀性,正面的事物普遍屬于積極一面,主要將處理后的數(shù)據(jù)分成3類,第1類表示對(duì)受災(zāi)地區(qū)捐款,八方支援等的正面積極詞匯;第2類表示河南暴雨是一大地質(zhì)災(zāi)害,由于氣候變化對(duì)人類生活產(chǎn)生較客觀的負(fù)面影響;第3類則表示受災(zāi)嚴(yán)重的地區(qū)受災(zāi)情況等消極信息。關(guān)鍵詞分類結(jié)果見表2。

表2 關(guān)于“河南暴雨”部分關(guān)鍵詞分類表

2.5 “河南暴雨”數(shù)據(jù)結(jié)果可視化

繪制“河南暴雨”話題、分類結(jié)果矩陣散點(diǎn)圖,每個(gè)點(diǎn)對(duì)應(yīng)1個(gè)詞2個(gè)維度的情感特征值。在重復(fù)訓(xùn)練后,關(guān)于“河南暴雨”不同類別的情感特征值聚集,沒有散落的錯(cuò)誤向量。采用WordCloud模塊生成“河南暴雨”文本數(shù)據(jù)的詞云圖,以直觀的精煉文字內(nèi)容傳達(dá)信息。如圖4所示的詞云圖解釋了本次“河南暴雨”的發(fā)展態(tài)勢(shì),讓用戶快速觀察到“河南暴雨”的關(guān)注點(diǎn)在于暴雨發(fā)生受災(zāi)的具體地點(diǎn)、人們?cè)诒┯曛械膽?yīng)對(duì)方法、暴雨產(chǎn)生的原因和性質(zhì)、暴雨的發(fā)展?fàn)顟B(tài)等內(nèi)容,體現(xiàn)了人們對(duì)極端突發(fā)事件的密切關(guān)注,展現(xiàn)國(guó)家以人民生命財(cái)產(chǎn)安全為先的堅(jiān)定,同時(shí)用戶提出的一些負(fù)面的文本信息可以給相關(guān)部門以建議和啟示。

圖4 “河南暴雨”熱點(diǎn)詞云圖

研究PCA-CNN模型的優(yōu)化程度,將支持向量機(jī)算法、TextCNN算法的中文模型與PCA-CNN模型對(duì)相同的微博話題“河南暴雨”短文本數(shù)據(jù)集進(jìn)行關(guān)鍵詞抓取后的情感分類,其中TextCNN模型的卷積參數(shù)與PCA-CNN模型保持一致。模型情感聚類結(jié)果見表3及圖5,各類計(jì)算值的后綴1、2、3,分別代表正面積極、負(fù)面積極、負(fù)面消極3類文本,Accuracy表示短文本分類的準(zhǔn)確率。

圖5 “河南暴雨”的TextCNN,SVM,PCA-CNN模型情感聚類結(jié)果

表3 TextCNN,SVM,PCA-CNN模型測(cè)試結(jié)果

對(duì)照?qǐng)D表中數(shù)據(jù)對(duì)比,TextCNN模型分類的準(zhǔn)確率最低,SVM模型次之,PAC-CNN模型的準(zhǔn)確率最好。PCA-CNN模型的短文本情感分類性能最好,主流關(guān)鍵詞準(zhǔn)確度達(dá)86.85%,實(shí)現(xiàn)了對(duì)“河南暴雨”微博短文本數(shù)據(jù)的準(zhǔn)確分類及關(guān)鍵詞抓取。較之傳統(tǒng)的TextCNN模型,添加了PCA對(duì)詞特征降維后準(zhǔn)確率提升了10.14%,對(duì)SVM增加了更深層學(xué)習(xí)的CNN模型后準(zhǔn)確率提升了6.11%。

3 結(jié)束語(yǔ)

隨著科技的發(fā)展,人們頻繁通過閱讀新聞、電子書、新媒體平臺(tái)等方式獲取信息。針對(duì)實(shí)時(shí)話題,在繁雜多樣化的數(shù)據(jù)信息中提取關(guān)鍵信息,借助網(wǎng)絡(luò)爬蟲技術(shù)獲取中文短文本數(shù)據(jù),PCA算法降維處理數(shù)據(jù),數(shù)據(jù)特征初步提取后,結(jié)合CNN模型進(jìn)行情感分析及文本分類,構(gòu)建了PCA-CNN模型,在語(yǔ)義分析的基礎(chǔ)上加強(qiáng)了詞句情感把控,該模型結(jié)果的準(zhǔn)確率高于TextCNN和SVM模型,達(dá)到86.85%。通過反饋目標(biāo)事件的最新發(fā)展?fàn)顩r和大眾關(guān)注點(diǎn),讓用戶快速獲取信息,抓住情感重點(diǎn),節(jié)省時(shí)間,提高閱讀關(guān)注度。動(dòng)態(tài)短文本的研究在當(dāng)今快節(jié)奏的生活中促進(jìn)了人們的生活效率和生活水平的提高。智能閱讀也會(huì)在未來?yè)碛懈玫陌l(fā)展條件和環(huán)境,并不斷完善和提升。

猜你喜歡
聚類卷積暴雨
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
“80年未遇暴雨”襲首爾
基于知識(shí)圖譜的k-modes文本聚類研究
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
一種改進(jìn)K-means聚類的近鄰傳播最大最小距離算法
基于模糊聚類和支持向量回歸的成績(jī)預(yù)測(cè)
暴雨突襲
靖江市| 沙田区| 金堂县| 久治县| 岐山县| 始兴县| 嵊州市| 牙克石市| 乌拉特中旗| 沭阳县| 昭通市| 阿拉善右旗| 晴隆县| 集贤县| 万盛区| 葫芦岛市| 旬邑县| 金平| 廊坊市| 响水县| 修水县| 怀集县| 郧西县| 诏安县| 定远县| 兴城市| 肇州县| 久治县| 澄迈县| 阜阳市| 股票| 德阳市| 黑龙江省| 当雄县| 广昌县| 合阳县| 肥东县| 奉节县| 万山特区| 安塞县| 车致|