国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于圖挖掘的LDA改進算法

2022-07-29 06:22:22陳妙苗
計算機與現(xiàn)代化 2022年7期
關(guān)鍵詞:特征詞輿情語義

李 珊,陳妙苗,鄭 晨

(南京航空航天大學經(jīng)濟與管理學院,江蘇 南京 211106)

0 引 言

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡社交媒體的用戶數(shù)量不斷壯大,據(jù)權(quán)威報告顯示,當前我國的網(wǎng)民數(shù)量已達到10.32億[1],同時依托網(wǎng)絡信息交互與傳播的及時性和敏捷性[2],網(wǎng)絡輿情成為了個人或社會群體最直接的意識形態(tài)表現(xiàn)[3]。因此如何有效地從不斷涌現(xiàn)的海量非結(jié)構(gòu)化數(shù)據(jù)中發(fā)現(xiàn)熱點話題,跟蹤話題發(fā)展走向,為相關(guān)部門提供有效輿情信息,掌握民眾意識形態(tài),從而實現(xiàn)輿情監(jiān)管,營造清朗網(wǎng)絡空間具有重要意義[4-5]。

當前中文熱點話題挖掘方法主要可以分為基于頻次統(tǒng)計、基于外部詞典、基于潛在語義索引、基于圖挖掘的方法和其他改進算法[6-7]。其中基于頻次統(tǒng)計的方法主題識別準確率低,且不適用于特征稀疏的短文本[8];基于外部詞典的主題識別效果高度依賴詞典的可靠性,且對網(wǎng)絡輿情數(shù)據(jù)中頻出的新詞缺乏較好的識別能力[9];而基于圖挖掘的方法雖然考慮了語義關(guān)聯(lián)特征但并不適用于大數(shù)據(jù)集[10],因而研究多以基于潛在語義索引及其改進算法展開[11]。

潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)是一種基于潛在語義索引發(fā)展而來的3層概率主題模型[12],實現(xiàn)了文本和文本中的單詞在主題層次上的聚類,被廣泛應用于話題識別、文本分類等研究[13]。然而該模型以詞袋模型(Bag of Words, BOW)為假設(shè),所有單詞的重要程度相同,簡化了文本建模的復雜度,使得主題分布傾向于高頻詞;同時也缺乏考慮文本的語義信息,影響了主題的語義連貫性和文本表征的準確性,因此針對特征稀疏的短文本,LDA模型話題識別的效果不甚理想。現(xiàn)有不少研究對該問題進行了改進,如Newman等[14]使用TF-IDF修正了模型中單詞的權(quán)重;Xu等[15]針對話題中的敏感詞識別,提出了基于Word2Vec識別和修正敏感詞的權(quán)重從而對LDA進行改進的算法SW-LDA,但模型不具有普遍適用性;居亞亞等[16]提出了一種基于動態(tài)權(quán)重的LDA算法,在模型迭代的過程中使用語義信息動態(tài)地獲取單詞的權(quán)重,話題識別效果相較于傳統(tǒng)LDA有了明顯提升,卻增加了建模的復雜度;譚旭等[17]引入高斯函數(shù)為特征詞設(shè)置不同權(quán)重,以期提高主題分布的合理性及獨立性,雖然指標顯示效果有所提升,但識別的主題詞依然存在相似度高的情況??梢钥吹缴鲜鲅芯慷紝鹘y(tǒng)LDA詞匯權(quán)重相同的問題提出了不同的改進方法,但均無法實現(xiàn)在不增加建模復雜度下,兼顧語義信息的融合和模型性能的提升。

綜上所述,本文把圖挖掘和LDA相結(jié)合,利用圖挖掘有效結(jié)合語義相關(guān)性的思想[18],對LDA進行改進,從而提出基于圖挖掘的LDA改進算法GoW-LDA。首先以待挖掘文本中的特征詞為節(jié)點,詞對在文本句子中的共現(xiàn)先后關(guān)系為邊,即先出現(xiàn)的詞指向后出現(xiàn)的詞,構(gòu)建有權(quán)有向的語義網(wǎng)絡圖,并計算特征詞節(jié)點的加權(quán)度;其次,利用歸一化后的加權(quán)度賦予LDA模型中各個單詞新的權(quán)重,實現(xiàn)結(jié)合文本語義關(guān)聯(lián)信息,從而修正LDA主題詞偏向高頻詞的問題。同時,本文以蟻坊軟件發(fā)布的2020年5大網(wǎng)絡輿情反轉(zhuǎn)事件在微博的文本數(shù)據(jù)為例,將傳統(tǒng)LDA模型、利用TF-IDF進行單詞權(quán)重修正的LDA作為對照,驗證了GoW-LDA模型的可行性。

1 基于圖挖掘的LDA改進算法

1.1 基于圖挖掘的原理

圖是一種重要的可視化分析工具,利用網(wǎng)絡或圖中的節(jié)點和邊可清晰反映網(wǎng)絡中的對象及關(guān)系。現(xiàn)有不少研究將圖挖掘技術(shù)與自然語言處理相結(jié)合,以從文本中抽取的概念或術(shù)語為節(jié)點,它們之間的關(guān)系作為邊,將文本轉(zhuǎn)化為語義網(wǎng)絡或術(shù)語關(guān)系圖,依托社會網(wǎng)絡或圖挖掘的方法對文本語義網(wǎng)絡進行分析[19-20]。其中,Rousseau等[21]提出了一種基于詞共現(xiàn)的文本網(wǎng)絡模型,稱為詞圖模型(Graph of Words, GoW),以詞間距離越短則相關(guān)性越強為假設(shè),將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為帶結(jié)構(gòu)信息的文本網(wǎng)絡,獲取詞之間的詞序信息和上下文依賴關(guān)系。本文基于該模型的思想,在LDA建模前,首先抽取文本中的特征詞作為圖網(wǎng)絡中的節(jié)點,以兩兩特征詞在單位句子中的共現(xiàn)先后關(guān)系為邊,邊由先出現(xiàn)的詞指向后出現(xiàn)的詞,并以共現(xiàn)先后關(guān)系頻次作為邊的權(quán)重,由此構(gòu)建一個有權(quán)有向的文本語義網(wǎng)絡圖[22]。語義網(wǎng)絡同樣存在多個統(tǒng)計特征用以描述網(wǎng)絡自身的特性和網(wǎng)絡中節(jié)點的重要程度[23],為了充分考慮特征詞在語義結(jié)構(gòu)中的詞序信息和上下文依賴關(guān)系,本文采用網(wǎng)絡中節(jié)點歸一化后的加權(quán)度(weighted degree)為計算指標,用以修正后續(xù)LDA建模中單詞的權(quán)重,計算公式為:

(1)

其中,N代表特征詞的總數(shù),k代表第k個特征詞,D′ki表示第k個特征詞的第i個連入關(guān)系,W′ki表示該連入關(guān)系邊的權(quán)重,n則表示該特征詞的連入度;同樣地,D″kj表示第k個特征詞的第j個連出關(guān)系,W″kj表示該連出關(guān)系邊的權(quán)重,m則表示該特征詞的連出度。

1.2 GoW-LDA算法

圖1 Gow-LDA算法模型圖

LDA建模的過程是逆向的文本集合生成模型,主要可分解為以下5個步驟:

1)設(shè)任何一篇文檔di的先驗概率為P(di)。

2)給定服從先驗Dirichlet分布的參數(shù)α,并從中取樣,生成文檔di的主題概率分布θi。

3)從主題分布θi中取樣生成文檔di中第j個詞的主題zij。

4)給定服從先驗Dirichlet分布的參數(shù)β,并從中取樣生成主題zij的詞匯概率分布φzij。

5)從詞匯概率分布φzij中生成詞語wij。

重復步驟1~步驟5,直到生成所有的文檔為止。本文中LDA建模采用的參數(shù)估計法為最常用的吉布斯采樣法(Gibbs Sampling),目的是通過已知的先驗輸入α、β,推斷隱變量的分布,為了更好地利用式(1)對詞匯的權(quán)重進行改進,在推導參數(shù)θ、φ的過程中設(shè)定模型所有變量的聯(lián)合分布滿足式(2):

P(θi|α)×P(φ|β)

(2)

(3)

(4)

2 實證分析

2.1 數(shù)據(jù)集和數(shù)據(jù)預處理

本文以蟻坊軟件發(fā)布的2020年5大網(wǎng)絡輿情反轉(zhuǎn)事件,即杭州女子失蹤案、貴州安順公交車墜湖事件、廣州方圓小學哮喘女孩遭體罰致吐血事件、黑龍江雞西“酸湯子”中毒事件和山東環(huán)衛(wèi)工被頂替教師崗位事件作為GoW-LDA主題識別模型實證分析的切入點,利用網(wǎng)絡爬蟲爬取了新浪微博平臺相關(guān)的輿情數(shù)據(jù),經(jīng)過去空去重,剩余有效輿情數(shù)據(jù)共計10867條,具體如表1所示。

表1 實驗數(shù)據(jù)集

通過去除輿情文本數(shù)據(jù)中郵箱、網(wǎng)址、話題符號等無意義的內(nèi)容,設(shè)置自定義詞典和停用詞,利用Jieba分詞將文本轉(zhuǎn)化成按照原文本中出現(xiàn)順序排列的詞列形式。

2.2 評價指標

本文主要從混淆度、識別主題詞之間的相似度以及模型訓練時長3個角度,來對比和衡量Gow-LDA模型相較于傳統(tǒng)的LDA以及基于TF-IDF修正詞權(quán)重的LDA在話題識別上面的性能優(yōu)勢。

混淆度(Perplexity)又稱為困惑度,作為信息熵的指數(shù),常被用于評價語言模型的建模能力[24-25]。其通過衡量詞匯在建模產(chǎn)生的文檔主題分布θd和主題單詞分布φk下的概率似然大小來表征建模效果,計算見公式(5):

(5)

其中,xw,d表示文檔d中所有詞匯的數(shù)量,那么∑w,dxw,d就是所有文檔集合中的詞匯總數(shù),∑kθd(k)φw(k)則結(jié)合文檔主題分布和主題單詞分布,用于表征主題中某個詞出現(xiàn)的概率,因而困惑度越低對應更好的主題識別建模效果。

點互信息指數(shù)(Pointwise Mutual Information, PMI)是通過計算主題建模結(jié)果中概率最高的N個主題詞之間的相關(guān)性,來衡量主題語義連貫性的常用評價指標[26]。針對主題k的PMI計算公式如下:

(6)

2.3 GoW-LDA主題建模

由于本實驗采用的數(shù)據(jù)集較大,選取所有出現(xiàn)的詞匯來構(gòu)建語義網(wǎng)絡費時費力,而當前LDA相關(guān)研究基本以5~20個不等詞數(shù)即可表征一個主題[27],因而本文分別選擇分詞后計算的TF-IDF取值前50位、前100位、前200位、前400位和前800位的詞匯作為特征詞來構(gòu)建語義網(wǎng)絡圖。實驗結(jié)果顯示,困惑度變化不大,但利用50和100個特征詞構(gòu)建GoW-LDA的實驗中,最終主題詞識別結(jié)果存在多個重疊,而利用400和800個詞與利用200個詞實驗的識別結(jié)果相近,但在圖模型構(gòu)建時需要花費更多的時間。因此最終選擇以TF-IDF取值前200位的特征詞來構(gòu)建GoW-LDA模型。本文利用基于JVM的復雜網(wǎng)絡分析軟件Gephi進行圖模型的構(gòu)建以及加權(quán)度的計算:以篩選的200個特征詞為節(jié)點,設(shè)置共現(xiàn)窗口為3,以兩兩特征詞在文本句子單位中的共現(xiàn)先后關(guān)系為邊,構(gòu)建反轉(zhuǎn)事件輿情的語義網(wǎng)絡圖,結(jié)果如圖2所示。同時用Gephi自帶的計算工具獲取網(wǎng)絡圖各個節(jié)點的加權(quán)度值,部分結(jié)果展示如表2所示。

圖2 基于部分特征詞的反轉(zhuǎn)事件輿情網(wǎng)絡圖

表2 部分特征詞的加權(quán)度計算結(jié)果

圖2中每個圓圈代表一個節(jié)點,即一個特征詞,圓圈越大代表其加權(quán)度值越高,而不同深淺的色塊則是Gephi自動基于關(guān)聯(lián)性進行特征詞聚類劃分的結(jié)果。其次,對計算得到的特征詞加權(quán)度進行歸一化處理,并且為了平衡權(quán)值,對除了特征詞以外的其他詞匯賦予一個遠小于歸一化加權(quán)度最小值的權(quán)重,由此得到修正后的所有詞匯權(quán)重,并通過與LDA建模過程中的文檔-詞匯矩陣內(nèi)詞匯出現(xiàn)頻次相乘來加以實現(xiàn)權(quán)重的修改。

現(xiàn)有的主題模型相關(guān)研究表明[28],先驗參數(shù)α、β的選取對建模效果產(chǎn)生了一定的影響,但由于先驗參數(shù)乃至其他參數(shù)的調(diào)整不是本文研究的重點,同時為了保證實驗組和對照組模型對比的公正性,本文中LDA建模的先驗參數(shù)統(tǒng)一選擇gensim庫下LDA模型的默認值。隨機種子random_state=100,總迭代數(shù)iterations=450,單詞考慮文檔數(shù)量chunksize=50,更新間隔update_every=1,算法通過整個語料庫的次數(shù)passes=20。

2.4 結(jié)果與分析

1)模型混淆度分析。

本文分別對傳統(tǒng)LDA、基于TF-IDF修正權(quán)重的LDA和GoW-LDA在主題數(shù)設(shè)置為2~9時進行建模,并計算了相應的模型混淆度,實驗結(jié)果如圖3所示。

圖3 3種主題模型在不同主題數(shù)下的混淆度對比

可以看到本文提出的GoW-LDA模型相較于傳統(tǒng)LDA和基于TF-IDF的LDA模型,在混淆度指標上有了大幅度的下降,混淆度曲線隨著主題數(shù)的增加呈現(xiàn)先下降后上升的趨勢,在主題數(shù)設(shè)置為5時達到最低值19.8,恰好符合實驗所用語料庫的文本類別個數(shù);而傳統(tǒng)LDA模型的混淆度較高,在主題數(shù)為2時達到局部收斂,主題數(shù)為6時全局收斂,與單獨基于圖挖掘的主題分類個數(shù)一致,卻不滿足實際的文本分類情況;在本次實驗中,基于TF-IDF修正詞權(quán)重的LDA建模效果十分不理想,混淆度甚至隨著主題數(shù)的增加而增大。可見基于圖挖掘技術(shù)的LDA改進算法通過引入有效的語義關(guān)聯(lián)信息來引導建模,提高了模型的泛化性能和精度。

2)主題識別結(jié)果分析。

針對主題詞識別的效果,圖4展示了主題數(shù)為5時3個主題模型的主題詞識別結(jié)果,其中每個圓代表識別出的一個主題,圓之間的重疊部分代表主題間識別出的相同主題詞。

(a) LDA

從圖4(a)可以看到,傳統(tǒng)LDA模型的主題識別結(jié)果存在2個重疊,即模型實際只識別出了3個主題,而重疊的“酸湯子”“黃曲霉素”“袁福春”和“落聘”都是原始文本中出現(xiàn)的高頻詞匯;圖4(b)顯示基于TF-IDF的LDA模型存在3個主題重疊的情況,此外還識別出了如“顯示”“聊齋”“西子”等與主題表征無關(guān)的冷門詞匯;而圖4(c)則顯示本文提出的GoW-LDA能有效識別出符合實際分類情況的所有主題,且各主題間的特征詞無一重復,與主題具有高度相關(guān)性。為了更直觀地展現(xiàn)GoW-LDA相較于其他2個模型在主題詞識別上的優(yōu)勢,本文計算了不同主題數(shù)下各個模型的PMI值,結(jié)果如圖5所示。

圖5 不同主題數(shù)下3種主題模型的PMI值

從圖5中可以看到,3個模型的PMI值基本都隨主題數(shù)的增加而增大,其中用菱形標記的TF-IDF-LDA最小,在主題數(shù)為9時PMI值稍有下降;用圓形標記的LDA位列第二,在主題數(shù)為5時PMI稍有下降;用三角標記的GoW-LDA,在各個主題下的PMI值都明顯高于對照組的2個模型,對傳統(tǒng)LDA的PMI值平均提升了20.35%,對TF-IDF-LDA平均提升了28.75%,表明利用該方法能有效地將單詞的語義信息以權(quán)重的形式融合到主題建模的過程中,使得抽取出的主題具有較強的語義連貫性,從而使得主題下概率較高的詞之間的相關(guān)性更強。

3)模型訓練時間對比。

此外,本文還對3個模型分別在不同主題數(shù)下建?;ㄙM的時間進行了統(tǒng)計,結(jié)果如圖6所示。需要說明的是,若不作圖模型的可視化處理,可以直接調(diào)用NetwokX進行特征詞的加權(quán)度值計算,圖6中的建模時間已包含了該部分過程??梢钥吹诫S著主題數(shù)個數(shù)增多,模型構(gòu)建時間呈上升趨勢,GoW-LDA在各個主題數(shù)下建模的時間普遍低于對照組的2個模型。以主題數(shù)為5的模型訓練時間為例,GoW-LDA建模比傳統(tǒng)LDA建?;ㄙM的時間減少了19%,比TF-IDF-LDA減少了29.53%,可見本文提出的改進算法能夠有效減少主題識別模型訓練的時間。

圖6 不同主題數(shù)下3個主題模型的建模時間

3 結(jié)束語

本文針對傳統(tǒng)LDA中詞匯權(quán)重相同導致主題分布偏向高頻詞匯以及其缺乏考慮語義關(guān)聯(lián)信息的問題,提出一種基于圖挖掘的LDA改進算法GoW-LDA。通過構(gòu)建文本語義網(wǎng)絡圖獲取特征詞的加權(quán)度,基于此將文本的語義結(jié)構(gòu)性和關(guān)聯(lián)性以權(quán)重修正的形式融入LDA主題建模中,從而引導主題識別結(jié)果具有更好的語義連貫性和更高的準確性。為了驗證該模型的科學性,本文采用2020年網(wǎng)絡輿情反轉(zhuǎn)事件相關(guān)的輿情數(shù)據(jù)作為實驗的語料庫,通過設(shè)置傳統(tǒng)LDA、基于TF-IDF的LDA作為對照組,利用混淆度、互信息指數(shù)和模型訓練時長3個指標,驗證了本文提出的GoW-LDA模型在提升模型的泛化性能和精度、提高抽取主題的語義連貫性以及降低模型訓練的復雜度上都有一定的優(yōu)勢,為解決網(wǎng)絡輿情熱點話題識別,從而為有關(guān)部門及時準確地掌握民眾意識形態(tài)、監(jiān)管輿情發(fā)展態(tài)勢提出了一種有效的解決思路。

猜你喜歡
特征詞輿情語義
語言與語義
基于改進TFIDF算法的郵件分類技術(shù)
產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應用
輿情
中國民政(2016年16期)2016-09-19 02:16:48
輿情
中國民政(2016年10期)2016-06-05 09:04:16
“上”與“下”語義的不對稱性及其認知闡釋
輿情
中國民政(2016年24期)2016-02-11 03:34:38
面向文本分類的特征詞選取方法研究與改進
認知范疇模糊與語義模糊
微博的輿情控制與言論自由
漾濞| 峨眉山市| 泗水县| 梨树县| 卫辉市| 栖霞市| 理塘县| 离岛区| 钟祥市| 阜城县| 饶阳县| 攀枝花市| 沈丘县| 岢岚县| 平邑县| 瑞金市| 织金县| 聂拉木县| 隆安县| 从江县| 新建县| 偃师市| 稷山县| 班戈县| 利川市| 绩溪县| 陆川县| 青龙| 乌审旗| 重庆市| 滁州市| 九龙坡区| 岫岩| 江川县| 镇远县| 五华县| 宁德市| 阿城市| 陆川县| 泾川县| 江安县|