摘要:該文就基于文本挖掘技術的網(wǎng)絡輿情采集與分析應用展開研究,從網(wǎng)絡輿情生命周期理論、網(wǎng)絡輿情采集與分析相關技術、中文分詞算法、文本挖掘技術、以及具體的文本預處理、詞頻分析和LDA主題建模等方面展開討論。在網(wǎng)絡輿情數(shù)據(jù)預處理中,通過去噪、自定義詞典及分詞、停用詞過濾等手段,可提升數(shù)據(jù)質(zhì)量,文本詞頻分析利用TF-IDF算法,準確挖掘關鍵詞,深入理解輿情事件的重要性,而LDA主題建模技術則通過發(fā)現(xiàn)主題結構,為輿情事件提供更為深刻的分析視角。研究表明,通過建立起輿情監(jiān)測管理機制,可以更好地構建網(wǎng)絡輿情環(huán)境。
關鍵詞:網(wǎng)絡輿情分析;文本挖掘技術;LDA主題建模
doi:10.3969/J.ISSN.1672-7274.2024.09.047
中圖分類號:TP 311.13;TP 391.1 文獻標志碼:A 文章編碼:1672-7274(2024)09-0-03
Research on the Application of Network Public Opinion Collection and Analysis Based on Text Mining Technology
JI Bolin
(State Administration of Taxation, Jiangsu Provincial Taxation Bureau, Nanjing 210036, China)
Abstract: This article explores the application of text mining technology in the collection and analysis of online public opinion. It discusses the lifecycle theory of online public opinion, related technologies for online public opinion collection and analysis, Chinese word segmentation algorithms, text mining techniques, as well as specific text preprocessing, word frequency analysis, and LDA topic modeling. In the preprocessing of online public opinion data, data quality can be improved through methods such as denoising, custom dictionaries and word segmentation, stop word filtering, etc. Text word frequency analysis utilizes the TF-IDF algorithm to accurately mine keywords and gain a deeper understanding of the importance of public opinion events. LDA topic modeling technology, on the other hand, provides a more profound analysis perspective for public opinion events by discovering topic structures, indicating that establishing a public opinion monitoring and management mechanism can better construct the online public opinion environment.
Keywords: analysis of online public opinion; text mining technology; LDA theme modeling
0 引言
微博等作為新興社交媒體平臺,不但滿足國民網(wǎng)絡娛樂的需求,還發(fā)揮著輿論導向作用,因覆蓋領域廣和用戶數(shù)量多,會形成海量的數(shù)據(jù),從中可以反映出社會大眾對社會事件或問題的看法、態(tài)度和情緒,因此,網(wǎng)絡輿情作為雙刃劍,發(fā)揮著宣傳社會正能量和助力社會和諧發(fā)展的作用,但也可能起到混淆視聽和影響社會穩(wěn)定的負面作用,這就需要從海量文本數(shù)據(jù)中掌握網(wǎng)絡輿情走向,及時了解社會大眾意見,防止輿情走偏,發(fā)揮對熱點事件的洞察力,并對負面輿情進行正面引導和解決[1]。文本采用挖掘技術海量文本數(shù)據(jù)中提取并發(fā)現(xiàn)未知事件,通過基于文本挖掘技術的網(wǎng)絡輿情采集與分析技術,可以建立起良好的輿論環(huán)境。
1 網(wǎng)絡輿情采集與分析相關技術
1.1 網(wǎng)絡爬蟲技術
對于海量的網(wǎng)絡信息數(shù)量,采用傳統(tǒng)搜索引擎不能滿足信息獲取要求,網(wǎng)頁承載著數(shù)量眾多的信息,是人們獲取文本信息的主源,人工獲取網(wǎng)頁信息會耗費較多的時間與精力,網(wǎng)格爬蟲也稱為Web信息采集器,可根據(jù)一定規(guī)則對網(wǎng)頁信息進行自動抓取,也是很多網(wǎng)絡搜索引擎的重要組成部分。全網(wǎng)爬蟲可對整個網(wǎng)頁數(shù)據(jù)進行提取并存入數(shù)據(jù)庫,由設定URL開始抓取URL列表,HTML標記好后可以得到所需要的數(shù)據(jù),并將其下載至儲存器,獲取新URL列表添加至列隊進行分析,再次重復上述流程至系統(tǒng)停止,具體流程見圖1所示。
1.2 TF-IDF算法
TF-IDF為英文詞頻和逆文檔頻率的縮寫,是一種信息檢索與數(shù)據(jù)挖掘處理技術,用于評估某詞項對某文檔或語料庫的重要程度,詞的重要性和其在此文檔出現(xiàn)頻率為正比例關系,和其他語料庫頻率為反比例關系,即某詞語在某文檔出現(xiàn)頻次多,在同語料庫其他文檔出現(xiàn)頻次少,此詞語可作為文本特征詞,具有更重要程度和區(qū)分度。TF為某詞匯于文檔中出現(xiàn)的頻次,通過對詞數(shù)歸一化處理來保證有效性,公式為:
(1)
IDF為某給定詞匯文檔于總語料庫存在頻次,其值為將總文檔量除存在此詞匯文檔量,取對數(shù)后得到其數(shù)值,算式為
(2)
式中,N為語料庫總文檔數(shù),若語料庫中存在詞語i的文檔數(shù)量較多,IDF值較小,相反,IDF值變大,也就是詞匯更大概率地作為主題詞。為避免某些重復于每個文檔詞匯被濾除,準確求得詞匯重要性,要添加TF值,把詞匯在文檔中出現(xiàn)頻率及語料庫中出現(xiàn)頻率進行高度結合,也就是TF-IDF。將TF文檔中存在的高頻次詞匯采用逆文檔頻率來降低詞語權重,提升文檔中出現(xiàn)頻率高詞語權重,可在總語料庫中存在頻次低詞匯的權重,其值越大則重要程度越高。
1.3 中文分詞算法
中文是一種字符無空格的語言,在處理中文文本時,需要通過中文分詞將連續(xù)的字符切分成有意義的詞語單元,不僅可幫助理解文本的語義結構,還能提高后續(xù)文本挖掘任務的準確性。中文分詞是開展文本挖掘的前提條件,也是采用機器學習、自然語言處理中文的基礎,可將輸入字符串進行分詞處理轉換為中文單詞,中文分詞算法的選擇和優(yōu)化對于準確抽取關鍵信息、理解輿情事件發(fā)揮著至關重要的作用[2]。隱馬爾可夫模型(Hidden Markov Model,HMM)是一種常用于序列數(shù)據(jù)建模的統(tǒng)計模型,它在中文分詞領域得到了廣泛應用,在使用HMM進行中文分詞轉換之前需要對狀態(tài)轉移概率矩陣(Transition Matrix)、發(fā)射概率矩陣(Emission Matrix)和初始狀態(tài)概率向量(Initial State Probability Vector)進行參數(shù)初始化,通過訓練語料庫進行學習,統(tǒng)計詞語之間的關系和詞與字之間的關系。HMM中文分詞的核心是通過前向-后向算法來計算給定觀察序列的概率,即在給定一段文本的情況下,求得各種隱含狀態(tài)序列的概率。
2 基于文本挖掘技術的網(wǎng)絡輿情采集與分析
2.1 文本挖掘技術
前向算法的目標是計算在給定觀察序列(觀察到的字或詞)的情況下,到達每個狀態(tài)的概率。初始狀態(tài)概算數(shù)學模型為
(3)
式中,為時刻1處于狀態(tài)i的概率;為初始狀態(tài)概率;為狀態(tài)i觀察到第一個字的概率。
對于t=2,3,...,T(T為觀察序列的長度),則存在如下模型:
(4)
式中,為在時刻t處于狀態(tài)j的概率;為從狀態(tài)i轉移到狀態(tài)j的概率;為在狀態(tài)j時觀察到第t個字的概率。
進行概率計算時存在如下數(shù)學模型:
(5)
式中,為觀察序列O在模型λ下的概率;為時刻T處于狀態(tài)i的概率。
后向算法的目標是計算在給定觀察序列的情況下,從每個狀態(tài)開始的后續(xù)觀察序列的概率。進行初始化操作時存在如下數(shù)學模型:
(6)
對于t=T-1,T-2,...,1,存在如下算式:
(7)
式中,為從時刻t開始,在狀態(tài)i的概率;為狀態(tài)i轉移到狀態(tài)j的概率;為狀態(tài)i轉移至狀態(tài)j的概率;為狀態(tài)i時觀察到第t+1個字的概率;為時刻t+1開始,在狀態(tài)j的概率。
進行概率計算存在如下算式:
(8)
式中,為觀察序列O在模型λ下的概率;為初始狀態(tài)i的概率;為在狀態(tài)i時觀察到第一個字的概率;為時刻1開始,在狀態(tài)i的概率。
上述兩個算法通過遞推和初始化步驟,分別計算了前向概率和后向概率,從而得到給定觀察序列的總概率,這些概率在中文分詞中用于尋找最可能的隱含狀態(tài)序列,即找到最有可能對應的分詞方式。
2.2 網(wǎng)絡輿情數(shù)據(jù)采集
采用八爪魚采集器來獲取某微博數(shù)據(jù),以某話題作為搜索元,并通過微博高級搜索功能,參考以前的研究,采集具有影響力的新聞和原創(chuàng)評論,字段有博主ID、鏈接、內(nèi)容、轉發(fā)量、評論數(shù)、點贊量等共計51 434條評論。
2.3 網(wǎng)絡輿情數(shù)據(jù)預處理
在網(wǎng)絡輿情中,數(shù)據(jù)往往包含大量噪音,如特殊字符、HTML標簽、亂碼等,去噪處理的目標是清理這些無用信息,使得數(shù)據(jù)更加純凈,通過采用正則表達式、規(guī)則過濾等方法,去除冗余信息,確保數(shù)據(jù)的一致性和可分析性。網(wǎng)絡輿情數(shù)據(jù)常包含特定領域的術語和新詞匯,為了更準確地反映輿情的語義信息,采用自定義詞典進行文本分詞,自定義詞典的創(chuàng)建可以基于領域知識,將一些特定實體、行業(yè)詞匯等加入分詞詞典中,可以進一步提高分詞的準確性,避免一些領域特有的術語被切分開[3]。停用詞是指在文本中頻繁出現(xiàn)但缺乏實際語義信息的詞匯,如“的”“是”等,在網(wǎng)絡輿情分析中,去除停用詞有助于減小數(shù)據(jù)規(guī)模、提高分析效率,并且使得關鍵信息更為突出。采用停用詞表,結合自定義停用詞,對文本進行停用詞過濾,通過使用預定義的停用詞表,也可以根據(jù)具體任務構建領域特定的停用詞表。
2.4 文本詞頻分析
文本詞頻分析是網(wǎng)絡輿情研究中常用的手段之一,通過TF-IDF算法(Term Frequency-Inverse Document Frequency)對文本中的詞語進行權重計算,從而挖掘并理解輿情事件的重要性和熱點。F-IDF算法通過綜合考慮詞在當前文本中的頻率(TF)和在整個文本集合中的逆文檔頻率(IDF),為每個詞賦予一個權重值。這一權重值反映了詞在當前文本中的重要性,以及相對于其他文本的獨特性。計算文本中每個詞的詞頻,即該詞在文本中出現(xiàn)的次數(shù)。詞頻表示詞在當前文本中的重要性,常用的計算方式為
(9)
計算整個文本集合中每個詞的逆文檔頻率,即該詞在整個文本集合中的重要性。逆文檔頻率的計算方式為
(10)
式(10)中加1是為了避免分母為零的情況。
將詞頻和逆文檔頻率相乘,得到每個詞的TF-IDF權重。這個權重表示了詞在當前文本中的重要性,以及相對于整個文本集合的獨特性。
(11)
根據(jù)計算得到的TF-IDF權重,選取權重較高的詞語作為關鍵詞,這些關鍵詞通常反映了文本的主題和熱點,幫助理解輿情事件的重要性。通過文本詞頻分析,可以系統(tǒng)性地了解文本中各個詞的重要性,有助于從海量信息中篩選出關鍵信息,理清輿情事件的脈絡,提高分析的深度和廣度。
2.5 LDA主題建模分析
LDA(Latent Dirichlet Allocation)主題建模技術在網(wǎng)絡輿情分析中廣泛應用,通過對文本進行主題劃分,可以深入理解輿情事件的內(nèi)涵和相關因素。LDA的核心思想是每個文檔都是由多個主題組成的,而每個主題又由多個詞組成,在LDA中,每篇文章都被看作主題的一個混合,而每個主題又以一定的概率生成文檔中的詞語,通過對文本中的詞語進行統(tǒng)計和建模,LDA可以自動地發(fā)現(xiàn)主題,并確定每篇文檔中各個主題的權重。確定主題數(shù)目(K),即在使用LDA進行分析時,需要指定主題的數(shù)目K,即研究人員希望從數(shù)據(jù)中發(fā)現(xiàn)的主題個數(shù)。對每個文檔中的每個詞隨機分配一個主題,不斷迭代優(yōu)化參數(shù),包括每篇文檔的主題分布和每個主題的詞分布,可以使用Gibbs采樣等方法,最終得到每篇文檔的主題分布,以及每個主題中詞語的權重。LDA輸出的結果包括每篇文檔的主題分布和每個主題中詞語的權重,通過分析這些結果可以深入理解輿情事件的內(nèi)涵和相關因素。
3 結束語
本文揭示了在網(wǎng)絡輿情研究中充分利用文本挖掘技術的重要性,可以更好地理解和應對復雜的信息環(huán)境,未來的研究方向可以聚焦于優(yōu)化分詞算法、改進主題模型以適應多模態(tài)文本,以及結合深度學習等前沿技術,不斷提升網(wǎng)絡輿情分析的精度和實用性,從而更全面地理解和應對動態(tài)變化的輿情環(huán)境。
參考文獻
[1] 趙瑞丹,朱旭.基于爬蟲技術和語義分析的網(wǎng)絡輿情采集系統(tǒng)設計[J].電子設計工程,2021,29(14):56-60.
[2] 林選妙.網(wǎng)絡輿情采集系統(tǒng)在游客滿意度調(diào)查中的應用研究[J].西部旅游,2021(7):13-15.
[3] 杜錦繡,蔡靜.網(wǎng)絡輿情監(jiān)測的數(shù)據(jù)采集與文本分類技術分析[J].無線互聯(lián)科技,2019,16(15):123-124.