余宏
(豫章師范學院數(shù)學與計算機學院,南昌 330103)
隨著網(wǎng)絡技術的進步,特別是移動互聯(lián)網(wǎng)應用的普及,使得社會生活得各個方面都與互聯(lián)網(wǎng)息息相關。中國互聯(lián)網(wǎng)絡信息中心(CNNIC)2018年1月發(fā)布的統(tǒng)計信息顯示:截至2017年12月,中國網(wǎng)民規(guī)模達7.72億,其中移動手機用戶人數(shù)達7.53億,互聯(lián)網(wǎng)應用普及率達到55.8%。與傳統(tǒng)媒體相比,新聞網(wǎng)站、博客、論壇、微信等網(wǎng)絡媒介交互性特征突出,特別是隨著移動互聯(lián)網(wǎng)應用的迅速普及,社會民眾參與網(wǎng)絡言論傳播變得前所未有的便利,互聯(lián)網(wǎng)成為當今社會重要的輿情載體。只有及時把握住輿情信息,了解和掌握民眾的訴求和意見,對初露端倪的不良輿論苗頭進行有效抑制,才能發(fā)揮前瞻性,掌握網(wǎng)絡輿論引導的主動權。而傳統(tǒng)對輿情的人工處理方法對于網(wǎng)絡上海量增長的輿情信息來說是不適用的,必須借助信息技術手段對網(wǎng)絡上的輿情信息進行快速而有效的采集、分析并生成輔助決策的知識。
輿情信息挖掘的任務主要包括輿情熱點話題檢測、話題追蹤、輿情觀點分析,這些任務主要通過輿情信息聚類和分類來實現(xiàn)。輿情信息聚類和分類的效率和準確程度,對輿情熱點話題檢測和追蹤有著重要的影響?,F(xiàn)有的輿情監(jiān)測系統(tǒng)在進行輿情分析時大多采用基于統(tǒng)計和特征關鍵詞的方法,由于未考慮輿情文本中的語義信息往往導致分析結果不夠準確。本文將本體論和語義計算技術引入網(wǎng)絡輿情挖掘以提高輿情挖掘系統(tǒng)的性能。
基于語義的主題網(wǎng)絡輿情挖掘系統(tǒng)主要包括網(wǎng)絡輿情數(shù)據(jù)采集、領域本體庫的構建、輿情數(shù)據(jù)預處理、語義特征抽取轉換、輿情挖掘等關鍵功能。
(1)網(wǎng)絡輿情信息采集模塊
網(wǎng)絡輿情信息的來源主要包括:網(wǎng)絡論壇、新聞網(wǎng)站、博客與微博等,網(wǎng)絡輿情信息在表現(xiàn)形式上包括文字、圖片、音視頻,其中以文字信息為主。
由于網(wǎng)絡輿情管理者往往只關注某一領域的輿情信息,因此,在對網(wǎng)絡輿情進行采集時,根據(jù)用戶定制的某個主題利用聚焦爬蟲有針對性的爬取主題相關的網(wǎng)頁信息。
(2)領域本體庫的構建模塊
本體是領域概念模型的顯式表示。本體通過它的概念集及其所處的上下文來刻畫概念的內(nèi)涵。本體的目標是獲取、描述和表示相關領域的知識,提供對該領域知識的共同理解。
在輿情分析中,本體的最終目標是精確地表示那些隱含的或者不明確的信息。通過應用本體來消除同詞異義、多詞一義及詞義模糊等現(xiàn)象,從而完成對領域知識清晰、準確、完整的定義與描述。
在對主題網(wǎng)絡輿情分析中,所涉及的知識包括通用知識和主題相關的領域知識。目前在國內(nèi)外已有許多現(xiàn)成的本體庫可以免費獲取,如國內(nèi)的知網(wǎng)庫(HowNet),國外的常識知識本體OpenCye等。我們在做主題網(wǎng)絡輿情分析的本體應用時,通用知識本體可以通過復用現(xiàn)有的知識庫如HowNet來獲得,而與輿情主題密切相關的領域本體通過本體構建工具Protégé進行構建。
(3)數(shù)據(jù)預處理與語義特征轉換模塊
傳統(tǒng)上通過網(wǎng)絡爬蟲獲得的網(wǎng)絡輿情信息經(jīng)過分詞處理后,依據(jù)詞袋模型生成文本特征向量,該方法忽略了文本特征項之間的語義關系、存在同義詞和一詞多義等問題。將文本關鍵詞映射到本體中的類、屬性、實例等相關項上,將被映射到的不同層次的概念作為主題網(wǎng)絡輿情文本信息的語義特征,可以解決上述問題并提高相似度計算的準確程度。
(4)輿情挖掘模塊
在前面將文本特征項映射為概念之后,該模塊涉及如何計算兩個概念之間的語義相似度,并以此為基礎利用分類和聚類算法進行網(wǎng)絡輿情挖掘處理。
通過對系統(tǒng)各個模塊的分析,本文將基于語義的網(wǎng)絡輿情挖掘系統(tǒng)模型構建如圖1所示:
圖1 基于語義的主題網(wǎng)絡輿情挖掘系統(tǒng)模型框架
主題網(wǎng)絡輿情分析主要是對當前互聯(lián)網(wǎng)上主題方面的熱點話題進行內(nèi)容分析,主要采用文本聚類和分類技術進行話題的檢測和跟蹤。傳統(tǒng)的文本聚類和分類方法通常將文檔用關鍵詞特征向量來表示,文檔D1和文檔D2之間的內(nèi)容相關度通常用表示文檔的兩向量之間夾角的余弦值表示。該方法沒有考慮深層次的語義信息,例如不同關鍵詞表示相同的概念、相關的關鍵詞共現(xiàn)表示同一個主題等,導致聚類和分類結果的準確性大大降低。因此,將基于本體的主題網(wǎng)絡輿情模型引入聚類和分類過程中,以概念語義相似度為核心進行主題網(wǎng)絡輿情信息的聚類和分類,能夠提高輿情挖掘的效率和挖掘結果的精確度。
(1)語義特征抽取
語義(Semantic)即數(shù)據(jù)的含義,是對數(shù)據(jù)符號的解釋。語義特征,就是指能夠在語義層面上解釋文本內(nèi)容且定義規(guī)范的術語詞匯。本體中的類、屬性、實例以及關系等概念可以作為網(wǎng)絡輿情信息文本的概念特征,通過這些概念代替文本關鍵詞來描述文本,進而根據(jù)概念之間的相關度來計算概念所描述的文本之間的相似度,該方法可用于解決“一詞多義”、“異詞同義”等問題,有利于提高文檔相似度計算的準確度。
主題網(wǎng)絡輿情語義特征抽取分成兩個步驟:第一步是基于關鍵詞的輿情信息特征項選擇,主要是根據(jù)TF-IDF方法選取文檔中權重較大的N個特征詞形成一個N維特征向量來表示文檔;第二步是在關鍵詞特征項選擇的基礎上利用本體和語義詞典進行語義特征轉換,其基本思想是:采用相應的匹配算法將文本特征關鍵詞與本體和語義詞典中的概念進行匹配,如果匹配成功則用概念代替關鍵詞特征項,并將其加入概念特征集合中,如果匹配不成功則保留該關鍵詞特征項另行處理,最后將算法匹配出的概念特征集合中的相同項進行合并,將權值較高的概念特征項保留作為網(wǎng)絡輿情文本的語義特征。其中的核心是將文本關鍵詞特征項映射為概念特征項,匹配算法為算法1的描述。
算法1文本關鍵詞映射為本體概念算法
輸入:文檔關鍵詞特征項集K={k1,k2,k3,…kn};領域本體和Hownet通用本體;
輸出:文檔的概念特征項集C={c1,c2,c3,…cm}及未匹配的關鍵詞特征向量K'={k1,k2,k3,…kt}
Begin:
1.讀取關鍵詞ki,將其與領域本體和通用本體HowNet中的概念、屬性或實例進行匹配;
2.ifki與本體庫中的類ci匹配,則將ci加入概念特征項集合C;
3.else ifki與本體庫中的屬性aj匹配,則將aj所屬的概念ci加入概念特征項集合C;
4.else ifki與本體庫中的實例Ik匹配,則將實例Ik的最低下位概念ci加入概念特征項集合C;
5.else將未能匹配的ki加入未匹配的關鍵詞特征集合K';
6.將概念特征集合C中的相同項進行合并,去除權值較低的概念特征項,保留權值較高的概念特征項。
End.
(2)特征項權值計算
典型的權值計算方法為由Salton提出的詞頻-逆文檔頻率(TF-IDF)計算法,其基本思想為:一個詞的重要性與它在該文檔中出現(xiàn)的頻率成正比,與它在整個文檔集中包含該詞匯的文檔數(shù)目成反比。TF-IDF計算方法為:
其中,w(i,j)為文本特征項ti在文檔Dj中的權重值,tfij表示文本特征項ti在文檔Dj中出現(xiàn)的頻率,idfj表示特征項ti的逆文檔頻率。
逆文檔頻率的計算方法為:
其中,N為文檔集中的文檔總數(shù),nj表示包含特征項ti的文檔數(shù)。
因此,綜合上述兩式,詞頻-逆文檔頻率(TF-IDF)典型的計算公式為:
我們在進行主題網(wǎng)絡輿情分析時,屬于某個主題領域內(nèi)的典型詞應該給予更高的權值。本文的特征項權值計算以TF-IDF為基礎,對文本關鍵詞特征項ki,如果ki未能與領域本體進行匹配的特征項,其權重值w(ki)按上述公式(3)計算。如果文本關鍵詞特征項kj能與主題領域內(nèi)本體庫中的概念ck進行匹配,關鍵詞特征項kj則轉換為概念特征項ck,ck的權重值w(ck)將在kj的TF-IDF計算方法得出的結果的基礎進行適當增加權重。由于各個關鍵詞特征項的tfidf值的大小波動比較大,因此,對關鍵詞特征項kj所轉換成的概念特征項ck的權值增加采用相對值,而非絕對值。實驗顯示,關鍵詞特征項kj轉換成概念特征項ck后,ck的權值w(ck)在 kj的權值w(ki)基礎上提升50%左右效果較好,這樣既能突出領域本體范圍內(nèi)的特征詞,同時又不會大幅度影響數(shù)據(jù)的平衡。為區(qū)分關鍵詞特征項kj與本體庫中的類、屬性、實例等不同層次的項進行匹配產(chǎn)生的概念特征項ck重要性,ck的權值w(ck)在kj的權值w(ki)基礎上提升幅度不同,如表1所示。
表1 概念特征項的權值計算
(3)文本表示
在基于本體的主題網(wǎng)絡輿情信息語義特征抽取過程中,由于受本體知識覆蓋范圍等因素的限制,導致部分關鍵詞特征項不能轉化為概念特征,但這部分特征項對輿情信息的聚類和分類結果的準確度也有一定影響,因此,本文將輿情文本D表示為概念特征向量VC和未匹配的關鍵詞特征向量VK'。
其中,ki是第i個關鍵詞特征項,w(ki)是關鍵詞特征項ki的權重;cj是第j個概念特征項,w(cj)是概念特征項cj的權重。
對用向量空間模型(Vector Space Model,VSM)表示的文檔,可通過計算向量之間的相似性來度量文檔間的相似性,將空間上的相似度轉化為語義上的相似度。VSM模型中度量兩個文本間的相似度,常常通過計算兩個文本向量間的余弦夾角來表示。相比距離度量,余弦相似度更加注重兩個向量在方向上的差異,計算公式如下:
其中,X,Y為兩個文本向量,xi和yi分別為向量X,Y的分量。
本文將一個輿情文檔D由概念特征向量VC和未匹配的關鍵詞特征向量VK'表示。即D={VC,VK'},其中:VC和VK'分別如公式(4)和公式(5)所示。為了體現(xiàn)關鍵詞向量和本體概念向量對輿情文檔相似性的貢獻度不同,在計算時,我們將這兩個向量分開進行計算。對兩個輿情文檔 D1和 D2,其概念相似度CSim(D1,D2)和關鍵詞相似度KSim(D1,D2)分別為:
其中,wD1(ki)和wD2(ki)分別表示文檔D1和D2未匹配本體的關鍵詞向量第i個分量關鍵詞特征項的權值;wD1(ci)和wD2(ci)分別表示文檔D1和D2本體概念向量第i個分量概念特征項的權值;n和m分別表示未匹配本體的關鍵詞向量和本體概念向量的維度。
輿情文檔D1和D2的總相似度TSim(D1,D2)的計算公式為:
其中,β為調(diào)節(jié)因子,用于調(diào)節(jié)輿情文檔概念語義特征相似度和未匹配的關鍵詞特征相似度對文檔相似度的影響。
本文在分析現(xiàn)有的網(wǎng)絡輿情挖掘系統(tǒng)存在的不足的基礎上,將本體語義引入網(wǎng)絡輿情挖掘系統(tǒng),通過引入本體,構建了基于語義的主題網(wǎng)絡輿情挖掘系統(tǒng)模型;重點研究了通過本體語義信息對網(wǎng)絡輿情文本進行語義特征抽取和轉換、對網(wǎng)絡輿情文本融合語義信息建模并進行混合相似性計算。但是當前對網(wǎng)絡輿情信息的挖掘研究主要集中在輿情文本信息上,對圖像、視頻等媒體所包含的網(wǎng)絡輿情信息的挖掘有待進一步研究。