張學芳,劉勝全,劉艷
(新疆大學軟件學院,新疆烏魯木齊830008)
當今互聯(lián)網(wǎng)迅速發(fā)展,成為輿情的重要載體,輿情信息具有動態(tài)性、突發(fā)性和跨領域性.輿情分析面向主題展開,針對輿情主題事件進行信息抽取、分析、預測是當前輿情處理的熱點研究領域.將相關的輿情知識形成輿情本體,可持續(xù)支持后期的輿情分析與監(jiān)管.
話題檢測與跟蹤(Topic Detection and Tracking,TDT)的研究多數(shù)以新聞作為語料,主要包含人物、時間、地點、發(fā)生何事這些要素.TDT的主要任務就是話題建模,它是由Allan[1]提出的,Allan引入信息檢索領域的向量空間模型(VSM)進行話題模型構(gòu)建.Yang等人[2]使用Rocchio算法對VSM進行了擴展.Pons-Porrata等人[3]提出了一種新的層次化的文本聚類算法使用語義語言模型.張曉艷[4]和廖君華等人[5]將文本主題轉(zhuǎn)化為無監(jiān)督的LDA模型學習引入到話題建模.
概念抽取是本體構(gòu)建的第一要素,這將依賴于知識抽取等相關技術.在概念抽取方法中主要基于統(tǒng)計、語言學或者二者混合的方法.章成志[6]在2011年采用多層概念度一體化進行概念抽取,此方法需要大量訓練語料.Lee等人[7]在2012年采用以關聯(lián)規(guī)則為主的概念抽取,此方法召回率較低.同時,王衛(wèi)民等人[8]采用半監(jiān)督方法基于種子進行迭代實現(xiàn)概念識別,此方法需人工參與.
以上方法都是針對靜態(tài)的、較規(guī)范的文本進行領域本體的構(gòu)建,若應用到輿情本體構(gòu)建時,沒有考慮輿情信息本身是動態(tài)的、跨領域的,形成的領域本體不能很好的解決輿情本體的知識共享和重用問題.
本文在主題識別過程中,根據(jù)詞在網(wǎng)絡文本流中分布特點進行特征詞動態(tài)抽取,并基于Single-Pass聚類進行主題識別,最終實現(xiàn)面向主題的概念抽?。?/p>
輿情本體定義如下:
定義1輿情本體.輿情本體的構(gòu)建主要是基于主題的概念及關系的抽取,
T={c|c∈C且?c∈Ci,W(c)>δw(δw為設定閾值},對于?ci∈T,?Ci,Cj且Ci?C,Cj?C,使得Ci∩T=Φ且Cj∩T=Φ.
其中C指輿情本體中的概念集合,Ci是與主題相關的概念集合;R指概念間關系集合(relations);T是輿情主題(theme);O屬于應用本體.
本文受LexRank算法[9,10]的啟發(fā),提出面向主題的本體概念抽取方法:通過相似度計算來確定各候選概念間的關聯(lián)關系,若兩個候選概念間的相似度大于一定閾值,則確定它們間有關聯(lián)關系.若某個候選概念與其他候選概念關聯(lián)關系越多,則表明它越重要,即成為核心概念的可能性越大.輿情本體概念抽取流程如圖1所示.
圖1 輿情本體概念獲取流程
本文在輿情本體概念抽取過程中定義了候選概念集為setTcandi={W1,W2,...,Wn},主題核心概念集為setTcore={W1,W2,...,Wm}.無向圖G=
在網(wǎng)絡文本傳播過程中,主題不斷更新,其關聯(lián)話題也不斷地遷移.有效地識別主題內(nèi)容焦點,便于檢測與分析網(wǎng)絡信息.本文基于時間屬性抽取文檔特征詞,并建立空間向量,可更有效地發(fā)現(xiàn)內(nèi)容焦點發(fā)生遷移但屬于同一主題的網(wǎng)絡文本,并將其歸類.
2.1.1 文檔特征詞抽取
網(wǎng)絡文本空間的表示是根據(jù)文檔中的特征詞構(gòu)建向量空間.特征詞是指能夠代表整個文檔核心內(nèi)容的標準化術語.抽取步驟如下:
(1)劃分文檔集中的各文本的標題、正文和發(fā)布時間;
(2)分別對每個文本的標題和正文進行詞性劃分,獲得相應的文檔詞集;
(3)分別計算文檔詞集中各元素在文檔中的詞頻權(quán)重;
(4)根據(jù)焦點詞在文檔流中出現(xiàn)的詞頻高低、分布持續(xù)且持續(xù)時間適中的特點篩選文檔候選詞集;
(5)對特征候選詞的權(quán)值進行排序,設定合理閾值,采用Top方法獲得特征詞集.
2.1.2 主題探測與識別
(1)按照爬取文檔的時間順序依次抽取文檔的特征詞并表示成空間模型;
(2)第一個文檔作為初始主題模板;
(3)后繼輸入的文檔與前面已形成的主題模板進行匹配;
(4)通過特征詞構(gòu)建的向量空間進行文檔相似度評估,選擇相似度最高的主題模板進行主題歸類,并更新原主題模板;
(5)若某文檔與所有主題模板的相似度都小于所設閾值,則將該文檔視為新的主題種子,并構(gòu)建相應的主題模板.
目前多數(shù)方法采用領域相關度和領域一致度進行領域本體概念的提取,沒有考慮到輿情語料的跨領域性,多個主題之間會存在領域知識相互“重疊”問題,所以本文針對此問題,將語義相似度方法和詞頻統(tǒng)計方法相結(jié)合進行面向主題核心概念抽取.
將標注的名詞或短語作為構(gòu)建輿情本體的概念,假設經(jīng)過初次篩選的概念集為
Wi,Wj(其中0
完成概念集setTcandi中各元素的相似度計算,將會形成一個二維數(shù)組,如果相似度大于tsim(為設定的概念相似度閾值),則說明Wi、Wj語義相似,并在它們之間建立關聯(lián),最終形成網(wǎng)狀圖G和一些孤立的點,孤立點為知網(wǎng)數(shù)據(jù)庫中沒有的詞匯或者是一些未登錄詞,如圓環(huán)形.將孤立點另存到集合setTiso中.
根據(jù)無向圖G中各概念的關聯(lián)度計算各個候選概念的重要度WR(W),本文定義候選概念語義權(quán)值WR(W)的計算方法如公式(2)所示:
W,Wi均為候選概念,且它們之間有一定的關聯(lián)關系.WR(W)為候選概念W的權(quán)值,WR(Wi)為概念集setTcandi中第i個元素的權(quán)值,N(Wi)表示與Wi有直接關聯(lián)的候選概念的總個數(shù),d為調(diào)節(jié)因子.
通過以上方法進行候選概念的語義權(quán)值計算并進行排序,結(jié)合詞頻統(tǒng)計來衡量候選概念在文檔中的權(quán)重.簡單的詞頻統(tǒng)計,可提高概念抽取的召回率,但準確率會偏低;有些概念與主題內(nèi)容有關但含義較為寬泛,且它們的語義權(quán)值較低,所以本文采用TF-TDF方法計算候選概念的詞頻權(quán)值.
定義2 setTlimt表示知網(wǎng)中可以識別的詞,但權(quán)值小于閾值t的概念集:
setTlimt=setTcandi-setTiso且WR(Wi) 定義3 核心概念集setTcore,即為構(gòu)建輿情本體的概念集. 輿情本體核心概念的抽取如算法2.1所示. 算法2.1核心概念抽取 輸入:排序后的概念集setTcandi,概念集setTiso,setTlimt 輸出:核心概念集setTcore 1:for(inti=0;i 2:Wi∈setTcandi 3:setTcore=setTcore∪{Wi} 4:for each?Wi∈setTiso 6:ifWi(d)>f1//setTiso中概念詞頻Wf(i),詞頻閾值f1 7:setTcore=setTcore∪{Wi} 8:for each?Wi∈setTlimt 10:ifWi(d)>f2 11:setTcore=setTcore∪{Wi} 12:setT3=setTcandi—setTcore 13:for each?Wi∈setTcore 14:for each?Wj∈setT3 15:ifWj包含Wi//概念包含關系 16:setTcore=setTcore∪{Wj}. 在核心概念集setTcore中,對排序后的概念采用topN的方法進行主題詞抽?。?/p> 基于同一主題的文本語料庫在不斷地更新變化,概念集也在不斷地更新,將新增入到核心概念集中的概念進一步篩選,過濾原概念集已有的同義詞. 實驗數(shù)據(jù)源于搜狐新聞、Tencent論壇和新浪微博,主要與環(huán)境污染、食物中毒、飛機失事等主題相關.收集時間為2015年9月-2015年12月,共3 183篇文本. 采用中科院提供的分詞系統(tǒng)對實驗語料進行詞性劃分和標注,然后將本文的基于時間屬性進行特征詞提取,并與經(jīng)典的TF-IDF方法進行特征詞提取的性能對比,表1為主題識別階段文本特征詞提取結(jié)果.本文選擇準確率、召回率和F值分別對抽取的特征詞進行衡量. 表1 網(wǎng)絡文本特征詞提取結(jié)果實驗對比 由表1看出本文方法可更有效地提取網(wǎng)絡文本特征詞,根據(jù)提取的特征詞構(gòu)建文檔空間模型并進行主題識別與聚類.選擇標注后的名詞或者短語作為候選概念集,組成概念矩陣,相似度計算概念間的關聯(lián)關系. 對環(huán)境污染事件中的不同文檔按文中第三部分的概念抽取設計模塊進行實驗. (1)概念間的相似度取值在不斷變化時,概念的權(quán)值排序也在不斷變化,當tsim=0.18時,專家標注的與主題相關的核心概念排在最前面的數(shù)量最多,如圖2. 圖2 概念相似度閾值 (2)由于文檔長短不同,抽取概念數(shù)也不同,這樣標注的核心概念也不同,一般短文本中核心概念數(shù)較少.實驗發(fā)現(xiàn),無論將長文本還是短文本作為語料庫,根據(jù)權(quán)值排序后的核心概念大多數(shù)分布在所有概念數(shù)的前三分之一,所以本文將排序后的詞或者短語,取其前三分之一作為核心概念入選到setTcore中; (3)G圖中的孤立點一般都是組合詞匯或者未登錄新詞,如生態(tài)破壞、PM等,但當這些新詞或者短語在文中出現(xiàn)比較集中,而且都是與環(huán)境污染有關的核心詞,所以本文設定它們的詞頻閾值較低,經(jīng)過反復試驗將f1設置為0.2; (4)入選的詞如環(huán)境,在知網(wǎng)詞匯庫中只解釋為實體、情況,比較粗略,語義比較廣泛,在與其他詞匯進行語義相似度計算時相似度值較低,但它在文本中出現(xiàn)頻率較高,根據(jù)TF-IDF計算的權(quán)值也比較高,所以本文設定f2=0.5; (5)經(jīng)過試驗發(fā)現(xiàn),核心概念集setTcore中權(quán)值較大的一些概念基本上能表達主題的核心內(nèi)容,根據(jù)大量實驗數(shù)據(jù)衡量,本文將參數(shù)δw設置為0.3,主題相似度閾值εt設置為0.5. 本文采用經(jīng)典的領域相關度和領域一致度(DR-DC)方法進行實驗對比,并通過準確率、召回率和F值對抽取的概念進行衡量.實驗結(jié)果如表2. 表2 環(huán)境污染事件實驗結(jié)果對比 從表2中可以看出本文方法比DR-DC方法的準確率、召回率和F值分別提高8.3%、26.1%和18%. 實驗發(fā)現(xiàn),在面向環(huán)境污染事件中提取的核心概念有“法律法規(guī)”、“公眾”、“經(jīng)濟”等詞,可知該事件與法律、民眾有關,但用領域相關度和領域一致度方法不能將這些詞提取出來,原因是這些詞在文本中出現(xiàn)頻率低且也在其他主題中出現(xiàn),所以不能有效提取,這同時也驗證了本文中的概念抽取方法. 針對輿情信息的動態(tài)性、跨領域性、面向主題等特點,目前已有的領域本體學習方法難以適應輿情本體知識的自動構(gòu)建.本文采用信息爬取技術收集熱點輿情文本信息,根據(jù)構(gòu)建模型自動識別主題進行歸類,并對識別后的主題文本提取名詞性詞匯或者短語作為候選概念集;用語義相似度算法進行本體候選概念的抽取,結(jié)合詞頻統(tǒng)計方法對核心概念抽取,實驗取得較好的結(jié)果.本體概念抽取為本體關系挖掘提供基礎支持,抽取的概念為本體構(gòu)建提供來源參考.下一步工作是利用抽取的輿情本體概念,輔助抽取輿情本體概念間的關系.2.4 主題詞提取及合并
3 實驗過程與結(jié)果分析
4 結(jié)束語