翟東海,崔靜靜,聶洪玉,于 磊,杜 佳
(1.西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都 610031;2.西藏大學(xué)工學(xué)院,拉薩 850000)
敏感話題檢測(cè)是網(wǎng)絡(luò)輿情檢測(cè)技術(shù)中的重要子課題,通過敏感話題檢測(cè)能夠?qū)⒕W(wǎng)絡(luò)中涉及的暴力、色情和非法煽動(dòng)等信息及時(shí)發(fā)現(xiàn)并監(jiān)管,對(duì)于維護(hù)網(wǎng)絡(luò)健康發(fā)展和社會(huì)穩(wěn)定有著極其重要的影響。因此,敏感話題的檢測(cè)對(duì)于及時(shí)把握輿情動(dòng)態(tài)、積極引導(dǎo)健康的社會(huì)輿論有著重大的作用和意義。文獻(xiàn)[1]提出的話題識(shí)別與跟蹤算法能夠發(fā)現(xiàn)和追蹤文本流中的重要信息;文獻(xiàn)[2]提出一種基于衰老理論(aging theory)的熱點(diǎn)話題檢測(cè)方法,可以有效發(fā)現(xiàn)一段時(shí)間內(nèi)BBS上的熱點(diǎn)話題;文獻(xiàn)[3]提出和實(shí)現(xiàn)的雙語Web內(nèi)容過濾智能分類引擎,能夠識(shí)別包含色情信息的中文和英文網(wǎng)頁(yè)。文獻(xiàn)[4]在動(dòng)態(tài)知識(shí)庫(kù)中構(gòu)建了一顆動(dòng)態(tài)層次語義樹,隨著敏感文本的不斷到來,動(dòng)態(tài)更新語義樹?,F(xiàn)階段國(guó)內(nèi)外對(duì)敏感話題檢測(cè)的研究雖然已經(jīng)取得了一定的進(jìn)展,但是完全針對(duì)敏感話題檢測(cè)的算法還有待完善,精確度也有待提高。
敏感話題通常包含態(tài)度傾向性,且具有一定的先驗(yàn)知識(shí),因此,如何有效利用這些先驗(yàn)知識(shí)來判斷網(wǎng)絡(luò)文本的敏感性是敏感話題檢測(cè)的研究難點(diǎn)和熱點(diǎn)。在充分利用條件隨機(jī)場(chǎng)強(qiáng)大的知識(shí)擬合能力的基礎(chǔ)上,本文提出了一種基于條件隨機(jī)場(chǎng)的敏感話題檢測(cè)模型。首先介紹敏感話題類別和待測(cè)文檔的表示方式,然后對(duì)敏感話題檢測(cè)的條件隨機(jī)場(chǎng)模型進(jìn)行研究,在此基礎(chǔ)上實(shí)現(xiàn)待測(cè)文檔的的敏感性標(biāo)注。
在文獻(xiàn)[4]中,敏感話題被定義為不利于社會(huì)穩(wěn)定的言論,一般包括暴力類、色情類和其他。敏感話題通常具有一定的先驗(yàn)知識(shí),并且包含態(tài)度傾向性的特點(diǎn),因此,敏感話題檢測(cè)方法不同于傳統(tǒng)的話題檢測(cè)方法[5]。條件隨機(jī)場(chǎng)是一種概率圖模型,具有強(qiáng)大的知識(shí)擬合能力[6],可以將敏感話題的多個(gè)特征聯(lián)合考慮,實(shí)現(xiàn)網(wǎng)絡(luò)中敏感文本的快速發(fā)現(xiàn)。本文中敏感話題檢測(cè)主要包括2個(gè)部分,網(wǎng)絡(luò)文本的表示和敏感文本的識(shí)別,針對(duì)敏感話題已有的先驗(yàn)知識(shí),結(jié)合CRFs模型,本文提出了基于CRFs的敏感話題檢測(cè)模型。在獲取網(wǎng)絡(luò)文本后,結(jié)合敏感詞匯庫(kù)中的種子敏感詞完成網(wǎng)絡(luò)文本的表示,然后通過訓(xùn)練好的基于CRFs的敏感話題識(shí)別模型來對(duì)文本的敏感度進(jìn)行估計(jì),當(dāng)敏感度的可信度超過閾值θ時(shí),就可以判定該文本是否為敏感話題以及其所屬敏感話題的類別。本文的整體實(shí)現(xiàn)框圖如圖1所示。
圖1 基于CRFs的敏感話題識(shí)別框圖
對(duì)通過特征提取后,在本文的CRFs敏感話題識(shí)別模型中,將待檢測(cè)的文本表示為CRFs模型中的觀察序列進(jìn)行處理。在眾多話題表示方法中,VSM(Vector Space Model)和 TF-IDF(Term Frequency Inverse Document Frequency)是一種非常有效的話題表示方式。由于敏感話題通常會(huì)涉及一些固有的敏感詞匯,如“上訪”、“拆遷”等,和一些包含態(tài)度傾向性的詞匯,如“邪惡”、“屠殺”等,因此在對(duì)網(wǎng)絡(luò)文本進(jìn)行話題表示時(shí),需要盡量將一些重要的敏感詞匯和能代表作者態(tài)度的傾向詞提取到特征詞中。文獻(xiàn)[7]在傳統(tǒng)的TF-IDF公式中增加了傾向性因子來提高特征抽取的效率,本文借鑒這種思想,將該傾向性因子改造為敏感性因子。這樣,文本中第i個(gè)詞項(xiàng)(itemi)的權(quán)重(weighti)計(jì)算公式如下:
weighti=TF(itemi)·lb(IDF(itemi))·γi(1)其中,TF為詞頻;IDF為逆文檔頻率;γi為敏感性因子。文檔中的第i個(gè)詞項(xiàng)的敏感性因子γi被定義為該詞語與敏感詞匯庫(kù)中各個(gè)種子詞的點(diǎn)互信息(Pointwise Mutual Information,PMI)的平均值:
其中,N為敏感詞匯庫(kù)中種子敏感詞的總數(shù)。在該計(jì)算方法中,最主要的是計(jì)算詞語間的關(guān)聯(lián)度,即通過計(jì)算特征詞與敏感詞匯庫(kù)中種子詞的點(diǎn)互信息PMI得到:
其中,p(word1&word2)表示word1和word2在語料中同時(shí)出現(xiàn)的概率;p(word1),p(word2)分別表示word1和word2在語料中獨(dú)立出現(xiàn)的概率。
待檢測(cè)文本d中的每個(gè)特征詞項(xiàng)itemi由具有3個(gè)屬性的三元組表示,這3個(gè)屬性值包括該詞項(xiàng)權(quán)重(weighti)、敏感性(polarityi)、詞性(part-ofspeech,posi)。其中,敏感性(polarityi)的值等同于敏感性因子 γi,詞性(posi)的獲得方法參見文獻(xiàn)[8]:
將所求得的待測(cè)文本d的特征項(xiàng)項(xiàng)依據(jù)其weight值的大小降序排列,并從中選取n個(gè)特征項(xiàng)組成一個(gè)特征詞項(xiàng)序列用來表示待測(cè)文本:
在CRFs敏感話題檢測(cè)模型中,通過特征選擇的方法,結(jié)合敏感詞匯庫(kù),選取敏感文本中區(qū)分能力較強(qiáng)的敏感特征詞項(xiàng),從而將敏感話題的類別表示為CRFs模型中的狀態(tài)序列。根據(jù)描述內(nèi)容的不同將敏感話題庫(kù)中的敏感話題分為若干類別{case1,case2,…,casek},并為每一類別選擇一組最能反映該類別特性的特征詞項(xiàng),作為其狀態(tài)序列:
經(jīng)過3.1節(jié)和3.2節(jié)的步驟后,CRFs模型中的觀察節(jié)點(diǎn)和狀態(tài)節(jié)點(diǎn)就與待檢測(cè)文檔和敏感話題類別建立了對(duì)應(yīng)關(guān)系。然而,CRFs中另一個(gè)非常重要的任務(wù)是如何針對(duì)特定的需求為模型選擇合適的特征集合,并用集合中的特征來構(gòu)造特征函數(shù),用于敏感話題類別判定。
在構(gòu)造特征函數(shù)之前,先在訓(xùn)練集中構(gòu)造觀察值序列即樣本文檔d′的真實(shí)特征集合b(item′x,i),所有i位置觀察值item′x的真實(shí)特征。每個(gè)特征函數(shù)表示為觀察序列真實(shí)特征b(item′x,i)集合中的一個(gè)元素,并為當(dāng)前狀態(tài)(狀態(tài)特征函數(shù))或前一個(gè)狀態(tài)和當(dāng)前狀態(tài)(轉(zhuǎn)移特征函數(shù))定義一個(gè)特定的值(通常用0和1來表示)。例如狀態(tài)特征函數(shù)抽取的具體過程如下:首先判斷訓(xùn)練集中樣本文檔 d′={item′1,item′2,…,item′n}中的第 i個(gè)特征詞項(xiàng)是否具有敏感特征,如人名;然后再判斷該特征項(xiàng)是否為敏感詞匯庫(kù)中的種子詞:
4.1.1 關(guān)聯(lián)度特征函數(shù)
敏感詞匯的統(tǒng)計(jì)特征表明,文本的特征詞表示序列中包含敏感詞匯越多,該文本越有可能討論敏感話題[9],因此,待測(cè)文檔d屬于某一敏感話題類別的判定問題就可以轉(zhuǎn)化為待測(cè)文檔中的特征詞與敏感話題類別中特征詞的相關(guān)度判定問題。而如果2個(gè)詞在語料庫(kù)中所處的語言環(huán)境總是非常相似,則認(rèn)為這2個(gè)詞的相關(guān)度很大。這樣,可以將詞間關(guān)聯(lián)度作為評(píng)估文檔和敏感話題類別相關(guān)度的一個(gè)特征。在CRFs模型中,待測(cè)文檔和敏感話題類別中特征詞之間的關(guān)聯(lián)度特征函數(shù)形式如下所示:
其中,ε為詞項(xiàng)間的關(guān)聯(lián)度閾值,當(dāng)2個(gè)詞項(xiàng)之間的關(guān)聯(lián)度超過一定的閾值時(shí)就可以判定它們是相關(guān)的;cor(·)為待測(cè)文檔中的特征詞與敏感話題類別中的特征詞之間的關(guān)聯(lián)度,計(jì)算方法如下:
其中,分子部分為待測(cè)文檔中特征詞與敏感話題類別的某個(gè)特征詞的互信息;分母表示待測(cè)文檔中特征詞與敏感話題類別的所有特征詞互信息的總和。
4.1.2 詞項(xiàng)的屬性特征函數(shù)
一般的,同一個(gè)詞的不同詞性會(huì)使該詞具有不同的意義和不同的敏感性強(qiáng)度。通常情況下,命名實(shí)體和動(dòng)詞成為敏感性詞匯的可能性要大于其他詞性,同時(shí),情感詞匯也是敏感詞匯的一個(gè)重要組成部分。因此,就可以利用詞語的詞性和它的情感極性以及在文本中的位置來構(gòu)造屬性特征函數(shù)。本文中用到的詞項(xiàng)屬性特征如表1所示。
表1 詞項(xiàng)屬性特征
在待測(cè)文檔特征詞序列的敏感性標(biāo)注過程中,前一詞項(xiàng)的敏感性標(biāo)注對(duì)當(dāng)前詞項(xiàng)的敏感性標(biāo)注是有影響的,因此,本文定義了詞項(xiàng)間敏感性標(biāo)注的轉(zhuǎn)移特征函數(shù),例如,當(dāng)觀察序列中的當(dāng)前詞項(xiàng)xt在中國(guó)機(jī)構(gòu)名詞典中,并且狀態(tài)序列中前一詞項(xiàng)的敏感性標(biāo)記yi-1為極性詞,當(dāng)前詞項(xiàng)的敏感性標(biāo)記yi為敏感機(jī)構(gòu)體時(shí),特征函數(shù)應(yīng)取值為1。本文中用到的轉(zhuǎn)移特征模板如表2所示。
表2 轉(zhuǎn)移特征函數(shù)
條件隨機(jī)場(chǎng)是一種用于在給定輸入節(jié)點(diǎn)值時(shí)計(jì)算指定輸出節(jié)點(diǎn)值的條件概率的無向圖模型,能夠較好地解決序列標(biāo)記問題。對(duì)于輸入序列x和輸出序列y,線性鏈?zhǔn)綏l件隨機(jī)場(chǎng)模型可以被定義為[10]:
其中,tk是轉(zhuǎn)移特征函數(shù),對(duì)應(yīng)于 CRFs模型中邊〈yi-1,yi〉上的特征;sk是狀態(tài)特征函數(shù),對(duì)應(yīng)于 CRFs模型中第i個(gè)位置上輸入-輸出節(jié)點(diǎn)的特征;vk和uk是特征函數(shù)的權(quán)值,通常將tk和sk寫為統(tǒng)一形式fk;Z(x)是歸一化因子。CRFs可以將模型中各元素自身的屬性特征以及各元素之間的長(zhǎng)距離依賴特征和重疊特征進(jìn)行量化運(yùn)用到模型中,因此,CRFs有強(qiáng)大的特征擬合能力,通過利用領(lǐng)域知識(shí),能夠獲得全局最優(yōu)標(biāo)記[11]。
在本文中,待測(cè)文檔中的每個(gè)特征項(xiàng)被依概率標(biāo)注為敏感話題類別中的詞項(xiàng),其中,最大概率的狀態(tài)序列采用Viterbi算法[12]獲得。在Viterbi算法中,需要建立詞項(xiàng)之間的關(guān)系矩陣,如某類別的關(guān)系矩陣見表3,aij表示第i個(gè)詞和第j個(gè)詞之間的關(guān)系(如上下文關(guān)系),若2個(gè)詞之間無任何關(guān)系,則aij=0。
表3 詞項(xiàng)之間的轉(zhuǎn)移關(guān)系
CRFs模型的訓(xùn)練[11]是采用對(duì)數(shù)最大似然估計(jì)從訓(xùn)練集中估計(jì)每個(gè)特征函數(shù)的權(quán)重參數(shù)Λ={λ1,λ2,…,λn},對(duì)于訓(xùn)練集 D={〈x,y〉(1),〈x,y〉(2),…,〈x,y〉(i),…,〈x,y〉(N)},似然函數(shù)如下:
其中,第2項(xiàng)為高斯先驗(yàn)值,是一個(gè)用于平滑處理的特征參數(shù),其方差為σ2。本文使用L-BFGS(Limited Memory Broyden-Fletcher-Goldfarb-Shanno)算 法 實(shí)現(xiàn)對(duì)目標(biāo)函數(shù)的優(yōu)化求解,L-BFGS可以被簡(jiǎn)單地看作一個(gè)黑盒優(yōu)化過程,僅需要提供似然函數(shù)的一階導(dǎo)數(shù),則訓(xùn)練集的對(duì)數(shù)似然估計(jì)的一階導(dǎo)數(shù)為:
其中,Ck(y,x)是表示y中各位置i上的特征函數(shù)fk的和,上式中前2項(xiàng)的差對(duì)應(yīng)于特征的經(jīng)驗(yàn)期望值與模型的期望值的差[fk]-EΛ[fk]N,第3 項(xiàng)為高斯先驗(yàn)值的導(dǎo)數(shù)。
設(shè)話題類別集合 case={case1,case2,…,casen},按上文所述建立CRFs的敏感話題檢測(cè)模型,如圖2所示,具體檢測(cè)方法如下:
(1)獲取待測(cè)文檔,并表示為觀察序列d={item1,item2,…,itemn},作為 CRFs模型的輸入。
(2)在給定輸入序列(觀察序列)的條件下,計(jì)算每一個(gè)標(biāo)記序列(狀態(tài)序列)的概率,將具有最大概率的標(biāo)記序列對(duì)應(yīng)的類別標(biāo)簽作為待檢測(cè)文檔的候選話題類別casej。
(3)判斷各候選話題類別對(duì)應(yīng)的概率值,若大于閾值θ,則將該文檔歸入概率值最大的敏感話題類別中,若小于閾值,則認(rèn)為該文檔不是敏感話題。
圖2 文檔敏感類別標(biāo)記流程
如果待測(cè)文檔d的候選話題類別不止一個(gè),則計(jì)算文檔d與各候選話題類別特征向量之間的Hellinger距離,并將文檔那個(gè)d歸入距離最短的那個(gè)類別。
實(shí)驗(yàn)采集2011年8月-2012年3月的國(guó)內(nèi)各大新聞網(wǎng)站的100000個(gè)新聞網(wǎng)頁(yè)(大多數(shù)是論壇和博客的帖子)作為本文實(shí)驗(yàn)的語料庫(kù),所采集的數(shù)據(jù)信息包括標(biāo)題、內(nèi)容、發(fā)布時(shí)間等,如表4所示。敏感話題類別采用 ODP(Open Directory Project)網(wǎng)站(www.dmoz.org)定義的16個(gè)大的主題類別,包含暴力、色情等,訓(xùn)練數(shù)據(jù)集是從語料庫(kù)中選取的包含敏感性話題的20000個(gè)網(wǎng)頁(yè)文本,它們被標(biāo)注為16個(gè)敏感話題類別。
表4 詞項(xiàng)屬性特征列表
為了測(cè)試本文方法的有效性,仍采用在線網(wǎng)頁(yè)作為測(cè)試數(shù)據(jù)集,抽取2012年4月-2012年8月的100000個(gè)網(wǎng)頁(yè)作為測(cè)試數(shù)據(jù)集。
在本文中,敏感話題檢測(cè)的評(píng)測(cè)標(biāo)準(zhǔn)采用信息檢索中廣泛使用的準(zhǔn)確率(Precision)和召回率(Recall)及 F 度量值[13],算法如下:
其中,準(zhǔn)確率Precision是正確標(biāo)記文本和標(biāo)記文本總數(shù)的比值;召回率Recall是正確標(biāo)記文本和實(shí)際正確標(biāo)記文本總數(shù)的比值。
其中,tp為屬于敏感話題且被正確標(biāo)記的文本數(shù);fp為不屬于敏感話題但被標(biāo)記的文本數(shù),即錯(cuò)誤標(biāo)記數(shù);fn為屬于敏感話題但未被標(biāo)記出的文本數(shù),即漏檢文本數(shù)。
為了能夠客觀地評(píng)價(jià)本文提出的基于CRFs的敏感話題檢測(cè)模型的效果,根據(jù)訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集的不同關(guān)系,本文實(shí)驗(yàn)分別采用了封閉測(cè)試和開放測(cè)試來進(jìn)行評(píng)測(cè),并且以貝葉斯模型為對(duì)比實(shí)驗(yàn),雙方均以敏感詞作為文本的特征項(xiàng)。據(jù)此,本文一共做了4組敏感話題檢測(cè)實(shí)驗(yàn),前2組為封閉測(cè)試的基于CRFs的敏感話題檢測(cè)模型與貝葉斯模型2種方法的測(cè)試結(jié)果,后2組為開方測(cè)試的基于CRFs的敏感話題檢測(cè)模型與貝葉斯模型2種方法的測(cè)試結(jié)果,結(jié)果如表5和圖3所示。
表5 CRFs模型與貝葉斯模型的實(shí)驗(yàn)結(jié)果對(duì)比
圖3 CRFs模型與貝葉斯模型的實(shí)驗(yàn)結(jié)果對(duì)比
從表5和圖3中可以看出,同樣是概率模型,由于基于CRFs的敏感話題檢測(cè)模型考慮了所有詞語間的相關(guān)性,能夠?qū)⒏嗟男畔⒓{入到文本中來,因此,在F度量值、準(zhǔn)確率(Precision)和召回率(Recall)上取得了更好的效果。
為了分析特征對(duì)CRFs模型的影響,本文實(shí)驗(yàn)對(duì)不同的特征數(shù)量進(jìn)行了實(shí)驗(yàn),基于CRFs模型的敏感話題檢測(cè)的F值隨CRFs模型中特征數(shù)量的變化趨勢(shì)見圖4。由圖4可知,隨著選擇特征數(shù)量的增加,F(xiàn)值不斷增加,算法有效性提高,當(dāng)特征數(shù)量超過一定值后(num(features)>14)后,F(xiàn)值先是變化不大,然后有所下降,因?yàn)樘卣鞯囊霂砹艘欢ǖ脑肼暎到y(tǒng)的效率也會(huì)隨特征的增加而不斷降低。
圖4 CRFs模型中特征數(shù)量對(duì)F值的影響
本文在充分分析敏感話題特點(diǎn)的基礎(chǔ)上,提出了基于條件隨機(jī)場(chǎng)的敏感話題檢測(cè)模型。在文本表示方面,本文利用了敏感性因子加權(quán)的特征詞提取方法;在敏感性檢測(cè)時(shí),充分分析了敏感話題所具有的敏感性特征,利用條件隨機(jī)場(chǎng)概率圖模型對(duì)各種敏感特征知識(shí)進(jìn)行擬合和推斷。最后通過實(shí)驗(yàn)證明,該方法與傳統(tǒng)的貝葉斯方法相比,在敏感話題識(shí)別方面具有較好的性能,下一步將考慮時(shí)間因素對(duì)敏感話題檢測(cè)的影響,并在此基礎(chǔ)上對(duì)條件隨機(jī)場(chǎng)模型進(jìn)行擴(kuò)展。
[1]Wayne C L.Multilingual Topic Detection and Tracking:Successful Research Enabled by Corpora and Evaluation[C]//Proc.of Language Resources and Evaluation Conference.Athens,Greece:[s.n.],2000:1487-1494.
[2]Zheng Donghui,Li Fang.Hot Topic Detection on BBS Using Aging Theory[C]//Proc.of International Conference on Web Information Systems and Mining.Shanghai,China:[s.n.],2009:129-138.
[3]Lee P,Hui S,F(xiàn)ong A C M.An Intelligent Categorization Engine for Bilingual Web Content Filtering[J].IEEE Transactions on Multimedia,2005,7(6):1183-1190.
[4]Zhao Liyong,Zhao Chongchong,Pang Jingqin,et al.Sensitive Topic Detection Model Based on Collaboration of Dynamic Case Knowledge Base[C]//Proc.of the 20th IEEE International Workshops on Enabling Technologies:Infrastructure for Collaborative Enter-prises.Athens,Greece:[s.n.],2011:156-161.
[5]Zhao Liyong,Li Aimin.A Novel System for Sensitive Topic Detection and Alert Assessment[C]//Proc.of the 8th International Conference on Fuzzy Systems and Knowledge Discovery.Shanghai,China:[s.n.],2011:1751-1755.
[6]Settles B.Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets[C]//Proc.of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications.Stroudsburg,USA:[s.n.],2006:1279-1288.
[7]劉 霽,周亞東,高 峰,等.一種基于文本語義的網(wǎng)絡(luò)敏感話題識(shí)別方法[J].深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011,9(3):33-37.
[8]李軍輝,周國(guó)棟,朱巧明,等.中文名詞性謂詞語義角色標(biāo)注[J].軟件學(xué)報(bào),2011,22(8):1725-1737.
[9]Budanitsky A,HirstG.Evaluating Word Net-based Measures of Lexical Semantic Relatedness[J].Computational Linguistics,2006,32(1):13-47.
[10]Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc.of the 18th International Conference on Machine Learning.San Francisco,USA:Morgan Kaufmann Publishers Inc.,2011:282-289.
[11]周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J],電子學(xué)報(bào),2006,34(5):804-809.
[12]Viterbi A J.Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm[J].IEEE Transactions on Information Theory,1967,13(2):260-269.
[13]Wikipedia.Information Retrieval[EB/OL].(2013-07-05).http://en.wikipedia.org/wiki/Information_retrieval.