馮軍軍 賀曉春 王海沛
(四川信息職業(yè)技術(shù)學(xué)院 廣元 628017)
基于樸素貝葉斯網(wǎng)絡(luò)的微博話題追蹤技術(shù)研究?
馮軍軍 賀曉春 王海沛
(四川信息職業(yè)技術(shù)學(xué)院 廣元 628017)
根據(jù)微博的特點(diǎn),提出了基于樸素貝葉斯網(wǎng)絡(luò)模型的微博話題追蹤算法,在改進(jìn)型DF的文本特征選擇方法的基礎(chǔ)上,通過構(gòu)建樸素貝葉斯網(wǎng)絡(luò)模型,設(shè)計(jì)并實(shí)現(xiàn)對(duì)微博話題的追蹤系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,基于樸素貝葉斯網(wǎng)絡(luò)的微博話題追蹤系統(tǒng)具有分類簡(jiǎn)單、高效的優(yōu)點(diǎn),特別適合對(duì)微博熱門話題進(jìn)行追蹤。
樸素貝葉斯網(wǎng)絡(luò);微博;話題追蹤
隨著微博的興起,微博作為個(gè)人、機(jī)構(gòu)以及其它媒體的信息發(fā)布交流平臺(tái)的作用不斷提升,廣大網(wǎng)民的輿論主戰(zhàn)場(chǎng)逐漸轉(zhuǎn)向微博平臺(tái)這些數(shù)以億計(jì)的微博信息中蘊(yùn)藏著巨大的價(jià)值,因此加強(qiáng)微博輿論的研究對(duì)經(jīng)濟(jì)、社會(huì)、政治的穩(wěn)定與發(fā)展有著重要的積極作用[1]。目前,微博平臺(tái)具有數(shù)據(jù)量大、動(dòng)態(tài)更新快、內(nèi)容實(shí)時(shí)性強(qiáng)等特點(diǎn)[2],基于關(guān)鍵字的檢索返回的信息冗余度高,相關(guān)的信息未進(jìn)行有效地組織,人們對(duì)某些事件難以做到全面的把握。在此背景下,研究人員開始關(guān)注微博話題追蹤技術(shù),微博話題追蹤旨在追蹤已知微博話題的后續(xù)事件[3~4]。本文將在新聞話題檢測(cè)與追蹤技術(shù)上所采用的樸素貝葉斯網(wǎng)絡(luò)模型應(yīng)用到微博話題。它能夠在熱門話題檢測(cè)任務(wù)(單位時(shí)間內(nèi)微博的轉(zhuǎn)發(fā)量、評(píng)論數(shù)等超過設(shè)定的閾值)完成的基礎(chǔ)上,實(shí)現(xiàn)快速追蹤熱門話題后繼事件的發(fā)展動(dòng)態(tài),具有算法簡(jiǎn)單、識(shí)別率高、快速的特點(diǎn)。其關(guān)于微博內(nèi)容、關(guān)鍵詞、話題之間的關(guān)系用樸素貝葉斯網(wǎng)絡(luò)描述如圖1所示。
圖1 描述微博內(nèi)容(S)、微博話題(T)和關(guān)鍵字(K)的貝葉斯網(wǎng)絡(luò)
2.1 貝葉斯定理
P(A|B)表示事件B發(fā)生下事件A發(fā)生的條件概率,其基本求解公式如下
其中P(AB)表示事件A、B同時(shí)發(fā)生的概率。P(B)屬于先驗(yàn)概率,表示事件B發(fā)生的概率。貝葉斯定理提供了一種由P(B)、P(A)和P(A|B)來計(jì)算后驗(yàn)概率P(B|A)的方法,其基本關(guān)系是:
貝葉斯定理的推廣:對(duì)于多變量(N>2),貝葉斯定理同樣成立,式(3)給出變量的個(gè)數(shù)N=3時(shí),根據(jù)式(2)導(dǎo)出的貝葉斯定理。
2.2 樸素貝葉斯網(wǎng)絡(luò)的定義及其性質(zhì)
貝葉斯網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)是一個(gè)有向無環(huán)圖,G=<V,E>,其中V表示隨機(jī)變量的集合,集合中的每一個(gè)元素對(duì)應(yīng)貝葉斯網(wǎng)絡(luò)中唯一的節(jié)點(diǎn),E表示隨機(jī)變量之間的條件依賴,用條件概率表集合來表示,它存儲(chǔ)了對(duì)于其所有直接前驅(qū)節(jié)點(diǎn)的聯(lián)合條件概率。貝葉斯網(wǎng)絡(luò)有一個(gè)重要的性質(zhì),每一個(gè)節(jié)點(diǎn)在其直接前驅(qū)節(jié)點(diǎn)確定后,這個(gè)節(jié)點(diǎn)條件獨(dú)立于其所有非直接前驅(qū)前輩節(jié)點(diǎn)。這個(gè)性質(zhì)很類似Markov過程。式(4)給出了貝葉斯網(wǎng)絡(luò)中多個(gè)隨機(jī)變量的聯(lián)合條件概率計(jì)算公式。
其中Parents(xi)表示(xi)的直接前驅(qū)節(jié)點(diǎn)的聯(lián)合,其值可以從相應(yīng)條件概率表中查到。
不同于貝葉斯網(wǎng)絡(luò),樸素貝葉斯網(wǎng)絡(luò)基于貝葉斯網(wǎng)絡(luò),它假設(shè)類別屬性之間是條件獨(dú)立,是一種約束型貝葉斯網(wǎng)絡(luò)。兩者的分類原理是相似的,都是建立在統(tǒng)計(jì)概率學(xué)基礎(chǔ)之上的,已知待分類樣本的先驗(yàn)概率,結(jié)合貝葉斯定理計(jì)算待分類樣本所屬類別的概率,計(jì)算所得最大值則作為待分類樣本的類別。圖2和圖3分別給出了貝葉斯網(wǎng)絡(luò)和樸素貝葉斯網(wǎng)絡(luò)的模型圖。
圖2 貝葉斯網(wǎng)絡(luò)模型圖
圖3 樸素貝葉斯網(wǎng)絡(luò)模型圖
2.3 基于樸素貝葉新網(wǎng)絡(luò)模型的話題追蹤應(yīng)用分析
基于樸素貝葉斯網(wǎng)絡(luò)的話題追蹤,實(shí)際是一個(gè)文本分類,分類步驟可以分為以下兩步:1)根據(jù)己知話題的訓(xùn)練樣本,通過訓(xùn)練得到樸素貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù),但是需要指出的是結(jié)構(gòu)和參數(shù)的訓(xùn)練通常是交替進(jìn)行的;2)利用訓(xùn)練得到的樸素貝葉斯網(wǎng)絡(luò)對(duì)待分類項(xiàng)(未知類別的測(cè)試微博文本)進(jìn)行分類。下面使用樸素貝葉斯網(wǎng)絡(luò)模型來對(duì)話題的追蹤應(yīng)用進(jìn)行分析,為了簡(jiǎn)單起見,對(duì)樸素貝葉斯網(wǎng)絡(luò)模型的結(jié)構(gòu)做了適當(dāng)?shù)暮?jiǎn)化,如圖4所示。
圖4 描述微博文本、話題和關(guān)鍵字的樸素貝葉斯網(wǎng)絡(luò)
圖4 是一個(gè)有向無環(huán)圖(DAG),圖中每個(gè)節(jié)點(diǎn)表示一個(gè)隨機(jī)變量,而有向弧則表示指向結(jié)點(diǎn)影響被指向結(jié)點(diǎn)。根據(jù)樸素貝葉斯網(wǎng)絡(luò)模型可知,可以用先驗(yàn)概率表示沒有前驅(qū)節(jié)點(diǎn)的節(jié)點(diǎn),而對(duì)于有直接前驅(qū)節(jié)點(diǎn)的,在構(gòu)建樸素貝葉斯模型的結(jié)構(gòu)時(shí),其條件概率一般是已知的,假設(shè)已知報(bào)道S={W1,W2},S屬于待分類項(xiàng),T屬于某一話題,計(jì)算報(bào)道S所屬的話題類別P(T|S),可以利用貝葉斯式(5):
P(T|S)=P(T|W1,W2)=P(W1|T)(T)P(W2|T)/P(W1W2)(5)
針對(duì)微博話題追蹤任務(wù)和微博文本的特點(diǎn)[5~6]。本文提出了基于樸素貝葉斯網(wǎng)絡(luò)的話題追蹤流程圖,如圖5所示,首先確定樸素貝葉斯網(wǎng)絡(luò)模型的結(jié)構(gòu),根據(jù)訓(xùn)練語(yǔ)料(需要人工標(biāo)記)訓(xùn)練貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)和參數(shù),形成貝葉斯網(wǎng)絡(luò)分類器,然后從微博文本集中抽取一篇微博,抽取特征詞并計(jì)算其權(quán)重[7],形成事件報(bào)道模型,結(jié)合貝葉斯分類器,計(jì)算該微博所屬話題類別,從而實(shí)現(xiàn)微博話題追蹤[8]。
3.1 基于樸素貝葉斯網(wǎng)絡(luò)的微博話題追蹤流程
結(jié)合圖5可知,樸素貝葉斯網(wǎng)絡(luò)模型的話題追蹤具體步驟[9~13]:
1)已知訓(xùn)練微博文本集 D={d1,d2,d3,…,dn}每一個(gè)訓(xùn)練樣本 dj={f1,f2,f3,…,fn},每個(gè) fk為 dj的 一 個(gè) 特 征 屬 性 , k∈{1,2,3,…,n} ,j∈{1,2,3,…,n}。對(duì)于從事件報(bào)道庫(kù)抽取的微博(非訓(xùn)練樣本),xj={t1,t2,t3,…,tn}為一個(gè)待分類項(xiàng)。
圖5 基于樸素貝葉斯網(wǎng)絡(luò)模型的微博話題追蹤流程圖
2)有類別的話題集合 C={c1,c2,c3,…,cn},其中Ck∈C話題類別變量,分類的任務(wù)就對(duì)未知話題的事件報(bào)道樣本 xj={t1,t2,t3,…,tn}來預(yù)測(cè)它的所屬話題類別C,如式(6)所示。
3)根據(jù)貝葉斯定理,對(duì)式(6)進(jìn)行展開,如式(7)所示,其中 P(Xj)為某一常數(shù),只需計(jì)算P(Xi|Ck)P(Ck),P(Ck)一類別Ck出現(xiàn)的概率,可以通過訓(xùn)練樣本估計(jì)得到,若樣本均衡,該值是一個(gè)定值。
4)計(jì)算P(Xi|Ck),如式(8)所示。在計(jì)算的過程中,貝葉斯網(wǎng)絡(luò)模型引入了一些獨(dú)立性假設(shè):樸素貝葉斯網(wǎng)絡(luò)特征屬性節(jié)點(diǎn)的狀態(tài)相互獨(dú)立。
其中P(tj|Ck)表示類別Ck中出現(xiàn)ti的概率,它的值等于特征屬性詞ti在類別Ck中出現(xiàn)的次數(shù)與類別Ck所有特征詞出現(xiàn)總數(shù)的比值,相關(guān)值可以通過查詢樸素貝葉斯訓(xùn)練參數(shù)表得到。
5)求出C=Max{P(tj|Ck)},k∈{1,2,3,…,n}。
對(duì)于步驟4)中P(tj|Ck)的值可以通過在訓(xùn)練樸素貝葉斯網(wǎng)絡(luò)模型的時(shí)候得到,具體的訓(xùn)練步驟如圖6所示。
圖6 樸素貝葉斯網(wǎng)絡(luò)模型訓(xùn)練流程圖
3.2 估計(jì)類別下特征屬性的劃分條件及Laplace校準(zhǔn)
由圖6可知,在微博話題追蹤的模型中,樸素貝葉斯網(wǎng)絡(luò)分類的關(guān)鍵步驟在于計(jì)算P(tj|Ck)各個(gè)類別下每個(gè)特征詞出現(xiàn)的次數(shù),可以通過查詢樸素貝葉斯網(wǎng)絡(luò)訓(xùn)練參數(shù)表得到,但是如果出現(xiàn)某個(gè)類別下某個(gè)特征項(xiàng)劃分沒有出現(xiàn)時(shí),即P(tj|Ck)=0這種情形,那么樸素貝葉斯網(wǎng)絡(luò)模型的分類效果將大大降低。本文則通過引入Laplace校準(zhǔn)進(jìn)行數(shù)據(jù)平滑,具體實(shí)現(xiàn)過程:在訓(xùn)練樣本階段將所有類別下的特征屬性的出現(xiàn)頻次初始化為1,同時(shí)將某一類別下所有的特征詞出現(xiàn)的次數(shù)初始化為n,n表示特征詞的個(gè)數(shù)。當(dāng)n充分大時(shí),可以忽略對(duì)結(jié)果產(chǎn)生的影響。
4.1 數(shù)據(jù)集
本文實(shí)驗(yàn)所使用的微博語(yǔ)料庫(kù)來自爬萌中國(guó)[14],選取2015年1月至2015年12月之間的特定主題微博作為語(yǔ)料庫(kù),語(yǔ)料庫(kù)中選取了300篇微博,選擇其中50篇人工標(biāo)記過的微博作為訓(xùn)練樣本,另外250篇作為測(cè)試樣本,其中選取的訓(xùn)練報(bào)道針對(duì)5個(gè)話題,其中訓(xùn)練集和測(cè)試集不存在任何重復(fù)的樣本。語(yǔ)料的各話題的新聞報(bào)道分布如表1所示。
表1 各話題的微博文本分布
4.2 微博文本預(yù)處理
根據(jù)新浪微博的特點(diǎn),使用了NLPIR漢語(yǔ)分詞系統(tǒng),對(duì)微博文本流進(jìn)行文本預(yù)處理,本次試驗(yàn)選擇基于改進(jìn)型DF的微博文本特征選擇方法,用命名實(shí)體向量空間模型來表示話題的特征向量F={f1/w1,f2/w2,…,f7/w7},特征屬性依次表示一篇微博中日期名、地名、人物名、數(shù)詞、專有名詞、機(jī)構(gòu)名、名詞的詞向量模型及分類命名實(shí)體的詞頻[15~17],如發(fā)生在2015年的天津塘沽爆炸事件的一篇微博如表2所示。
表2 天津塘沽爆炸事件
4.3 實(shí)驗(yàn)評(píng)價(jià)
話題追蹤的性能都可以用誤報(bào)率PMiss和漏報(bào)率PFA來表示。CDet就是PMiss和PFA加權(quán)求和的結(jié)果,計(jì)算公式如式(9)所示。
其中,CMiss是系統(tǒng)的錯(cuò)誤識(shí)別代價(jià),是微博話題追蹤系統(tǒng)性能的重要指標(biāo),CMiss是未識(shí)別代價(jià),CFA是誤報(bào)的代價(jià)。在本文中基于樸素貝葉斯網(wǎng)絡(luò)的微博話題追蹤的過程中,未識(shí)別的代價(jià)要高于誤報(bào)的代價(jià),分別取CMiss=10和CFA=1。
Ptarget表示某個(gè)話題出現(xiàn)的概率,有Pnon-target=1-Ptarget。PMiss表示未識(shí)別率,PFA表示錯(cuò)誤識(shí)別率。根據(jù)式10對(duì)CDet做歸一化處理。
式(10)表明,(CDet)Norm值越小,微博話題追蹤性能越好。
4.4 實(shí)驗(yàn)結(jié)果與相關(guān)分析
實(shí)驗(yàn)參數(shù)選?。篜target=0.02,CMiss=1,CFA=0.1,En表示事件序列,使用樸素貝葉斯網(wǎng)絡(luò)模型得到的實(shí)驗(yàn)數(shù)據(jù)如表3所示。
實(shí)驗(yàn)和評(píng)測(cè)結(jié)果表明,基于樸素貝葉斯網(wǎng)絡(luò)模型能夠有效實(shí)現(xiàn)微博話題的追蹤。
表3 基于樸素貝葉斯網(wǎng)絡(luò)模型的話題追蹤結(jié)果
本文通過實(shí)驗(yàn)的方法驗(yàn)證了基于樸素貝葉斯網(wǎng)絡(luò)模型微博話題的追蹤模型具有算法簡(jiǎn)單高效、分類效果好,發(fā)現(xiàn)其特別適合對(duì)熱門微博話題的追蹤?;诟倪M(jìn)型DF的微博文本特征選擇方法保留了描述微博事件的主要特征屬性—日期名、地名、人物名、數(shù)詞、專有名詞、機(jī)構(gòu)名、名詞。這些特征詞的屬性對(duì)描述一個(gè)話題的貢獻(xiàn)度特別大,而且當(dāng)特征屬性充分多時(shí),樸素貝葉斯網(wǎng)絡(luò)模型對(duì)于個(gè)別特征屬性表現(xiàn)出極大的抗干擾性,但同時(shí)也提高了計(jì)算量。
[1]趙新輝,郭瑞.基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)輿情智能監(jiān)測(cè)與引導(dǎo)平臺(tái)設(shè)計(jì)研究[J].電腦知識(shí)與技術(shù),2012,8(1):1-2,4.ZHAO Xinhui,GUO Rui.Design and research of intelligent monitoring and guidance platform for network public opinion based on Data Mining Technolog[J].Computer Knowledge and Technology,2012,8(1):1-2,4.
[2]CNNIC.2016第37次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/201601/P020160122469130059846.pdf,2016-63.CNNIC.Thirty-seventh China Internet Development Statistics Report in 2016[EB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/201601/P020160122469130059846.pdf,2016-63.
[3]王國(guó)華,鄭全海,王雅蕾,等.新浪熱門微博的特征及用戶轉(zhuǎn)發(fā)規(guī)律研究[J].情報(bào)雜志,2014(4):117-121.WANG Guohua,ZHENG Quanhai,WANG Yalei,et al.Research on the Characteristics and Users'Retweeting Rules of Top Trending Micro-blogson Sina[J].Journal of Intelligence,2014(4):117-121.
[4]徐曉東,肖銀濤,朱士瑞,等.微博社區(qū)的謠言傳播仿真研究[J].計(jì)算機(jī)工程,2011,37(10):272-274.HU Xiaodong,XIAO Yinchao,SHU Shirui,et al.Simulation Investigation of Rumor Propagation in Microblogging Community[J].Computer Engineering,2011,37(10):272-274.
[5]許志凱,徐志明,李棟,等.面向互聯(lián)網(wǎng)新聞的話題檢測(cè)與追蹤[J].智能計(jì)算機(jī)與應(yīng)用,2011(3):59-61,65.XU Zhikai,XU Zhiming,LI Dong,et al.Topic Detection and Tracking for News Web Pages[J].Intelligent Computer and Applications,2011(3):59-61,65.
[6]李爽.從微薄中挖掘有用信息[J].網(wǎng)絡(luò)與信息,2011(6):98-102.LI Shuang.Mining useful information from micro-blog[J].Network and Information,2011(6):98-102.
[7]劉慶和,梁正友.一種基于信息增益的特征優(yōu)化選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(12):130-132,136.LIU Qinghe,LIANG Zhengyou.Optimized approach of feature selection based on information gain[J].Computer Engineering and Applications,2011,47(12):130-132.
[8]劉海峰,蘇展,劉守生,等.一種基于詞頻信息的改進(jìn)CHI文本特征選擇[J].計(jì)算機(jī)工程與應(yīng)用,2013,(22):110-114.LIU Haifeng,SU Zhan,LIU Shousheng.Improved CHI text feature selection based on word frequency information[J].Computer Engineering and Applications,2013,49(22):110-114.
[9]張春,郭明亮.大數(shù)據(jù)環(huán)境下樸素貝葉斯分類算法的改進(jìn)與實(shí)現(xiàn)[J].北京交通大學(xué)學(xué)報(bào),2015(39):35-41.ZHANG Chun,GUO Mingliang.Research and realization of improved native Bayes classification algorithm under big data environment[J].Journal of Beijing Jiaotong University,2015(39):35-41.
[10]葛順,夏學(xué)知.基于聚類的樸素貝葉斯分類無監(jiān)督學(xué)習(xí)方法[J].艦船科學(xué)技術(shù),2016(38):112-116.GE Shun,XIA Xuezhi.Unsupervised learning method of native Bayesian network classifier based on clustering[J].Ship Science and Technology,2016(38):112-116.
[11]賀鳴,孫建軍,成穎.基于樸素貝葉斯的文本分類研究綜述[J].情報(bào)科學(xué),2016(34):147-154.HE Ming,SUN Jianjun,CHENG Ying.Text Classification Based on Naive Bayes:A Review[J].Information Science,2016(34):147-154.
[12]張澤鑫,李俊,常向青.基于特征加權(quán)的樸素貝葉斯流量分類方法研究[J].高技術(shù)通訊,2016(26):119-127.ZHANG Zexin,LI Jun,CHANG Xiangqing.Internet traffic classification using the attribute weighted naive Bayes algorithm algoritltm[J].High Technology Letters,2016(26):119-127.
[13]趙文濤,孟令軍,趙好好,等.樸素貝葉斯算法的改進(jìn)與應(yīng)用[J].測(cè)控技術(shù),2016(35):143-147.ZHAO Wen-tao,MENG Lingjun,ZHAO Haohao,et al.Improvement and Applications of the Naive Algorithm[J].Measurement and Control Technology,2016(35):143-147.
[14]中國(guó)爬萌.爬萌數(shù)據(jù)[EB/OL].http://www.cnpameng.com/,2015-11.China Clima.The data of Climb[EB/OL].http://www.cnpameng.com/,2015-11.
[15]任曉東,張永奎,薛曉飛.基于K-Modes聚類的自適應(yīng)話題追蹤技術(shù)[J].計(jì)算機(jī)工程,2009(9):222-224.REN Xiaodong,ZHANG Yongkui,XUE Xiaofei.Adaptive Topic Tracking Technique Based on K-Modes Clustering.Computer Engineering,2009,35(9):222-224.
[16]孫曰昕,馬慧芳,師亞凱,等.融合詞語(yǔ)關(guān)聯(lián)關(guān)系的自適應(yīng)微博熱點(diǎn)話題追蹤算法[J].計(jì)算機(jī)應(yīng)用,2014,34(12):3497-3501.SUN Yuexin,MA Huifang,SHI Yakai,et al.Self-adaptive microblog hot topic tracking method using term correlation.Journal of Computer Applications,2014,34(12):3497-3501.
[17]馬海兵,畢久陽(yáng),郭新順.文本分類方法在網(wǎng)絡(luò)輿情分析系統(tǒng)中的應(yīng)用研究[J].情報(bào)科學(xué),2015,33(5):97-101.MA Haibing,BI Jiuyang,GUO Xinshun.Applications of Text Classification in Network Public Opinion System[J].Information Science,2015,33(5):97-101.
Research on Micro-blog Topic Tracking Based on Naive Bayesian Network
FENG Junjun HE Xiaochun WANG Haipei
(Sichuan Information Technology College,Guangyuan 628017)
According to the characteristics of micro-blog,this paper proposes micro-blog topic tracking algorithm based on naive Bayesian network model,and at the base of the foregoing improved DF text feature selection method,the micro-blog topic tracking system is designed and implemented.The experimental results show that micro-blog topic tracking system based on the naive Bayesian network model is simple,efficient,especially suitable for tracking hot topics on micro-blog.
naive Bayesian,micro-blog,topic tracking
TP391.1
10.3969/j.issn.1672-9722.2017.11.034
Class Number TP391.1
2017年5月2日,
2017年6月23日
馮軍軍,男,碩士,助教,研究方向:嵌入式系統(tǒng)及應(yīng)用和信息安全技術(shù)。賀曉春,男,講師,研究方向:網(wǎng)絡(luò)安全。王海沛,男,碩士,助教,研究方向:云計(jì)算應(yīng)用和數(shù)據(jù)分析。