国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息融合的中文微博可信度評(píng)估方法

2016-09-29 17:40高明霞陳福榮
計(jì)算機(jī)應(yīng)用 2016年8期
關(guān)鍵詞:信息融合

高明霞 陳福榮

摘要:針對(duì)中文微博信息的特點(diǎn)及這些特點(diǎn)的可測(cè)量性和實(shí)際任務(wù),系統(tǒng)地梳理了中文微博信息可信度測(cè)量指標(biāo),并將其進(jìn)行了譜系化分析,提出一個(gè)基于信息融合的中文微博可信度評(píng)估框架CCM-IF。首先,為本質(zhì)不同的三個(gè)異構(gòu)特征:文本內(nèi)容、信息作者與信息傳播使用了不同的度量方式;其次,基于決策層可信度的模糊認(rèn)知特點(diǎn),采用了多維證據(jù)理論進(jìn)行特征融合;最后,收集了新浪微博兩個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)信息檢索排序方法平滑語(yǔ)言模型(LMJM)相比,CCM-IF符合用戶需求的信息占比提高了10%~20%。因此,作為一個(gè)靜態(tài)質(zhì)量評(píng)估指標(biāo),CCM-IF可直接用于微博檢索排序、垃圾微博過(guò)濾等實(shí)際任務(wù)。

關(guān)鍵詞:中文微博;可信度;信息融合;四象限法則; 證據(jù)理論

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)志碼:A

0引言

最近幾年,社會(huì)媒體得到迅猛發(fā)展,特別是微博、微信等社交軟件,已發(fā)展成為互聯(lián)網(wǎng)上的巨擘。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center, CNNIC)于2014年7月發(fā)布的《第34次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2014年6月,我國(guó)微博用戶規(guī)模為2.75億,網(wǎng)民使用率為43.6%,微博已進(jìn)入平穩(wěn)成熟期。但是微博固有的草根特性帶來(lái)的問(wèn)題依然存在,也即用戶對(duì)微博內(nèi)容的真實(shí)性和價(jià)值依然難以判斷。因此,針對(duì)微博在信息書寫、信息傳播、社會(huì)網(wǎng)絡(luò)分析等方面的固有特點(diǎn),分析、評(píng)估微博內(nèi)容、用戶,并將其應(yīng)用于微博信息綜合或垂直搜索、垃圾微博過(guò)濾等領(lǐng)域的研究,已經(jīng)成為微博研究領(lǐng)域的重要內(nèi)容之一[1]。

由于時(shí)間因素,目前對(duì)微博質(zhì)量研究的實(shí)例大多集中于Twitter分析,例如文獻(xiàn)[2-4]。這些研究可以分為兩類,一類是利用傳統(tǒng)分類技術(shù)的定性分析,這類研究需要大量樣本,獲取的是二值或多值的邏輯值;另一類是針對(duì)不同性能指標(biāo)的定量算法,這些質(zhì)量評(píng)估算法多數(shù)只關(guān)注信息本身或某一側(cè)面,缺少系統(tǒng)、全面的分析和評(píng)估,更沒(méi)有從模糊認(rèn)知的角度進(jìn)行度量。目前針對(duì)中文微博質(zhì)量分析的研究多數(shù)集中于內(nèi)容分析以及特定用戶或主題提取,缺少專門針對(duì)質(zhì)量進(jìn)行定量評(píng)估的系統(tǒng)方法,例如高承實(shí)等[5]構(gòu)建的三維空間就是針對(duì)微博輿情評(píng)估的指標(biāo)。

本文從中文微博信息的特點(diǎn)入手,兼顧了這些特點(diǎn)的可測(cè)量性和實(shí)際任務(wù),系統(tǒng)地梳理了中文微博信息可信度測(cè)量指標(biāo),并將其進(jìn)行了譜系化分析,最終抽取出文本信息、信息作者與信息傳播三個(gè)高層異構(gòu)特征??紤]到可信度的模糊性本質(zhì),提出一個(gè)基于信息融合的中文微博可信度評(píng)估框架(Credibility of Chinese Microblog based on Information Fusion,CCM-IF),并依據(jù)中文微博特點(diǎn)以及信息融合技術(shù)實(shí)現(xiàn)了用于計(jì)算并融合三個(gè)高層異構(gòu)特征的具體方法。最后,收集了新浪微博兩個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的微博可信度評(píng)估方式作為一個(gè)靜態(tài)質(zhì)量評(píng)估指標(biāo)可直接用于微博檢索排序、垃圾微博過(guò)濾等實(shí)際任務(wù);而且和傳統(tǒng)信息檢索排序方法平滑語(yǔ)言模型相比,該框架和計(jì)算方式在準(zhǔn)確性方面有明顯優(yōu)勢(shì)。

1相關(guān)工作

從社會(huì)媒體角度看,“可信度是主觀認(rèn)知的可信度,是指?jìng)鞑ミ^(guò)程中,信息受播人對(duì)傳播媒體的信賴度的主觀評(píng)量”。微博是一種典型的社會(huì)媒體,對(duì)其可信度的研究屬于質(zhì)量評(píng)測(cè)的一種。下面從微博質(zhì)量評(píng)估角度來(lái)討論現(xiàn)有工作。

中文微博發(fā)展時(shí)間短,目前對(duì)微博質(zhì)量研究的實(shí)例大多集中于Twitter分析。Castillo等[2]利用典型的分類算法對(duì)Twitter上的新聞?lì)愋畔⒑推渌愋畔⑦M(jìn)行了可信和不可信的自動(dòng)分類學(xué)習(xí),其中對(duì)Twitter信息的特征從四個(gè)側(cè)面(msg.,user,topic,prop.)進(jìn)行了歸類。自動(dòng)分類方法需要大量人工標(biāo)注的樣本,并且得到的是一個(gè)二值邏輯結(jié)果。Ravikumar等[3]將微博看作一個(gè)包含用戶、文本內(nèi)容和網(wǎng)頁(yè)的三層圖結(jié)構(gòu),并建立了圖中存在的各種鏈接,據(jù)此達(dá)到通過(guò)信任和傳播為Twitter中文本內(nèi)容排隊(duì)的目的。Nagmoti等[4]描述了一個(gè)微博實(shí)時(shí)搜索中排序的新策略。該策略除微博屬性外,還考慮了微博作者的社會(huì)網(wǎng)絡(luò)屬性并將其用于Twitter實(shí)時(shí)搜索的二次排序中,得到了較好的結(jié)果;但該方法涉及到的微博和作者屬性太少,計(jì)算方式也相對(duì)簡(jiǎn)單。

目前針對(duì)中文微博質(zhì)量分析的研究多數(shù)集中于內(nèi)容分析和特定用戶比較方面。高承實(shí)等[5]在研究了微博信息傳播機(jī)制的基礎(chǔ)上,結(jié)合信息空間模型構(gòu)建了微博輿情的三維空間,并運(yùn)用層次分析法建立了微博輿情監(jiān)測(cè)指標(biāo)體系。該體系中重要的監(jiān)測(cè)和影響因素就是微博質(zhì)量評(píng)估分析。焦德武等[6]探討了微博在輿情生產(chǎn)中具有的作用與特征,并從微博內(nèi)容維度和傳播時(shí)間維度兩個(gè)方面對(duì)微博輿情價(jià)值進(jìn)行判斷。郭秋艷等[7]基于新浪微博中用戶數(shù)據(jù),對(duì)名人效應(yīng)進(jìn)行了定量研究。Wang等[8] 通過(guò)比較新浪微博中認(rèn)證和非認(rèn)證用戶的統(tǒng)計(jì)信息,提出了認(rèn)證用戶中只有很少部分有較大影響,是一些團(tuán)體的核心成員。

從以上的分析可見(jiàn),目前對(duì)微博質(zhì)量研究的實(shí)例大多集中于Twitter分析,現(xiàn)有的針對(duì)中文微博質(zhì)量的研究只關(guān)注信息本身或某一側(cè)面,缺少系統(tǒng)、全面的分析和量化評(píng)估,更沒(méi)有從“可信度”這一模糊認(rèn)知角度進(jìn)行定量分析。這正是本文要解決的問(wèn)題。

2基于信息融合的可信度評(píng)估框架

微博,即微博客(Microblog)的簡(jiǎn)稱,是一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取平臺(tái),用戶可通過(guò)Web、即時(shí)通信、電子郵件和手機(jī)等方式,以140字左右的文字更新信息并實(shí)現(xiàn)即時(shí)分享。從這個(gè)角度說(shuō),微博是一種典型的社會(huì)媒體,其可信度定義完全符合社會(huì)媒體可信度概念。

社會(huì)媒體可信度(social media credibility)這個(gè)詞最早出現(xiàn)于19世紀(jì)中期,由Hovland等[9]提出。其確切定義經(jīng)歷了從信息客觀屬性到受眾主觀認(rèn)知的本質(zhì)轉(zhuǎn)變。目前,OKeffe[10]的定義“可信度是主觀認(rèn)知的可信度,是指?jìng)鞑ミ^(guò)程中,信息受播人對(duì)傳播媒體的信賴度的主觀評(píng)量”已被大多數(shù)人所接受。既然可信度是受眾對(duì)媒體信息的主觀認(rèn)知和評(píng)估,那從受眾角度出發(fā)、以多維視角和方法來(lái)定義和測(cè)量信息可信度,已成為此領(lǐng)域?qū)W術(shù)研究的基本準(zhǔn)則。

為了對(duì)多個(gè)來(lái)源的觀測(cè)信息進(jìn)行統(tǒng)一分析、綜合評(píng)估,信息融合技術(shù)逐漸興起。本文的基本思想就是將微博可信度評(píng)估看作是一個(gè)信息融合問(wèn)題進(jìn)行具體分析。首先,參考文獻(xiàn)[2,11]中涉及到的兩種社會(huì)媒體信息可信度評(píng)估指標(biāo),并結(jié)合中文微博的特點(diǎn),基于分層斷代思想對(duì)微博信息可量化指標(biāo)以及高層特征維度進(jìn)行系統(tǒng)梳理與歸屬劃分,獲得了如圖1所示的中文微博可信度影響因子譜系;然后參考信息融合Dasarathy模型及各層的融合技術(shù),形式化數(shù)據(jù)層和特征層的具體評(píng)估方法,提出了基于信息融合的中文微博可信度評(píng)估框架(CCM-IF),并在該框架下實(shí)現(xiàn)了三個(gè)異構(gòu)特征的評(píng)估方式以及最終的融合方法。文本信息影響因素多,各因素的激勵(lì)作用不同,采用了相對(duì)簡(jiǎn)單的統(tǒng)計(jì)和度量;信息來(lái)源即用戶可信度影響因素少,而且?guī)в忻黠@的模糊本質(zhì),參考著名的四象限法則提出了媒體用戶四象限劃分度量;考慮到媒體信息傳播的共性,傳播度量借鑒了文獻(xiàn)[11]中博客的傳播計(jì)算形式;考慮到可信度的模糊認(rèn)知,最終的異構(gòu)特征融合采用了具有模糊屬性的多維證據(jù)理論。

3基于信息融合的可信度評(píng)估方法

3.1文本信息可信度測(cè)量

信息本身的可信度可以從客觀和主觀兩個(gè)方面入手考察??陀^方面不涉及社會(huì)性,單純考慮信息本身的可信度,也即通常所說(shuō)的文本質(zhì)量。通常情況下,我們會(huì)假定:質(zhì)量好的文本比質(zhì)量差的文本更可信,在某種程度上,這正是用戶對(duì)微博信息第一印象的直觀反映。另一方面是用戶對(duì)文本的主觀印象,目前可直接測(cè)量的主觀因素有轉(zhuǎn)貼數(shù)(Sreposts)和評(píng)論數(shù)(Scomments),這兩個(gè)影響因素都是正向激勵(lì)因子,因?yàn)槠淇扇≈挡顒e很大,所以使用了lg()形式的計(jì)算方式,如表1所示。文本質(zhì)量的考察包括句法、語(yǔ)法、語(yǔ)氣和語(yǔ)義四個(gè)層面。前兩個(gè)層面體現(xiàn)作者的寫作模式與寫作習(xí)慣。一個(gè)可信的文本至少應(yīng)該做到句法和語(yǔ)法正確,例如:一個(gè)拼寫錯(cuò)誤百出的文本很難被認(rèn)定為是可信的。句法和語(yǔ)法方面,本文主要考慮了正向激勵(lì)文本長(zhǎng)度(Slength)和負(fù)向激勵(lì)拼寫錯(cuò)誤(Sspelling)兩個(gè)指標(biāo),具體計(jì)算方式如表1所示。文本的語(yǔ)氣通常體現(xiàn)個(gè)人情緒和感情傾向。一個(gè)可信的文本語(yǔ)氣應(yīng)該客觀,也即盡量少地涉及到表達(dá)情緒的因素,做到感情上客觀公正。中文微博信息中和個(gè)人情緒相關(guān)的因素包括圖標(biāo)(Semoticons)、重復(fù)標(biāo)點(diǎn)(Spunc)以及正/負(fù)性詞(Sposi/neg)三個(gè)指標(biāo),重復(fù)標(biāo)點(diǎn)只統(tǒng)計(jì)和情緒相關(guān)的問(wèn)號(hào)、感嘆號(hào)和省略號(hào),這些因素的具體計(jì)算方式如表1所示。語(yǔ)義是文本質(zhì)量更高層次的要求,與具體任務(wù)和領(lǐng)域相關(guān),對(duì)其評(píng)價(jià)時(shí)需要有對(duì)應(yīng)的參考量,一個(gè)可信的文本應(yīng)該是與參考量語(yǔ)義相關(guān)的。由于不同的任務(wù)參考量可能不同,例如查詢?nèi)蝿?wù)中的查詢需求或信息聚類中的主題集合等,因此語(yǔ)義因素是一個(gè)依賴主題的指標(biāo),用于在具體任務(wù)中發(fā)揮作用進(jìn)行文本預(yù)處理或最后步驟的領(lǐng)域識(shí)別。文本信息影響因素多,各因素的激勵(lì)作用不同,采用了相對(duì)簡(jiǎn)單的統(tǒng)計(jì)和度量,如式(1):

3.2信息來(lái)源可信度測(cè)量

從本質(zhì)上看,任何社會(huì)媒體信息最初都是由人產(chǎn)生的,因此信息來(lái)源(簡(jiǎn)稱信源)可信度就是信息作者的可信度。社會(huì)媒體中的用戶可信度通常又是由他的客觀日常行為和主觀外部評(píng)估累積形成。常見(jiàn)的可測(cè)量客觀日常行為包括是否做過(guò)實(shí)名認(rèn)證(Scertify)、發(fā)布的文本信息總數(shù)(Sposts);而常見(jiàn)的可測(cè)量外部評(píng)估通常包括粉絲數(shù)目(Sfellows)。這些指標(biāo)中,影響較大的是實(shí)名認(rèn)證。實(shí)名認(rèn)證可看作是虛擬環(huán)境和現(xiàn)實(shí)世界的橋梁。因?yàn)樽鲞^(guò)認(rèn)證的作者有為自己的言論負(fù)責(zé)的主觀意愿,客觀上也更容易被監(jiān)督和審查,因此這個(gè)指標(biāo)可以單獨(dú)作為激勵(lì)因子(>1)影響最終用戶的可信度。粉絲數(shù)和信息總數(shù)這兩個(gè)客觀和主觀因素配合可以粗略地區(qū)分不同類型的用戶。借鑒著名的四象限法則,圖2是一個(gè)主客觀因素決定的媒體用戶四象限分類圖。

圖2中,位于第四象限的用戶是粉絲和發(fā)貼數(shù)目都高的優(yōu)質(zhì)用戶,其可信度相對(duì)最高。位于第二象限的是兩者都低的網(wǎng)絡(luò)過(guò)客,這類用戶對(duì)各種媒體信息的參與度最低,可信度也相對(duì)最低。位于第一和第三象限的用戶一類是發(fā)貼多、粉絲少的自我用戶或廣告客戶,這類用戶的帖子關(guān)注度太低,價(jià)值也相對(duì)較低,接近網(wǎng)絡(luò)過(guò)客;另一類是發(fā)貼少、粉絲多的稀奇用戶,這類用戶盡管發(fā)貼很少,但是粉絲眾多,其帖子的關(guān)注度很高,因此可信度接近優(yōu)質(zhì)用戶。通過(guò)上述分析用戶的可信度大小關(guān)系符合:優(yōu)質(zhì)用戶>稀奇用戶自我用戶>網(wǎng)絡(luò)過(guò)客。區(qū)分用戶的具體劃分值和數(shù)據(jù)集分布密切相關(guān),每類用戶的實(shí)際取值和數(shù)據(jù)集性質(zhì)以及實(shí)際任務(wù)相關(guān)。粉絲數(shù)和信息數(shù)這兩個(gè)指標(biāo)可取值范圍差別太大,為了最終表現(xiàn)形式仍使用了lg()取值進(jìn)行了縮減。考慮到認(rèn)證的激勵(lì)作用,用戶的最終可信度值可以通過(guò)式(2)獲?。?/p>

3.3信息傳播可信度測(cè)量

和普通網(wǎng)頁(yè)相比,社會(huì)媒體信息的傳播能力更強(qiáng)。而影響媒體信息可信度傳播的因素一般包括兩項(xiàng):一是時(shí)效,二是傳播媒介。時(shí)效對(duì)新聞和熱點(diǎn)事件是個(gè)不可忽視的影響因素,它的計(jì)算需要依賴于同一主題的媒體集合,可應(yīng)用于具體任務(wù),在此不討論。傳播媒介通常指信息從誕生到測(cè)量時(shí)經(jīng)歷的媒體用戶,通??梢员磉_(dá)成如圖3所示的樹(shù)形結(jié)構(gòu),其中根A是原始作者,B、C、D則是從作者處進(jìn)行了第一輪轉(zhuǎn)發(fā)的社會(huì)媒體用戶,同樣E、F和G到I分別是從C、D處進(jìn)行第二輪轉(zhuǎn)發(fā)的用戶。

傳播媒介對(duì)文本信息可信度測(cè)量影響很大,這種影響方式主要通過(guò)兩種情況遞增媒體信息可信度。一種方式是傳播媒介中包含可信度高的名人。例如:由于“李開(kāi)復(fù)”在計(jì)算機(jī)領(lǐng)域的影響力,一個(gè)默默無(wú)聞的作者撰寫的與計(jì)算機(jī)相關(guān)的信息被李開(kāi)復(fù)轉(zhuǎn)發(fā)后,其可信度將大幅提升,甚至等同于李開(kāi)復(fù)自己的文本。另外一種方式是傳播媒介中節(jié)點(diǎn)數(shù)目龐大。例如:一條媒體信息被1萬(wàn)人轉(zhuǎn)發(fā),盡管轉(zhuǎn)發(fā)者可能都是一般用戶,但是由于節(jié)點(diǎn)數(shù)目龐大,將導(dǎo)致這條信息的可信度大幅提升。另外一個(gè)需要注意的遞增特點(diǎn)是,無(wú)論多少人轉(zhuǎn)發(fā),可信度都應(yīng)該趨向于一個(gè)上限,因?yàn)楫?dāng)節(jié)點(diǎn)數(shù)大到一定程度后,再增加轉(zhuǎn)發(fā)人數(shù)在可信度上已經(jīng)沒(méi)有明顯貢獻(xiàn)。例如1萬(wàn)人轉(zhuǎn)發(fā)和1.1萬(wàn)人轉(zhuǎn)發(fā),在人類認(rèn)知的模糊程度上,已經(jīng)沒(méi)有明顯區(qū)別。考慮到上述可信度遞增特點(diǎn),本文借鑒了文獻(xiàn)[11]中博客的傳播影響定義了式(3)用于計(jì)算傳播媒介對(duì)微博可信度的影響:

4實(shí)驗(yàn)與分析

微博可信度作為一種靜態(tài)質(zhì)量評(píng)估指標(biāo),可以應(yīng)用于微博檢索排名與垃圾微博過(guò)濾等多種實(shí)際任務(wù),為了驗(yàn)證可信度評(píng)估效果,本文從數(shù)據(jù)堂(http://www.shujutang.com)收集了兩個(gè)新浪微博真實(shí)數(shù)據(jù)集進(jìn)行了微博檢索排名實(shí)驗(yàn)。DS1數(shù)據(jù)集是主題相關(guān)的,選擇了直接排序;為了避免查詢主題偏好,分別選取4個(gè)不同查詢主題對(duì)DS2進(jìn)行了檢索排名。

針對(duì)兩個(gè)數(shù)據(jù)集中的數(shù)據(jù),排名時(shí)分別使用了文本可信度值、文本+作者融合可信度值以及文本+作者+傳播融合可信度值。微博檢索依然屬于信息檢索范疇,信息檢索中常用的傳統(tǒng)檢索排名方法平滑語(yǔ)言模型(Language Modeling with Jelinek-Mercer smoothing, LMJM)[14] 方法被用于和本文提出的可信評(píng)估進(jìn)行了對(duì)比實(shí)驗(yàn)。

評(píng)估使用了不同情況下排名前20的信息中去重信息占比、相關(guān)信息占比以及有用信息占比。去重信息占比指去重信息數(shù)目與信息總數(shù)20之比;相關(guān)信息指信息中包括和查詢主題一致的內(nèi)容,相關(guān)信息占比指相關(guān)信息數(shù)目與去重信息數(shù)目之比;有用信息占比指符合用戶需求的信息與相關(guān)信息之比。其中,對(duì)相關(guān)和有用信息的識(shí)別是通過(guò)人工標(biāo)記獲取的,為了消除個(gè)體差異,采用了多人標(biāo)記結(jié)果取重疊部分的方式。

4.1數(shù)據(jù)及預(yù)處理

DS1數(shù)據(jù)集包括了從2014年3月14日到3月27關(guān)于“馬航失聯(lián)”的微博數(shù)據(jù)共2795條,涉及到用戶1930個(gè);DS2數(shù)據(jù)集沒(méi)有固定主題,包括6萬(wàn)多條微博和1萬(wàn)多個(gè)用戶。兩個(gè)數(shù)據(jù)集的用戶來(lái)源比較多,有個(gè)人也有權(quán)威機(jī)構(gòu),因此,用戶可信度差別相對(duì)較大。圖4和圖5分別是DS1和DS2中用戶的實(shí)際分布以及基于這一分布的四象限劃分,其中DS2中僅包括隨機(jī)抽取的2000個(gè)用戶。

為了獲取傳播樹(shù)需要實(shí)時(shí)遍歷媒體網(wǎng)絡(luò),由于網(wǎng)絡(luò)訪問(wèn)受限,實(shí)時(shí)獲取每個(gè)用戶相對(duì)困難。但是每條信息的轉(zhuǎn)發(fā)數(shù)目很容易獲取,而且基于四象限分類劃分思想,媒體用戶的可信度取值是一個(gè)8元素有限集,也即{認(rèn)證優(yōu)質(zhì)客戶,無(wú)認(rèn)證優(yōu)質(zhì)客戶,認(rèn)證稀奇客戶,無(wú)認(rèn)證稀奇客戶,認(rèn)證自我用戶,無(wú)認(rèn)證自我用戶,認(rèn)證網(wǎng)絡(luò)過(guò)客,無(wú)認(rèn)證網(wǎng)絡(luò)過(guò)客}。考慮到數(shù)據(jù)轉(zhuǎn)發(fā)的常見(jiàn)情況和數(shù)據(jù)集特點(diǎn),傳播樹(shù)可以采用有限集隨機(jī)取樣模擬產(chǎn)生。網(wǎng)絡(luò)世界的轉(zhuǎn)發(fā)情況通??梢詺w納為三類:轉(zhuǎn)發(fā)數(shù)目少、轉(zhuǎn)發(fā)數(shù)目多以及轉(zhuǎn)發(fā)數(shù)目適中。第一類轉(zhuǎn)發(fā)數(shù)目少,轉(zhuǎn)發(fā)者基本不包括優(yōu)質(zhì)客戶或稀奇客戶,因此隨機(jī)取樣的可選范圍要去掉有限集中的前四個(gè)值;第二類轉(zhuǎn)發(fā)數(shù)目多,轉(zhuǎn)發(fā)者中必定包括優(yōu)質(zhì)客戶或稀奇客戶,隨機(jī)取樣的可選范圍依然是8元素有限集,為了滿足最終傳播隊(duì)列中必須包括有限集中的前四個(gè)值,需要附加一個(gè)檢查替換步驟;第三類轉(zhuǎn)發(fā)數(shù)目適中是中間狀態(tài),直接使用有限集隨機(jī)取樣即可。三種類型中第一種情況占比最多,通常情況下一個(gè)數(shù)據(jù)集中95%的信息都沒(méi)有轉(zhuǎn)發(fā)數(shù),只有少數(shù)信息能引起用戶關(guān)注,而轉(zhuǎn)發(fā)數(shù)目多的信息更是寥寥無(wú)幾?;谝陨戏治?,結(jié)合具體數(shù)據(jù)集情況,確定三種轉(zhuǎn)發(fā)情況的分類數(shù)據(jù)。

4.2結(jié)果分析

表2是DS1的排序結(jié)果,從表中可以看出,作者和傳播兩個(gè)上層特征對(duì)文本可信有顯著影響,特別是用戶特征將相關(guān)信息占比提高了20%多。對(duì)于“馬航失聯(lián)”這樣的熱點(diǎn)事件而言,一些權(quán)威新聞機(jī)構(gòu)(例如路透社或CNN)的信息比一般用戶更能獲取公眾認(rèn)可,而這些權(quán)威新聞機(jī)構(gòu)基本都屬于認(rèn)證優(yōu)質(zhì)客戶范疇,因此相關(guān)信息占比大幅度提高。傳播特征對(duì)相關(guān)信息的占比提高有限,這是因?yàn)镈S1數(shù)據(jù)集中傳播特征影響很小,只有10多條數(shù)據(jù)有傳播信息,而且最大傳播數(shù)只有7, 通過(guò)參數(shù)設(shè)定歸屬于適中(1

盡管LMJM方法的相關(guān)信息占比達(dá)到了100%,但是LMJM方法中有用信息的數(shù)目是0,而本文方法的有用信息占比達(dá)到了100%。表3中列出了針對(duì)DS1數(shù)據(jù)的LMJM和文本+作者+傳播中排名前3的信息。從表3中可見(jiàn),LMJM更注重“馬航”在整個(gè)文本中出現(xiàn)的比率,因此這些無(wú)實(shí)際意義的短文本更易排名靠前;而本文方法更注重文本實(shí)際內(nèi)容,因此有實(shí)際意義的長(zhǎng)微博更易排名靠前。本文方法更符合用戶對(duì)微博檢索的實(shí)際需求,在很多檢索情況下,少于5個(gè)字的短文本可以直接作為垃圾處理。

表4是DS2在四個(gè)不同主題上檢索排序后得到的平均值。DS2 數(shù)據(jù)中沒(méi)有轉(zhuǎn)發(fā)數(shù),傳播特征沒(méi)起作用。用戶特征對(duì)文本可信有顯著影響,特別是用戶特征將相關(guān)信息占比提高了10%左右。盡管LMJM方法的相關(guān)信息占比和本文文本+作者融合相當(dāng),但是LMJM方法中有用信息占比明顯偏低,而本文的有用信息占比達(dá)到了80%。通過(guò)詳細(xì)分析,和DS1數(shù)據(jù)集類似,LMJM更注重主題在整個(gè)文本中出現(xiàn)的比率,因此一些無(wú)實(shí)際意義的短文本更易排名靠前;而本文提出方法更注重文本實(shí)際內(nèi)容,因此有實(shí)際意義的長(zhǎng)微博更易排名靠前。從這點(diǎn)來(lái)看,本文方法更符合用戶對(duì)微博檢索的實(shí)際需求。

5結(jié)語(yǔ)

從中文微博信息的特點(diǎn)入手,兼顧了這些特點(diǎn)的可測(cè)量性和實(shí)際任務(wù),形成了中文微博可信度影響因子譜系。考慮到人類認(rèn)知的模糊性本質(zhì),本文提出一個(gè)基于信息融合的中文微博可信度評(píng)估框架。該框架首先為本質(zhì)不同的三個(gè)異構(gòu)特征:文本內(nèi)容、信息作者與信息傳播分別使用了統(tǒng)計(jì)和、四象限法則與傳播樹(shù)排序的度量方式;其次,基于決策層可信度的模糊認(rèn)知特點(diǎn),采用了多維證據(jù)理論進(jìn)行了最終的特征融合;最后,收集了新浪微博中兩個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明: 與傳統(tǒng)信息檢索排序方法平滑語(yǔ)言模型(LMJM)相比,CCM-IF的符合用戶需求的信息占比提高了10%~20%。因此,作為一個(gè)靜態(tài)質(zhì)量評(píng)估指標(biāo),CCM-IF可直接用于微博檢索排序、垃圾微博過(guò)濾等實(shí)際任務(wù)。

盡管CCM-IF可以對(duì)可信度進(jìn)行系統(tǒng)評(píng)估,但是從可信的定義可知,這是一個(gè)主觀性比較強(qiáng)的概念。除了現(xiàn)有的文本內(nèi)容、文本作者和信息傳播三個(gè)高層特征以及文中討論的體現(xiàn)這些特征的可測(cè)量指標(biāo)外,其他很多指標(biāo)比如:時(shí)效、作者文化層次、發(fā)帖頻率等都可能對(duì)可信度有一定影響,而且不同指標(biāo)可能的影響方式和程度也不同。因此,為現(xiàn)有指標(biāo)和特征提供新的評(píng)估方式,增加新的影響指標(biāo)與特征進(jìn)一步完善可信度評(píng)估框架是未來(lái)要進(jìn)行的研究工作。

參考文獻(xiàn):

[1]張劍峰,夏云慶,姚建民.微博文本處理研究綜述[J].中文信息學(xué)報(bào),2012,26(4):21-27. (ZHANG J F, XIA Y Q, YAO J M. A review towards micro text processing [J]. Journal of Chinese Information Processing, 2012, 26(4): 21-27.)

[2]

CASTILLO C, MENDOZA M, POBLETE B. Information credibility on twitter [C]// WWW 11: Proceedings of the 20th International Conference on World Wide Web. New York: ACM, 2011: 675-684.

[3]RAVIKUMAR S, BALAKRISHNAN R, KAMBHAMPATI S. Ranking tweets considering trust and relevance [C]// IIWeb 12: Proceedings of the 9th International Workshop on Information Integration on the Web. New York: ACM, 2012: Article No. 4.

[4]NAGMOTI R, TEREDESAI A, COCK M D. Ranking approaches for microblog search [C]// WI-IAT 10: Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Washington, DC: IEEE Computer Society, 2010, 1: 153-157.

[5]高承實(shí),榮星,陳越.微博輿情監(jiān)測(cè)指標(biāo)體系研究[J].情報(bào)雜志,2011,30(9):66-70. (GAO C S, RONG X, CHEN Y. Research on public opinion monitoring index-system in micro-blogging [J]. Journal of Intelligence, 2011, 30(9): 66-70.)

[6]焦德武,常松.微博輿情:生產(chǎn)、研判與處置研究[J].安徽師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2013,41(1):65-71. (JIAO D W, CHANG S. Study of micro-blog public opinions: production, judgments and treatment [J]. Journal of Anhui Normal University (Humanities and Social Sciences), 2013, 41(1):65-71.)

[7]郭秋艷,何躍.新浪微博名人用戶特征挖掘及效應(yīng)研究[J].情報(bào)雜志,2013,32(2):112-116. (GUO Q Y, HE Y. Study on the celebrity users characteristics mining and the effects of Sina micro-blog [J]. Journal of Intelligence. 2013, 32(2):112-116.)

[8]WANG N, SHE J, CHEN J. How “Big Vs” dominate Chinese microblog: a comparison of verified and unverified users on Sina Weibo [C]// WebSci 14: Proceedings of the 2014 ACM Conference on Web Science. New York: ACM, 2014:182-186.

[9]HOVLAND C I. Changes in attitude through communication [J]. Journal of Abnormal Psychology, 1951, 46(3): 424-437.

[10]OKEFFE D J. Persuasion: Theory and Research [M]. Newbury Park: SAGE Publications, 1992: 131-132.

[11]WEERKAMP W, DE RIJKE M. Credibility-inspired ranking for blog post retrieval [J]. Information Retrieval, 2012, 15(3/4): 243-277.http://xueshu.baidu.com/s?wd=paperuri%3A%28ded32bd6967fc22636ecedc1f4833af8%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Flink.springer.com%2F10.1007%2Fs10791-011-9182-8&ie=utf-8&sc_us=15617408281526462347

[12]DEMPSTER A P. Upper and lower probabilities induced by a multivalued mapping [M]// Classic Works of the Dempster-Shafer Theory of Belief Functions, Volume 219 of the series Studies in Fuzziness and Soft Computing. Berlin: Springer-Verlag, 2008: 57-72.

原稿Annals of Mathematical Statistics, 1967, 38: 325-339.

http://xueshu.baidu.com/s?wd=paperuri%3A%280fd693ec38ad9bd0717c38946617c2b2%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Frd.springer.com%2Fchapter%2F10.1007%2F978-3-540-44792-4_3&ie=utf-8&sc_us=5445830529683542081

[13]李弼程,王波,魏俊,等.一種有效的證據(jù)理論合成公式[J].數(shù)據(jù)采集與處理,2002,17(1):34-36. (LI B C, WANG B, WEI J, et al. An efficient combination rule of evidence theory [J]. Journal of Data Acquisition & Processing, 2002, 17(1):34-36.)

[14]BTTCHER S, CLARKE C, CORMACK G V. Information Re-trieval: Implementing and Evaluating Search Engines [M]. Cambridge, MA: MIT Press, 2010: 198-200.

猜你喜歡
信息融合
基于預(yù)約診療模式下的醫(yī)院網(wǎng)絡(luò)安全設(shè)計(jì)
信息融合方法在水力發(fā)電廠狀態(tài)檢修中的應(yīng)用
基于智能粒子濾波的多傳感器信息融合算法
大數(shù)據(jù)背景下的信號(hào)處理分析
多傳感器圖像融合技術(shù)
大數(shù)據(jù)環(huán)境下基于多維信息融合的高校教學(xué)評(píng)價(jià)
一種無(wú)人飛艇高度傳感器信息融合方法
基于區(qū)域信息融合的風(fēng)電場(chǎng)平均年發(fā)電量預(yù)測(cè)
基于極限學(xué)習(xí)機(jī)的老人防摔倒系統(tǒng)設(shè)計(jì)
并發(fā)故障信息DSmT融合算法的應(yīng)用研究