基于信息融合的中文微博可信度評(píng)估方法

2016-09-29 17:40高明霞陳福榮

計(jì)算機(jī)應(yīng)用 2016年8期

關(guān)鍵詞：信息融合

高明霞　陳福榮

摘要：針對(duì)中文微博信息的特點(diǎn)及這些特點(diǎn)的可測(cè)量性和實(shí)際任務(wù)，系統(tǒng)地梳理了中文微博信息可信度測(cè)量指標(biāo)，并將其進(jìn)行了譜系化分析，提出一個(gè)基于信息融合的中文微博可信度評(píng)估框架CCM-IF。首先，為本質(zhì)不同的三個(gè)異構(gòu)特征：文本內(nèi)容、信息作者與信息傳播使用了不同的度量方式；其次，基于決策層可信度的模糊認(rèn)知特點(diǎn)，采用了多維證據(jù)理論進(jìn)行特征融合；最后，收集了新浪微博兩個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，與傳統(tǒng)信息檢索排序方法平滑語(yǔ)言模型（LMJM）相比，CCM-IF符合用戶需求的信息占比提高了10%～20%。因此，作為一個(gè)靜態(tài)質(zhì)量評(píng)估指標(biāo)，CCM-IF可直接用于微博檢索排序、垃圾微博過(guò)濾等實(shí)際任務(wù)。

關(guān)鍵詞：中文微博；可信度；信息融合；四象限法則；證據(jù)理論

中圖分類號(hào)：TP391

文獻(xiàn)標(biāo)志碼：A

0引言

最近幾年，社會(huì)媒體得到迅猛發(fā)展，特別是微博、微信等社交軟件，已發(fā)展成為互聯(lián)網(wǎng)上的巨擘。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心（China Internet Network Information Center， CNNIC）于2014年7月發(fā)布的《第34次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示，截至2014年6月，我國(guó)微博用戶規(guī)模為2.75億，網(wǎng)民使用率為43.6%，微博已進(jìn)入平穩(wěn)成熟期。但是微博固有的草根特性帶來(lái)的問(wèn)題依然存在，也即用戶對(duì)微博內(nèi)容的真實(shí)性和價(jià)值依然難以判斷。因此，針對(duì)微博在信息書寫、信息傳播、社會(huì)網(wǎng)絡(luò)分析等方面的固有特點(diǎn)，分析、評(píng)估微博內(nèi)容、用戶，并將其應(yīng)用于微博信息綜合或垂直搜索、垃圾微博過(guò)濾等領(lǐng)域的研究，已經(jīng)成為微博研究領(lǐng)域的重要內(nèi)容之一[1]。

由于時(shí)間因素，目前對(duì)微博質(zhì)量研究的實(shí)例大多集中于Twitter分析，例如文獻(xiàn)[2-4]。這些研究可以分為兩類，一類是利用傳統(tǒng)分類技術(shù)的定性分析，這類研究需要大量樣本，獲取的是二值或多值的邏輯值；另一類是針對(duì)不同性能指標(biāo)的定量算法，這些質(zhì)量評(píng)估算法多數(shù)只關(guān)注信息本身或某一側(cè)面，缺少系統(tǒng)、全面的分析和評(píng)估，更沒(méi)有從模糊認(rèn)知的角度進(jìn)行度量。目前針對(duì)中文微博質(zhì)量分析的研究多數(shù)集中于內(nèi)容分析以及特定用戶或主題提取，缺少專門針對(duì)質(zhì)量進(jìn)行定量評(píng)估的系統(tǒng)方法，例如高承實(shí)等[5]構(gòu)建的三維空間就是針對(duì)微博輿情評(píng)估的指標(biāo)。

本文從中文微博信息的特點(diǎn)入手，兼顧了這些特點(diǎn)的可測(cè)量性和實(shí)際任務(wù)，系統(tǒng)地梳理了中文微博信息可信度測(cè)量指標(biāo)，并將其進(jìn)行了譜系化分析，最終抽取出文本信息、信息作者與信息傳播三個(gè)高層異構(gòu)特征?？紤]到可信度的模糊性本質(zhì)，提出一個(gè)基于信息融合的中文微博可信度評(píng)估框架（Credibility of Chinese Microblog based on Information Fusion，CCM-IF），并依據(jù)中文微博特點(diǎn)以及信息融合技術(shù)實(shí)現(xiàn)了用于計(jì)算并融合三個(gè)高層異構(gòu)特征的具體方法。最后，收集了新浪微博兩個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，本文提出的微博可信度評(píng)估方式作為一個(gè)靜態(tài)質(zhì)量評(píng)估指標(biāo)可直接用于微博檢索排序、垃圾微博過(guò)濾等實(shí)際任務(wù)；而且和傳統(tǒng)信息檢索排序方法平滑語(yǔ)言模型相比，該框架和計(jì)算方式在準(zhǔn)確性方面有明顯優(yōu)勢(shì)。

1相關(guān)工作

從社會(huì)媒體角度看，“可信度是主觀認(rèn)知的可信度，是指?jìng)鞑ミ^(guò)程中，信息受播人對(duì)傳播媒體的信賴度的主觀評(píng)量”。微博是一種典型的社會(huì)媒體，對(duì)其可信度的研究屬于質(zhì)量評(píng)測(cè)的一種。下面從微博質(zhì)量評(píng)估角度來(lái)討論現(xiàn)有工作。

中文微博發(fā)展時(shí)間短，目前對(duì)微博質(zhì)量研究的實(shí)例大多集中于Twitter分析。Castillo等[2]利用典型的分類算法對(duì)Twitter上的新聞?lì)愋畔⒑推渌愋畔⑦M(jìn)行了可信和不可信的自動(dòng)分類學(xué)習(xí)，其中對(duì)Twitter信息的特征從四個(gè)側(cè)面（msg.，user，topic，prop.）進(jìn)行了歸類。自動(dòng)分類方法需要大量人工標(biāo)注的樣本，并且得到的是一個(gè)二值邏輯結(jié)果。Ravikumar等[3]將微博看作一個(gè)包含用戶、文本內(nèi)容和網(wǎng)頁(yè)的三層圖結(jié)構(gòu)，并建立了圖中存在的各種鏈接，據(jù)此達(dá)到通過(guò)信任和傳播為Twitter中文本內(nèi)容排隊(duì)的目的。Nagmoti等[4]描述了一個(gè)微博實(shí)時(shí)搜索中排序的新策略。該策略除微博屬性外，還考慮了微博作者的社會(huì)網(wǎng)絡(luò)屬性并將其用于Twitter實(shí)時(shí)搜索的二次排序中，得到了較好的結(jié)果；但該方法涉及到的微博和作者屬性太少，計(jì)算方式也相對(duì)簡(jiǎn)單。

目前針對(duì)中文微博質(zhì)量分析的研究多數(shù)集中于內(nèi)容分析和特定用戶比較方面。高承實(shí)等[5]在研究了微博信息傳播機(jī)制的基礎(chǔ)上，結(jié)合信息空間模型構(gòu)建了微博輿情的三維空間，并運(yùn)用層次分析法建立了微博輿情監(jiān)測(cè)指標(biāo)體系。該體系中重要的監(jiān)測(cè)和影響因素就是微博質(zhì)量評(píng)估分析。焦德武等[6]探討了微博在輿情生產(chǎn)中具有的作用與特征，并從微博內(nèi)容維度和傳播時(shí)間維度兩個(gè)方面對(duì)微博輿情價(jià)值進(jìn)行判斷。郭秋艷等[7]基于新浪微博中用戶數(shù)據(jù)，對(duì)名人效應(yīng)進(jìn)行了定量研究。Wang等[8] 通過(guò)比較新浪微博中認(rèn)證和非認(rèn)證用戶的統(tǒng)計(jì)信息，提出了認(rèn)證用戶中只有很少部分有較大影響，是一些團(tuán)體的核心成員。

從以上的分析可見(jiàn)，目前對(duì)微博質(zhì)量研究的實(shí)例大多集中于Twitter分析，現(xiàn)有的針對(duì)中文微博質(zhì)量的研究只關(guān)注信息本身或某一側(cè)面，缺少系統(tǒng)、全面的分析和量化評(píng)估，更沒(méi)有從“可信度”這一模糊認(rèn)知角度進(jìn)行定量分析。這正是本文要解決的問(wèn)題。

2基于信息融合的可信度評(píng)估框架

微博，即微博客（Microblog）的簡(jiǎn)稱，是一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取平臺(tái)，用戶可通過(guò)Web、即時(shí)通信、電子郵件和手機(jī)等方式，以140字左右的文字更新信息并實(shí)現(xiàn)即時(shí)分享。從這個(gè)角度說(shuō)，微博是一種典型的社會(huì)媒體，其可信度定義完全符合社會(huì)媒體可信度概念。

社會(huì)媒體可信度（social media credibility）這個(gè)詞最早出現(xiàn)于19世紀(jì)中期，由Hovland等[9]提出。其確切定義經(jīng)歷了從信息客觀屬性到受眾主觀認(rèn)知的本質(zhì)轉(zhuǎn)變。目前，OKeffe[10]的定義“可信度是主觀認(rèn)知的可信度，是指?jìng)鞑ミ^(guò)程中，信息受播人對(duì)傳播媒體的信賴度的主觀評(píng)量”已被大多數(shù)人所接受。既然可信度是受眾對(duì)媒體信息的主觀認(rèn)知和評(píng)估，那從受眾角度出發(fā)、以多維視角和方法來(lái)定義和測(cè)量信息可信度，已成為此領(lǐng)域?qū)W術(shù)研究的基本準(zhǔn)則。

為了對(duì)多個(gè)來(lái)源的觀測(cè)信息進(jìn)行統(tǒng)一分析、綜合評(píng)估，信息融合技術(shù)逐漸興起。本文的基本思想就是將微博可信度評(píng)估看作是一個(gè)信息融合問(wèn)題進(jìn)行具體分析。首先，參考文獻(xiàn)[2，11]中涉及到的兩種社會(huì)媒體信息可信度評(píng)估指標(biāo)，并結(jié)合中文微博的特點(diǎn)，基于分層斷代思想對(duì)微博信息可量化指標(biāo)以及高層特征維度進(jìn)行系統(tǒng)梳理與歸屬劃分，獲得了如圖1所示的中文微博可信度影響因子譜系；然后參考信息融合Dasarathy模型及各層的融合技術(shù)，形式化數(shù)據(jù)層和特征層的具體評(píng)估方法，提出了基于信息融合的中文微博可信度評(píng)估框架（CCM-IF），并在該框架下實(shí)現(xiàn)了三個(gè)異構(gòu)特征的評(píng)估方式以及最終的融合方法。文本信息影響因素多，各因素的激勵(lì)作用不同，采用了相對(duì)簡(jiǎn)單的統(tǒng)計(jì)和度量；信息來(lái)源即用戶可信度影響因素少，而且?guī)в忻黠@的模糊本質(zhì)，參考著名的四象限法則提出了媒體用戶四象限劃分度量；考慮到媒體信息傳播的共性，傳播度量借鑒了文獻(xiàn)[11]中博客的傳播計(jì)算形式；考慮到可信度的模糊認(rèn)知，最終的異構(gòu)特征融合采用了具有模糊屬性的多維證據(jù)理論。

3基于信息融合的可信度評(píng)估方法

3.1文本信息可信度測(cè)量

信息本身的可信度可以從客觀和主觀兩個(gè)方面入手考察?？陀^方面不涉及社會(huì)性，單純考慮信息本身的可信度，也即通常所說(shuō)的文本質(zhì)量。通常情況下，我們會(huì)假定：質(zhì)量好的文本比質(zhì)量差的文本更可信，在某種程度上，這正是用戶對(duì)微博信息第一印象的直觀反映。另一方面是用戶對(duì)文本的主觀印象，目前可直接測(cè)量的主觀因素有轉(zhuǎn)貼數(shù)（Sreposts）和評(píng)論數(shù)（Scomments），這兩個(gè)影響因素都是正向激勵(lì)因子，因?yàn)槠淇扇≈挡顒e很大，所以使用了lg（）形式的計(jì)算方式，如表1所示。文本質(zhì)量的考察包括句法、語(yǔ)法、語(yǔ)氣和語(yǔ)義四個(gè)層面。前兩個(gè)層面體現(xiàn)作者的寫作模式與寫作習(xí)慣。一個(gè)可信的文本至少應(yīng)該做到句法和語(yǔ)法正確，例如：一個(gè)拼寫錯(cuò)誤百出的文本很難被認(rèn)定為是可信的。句法和語(yǔ)法方面，本文主要考慮了正向激勵(lì)文本長(zhǎng)度（Slength）和負(fù)向激勵(lì)拼寫錯(cuò)誤（Sspelling）兩個(gè)指標(biāo)，具體計(jì)算方式如表1所示。文本的語(yǔ)氣通常體現(xiàn)個(gè)人情緒和感情傾向。一個(gè)可信的文本語(yǔ)氣應(yīng)該客觀，也即盡量少地涉及到表達(dá)情緒的因素，做到感情上客觀公正。中文微博信息中和個(gè)人情緒相關(guān)的因素包括圖標(biāo)（Semoticons）、重復(fù)標(biāo)點(diǎn)（Spunc）以及正/負(fù)性詞（Sposi/neg）三個(gè)指標(biāo)，重復(fù)標(biāo)點(diǎn)只統(tǒng)計(jì)和情緒相關(guān)的問(wèn)號(hào)、感嘆號(hào)和省略號(hào)，這些因素的具體計(jì)算方式如表1所示。語(yǔ)義是文本質(zhì)量更高層次的要求，與具體任務(wù)和領(lǐng)域相關(guān)，對(duì)其評(píng)價(jià)時(shí)需要有對(duì)應(yīng)的參考量，一個(gè)可信的文本應(yīng)該是與參考量語(yǔ)義相關(guān)的。由于不同的任務(wù)參考量可能不同，例如查詢?nèi)蝿?wù)中的查詢需求或信息聚類中的主題集合等，因此語(yǔ)義因素是一個(gè)依賴主題的指標(biāo)，用于在具體任務(wù)中發(fā)揮作用進(jìn)行文本預(yù)處理或最后步驟的領(lǐng)域識(shí)別。文本信息影響因素多，各因素的激勵(lì)作用不同，采用了相對(duì)簡(jiǎn)單的統(tǒng)計(jì)和度量，如式（1）：

3.2信息來(lái)源可信度測(cè)量

從本質(zhì)上看，任何社會(huì)媒體信息最初都是由人產(chǎn)生的，因此信息來(lái)源（簡(jiǎn)稱信源）可信度就是信息作者的可信度。社會(huì)媒體中的用戶可信度通常又是由他的客觀日常行為和主觀外部評(píng)估累積形成。常見(jiàn)的可測(cè)量客觀日常行為包括是否做過(guò)實(shí)名認(rèn)證（Scertify）、發(fā)布的文本信息總數(shù)（Sposts）；而常見(jiàn)的可測(cè)量外部評(píng)估通常包括粉絲數(shù)目（Sfellows）。這些指標(biāo)中，影響較大的是實(shí)名認(rèn)證。實(shí)名認(rèn)證可看作是虛擬環(huán)境和現(xiàn)實(shí)世界的橋梁。因?yàn)樽鲞^(guò)認(rèn)證的作者有為自己的言論負(fù)責(zé)的主觀意愿，客觀上也更容易被監(jiān)督和審查，因此這個(gè)指標(biāo)可以單獨(dú)作為激勵(lì)因子（>1）影響最終用戶的可信度。粉絲數(shù)和信息總數(shù)這兩個(gè)客觀和主觀因素配合可以粗略地區(qū)分不同類型的用戶。借鑒著名的四象限法則，圖2是一個(gè)主客觀因素決定的媒體用戶四象限分類圖。

圖2中，位于第四象限的用戶是粉絲和發(fā)貼數(shù)目都高的優(yōu)質(zhì)用戶，其可信度相對(duì)最高。位于第二象限的是兩者都低的網(wǎng)絡(luò)過(guò)客，這類用戶對(duì)各種媒體信息的參與度最低，可信度也相對(duì)最低。位于第一和第三象限的用戶一類是發(fā)貼多、粉絲少的自我用戶或廣告客戶，這類用戶的帖子關(guān)注度太低，價(jià)值也相對(duì)較低，接近網(wǎng)絡(luò)過(guò)客；另一類是發(fā)貼少、粉絲多的稀奇用戶，這類用戶盡管發(fā)貼很少，但是粉絲眾多，其帖子的關(guān)注度很高，因此可信度接近優(yōu)質(zhì)用戶。通過(guò)上述分析用戶的可信度大小關(guān)系符合：優(yōu)質(zhì)用戶>稀奇用戶自我用戶>網(wǎng)絡(luò)過(guò)客。區(qū)分用戶的具體劃分值和數(shù)據(jù)集分布密切相關(guān)，每類用戶的實(shí)際取值和數(shù)據(jù)集性質(zhì)以及實(shí)際任務(wù)相關(guān)。粉絲數(shù)和信息數(shù)這兩個(gè)指標(biāo)可取值范圍差別太大，為了最終表現(xiàn)形式仍使用了lg（）取值進(jìn)行了縮減。考慮到認(rèn)證的激勵(lì)作用，用戶的最終可信度值可以通過(guò)式（2）獲?。?/p>

3.3信息傳播可信度測(cè)量

和普通網(wǎng)頁(yè)相比，社會(huì)媒體信息的傳播能力更強(qiáng)。而影響媒體信息可信度傳播的因素一般包括兩項(xiàng)：一是時(shí)效，二是傳播媒介。時(shí)效對(duì)新聞和熱點(diǎn)事件是個(gè)不可忽視的影響因素，它的計(jì)算需要依賴于同一主題的媒體集合，可應(yīng)用于具體任務(wù)，在此不討論。傳播媒介通常指信息從誕生到測(cè)量時(shí)經(jīng)歷的媒體用戶，通?？梢员磉_(dá)成如圖3所示的樹(shù)形結(jié)構(gòu)，其中根A是原始作者，B、C、D則是從作者處進(jìn)行了第一輪轉(zhuǎn)發(fā)的社會(huì)媒體用戶，同樣E、F和G到I分別是從C、D處進(jìn)行第二輪轉(zhuǎn)發(fā)的用戶。

傳播媒介對(duì)文本信息可信度測(cè)量影響很大，這種影響方式主要通過(guò)兩種情況遞增媒體信息可信度。一種方式是傳播媒介中包含可信度高的名人。例如：由于“李開(kāi)復(fù)”在計(jì)算機(jī)領(lǐng)域的影響力，一個(gè)默默無(wú)聞的作者撰寫的與計(jì)算機(jī)相關(guān)的信息被李開(kāi)復(fù)轉(zhuǎn)發(fā)后，其可信度將大幅提升，甚至等同于李開(kāi)復(fù)自己的文本。另外一種方式是傳播媒介中節(jié)點(diǎn)數(shù)目龐大。例如：一條媒體信息被1萬(wàn)人轉(zhuǎn)發(fā)，盡管轉(zhuǎn)發(fā)者可能都是一般用戶，但是由于節(jié)點(diǎn)數(shù)目龐大，將導(dǎo)致這條信息的可信度大幅提升。另外一個(gè)需要注意的遞增特點(diǎn)是，無(wú)論多少人轉(zhuǎn)發(fā)，可信度都應(yīng)該趨向于一個(gè)上限，因?yàn)楫?dāng)節(jié)點(diǎn)數(shù)大到一定程度后，再增加轉(zhuǎn)發(fā)人數(shù)在可信度上已經(jīng)沒(méi)有明顯貢獻(xiàn)。例如1萬(wàn)人轉(zhuǎn)發(fā)和1.1萬(wàn)人轉(zhuǎn)發(fā)，在人類認(rèn)知的模糊程度上，已經(jīng)沒(méi)有明顯區(qū)別。考慮到上述可信度遞增特點(diǎn)，本文借鑒了文獻(xiàn)[11]中博客的傳播影響定義了式（3）用于計(jì)算傳播媒介對(duì)微博可信度的影響：

4實(shí)驗(yàn)與分析

微博可信度作為一種靜態(tài)質(zhì)量評(píng)估指標(biāo)，可以應(yīng)用于微博檢索排名與垃圾微博過(guò)濾等多種實(shí)際任務(wù)，為了驗(yàn)證可信度評(píng)估效果，本文從數(shù)據(jù)堂（http：//www.shujutang.com）收集了兩個(gè)新浪微博真實(shí)數(shù)據(jù)集進(jìn)行了微博檢索排名實(shí)驗(yàn)。DS1數(shù)據(jù)集是主題相關(guān)的，選擇了直接排序；為了避免查詢主題偏好，分別選取4個(gè)不同查詢主題對(duì)DS2進(jìn)行了檢索排名。

針對(duì)兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)，排名時(shí)分別使用了文本可信度值、文本+作者融合可信度值以及文本+作者+傳播融合可信度值。微博檢索依然屬于信息檢索范疇，信息檢索中常用的傳統(tǒng)檢索排名方法平滑語(yǔ)言模型（Language Modeling with Jelinek-Mercer smoothing， LMJM）[14] 方法被用于和本文提出的可信評(píng)估進(jìn)行了對(duì)比實(shí)驗(yàn)。

評(píng)估使用了不同情況下排名前20的信息中去重信息占比、相關(guān)信息占比以及有用信息占比。去重信息占比指去重信息數(shù)目與信息總數(shù)20之比；相關(guān)信息指信息中包括和查詢主題一致的內(nèi)容，相關(guān)信息占比指相關(guān)信息數(shù)目與去重信息數(shù)目之比；有用信息占比指符合用戶需求的信息與相關(guān)信息之比。其中，對(duì)相關(guān)和有用信息的識(shí)別是通過(guò)人工標(biāo)記獲取的，為了消除個(gè)體差異，采用了多人標(biāo)記結(jié)果取重疊部分的方式。

4.1數(shù)據(jù)及預(yù)處理

DS1數(shù)據(jù)集包括了從2014年3月14日到3月27關(guān)于“馬航失聯(lián)”的微博數(shù)據(jù)共2795條，涉及到用戶1930個(gè)；DS2數(shù)據(jù)集沒(méi)有固定主題，包括6萬(wàn)多條微博和1萬(wàn)多個(gè)用戶。兩個(gè)數(shù)據(jù)集的用戶來(lái)源比較多，有個(gè)人也有權(quán)威機(jī)構(gòu)，因此，用戶可信度差別相對(duì)較大。圖4和圖5分別是DS1和DS2中用戶的實(shí)際分布以及基于這一分布的四象限劃分，其中DS2中僅包括隨機(jī)抽取的2000個(gè)用戶。

為了獲取傳播樹(shù)需要實(shí)時(shí)遍歷媒體網(wǎng)絡(luò)，由于網(wǎng)絡(luò)訪問(wèn)受限，實(shí)時(shí)獲取每個(gè)用戶相對(duì)困難。但是每條信息的轉(zhuǎn)發(fā)數(shù)目很容易獲取，而且基于四象限分類劃分思想，媒體用戶的可信度取值是一個(gè)8元素有限集，也即{認(rèn)證優(yōu)質(zhì)客戶，無(wú)認(rèn)證優(yōu)質(zhì)客戶，認(rèn)證稀奇客戶，無(wú)認(rèn)證稀奇客戶，認(rèn)證自我用戶，無(wú)認(rèn)證自我用戶，認(rèn)證網(wǎng)絡(luò)過(guò)客，無(wú)認(rèn)證網(wǎng)絡(luò)過(guò)客}。考慮到數(shù)據(jù)轉(zhuǎn)發(fā)的常見(jiàn)情況和數(shù)據(jù)集特點(diǎn)，傳播樹(shù)可以采用有限集隨機(jī)取樣模擬產(chǎn)生。網(wǎng)絡(luò)世界的轉(zhuǎn)發(fā)情況通?？梢詺w納為三類：轉(zhuǎn)發(fā)數(shù)目少、轉(zhuǎn)發(fā)數(shù)目多以及轉(zhuǎn)發(fā)數(shù)目適中。第一類轉(zhuǎn)發(fā)數(shù)目少，轉(zhuǎn)發(fā)者基本不包括優(yōu)質(zhì)客戶或稀奇客戶，因此隨機(jī)取樣的可選范圍要去掉有限集中的前四個(gè)值；第二類轉(zhuǎn)發(fā)數(shù)目多，轉(zhuǎn)發(fā)者中必定包括優(yōu)質(zhì)客戶或稀奇客戶，隨機(jī)取樣的可選范圍依然是8元素有限集，為了滿足最終傳播隊(duì)列中必須包括有限集中的前四個(gè)值，需要附加一個(gè)檢查替換步驟；第三類轉(zhuǎn)發(fā)數(shù)目適中是中間狀態(tài)，直接使用有限集隨機(jī)取樣即可。三種類型中第一種情況占比最多，通常情況下一個(gè)數(shù)據(jù)集中95%的信息都沒(méi)有轉(zhuǎn)發(fā)數(shù)，只有少數(shù)信息能引起用戶關(guān)注，而轉(zhuǎn)發(fā)數(shù)目多的信息更是寥寥無(wú)幾?；谝陨戏治?，結(jié)合具體數(shù)據(jù)集情況，確定三種轉(zhuǎn)發(fā)情況的分類數(shù)據(jù)。

4.2結(jié)果分析

表2是DS1的排序結(jié)果，從表中可以看出，作者和傳播兩個(gè)上層特征對(duì)文本可信有顯著影響，特別是用戶特征將相關(guān)信息占比提高了20%多。對(duì)于“馬航失聯(lián)”這樣的熱點(diǎn)事件而言，一些權(quán)威新聞機(jī)構(gòu)（例如路透社或CNN）的信息比一般用戶更能獲取公眾認(rèn)可，而這些權(quán)威新聞機(jī)構(gòu)基本都屬于認(rèn)證優(yōu)質(zhì)客戶范疇，因此相關(guān)信息占比大幅度提高。傳播特征對(duì)相關(guān)信息的占比提高有限，這是因?yàn)镈S1數(shù)據(jù)集中傳播特征影響很小，只有10多條數(shù)據(jù)有傳播信息，而且最大傳播數(shù)只有7，通過(guò)參數(shù)設(shè)定歸屬于適中（1

盡管LMJM方法的相關(guān)信息占比達(dá)到了100%，但是LMJM方法中有用信息的數(shù)目是0，而本文方法的有用信息占比達(dá)到了100%。表3中列出了針對(duì)DS1數(shù)據(jù)的LMJM和文本+作者+傳播中排名前3的信息。從表3中可見(jiàn)，LMJM更注重“馬航”在整個(gè)文本中出現(xiàn)的比率，因此這些無(wú)實(shí)際意義的短文本更易排名靠前；而本文方法更注重文本實(shí)際內(nèi)容，因此有實(shí)際意義的長(zhǎng)微博更易排名靠前。本文方法更符合用戶對(duì)微博檢索的實(shí)際需求，在很多檢索情況下，少于5個(gè)字的短文本可以直接作為垃圾處理。

表4是DS2在四個(gè)不同主題上檢索排序后得到的平均值。DS2 數(shù)據(jù)中沒(méi)有轉(zhuǎn)發(fā)數(shù)，傳播特征沒(méi)起作用。用戶特征對(duì)文本可信有顯著影響，特別是用戶特征將相關(guān)信息占比提高了10%左右。盡管LMJM方法的相關(guān)信息占比和本文文本+作者融合相當(dāng)，但是LMJM方法中有用信息占比明顯偏低，而本文的有用信息占比達(dá)到了80%。通過(guò)詳細(xì)分析，和DS1數(shù)據(jù)集類似，LMJM更注重主題在整個(gè)文本中出現(xiàn)的比率，因此一些無(wú)實(shí)際意義的短文本更易排名靠前；而本文提出方法更注重文本實(shí)際內(nèi)容，因此有實(shí)際意義的長(zhǎng)微博更易排名靠前。從這點(diǎn)來(lái)看，本文方法更符合用戶對(duì)微博檢索的實(shí)際需求。

5結(jié)語(yǔ)

從中文微博信息的特點(diǎn)入手，兼顧了這些特點(diǎn)的可測(cè)量性和實(shí)際任務(wù)，形成了中文微博可信度影響因子譜系。考慮到人類認(rèn)知的模糊性本質(zhì)，本文提出一個(gè)基于信息融合的中文微博可信度評(píng)估框架。該框架首先為本質(zhì)不同的三個(gè)異構(gòu)特征：文本內(nèi)容、信息作者與信息傳播分別使用了統(tǒng)計(jì)和、四象限法則與傳播樹(shù)排序的度量方式；其次，基于決策層可信度的模糊認(rèn)知特點(diǎn)，采用了多維證據(jù)理論進(jìn)行了最終的特征融合；最后，收集了新浪微博中兩個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明：與傳統(tǒng)信息檢索排序方法平滑語(yǔ)言模型（LMJM）相比，CCM-IF的符合用戶需求的信息占比提高了10%～20%。因此，作為一個(gè)靜態(tài)質(zhì)量評(píng)估指標(biāo)，CCM-IF可直接用于微博檢索排序、垃圾微博過(guò)濾等實(shí)際任務(wù)。

盡管CCM-IF可以對(duì)可信度進(jìn)行系統(tǒng)評(píng)估，但是從可信的定義可知，這是一個(gè)主觀性比較強(qiáng)的概念。除了現(xiàn)有的文本內(nèi)容、文本作者和信息傳播三個(gè)高層特征以及文中討論的體現(xiàn)這些特征的可測(cè)量指標(biāo)外，其他很多指標(biāo)比如：時(shí)效、作者文化層次、發(fā)帖頻率等都可能對(duì)可信度有一定影響，而且不同指標(biāo)可能的影響方式和程度也不同。因此，為現(xiàn)有指標(biāo)和特征提供新的評(píng)估方式，增加新的影響指標(biāo)與特征進(jìn)一步完善可信度評(píng)估框架是未來(lái)要進(jìn)行的研究工作。

參考文獻(xiàn)：

[1]張劍峰，夏云慶，姚建民.微博文本處理研究綜述[J].中文信息學(xué)報(bào)，2012，26（4）：21-27. （ZHANG J F， XIA Y Q， YAO J M. A review towards micro text processing [J]. Journal of Chinese Information Processing， 2012， 26（4）： 21-27.）

[2]

CASTILLO C， MENDOZA M， POBLETE B. Information credibility on twitter [C]// WWW 11： Proceedings of the 20th International Conference on World Wide Web. New York： ACM， 2011： 675-684.

[3]RAVIKUMAR S， BALAKRISHNAN R， KAMBHAMPATI S. Ranking tweets considering trust and relevance [C]// IIWeb 12： Proceedings of the 9th International Workshop on Information Integration on the Web. New York： ACM， 2012： Article No. 4.

[4]NAGMOTI R， TEREDESAI A， COCK M D. Ranking approaches for microblog search [C]// WI-IAT 10： Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Washington， DC： IEEE Computer Society， 2010， 1： 153-157.

[5]高承實(shí)，榮星，陳越.微博輿情監(jiān)測(cè)指標(biāo)體系研究[J].情報(bào)雜志，2011，30（9）：66-70. （GAO C S， RONG X， CHEN Y. Research on public opinion monitoring index-system in micro-blogging [J]. Journal of Intelligence， 2011， 30（9）： 66-70.）

[6]焦德武，常松.微博輿情：生產(chǎn)、研判與處置研究[J].安徽師范大學(xué)學(xué)報(bào)（人文社會(huì)科學(xué)版），2013，41（1）：65-71. （JIAO D W， CHANG S. Study of micro-blog public opinions： production， judgments and treatment [J]. Journal of Anhui Normal University （Humanities and Social Sciences）， 2013， 41（1）：65-71.）

[7]郭秋艷，何躍.新浪微博名人用戶特征挖掘及效應(yīng)研究[J].情報(bào)雜志，2013，32（2）：112-116. （GUO Q Y， HE Y. Study on the celebrity users characteristics mining and the effects of Sina micro-blog [J]. Journal of Intelligence. 2013， 32（2）：112-116.）

[8]WANG N， SHE J， CHEN J. How “Big Vs” dominate Chinese microblog： a comparison of verified and unverified users on Sina Weibo [C]// WebSci 14： Proceedings of the 2014 ACM Conference on Web Science. New York： ACM， 2014：182-186.

[9]HOVLAND C I. Changes in attitude through communication [J]. Journal of Abnormal Psychology， 1951， 46（3）： 424-437.

[10]OKEFFE D J. Persuasion： Theory and Research [M]. Newbury Park： SAGE Publications， 1992： 131-132.

[11]WEERKAMP W， DE RIJKE M. Credibility-inspired ranking for blog post retrieval [J]. Information Retrieval， 2012， 15（3/4）： 243-277.http：//xueshu.baidu.com/s？wd=paperuri%3A%28ded32bd6967fc22636ecedc1f4833af8%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Flink.springer.com%2F10.1007%2Fs10791-011-9182-8&ie=utf-8&sc_us=15617408281526462347

[12]DEMPSTER A P. Upper and lower probabilities induced by a multivalued mapping [M]// Classic Works of the Dempster-Shafer Theory of Belief Functions， Volume 219 of the series Studies in Fuzziness and Soft Computing. Berlin： Springer-Verlag， 2008： 57-72.

原稿Annals of Mathematical Statistics， 1967， 38： 325-339.

http：//xueshu.baidu.com/s？wd=paperuri%3A%280fd693ec38ad9bd0717c38946617c2b2%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Frd.springer.com%2Fchapter%2F10.1007%2F978-3-540-44792-4_3&ie=utf-8&sc_us=5445830529683542081

[13]李弼程，王波，魏俊，等.一種有效的證據(jù)理論合成公式[J].數(shù)據(jù)采集與處理，2002，17（1）：34-36. （LI B C， WANG B， WEI J， et al. An efficient combination rule of evidence theory [J]. Journal of Data Acquisition & Processing， 2002， 17（1）：34-36.）

[14]BTTCHER S， CLARKE C， CORMACK G V. Information Re-trieval： Implementing and Evaluating Search Engines [M]. Cambridge， MA： MIT Press， 2010： 198-200.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于信息融合的中文微博可信度評(píng)估方法