国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向領(lǐng)域的高質(zhì)量微博用戶發(fā)現(xiàn)

2018-08-17 07:10葉永君周美林萬儀方
中文信息學(xué)報(bào) 2018年7期
關(guān)鍵詞:維基百科詞條排序

葉永君,李 鵬,周美林,萬儀方,王 斌

(1. 中國科學(xué)院 信息工程研究所,北京 100093;2. 中國科學(xué)院大學(xué),北京 100049)

0 引言

隨著信息化進(jìn)程不斷加快,越來越多的普通用戶從信息的閱讀者演變成了信息的創(chuàng)造者與信息的傳播者。其中,微博平臺(tái)已經(jīng)成了一個(gè)產(chǎn)生熱點(diǎn)事件和觀察社會(huì)言論的重要場所。據(jù)估計(jì),Twitter平臺(tái)每天有高達(dá)五億條微博消息被人們所發(fā)布。 這些微博消息主題豐富,既包含一些普通對話,也包含特定領(lǐng)域相關(guān)的有價(jià)值信息。根據(jù)微博系統(tǒng)的功能規(guī)則,人們(follower)必須關(guān)注其他用戶(followee)才能獲取信息,這些被關(guān)注用戶(followee)發(fā)布的信息質(zhì)量完全決定了關(guān)注者(follower)所獲取信息的價(jià)值。考慮到用戶價(jià)值往往集中在特定領(lǐng)域,選擇領(lǐng)域相關(guān)的高質(zhì)量用戶[1]進(jìn)行關(guān)注,對于微博使用者進(jìn)行信息獲取具有重要價(jià)值: 一方面可以獲取更全面的信息(相關(guān)信息),另一方面也可以減輕信息(不相關(guān)信息)過載問題。

本文將高質(zhì)量微博用戶發(fā)現(xiàn)問題拆解成兩個(gè)子任務(wù): 領(lǐng)域相關(guān)用戶的檢索任務(wù)以及用戶質(zhì)量排序任務(wù)。領(lǐng)域相關(guān)用戶檢索任務(wù)是給定領(lǐng)域,從海量微博用戶中找到與該領(lǐng)域相關(guān)的用戶;用戶排序任務(wù)是指給定用戶集合,根據(jù)用戶質(zhì)量對用戶進(jìn)行排序。

在具體方法上,對于領(lǐng)域相關(guān)用戶檢索任務(wù),我們嘗試將領(lǐng)域詞與微博用戶的匹配轉(zhuǎn)化為領(lǐng)域詞和用戶標(biāo)簽的匹配。其中,為了解決詞項(xiàng)失配問題,我們使用了基于維基百科的語義相似度計(jì)算方案。該方法首先將領(lǐng)域詞、標(biāo)簽詞表示為維基百科的詞條向量,基于詞條向量來計(jì)算匹配度。該方法作為ESA(explicit semantic analysis)的一個(gè)擴(kuò)展應(yīng)用,相比Word2Vec或者LSA等對應(yīng)的隱語義,對最后得到的結(jié)果有著良好的可解釋性。對于用戶質(zhì)量排序任務(wù),我們認(rèn)為用戶質(zhì)量由用戶所發(fā)消息質(zhì)量所決定。進(jìn)一步的統(tǒng)計(jì)分析發(fā)現(xiàn): 含URL的消息質(zhì)量更高、對用戶表征作用更強(qiáng),且更容易被轉(zhuǎn)發(fā),應(yīng)該重點(diǎn)考慮。為此,在計(jì)算時(shí)我們只考慮含URL的消息,構(gòu)造了基于用戶發(fā)布關(guān)系以及用戶轉(zhuǎn)發(fā)關(guān)系的聯(lián)合圖,通過圖迭代得到用戶質(zhì)量以及消息質(zhì)量得分,基于得分完成用戶排序。實(shí)驗(yàn)結(jié)果表明: 該排序方法得到的用戶排序結(jié)果與基于人工標(biāo)注得到的用戶排序結(jié)果具有很高的一致性。

本文后續(xù)內(nèi)容組織如下: 第一節(jié)介紹相關(guān)工作;第二節(jié)介紹本文工作;第三節(jié)給出實(shí)驗(yàn)和結(jié)論;第四節(jié)對全文進(jìn)行總結(jié)。

1 相關(guān)工作

自微博誕生以來,度量用戶的重要性一直是一個(gè)主要研究問題。相關(guān)工作可以分為領(lǐng)域無關(guān)用戶重要度研究[2-7]和領(lǐng)域相關(guān)用戶重要度研究[1,8-9]。大部分的研究工作將用戶的重要性定義為用戶的權(quán)威度: 即所發(fā)信息更容易被轉(zhuǎn)發(fā)傳播,用戶更具有影響力。然而這些工作忽略了用戶的信息量,即用戶發(fā)布的消息數(shù)量。實(shí)際上,用戶發(fā)布的高質(zhì)量消息越多,用戶被關(guān)注的重要性才越大。目前,考慮用戶消息數(shù)量的工作只有Yamaguchi[10]。Yamaguchi等人的用戶測量模型使用用戶所有的推文消息來構(gòu)造 User—Twitter圖。在他們的模型中,用戶的消息數(shù)量將直接影響用戶的測量得分,即在一定程度上,用戶所發(fā)的微博數(shù)量越多,該用戶的測量得分會(huì)越高。本文與 Yamaguchi 的出發(fā)點(diǎn)類似,但存在兩方面的不同: 本文沒有利用用戶的全量消息,只利用“含 URL 的消息”來構(gòu)建圖,減少圖上的節(jié)點(diǎn)數(shù);本文將多種關(guān)系進(jìn)行合并,減少了圖的連邊。這些改進(jìn)可以顯著加速圖的迭代過程。

在計(jì)算用戶重要度時(shí),相關(guān)工作利用的信息包括: 用戶的關(guān)注關(guān)系[1,6,8,10-11]、發(fā)布行為[10]、轉(zhuǎn)發(fā)行為[4,10-11],以及消息內(nèi)容信息[1,4,11]。具體地,Weng[1]等人提出了TwitterRank模型。該算法利用用戶之間的關(guān)注關(guān)系構(gòu)建有向圖,并在該關(guān)系圖上運(yùn)行類PageRank的算法。Meeyoung等人的模型利用信息相對較多,專注于三種行為數(shù)據(jù): ①關(guān)注,②轉(zhuǎn)發(fā),③提及 @,并分別分析這三種行為所帶來的影響。類似地,Yamaguchi等人[10]的模型將用戶的關(guān)注關(guān)系、發(fā)布行為和轉(zhuǎn)發(fā)行為整合到同一個(gè)圖中;考慮到不同行為的內(nèi)在意義不同,為不同類型的邊設(shè)置不同的權(quán)重。Gupta等人[12]的模型中也用到了關(guān)注關(guān)系,并認(rèn)為用戶之間的關(guān)注代表“用戶對用戶推薦的信任”。上述研究在用戶測量時(shí)都考慮到了用戶之間的關(guān)注關(guān)系。

2 本文工作

本文方法的整體框架如圖1所示,輸入為用戶給定的領(lǐng)域詞,輸出為與領(lǐng)域相關(guān)的高質(zhì)量微博用戶。

圖1 整體框架

2.1 領(lǐng)域相關(guān)用戶的檢索

我們使用用戶標(biāo)簽來表示用戶,相關(guān)研究表明用戶標(biāo)簽對于用戶興趣有很好的指示作用,如Ghosh S[13]使用 TwitterList來獲取用戶興趣。相應(yīng)地,在新浪微博平臺(tái)上,每個(gè)用戶也會(huì)和一個(gè)或者一組標(biāo)簽相對應(yīng),這里的標(biāo)簽是用戶自主標(biāo)注的,在一定程度上可以反映用戶所在領(lǐng)域的信息。以微博用戶“愛可可—愛生活”為例(圖2),從標(biāo)簽便能直觀地反映用戶的領(lǐng)域。

然而利用領(lǐng)域詞與用戶標(biāo)簽直接匹配會(huì)存在“詞項(xiàng)失配”問題,為了提升檢索效果,我們借鑒ESA方法[14]的思想,將標(biāo)簽和領(lǐng)域詞映射到由維基百科詞條構(gòu)成的高維概念空間中,通過詞條向量匹配得到用戶與領(lǐng)域的相關(guān)度。該方法可以對文本的隱含語義顯式表示,便于直觀理解向量化后的含義,得到的匹配結(jié)果也更容易解釋。

圖2 微博用戶標(biāo)簽示例

2.1.1 外部資源的獲取和數(shù)據(jù)預(yù)處理

維基百科頁面分為頁面網(wǎng)和類別網(wǎng),本文的研究工作只涉及到頁面網(wǎng)。我們下載了最新的 WikiDump中文資源數(shù)據(jù),對文本進(jìn)行繁簡轉(zhuǎn)換,統(tǒng)一轉(zhuǎn)為中文簡體,該WikiDump 數(shù)據(jù)集可以看作是一系列維基百科詞條頁面的集合。

利用上述方法,我們獲得了兩組數(shù)據(jù)。一是基于2015年10月13號的中文維基百科鏡像,原始大小為1.2GB,數(shù)據(jù)處理后得到866 180篇詞條文檔;二是基于2017年01月02號的中文維基百科鏡像,原始大小為1.4GB,數(shù)據(jù)處理后得到了 1 260 760篇詞條文檔。這些詞條涵蓋了各方面領(lǐng)域信息。

2.1.2 基于顯式語義分析(ESA)的用戶檢索

基于ESA的用戶檢索主要分為兩步: 一是使用ESA方法將領(lǐng)域詞和標(biāo)簽詞表示為由維基百科概念組成的加權(quán)向量(后文稱為解釋向量);二是基于解釋向量計(jì)算領(lǐng)域詞與標(biāo)簽詞的余弦相似度,取相似度最高的用戶作為領(lǐng)域相關(guān)用戶。

對于ESA方法,具體地,令T={φi}表示輸入文本,其對應(yīng)的TF-IDF向量記作〈ωi〉,其中ωi是單詞φi的權(quán)重。令〈kj〉是詞ωi對應(yīng)的維基百科詞條,其中kj為輸入φi與維基百科詞條Cj的關(guān)聯(lián)度,{Cj∈C1,…,CN}(其中N表示資源中維基百科詞條的總數(shù))。這樣的話,對應(yīng)文本T的語義解釋向量V是一個(gè)長度為N的向量(對應(yīng)N個(gè)詞條),其中每個(gè)維基百科詞條Cj的權(quán)重被定義為∑φiωi×kj。向量V的每一維反映了對應(yīng)的維基百科詞條Cj與給定文本T之間的相關(guān)性,如果詞條Cj與原始文本關(guān)聯(lián)較大,那么對應(yīng)的特征權(quán)重也越大。

表1、表2給出了使用ESA得到的解釋向量。以“機(jī)器學(xué)習(xí)”為例,從中我們可以看到解釋向量能夠?qū)υ荚~條進(jìn)行擴(kuò)展,引入相關(guān)特征: 部分是與輸入詞相同或者相近的詞條特征,這些特征與輸入詞存在橫向關(guān)系,如詞條“人工智能”等;二是輸入詞的上位詞或者輸入詞的下位詞,這些特征與輸入詞存在縱向關(guān)系,如“特征縮放”等。顯然,通過ESA的轉(zhuǎn)換擴(kuò)展,可以在一定程度上解決“詞項(xiàng)失配”問題。

表1 基于2015年中文維基百科得到的解釋向量示例(部分)

表2 基于2017年中文維基百科得到的解釋向量示例(部分)

續(xù)表

表1向量化所用資源為2015年10月13號對應(yīng)的866 180 條詞條文檔數(shù)據(jù)。為了說明隨著維基百科資源的擴(kuò)大,詞匯量的增加可以提高向量化的效果,本文再采用2017年01月02號對應(yīng)1 260 760條詞條的文檔數(shù)據(jù)進(jìn)行同樣的向量化處理,得到的結(jié)果如表2所示。對比表1和表2可知,隨著資源的更新和擴(kuò)充,同一輸入文本對應(yīng)向量會(huì)發(fā)生些許變化,比如機(jī)器學(xué)習(xí)對應(yīng)向量中詞項(xiàng) top10 中新增了“數(shù)據(jù)挖掘”詞條,可見近些年,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)兩者交叉的越來越多;特別對于輸入詞“張藝謀”向量詞項(xiàng)“長城(英雄)”的權(quán)重有所提升,這和“長城”電影剛上映這一熱點(diǎn)事件相對應(yīng)。從新舊向量對比可知,隨著內(nèi)容的更新和增加,新向量能在一定程度上反映一些熱點(diǎn)事件、新事件。后文將通過實(shí)驗(yàn)來觀察新舊資源對實(shí)驗(yàn)結(jié)果的影響。

2.2 用戶質(zhì)量排序

該任務(wù)的輸入是2.1節(jié)返回的領(lǐng)域相關(guān)用戶集合,輸出是用戶質(zhì)量排序結(jié)果。用戶排序可以通過計(jì)算用戶質(zhì)量得分來解決。現(xiàn)有工作大部分利用用戶的關(guān)注關(guān)系以及消息轉(zhuǎn)發(fā)關(guān)系,通過構(gòu)造相應(yīng)關(guān)系圖進(jìn)行圖排序得到用戶排序結(jié)果。實(shí)際上,現(xiàn)有方法存在以下兩方面的問題: 大部分現(xiàn)有方法可以識(shí)別高權(quán)威(authority)用戶,但不能識(shí)別高信息量 (hub)用戶,而對于信息獲取需求來講,用戶發(fā)布的消息數(shù)量與消息質(zhì)量在衡量用戶重要度上是同等重要的; ②并不是用戶的所有消息都是高質(zhì)量的,在計(jì)算用戶重要度時(shí),簡單考慮用戶發(fā)布的所有消息會(huì)引入極大的計(jì)算量。

基于上述兩個(gè)問題,我們探索只使用含URL的用戶消息以及消息轉(zhuǎn)發(fā)關(guān)系來對用戶質(zhì)量進(jìn)行排序。具體地,我們首先驗(yàn)證了含URL的消息相比不含URL的消息,其消息質(zhì)量更高,更容易被轉(zhuǎn)發(fā),只使用含URL消息計(jì)算用戶質(zhì)量可以顯著減少計(jì)算量;接著我們提出了一種基于圖的用戶排序方法UBRank(URL biased User Rank),圖中只包含含URL的消息節(jié)點(diǎn),利用消息發(fā)布以及消息轉(zhuǎn)發(fā)關(guān)系來迭代計(jì)算用戶以及消息的重要度。

2.2.1 含URL消息的統(tǒng)計(jì)分析

為了考察消息質(zhì)量與是否包含URL的關(guān)系,我們從3.1的數(shù)據(jù)集中隨機(jī)抽樣了60個(gè)用戶(根據(jù)用戶發(fā)布的消息數(shù)量切分為六個(gè)區(qū)間,切分點(diǎn)為100、500、1 000、2 000、5 000,每個(gè)區(qū)間抽樣10個(gè)用戶),對每個(gè)用戶,隨機(jī)抽取20條含URL的消息以及20條不含URL的消息進(jìn)行人工標(biāo)注。消息質(zhì)量使用三個(gè)標(biāo)注級別: 0表示與用戶標(biāo)簽不相關(guān),1表示相關(guān),2表示相關(guān)且有趣。

進(jìn)一步分析發(fā)現(xiàn): 對于含URL的消息,11.6%的消息被轉(zhuǎn)發(fā);對于不含URL的消息,4%的消息被轉(zhuǎn)發(fā)。這表明含URL的消息包含更多用戶交互行為,更容易計(jì)算其質(zhì)量。上述分析有效地說明了只利用含URL的消息來度量用戶重要度的合理性。

2.2.2 UBRank圖結(jié)構(gòu)

在計(jì)算用戶質(zhì)量得分時(shí),我們使用如下假設(shè): ①用戶發(fā)布消息被其他高質(zhì)量用戶轉(zhuǎn)發(fā)越多,那么用戶質(zhì)量也越高; ②用戶發(fā)布高質(zhì)量消息越多,那么用戶質(zhì)量也越高; ③消息被高質(zhì)量用戶轉(zhuǎn)發(fā)越多,那么消息質(zhì)量也越高。

基于上述假設(shè),我們將“用戶—用戶”轉(zhuǎn)發(fā)圖以及“用戶—URL消息”發(fā)布圖合并為一個(gè)統(tǒng)一的圖,基于該圖來計(jì)算用戶質(zhì)量,圖中的消息節(jié)點(diǎn)為包含URL的消息,而非所有的消息。

具體地,UBRank的圖結(jié)構(gòu)如圖3所示。

圖3 UBRank的雙層圖結(jié)構(gòu)

從圖3中可以看到: ①用戶節(jié)點(diǎn)入度來自用戶和 URL; ②URL 節(jié)點(diǎn)入度來自用戶。這與我們前邊假設(shè)一致。

關(guān)于圖中邊的含義: ①用戶與用戶之間的有向邊,代表轉(zhuǎn)發(fā)關(guān)系; ②用戶與 URL 之間的雙向邊,代表發(fā)布(含轉(zhuǎn)發(fā))關(guān)系。

2.2.3 UBRank迭代算法

假設(shè)用戶質(zhì)量得分為υ=[υ(si)]m×1,消息質(zhì)量得分為ν=[ν(tj)]n×1。UBRank的迭代公式如式(1)、式(2)所示。

其中矩陣U對應(yīng)用戶—用戶圖,矩陣V對應(yīng)用戶—URL圖。用戶的質(zhì)量得分由其相鄰用戶以及發(fā)布的消息質(zhì)量得分決定,含URL消息的質(zhì)量僅僅由其相鄰的微博用戶決定。相應(yīng)的矩陣形式可表示為式(3)、式(4)。

其中α和β分別表示來自同質(zhì)節(jié)點(diǎn)和異質(zhì)節(jié)點(diǎn)(類似 Hits 算法中的 Hub和 Authority節(jié)點(diǎn))對最終質(zhì)量得分的相對貢獻(xiàn)程度,α+β=1。為了保證迭代收斂,每輪迭代結(jié)束時(shí)υ和ν都要進(jìn)行歸一化。

3 實(shí)驗(yàn)和結(jié)論

3.1 實(shí)驗(yàn)準(zhǔn)備

為了驗(yàn)證領(lǐng)域相關(guān)用戶檢索方法的有效性,首先需要一組微博用戶集合以及對應(yīng)的用戶標(biāo)簽。本文通過獲取種子用戶的兩層關(guān)注數(shù)據(jù),采集到了 21 042個(gè)不同用戶,這些用戶屬于各個(gè)領(lǐng)域。通過進(jìn)一步用戶分析,我們發(fā)現(xiàn)其中16 571(占總體用戶的78.75%)個(gè)用戶擁有標(biāo)簽數(shù)據(jù),本文使用該16 571個(gè)用戶及其標(biāo)簽的集合作為本文的實(shí)驗(yàn)室數(shù)據(jù)集。

3.2 領(lǐng)域相關(guān)用戶檢索—對比實(shí)驗(yàn)設(shè)置

為了驗(yàn)證本文提出的基于維基百科的顯式向量表示法的有效性,我們選擇領(lǐng)域查詢“機(jī)器學(xué)習(xí)”和“信息檢索”,比較不同方法得到的領(lǐng)域用戶集合的相關(guān)性。具體地,我們實(shí)現(xiàn)對比了以下幾種用戶檢索方法。

(1) 基于維基百科ESA的相似計(jì)算法: 如前面方法分析所述,利用維基百科頁面網(wǎng)的詞條文檔對領(lǐng)域詞和標(biāo)簽進(jìn)行向量化,這里本文有 2015-10 和 2017-01 兩份資源,分別記作維基15和維基17。其中利用倒排索引獲得對應(yīng)詞條的權(quán)重后,為了去除噪音和不重要的關(guān)聯(lián)關(guān)系,按照詞條權(quán)重排序,只保留排名最高的前 80%的詞條。

(2) 基于知網(wǎng)的語義相似度計(jì)算法: 利用知網(wǎng)中的義原對詞語進(jìn)行解釋,并基于義原進(jìn)行相似度計(jì)算,該方法簡稱為“知網(wǎng)”。

(3) 基于Word2Vec+中文維基百科資源的語義相似度計(jì)算方法: 利用Word2Vec框架訓(xùn)練中文維基百科資源,此處直接用最新的 2017-01 對應(yīng)的維基百科資源。訓(xùn)練方式選擇的CBOW,該方法簡稱為“Word2Vec”。

3.3 領(lǐng)域相關(guān)用戶檢索-結(jié)果與評價(jià)

正如前文所述,該部分問題是一個(gè)典型的信息檢索問題,已知領(lǐng)域詞,得到匹配的用戶集合。考慮到人工標(biāo)注的耗時(shí)和高成本,本文僅僅使用正確率(Precision)作為評價(jià)指標(biāo)。具體來說,統(tǒng)計(jì)各個(gè)實(shí)驗(yàn)結(jié)果的P5、P50,P100和P200。實(shí)際操作層面,本文至多只需要標(biāo)注各個(gè)實(shí)驗(yàn)的top200即可。經(jīng)過pooling后,針對領(lǐng)域詞“機(jī)器學(xué)習(xí)”和“信息檢索”,實(shí)際本文分別只得到了429個(gè)和447個(gè)不同的用戶,只需要人工標(biāo)注這些用戶即可。評價(jià)結(jié)果如表3、表4所示。

表3 領(lǐng)域詞“機(jī)器學(xué)習(xí)”檢索效果/%

表4 領(lǐng)域詞“信息檢索”檢索效果/%

從表3和表4可以看到,維基15和維基17要優(yōu)于其他方法,說明基于維基百科ESA的相似度計(jì)算方法的有效性。再對比這二者可知,2017年的數(shù)據(jù)集效果明顯優(yōu)于2015年的數(shù)據(jù)集,說明隨著資源規(guī)模的擴(kuò)大,檢索效果會(huì)有進(jìn)一步提升。

3.4 用戶質(zhì)量排序—對比實(shí)驗(yàn)設(shè)置

為了驗(yàn)證本文所提的UBRank排序方法的有效性,本文實(shí)現(xiàn)了以下五種用戶排序方法。

(1) UBRank: 如前面算法分析所述, UBRank 只關(guān)注含 URL 的消息,并基于用戶—用戶轉(zhuǎn)發(fā)圖和用戶—URL發(fā)布圖進(jìn)行圖算法構(gòu)建。通過訓(xùn)練所知,參數(shù)α和β都設(shè)置為0.5。

(2) RTRankU: 此方法僅僅基于“含URL 消息”的轉(zhuǎn)發(fā)消息構(gòu)建用戶—用戶轉(zhuǎn)發(fā)圖,此時(shí)忽略用戶—URL 發(fā)布圖。本文將在此用戶—用戶轉(zhuǎn)發(fā)圖上運(yùn)行 PageRank 算法。

(3) RTRankA: 此方法基于所有消息的轉(zhuǎn)發(fā)關(guān)系構(gòu)建用戶—用戶轉(zhuǎn)發(fā)圖,并依舊忽略用戶—URL發(fā)布圖。本文也在此完全的用戶—用戶轉(zhuǎn)發(fā)圖上運(yùn)行 PageRank算法。

(4) TuRank: TuRank 算法考慮所有的行為數(shù)據(jù): 關(guān)注行為、發(fā)布行為和轉(zhuǎn)發(fā)行為。圖中的節(jié)點(diǎn)表示用戶,用戶—消息之間的發(fā)布行為和用戶之間的轉(zhuǎn)發(fā)行為都會(huì)映射到用戶之間的邊上。并按照文獻(xiàn)[10]中工作對“不同關(guān)系(粉絲關(guān)系和轉(zhuǎn)發(fā)關(guān)系)邊”對應(yīng)的權(quán)重進(jìn)行區(qū)分設(shè)置。此方法是目前相關(guān)工作中表現(xiàn)最好的模型,是本文模型的重點(diǎn)參照對象。

(5) TwitterRank: 這個(gè)模型是文獻(xiàn)[1]中算法的簡化版本。本文跳過了從消息中計(jì)算用戶主題因子的過程,因?yàn)閺囊婚_始,本文挑選出的用戶集合已經(jīng)限定在某個(gè)特定的主題中。該方法僅僅基于用戶之間的關(guān)注關(guān)系構(gòu)建用戶—用戶關(guān)注圖。

3.5 用戶質(zhì)量排序-結(jié)果與評價(jià)

為了度量算法效果,我們通過人工標(biāo)記獲得用戶質(zhì)量標(biāo)準(zhǔn)序,通過比對算法得到的序與標(biāo)準(zhǔn)序的差異來評估算法效果。序的度量使用Kendall’sτ[15]作為評估指標(biāo)。τ值越大意味著算法得到的序越接近人工判斷。

在進(jìn)行人工標(biāo)注時(shí),我們先對用戶消息進(jìn)行標(biāo)注,用戶質(zhì)量得分等于用戶消息得分的累加和。考慮到用戶發(fā)布消息規(guī)模很大,為了降低標(biāo)注量,我們對用戶消息進(jìn)行分層抽樣,只對抽樣結(jié)果進(jìn)行標(biāo)注,基于樣本標(biāo)注得分來估算用戶所有消息得分。具體地,對每個(gè)用戶,根據(jù)消息<是否含URL、轉(zhuǎn)發(fā)量>進(jìn)行分組?!笆欠窈琔RL”對應(yīng)二類: 包含URL、不含URL,轉(zhuǎn)發(fā)量分為三個(gè)區(qū)間: [0,1), [1,5),[5,+∞),所以每個(gè)用戶的消息被劃分為六組。我們在每組抽樣五條消息進(jìn)行標(biāo)注,每個(gè)用戶平均有30條消息被標(biāo)注。我們將消息質(zhì)量劃分為三個(gè)等級: 0表示領(lǐng)域不相關(guān),1表示相關(guān),2表示相關(guān)且有趣。各算法得到的用戶排序性能如表5所示。

表5 Top 10用戶實(shí)驗(yàn)結(jié)果對比

從表5可以發(fā)現(xiàn),本文所提的 UBRank要優(yōu)于其他對比實(shí)驗(yàn)。RTRankU的效果要好于RTRankA,說明了 “僅使用帶 URL消息”相比使用“所有消息”在計(jì)算用戶質(zhì)量排序上的優(yōu)越性。具體地,在圖構(gòu)建上,RTRankU只使用帶 URL 的消息,而RTRankA 使用所有消息,其中包括了那些不帶 URL 的消息。除了這點(diǎn)不同外,其他的過程對于兩種方法是完全相同的。這也與前面的統(tǒng)計(jì)分析相一致: 含 URL 的消息比不含URL 的消息質(zhì)量更高;反過來說,不含 URL 的消息由于轉(zhuǎn)發(fā)量有限且話題無關(guān),對于用戶質(zhì)量測量可能引入噪音。

從表5中我們還可以發(fā)現(xiàn)RTRankA的實(shí)驗(yàn)效果與 TwitterRank的效果相當(dāng);這表明轉(zhuǎn)發(fā)關(guān)系與關(guān)注關(guān)系在計(jì)算用戶重要度上效果相當(dāng)。TuRank的實(shí)驗(yàn)效果優(yōu)于RTRankA、 TwitterRank,這一結(jié)果表明,通過組合關(guān)注信息和轉(zhuǎn)發(fā)信息可以提升實(shí)驗(yàn)效果。RTRankU同時(shí)優(yōu)于 RTRankA、TwitterRank表明: 相比利用“所有消息的轉(zhuǎn)發(fā)”和“用戶之間的關(guān)注”信息,利用“含 URL消息的轉(zhuǎn)發(fā)”信息計(jì)算用戶質(zhì)量更為有效。此外,對數(shù)據(jù)集中所有用戶(21 042用戶)的所有消息進(jìn)行統(tǒng)計(jì),我們發(fā)現(xiàn)含URL的消息量只占總體消息量的20%,利用含URL消息計(jì)算用戶質(zhì)量可以極大地減少計(jì)算規(guī)模。

4 總結(jié)與展望

本文研究面向領(lǐng)域的高質(zhì)量微博用戶發(fā)現(xiàn)問題,并將該問題分解為兩個(gè)子問題: 領(lǐng)域相關(guān)用戶的檢索以及用戶質(zhì)量排序。對于領(lǐng)域相關(guān)用戶檢索,我們使用用戶標(biāo)簽來表示用戶,通過計(jì)算領(lǐng)域詞與用戶標(biāo)簽的匹配度,取排名最高的用戶作為領(lǐng)域相關(guān)用戶,領(lǐng)域詞與用戶標(biāo)簽匹配使用基于中文維基百科的顯式向量(ESA)的語義相似度計(jì)算方法,實(shí)驗(yàn)驗(yàn)證了ESA方法在檢索領(lǐng)域相關(guān)用戶方面的有效性和優(yōu)越性,并通過2015年和2017年新舊資源對比,說明隨著資源的更新,匹配精度會(huì)得到進(jìn)一步提升。對于用戶質(zhì)量排序,我們提出了基于圖的迭代排序方法UBRank,在計(jì)算用戶質(zhì)量時(shí)同時(shí)考慮用戶發(fā)布消息的數(shù)量和消息的權(quán)威度,并且只選擇含URL的消息來構(gòu)建圖,實(shí)驗(yàn)表明僅使用含URL的消息相比使用全部消息得到的用戶質(zhì)量排序效果更好,并且引入的計(jì)算規(guī)模更小。

未來的工作包括: 通過引入更多中文資源來提升語義相似度的匹配效果、對URL做進(jìn)一步過濾、考慮引入時(shí)間因素對用戶質(zhì)量進(jìn)行評價(jià)等。

猜你喜歡
維基百科詞條排序
維基百科青年
作者簡介
恐怖排序
利用簡單的公式快速分隔中英文詞條
節(jié)日排序
APP
IBM的監(jiān)視
借力HTML5技術(shù)在線多人協(xié)作編輯視頻,維基百科正式邁入視頻時(shí)代!