杜 慧,郭 巖,范意興,張 瑾,余智華,程學旗
(1. 中國科學院 計算技術研究所,中國科學院網絡數據科學與技術重點實驗室,北京 100190; 2. 中國科學院大學,北京 100190)
基于因果模型的主題熱度計算與預測方法
杜 慧1,2,郭 巖1,范意興1,2,張 瑾1,余智華1,程學旗1
(1. 中國科學院 計算技術研究所,中國科學院網絡數據科學與技術重點實驗室,北京 100190; 2. 中國科學院大學,北京 100190)
網絡是目前最重要的信息傳播渠道,其自由性和豐富性使得信息迅速傳播。挖掘網絡中的熱點主題對政府政策的制定、企業(yè)經營決策的調整可以提供強有力的支持,并能夠滿足網民對熱點主題的關注需求。主題數量的龐大使得主題熱度值的計算尤為重要,該文分析熱度的形成原因,基于因果模型并采用面板數據,給出一種較為客觀可行的主題熱度計算模型。該模型使用易于獲取的數據進行計算,給出較為客觀的熱度度量,進而便于不同主題、不同日期間的熱度對比。在此基礎上,通過對熱度變化規(guī)律的考察,提出一種基于多峰高斯曲線擬合熱度變化進行主題熱度預測的思路。
主題熱度;因果模型;面板數據;熱度預測;多峰高斯曲線
互聯網快速發(fā)展使其已成為信息獲取的最重要的渠道。政府部門通過官方網站發(fā)布政策法規(guī),企業(yè)網站提供企業(yè)及其產品信息,網絡媒體實時更新新聞資訊。更重要的是,網民可以在互聯網中自由地發(fā)表言論?;ヂ摼W的自由性和龐大的信息量使得其難以人工整理歸類,話題發(fā)現與跟蹤技術[1]在大量的信息中發(fā)現重要消息,旨在自動發(fā)現聚類主題。研究者應用不同的聚類算法于話題的檢測問題中,如Single-Pass聚類[2]、增量K-means聚類[3]、層次聚類[4]等。話題發(fā)現將互聯網中出現的海量自由信息實現了主題的歸類,為后期的處理提供了可能性。聚類后的主題數量仍非常龐大,用戶只想獲知真正的熱點;政府企業(yè)需要掌握熱點信息以便更好地運營;熱點信息的推送功能對各大新聞、社交網站等提高服務質量尤為重要;主題熱度也可以為搜索引擎對新聞搜索結果的排序問題提供一定的支持。僅靠人工對聚類后的主題進行熱度評定在效率上是無法滿足需求的,迅速合理地計算主題熱度具有重要意義。同時熱度的未來變化對政府、企業(yè)決策的制定和調整也發(fā)揮著重要的作用,熱度的預測問題也成為了當前研究熱點之一[5-6]。
本文對主題熱度進行研究,分析影響主題熱度形成的因素,基于因果模型[7]提出一種較為客觀可行的計算模型,并在此基礎上根據主題熱度的波浪式發(fā)展規(guī)律使用多峰高斯曲線進行預測。實驗結果表明該方法能夠在允許的誤差范圍內較為合理地衡量主題熱度,并預測熱度的未來變化。
新聞主題熱度的研究中認為熱度受到媒體關注度、用戶關注度的影響。Mao[8]使用新聞文章、來源網站和主題之間相互增強的關系,從媒體關注度的角度研究。羅亞平[9]定義熱度為二者的加權和,使用相關報道數量量化一定時間內站點上主題的媒體關注度,使用用戶的瀏覽行為量化用戶關注度。Wang[10]基于衰退理論[11]刻畫主題的生命周期,根據文章數計算媒體關注度,利用搜索引擎提供的用戶瀏覽行為計算用戶關注度。Li[12]增加了熱度的另外一個特征: 時效性,利用線性回歸來計算主題熱度值。
一般認為點擊量大的主題的熱度較高,有研究者直接將點擊數作為主題熱度值。在此基礎上,文獻[5]利用相似主題的熱度變化預測新主題的熱度,文獻[13]基于小波多分辨尺度分析理論對主題熱度進行預測。點擊量體現了網民對主題的閱讀量,廣泛被網民關注的主題的熱度也相應較高,但僅以點擊量來衡量熱度是不合理的。文獻[14]利用主題的點擊、回復和博文轉載數量加權得到熱度值,并利用馬爾可夫鏈來預測熱度趨勢。
主題熱度的定量計算雖有不少成果,但缺乏統(tǒng)一的衡量標準,大多是在給定的數據(語料)、網站或者時間段內計算相對熱度,不同日期的熱度間的可比性較弱[5-6,9,13],或者為熱度及熱度變化趨勢的預測而設計[6,14],對熱度的衡量不夠細致。熱點主題的出現和分布是不均勻的,往往節(jié)假日期間出現的主題受到的關注較少,且可能一段時間內沒有熱點主題出現。因此,一個合理的主題熱度的度量模型不僅需要實現同一時間內主題熱度間的對比,還要能夠刻畫熱度隨時間的變化。本文分析熱度的形成原因,結合已有的熱度研究,使用因果模型[7],并采用面板數據[7],給出一種較為客觀可行的主題熱度計算模型。該模型計算所需數據易于獲取,計算方法簡便高效。同時根據主題熱度的波浪式變化規(guī)律,本文采用多峰高斯函數模擬熱度變化進行熱度預測。
3.1 基于因果模型的熱度計算
影響主題熱度的因素很多,并且有的影響因素難以獲取或量化。例如,參與主題的用戶的身份特征對主題熱度有影響,但不是所有的網站都提供用戶信息,且不同網站的用戶之間難以量化對比??紤]到計算的可操作性,本文選取影響熱度的因素有主題的點擊量、評論量、文章數量和來源數量,相應的因果模型如圖1所示。一般認為新聞通道中對主題的報道量較為重要,論壇通道的特色是大量的用戶評論,而對博客通道來講因素間的重要性相差不大。不同通道間的量級不同,主題熱度分通道按天計算。
圖1 主題熱度計算的因果模型
熱度難以量化的原因在于其范圍的不確定性,本文指定熱度值范圍[0-5]。其中,5表示主題極熱,受到全民甚至世界范圍的關注;4表示非常熱,眾多人士普遍關注;3是比較熱;2是熱度程度一般;1為不熱,受到的關注很少。例如,“蘆山地震”發(fā)生當天受到了世界的關注,熱度為5;而同一天“復旦大學投毒”事件的熱度略低為4。熱度的影響因素點擊量、評論量、文章數量和來源數量都是無范圍的數值,計算熱度前需要對它們進行量化,使用形如Sigmoid函數:
(1)
分別量化得到0-5的范圍內主題的點擊熱度hclick、評論熱度hreply、流量熱度hdoc和來源廣度hsource。主題熱度H的計算公式如式(2)所示。
(2)
其中,w1、w2、w3、w4為權重,和為1。
3.2 結合面板數據的熱度計算因果模型
面板數據是在不同時刻對樣本進行重復觀測的結果,本文中指不同日期主題熱度及其影響因素數據。3.1節(jié)中的計算模型僅考慮當天的影響因素,那么因素值間的大小關系也就決定了主題熱度間的高低。但實際并非如此,表1中的“點擊量”、“回復量”、“文章數”、“來源網站數量”是采集到的2013年4月8日新聞通道中主題“朝鮮危機”和“中國夢”的相關基礎數據。從基礎數據上看,“中國夢”與“朝鮮危機”的熱度差不多甚至更高一些。但是專家通過主觀分析,并參考了新浪熱點新聞排行榜、百度新聞熱搜詞榜單等第三方資料,給出的熱度排名是: “中國夢”低于“朝鮮危機”(表1)。這個評價是合理的,因為前一天發(fā)生的“朝鮮建議俄駐朝大使館撤離”事件和當天發(fā)生的“韓媒曝朝鮮正準備第四次核試驗”事件,使得當天“朝鮮危機”的熱度明顯高于“中國夢”。
人們對主題熱度的感知是一個連續(xù)的過程,對熱度的判斷會受到以往經驗的影響,即熱度高的主題易于在未來得到較高的熱度評價。鑒于此,模型引入面板數據,將前一天(t-1)主題的熱度作為影響當日(t)主題熱度的一個因素,更新后得到熱度計算的穩(wěn)定得分因果模型如圖2所示,熱度計算公式更新為式(3):
式中,WT為流域中下游年徑流變化的總量;WH為人為活動對流域中下游年徑流變化的影響量;WC為氣候變化對流域上游年徑流變化的影響量;WN為背景值,W入河為流域入河徑流量;W山口為流域水文站的實測年徑流深;WHN為流域水文站的模擬值或預測值;ηH為人為活動對流域中下游徑流變化影響的百分比;ηC為氣候變化對流域中下游徑流變化影響的百分比。
(3)
其中,w1+w2+w3+w4=1,0 圖2 采用面板數據的主題熱度計算因果模型 表1 主題數據 3.3 采用高斯多峰擬合的熱度預測 熱度預測旨在挖掘熱度的未來變化情況,為決策的制定和調整提供支持。文獻[6]中使用高斯函數模擬帖子回復數增長到高峰再衰減的過程。類似地,主題熱度的發(fā)展也總是經歷產生、增長、高峰、衰退的過程, 高斯函數對主題熱度的模擬具有一定的合理性。然而,主題與帖子不同: 帖子具有時效性,用戶一般不會去關注很久以前的帖子;主題卻會由于新出現的消息或進展帶來下一輪的再發(fā)展循環(huán),呈現出波浪式變化的軌跡。 圖3 主題“國五條”的熱度變化曲線 圖3是主題“國五條”自2013年3月8日起50天的熱度變化,包括專家對該主題每天的熱度標注值和采用面板數據因果模型計算的結果,圖中清晰地看到熱度呈現出波浪式的變化軌跡。多峰高斯函數系由多個單峰鐘形高斯函數疊加而成,具有波浪式的函數圖像,因此我們采用多峰高斯函數系擬合主題的熱度變化并進行熱度預測。使用多峰高斯函數系如式(4)所示。 (4) 使用近兩個月內出現的主題進行實驗,全網采集新聞通道主題的點擊量、評論量、文章數量和來源數量,由于很多新聞網站不提供新聞的點擊量,實驗不再考慮點擊熱度。專家根據對熱點新聞的理解并結合百度新聞熱搜詞導航、新浪熱點新聞排行等第三方資料,按照本文對熱度指定的范圍對主題按天進行熱度標注。將數據集隨機平均分為訓練集和測試集,利用訓練集訓練得到模型參數,使用測試集來檢驗模型的效果。 4.1 熱度實驗 已有的研究多是采用人工指定或者層次分析方法得到權重,沒有進一步評價計算方法的效果。目前并沒有關于主題熱度的標準數據集,為了對本文模型進行驗證,我們將本文方法: 因果模型和結合面板數據的因果模型(簡記: 面板數據)與專家打分法進行熱度計算效果的對比,專家打分實驗采用層次分析法得到權重。使用平均絕對偏差(MAD,MeanAbsoluteDifference),如式(5)所示。 (5) 基于層次分析法的專家打分表(表2),計算得到的權重見表3,本文模型訓練得到的權重參數也在表3中列出。從表3中看出,新聞通道中主題的流量熱度對熱度起到了關鍵性的作用, 這與直觀感覺是相符的。熱度計算的MAD在表3中最后一列,因果模型的MAD較專家打分法低一些,但是仍然較大。這是因為熱度本身是一個不確定的概念,難以得到精確的結果。使用面板數據將主題前一天熱度的影響引進后,MAD進一步降低達到0.36,計算效果有了提升。給定不同的偏差閾值p,三組熱度計算的準確性對比如圖4所示,隨著允許偏差p的提升,準確率逐步提高,因果模型的計算準確率明顯高于專家打分法,面板數據的效果更好一些,在允許偏差p為0.5時準確率達到75%,允許偏差p為 0.6時達到81%。 表2 新聞通道、評論熱度、流量熱度和來源廣度關于主題熱度的兩兩重要程度對比專家打分表 表3 權重參數和平均絕對偏差對比表 圖4 主題熱度計算的準確率對比圖 我們選取主題“復旦大學投毒”從2013年4月15日起12日內的熱度變化情況,將三組實驗計算的熱度值與專家標注的熱度進行比較(圖5)。對于該主題,僅考慮截面數據的因果模型的效果比專家打分略優(yōu),結合面板數據的計算結果與實際熱度(專家標注)的擬合效果最佳。第十天面板數據的計算結果的偏差較大,但是此時的熱度值比較低,而我們關注的是熱點主題,此時只要傳播一個該主題熱度較低的信號就可以了。 圖5 主題“復旦大學投毒”熱度計算結果比較 4.2 預測實驗 對主題熱度變化擬合的效果決定了預測的準確性,我們將采用多峰高斯函數對未來熱度進行預測,并與單峰擬合的預測結果進行對比。多峰高斯函數的關鍵在于確定波峰的數量,最簡單的方式是人工指定,通過歷史熱度數據來確定更為合理。3.3節(jié)中以主題“國五條”的熱度變化來說明熱度的波浪式發(fā)展軌跡,圖6是對該主題使用單峰和多峰高斯擬合的結果,可以看出多峰擬合的效果遠優(yōu)于單峰擬合,單峰是多峰波峰數量為1的特例。但是圖中前十天的擬合效果并不好,這是因為擬合選取的時間段太長,擬合效果無法兼顧所有,擬合最優(yōu)的部分往往處于真正的峰值附近。因此在實際預測時可適當地縮短擬合天數,局部求解再組合。 圖6 主題“國五條”熱度變化曲線與單峰、多峰高斯擬合對比 我們使用主題t-1天的熱度數據預測第t天的熱度,主題“禽流感”的熱度預測值與誤差(預測值與實際值的差距)隨日期的變化情況如圖7所示。預測實際是從第四天開始的,由于數據量太小,第四天的預測效果很差。剛開始由于數據量小限制了多峰擬合的效果,導致預測效果略低于單峰預測,從第九天開始,多峰預測效果開始提高,預測誤差基本小于1,能夠滿足實際預測的需求。 圖7 主題“禽流感”的熱度預測及預測誤差變化圖 本文針對主題熱度的研究多是限定在一個或多個網站的某一時間段內計算相對熱度的狀況,結合已有研究成果,并采用面板數據的因果模型對主題熱度計算問題做了進一步嘗試。文章提出一整套包括熱度標注和計算的模型,并在此基礎上提出高斯多峰擬合預測熱度的方法。該模型需要的數據易于獲取,實驗使用涵蓋了主流網站的數據集,從而保證了計算的合理性和可行性。雖然目前模型計算的準確率還不是特別高,但是熱度本身是一個不確定的概念,較已有的研究成果也有了一定的提升,在偏差允許的范圍內具有實用性。在未來研究中,將進一步挖掘影響熱度的因素和因素作用的方式,提高熱度計算與預測的準確性。 [1] Allan J, Carbonell J, Doddington G, et al. Topic detection and tracking pilot study: Final report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, 1998:194-218. [2] 賈自艷,何清,張俊海等.一種基于動態(tài)進化模型的事件探測和追蹤算法[J].計算機研究與發(fā)展, 2004, 41(7): 1273-1280. [3] J P Yamron, S Knecht, P van Mulbregt. Dragon’s Tracking and Detection Systems for the TDT2000 Evaluation[C]//Proceedings of Topic Detection and Tracking workshop. Washington, USA, 2000:75-80. [4] Dai X, Chen Q, Wang X, et al. Online topic detection and tracking of financial news based on hierarchical clustering [C]//Proceedings of the 2010 International Conference on Machine Learning and Cybernetics. 2010: 3341-3346. [5] 聶恩倫,陳黎,王亞強等. 基于K近鄰的新話題熱度預測算法[J].計算機科學, 2012,39(6A):258-260. [6] 盧珺珈,張宏莉,張玥. 基于BBS 的熱點話題發(fā)現與態(tài)勢預測技術的研究[J].智能計算機與應用, 2012,2(2):2-5. [7] (美)貝里等著,吳曉剛主編. 因果關系模型[M]. 格致出版社, 2011. [8] Mao X, Chen W. A method for ranking news sources, topics and articles[C]//Proceeding of ICCET 2010, IEEE (2010), 2010, 4:170-174. [9] 羅亞平. 基于用戶瀏覽行為的網絡熱點話題發(fā)現模型研究[D]. 北京郵電大學碩士學位論文, 2008. [10] Wang C, Zhang M, Ru L, et al. Automatic Online News Topic Ranking Using Media Focus and User Attention Based on Aging Theory[C]//Proceeding of CIKM 2008, ACM (2008), 2008: 1033-1042. [11] Chen C, Chen Y T, Sun Y, et al. Life Cycle Modeling of News Events Using Aging Theory[C]//Proceeding of ECML 2003, Springer (2003): 47-59. [12] Li H. A Linear Regression Based News Topic Hotness Calculation Approach[J]. Journal of Computational Information Systems, 2012, 8(20): 8637-8644. [13] 張虹,趙兵,鐘華.基于小波多尺度的網絡論壇話題熱度趨勢預測[J].計算機技術與發(fā)展,2009,19(4):76-79. [14] 劉勘,李晶,劉萍.基于馬爾可夫鏈的輿情熱度趨勢分析[J].計算機工程與應用, 2011,47(36):170-173. Calculation and Prediction of Topic Popularity Based on Causal Model DU Hui1,2, GUO Yan1, FAN Yixing1,2, ZHANG Jin1, YU Zhihua1, CHENG Xueqi1 (1. CAS Key Lab of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. University of Chinese Academy of Sciences, Beijing 100190, China) Internet, with its freedom and richness, has become the most important channel of information dissemination. Hot topic mining benefits both policy making for government and business strategy adjustment for company. This paper presents an objective method to calculate topic popularity based on causal model by analyzing its influence factors. Data required by the algorithm is easy to obtain and considering panel data makes our algorithm more effective. Then we use multi-Gaussian curve to fit the movement of topic popularity which is useful for popularity prediction. topic popularity; causal model; panel data; popularity prediction; multi-gaussian curve 杜慧(1986—),博士研究生,主要研究領域為自然語言處理、文本傾向性分析。E?mail:duhui@software.ict.ac.cn郭巖(1974—),博士,高級工程師,主要研究領域為網絡信息處理。E?mail:guoy@ict.ac.cn范意興(1990—),博士研究生,主要研究領域為信息檢索。E?mail:fanyixing@software.ict.ac.cn 1003-0077(2016)02-0050-06 2013-09-04 定稿日期: 2013-11-06 國家973計劃(2012CB316303,2013CB329602);國家863計劃(2014AA015204);國家自然科學基金(61232010,61425016,61572473,61572467) TP391 A4 實驗分析
5 結論