由明陽,黃飛虎(四川大學(xué)計算機學(xué)院,成都 610065)
基于觀點動力學(xué)的電影在線評分預(yù)測
由明陽,黃飛虎
(四川大學(xué)計算機學(xué)院,成都610065)
隨著國內(nèi)外電影在線點評系統(tǒng)的快速發(fā)展,電影在線評論已成為電影消費者重要的信息來源。通過挖掘評分?jǐn)?shù)據(jù),可以分析用戶的興趣愛好、購買意圖以及影響用戶購買行為的因素[1]。這些研究內(nèi)容對商家來說是十分有意義和價值的。
目前觀點動力學(xué)的研究主要采用基于多主體建模和仿真方法,研究社會經(jīng)濟系統(tǒng)中個體之間的決策以及在外界公共信息作用下,人群中個體對某些特定事件或事物所持不同觀點的形成和演化等現(xiàn)象。依據(jù)觀點的描述方式,現(xiàn)有的觀點動力學(xué)模型主要有兩類:離散型和連續(xù)型。離散型模型主要包括Galam模型[2]、Sznajd模型[3]、Voter模型[4]和MajoritoryRule模型[5]。連續(xù)型模型主要包括基于有界信任假設(shè)的DW模型[6]和HK模型[7]等。在實際應(yīng)用方面,主要集中于政治和營銷領(lǐng)域,利用觀點動力學(xué)研究用戶評論行為的并不多。張涵提出了在線點評模式下的輿論動力學(xué)模型,并將其應(yīng)用于淘寶環(huán)境中,與真實數(shù)據(jù)對比發(fā)現(xiàn)該模型取得了較好的效果[8]。蘇炯明等建立了在線評分影響力模型[9],對在線評分人數(shù)進行預(yù)測,使用豆瓣網(wǎng)站的影片在線評分?jǐn)?shù)據(jù)進行實驗,分析評分觀點變化對在線評分人數(shù)的影響,結(jié)果表明該模型可以有效的預(yù)測在線評分人數(shù),同時發(fā)現(xiàn)群體中的評分觀點對個體的最終觀點有明顯影響,而個體的初始觀點對其最終觀點的影響較小。
本文從觀點動力學(xué)角度對個體評分行為建模,建立電影評分影響力模型,對電影評分情況進行預(yù)測,并采用豆瓣網(wǎng)站上的電影在線評分?jǐn)?shù)據(jù)進行實驗驗證。
個體的評分過程分為兩個階段:觀影前和觀影后。觀看電影之前,用戶會搜集電影的相關(guān)信息,這里指瀏覽以前用戶的評論,瀏覽之后用戶會對該電影產(chǎn)生一個初始印象。觀影之后,用戶對電影有了體驗感受,這個體驗感受的好壞主要是由電影質(zhì)量決定的。初始印象,電影質(zhì)量和用戶實際評分之間會存在一定的差距,這個差距的大小由用戶的評分習(xí)慣決定。例如,用戶習(xí)慣打高分,則在實際體驗感受比初始印象差的情況下,用戶也會給出稍微更好的評分;若實際體驗感受比初始印象更好,用戶則會給出更高的評分;如果用戶習(xí)慣打低分,則用戶對電影的評分會出現(xiàn)相反的情況。圖1展示了用戶對電影的評分過程。
圖1 用戶電影在線評分過程
1.1初始印象
消費者對電影的初始印象主要是通過瀏覽其他用戶的評分記錄產(chǎn)生的。由于電影屬于體驗型商品,只有在觀看后才能有體驗感受。所以,消費者會為了更充分地了解電影而瀏覽較多的用戶評分。對消費者的初始印象進行描述,需要了解用戶對電影的評分分布。為此,我們采用真實的電影在線評分?jǐn)?shù)據(jù),利用參數(shù)估計與假設(shè)檢驗方法,實證電影評分分布。
(1)電影評分分布實證
評分?jǐn)?shù)據(jù)來源于三個著名的電影評分網(wǎng)站,分別是IMDB電影評分網(wǎng),豆瓣電影網(wǎng)和MovieLens。其中MovieLens評分?jǐn)?shù)據(jù)為公開數(shù)據(jù)集,IMDB電影評分網(wǎng)和豆瓣電影網(wǎng)評分?jǐn)?shù)據(jù)為爬蟲爬取。來自IMDB電影評分網(wǎng)的數(shù)據(jù)包含了4033部電影,電影類型有14種,包括戰(zhàn)爭、動作、科幻、愛情、喜劇和動畫等。來自豆瓣電影網(wǎng)的數(shù)據(jù)包含4018部電影,類型為12種。IMDB網(wǎng)站評分?jǐn)?shù)據(jù)為10分制,豆瓣電影網(wǎng)和MovieLens評分?jǐn)?shù)據(jù)為5分制。豆瓣網(wǎng)和IMDB網(wǎng)站的每部電影評論條數(shù)較多,本文選取了評論條數(shù)在2W以上的電影。而MovieLens網(wǎng)站每部電影的評論條數(shù)相對較少,因此選取了評論條數(shù)不少于1000的電影。最終,選取了IMDB電影評分網(wǎng)中的2023部電影評分?jǐn)?shù)據(jù),豆瓣電影網(wǎng)中的1058部電影評分?jǐn)?shù)據(jù)和MovieLens中的393部電影評分?jǐn)?shù)據(jù)。為了統(tǒng)一評分分制,將IMDB網(wǎng)站評分?jǐn)?shù)據(jù)映射為5分制,具體方式為10分制中1和2的映射為5分制中的1,以此類推。
已有的研究中,有學(xué)者提出電影評分分布有正態(tài)分布、冪律分布和alpha穩(wěn)定分布。因此,我們分別對預(yù)處理過的電影評分?jǐn)?shù)據(jù)進行了上述分布的參數(shù)估計和假設(shè)檢驗。利用MATLAB中的fminsearch函數(shù)對正態(tài)分布和冪律分布進行參數(shù)估計,利用fconsearch函數(shù)對alpha分布進行參數(shù)估計。上述三個分布的假設(shè)檢驗均用kstest函數(shù)進行顯著水平為0.05的KS檢驗。表1展示了對三個電影評分?jǐn)?shù)據(jù)集的三種分布的KS檢驗結(jié)果。
表1 電影評分分布KS檢驗結(jié)果
從表1的KS檢驗結(jié)果可以看出,正態(tài)分布在三個數(shù)據(jù)集中的效果是最好的。特別地,對于豆瓣電影網(wǎng)的評分?jǐn)?shù)據(jù),用正態(tài)分布可以描述88.75%的電影評分?jǐn)?shù)據(jù)。因此,本文采用正態(tài)分布描述電影評分分布。
(2)用戶對電影的初始印象
由上節(jié)的電影評分分布實證可知,可以用正態(tài)分布描述電影評分。即對于每部電影,將所有關(guān)于該部電影的評分?jǐn)?shù)據(jù)當(dāng)作樣本點,組成的樣本空間滿足正態(tài)分布。則有,
將f(x)定義為用戶的初始印象概率函數(shù),μ為均值,δ為方差。通過參數(shù)估計可以得到μ和δ的估計值,進而量化用戶對該電影的初始印象。參數(shù)估計選取的數(shù)據(jù)為用戶瀏覽過的該電影的評分記錄。
(3)電影質(zhì)量
一般說來,電影質(zhì)量的評價涉及到諸多因素,例如電影劇本、演員演技、拍攝技術(shù)和后期制作等,很難處理和量化。但實際電影評價的好壞,卻是由觀看電影后的消費者做出的。從電影在線評分的過程可知,大部分人在看電影前會先瀏覽其他用戶的影評。因此,本文通
1.2評分習(xí)慣
人類動力學(xué)的研究表明,人類行為具有很強的規(guī)律性?,F(xiàn)實生活中,每個人都有自己的習(xí)慣和特點。因此,我們認(rèn)為用戶在電影評分上也是具有一定規(guī)律的,即用戶評分習(xí)慣。通過挖掘每個用戶的評分?jǐn)?shù)據(jù),便可以得出該用戶的評分特點。為此,我們采用獲取的電影評分?jǐn)?shù)據(jù),實證用戶評分分布。
(1)用戶評分分布實證
采用的數(shù)據(jù)集有三個:分別是MovieLens中2000個用戶在2005年的評分?jǐn)?shù)據(jù),MovieLens中6040個用戶在2000年對3900部電影的評分?jǐn)?shù)據(jù)和BookCrossing數(shù)據(jù)集。BookCrossing數(shù)據(jù)集包含了278858個用戶的評分?jǐn)?shù)據(jù)。
表2 用戶評分分布KS檢驗結(jié)果
采用和1.1(1)小節(jié)相同的參數(shù)估計和KS檢驗方法。表2展示了對三個數(shù)據(jù)的三種分布的KS檢驗結(jié)果。從結(jié)果來看,正態(tài)分布取得了最高的匹配率和很好的效果。
(2)用戶評分習(xí)慣
上節(jié)實證了用戶評分分布,結(jié)果表明正態(tài)分布可以很好地匹配用戶的評分。因此我們采用正態(tài)分布的概率密度函數(shù)刻畫用戶評分習(xí)慣,如公式(2)所示。
其中p(x)為用戶評分習(xí)慣概率函數(shù),μ為均值,δ為方差。由實證數(shù)據(jù)計算得出,μ≈3.56,σ≈1.39。
從前面對電影評分過程的描述可知,用戶的評分是在用戶電影的初始印象和電影質(zhì)量的基礎(chǔ)上,按照個人評分習(xí)慣給出的。在社會心理學(xué)中有兩種效應(yīng):馬太效應(yīng)和木桶原理。這兩種效應(yīng)在評分系統(tǒng)中也有體現(xiàn)。有研究表明,人們在做出評價時很容易受到他人評價的影響,形成跟風(fēng),這也是馬太效應(yīng)產(chǎn)生的原因。然而,如果用戶看到的評論中包含有差評,根據(jù)木桶原理,用戶給出的評價也會受到這些差評的影響。有學(xué)者研究發(fā)現(xiàn),用戶在瀏覽評論時,會更愿意參考差評的評論。在實際的評論記錄中,好評和差評幾乎總是共存的。到底是參考好評和差評,對用戶來說是一個矛盾的選擇。因此,在評分建模時需要考慮矛盾性評價存在的現(xiàn)象。文章[10]提出了一個社交網(wǎng)絡(luò)影響力模型解決了這個問題。該模型提出了輿論熵的概念,表述為:
其中,v+為社交網(wǎng)絡(luò)中正觀點的均值,v-為社交網(wǎng)絡(luò)中負觀點的均值。對應(yīng)5分制的評分標(biāo)準(zhǔn),v+等于評論分值為4和5的數(shù)目之和,v-等于評論分值為1和2的數(shù)目之和。
由1.3(2)的描述可知,用戶評分習(xí)慣可以用正態(tài)分布刻畫。所以,我們也采用這個結(jié)論,認(rèn)為個體給出的評分是一個正態(tài)分布的樣本點。評分影響力模型的概率密度函數(shù)如下:
結(jié)合社交網(wǎng)絡(luò)影響力模型,μ和δ的計算方式如下:
其中u∧為初始印象均值,σ為初始印象方差,著為影響力因子,其計算方式如下:
f(X)為用戶評分習(xí)慣的概率密度函數(shù),Q為電影質(zhì)量,f(Q)表示用戶在觀看電影后對電影的感受。e為輿論熵,c為評分制,這里取c=5;影響力因子著,用于描述用戶在觀影前后,其他用戶評價與電影質(zhì)量對用戶產(chǎn)生的影響,該影響會促使用戶產(chǎn)生新的印象,進而給出評價分?jǐn)?shù)。影響力因子著的取值大小反映了觀影前后初始印象與電影質(zhì)量的差異性程度。著取值情況如圖2所示。
圖2 影響力因子取值情況
按照前面描述的電影評分過程,用戶首先產(chǎn)生對電影的初始印象。在此階段,進行正態(tài)分布參數(shù)估計,得出均值和方差的估計值u∧和σ∧
。同時根據(jù)評分?jǐn)?shù)據(jù)計算出輿論熵e,用來描述評分中的矛盾性評價對用戶產(chǎn)生的影響。2節(jié)的電影評分影響力模型是在用戶在觀看電影后對其產(chǎn)生的新的印象。這個印象由初始印象、電影質(zhì)量和用戶評論三個因素共同作用的。根據(jù)公式(6)計算新的均值和方差,從而產(chǎn)生新的評分模型h(x)。評分模型也是一個分布,因此本文從概率角度給出最終評分的算法描述如下:
我們選取了從豆瓣電影網(wǎng)爬取的4044部電影的用戶評分?jǐn)?shù)據(jù)。由于豆瓣網(wǎng)頁的設(shè)置,我們只能獲取評論的前200條記錄,因此實驗對每部電影只模擬200次評分。圖3給出了本文模型與蘇炯明論文中提出的電影評分預(yù)測模型(對比模型一)和張涵提出的在線點評模式下的觀點影響力模型 (對比模型二)的預(yù)測結(jié)果。由于實驗數(shù)據(jù)中存在沒有通過KS檢驗的電影,因此本文又對這類電影分別做了基于正態(tài)分布和冪律分布的預(yù)測,如圖4所示。實驗結(jié)果表明對于通過KS檢驗的電影,利用本模型的預(yù)測結(jié)果在三組模型中是最好的,在瀏覽數(shù)m=70時可以達到68%的預(yù)測準(zhǔn)確率。而對于沒有通過KS檢驗的電影應(yīng)用冪律分布預(yù)測的結(jié)果較好。
圖3 模型預(yù)測準(zhǔn)確率(通過KS檢驗電影)
圖4 模型預(yù)測結(jié)果(未通過KS檢驗電影)
本文提出了一個新的基于觀點動力學(xué)的適用于電影在線評分的影響力模型。分布從初始印象、用戶評分習(xí)慣和電影質(zhì)量三個方面進行數(shù)學(xué)描述,然后給出了影響力因子的計算方法,最后給出了評分影響力模型中均值和方差的計算方式,得出了評分的預(yù)測算法。通過真實的電影評分?jǐn)?shù)據(jù)驗證,本模型的預(yù)測準(zhǔn)確率可以達到68%。相比于其他電影評分模型,本文的模型具有更好的效果。
[1]李亞琴.用戶在線消費評論研究的國際進展與分布格局--基于Web of Science論文的計量分析[J],2013.
[2]GalamS.Application of Statistical Physics to Politics.Physica A:Statistical Mechanics and Its Applications,1999,274(1);132-139.
[3]Sznajd-Weron K,Sznajd J.Opinion Evolution in Closed Community[J].International Journal of Modern Physics C,2000,11(6):2000.
[4]Holley R,Liggett T.Ergodic Theorems for Weakly Interacting Infinite Systems and the Voter Model[J].Annals of Probability,1975,3 (4):643-663.
[5]Howe D A,Percival D B.Wavelet Variance,Allan Variance,Leakage[J].IEEE Transactions on Instrumentation and Measurement, 1996,44(2):94-97.
[6]Deffuant G,Neau D,Amblard F,et al.Mixing Beliefs Among Interacting Agents[J].Advances in Complex Systems,2011.
[7]Hegselmann R,Krause U.Opinion Dynamics and Bounded Confidence Models,Analysisand Simulation[J].Journal of Artificial Societies and Social Simulation,2002,5(3):1-8.
[8]張涵.基于輿論動力學(xué)的在線點評觀點演化及影響研究[D].北京郵電大學(xué),2013.
[9]蘇炯銘,劉寶宏,李琦等.基于觀點動力學(xué)的在線評分人數(shù)預(yù)測[J].計算機工程,2014.
[10]黃飛虎,彭艦,寧黎苗.基于信息熵的社交網(wǎng)絡(luò)觀點演化模型[J].物理學(xué)報,2014.
Movie Rating Score;Opinion Dynamics;Model Prediction;Normal Distribution
Online Rating Score Prediction for Movie Based on Opinion Dynamics
YOU Ming-yang,HUANG Fei-hu
(College of Computer Science,Sichuan University,Chengdu 610065)
1007-1423(2016)05-0007-05
10.3969/j.issn.1007-1423.2016.05.002
由明陽(1992-),男,河南開封人,碩士,研究方向為大數(shù)據(jù)分析和觀點動力學(xué)
2015-12-31
2016-01-12
隨著國內(nèi)外電影在線點評系統(tǒng)的快速發(fā)展,電影在線評分已成為電影消費者的重要信息來源。在評分過程中,個體的觀點受到電影質(zhì)量,自身評分習(xí)慣和其他用戶評分的共同影響。據(jù)此過程從觀點動力學(xué)角度對個體評分行為建模,建立電影評分影響力模型,對電影評分情況進行預(yù)測。使用豆瓣網(wǎng)站的影片在線評分?jǐn)?shù)據(jù)進行實驗,相比其他模型,取得了更好的效果。
電影評分;觀點動力學(xué);模型預(yù)測;正態(tài)分布
黃飛虎(1990-),男,四川遂寧人,博士,研究方向為社會計算和觀點動力學(xué)
With the rapid development of domestic and foreign online movie comment system,the comments have become an important source of information for the consumers.During the comment process,the individual's opinion is influenced by the movie quality,their own comment habits and other users'rating scores.According to this process,makes the model of individual's comment behavior by the viewpoint of opinion dynamics and builds an influenced model for the rating score of movie.Uses the data from douban website,the proposed model achieves better results compared to other models.