周如彪 林曉霞 王昱華
摘 要:豆瓣作為目前國(guó)內(nèi)最大的電影評(píng)論網(wǎng)絡(luò)社區(qū),其豆瓣TOP250的電影被很多電影從業(yè)人員和觀眾視為楷模與標(biāo)桿。這些基于觀眾評(píng)分體系誕生的TOP250的影片中是否蘊(yùn)含著一定的規(guī)律和特征呢?運(yùn)用數(shù)據(jù)挖掘的方式能從豆瓣電影評(píng)分的諸多要素中找到什么規(guī)律?本文將以豆瓣TOP250的電影為研究對(duì)象,運(yùn)用多元回歸分析等手段,對(duì)影響豆瓣電影評(píng)分的各個(gè)要素進(jìn)行剝離,觀察其影響力同時(shí)試圖從這250部電影中找到特征與規(guī)律,希望能解釋和預(yù)測(cè)今天某些電影的豆瓣評(píng)分。
關(guān)鍵詞:豆瓣TOP250;數(shù)據(jù)特征挖掘;多元回歸分析
1 文獻(xiàn)綜述
1.1 豆瓣數(shù)據(jù)挖掘相關(guān)的探討
目前我國(guó)國(guó)內(nèi)有關(guān)于豆瓣數(shù)據(jù)挖掘的文章大致分為兩種類型,第一種重在分析豆瓣用戶,通過調(diào)查問卷的形式,重點(diǎn)研究了豆瓣用戶的接受電影營(yíng)銷的效果問題,其可概括為豆瓣評(píng)分系統(tǒng)是豆瓣用戶對(duì)于電影觀感較為直接的體現(xiàn),同時(shí)也是觀眾收集信息的來(lái)源。第二種分析則是傾向于具體電影上應(yīng)用文本與數(shù)據(jù)分析的工具分析研究,這類分析方法,是找到每條評(píng)論的情感得分。
本文出發(fā)的角度是將豆瓣TOP250的250部電影的評(píng)分作為數(shù)據(jù)訓(xùn)練集,通過爬蟲工具收集了這250部電影的“類型”“故事梗概”“導(dǎo)演”“編劇”“主演”“制片國(guó)家地區(qū)”“上映時(shí)間”“片長(zhǎng)”“評(píng)價(jià)人數(shù)”等九大要素并且轉(zhuǎn)化為相應(yīng)指標(biāo),引入了20世紀(jì)80年代美國(guó)的巴里·李特曼(Barry Litman)的李特曼電影預(yù)測(cè)模型中多元回歸分析的思想,嘗試通過多元回歸分析找到電影評(píng)分和“類型”“故事梗概”“導(dǎo)演”“編劇”“主演”“上映時(shí)間”“片長(zhǎng)”“評(píng)價(jià)人數(shù)”等指標(biāo)間的線性關(guān)系。
1.2 多元回歸的適用性探討
線性回歸模型確實(shí)具有廣泛的適用性。最早是20世紀(jì)80年代美國(guó)的巴里·李特曼(Barry Litman)將線性回歸分析思想引入電影票房預(yù)測(cè)分析之中,這是因?yàn)閺倪壿嬌峡梢钥闯?,電影票房確實(shí)受到諸多要素的影響,但是這些要素孰重孰輕,難以直觀的體現(xiàn),所以借助回歸分析進(jìn)行相關(guān)的系數(shù)確定。[1]
線性回歸模型其本質(zhì)上是用一條曲線去擬合一個(gè)或多個(gè)自變量x與因變量y之間關(guān)系的模型,若曲線是一條直線或超平面(成直線時(shí)是一元線性回歸,成超平面時(shí)是多元線性回歸)時(shí)是線性回歸,否則是非線性回歸。本文采取線性回歸的分析方法是因?yàn)樗軌驇椭覀兏玫貏冸x豆瓣評(píng)分各個(gè)要素的比重,從而清晰地展現(xiàn)結(jié)果。
2 數(shù)據(jù)收集、清洗與標(biāo)準(zhǔn)化
2.1 數(shù)據(jù)來(lái)源
本文所引用的數(shù)據(jù)來(lái)自豆瓣網(wǎng)站TOP250排名頁(yè)面(https://movie.douban.com/top250),每部影片的相關(guān)數(shù)據(jù)均來(lái)自豆瓣電影主頁(yè)(https://movie.douban.com/),并且依據(jù)豆瓣電影主頁(yè)的信息,將影響一部電影評(píng)分的要素分為“故事梗概”“評(píng)價(jià)人數(shù)”“上映時(shí)間”“時(shí)長(zhǎng)”“類型”“導(dǎo)演”“編劇”“主演”。
2.2 “故事梗概”的賦值
關(guān)于故事梗概的評(píng)價(jià),最早的先行者就是美國(guó)20世紀(jì)40年代蓋洛普率先展開的針對(duì)電影觀眾的片名測(cè)試,之后他引入了概念測(cè)試、演員陣容測(cè)試。蓋洛普早期從事著新聞與媒體方面的商業(yè)測(cè)試,之后隨著大選中他通過政治民意測(cè)試正確預(yù)測(cè)了里根當(dāng)選總統(tǒng)而聲名鵲起,40年代好萊塢的雷電華公司請(qǐng)回了鼎鼎大名的蓋洛普為他們制作了電影相關(guān)的民意調(diào)查和測(cè)試。[2]
蓋洛普的概念測(cè)試用運(yùn)的是社會(huì)學(xué)中社會(huì)調(diào)查的方法,他通過讓調(diào)查員走訪電話等方式調(diào)查觀眾,讓觀眾根據(jù)16字以內(nèi)的故事梗概打分,通過大量的收集觀眾打分從而得出該故事梗概是否獲得觀眾歡迎。這種方法受到當(dāng)時(shí)電影界人士的認(rèn)可,也是早期使用數(shù)據(jù)的方法分析與預(yù)測(cè)電影票房走勢(shì)的重要方法。所以這從側(cè)面證明了,無(wú)論是當(dāng)時(shí)還是如今都很難從一種相對(duì)客觀的標(biāo)準(zhǔn),或者機(jī)械的標(biāo)準(zhǔn)去衡量一個(gè)故事梗概的得分高低,故事梗概衡量的科學(xué)性與“客觀”性在于集合了大多數(shù)人的觀點(diǎn),同時(shí)保證了這個(gè)大多數(shù)人群,即被調(diào)查群體是滿足整個(gè)社會(huì)橫截面為呈現(xiàn)。
所以本文所研究的豆瓣評(píng)分體系中,考慮到“故事梗概”是一個(gè)很重要的指標(biāo),但是機(jī)械對(duì)其量化或者簡(jiǎn)單的數(shù)值化又是非常不合理的。由于故事梗概其獨(dú)特性,不參與回歸分析之中。
2.3 “類型”的數(shù)據(jù)賦值
本文基于以上兩種類型賦值的方法,采用了豆瓣電影系統(tǒng)內(nèi)部的類型分類方法,并且通過聚類分析講原本多達(dá)十幾種的電影類型大大簡(jiǎn)化,從而得出一個(gè)基本的類型分布情況(見表1),再根據(jù)分布情況進(jìn)行賦值。這樣即避免了單純的詞頻統(tǒng)計(jì)中忽略了類型背后含義的缺點(diǎn),也被避免了同等權(quán)重賦值的與現(xiàn)實(shí)情況差距過大的情況,同時(shí)兼顧了電影類型作為一種人為分類的成因,類型作為一個(gè)“詞”的詞頻問題。
2.4 “導(dǎo)演”“編劇”“主演”賦值
本文的數(shù)據(jù)基于豆瓣電影數(shù)據(jù)挖掘產(chǎn)生,研究的目的也是建立豆瓣電影評(píng)分與諸要素之間的多元線性回歸關(guān)系,所以關(guān)于“導(dǎo)演”“編劇”“主演”的賦值評(píng)分系統(tǒng)選取了豆瓣最佳作品平均分這個(gè)維度,暫未將商業(yè)價(jià)值潛力、藝術(shù)影響力、社會(huì)責(zé)任、公眾形象等等要素計(jì)入。
2.5 “上映時(shí)間”“片長(zhǎng)”“評(píng)價(jià)人數(shù)”標(biāo)準(zhǔn)化
因?yàn)檫@三個(gè)指標(biāo)已經(jīng)是數(shù)值類型,無(wú)須再次賦值,只有需要進(jìn)行適當(dāng)取舍即可,對(duì)于“上映時(shí)間”來(lái)講,維持了其年代的數(shù)據(jù)類型,同時(shí)也是默認(rèn)了當(dāng)下的年代賦值大于以前的年代賦值,也就是純數(shù)值角度2018>1978?!捌L(zhǎng)”的賦值同理,純數(shù)值角度來(lái)說片長(zhǎng)越長(zhǎng)則賦值越大,片長(zhǎng)短則賦值小。評(píng)價(jià)人數(shù)也是評(píng)價(jià)人數(shù)越多賦值越高,人數(shù)越少賦值越低。
3 多元回歸分析
3.1 線性回歸方程以及檢驗(yàn)
對(duì)“評(píng)價(jià)人數(shù)”“上映時(shí)間”“時(shí)長(zhǎng)”“類型”“導(dǎo)演”“編劇”“主演”等指標(biāo)經(jīng)過賦值與標(biāo)準(zhǔn)化后為x1、x2、x3、x4、x5、x6、x7,上述變量符合多元線性回歸的基本條件,且邏輯上線性關(guān)系成立。
通過IBM spss25軟件的多元回歸分析的相關(guān)計(jì)算,豆瓣top250電影訓(xùn)練集擬合出的線性方程為:Y=6.237E-007x1-0.005x2+0.001x3+-0.029x4-0.019x5+0.094x6+0.017x7
3.2 公式與系數(shù)解釋
通過以上的線性公式以及SPSS計(jì)算結(jié)果可以看過,豆瓣電影評(píng)分和豆瓣網(wǎng)站提供的各個(gè)信息要素線性擬合程度R2達(dá)到0.334,也就說33.4%的豆瓣評(píng)分可以被相關(guān)要素所解釋。VIF值都小于10,說明不存在多重共線性。
在各個(gè)要素之中,可以得出評(píng)論人數(shù)的多少是最無(wú)足輕重的,這可以得出豆瓣TOP250電影的高分情況和評(píng)論人數(shù)多少也沒有什么過多關(guān)系,這也符合我們的邏輯認(rèn)知,即在豆瓣電影的評(píng)分取決于每個(gè)用戶的打分,而不是打分用戶的多少。
其次,上映時(shí)間的系數(shù)為-0.005,代表了越接近當(dāng)下(2018年)的電影在豆瓣評(píng)分越低,越是年代久遠(yuǎn)的電影評(píng)分越高,也從側(cè)面說明,如今電影口碑與評(píng)分的趨勢(shì),僅僅從豆瓣評(píng)分的角度去看確實(shí)是呈現(xiàn)出一種下降的。
再次,時(shí)長(zhǎng)的系數(shù)為0.001,說明了電影時(shí)長(zhǎng)越長(zhǎng)評(píng)分越高,越是高分的電影越是片長(zhǎng)更長(zhǎng),似乎比較符合我們平時(shí)認(rèn)為的“佳作偏長(zhǎng)”的看法。
類型得分系數(shù)為-0.029可以看出,因?yàn)樵谫x值過程中,我們?nèi)藶榈貙∏槠O(shè)定的賦值較高,給其余類型賦值依次較低,所以結(jié)論表明越是傾向于單一的劇情片的電影評(píng)分越低,反而擺脫了劇情片的電影則有較高的評(píng)分,也就是越豐富的類型種類越可以帶來(lái)高分評(píng)價(jià)。
在各個(gè)要素之中,理論上應(yīng)該起到關(guān)鍵因素的是導(dǎo)演水平,其次是演員和編劇的水平,也就是他們?cè)诙拱晔艿蕉拱暧脩舻臍g迎程度,較大程度上影響了他們的作品在豆瓣上的得分。但是從分析結(jié)論來(lái)看,“導(dǎo)演得分”“編劇得分”與“演員得分”的相伴概率Sig.為0.506、0與0.655。其中導(dǎo)演得分與演員得分相伴概率Sig.遠(yuǎn)遠(yuǎn)大于0.005,但編劇的相伴概率Sig.小于0.005。這個(gè)結(jié)論說明以導(dǎo)演與演員項(xiàng)指標(biāo)在整體的線性方程中顯著性關(guān)系較低,其系數(shù)不具有說明性。但編劇的豆瓣評(píng)分得分越高者,越能打動(dòng)影片評(píng)分。
4 結(jié)論分析
通過本次針對(duì)豆瓣top250電影評(píng)分的分析可以找到三個(gè)規(guī)律,其一是時(shí)間上越靠近今天的電影,在整體的top250高分榜單上排名越低,說明我們?nèi)缃竦母叻蛛娪安粌H是越來(lái)越少,并且得分也是越來(lái)越低,這個(gè)現(xiàn)象值得引起我們電影工作者的思考。其二,時(shí)間越長(zhǎng)的電影越能獲得高分,恰恰說明如今想要拍攝一部高分的電影,還是需要保證質(zhì)量的同時(shí)適當(dāng)?shù)脑黾悠L(zhǎng),不用被快餐化的風(fēng)氣所影響。其三還需要進(jìn)一步加強(qiáng)影片的類型豐富化,如今電影觀眾尤其是對(duì)于高分電影的需求是類型豐富的電影,單一類型的影片不僅票房不理想,口碑上面也無(wú)法滿足大眾。
參考文獻(xiàn):
[1] 何曉雪,畢圓夢(mèng),姜繩.基于網(wǎng)絡(luò)數(shù)據(jù)預(yù)測(cè)電影票房的多元線性回歸方程構(gòu)建[J].新媒體研究,2018?(05):41-48.
[2] 蘇·奧默爾,蘇紋.測(cè)定愿望:蓋洛普和好萊塢的觀眾研究[J].世界電影,1992(04):81-119.
[3] 毛良斌.豆瓣電影宣傳營(yíng)銷效果分析——基于豆瓣用戶的調(diào)查[J].電影評(píng)介,2014(11):6-8.
[4] 馮莎.豆瓣電影評(píng)論文本的情感分析研究——基于2017年電影《乘風(fēng)破浪》爬蟲數(shù)據(jù)[J].中國(guó)統(tǒng)計(jì),2017(07):30-33.
[5] 劉正山,易婧.“惡評(píng)”界定及其存在性檢驗(yàn)——基于2014—2016年370部電影的實(shí)證分析[J].當(dāng)代電影,2017(05):4-10.
[6] 陳然.我國(guó)商業(yè)電影票房影響因素研究[D].云南財(cái)經(jīng)大學(xué),2016:68.
[7] 胡曉紅,王紅,基于多元線性回歸的電影票房預(yù)測(cè)研究[J].信息技術(shù)與信息化,2018(Z1):183-185.
作者簡(jiǎn)介:周如彪(1993—),男,北京人,研究生,研究方向:電影評(píng)價(jià),信息管理。
林曉霞,女,法學(xué)博士,北京電影學(xué)院管理學(xué)院副教授。
王昱華,女,藝術(shù)學(xué)博士,北京電影學(xué)院學(xué)工部部長(zhǎng)。