高尚
【摘 要】為得出影響我國國產(chǎn)電影票房的主要因素,利用網(wǎng)絡爬蟲技術,爬取藝恩網(wǎng)站2010-2018年排名在前30的電影數(shù)據(jù),共計270部。同時基于隨機森林回歸算法構建電影票房預測模型。根據(jù)模型得出,同檔期影片競爭、片花和預告片播放量以及點映票房三個指標是影響國產(chǎn)電影票房的主要因素
【關鍵詞】電影票房;隨機森林回歸算法;影響因素
一、前言
2019年春節(jié)檔首周票房高達58.3億,接近2010年全年總票房。整個春節(jié)檔期間,電影《流浪地球》狂攬46億票房,位居中國影史第二位。從08年的43.41億總票房到18年的近600億票房,我國電影市場迅速發(fā)展。不僅吸引眾多互聯(lián)網(wǎng)企業(yè)重金投入,同時極大的促進了我國文化產(chǎn)業(yè)的發(fā)展。隨著國家逐步放開電影投資對民間資本的限制,越來越多的人選擇參與到電影投資中,希望從中獲利。然而,由于電影產(chǎn)品的獨特性,對其進行準確把握進而合理投資是難以做到的。因此,分析電影票房的影響因素,進而降低電影投資中存在的風險,對于參與該項投資的民間資本和相關的投資企業(yè)都是有益的。
二、文獻綜述
由于建國初期社會的封閉性,國內電影行業(yè)的發(fā)展受到極大限制。直到20世紀初,仍然存在電影種類單一、投資機制不成熟的問題。同時期,國外對于電影行業(yè)的預測、影響因素分析做過大量研究,其中,Litman[1]在1989年提出電影票房的預測應從創(chuàng)意、發(fā)行、銷售三個角度來進行分析,并基于導演、演員檔期等10個變量建立了多元回歸模型,對電影票房進行預測。Sochay[2]在Litman的基礎之上,引入放映周數(shù)、市場集中度等變量,使得模型的變量數(shù)達到22個。隨著機器學習算法的不斷發(fā)展,眾多外國學者也開始嘗試將機器學習模型應用于電影票房的預測。其中,Sharda[3]首先嘗試基于MLP模型,進行電影票房的分類研究;在這之后,Barman[4]于2012年提出利用BP神經(jīng)網(wǎng)絡算法對電影票房進行預測,但其模型過于簡單,僅涉及一個隱藏層,難以準確的學習出數(shù)據(jù)的高度非線性結構。
國內學者的研究中,陳白鶴[5]等于2005年提出電影票房應取決于電影品牌、特征、專家評級和觀眾評價以及電影的銷售方這四個方面;張玉松[6]則在考慮異方差的基礎上,綜合考慮導演和演員來量化電影品牌,并基于加權最小二乘法估計,得出電影品牌與票房之間存在正相關關系;在數(shù)據(jù)分布方面,王錚[7]注意到我國電影票房存在明顯的“二八效應”(高偏態(tài)性),故采用臨界值方法,構建Logit模型進行回歸,并得出是否續(xù)集、電影評分、上映檔期、明星和導演效應對票房有著積極影響,而居民收入無顯著影響。在利用機器學習方法對電影票房的研究方面,張慧[8]等提出基于深度學習模型對電影票房進行預測,但其數(shù)據(jù)樣本過小,僅有50部影片,估計的結果說服力不大;張雪[9]等嘗試運用卷積神經(jīng)網(wǎng)絡對國內電影票房進行預測,但忽視電影成本、電影評分等重要數(shù)據(jù)導致所得結果并不理想。
相關研究中,較少涉及使用機器學習算法進行電影票房的影響因素分析。因此,本文選用隨機森林回歸算法構建國產(chǎn)電影票房的預測模型,同時計算出影響電影票房的主要因素,以便拓寬該領域的相關研究,并為電影投資人提供一定的投資依據(jù)。
三、變量選取
數(shù)據(jù)方面,考慮到電影票房數(shù)據(jù)存在的嚴重偏態(tài)性,本文選取2010-2018年在國內上映的且排名在當年前30位的國產(chǎn)電影,共計270部,并通過網(wǎng)絡爬蟲技術獲取相應的數(shù)據(jù)。數(shù)據(jù)來源于藝恩網(wǎng)站i。除此之外,2010年以來國務院前后制訂了一系列的政策來扶持內地電影行業(yè)的發(fā)展,因此本文的數(shù)據(jù)選取時間段也充分考慮了數(shù)據(jù)的時效性。
四、模型構建
(一)隨機森林回歸模型
由于電影票房數(shù)據(jù)之間存在高度非線性關系,即某一特定變量難以線性對應票房數(shù)值,兩者之間的變化往往是非線性相關的,因此采用以往的計量模型進行分析難免會產(chǎn)生偏差。
為更好的挖掘出數(shù)據(jù)之間的非線性關系,我們選用隨機森林回歸模型來構建電影票房預測模型,該模型不僅可以用來預測某部電影的具體票房情況,還可根據(jù)整體數(shù)據(jù)情況,給出各個變量對電影票房的重要性大小,分析電影票房的影響因素。除此之外,該模型的分類形式隨機森林分類算法在數(shù)據(jù)的分類領域也被廣泛的應用。
隨機森林回歸模型集成了若干子模型,采用bootstrap重抽樣方法選擇訓練樣本,共抽取n次,并賦予每個樣本等權重;在子模型的權重賦值上,每個子模型等權重。除此之外,通過隨機抽樣方法構建模型可有效降低數(shù)據(jù)的過擬合以及噪聲對模型的影響。
(二)結果分析
在訓練時,我們采用10次交叉驗證的方法,驗證模型是否出現(xiàn)過擬合。同時,我們基于R2指標來檢驗模型的訓練效果,并與單個樹回歸子模型進行對比,驗證隨機森林回歸模型的有效性,具體結果見表2。
可以看出,基于隨機森林算法構建的票房預測模型可以較準確的擬合所給數(shù)據(jù)。除此之外,通過計算刪除某個變量前后模型結果的變化,本文得出了影響電影票房的主要因素及其對應的重要性大小,具體見表3。
可以發(fā)現(xiàn),在所選的指標中,同檔期影片競爭、片花和預告片播放量以及點映票房是影響我國電影票房的三個主要因素,而是否改編以及是否續(xù)集對電影票房的影響較小。因此,為了保證上映影片能夠取得高票房,電影的制作和發(fā)行方應更加注重影片的前期宣傳工作,以便營造良好口碑來贏得觀眾青睞;同時應盡量避免與多部強勢影片同時上映,以免同期票房過多流失。
五、總結
本文通過網(wǎng)絡爬蟲技術,在藝恩網(wǎng)站上抓取2010-2018年中國國產(chǎn)電影票房排名在前30的相關數(shù)據(jù),并基于隨機森林算法構建了國產(chǎn)電影票房的預測模型。并得出同檔期影片競爭、片花和預告片播放量以及點映票房三個指標是影響國產(chǎn)電影票房的主要因素,而相比之下,電影否改編以及是否續(xù)集對票房的影響較小。相關結論既可以為民間投資者提供一定的投資參考,也可為電影的制片人、發(fā)行方等提供指導,助力電影票房實現(xiàn)新的突破。
注釋:
i http://www.cbooo.cn/year?year=2019
【參考文獻】
[1]Barry R. Litman,Linda S. Kohl, Predicting Financial Success of Motion Pictures:The 80s Experience[J]. Journal of Media Economics 1989:51-95.
[2]Sochay S. Predicting the Performance of Motion Pictures[J]. Journal of Media Economics,1994,7(4):1-20.
[3]Ramesh Sharda; DursunDelenShard.Predicting Box-Office Success of Motion Pictures with Neural Networks[J].Expert Systems with Applications,2006,30(2):243-254
[4]Barman; D.;Chowdhury; N.;Singha.To Predict Possible Profit/Loss of a Movie to be Launched Using MLP with Back-PropagationLearning[C].NJ:IEEE Press,2012,15(06):322-325
[5]Byeng-Hee Chang and Eyun-Jung Ki.Devising a Practical Model for Predicting Theatrical Movies Success:Focusing on the Experience Good Property[J]. Journal of Media Economics 2009,18(3):61-97
[6]張玉松; 張鑫 電影票房的影響因素分析[J].經(jīng)濟論壇2009(4)
[7]王錚; 許敏 電影票房的影響因素分析——基于Logit模型的研究[J] 經(jīng)濟問題探索 2013(11)
[8]張慧,王世偉. 基于深度學習對電影票房的預測[J]. 湖北第二師范學院學報,2017(8)
[9]張雪. 基于深度學習卷積神經(jīng)網(wǎng)絡的電影票房預測[D]. 北京 首都經(jīng)濟貿易大學,2017.