李奕,王曉峰
(上海海事大學(xué)信息工程學(xué)院,上海201306)
2017年中國電影總票房突破500億大關(guān),細數(shù)近10年,就中國電影票房而言,從2009年的100億元激增到2017年559億元,創(chuàng)造了各種票房神話。隨著政府扶持政策不斷出臺,吸引了包括阿里在內(nèi)多個互聯(lián)網(wǎng)巨頭投資影業(yè),這種種跡象表明,我國電影市場正向產(chǎn)業(yè)化轉(zhuǎn)型。然而經(jīng)過調(diào)研表明,中國電影市場并沒有表明上光鮮,除去國外引進片,多達七成的國產(chǎn)電影處于虧本狀態(tài),所以能否提前預(yù)測一部電影在上映之前的票房多少對投資人來說至關(guān)重要。
得益于國外電影業(yè)比中國成熟,國外學(xué)者在票房預(yù)測模型方面有很多建樹,20世紀(jì)80年代李特曼票房模型[1]認為電影票房取決于創(chuàng)意、發(fā)行、營銷三個方面,導(dǎo)演、演員、出品地、類型、續(xù)集、檔期、提名、劇情、評分、發(fā)行公司這十大因素與票房相關(guān)。20世紀(jì)90年代斯格特·蘇凱票房模型[2]認為電影票房主要包括創(chuàng)意、發(fā)行模式和市場推廣三個方面,屏幕數(shù)量、分級、奧斯卡提名、奧斯卡獲獎、檔期、圣誕節(jié)上映、MPAAR分級、CR104等22個因素與票房相關(guān)。21世紀(jì)初陳白鶴等[3]提出電影票房取決于電影品牌、客觀特征、專家的評級和觀眾的評級、經(jīng)銷商這四個方面,模型因素包括了預(yù)算、觀眾和專家評級、續(xù)集、屏幕數(shù)量、MPAAR、演員、劇本、檔期、復(fù)活節(jié)上映等。2006年Sharda[4]提出以多層神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)對電影票房進行分類,但其數(shù)據(jù)收集時全部采用0,1賦值,喪失了數(shù)據(jù)的解釋性。2012年Barman[5]等提出利用反饋神經(jīng)網(wǎng)絡(luò)算法對電影票房進行了預(yù)測,但其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡單,只有一個隱藏層,也忽略了導(dǎo)演、演員等一系列影響因素。2013年Marshall[6]等提出結(jié)合電影實時觀影人次進行動態(tài)預(yù)測電影票房。2014年隨著大數(shù)據(jù)和云計算技術(shù)的迅猛發(fā)展,百度票房預(yù)測模型[7]利用搜索引擎和社交網(wǎng)絡(luò)關(guān)鍵詞的搜索量、轉(zhuǎn)發(fā)量、評論量、各大主流視頻網(wǎng)站電影預(yù)告片的點擊量加上各項百度指數(shù)等諸多因素綜合來預(yù)測電影票房,然而由于樣本有些可以人為更改,“臟數(shù)據(jù)”的存在導(dǎo)致百度票房模型有時預(yù)測偏差過大,例如2014年上映的《黃金時代》,模型給出的兩億票房預(yù)測值與實際慘淡的4000萬相去甚遠。同年,鄭堅[8]等在Barman的基礎(chǔ)上根據(jù)電影上映期間的數(shù)據(jù)對BP神經(jīng)網(wǎng)絡(luò)進行了優(yōu)化。2015年重慶大學(xué)李金芝[9]等提出了基于泛函網(wǎng)絡(luò)的票房預(yù)測模型,通過先對電影進行聚類再預(yù)測的方法,但其僅選取了231部樣本,其中15部作為測試集,一共選擇了五個因子作為網(wǎng)絡(luò)的輸入端,誤差精度也較大。2016年張慧[10]等提出基于深度學(xué)習(xí)對電影票房進行預(yù)測,但其僅選擇2015年和2016年票房前25名共計50部票房相關(guān)數(shù)據(jù)作為樣本,數(shù)據(jù)樣本過小,導(dǎo)致說服力不大。2017年張雪[11]等探索性運用卷積神經(jīng)網(wǎng)絡(luò)對國內(nèi)電影票房進行預(yù)測,但缺少制作成本、宣傳成本、微博、電影評分等一系列相關(guān)數(shù)據(jù)導(dǎo)致結(jié)果不是非常理想。
表1 部分原始數(shù)據(jù)表
本文結(jié)合上述國內(nèi)外現(xiàn)狀,從豆瓣網(wǎng)、微博、時光網(wǎng)、藝恩網(wǎng)以及中國電影票房網(wǎng)這五個電影票房網(wǎng)站處選取了共計20個相關(guān)因素,并進行了適當(dāng)?shù)臄?shù)據(jù)預(yù)處理,構(gòu)建了一個國內(nèi)電影票房相關(guān)因子數(shù)據(jù)集。其中微博2009年出現(xiàn),導(dǎo)致相關(guān)數(shù)據(jù)僅能從2009年后開始搜集。因此本文選取了2010年到2017年這八年一共440部票房過千萬的電影作品作為研究對象,由于國產(chǎn)電影的類型較為集中,因此本文未將電影類型選為因素,同時也去除了像音樂劇、動畫劇、配音劇,愛國宣傳劇等類型較少,數(shù)據(jù)無法考察的微量樣本。除此之外,由于所有樣本均是內(nèi)地上映的國產(chǎn)電影,因此也未將出品地作為相關(guān)因子。
本文選取票房數(shù)據(jù)相關(guān)因素原始數(shù)據(jù)如表1,因子說明見表2。
神經(jīng)網(wǎng)絡(luò)模型起源于人類對自身思維模式的探究,是一個非線性的數(shù)據(jù)建模工具,由輸入層和輸出層外加一個或者多個隱藏層,神經(jīng)元之間相互連接并同時賦予相關(guān)權(quán)重,根據(jù)不同數(shù)據(jù)可以選擇不同算法進行訓(xùn)練,通過不斷調(diào)整學(xué)習(xí)率、偏置、網(wǎng)絡(luò)權(quán)重等參數(shù),從而當(dāng)誤差最小化時給出相應(yīng)預(yù)測值。神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)的線性回歸模型不同,它無需數(shù)據(jù)集的因變量和自變量有特定關(guān)系,隨著大量數(shù)據(jù)進行不斷迭代訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)將自動接近最貼近的內(nèi)在模型結(jié)構(gòu),從而建立函數(shù)內(nèi)在映射關(guān)系。當(dāng)前隨著人工智能的復(fù)興,針對各行各業(yè)的需求,越來越多的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不斷出現(xiàn),并在圖像處理、圖像分類、導(dǎo)航、數(shù)據(jù)預(yù)測、通信等多個領(lǐng)域有了運用,這些運用正極大地改變?nèi)祟惖纳罘绞健?/p>
表2 數(shù)據(jù)因子說明表
本文采用的BP神經(jīng)網(wǎng)絡(luò)是所有神經(jīng)網(wǎng)絡(luò)中最為基礎(chǔ)也是應(yīng)用最廣闊的模型之一。本文以電影票房數(shù)值為因變量,IP改編、特效、序列、出品公司、發(fā)行公司、檔期為因子,剩余14個連續(xù)型因子作為協(xié)變量搭建模型。數(shù)據(jù)集劃分為訓(xùn)練集和測試集,其比例為8:2如表3所示,采用交叉檢驗的方式,迭代次數(shù)5000次。模型結(jié)構(gòu)如圖2,其輸入層共有20個神經(jīng)節(jié)點,共計2個隱藏層,其中本文根據(jù)公式(1)-(3)選取了隱藏層節(jié)點個數(shù),其中M代表隱藏層節(jié)點數(shù),N代表輸入層節(jié)點數(shù),L代表輸出層節(jié)點數(shù),α代表1-10之間的常數(shù),根據(jù)最佳節(jié)點選擇公式,本模型分別試用了(9,4)和(7,3)節(jié)點數(shù),經(jīng)過多次測試發(fā)現(xiàn)當(dāng)?shù)谝粋€隱藏層有9個節(jié)點,第二個隱藏層有4個節(jié)點效果最佳,網(wǎng)絡(luò)信息如表4。此外激活函數(shù)選取了tanh雙曲正切函數(shù),訓(xùn)練類型采用批處理方式,學(xué)習(xí)算法采用梯度下降算法,經(jīng)過多種調(diào)試后發(fā)現(xiàn)當(dāng)學(xué)習(xí)率為0.38,動能0.9,偏置為0.5時可以得到令人滿意的預(yù)測值,最終結(jié)果采用此參數(shù)設(shè)置運行10次后的平均值。
本文整體模型思路流程如圖3。
圖1 BP神經(jīng)網(wǎng)絡(luò)最簡單結(jié)構(gòu)
表3
表4
圖2
模型預(yù)測部分結(jié)果如表5。
表5
圖3 模型的建立過程
摘錄仿真實驗的部分結(jié)果可知,發(fā)現(xiàn)各大票房區(qū)間擬合結(jié)果令人滿意,第386條《追兇》誤差值最大為12.5%,除去超過20億票房的捉妖記和美人魚誤差預(yù)測較大外,其余誤差基本控制在[-10%,10%]以內(nèi)。其中捉妖記和美人魚分別是2015年和2016年內(nèi)地票房冠軍,口碑良好,尤其《美人魚》是導(dǎo)演周星馳歷時三年創(chuàng)作出來的作品,鑒于星爺在中國粉絲眾多,加上電影題材新穎與當(dāng)時熱門話題環(huán)保相結(jié)合,很多人二刷三刷電影票前去支持,由于本文所有數(shù)據(jù)是根據(jù)電影上映前收集而來,確實也未考慮到群眾效應(yīng)帶來的影響,因此未能進行較為準(zhǔn)確的預(yù)測情有可原。
本文從中國內(nèi)地電影票房市場出發(fā),把電影實際總票房作為因變量,導(dǎo)演、編劇、第一主演、第二主演、第三主演、上映檔期等多達20個因子作為自變量,并對其進行了歸一化處理,另外對BP神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)做了調(diào)整,優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)電影預(yù)測票房模型,最終效果令人滿意。值得注意的是,本文暫未將盜版因素考慮在內(nèi),鑒于國內(nèi)盜版情況屢見不鮮,為了更加精準(zhǔn)的分析預(yù)測,希望相關(guān)部門加以管制,本文鼓勵支持正版。