基于加權(quán)K-Means和局部BPNN的票房預(yù)測模型①

2019-04-10 05:06米傳民林清同

計算機系統(tǒng)應(yīng)用 2019年2期

米傳民,魯月,林清同

1(南京航空航天大學(xué) 經(jīng)濟與管理學(xué)院,南京 211106)

2(大葉大學(xué) 資訊管理學(xué)系,彰化 51591)

電影作為很典型的短周期體驗型產(chǎn)品,其票房收益受到很多因素的共同影響且其影響機制較為復(fù)雜,因此對其票房進行預(yù)測是較為困難的.據(jù)統(tǒng)計,目前我國國產(chǎn)電影目前只有少數(shù)電影投資是盈利的,大部分國產(chǎn)電影基本都難以回收成本的.在這一背景下,對電影票房進行預(yù)測無疑對風(fēng)險控制、充分調(diào)動投資者的積極性以及扭轉(zhuǎn)目前的發(fā)展局勢具有巨大的現(xiàn)實意義.本文主要構(gòu)建一種基于加權(quán)K-均值以及局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型對目前的票房預(yù)測模型存在的不足進行改進,從而提高票房預(yù)測的精度.

目前關(guān)于票房的研究主要分為兩個研究方向: 票房影響因素的研究以及票房預(yù)測模型構(gòu)建方面的研究.傳統(tǒng)的票房影響因素研究主要是針對票房靜態(tài)影響因素的研究,這些因素在電影上映之前就已經(jīng)確定且不會隨著時間的變化而變化.聶鴻迪等人[1]選取檔期、電影類型以及主創(chuàng)陣容等因素進行研究.羅曉芃等人[2]添加續(xù)集這一因素探究其對票房的影響.鄭堅等人[3]將演員、導(dǎo)演、地區(qū)、類型等量化成連續(xù)數(shù)值來提高預(yù)測準(zhǔn)確度.韓明忠[4]、劉濤[5]也做了類似的研究.除此之外,隨著互聯(lián)網(wǎng)的興起,在線評論、網(wǎng)絡(luò)搜索等動態(tài)影響因素借助于網(wǎng)絡(luò)的放大效應(yīng),逐漸成為了票房的重要影響因素,因此,越來越多的研究者將這些動態(tài)因素加入到票房預(yù)測模中: 王煉等人[6]引入網(wǎng)絡(luò)搜索量進行研究.郝媛媛[7]、丘萍等人[8]通過對在線電影平臺網(wǎng)絡(luò)口碑?dāng)?shù)據(jù)進行分析得出網(wǎng)絡(luò)口碑對票房收益有顯著影響.Lee JH[9]等人引入熵的概念來衡量評論整體的可信度對票房的影響.袁海霞[10]引入信息熵對網(wǎng)絡(luò)口碑跨平臺分布特征進行量化驗證其與產(chǎn)品銷量之間的關(guān)系.

票房預(yù)測模型構(gòu)建方面的研究主要涉及預(yù)測方法、樣本處理、模型構(gòu)建過程等方面.票房預(yù)測中應(yīng)用較多的預(yù)測方法主要有線性回歸以及機器學(xué)習(xí)等方法: 李特曼、斯格特·蘇凱的模型都是經(jīng)典的線性回歸模型[1].部分學(xué)者研究了線性回歸以及機器學(xué)習(xí)方法哪種方法更適用于票房預(yù)測: 聶鴻迪[1]、Du J[11]、Hur M等人[12]主要運用線性回歸與SVM、ANN、CART、SVR等方法對票房進行預(yù)測,得出機器學(xué)習(xí)優(yōu)于線性回歸的結(jié)論,表明機器學(xué)習(xí)方法更適用于電影這種短周期體驗型產(chǎn)品的預(yù)測.Kim T[13]等人將三種機器學(xué)習(xí)方法得到的結(jié)果進行平均,結(jié)果優(yōu)于單一的機器學(xué)習(xí)方法.韓忠明等人[4]對特征與電影票房建立GBRT模型,對票房進行預(yù)測.因此,目前進行票房預(yù)測的首選方法主要是機器學(xué)習(xí)方法: 魏明強[14]利用神經(jīng)網(wǎng)絡(luò)方法分析了網(wǎng)絡(luò)評價在不同時段對票房走勢的影響.劉濤[5]分別采用SVM以及ANN對票房進行分類預(yù)測,結(jié)果證明ANN的預(yù)測效果優(yōu)于SVM.因此目前大部分學(xué)者對票房進行預(yù)測時都會選擇神經(jīng)網(wǎng)絡(luò)相關(guān)方法,其中最為常用的是BP神經(jīng)網(wǎng)絡(luò): 鄭堅[3]、 Zhang L[15]分別構(gòu)建了基于多層BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型對票房進行預(yù)測.除此之外還有部分學(xué)者對預(yù)測模型構(gòu)建過程的其他方面進行改進: Hur M[12]考慮到電影上映的不同時段影響票房的因素側(cè)重點會有所變化,分別構(gòu)建了六個票房預(yù)測模型來提高預(yù)測的準(zhǔn)確度.李金芝[16]在構(gòu)建票房預(yù)測模型中應(yīng)用靈敏度分析確定各參數(shù)對模型輸出結(jié)果的影響力大小,對輸入變量進行篩選.

通過對電影票房預(yù)測相關(guān)研究的總結(jié)可以得出,在票房影響因素方面雖然目前很多已經(jīng)將網(wǎng)絡(luò)口碑相關(guān)信息加入到了預(yù)測模型中,但大部分研究僅僅考慮了單一平臺,并沒有深入考慮到網(wǎng)絡(luò)口碑的跨平臺分布特征,并且針對單一平臺的網(wǎng)絡(luò)口碑影響力研究并不能很全面的反映網(wǎng)絡(luò)口碑對票房的影響;在預(yù)測模型構(gòu)建方面,目前大多數(shù)學(xué)者都選擇基于神經(jīng)網(wǎng)絡(luò)的預(yù)測方法,另外還有一些學(xué)者對票房預(yù)測模型的構(gòu)建過程進行優(yōu)化,但大部分研究者都用整體樣本對模型進行訓(xùn)練.在此情況下,很難有一個預(yù)測模型能對如此復(fù)雜現(xiàn)實票房進行很好的擬合.因此有的研究者在對模型進行訓(xùn)練之前對樣本數(shù)據(jù)進行分類,但目前的主要是應(yīng)用簡單的K-均值聚類,在聚類過程中不同的影響因素被賦予同等的權(quán)重,而實際情況中,不同的影響因素影響力是不同的,因此簡單的K-均值聚類雖然在一定程度上提高了訓(xùn)練集的質(zhì)量,但是由于沒有考慮到不同因素的影響力問題,會在一定程度上影響最終預(yù)測結(jié)果.

基于上述的問題,本文構(gòu)建了一種基于加權(quán)K-均值聚類和局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型: ① 構(gòu)建基于隨機森林的影響因素影響力測量模型,并以此為依據(jù)對票房影響因素進行篩選,以此來簡化后續(xù)預(yù)測模型的輸入;② 考慮到不同影響因素對票房的影響力不同的現(xiàn)實情況,為了解決以往研究中對影響因素權(quán)重平均分配的問題,構(gòu)建了基于加權(quán)K-均值和局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型,以因素影響力為依據(jù)對樣本數(shù)據(jù)進行加權(quán)的K-均值聚類,并基于子樣本構(gòu)建局部BP神經(jīng)網(wǎng)絡(luò)模型進行票房預(yù)測.

1 理論方法

1.1 隨機森林

隨機森林(Random Forest,RF)[17]是一種由多個獨立的決策樹組合而成的集成分類器.其決策原理可以描述為[18]: 若干個專家聚集在一起對某個特定的任務(wù)進行分析并根據(jù)自身“經(jīng)驗”給出自己認定的正確結(jié)果,最后隨機森林通過專家投票的方法,采用“少數(shù)服從多數(shù)”的原則得出最后分類結(jié)果.其生成過程主要可以分為以下幾個步驟:

Step 1.通過Bootstrap方法從整體的訓(xùn)練集數(shù)據(jù)中隨機抽取,生成k個子樣本集,以及k個袋外數(shù)據(jù);

Step 2.根據(jù)隨機抽取生成的k個子樣本集,依據(jù)構(gòu)建決策樹的原理及方法選擇合適的節(jié)點分裂算法來構(gòu)建k棵相互獨立的決策樹;

Step 3.將Step 2中生成的k棵決策樹進行集成,構(gòu)建隨機森林集成分類器;

Step 4.將測試集輸入到隨機森林分類器中,利用Step 3構(gòu)建的隨機森林分類器對其進行分類.

1.2 加權(quán)K-均值聚類

K-均值算法是一種很有代表性的基于距離的聚類方法,它將距離作為評價樣本之間相似性的依據(jù),即越近的兩個對象其類似度越大.假設(shè)有n個樣本且每個樣本包含m個屬性,形成了一個包含n個m維數(shù)據(jù)點的樣本數(shù)據(jù)集,則聚類過程主要可以概括為以下幾個步驟:

Step 1.選取k個樣本點作為初始聚類中心(質(zhì)心);

Step 2.計算每個樣本與各質(zhì)心的距離,并將其指派到距離最近的質(zhì)心,完成一次迭代;

Step 3.對每個分組內(nèi)的質(zhì)心進行更新;

Step 4.判斷是否滿足算法終止條件(質(zhì)心不變/距離平方和最小): 若滿足則聚類完成;否則,重復(fù)Step 2～Step 3直到滿足終止條件.

在上述K-均值聚類算法中,樣本的每個屬性被賦予了同等權(quán)重1 /m,若對不同屬性賦予不同的權(quán)重,即加權(quán)K-均值聚類.簡單來講,加權(quán)K-均值聚類在計算樣本點到質(zhì)心的距離時,用各個屬性對應(yīng)的權(quán)重替代原來的等權(quán)權(quán)重1 /m,加權(quán)K-均值聚類算法中第i個樣本點到質(zhì)心的距離計算公式為公式(1)[19]:

1.3 BP神經(jīng)網(wǎng)絡(luò)

在多種神經(jīng)網(wǎng)絡(luò)模型中,多層前向神經(jīng)網(wǎng)絡(luò)由于其成熟的算法,較強的非線性映射能力、泛化能力以及容錯能力成為了應(yīng)用最為廣泛一類神經(jīng)網(wǎng)絡(luò)模型,其中最為典型的算法為誤差反向傳播算法—BP(Back-Propagation)算法,BP算法對應(yīng)的模型即為BP神經(jīng)網(wǎng)絡(luò)模型,BP神經(jīng)網(wǎng)絡(luò)是一種典型的信號單向傳播的多層前向神經(jīng)網(wǎng)絡(luò).BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程主要包括兩個部分: 信號的正向傳播、誤差的反向傳播.在正向傳播過程中,信號由輸入層經(jīng)過隱含層到輸出層生成輸出結(jié)果與期望輸出進行對比,若結(jié)果不理想則啟用誤差的反向傳播過程,誤差信息將由輸出端開始逐層進行反向傳播從而對網(wǎng)絡(luò)中的權(quán)值進行調(diào)節(jié),從而使得信號正向傳播過程中得到的輸出結(jié)果更接近理想輸出.

2 基于隨機森林的重要票房影響因素篩選

2.1 影響因素量化

2.1.1 電影類型

結(jié)合較為權(quán)威的電影類型分類以及我國國產(chǎn)電影類型的發(fā)展現(xiàn)狀在本文的電影類型中主要包含劇情、愛情、喜劇、動作、驚悚、奇幻、懸疑其中類型.在對類型變量進行量化時,主要借助于各個類型的歷史票房數(shù)據(jù)對其影響力進行衡量,其求解公式如下:

其中,Gi表示第i個電影類型的影響力,Ngi代表的是在所收集的樣本中屬于第i個類型的電影數(shù)量,Boxj表示第j個屬于第i個類型的電影的票房.本文主要考慮電影的第一類型和第二類型.

2.1.2 演員

考慮到名品演員影響力的持久性以及人氣偶像演員的瞬時性,本文在對演員影響力進行量化時主要從兩個方面進行,一方面從演員的歷史參演電影的平均票房入手衡量其持久影響力,另一方面借助于百度搜索這一平臺提取電影上映時相關(guān)演員的平均搜索量—網(wǎng)絡(luò)搜索量(network search volume)來衡量其瞬時影響力.其求解公式為:

其中,Acti表示第i個演員的影響力,α和 β 表示歷史票房以及網(wǎng)絡(luò)搜索量的重要性系數(shù),表示該演員近期內(nèi)作為主演參演電影的平均票房,表示在電影上映時該演員的平均網(wǎng)絡(luò)搜索量.一般情況下一部電影會有很多個演員參演,在此我們只考慮第一主演和第二主演.

2.1.3 導(dǎo)演

在對導(dǎo)演影響力進行量化時不僅要考慮到其作為導(dǎo)演身份的影響力還要考慮到其本身具有的其他身份的影響力,本文主要通過該導(dǎo)演作為導(dǎo)演參與的電影票房以及作為演員參與的電影票房、其他身份的影響力主要通過網(wǎng)絡(luò)搜索量來衡量,因此導(dǎo)演影響力的求解公式為:

其中,Diri表示第i個導(dǎo)演的影響力,α和 β 表示歷史票房以及網(wǎng)絡(luò)搜索量的重要性系數(shù),表示其作為導(dǎo)演以及其作為主演參演電影的平均票房,表示在電影上映時該導(dǎo)演的平均網(wǎng)絡(luò)搜索量.

2.1.4 檔期

本文在對前人對電影檔期研究做了充分總結(jié)的基礎(chǔ)之上,最終將電影檔期分為以下幾種: 賀歲檔(前一年的11月底至下一年的二月底)、五一檔(每一年的4月底到5.3)、暑期檔(每一年的6月初到8.31)、十一檔(每一年的9月底到10.7).本文在對檔期變量進行量化時,借助于往年各個檔期的票房數(shù)據(jù)對檔期影響力進行衡量,其求解公式如下:

其中,Di表示第i個檔期的影響力,Ni代表的是第i個檔期所包含的天數(shù),Boxj表示在第i個檔期內(nèi)的第j天所有電影所產(chǎn)生的總票房.

2.1.5 網(wǎng)絡(luò)搜索量

一部電影在上映期間對應(yīng)的網(wǎng)絡(luò)搜索量從一個側(cè)面反映了潛在觀影者對其的關(guān)注度,雖然不同的潛在觀影者會在搜索之后做出不同的觀影決策,但是從另一個層面來講,越多的人關(guān)注就表明可能有更多的潛在觀影者會選擇去觀看這部電影,因此本文將網(wǎng)絡(luò)搜索量作為一個潛在觀影者對電影的關(guān)注度的衡量指標(biāo),由于百度是目前國內(nèi)用戶基礎(chǔ)最大的搜索引擎,其搜索數(shù)據(jù)具有較強的代表性,因此本文變量網(wǎng)絡(luò)搜索量Searchi具體量化數(shù)據(jù)來自百度搜索指數(shù).

2.1.6 網(wǎng)絡(luò)口碑?dāng)?shù)量與效價

考慮到現(xiàn)實情況中一般潛在觀影者不會在單一平臺搜集信息之后就馬上作出觀影決策,而是通過多個平臺搜索之后經(jīng)過對比衡量之后最后才作出觀影決策,所以本文在對網(wǎng)絡(luò)口碑?dāng)?shù)量以及效價進行量化時采用多平臺評論數(shù)量求平均值的方法,并且考慮到不同平臺之間的用戶基數(shù)以及評分機制的不同,本文在對口碑?dāng)?shù)量以及口碑效價進行平均之前,首先對其進行歸一化,最終得到網(wǎng)絡(luò)口碑?dāng)?shù)量變量值A(chǔ)mounti以及網(wǎng)絡(luò)口碑效價的量化結(jié)果Ranti.

2.1.7 網(wǎng)絡(luò)口碑離散度

網(wǎng)絡(luò)口碑離散度指的是網(wǎng)絡(luò)口碑在不同平臺之間的傳播程度,即: 網(wǎng)絡(luò)口碑的跨平臺分布特征.為了更為全面的對網(wǎng)絡(luò)口碑的跨平臺分布特征進行量化,本文從口碑?dāng)?shù)量和口碑效價兩個方面進行探究: 引入信息熵(information entropy)這一概念,構(gòu)造數(shù)量信息熵(IE_Voli)以及效價信息熵(IE_Vali)對口碑離散度進行量化.信息熵是信息論中用于測算所有可能發(fā)生情況的平均不確定性的指標(biāo),信息熵越大,說明整體系統(tǒng)越混亂,即各個事件發(fā)生的概率分布越平均.本文在對網(wǎng)絡(luò)口碑離散度進行量化時主要思路是將信息熵求解公式中的事件發(fā)生的概率替換為網(wǎng)絡(luò)口碑各個特征值,并通過公式(6)和公式(7)進行求解:其中,j代表第j個電影網(wǎng)絡(luò)口碑平臺,Total_Voli代表第i部電影在各個平臺的評論數(shù)的總和,Total_Vali代表第i部電影在各個平臺的總評分的總和.代表第i部電影在第j個電影網(wǎng)絡(luò)口碑平臺的網(wǎng)絡(luò)口碑?dāng)?shù)量特征值,代表第i部電影在第j個電影網(wǎng)絡(luò)口碑平臺的網(wǎng)絡(luò)口碑效價特征值.

2.2 基于隨機森林的因素影響力判定和指標(biāo)篩選

2.2.1 基于重要性分數(shù)的因素影響力

利用隨機森林算法對變量重要性進行判定時主要采用變量重要性分數(shù)(variable importance score),其主要作用是對各個條件屬性對于決策屬性的影響程度進行衡量.本文主要采用基于置換的變量重要性分數(shù).將整體訓(xùn)練樣本集的集合設(shè)為D,并且將用向量Xj,j=f1,2,···,11g表示影響電影票房的因素,對整體訓(xùn)練樣本采用Bootstrap抽樣生成K個子訓(xùn)練樣本集,則第k個樣本子集則表示為Dk,則變量重要性分數(shù)則表示為向量VIS=fVIS1,VIS2,···,VISj,···,VIS11g,則通過變量重要性分數(shù)對票房影響因素進行衡量可以總結(jié)為以下幾個步驟:

Step 1.首先將k值取1;

Step 2.并在其對應(yīng)的子訓(xùn)練集Dk的基礎(chǔ)上構(gòu)建決策樹Tk,同時將對應(yīng)的袋外數(shù)據(jù)用表示;

Step 3.應(yīng)用Step 2中生成的決策樹Tk對對應(yīng)的袋外數(shù)據(jù)進行分類,并計算其分類準(zhǔn)確率;

Step 4.對于變量Xj,j=f1,2,···,11g,對其變量值進行變換直至其原始袋外數(shù)據(jù)樣本自變量與因變量之間的關(guān)系被打斷,并將針對該變量擾動之后的袋外數(shù)據(jù)用表示;

Step 5.應(yīng)用Step 2中生成的決策樹Tk對擾動后的袋外數(shù)據(jù)進行分類,并計算其分類準(zhǔn)確率;

Step 6.分別另k=1,2,···,K,對其重復(fù)進行Step 2～Step 5的操作,得出各個子訓(xùn)練集對應(yīng)下的擾動前后的分類正確率;

Step 7.通過公式計算特征Xj的變量重要性分數(shù),其求解公式為式(8):

Step 8.對j=f1,2,···,11g重復(fù)上述過程,得出所有變量重要性分數(shù),輸出重要性分數(shù)向量VIS=fVIS1,VIS2,···,VISj,···,VIS11g.

通過對樣本數(shù)據(jù)集進行上述操作得到票房影響因素的重要性分數(shù),可以看出,當(dāng)對一個變量的對應(yīng)值進行變換前后分類準(zhǔn)確率減少量越大,表明這一變量重要程度越強,反之則表明該變量不是很重要,因此對其變量值進行擾動不會對最終分類結(jié)果造成影響.

2.2.2 票房影響因素篩選

通過構(gòu)造隨機森林并通過隨機森林的重要性分數(shù)對影響電影票房的各個影響因素的重要性進行衡量,并以各個變量的重要性分數(shù)作為其對票房重要性的依據(jù),從而對各個影響因素的重要性進行比較,進行指標(biāo)篩選,從中選出重要性較高的票房影響因素用于后續(xù)票房預(yù)測任務(wù).但是由于隨機森林的特性,當(dāng)依據(jù)樣本數(shù)據(jù)對票房影響因素的重要性分數(shù)進行求解時,同樣的數(shù)據(jù)在多次試驗中得出的各個因素的重要性分數(shù)是不同的,但是觀察多次試驗的結(jié)果可以看出,每個影響因素的重要性分數(shù)的值都在一定的范圍內(nèi)波動,因此本文在對因素重要性進行衡量時,采取多次試驗求平均值的方法.

3 基于加權(quán)K-均值和局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測

3.1 基于加權(quán)K-均值的訓(xùn)練數(shù)據(jù)分類模型

簡化后的指標(biāo)體系中各個票房影響因素的個數(shù)為n,j代表第j個影響因素,則wj則表示第j個影響因素的權(quán)重,最佳聚類數(shù)用k表示,另外i表示第i個電影樣本數(shù)據(jù).則加權(quán)K-均值聚類算法中第i個樣本點到質(zhì)心的加權(quán)歐式距離EDi計算公式為式(9):

基于加權(quán)K-均值的樣本分類可以分為以下步驟:

Step 1.隨機選取k個樣本點作為初始聚類中心(質(zhì)心);

Step 2.依據(jù)式(9)計算其余每個樣本與各個質(zhì)心的加權(quán)歐式距離,并將其指派到距離最近的質(zhì)心,完成一次迭代;

Step 3.對每個分組內(nèi)的質(zhì)心進行更新;

Step 4.判斷是否滿足算法終止條件: 滿足的話,聚類完成;否則,重復(fù)Step 2～Step 3直到滿足終止條件,完成聚類.

通過對樣本數(shù)據(jù)進行加權(quán)K-均值聚類,對不同影響因素賦予不同的權(quán)重,彌補了一般K-均值聚類中各因素權(quán)重平均分配忽略不同影響因素影響力之間差異的問題,因此,在考慮到不同影響因素對電影票房影響力的差異的基礎(chǔ)上對樣本數(shù)據(jù)進行分類可以使得最終的分類結(jié)果更為科學(xué).

3.2 基于BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型

3.2.1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計主要包含網(wǎng)絡(luò)層數(shù)確定、輸入層和輸出層設(shè)計以及隱含層設(shè)計三個方面:根據(jù)Kosmogorov定理,在合理的條件下,一個三層BP神經(jīng)網(wǎng)絡(luò)可以擬合出任意復(fù)雜的連續(xù)函數(shù).因此本文所構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)為三層神經(jīng)網(wǎng)絡(luò)(如圖1);輸入層以及輸出層所包含的節(jié)點數(shù)主要由數(shù)據(jù)本身特征所決定,輸入層的節(jié)點數(shù)為自變量的數(shù)目,輸出層的節(jié)點數(shù)為目標(biāo)因變量的數(shù)目.因此本文所構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型中,輸入層節(jié)點數(shù)目為簡化后對應(yīng)的影響電影票房的因素的個數(shù).輸出層節(jié)點只有一個,代表票房變量;隱含層設(shè)計的主要是確定隱含層所包含神經(jīng)元的數(shù)目,其確定公式為公式(10),其中nh代表隱含層神經(jīng)元的數(shù)目,ni表示輸入層神經(jīng)元的數(shù)目,no表示輸出層神經(jīng)元的數(shù)目,a為認為設(shè)定的可變常數(shù)并且a2[1,10].

圖1 三層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

3.2.2 BP神經(jīng)網(wǎng)絡(luò)參數(shù)選取

BP神經(jīng)網(wǎng)絡(luò)的參數(shù)選取主要包含初始權(quán)值及閾值選取、學(xué)習(xí)速率的選取、激活函數(shù)以及學(xué)習(xí)函數(shù)的選擇三個方面: 在對初始權(quán)值以及閾值進行確定時,本文選擇采用隨機生成初始權(quán)值及閾值的方法;學(xué)習(xí)速率η 的值通過BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中權(quán)值的修正量來影響神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程.通過對相關(guān)理論以及文獻的學(xué)習(xí)以及總結(jié),常用的學(xué)習(xí)速率的取值范圍在0.01到0.8之間.常用的激活函數(shù)有單/雙極性Sigmoid函數(shù)、正弦函數(shù)等.本文在進行BP神經(jīng)網(wǎng)絡(luò)建模時選擇單極性Sigmoid函數(shù),其數(shù)學(xué)表達式如公式(11):

目前常用的學(xué)習(xí)函數(shù)有: 動量BP算法、擬牛頓法及L-M算法等等.同時L-M算法由于其具有較高的學(xué)習(xí)速率以及較快的收斂速度最為常用,因此本文在進行BP神經(jīng)網(wǎng)絡(luò)建模時也選擇L-M算法作為學(xué)習(xí)函數(shù).

3.2.3 BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建

通過前文的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計以及BP神經(jīng)網(wǎng)絡(luò)的主要參數(shù)選取,確定了本文BP神經(jīng)網(wǎng)絡(luò)模型的基本結(jié)構(gòu),在對本文BP神經(jīng)網(wǎng)路進行建模以及訓(xùn)練時主要流程以及思路如圖2所示.

圖2 BP神經(jīng)網(wǎng)絡(luò)模型流程圖

3.3 基于局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型構(gòu)建

基于加權(quán)K-均值聚類的局部BP神經(jīng)網(wǎng)絡(luò)票房預(yù)測模型的主要思路為: 通過加權(quán)K-均值聚類將原始樣本數(shù)據(jù)分為若干個樣本子集,并基于各個樣本子集構(gòu)建對應(yīng)的局部BP神經(jīng)網(wǎng)絡(luò)票房預(yù)測模型,并且對新的電影數(shù)據(jù)進行票房預(yù)測時,通過判斷其與各個樣本子集的聚類中心的加權(quán)歐式距離來決定調(diào)用哪一個局部BP神經(jīng)網(wǎng)絡(luò)對其進行預(yù)測,并在這一過程中加入判斷條件,來決定是否要將新數(shù)據(jù)加入樣本子集中;另外隨著新數(shù)據(jù)的加入,整體樣本的分類效果可能在某一時刻不再是最佳分類,所以在過程中加入了整體數(shù)據(jù)分類效果的判定,決定是否需要對整體樣本數(shù)據(jù)重新進行分類.具體可以分為以下幾個步驟(如圖3所示).

Step 1.初始化參數(shù): 加權(quán)歐氏距離臨界值ED;

Step 2.對數(shù)據(jù)集內(nèi)的所有數(shù)據(jù)進行加權(quán)K-均值聚類,得到若干個樣本子集以及各樣本子集的聚類中心;

Step 3.對這若干個樣本子集構(gòu)建對應(yīng)的局部BP神經(jīng)網(wǎng)絡(luò)票房預(yù)測模型,使得樣本子集、樣本子集聚類中心、局部BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型一一對應(yīng);

Step 4.輸入待預(yù)測數(shù)據(jù),計算其與各個樣本子集聚類中心的加權(quán)歐氏距離,并選擇距離最小的對應(yīng)局部BP神經(jīng)網(wǎng)絡(luò)模型對其進行預(yù)測,得到預(yù)測結(jié)果;

Step 5.判斷該條數(shù)據(jù)與最近聚類中心的加權(quán)歐氏距離是否小于設(shè)定的加權(quán)歐氏距離臨界值ED,若在臨界值內(nèi)則將該條數(shù)據(jù)加入該樣本子集,轉(zhuǎn)Step 3,否則舍棄該條數(shù)據(jù),轉(zhuǎn)Step 4.

4 實驗驗證

4.1 數(shù)據(jù)來源與量化

4.1.1 數(shù)據(jù)來源

本文樣本主要包含2016-2017年間的電影數(shù)據(jù),主要來源于藝恩咨詢、百度指數(shù)、豆瓣網(wǎng)、時光網(wǎng)以及貓眼電影等平臺.其中票房、類型、演員、導(dǎo)演、檔期等數(shù)據(jù)來源于藝恩咨詢.網(wǎng)絡(luò)搜索量相關(guān)數(shù)據(jù)來自于百度指數(shù).網(wǎng)絡(luò)口碑相關(guān)信息從豆瓣網(wǎng)、時光網(wǎng)、貓眼電影收集得到.本文收集到的原始數(shù)據(jù)共包含415部國產(chǎn)電影,在此基礎(chǔ)之上,剔除數(shù)據(jù)不全、票房過低以及特殊題材的電影后用于實證分析的電影數(shù)據(jù)共有327部.

4.1.2 樣本數(shù)據(jù)量化

在對樣本數(shù)據(jù)進行量化時,考慮到不同的變量量化之后具有不同的量級,不同量級的數(shù)值可能會對接下來的影響因素重要性判斷造成影響,本文通過歸一化數(shù)據(jù)來去除數(shù)據(jù)的不同量級對因素重要性判別的影響,進一步歸一化之后的數(shù)據(jù)描述性統(tǒng)計如表1所示.

表1 歸一化數(shù)據(jù)描述性統(tǒng)計分析表

4.2 基于隨機森林的重要票房影響因素篩選

根據(jù)前文介紹的基于隨機森林的票房影響因素變量重要性分數(shù)的求解過程對各個變量的重要性進行求解,由于隨機森林的算法特性導(dǎo)致在利用隨機森林算法進行變量重要性分數(shù)求解時其結(jié)果會具有一定的波動性,因此本文在進行實驗時采用多次建模求平均值的方法對變量重要性進行判定,最終求解結(jié)果如圖4所示.

通過對結(jié)果的觀察可以看出在所有的影響因素中,網(wǎng)絡(luò)搜索量的對應(yīng)的重要性分數(shù)最高,說明在影響票房的所有因素中,這一因素發(fā)揮的作用最大,其次是網(wǎng)絡(luò)口碑?dāng)?shù)量、口碑?dāng)?shù)量離散度等影響因素,另外通過對圖4中變量重要性分數(shù)分布結(jié)果圖的觀察可以看出,有部分影響因素的重要性分數(shù)很小幾乎接近于零,表明這些因素在對票房的影響方面發(fā)揮的作用很小,相對于其他的重要性分數(shù)較大的因素其作用幾乎可以忽略不計,這些因素包括: 口碑效價離散度、口碑效價以及第二類型,因此為了簡化后續(xù)的票房預(yù)測模型輸入,本文在進行票房影響因素的選擇時只選取影響力較大的因素,去掉一些作用很小的影響因素,從而在輸入層對預(yù)測模型進行簡化.因此,篩選后的票房影響因素共包含網(wǎng)絡(luò)搜索量、口碑?dāng)?shù)量、口碑?dāng)?shù)量離散度、第一主演、第一類型、第二主演、導(dǎo)演和檔期等因素.

圖4 變量重要性分數(shù)結(jié)果圖

4.3 基于加權(quán)K-均值和局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測

通過對篩選后的影響因素的變量重要性分數(shù)進行歸一化處理得到各個影響因素的對應(yīng)權(quán)重,影響因素及其對應(yīng)權(quán)重結(jié)果如表2所示.

表2 影響因素及其權(quán)重結(jié)果表

在對最優(yōu)聚類數(shù)進行確定時本文所采用的方法為:通過對每個聚類數(shù)對應(yīng)的F值(組間離差平方和的平均值除以組內(nèi)離差平方和的平均值)進行比較,當(dāng)聚類數(shù)發(fā)生變化而跟其相對應(yīng)F值不變化或者變化很小的話,對應(yīng)的聚類數(shù)即為最佳聚類數(shù).通過計算得出電影樣本數(shù)據(jù)分類的最佳聚類數(shù)為3,通過加權(quán)K-均值聚類將電影樣本數(shù)據(jù)分為3類,分別以三類子樣本為依據(jù)構(gòu)建局部BP神經(jīng)網(wǎng)絡(luò)模型,本文采用Python編程來實現(xiàn)BP神經(jīng)網(wǎng)絡(luò)預(yù)測的功能,其中部分參數(shù)設(shè)置如表3所示.

表3 BP神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置

為了對本文構(gòu)建模型的效果進一步進行驗證,本文同時設(shè)置了對比實驗,在對比實驗中首先采用簡單K-均值聚類對樣本數(shù)據(jù)進行聚類,并在此基礎(chǔ)上構(gòu)建BP神經(jīng)網(wǎng)絡(luò)進行票房預(yù)測,同樣采用Python編程實現(xiàn),從而對本文的改進效果進行驗證.

4.4 結(jié)果對比及分析

平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)是對預(yù)測模型進行評估時常用的一種指標(biāo),其值可以通過公式(12)求得,其中Vpi表示第i個樣本的票房預(yù)測值(Predictive Value),Vai表示第i個樣本的實際票房值(Actual Value),n表示用于預(yù)測實驗的樣本數(shù).

在采用兩種模型進行預(yù)測時,由于受BP神經(jīng)網(wǎng)絡(luò)模型自身特征影響,其預(yù)測結(jié)果會在一個特定范圍內(nèi)產(chǎn)生一定的波動,因此本文在對兩個模型的預(yù)測效果進行衡量時,采用多次預(yù)測求平均值的方式,實驗結(jié)果如表4所示,最后得出基于本文構(gòu)建的模型進行的票房預(yù)測的平均絕對百分比誤差(MAPE)控制在8.49%,對比模型平均絕對百分比誤差(MAPE)控制在10.39%.可以看出本文構(gòu)建的基于加權(quán)K-均值以及局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型的預(yù)測結(jié)果要優(yōu)于對比模型的預(yù)測結(jié)果,從而證明了本文所構(gòu)建的票房預(yù)測效果.

表4 兩模型預(yù)測效果對比表(%)

5 總結(jié)與展望

電影作為很典型的短周期體驗型產(chǎn)品,其票房收益受到很多因素的共同影響且其影響機制較為復(fù)雜,因此對其票房進行預(yù)測是較為困難的.本文在對電影票房預(yù)測研究進行了較為全面的總結(jié)與分析的基礎(chǔ)上,對電影票房預(yù)測建模過程進行了一定的優(yōu)化與改進,構(gòu)建了基于加權(quán)K-均值聚類以及局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型,本文的研究可以總結(jié)為以下幾個方面:

(1)構(gòu)建基于隨機森林的影響因素影響力測量模型,并以此為依據(jù)對票房影響因素進行篩選,以此來簡化后續(xù)預(yù)測模型的輸入;(2)考慮到不同影響因素對票房的影響力不同的現(xiàn)實情況,為了解決以往研究中對影響因素權(quán)重平均分配的問題,本文構(gòu)建了基于加權(quán)K-均值和局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型,以因素影響力為依據(jù)對樣本數(shù)據(jù)進行加權(quán)的K-均值聚類,并基于子樣本構(gòu)建局部BP神經(jīng)網(wǎng)絡(luò)模型進行票房預(yù)測.同時通過實際電影數(shù)據(jù)實驗可以看出,本文構(gòu)建的基于加權(quán)K-均值聚類以及局部BP神經(jīng)網(wǎng)絡(luò)的票房預(yù)測模型可以減小票房預(yù)測誤差,提高預(yù)測的準(zhǔn)確度.

本文應(yīng)用隨機森林進行影響力測算以及采用加權(quán)K-均值聚類對數(shù)據(jù)進行聚類,并采用BP神經(jīng)網(wǎng)絡(luò)模型進行票房預(yù)測.在后續(xù)的研究中,需要進一步對BP神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建過程進行優(yōu)化,并對其中一些參數(shù)的選擇以及設(shè)置方法進行改進,進一步提高整體票房預(yù)測模型的精確度.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡