国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用隨機森林回歸算法預測電影評分

2021-11-24 05:08王紫薇
科學與生活 2021年18期
關鍵詞:隨機森林機器學習數(shù)據(jù)挖掘

摘要:本文從中國電影市場實際出發(fā),選擇導演、題材、主演、編劇、區(qū)域為影片評分的影響特征,對其做特征工程處理,提出了基于隨機森林算法的電影評分預測模型。

關鍵詞:隨機森林;電影評分;數(shù)據(jù)挖掘;機器學習

隨著數(shù)據(jù)挖掘技術的成熟,目前可以運用數(shù)據(jù)挖掘技術從大量的數(shù)據(jù)中挖掘到事物間的聯(lián)系并預測其發(fā)展方向。電影評分預測模型可以在電影上映前預測其評分,觀眾就可以根據(jù)預測評分有選擇地觀影,電影院也可以選擇性制定排片計劃,電影周邊產(chǎn)業(yè)也有了參考。

一、隨機森林算法

隨機森林回歸模型就是綜合幾個創(chuàng)建好的決策樹模型,其預測結果由所有決策樹模型的預測結果平均得到。算法基本步驟如下:

(一)抽樣:在訓練數(shù)據(jù)集S中進行有放回抽樣,得到K組數(shù)據(jù)集,每組數(shù)據(jù)集分為兩種,抽中和未抽中的,每組數(shù)據(jù)集通過訓練生成決策樹。

(二)生長:利用訓練數(shù)據(jù)訓練每棵決策樹。

(三)利用未被抽中的數(shù)據(jù)檢驗模型準確度。

(四)用最終模型預測新數(shù)據(jù)集,全部決策樹的預測結果取平均值就是最終預測結果。

二、基于隨機森林算法的電影評分預測模型

根據(jù)中國大陸電影市場現(xiàn)實情況,實驗選導演、編劇、主演、類型、國家地區(qū)作為特征。

(一)導演水平特征

把影片評分和評價人數(shù)當作一個特征組合來表示導演水平特征,如公式(2-1)所示:

Director= ,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? (2-1)

n表示導演執(zhí)導該部電影之前最近執(zhí)導的n部電影,n≦5;Rk表示導演拍攝的第k部電影的評分;Pk表示評分人數(shù)。

(二)編劇水平特征

本實驗取編劇所創(chuàng)作的距離這部電影最近的n部電影,n≦5,如公式(2-2)所示:

Writer= ,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? ? (2-2)

Rk表示編劇創(chuàng)作的第k部電影的評分;Pk表示編劇創(chuàng)作的第k部電影的評分人數(shù)。

(三)演員水平特征:

本實驗選演員主演的距離該電影上映時間最近的n部同種題材電影,n≦5,主演水平特征如公式(2-3)所示:

Actor= ?,n=min(5,n),m=主要參演人員 ? ?(2-3)

Rik表示第i位主演拍攝第k部電影的評分;Pik表示評分人數(shù);Wi表示主演在該電影所占權重。主演為2人時,權重為:0.6,0.4;主演為3人時,權重為:0.5,0.3,0.2;主演為4人及以上時,權重為0.4,0.3,0.2,0.1。

(四)題材類型

本實驗選取上一年該類型的所有電影,計算其平均得分作為此題材電影的綜合評分,見公式(2-4)與(2-5):

Type= Ri*Wi,n=min(5,n) ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2-4)

Ri= ,n=選取范圍內(nèi)類型為i的電影數(shù)量 ? ? ? ?(2-5)

Rik表示第k部i類型電影評分;Pik表示評分人數(shù);Ri表示綜合評分;Wi表示權重。

(五)區(qū)域特征

本實驗參考上一年此區(qū)域電影平均得分,計算得到此電影的參考評分,見公式(2-6):

Country= ,n=選取范圍內(nèi)同國家地區(qū)的電影數(shù)量 ?(2-6)

Rk表示第k部電影的評分;Pk表示第k部電影的評分人數(shù)。

三、實驗和結果分析

(一)實驗過程

隨機森林算法回歸建模:

本實驗采用spark mllib中的random forest包來實現(xiàn)隨機森林算法。我們把處理好的特征和影片評分轉(zhuǎn)換成Labeledpoint,Labeledpoint表示帶標簽的數(shù)據(jù)點,構造的Labeledpoint如公式(3-1)

(Rate,{Director,Wrter,Cast,Type,Country}) ? ? ? ? ? ?(3-1)

利用mllibtree.RandomForest的trainRegressor()方法構建隨機森林回歸模型。該方法返回一個weightedEnsembleModel對象,本實驗使用它的predict()方法預測測試集。然后,把測試數(shù)據(jù)輸入到建立好的隨機森林模型中進行預測。

(二)實驗結果

基于隨機森林回歸模型使用數(shù)據(jù)集中5部電影,本實驗分別對這些電影的評分進行預測。將這5部電影的相關數(shù)據(jù)輸入模型,計算所有的電影得分。結果如表1。

從表2可以發(fā)現(xiàn),基于隨機森林算法的電影預測模型的預測結果和電影的真實評分總體上區(qū)別不大。

四、總結和展望

本文從中國電影市場實際出發(fā),選擇導演、題材、主演、編劇、區(qū)域為影片評分的影響特征,對其做特征工程處理,提出了基于隨機森林算法的電影評分預測模型。該模型能夠為大眾推薦電影提供有價值的參考,具有實際的意義。

參考文獻

[1]耿娟,郭明欣.豆瓣Top250電影數(shù)據(jù)挖掘及評分預測[J].河北企業(yè), 2021(02):11-13.

[2]陸君之.基于隨機森林回歸算法的電影評分預測模型[J].江蘇通信, 2018,34(01):75-78.

[3]劉明昌.豆瓣網(wǎng)站電影在線評分的混合預測模型研究[D].河北大學, 2017.

[4]呂紅燕,馮倩.隨機森林算法研究綜述[J].河北省科學院學報,2019,36 (03):37-41.

作者簡介

王紫薇(1997—),女,漢族,遼寧沈陽人,學生,碩士,天津工業(yè)大學經(jīng)濟與管理學院,研究方向:數(shù)據(jù)挖掘與建模。

猜你喜歡
隨機森林機器學習數(shù)據(jù)挖掘
數(shù)據(jù)挖掘綜述
軟件工程領域中的異常數(shù)據(jù)挖掘算法
隨機森林在棉蚜蟲害等級預測中的應用
基于二次隨機森林的不平衡數(shù)據(jù)分類算法
拱壩變形監(jiān)測預報的隨機森林模型及應用
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
基于支持向量機的金融數(shù)據(jù)分析研究
基于R的醫(yī)學大數(shù)據(jù)挖掘系統(tǒng)研究
玛多县| 通山县| 江华| 望都县| 盐津县| 武陟县| 辉南县| 华池县| 扬州市| 施甸县| 周宁县| 甘孜县| 克什克腾旗| 清苑县| 瑞昌市| 英山县| 阳高县| 洮南市| 高淳县| 西峡县| 双峰县| 乐昌市| 武汉市| 宿州市| 乐至县| 中牟县| 诏安县| 右玉县| 临潭县| 惠东县| 康保县| 南丹县| 元江| 江山市| 尉犁县| 大连市| 周口市| 郁南县| 丽江市| 西华县| 广丰县|