馮小麗,吳肇良,殷復(fù)蓮
(媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室,中國(guó)傳媒大學(xué)信息與通信工程學(xué)院,北京 100024)
收視率主要指研究一個(gè)地區(qū)在同一個(gè)時(shí)間段內(nèi)某一頻道或某一檔節(jié)目的收視觀眾占總收視人數(shù)的比率[1],可以反映節(jié)目的口碑與影響度,是評(píng)估節(jié)目?jī)r(jià)值的重要指標(biāo)之一。近年來,由于社交網(wǎng)絡(luò)的發(fā)展和興盛,受眾的情感偏好、網(wǎng)絡(luò)輿論造勢(shì)等成為干擾傳統(tǒng)電視收視的關(guān)鍵因素[2];同時(shí),用戶在線、及時(shí)發(fā)表的影評(píng)等對(duì)節(jié)目收視也會(huì)產(chǎn)生一定影響。這就使得如何把握電視節(jié)目數(shù)據(jù)、用戶行為數(shù)據(jù)及評(píng)論文本數(shù)據(jù)的影響,對(duì)已上映的節(jié)目進(jìn)行科學(xué)、有效的收視預(yù)測(cè)顯得尤為重要。
近年來,對(duì)收視率的預(yù)測(cè)方法與技術(shù)日益成為相關(guān)電視機(jī)構(gòu)、研究者關(guān)注的重點(diǎn)內(nèi)容。收視率預(yù)測(cè)主要研究如何將影響收視的各種因素轉(zhuǎn)換為一些相關(guān)指數(shù),并以相對(duì)精確的數(shù)學(xué)形式表示,以消除主觀判斷的偏差。早期,有學(xué)者利用統(tǒng)計(jì)學(xué)的線性回歸方法來評(píng)判收視規(guī)律,以刻畫節(jié)目的收視走向;但這一方法不能深入地把握收視變換規(guī)律及建立有效的收視預(yù)測(cè)模型[3]。在21 世紀(jì)初期,基于數(shù)據(jù)挖掘技術(shù)的收視率預(yù)測(cè)方法開始被引入收視預(yù)測(cè)領(lǐng)域,為該領(lǐng)域的研究提供了新思路,其以收視率的影響因素為依據(jù)對(duì)收視率進(jìn)行預(yù)測(cè)[4]。張晶等[3]將收視率的影響因素作為貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn),依據(jù)先驗(yàn)知識(shí)選取分析變量,采集樣本數(shù)據(jù),通過貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí),提出了新的收視率預(yù)測(cè)方法。梁招娣等[5]提出了一種RBF(Radial Basis Function)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法,其通過對(duì)收視率數(shù)據(jù)進(jìn)行非線性定階,對(duì)模型進(jìn)行重構(gòu),然后利用RBF 神經(jīng)網(wǎng)絡(luò)尋找最優(yōu)參數(shù)進(jìn)行預(yù)測(cè)。汪洋等[6]采用BP(Back propagation)神經(jīng)網(wǎng)絡(luò)進(jìn)行了收視預(yù)測(cè),這一方法更加注重?cái)?shù)據(jù)之間的穩(wěn)定規(guī)律,因此取得了相對(duì)較高的預(yù)測(cè)精度。程楊[7]提出采用機(jī)器學(xué)習(xí)中的梯度下降算法對(duì)收視率數(shù)據(jù)進(jìn)行分析預(yù)測(cè),但因數(shù)據(jù)量的限制,預(yù)測(cè)誤差較大。雖然上述模型在收視率預(yù)測(cè)上取得了良好效果,但這些方法往往存在易受個(gè)別“奇異點(diǎn)”數(shù)據(jù)影響、相關(guān)參數(shù)多、設(shè)定困難、數(shù)據(jù)量限制等問題。此外,基于時(shí)間序列的方法即依據(jù)序列過去變化的特征來預(yù)測(cè)未來的變化方式,也被用于收視預(yù)測(cè)。Zheng 等[8]采用基于時(shí)間序列的灰色系統(tǒng)模型(Grey Model(1,1), GM(1,1)),在數(shù)據(jù)少、信息少的情況下,對(duì)新一期電視節(jié)目的收視進(jìn)行了預(yù)測(cè)研究,最終預(yù)測(cè)誤差小于5%。姚芳[9]等基于時(shí)間序列構(gòu)建了四種擬合模型,對(duì)全國(guó)30 家電視臺(tái)衛(wèi)星頻道的收視率進(jìn)行了分析預(yù)測(cè),得出基于時(shí)間序列的方法可利用較少的數(shù)據(jù)信息構(gòu)建較好的擬合模型并達(dá)到較高精度的預(yù)測(cè)效果。車睿佳[10]基于時(shí)間序列建立了二階自回歸模型,為降低異常值帶來的影響,對(duì)模型進(jìn)行了平滑濾波改進(jìn);其以節(jié)目熱播期前29 天的收視數(shù)據(jù)作為訓(xùn)練集,最后3 天的數(shù)據(jù)作為測(cè)試集,對(duì)電視劇的收視率變化趨勢(shì)進(jìn)行預(yù)測(cè),取得了不錯(cuò)的預(yù)測(cè)效果??梢?,基于時(shí)間序列的方法可在一定程度上解決收視數(shù)據(jù)量少、信息少等問題,達(dá)到對(duì)節(jié)目未來的收視率有較佳的預(yù)測(cè)效果。近年來,也有學(xué)者對(duì)貝葉斯證據(jù)框架下的一類支持向量的估計(jì)方法進(jìn)行了研究[11],引入貝葉斯證據(jù)框架對(duì)其參數(shù)和樣本隸屬度取值進(jìn)行優(yōu)化,將收視率數(shù)據(jù)的前期認(rèn)識(shí)加入到收視預(yù)測(cè)模型中,并針對(duì)收視率數(shù)據(jù)的特點(diǎn)給出其參數(shù)調(diào)整方法,為收視率分析預(yù)測(cè)提供了一種新思路及方法,且相較于傳統(tǒng)的方法取得了更好的預(yù)測(cè)精度。支持向量機(jī)(Support Vector Machine, SVM)被廣泛應(yīng)用于小樣本、非線性數(shù)據(jù)擬合上,較傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法要求數(shù)據(jù)量豐富、對(duì)數(shù)據(jù)量依賴性強(qiáng)等方面具有較好的優(yōu)勢(shì)[12]。而由SVM 擴(kuò)展的最小二乘支持向量機(jī)(Least Squares Support Vector Machine, LSSVM)技術(shù)具有算法簡(jiǎn)單、易于實(shí)現(xiàn)、計(jì)算速度快等優(yōu)點(diǎn)[13],在物流需求量、網(wǎng)絡(luò)流量、降雨量、就業(yè)率等各領(lǐng)域的預(yù)測(cè)中,都展現(xiàn)出了其的良好優(yōu)勢(shì)。
因本文對(duì)節(jié)目播放期間短期內(nèi)的收視率做預(yù)測(cè)研究,基于時(shí)間序列即以每天的收視數(shù)據(jù)為實(shí)驗(yàn)樣本時(shí),從樣本量上屬于小樣本;從樣本值上,因收視用戶、收視時(shí)長(zhǎng)均處于不斷變化中,即收視數(shù)據(jù)也滿足小樣本,故本文將支持向量機(jī)技術(shù)引入到收視預(yù)測(cè)領(lǐng)域以驗(yàn)證其適用性。而針對(duì)傳統(tǒng)預(yù)測(cè)技術(shù)存在的問題,以及最小二乘支持向量機(jī)的參數(shù)確定、核函數(shù)選擇等問題,本文提出基于混合核的PSO_LSSVM(Particle Swarm Optimization, 粒子群優(yōu)化算法)模型,并綜合考慮節(jié)目在播期間的用戶收視行為和評(píng)論情感兩大因素進(jìn)行電視節(jié)目收視預(yù)測(cè)。本文第一節(jié)介紹本文研究的背景、意義及發(fā)展現(xiàn)狀;第二節(jié)主要介紹本文構(gòu)建的混合核PSO_LSSVM 收視預(yù)測(cè)模型的研究框架及模型采用PSO 算法[14]進(jìn)行參數(shù)優(yōu)化的訓(xùn)練步驟;第三節(jié)主要介紹本文的實(shí)驗(yàn)與結(jié)果分析,并給出對(duì)比實(shí)驗(yàn)結(jié)果;第四節(jié)為結(jié)論部分并進(jìn)行了展望。
本文基于用戶收視行為與評(píng)論情感分析的收視預(yù)測(cè)展開研究,研究架構(gòu)如圖1所示,主要包括數(shù)據(jù)集構(gòu)建、混合核模型構(gòu)建以及模型性能評(píng)估三個(gè)部分。首先在數(shù)據(jù)集構(gòu)建部分獲得模型所需的實(shí)驗(yàn)數(shù)據(jù)集,然后在混合核模型構(gòu)建部分介紹最小二乘支持向量機(jī)及粒子群優(yōu)化算法的基本原理、混合核函數(shù)的構(gòu)建及模型訓(xùn)練優(yōu)化步驟,最后在模型性能評(píng)估部分給出本文采用的兩個(gè)評(píng)價(jià)指標(biāo)及其定義。
圖1 研究架構(gòu)圖
本文采用的用戶收視行為數(shù)據(jù)是從某有線電視網(wǎng)絡(luò)股份有限公司的機(jī)頂盒收視數(shù)據(jù)中整理獲得的,針對(duì)其包含的自2015 年5 月1 日至10 月31 日期間所有用戶收視數(shù)據(jù)記錄,并結(jié)合分析了2015年下半年國(guó)內(nèi)電視劇熱播排行榜,最終選取《瑯琊榜》作為本文的收視預(yù)測(cè)研究對(duì)象。每一條用戶收視記錄數(shù)據(jù)中包含用戶編號(hào)、日期、開始收看時(shí)間、結(jié)束收看時(shí)間、節(jié)目時(shí)長(zhǎng)、節(jié)目名稱、節(jié)目標(biāo)簽等要素,其中時(shí)長(zhǎng)以秒為計(jì)算單位。因考慮到用戶的收看時(shí)長(zhǎng)在很大程度上可以反映出其對(duì)節(jié)目的喜愛程度[15],故基于每位用戶的收看時(shí)長(zhǎng)、以及當(dāng)天該節(jié)目的總播放時(shí)長(zhǎng),利用Python 計(jì)算了模型需要的每一天的用戶收視數(shù)據(jù),即構(gòu)建得到介于[0,1]之間的收視序列數(shù)據(jù)集。采用的計(jì)算方法如公式(1)所示:
其中,n表示當(dāng)天收看該節(jié)目的用戶數(shù),ti表示第i位用戶的收看時(shí)長(zhǎng),T表示節(jié)目在當(dāng)天的總播放時(shí)長(zhǎng),B表示用戶收視行為數(shù)據(jù)。則此公式中的分子表示節(jié)目播放當(dāng)天被所有用戶收看的總時(shí)長(zhǎng),分母表示若每一位用戶在節(jié)目播放當(dāng)天完整收看該節(jié)目的總時(shí)長(zhǎng)。
本文采用的用戶評(píng)論文本數(shù)據(jù)是從國(guó)內(nèi)最具影響力的電影社區(qū),同時(shí)擁有著較大規(guī)模用戶群體的豆瓣電影網(wǎng)站上基于Python 爬蟲技術(shù)獲得的。其中每一條評(píng)論數(shù)據(jù)包含用戶昵稱、日期、評(píng)價(jià)、短評(píng)等要素,通過選用較為常用的、基礎(chǔ)的、基于情感詞典的文本情感分析方法經(jīng)分詞、去停用詞等數(shù)據(jù)預(yù)處理以及構(gòu)建情感詞典、否定詞詞典、程度級(jí)別詞典等操作后利用Python 計(jì)算出每一條短評(píng)文本的情感值。情感值的正值、負(fù)值以及零值,分別對(duì)應(yīng)了用戶觀看節(jié)目后所發(fā)表短評(píng)的積極、消極、中性三種情感態(tài)度。同時(shí)為避免值過大或過小而影響模型的擬合預(yù)測(cè),故將情感值的上下限設(shè)置為[-10,10]。最后通過整理計(jì)算將每天所有用戶的短評(píng)情感值均值作為當(dāng)天的用戶評(píng)論情感值,即構(gòu)建得到情感序列數(shù)據(jù)集。
本文以標(biāo)準(zhǔn)最小二乘支持向量機(jī)模型為基礎(chǔ),因該模型的性能在很大程度上取決于模型參數(shù)的確定及其核函數(shù)的選擇,但目前尚未確定統(tǒng)一的理論來指導(dǎo)如何獲取有效的模型參數(shù)值及核函數(shù)。故本文首先針對(duì)模型參數(shù)值的確定問題,引入了PSO 優(yōu)化算法通過循環(huán)迭代的方式得到模型訓(xùn)練擬合時(shí)所需的最優(yōu)化參數(shù)值,即在LSSVM 模型的基礎(chǔ)上首先構(gòu)建了基于高斯徑向基(RBF)核函數(shù)的PSO_LSSVM模型。
而針對(duì)模型核函數(shù)的選擇問題,因模型若只采用單一的RBF 核函數(shù)擬合訓(xùn)練時(shí),易出現(xiàn)過擬合現(xiàn)象,為保證模型對(duì)收視序列數(shù)據(jù)具有較高擬合效果的同時(shí),也可具有較好的收視預(yù)測(cè)性能。本文基于具有高學(xué)習(xí)能力的局部RBF 核函數(shù)以及具有高泛化能力的全局多項(xiàng)式(POLY)核函數(shù),引入了混合權(quán)重系數(shù),實(shí)現(xiàn)構(gòu)建混合核函數(shù)K,其具體定義公式如下所示:
其中,a為混合權(quán)重系數(shù),表示混合核函數(shù)中兩個(gè)單一RBF 核、POLY 核所占的比重,其值取值范圍為[0,1]。當(dāng)a= 1 時(shí),K僅由RBF 核函數(shù)構(gòu)成;當(dāng)a= 0時(shí),K僅由POLY 核函數(shù)構(gòu)成。在公式(3)中,σ2表示RBF 核函數(shù)寬度。在公式(4)中,t表示偏置系數(shù)[16],且t≥0,在LSSVM 工具箱中其值默認(rèn)為1;q表示POLY 核函數(shù)階數(shù),q≥1 且為整數(shù)。在構(gòu)建得到混合核函數(shù)K后,將其作為PSO_LSSVM 模型的核函數(shù)即替換掉原來的RBF核函數(shù),以提高模型的收視預(yù)測(cè)性能,最終便構(gòu)建得到基于混合核的PSO_LSSVM 收視預(yù)測(cè)模型。
當(dāng)構(gòu)建了基于混合核的PSO_LSSVM 收視預(yù)測(cè)模型后,需由PSO 算法實(shí)現(xiàn)對(duì)兩組模型參數(shù)組合值即[γ,σ2]、[p,a]的確定,以得到不同訓(xùn)練數(shù)據(jù)下對(duì)應(yīng)的最優(yōu)化參數(shù)值,模型具體的訓(xùn)練步驟框圖如圖2所示,主要可分為初始化參數(shù)設(shè)置、第一次優(yōu)化確定[γ,σ2]的最優(yōu)值、第二次優(yōu)化確定[p,a]的最優(yōu)值三個(gè)步驟。
圖2 模型訓(xùn)練步驟框圖
a)初始化參數(shù)設(shè)置
對(duì)LSSVM 中的兩個(gè)參數(shù),設(shè)其取值范圍分別為γ ?[0.01,50],σ2?[0.01,20];對(duì)PSO 算法中的幾個(gè)超參數(shù),設(shè)定粒子群個(gè)數(shù)M= 50,初始化學(xué)習(xí)因子C1=C2= 1,初始慣性權(quán)值wmin=0.4,終止慣性權(quán)值wmax=0.95;最大迭代次數(shù)K= 500。
b)第一次優(yōu)化確定[γ,σ2]的最優(yōu)值
令γ和σ2的值分別指代粒子群中每個(gè)粒子的飛行速度及當(dāng)前位置,并將模型訓(xùn)練輸出的收視擬合值與真實(shí)值的均方根誤差作為適應(yīng)度函數(shù)計(jì)算得到的適應(yīng)值。并將這三個(gè)值存放在3維局部向量Pbest_1(M,3)中,其中Pbest_1[i,1 ]代表第i個(gè)粒子的γ值,Pbest_1[i,2 ]代表該粒子的σ2值,Pbest_1[i,3]則代表該粒子在當(dāng)前兩個(gè)屬性取值下的最優(yōu)適應(yīng)值。通過循環(huán)迭代比較每個(gè)粒子找到的局部最優(yōu)值,當(dāng)?shù)螖?shù)達(dá)到最大時(shí),確定全局最優(yōu)參數(shù)取值Gbest_1(i,3),即得到模型訓(xùn)練擬合需要[γ,σ2]的最優(yōu)參數(shù)取值。
c)第二次優(yōu)化確定[p,a]的最優(yōu)值
在第二次PSO 優(yōu)化中,除了改變最大迭代次數(shù)為300(該值是經(jīng)多次試驗(yàn)確定)外;其余參數(shù)的初始化設(shè)置均與第一次優(yōu)化的相一致。同時(shí)設(shè)置混合權(quán)重系數(shù)a的最大值為1,最小值為0;多項(xiàng)式核階數(shù)p的取值范圍為[ 2,8 ]。令p和a的值分別指代粒子群中每個(gè)粒子的飛行速度及當(dāng)前位置;將第一次優(yōu)化得到的[γ,σ2]的全局最優(yōu)化參數(shù)值代入到基于混合核模型構(gòu)建的新適應(yīng)度函數(shù)中,同樣將模型經(jīng)訓(xùn)練輸出的擬合值與真實(shí)值的均方根誤差作為適應(yīng)值。并將p、a以及新的適應(yīng)值存放在3 維局部向量Pbest_2(M,3)中,其中Pbest_2[i,1]表示第i個(gè)粒子的p值,Pbest_2[i,2]表示該粒子的a值,Pbest_2[i,3]則表示該粒子在當(dāng)前兩個(gè)屬性以及第一次優(yōu)化得到的兩個(gè)屬性取值下的最優(yōu)適應(yīng)值。通過循環(huán)迭代的方式比較每個(gè)粒子找到的局部最優(yōu)值,當(dāng)達(dá)到最大迭代次數(shù)時(shí),可確定第二次的全局最優(yōu)參數(shù)取值Gbest_2(i,3),即確定了[p,a]的取值。
最后經(jīng)兩次PSO 優(yōu)化確定了混合核模型擬合訓(xùn)練需要的全部最優(yōu)化參數(shù)后,將兩組參數(shù)組合值代入到混合核模型中,進(jìn)行訓(xùn)練,得到訓(xùn)練模型以用于電視節(jié)目收視預(yù)測(cè)。
本文采用自適應(yīng)滑動(dòng)窗口預(yù)測(cè)的方式,對(duì)標(biāo)準(zhǔn)LSSVM 模型、基于單一RBF 核的PSO_LSSVM 模型、本文所構(gòu)建的基于混合核的PSO_LSSVM 模型以及常用的數(shù)據(jù)擬合模型即BP 神經(jīng)網(wǎng)絡(luò)模型分別做訓(xùn)練擬合及收視預(yù)測(cè)對(duì)比實(shí)驗(yàn)。同時(shí)為反映各模型的性能優(yōu)劣,本文選用了在數(shù)據(jù)擬合預(yù)測(cè)領(lǐng)域中常用的均方根誤差RMSE及確定系數(shù)R2兩個(gè)評(píng)估指標(biāo)對(duì)模型的收視擬合、預(yù)測(cè)效果進(jìn)行客觀評(píng)價(jià)。其中,RMSE的定義如公式(5)所示:
其中,n表示輸入的訓(xùn)練樣本個(gè)數(shù),yi表示訓(xùn)練的真實(shí)輸出收視樣本值,表示經(jīng)訓(xùn)練模型得到的輸出收視預(yù)測(cè)值,yˉ表示真實(shí)輸出收視樣本值的均值。一般地,RMSE的值越接近于0,則表示模型的擬合、收視預(yù)測(cè)效果越好;R2的值越接近于1,模型整體的效果越好。
因用戶行為由用戶觀看日期即時(shí)間要素來體現(xiàn),故本文研究用戶收視隨時(shí)間及評(píng)論情感的變化規(guī)律構(gòu)建訓(xùn)練模型進(jìn)行節(jié)目收視預(yù)測(cè)。而因在預(yù)測(cè)某一天的收視時(shí),是無法提前獲知當(dāng)天的用戶評(píng)論文本數(shù)據(jù)的;故本文提出了先采用基于時(shí)間對(duì)用戶評(píng)論情感序列進(jìn)行二維模型擬合訓(xùn)練,然后基于得到的二維訓(xùn)練模型預(yù)測(cè)出之后幾天的評(píng)論情感值,接著將評(píng)論情感預(yù)測(cè)值依次代入到基于時(shí)間及評(píng)論情感序列對(duì)用戶收視序列進(jìn)行三維擬合訓(xùn)練得到的模型中,以預(yù)測(cè)得到這幾天相應(yīng)的收視值。
此外,考慮到用戶的收視習(xí)慣、以及節(jié)目自身內(nèi)容對(duì)固定用戶群體的吸引性,使得用戶收視隨時(shí)間及評(píng)論情感的變化也具有一定的規(guī)律性。故本文以20天為滑動(dòng)窗口步長(zhǎng),進(jìn)行模型自適應(yīng)迭代預(yù)測(cè)實(shí)驗(yàn),采用自適應(yīng)的方式,即依據(jù)不同的輸入數(shù)據(jù)得到對(duì)應(yīng)的模型參數(shù),可有效提高模型的擬合、預(yù)測(cè)性能。
因支持向量機(jī)的原理較為復(fù)雜,實(shí)現(xiàn)起來較為困難,同時(shí)針對(duì)最小二乘支持向量機(jī),美國(guó)的Suykens開發(fā)的基于MATLAB 的最小二乘支持向量機(jī)工具箱LSSVMlab具有編程簡(jiǎn)單、運(yùn)行效率高、可計(jì)算數(shù)據(jù)量大、可擴(kuò)展性強(qiáng)、算法功能豐富等各大優(yōu)點(diǎn)[17],是研究最小二乘支持向量機(jī)模型的有力工具。故本文基于MATLAB2019a軟件安裝并添加最小二乘支持向量機(jī)工具箱(LSSVMlabv1_8_R2009b_R2011a),通過有效調(diào)用其功能函數(shù)實(shí)現(xiàn)收視模型的訓(xùn)練、預(yù)測(cè)工作。
首先以第1-20 天的評(píng)論情感序列經(jīng)訓(xùn)練優(yōu)化構(gòu)建二維擬合模型,預(yù)測(cè)得到第21、22 天的評(píng)論情感值為例。采用兩次PSO 優(yōu)化算法得到混合核模型對(duì)應(yīng)的兩個(gè)參數(shù)組合的最優(yōu)化取值為:第一次優(yōu)化結(jié)果為γ= 8.2235,σ2= 0.3853;第二次優(yōu)化結(jié)果為p= 3,a =0.7718,代入模型對(duì)應(yīng)輸出的二維擬合曲線圖如圖3所示。
圖3 第1-20天評(píng)論情感序列擬合曲線圖
從圖3 可以看出,采用基于混合核的模型對(duì)用戶評(píng)論情感序列的擬合與真實(shí)情感值的變化是較為接近的,擬合曲線也可以較好地反映出用戶觀看節(jié)目時(shí)的情感態(tài)度變化。同樣,采用20 天的滑動(dòng)窗口步長(zhǎng),以第3-22天的評(píng)論情感序列構(gòu)建二維擬合模型,預(yù)測(cè)得到第23、24 天的評(píng)論情感值;以第5-24 天的評(píng)論情感序列構(gòu)建二維擬合模型,預(yù)測(cè)得到第25、26 天的評(píng)論情感值。
在預(yù)測(cè)得到評(píng)論情感值后,以第1-20天的評(píng)論情感序列即用戶收視序列經(jīng)訓(xùn)練優(yōu)化構(gòu)建三維混合核擬合模型,來預(yù)測(cè)第21、22 天的收視為例。采用兩次PSO 優(yōu)化算法得到模型對(duì)應(yīng)的最優(yōu)化參數(shù)值:第一次優(yōu)化結(jié)果為γ= 40.9683,σ2= 0.2905;第二次優(yōu)化結(jié)果為p= 4,a= 0.5944,代入模型對(duì)應(yīng)得到基于RBF核及基于POLY 核的輸出三維擬合曲面圖分別如圖4、圖5所示。
圖4 RBF核第1-20天用戶收視序列擬合曲圖
圖5 POLY核第1-20天用戶收視序列擬合曲面圖
從圖4、圖5 中可以看出,由基于局部的RBF 核函數(shù)得到的擬合曲面圖較基于全局的POLY 核函數(shù)得到的擬合曲面圖的趨勢(shì)隨收視的變化更為細(xì)膩,即其擬合的結(jié)果更接近收視率的真實(shí)值,反映體現(xiàn)出RBF核函數(shù)的高學(xué)習(xí)能力,也可體現(xiàn)出POLY 核函數(shù)的泛化性能較RBF核函數(shù)的更好。綜合兩者的優(yōu)勢(shì),便可使得三維用戶收視的混合核模型對(duì)收視值擬合的整體效果較佳。接著基于得到的三維用戶收視混合核模型來預(yù)測(cè)第21、22 天的收視時(shí),代入在二維評(píng)論情感混合核模型中預(yù)測(cè)得到的這兩天的評(píng)論情感值;同理,基于20 天的滑動(dòng)窗口步長(zhǎng),迭代預(yù)測(cè)得到第22、23天的收視以及第24、25天的收視值。
當(dāng)以20 天為滑動(dòng)窗口步長(zhǎng)時(shí)進(jìn)行模型收視預(yù)測(cè)時(shí),得到在各模型下的收視預(yù)測(cè)結(jié)果如表1所示,從表1中可以看出基于混合核模型實(shí)驗(yàn)得到的預(yù)測(cè)值較其它模型更接近于真實(shí)值,并繪制各模型預(yù)測(cè)效果對(duì)比圖如圖6所示。
表1 各模型收視預(yù)測(cè)結(jié)果
圖6 各模型預(yù)測(cè)效果比較圖
從圖6中可以看出混合核模型的預(yù)測(cè)值與真實(shí)值的變化趨勢(shì)在整體上更接近,即模型的泛化性能更好;也可以看出,當(dāng)采用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行收視預(yù)測(cè)時(shí),因其對(duì)樣本量的依賴性較強(qiáng),所以當(dāng)樣本量過少時(shí),整體的預(yù)測(cè)效果均沒有基于LSSVM模型的好。同時(shí),在表2中給出了各模型收視預(yù)測(cè)性能評(píng)估指標(biāo)值。
表2 各模型收視評(píng)估指標(biāo)
從表2中可以以更直觀的方式顯示出本文所構(gòu)建基于混合核的PSO_LSSVM 收視預(yù)測(cè)模型的預(yù)測(cè)性能明顯優(yōu)于其他模型。同時(shí)也體現(xiàn)出在標(biāo)準(zhǔn)LSSVM模型的基礎(chǔ)上引入PSO優(yōu)化算法的RBF核PSO_LSSVM模型,對(duì)標(biāo)準(zhǔn)模型做了有效的改進(jìn),并在綜合了混合核函數(shù)后達(dá)到了更優(yōu)的性能,使均方根誤差值近似達(dá)到0.02,更接近于0,說明本文構(gòu)建的混合核模型取得了較好的收視預(yù)測(cè)效果及較高的泛化性能。
本文基于用戶收視行為與評(píng)論情感分析的收視預(yù)測(cè)展開研究,在傳統(tǒng)的預(yù)測(cè)方法未考慮用戶觀影情感因素對(duì)收視的影響上做了進(jìn)一步的提升。同時(shí)構(gòu)建了具有高擬合、高泛化性能的混合核PSO_LSSVM模型,并采用自適應(yīng)迭代預(yù)測(cè)的方式以20天為滑動(dòng)窗口步長(zhǎng)進(jìn)行模型擬合訓(xùn)練及收視預(yù)測(cè),并通過對(duì)比實(shí)驗(yàn)分析得到混合核模型下預(yù)測(cè)均方根誤差指標(biāo)達(dá)到最低0.02 且確定系數(shù)在各模型下最高,即驗(yàn)證了本文構(gòu)建的混合核模型在收視預(yù)測(cè)領(lǐng)域的有效性及適用性。接下來我們將嘗試爬取更多的評(píng)論文本數(shù)據(jù)量并選取其他的滑動(dòng)窗口步長(zhǎng)做進(jìn)一步的實(shí)驗(yàn)于改進(jìn)工作,提高模型的收視預(yù)測(cè)泛化性能。