潘 棟 楊 靜
(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)
基于改進(jìn)K-近鄰算法的電視劇點(diǎn)播量預(yù)測方法
潘 棟 楊 靜
(華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系 上海 200241)
及時、準(zhǔn)確地預(yù)測電視劇點(diǎn)播量為商業(yè)決策提供很大幫助。傳統(tǒng)時間序列預(yù)測需要大量歷史數(shù)據(jù),很難滿足及時、準(zhǔn)確的預(yù)測需求。提出一種基于改進(jìn)K-近鄰算法的電視劇點(diǎn)播量預(yù)測方法,改進(jìn)了K-近鄰模型,并融入縮放技術(shù)和相關(guān)系數(shù),結(jié)合百度搜索數(shù)據(jù)和點(diǎn)播量序列的相關(guān)性,以前一周每天的點(diǎn)播量為特征,預(yù)測電視劇后一天的點(diǎn)播量。在PPTV和優(yōu)酷數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),比用K-近鄰的方法在MAE和MAPE上分別提高了75.5%、95.3%和71.8%、99.3%。
點(diǎn)播系統(tǒng) 電視劇點(diǎn)播量預(yù)測 K-近鄰模型 搜索數(shù)據(jù) 縮放技術(shù) 相關(guān)系數(shù)
近年來, VOD(video on demand)服務(wù)成為了目前各大視頻服務(wù)提供商最為主要的業(yè)務(wù),優(yōu)酷、PPTV、樂視等各大在線點(diǎn)播系統(tǒng)之間的競爭越來越激烈。如果能根據(jù)早期的電視劇的播放情況準(zhǔn)確地預(yù)估電視劇的點(diǎn)播量,提前準(zhǔn)備首頁推薦,能夠獲得更好的用戶體驗(yàn)。同時,根據(jù)艾瑞咨詢2013年第三季度到2015年第一季度的數(shù)據(jù)統(tǒng)計(jì),在中國在線視頻市場中,廣告所占的市場份額最大,2015年第一季度占了總收入的58.2%[1]。而提早預(yù)知視頻點(diǎn)播量可以為廣告播放次數(shù)、廣告播放時間做出預(yù)先安排計(jì)劃。這將為各大視頻服務(wù)提供商的商業(yè)決策給予極大的支持。因此,能在電視劇上線后越早預(yù)測電視劇的點(diǎn)播量,并準(zhǔn)確地預(yù)測用戶點(diǎn)播電視劇的次數(shù)成為了新的研究熱點(diǎn)。
在點(diǎn)播系統(tǒng)中,電視劇第一次出現(xiàn)在系統(tǒng)中一般稱為上線,用戶點(diǎn)播電視劇的次數(shù)稱為電視劇的點(diǎn)播量。目前已有的研究主要注重對點(diǎn)播量的相關(guān)因素進(jìn)行統(tǒng)計(jì)和分析,從而總結(jié)出對預(yù)測點(diǎn)播量有幫助的性質(zhì),還有一些研究針對視頻點(diǎn)播量趨勢的預(yù)測。而關(guān)于時間序列預(yù)測方面的研究,最大的困難是訓(xùn)練模型時需要大量歷史數(shù)據(jù),這為早期預(yù)測造成很大的困難。但文獻(xiàn)[2-3]的研究表明,序列前期的不同趨勢會對未來的點(diǎn)播量造成影響,所以當(dāng)沒有足夠的序列歷史數(shù)據(jù)時,可以根據(jù)早期點(diǎn)播量匹配趨勢變化相似的鄰居序列來幫助預(yù)測點(diǎn)播量。KNN算法是一種鄰近算法,可以找出樣本中與自身特征相似的鄰近點(diǎn)。然而傳統(tǒng)的KNN算法,一般使用歐氏距離作為相似度,并不能體現(xiàn)序列的趨勢變化的相似,如果通過改進(jìn)KNN算法,找出序列趨勢一致的鄰居序列,這樣可以更準(zhǔn)確地預(yù)測點(diǎn)播量。
雖然通過預(yù)測模型可以找出趨勢相似的鄰居序列,但是點(diǎn)播量序列存在不確定性,如果可以通過外部數(shù)據(jù)預(yù)測趨勢變化的類別,那將對預(yù)測結(jié)果有很大幫助。對于外部數(shù)據(jù)用于預(yù)測方面,很多研究通過搜索引擎數(shù)據(jù)對電影票房和電視劇排名進(jìn)行預(yù)測,取得了較好的成果。這些研究都是利用搜索數(shù)據(jù)可以體現(xiàn)用戶對該電視劇或電影的關(guān)注度,從而對票房和熱度排名進(jìn)行預(yù)測。然而,由于搜索數(shù)據(jù)和點(diǎn)播量在數(shù)值上存在很大的偏差,直接利用搜索數(shù)據(jù)進(jìn)行電視劇點(diǎn)播量的預(yù)測變得十分困難。但是,如果能分析出搜索數(shù)據(jù)與點(diǎn)播量之間的相關(guān)性,將對準(zhǔn)確地預(yù)測電視劇的點(diǎn)播量起到良好的輔助作用。
本文提出的算法從電視劇上線一周后開始每天預(yù)測其后一天的點(diǎn)播量,預(yù)測出具體的點(diǎn)播量數(shù)值,算法借助了百度搜索數(shù)據(jù)并改進(jìn)了KNN模型。本文的主要工作有以下三個方面:
(1) 改進(jìn)KNN模型,融入了縮放技術(shù),并以曲線的相關(guān)系數(shù)代替?zhèn)鹘y(tǒng)的歐氏距離,效果好于傳統(tǒng)的KNN預(yù)測方法。
(2) 發(fā)現(xiàn)百度搜索數(shù)據(jù)的趨勢變化與電視劇點(diǎn)播量的趨勢變化有明顯的一致性,并有一定的提前量。利用百度搜索數(shù)據(jù)的變化趨勢,融入到改進(jìn)的KNN模型中,進(jìn)行預(yù)測點(diǎn)播量,效果明顯好于只用改進(jìn)KNN模型的方法。
(3) 有效解決傳統(tǒng)方法需要大量歷史數(shù)據(jù),在后期才能開始預(yù)測的問題,本方法能在電視劇上線一周后開始預(yù)測點(diǎn)播量的具體數(shù)值。
對于視頻點(diǎn)播模式下的研究工作大致可以分為兩類:分析類和預(yù)測類。前者的研究主要注重于對點(diǎn)播量的相關(guān)因素進(jìn)行分析和統(tǒng)計(jì),從而總結(jié)出一些對預(yù)測點(diǎn)播量有幫助的性質(zhì);而后者給出具體的預(yù)測模型,主要對點(diǎn)播的趨勢進(jìn)行分析預(yù)測。
(1) 分析類:文獻(xiàn)[4]通過研究PPTV的點(diǎn)播日志數(shù)據(jù),分別分析了用戶行為、視頻熱度、視頻點(diǎn)播平臺等因素。再通過計(jì)算皮爾森相關(guān)系數(shù),提出了視頻在上線后的前面幾個小時的點(diǎn)播量與最終的點(diǎn)播量有很強(qiáng)的相關(guān)性。而文獻(xiàn)[5]分析了視頻的生命周期,指出節(jié)目的點(diǎn)播量集中在視頻的早期。文獻(xiàn)[6]分析并對比各種視頻類型的趨勢變化,認(rèn)為電視劇和電影每日的點(diǎn)播量存在一定規(guī)律。
(2) 預(yù)測類:文獻(xiàn)[2]利用基于HMM的峰值預(yù)測方法對視頻信息數(shù)據(jù)和點(diǎn)播量序列數(shù)據(jù)進(jìn)行預(yù)測,說明了視頻前期的點(diǎn)播趨勢和后期的點(diǎn)播趨勢具有一定的相關(guān)性。文獻(xiàn)[7]對序列數(shù)據(jù)的趨勢類型進(jìn)行聚類,得到趨勢類型的種類。再訓(xùn)練分類器,預(yù)測新序列的趨勢類型。文獻(xiàn)[8]認(rèn)為序列在不同的時間所表現(xiàn)的趨勢類別應(yīng)該是不一樣的。所以,作者用窗口對序列進(jìn)行切分,最后對切分序列進(jìn)行聚類操作。文獻(xiàn)[3]對前K天的點(diǎn)播量總和采用線性回歸和對數(shù)線性回歸的方法,預(yù)測前N天的點(diǎn)播量總和。文獻(xiàn)[9]以早期序列作為特征,用KNN預(yù)測視頻的播放量峰值來對視頻進(jìn)行熱度排名。文獻(xiàn)[10]利用早期的點(diǎn)播序列與后期點(diǎn)播變化的相關(guān)性利用KNN在早期預(yù)測了點(diǎn)播序列。
對于借助外部數(shù)據(jù)對點(diǎn)播量預(yù)測的研究,文獻(xiàn)[11]中,作者通過研究電影上映的周票房,分析了電影的票房數(shù)和電影的搜索次數(shù),發(fā)現(xiàn)兩者的相關(guān)性。再用前4周發(fā)布的電影名相關(guān)搜索次數(shù)等相關(guān)因素預(yù)測了票房。文獻(xiàn)[12]作者利用微博社交數(shù)據(jù)和百度搜索數(shù)據(jù)作為特征,利用線性回歸的方法,對電視劇進(jìn)行熱度排名,取得了很好的效果。文獻(xiàn)[13]利用社交網(wǎng)絡(luò)數(shù)據(jù)對視頻的熱度實(shí)時的進(jìn)行排名預(yù)測。
針對上述的情況,本文試圖結(jié)合搜索數(shù)據(jù)來進(jìn)行點(diǎn)播系統(tǒng)中的電視劇點(diǎn)播量的預(yù)測,通過分析搜索數(shù)據(jù)與點(diǎn)播序列的相關(guān)性,利用改進(jìn)的預(yù)測模型對新上線的電視劇點(diǎn)播量進(jìn)行預(yù)測。
本文提出的方法由兩步組成,如圖1所示。第一步,訓(xùn)練集處理。將作為訓(xùn)練集的電視劇點(diǎn)播序列進(jìn)行窗口劃分,并對曲線趨勢進(jìn)行分類;第二步,點(diǎn)播量預(yù)測。根據(jù)百度搜索數(shù)據(jù)的變化趨勢,利用改進(jìn)KNN模型預(yù)測電視劇點(diǎn)播量。本文中所使用到的符號,如表1所示。
圖1 方法總體框架
符號含義n窗口大小TS電視劇點(diǎn)播量序列集合Tsi集合TS中的第i個序列Tsi(t)序列Tsi中的第t個元素S劃分好的序列集合sti序列Tsi從的第t個元素開始劃分的子序列sti(k)sti的第k個元素trendtisti的趨勢類別s[i:j]序列s從i到j(luò)的子序列snew新的電視劇序列sbaidu百度搜索數(shù)據(jù)序列sneighbour鄰居序列Daypre百度搜索數(shù)據(jù)變化趨勢較點(diǎn)播量變化趨勢的提前天數(shù)
2.1 訓(xùn)練集處理
2.2 百度指數(shù)分析
為了分析百度搜索數(shù)據(jù)與電視劇點(diǎn)播量之間的相關(guān)性,作者從PPTV中獲取了2014年10月到2015年7月新上線的100部電視劇的點(diǎn)播數(shù)據(jù),并從百度指數(shù)中抓取了這些電視劇的歷史搜索數(shù)據(jù)。對于百度指數(shù)的分析,本文主要關(guān)注兩個問題:
(1) 百度搜索數(shù)據(jù)的趨勢變化是否提前于電視劇點(diǎn)播量的趨勢變化;
(2) 電視劇點(diǎn)播量的趨勢變化與百度搜索數(shù)據(jù)的趨勢變化是否具有一致性。
2.2.1 百度搜索次數(shù)的趨勢變化提前量分析
根據(jù)電視劇播出的情況,首播前制片商會在各個渠道對電視劇進(jìn)行大量的宣傳活動,然后播出預(yù)告片,最后才會進(jìn)行正式首播。用戶往往在點(diǎn)播電視劇前,在搜索引擎上搜索電視劇名,了解電視劇的相關(guān)內(nèi)容簡介。同時,對于新的電視劇,網(wǎng)上更新往往比在電視上播放要晚一天,會在第二天凌晨放出片源。這些原因都有可能造成搜索數(shù)據(jù)的趨勢變化提前于點(diǎn)播量的趨勢變化。所以,根據(jù)相關(guān)系數(shù)公式(式(1))分別計(jì)算了電視劇從首播開始30天的點(diǎn)播量s[0:29](設(shè)首播日在各個序列中的下標(biāo)為0)與百度搜索數(shù)據(jù)首播前四天sbaidu[-4,25]、首播前三天sbaidu[-3,26]、首播前兩天sbaidu[-2,27]、首播前一天sbaidu[-1,28]、首播當(dāng)天sbaidu[0,29]、首播后一天sbaidu[1,30]、首播后兩天sbaidu[2,31]的相關(guān)系數(shù),取其中相關(guān)系數(shù)最大的為電視劇的提前量,并統(tǒng)計(jì)電視劇數(shù),如圖2所示。
(1)
圖2 百度搜索數(shù)據(jù)提前量分析
從圖2中可以看出在100部電視劇中,26部電視劇的提前量為首播前兩天,57部電視劇的提前量為首播前一天。占了84%的電視劇搜索數(shù)據(jù)的趨勢變化提前于電視劇點(diǎn)量的趨勢變化。這也說明了絕大多數(shù)電視劇的百度搜索數(shù)據(jù)的趨勢變化先于電視劇的點(diǎn)播量的趨勢變化。
2.2.2 百度搜索次數(shù)與點(diǎn)播量趨勢變化的一致性分析
往往搜索量越多的電視劇,說明受到的關(guān)注越多,從而點(diǎn)播數(shù)量相對較多。對于變化趨勢一致性的分析,我們根據(jù)式(1)計(jì)算在圖2分析中趨勢變化提前于點(diǎn)播量序列的84部電視劇的點(diǎn)播量與其首播前三天、首播前兩天、首播前一天百度搜索數(shù)據(jù)的相關(guān)系數(shù),取其中最大的相關(guān)系數(shù),作為該電視劇百度搜索數(shù)據(jù)與點(diǎn)播量的相關(guān)系數(shù),分別統(tǒng)計(jì)相關(guān)系數(shù)0.9-1、0.8-0.9、0.7-0.8、0.6-0.7、0.5-0.6和0-0.5的電視劇個數(shù),如圖3所示。
圖3 百度搜索次數(shù)變化趨勢和點(diǎn)播量變化趨勢各個相關(guān)系數(shù)段的電視劇個數(shù)
在84部電視劇中,相關(guān)系數(shù)大于0.7有78部 ,而大于0.8的也有67部,這說明了百度搜索次數(shù)的變化趨勢與點(diǎn)播量的播放的變化趨勢有顯著的線性相關(guān)性,也可以說明它們的變化趨勢有顯著的一致性。
2.3 電視劇點(diǎn)播量數(shù)值預(yù)測
本文主要改進(jìn)了KNN算法的相似度計(jì)算,不再使用傳統(tǒng)的歐氏距離,使用融入了縮放技術(shù)的相關(guān)系數(shù)作為相似度,利用前期的點(diǎn)播量找出訓(xùn)練集中與其變化趨勢相似的鄰居序列,并通過相似的鄰居序列進(jìn)行預(yù)測具體的點(diǎn)播量數(shù)值。
2.3.1 融入縮放技術(shù)與相關(guān)系數(shù)的相似度計(jì)算
由于不同的序列的數(shù)量級各不相同,要預(yù)測出精確的數(shù)值,數(shù)量級的不同會影響到預(yù)測數(shù)值的精度,為了消除相似度計(jì)算由于序列自身數(shù)量級而造成的影響,本文使用了文獻(xiàn)[14]中所提出的縮放技術(shù)。同時,考慮到傳統(tǒng)的KNN使用歐氏距離作為相似度,而歐氏距離主要體現(xiàn)的是空間距離,對于時間序列歐氏距離只能表現(xiàn)出兩條序列之間值的差距大小,并不能體現(xiàn)出序列之間趨勢變化的相似程度。而相關(guān)系數(shù)主要體現(xiàn)兩條序列的線性相關(guān)程度,可以有效地衡量兩條曲線的趨勢變化是否相似。因此本文利用序列的相關(guān)系數(shù)作為相似度,可以更好地找出趨勢變化一致的鄰近點(diǎn)。融入了縮放技術(shù)的相關(guān)系數(shù)相似度計(jì)算式表示為:
sim(sa,sb)=r(sa,αsb)
(2)
2.3.2 點(diǎn)播量數(shù)值預(yù)測方法
由于根據(jù)圖2分析,電視劇的提前量主要集中在首播前兩天和首播前一天,所以根據(jù)式(2)計(jì)算預(yù)測序列snew[0:n](假設(shè)首播日在各個序列中的下標(biāo)為0)與該電視劇百度指數(shù)中首播前一天序列sbaidu[-1:n-1]、首播前兩天sbaidu[-2:n-2]的相似度,相似度高的作為該電視劇搜索指數(shù)提前于點(diǎn)播序列的天數(shù)Daypre。
(3)
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文在兩個數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集來自兩個國內(nèi)主流在線點(diǎn)播服務(wù)提供商——PPTV和優(yōu)酷。PPTV數(shù)據(jù)集取樣自PPTV的日志文件,從PPTV中收集了2014年10月1日到2015年6月30日新上線,并且首播日期和真實(shí)首播日期一致的138部電視劇的點(diǎn)播序列作為測試集,選取524部電視劇的點(diǎn)播序列作為訓(xùn)練集;優(yōu)酷數(shù)據(jù)集抓取了中國網(wǎng)絡(luò)視頻指數(shù)中優(yōu)酷的點(diǎn)播量,選取了2014年10月1日到2015年6月30日新上線,并且首播日期和真實(shí)首播日期一致的101部電視劇的點(diǎn)播量作為測試集,選取556部電視劇的點(diǎn)播序列作為訓(xùn)練集。本文還用到了外部數(shù)據(jù)——百度搜索數(shù)據(jù),從百度指數(shù)中抓取了電視劇在百度中每天的搜索次數(shù)。
3.2 實(shí)驗(yàn)設(shè)置
在實(shí)現(xiàn)本文的方法時,對于處理訓(xùn)練集,在設(shè)置窗口大小n時,考慮到訓(xùn)練集序列不能過短或過長,過短不能體現(xiàn)序列的變化趨勢,過長會推遲預(yù)測時間,根據(jù)文獻(xiàn)[9]設(shè)置窗口大小為一周左右最為合適。對于訓(xùn)練集序列分類規(guī)則中設(shè)置的5個閾值分別為0.5、0.1、0、-0.1、-0.5,0用來區(qū)分趨勢的升降;區(qū)分趨勢類別中的“快速上升”和“快速下降”,取中間值0.5和-0.5作為閾值;區(qū)分趨勢類別中的“緩慢上升”和“緩慢下降”,取小一點(diǎn)的數(shù)0.1與-0.1作為閾值。
本文設(shè)置3個方法用來與提出的方法進(jìn)行比較:(1)KNN:利用KNN模型,以傳統(tǒng)的歐氏距離作為相似度,根據(jù)式(3)計(jì)算出點(diǎn)播量變化的歸一化值sreslut_temp,反歸一化后加上snew(t)預(yù)測電視劇的點(diǎn)播量;(2)KNN+:用融入了縮放技術(shù)的相關(guān)系數(shù)作為相似度的KNN模型,根據(jù)式(3)計(jì)算出點(diǎn)播量變化的歸一化值sreslut_temp,反歸一化后加上snew(t)預(yù)測電視劇點(diǎn)播量;(3) 百度指數(shù):在得到提前天數(shù)Daypre后,直接使用百度搜索數(shù)據(jù)變化比例作為點(diǎn)播量的變化比例β,以snew(t)=(1+β)×snew(t-1)預(yù)測電視劇的點(diǎn)播量。
對于實(shí)驗(yàn)結(jié)果評測,本文使用平均絕對誤差[15](MAE)和平均絕對百分誤差[15](MAPE)作為實(shí)驗(yàn)的評價指標(biāo)。MAE:所有單個預(yù)測值與真值之間偏差的絕對值的平均值,不會出現(xiàn)正負(fù)抵消的情況,更好地反映預(yù)測值誤差的實(shí)際情況;MAPE:所有單個觀測值與真值偏差百分比的平均值,可以避免由于真值數(shù)量級不同造成的影響,體現(xiàn)預(yù)測的絕對誤差。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文根據(jù)設(shè)置的4個方法,預(yù)測了測試集中電視劇每天的具體點(diǎn)播量,評測結(jié)果如表2所示。在四個方法中本文提出的方法在兩個數(shù)據(jù)集上的效果都好于其他三個方法。在兩個數(shù)據(jù)集上,KNN+的方法預(yù)測準(zhǔn)確率高于KNN預(yù)測的結(jié)果,分別在PPTV和優(yōu)酷兩個數(shù)據(jù)集上提升了40%、56%以及45%、60%。KNN+的方法在效果上顯著高于KNN,一方面說明KNN+模型的有效性,傳統(tǒng)的歐氏距離只能計(jì)算序列之間的空間距離,并沒有體現(xiàn)出序列的變化趨勢。而KNN+算法,通過修改相似度的計(jì)算,很好地體現(xiàn)了序列之間趨勢變化的相似程度,能夠根據(jù)需要預(yù)測的點(diǎn)播序列從訓(xùn)練集中找到與其趨勢變化相似的點(diǎn)播序列。另一方面也從側(cè)面說明了電視劇的點(diǎn)播量與其前期點(diǎn)播量的趨勢變化有密切的相關(guān)性。
表2 實(shí)驗(yàn)結(jié)果
而本文提出的方法是四個方法中效果最好的,在各個評測指標(biāo)上都顯著好于KNN+的結(jié)果。在PPTV和優(yōu)酷兩個數(shù)據(jù)集上,MAE和MAPE分別提高了59.0%、39.1%和49.1%、38.9%,在準(zhǔn)確性上有很大的提升。說明了百度搜索數(shù)據(jù)的趨勢變化確實(shí)和電視劇點(diǎn)播量的趨勢變化趨于一致,并有一定的提前量,具有顯著的相關(guān)性。所以,百度搜索數(shù)據(jù)能夠?qū)?zhǔn)確地預(yù)測電視劇點(diǎn)播量起到很好的輔助作用,幫助預(yù)測點(diǎn)播量的趨勢變化;同時,本文提出的方法比較百度指數(shù)的方法在兩個指標(biāo)上超出:(1)PPTV:23%、8.4%;(2) 優(yōu)酷:15%、1.6%。說明了KNN+在這個方法中的有效性,可以通過KNN+的方法找出趨勢變化相似的鄰居序列,用相似的鄰居序列對電視劇點(diǎn)播量進(jìn)行預(yù)測。
對于兩個數(shù)據(jù)集的比較,由于MAE會受到數(shù)據(jù)集本身數(shù)據(jù)的影響,所以主要從MAPE這個指標(biāo)進(jìn)行分析。從MAPE上可以看出,四種方法在PPTV上的效果好于優(yōu)酷數(shù)據(jù)。這個原因可能由兩個數(shù)據(jù)集的數(shù)據(jù)來源不同而導(dǎo)致,PPTV的數(shù)據(jù)來源于日志文件,處理數(shù)據(jù)時,點(diǎn)播量主要統(tǒng)計(jì)了正片每天的點(diǎn)播量;而優(yōu)酷數(shù)據(jù),是從中國網(wǎng)絡(luò)視頻指數(shù)中抓取獲得,點(diǎn)播量由預(yù)告片和正片的點(diǎn)播量組成,這個原因可能導(dǎo)致方法在優(yōu)酷數(shù)據(jù)集上的結(jié)果要略差于PPTV。
從以上的實(shí)驗(yàn)結(jié)果分析來看,本文提出的基于改進(jìn)K-近鄰并結(jié)合了百度搜索數(shù)據(jù)與點(diǎn)播量的相關(guān)性預(yù)測新上線電視劇點(diǎn)播量的方法在評測結(jié)果上要優(yōu)于其他方法。
本文通過百度搜索引擎利用改進(jìn)的KNN模型對新上線的電視劇進(jìn)行了點(diǎn)播量預(yù)測。我們通過對PPTV中新上線的100部電視劇進(jìn)行了相關(guān)系數(shù)分析,發(fā)現(xiàn)了百度搜索數(shù)據(jù)和電視劇點(diǎn)播序列的趨勢一致性,以及百度搜索數(shù)據(jù)的趨勢變化提前于電視劇點(diǎn)播量的趨勢變化。最后利用本文提出的方法在PPTV和優(yōu)酷兩個數(shù)據(jù)集上進(jìn)行了測試,都表現(xiàn)出了更好的預(yù)測效果,對比KNN的方法,在MAE和MAPE上分別高出75.5%、95.3%和71.8%、99.3%。
對于未來工作,我們在處理訓(xùn)練集時,在劃分序列的同時可以考慮序列所處的位置,將序列的位置信息加入到預(yù)測工作中。
[1] 艾瑞咨詢.艾瑞:2015Q1中國在線視頻移動廣告占比迅速攀升[DB/OL].(2015-5-11).http://www.iresearch.com.cn/view/249731.html.
[2]CraneR,SornetteD.Viral,Quality,andJunkVideosonYouTube:SeparatingContentfromNoiseinanInformation-RichEnvironment[C]//AAAISpringSymposium.California.USA:SocialInformationProcessing.2008:18-20.
[3]SzaboG,HubermanBA.Predictingthepopularityofonlinecontent[J].CommunicationsoftheACM,2010,53(8):80-88.
[4]LiZ,LinJ,AkodjenouMI,etal.Watchingvideosfromeverywhere:astudyofthePPTVmobileVoDsystem[C]//Proceedingsofthe2012ACMconferenceonInternetmeasurementconference.Boston.USA:ACM,2012:185-198.
[5]FigueiredoF,BenevenutoF,AlmeidaJM.Thetubeovertime:characterizingpopularitygrowthofyoutubevideos[C]//ProceedingsofthefourthACMinternationalconferenceonWebsearchanddatamining.HongKong.China:ACM,2011:745-754.
[6]AbrahamssonH,NordmarkM.ProgramPopularityandViewerBehaviorinaLargeTV-on-DemandSystem[C]//Proceedingsofthe2012ACMconferenceonInternetmeasurementconference.NewYork.USA:ACM,2012:199-210.
[7]FigueiredoF.Onthepredictionofpopularityoftrendsandhitsforusergeneratedvideos[C]//ProceedingsofthesixthACMinternationalconferenceonWebsearchanddatamining.Rome.Italy:ACM,2013:741-746.
[8]AhmedM,SpagnaS,HuiciF,etal.Apeekintothefuture:Predictingtheevolutionofpopularityinusergeneratedcontent[C]//ProceedingsofthesixthACMinternationalconferenceonWebsearchanddatamining.Rome.Italy:ACM,2013:607-616.
[9] 李侖,王洪波.基于K近鄰的網(wǎng)絡(luò)視頻播放量峰值預(yù)測模型[EB/OL].(2015-12-02).http://www.paper.edu.cn/releasepaper/content/201512-122.
[10]ChenH,HuQ,HeL.Clairvoyant:AnEarlyPredictionSystemForVideoHits[C]//Proceedingsofthe23rdACMInternationalConferenceonConferenceonInformationandKnowledgeManagement.Shanghai.China:ACM,2014:2054-2056.
[11]PanaliganR.QuantifyingMovieMagicwithGoogleSearch[EB/OL].(2013-05-18).http://www.tuicool.com/articals/mei2Qf.
[12] 徐曉楓,賀樑,楊靜.融合社交與搜索數(shù)據(jù)的電視劇點(diǎn)播排名預(yù)測研究[J].計(jì)算機(jī)工程,2015,41(8):6-12,17.
[13]XuJ,VandSM,LiuJ,etal.Timelyvideopopularityforecastingbasedonsocialnetworks[C]//Chengdu.China:ComputerCommunications.IEEE,2015.
[14]ChuKKW,WongMH.Fasttime-seriessearchingwithscalingandshifting[C]//ProceedingsoftheeighteenthACMSIGMOD-SIGACT-SIGARTsymposiumonPrinciplesofdatabasesystems.Philadelphia.USA:ACM,1999:237-248.
[15]HyndmanRJ,KoehlerAB.Anotherlookatmeasuresofforecastaccuracy[J].InternationalJournalofForecasting,2005,22(4):679-688.
A PREDICTION METHOD OF TV ON DEMAND BASED ON IMPROVED KNN ALGORITHM
Pan Dong Yang Jing
(DepartmentofComputerScienceandTechnology,EastChinaNormalUniversity,Shanghai200241,China)
Timely and accurate prediction of TV on demand provides a great help for commercial decision. Traditional time series prediction requires a lot of historical data, and it is difficult to meet the timely and accurate prediction needs. In this paper, an improved KNN algorithm is proposed to improve the prediction of TV on demand. The KNN model is improved, and the scaling technology and correlation index are integrated. Combining the correlation between Baidu search data and the demand quantity sequence, it is characterized by daily demand of the previous week to predict the day after the TV drama demand. Experiments on the PPTV and Youku data sets show an increase of 75.5%, 95.3%, 71.8% and 99.3% on the MAE and MAPE, respectively, compared with the KNN algorithm.
On-demand system TV on demand prediction KNN model Search data Scaling technology Correlation index
2016-05-20。國家科技支撐項(xiàng)目(2015BAH01F02);上海市科學(xué)技術(shù)委員會科研計(jì)劃項(xiàng)目(16511102702)。潘棟,碩士生,主研領(lǐng)域:數(shù)據(jù)挖掘,復(fù)雜信息處理與數(shù)據(jù)庫。楊靜,副教授。
TP3
A
10.3969/j.issn.1000-386x.2017.05.042