国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種適用于農(nóng)村電影放映的訂購推薦算法研究

2021-08-01 12:48:26王曉西
現(xiàn)代電影技術(shù) 2021年7期
關(guān)鍵詞:相似性預測算法

王曉西

(中央宣傳部電影數(shù)字節(jié)目管理中心,北京 100866)

1 引言

農(nóng)村電影放映服務是我國公共文化體系建設的重要組成部分,讓更多農(nóng)民群眾能看到高質(zhì)量、高水平的數(shù)字電影一直是公益電影工作者的追求。當前,農(nóng)村電影市場年均供應影片超4000部、年均供應新片超600部。與其它電子商務系統(tǒng)類似,農(nóng)村院線進行影片訂購時面臨著選片基數(shù)大的問題。因此,向各農(nóng)村院線提供個性化影片訂購推薦服務是非常有必要的。

研究者們在推薦算法的精準性、實時性方面進行了大量的努力,但推薦算法的實際運用還需要結(jié)合目標系統(tǒng)的運營特點進行針對性優(yōu)化。農(nóng)村電影放映有其獨有特點,主要體現(xiàn)在幾個方面:一是區(qū)域性,農(nóng)村電影放映主要面向廣大農(nóng)村地區(qū),不同地域的人民群眾受環(huán)境、語言、民族、文化等影響對電影的喜好不盡相同;二是引導性,院線在訂購影片過程中會受到包括“主題影片推薦活動”在內(nèi)的影片訂購指導,“好片”“熱片”會出現(xiàn)扎堆訂購的情況;三是計劃性,院線訂購放映除受到政策、季節(jié)、氣候因素影響外,也受服務群體的影響,如給學校、景區(qū)等地放映的院線訂購影片相對集中。正是由于農(nóng)村電影放映工作的獨特性,給各院線提供訂購推薦服務需要結(jié)合這些特點開展。

2 傳統(tǒng)基于用戶的協(xié)同過濾推薦算法

2.1 推薦算法的選擇

目前應用相對廣泛的推薦技術(shù)包括基于內(nèi)容過濾的推薦技術(shù)、基于協(xié)同過濾的推薦技術(shù)、基于深度學習的推薦技術(shù)等?;谟脩舻膮f(xié)同過濾推薦是基于協(xié)同過濾的推薦技術(shù)中的一種,其算法思想是通過發(fā)現(xiàn)近鄰用戶來完成推薦,比較適合于用戶數(shù)量不多、歷史行為豐富的使用場景。推薦算法都存在自身優(yōu)缺點,在不同使用場景、不同數(shù)據(jù)源情況下推薦效果也存在差異,要結(jié)合在用系統(tǒng)的特點選擇合適的推薦算法。

根據(jù)“電影數(shù)字節(jié)目交易平臺”數(shù)據(jù),2017年至2019年,全國農(nóng)村院線年訂購影片場次均超過千萬場,年活躍訂購院線穩(wěn)定在270余條,年可訂購影片均超過4000部,實際訂購影片超過90%。2018年至2019年,兩年合計在檔影片5110部,兩年都在檔影片3667部,年均新簽約影片超過600部,影片片種包括故事片、科教片、戲曲片、紀錄片及美術(shù)片。通過以上數(shù)據(jù)并結(jié)合上節(jié)內(nèi)容可以看出:

(1)農(nóng)村院線數(shù)量相對較少且固定;

(2)每年可訂購影片數(shù)量相對較多,影片有過檔下線及新片上映等情況;

(3)院線年訂購影片覆蓋面較廣,訂購場次基數(shù)較大且區(qū)分度較高。

綜上,在院線用戶數(shù)量固定、有豐富的歷史訂購行為數(shù)據(jù)、整體數(shù)據(jù)規(guī)模穩(wěn)定等特征的農(nóng)村電影放映場景下,適宜采用基于用戶的協(xié)同過濾推薦算法。

2.2 基于用戶的協(xié)同過濾推薦算法

傳統(tǒng)基于用戶的協(xié)同過濾推薦算法的應用思路是先計算查找與各院線有相似訂購偏好的近鄰院線,再從這些近鄰院線的歷史訂購影片中找到目標院線最可能會訂購的影片集合,最后按照對影片預測評分高低形成目標院線的影片推薦列表。在傳統(tǒng)算法應用過程中影響最終推薦質(zhì)量的環(huán)節(jié)包括近鄰用戶的計算查找和推薦列表的形成。

2.2.1 近鄰用戶的計算查找

有高相似性偏好的兩個用戶稱為近鄰用戶,用戶之間的相似性可以通過他們對相同物品 (影片)的評分(訂購場次)來計算得到。在推薦算法中,用戶對物品的評分可以用向量來表示,向量間的距離越近相似性越高。

度量用戶間相似性方法有多種,比較常見的有:歐式相似性、余弦相似性及皮爾森相似性。其中,歐式相似性是通過多維向量空間中點間的絕對距離表示,余弦相似性是通過計算多維向量空間中用戶間向量夾角的余弦值來體現(xiàn),皮爾森相似性是在用戶有共同評分的物品集 (訂購相同影片集)的基礎上衡量用戶間相關(guān)程度,其值介于-1 與1之間。相似性度量是算法的核心,直接影響近鄰用戶計算查找的準確性。

2.2.2 推薦列表的形成

得到用戶的近鄰用戶后,根據(jù)近鄰用戶對物品的實際評分預測用戶對該物品的評分。參考一定數(shù)量的近鄰用戶,綜合物品預測評分的高低產(chǎn)生推薦列表。假定N (u)為用戶u的參考近鄰用戶集合,那么用戶u對物品i的預測評分P計算公式如下:

參考近鄰用戶越多,計算復雜度越高。通常做法是在整個用戶集中,選擇與用戶相似性最高的前k個用戶作為近鄰集合,再根據(jù)公式 (1)計算預測評分,將分值較高的前N 個物品形成推薦列表推薦給用戶。

3 算法改進

本文在傳統(tǒng)基于用戶的協(xié)同過濾推薦算法基礎上,針對農(nóng)村電影放映工作特點,提出了一種改進的協(xié)同過濾推薦算法。

3.1 評分預測模型修正

傳統(tǒng)協(xié)同過濾算法中評分預測計算公式如式(1)所示,可以簡化為:

公式中∑相似度*評分值給出了所有加權(quán)評分的總和,同時為了修正一個受到更多用戶評分的物品對結(jié)果產(chǎn)生更大的影響,將評分總和除以所有對這個物品有評分的用戶的相似度之和,進而得到最終針對某個物品的預測評分。

對于農(nóng)村電影放映來說,由于存在院線訂片引導性問題,各類推薦影片會被院線廣泛訂購,擁有較大評分基礎。這些影片在做評分預測時不應該被削弱影響,而應擁有更多的貢獻權(quán)重。為解決這一問題,本文提出基于農(nóng)村電影放映場景下的影片評分預測模型為:

影片預測評分=∑(院線相似度*院線評分值)

3.2 近鄰計算加權(quán)干預

協(xié)同過濾算法中近似鄰居的查找是通過計算用戶間相似性得到,不去考慮用戶對物品的評分行為。在農(nóng)村電影放映工作中院線計劃性不同其訂購需求也是不同的,有些院線訂購影片相對集中、訂購場次相對均衡,也有院線訂購影片基數(shù)較大,訂購較為分散。如圖1,2018年至2019年間,在所示訂購影片部數(shù)區(qū)間里的院線數(shù)量整體呈正態(tài)分布趨勢,其中有超過50條院線訂購影片超過500部,也有超過70條院線訂購影片不足100部。

圖1 院線訂購影片部數(shù)分布

針對上述實際情況,本文引入加權(quán)參數(shù)lon表示兩條院線之間最小共同訂購影片的部數(shù),院線相似性計算公式定義如下:

引入?yún)?shù)lon后,在計算院線相似性時將綜合院線訂購影片場次和院線訂購影片部數(shù)兩方面因素,可以減少訂購影片部數(shù)少的院線對訂購影片部數(shù)多的院線的干擾,提高近鄰院線的判定標準。參數(shù)lon取值與院線訂購影片部數(shù)len相關(guān),lon計算公式定義如下:

式中,A,B表示院線訂購影片部數(shù)區(qū)間,C 為常數(shù),α為加權(quán)因子。

3.3 優(yōu)化推薦影片排序

傳統(tǒng)協(xié)同過濾推薦列表是根據(jù)對物品的預測評分高低排序形成,但在農(nóng)村電影放映工作中需要考慮地域性觀影習慣的問題。如A 省觀眾喜愛觀看戲曲片,而B地院線幾乎不會訂購戲曲片,當A 省院線與B地院線經(jīng)計算有較強相似性時,就可能會給B地院線推薦戲曲片,但顯然這不是一個高質(zhì)量的推薦。為此,本文提出在形成推薦影片清單后,引入影片片種加權(quán)參數(shù)t,重新對推薦清單計算排序,形成最終推薦列表。加權(quán)系數(shù)t計算公式定義如下:

式中,R表示院線訂購影片片種場次比例,β為加權(quán)因子。

改進后推薦算法流程如圖2示。

圖2 改進算法流程圖

4 實驗設計與結(jié)果分析

4.1 實驗數(shù)據(jù)集

本文采用“電影數(shù)字節(jié)目交易平臺”2018 至2019兩年真實交易訂購數(shù)據(jù)集進行實驗,此數(shù)據(jù)集包括272條院線、4650部電影、90526條交易記錄。數(shù)據(jù)集統(tǒng)計信息如表1示,在設計算法時將數(shù)據(jù)集按80%:20%的比例劃分訓練集和測試集,訓練集用來構(gòu)造測試模型,測試集用來評價算法質(zhì)量。在實現(xiàn)算法時將級差標準化后的訂購場次值按0.1為刻度線性轉(zhuǎn)化為電影評分,評分范圍為1~10。本文所用數(shù)據(jù)集稀疏度為92.84%,屬于高稀疏度矩陣。

表1 實驗數(shù)據(jù)集分析

4.2 算法評價指標

本實驗中采用MAE (平均絕對誤差)、準確率和召回率對算法質(zhì)量進行評估。在農(nóng)村電影放映工作場景下,更加注重預測準確率和召回率指標。

算法評價指標中,MAE 用于度量推薦算法的預測評分與真實值之間的差異,MAE 值越小,預測準確性越高,推薦質(zhì)量越高;準確率用于度量推薦列表中是否都是用戶喜歡的物品,即算法推薦成功的比率;召回率用于度量推薦列表中是否包含了用戶喜歡的全部物品,召回率反映了待推薦物品被推薦的比率。

4.3 實驗方案及結(jié)果分析

為驗證本文所提改進算法的推薦效果,設計了兩組實驗,首先是對不同相似性度量方法進行實驗,確定最佳的院線相似性度量方法;再在最佳的院線相似性度量方法基礎上按本文第3節(jié)提出的各項加權(quán)參數(shù)調(diào)優(yōu)對比,以期得出在農(nóng)村電影放映場景應用下,本文提出的各項優(yōu)化方案確有實效且改進后的協(xié)同過濾算法在推薦效果上能明顯優(yōu)于傳統(tǒng)推薦算法。

4.3.1 實驗一:確定最佳相似性度量方法

以皮爾森相似性、余弦相似性和歐式相似性三種相似性度量方法分別對數(shù)據(jù)集進行實驗,計算其MAE及準確率、召回率。協(xié)同過濾算法中近鄰數(shù)量k的值會影響算法性能,k 值取得過小參考項目不完整,影響推薦效果,k 值取得過大會增加系統(tǒng)計算復雜度,無關(guān)項目增多也會影響推薦結(jié)果。本文設定在推薦影片數(shù)量N=10的條件下,k的值從5增加到100,間隔增加為5,以此確定哪種相似性度量方法最優(yōu)。實驗結(jié)果如圖3示。

從圖3結(jié)果能看出,皮爾森相似性相對于余弦相似及歐式相似性在MAE、推薦準確率及召回率方面有最優(yōu)表現(xiàn),且當近鄰院線數(shù)量k=5時,推薦效果最佳,準確率=12.3%,召回率=2.3%。如此,后續(xù)實驗將在皮爾森相似性度量方法基礎上進行。

圖3 不同相似性度量方法推薦效果對比

4.3.2 實驗二:算法改進和參數(shù)調(diào)優(yōu)

(1)評分預測模型修正

按3.1節(jié)描述,將傳統(tǒng)協(xié)同過濾推薦中評分預測模型進行修正,放大熱門影片的預測評分貢獻。設定推薦影片數(shù)量N=10的條件下,k的值從5增加到50,間隔增加為5,對比評分預測模型修正前后的推薦效果,實驗結(jié)果如圖4示。

圖4 評分預測模型修正前后推薦效果對比

實驗結(jié)果表明,修正評分預測模型后推薦算法性能明顯優(yōu)于傳統(tǒng)推薦算法。隨著近鄰院線數(shù)量k的增加,修正后推薦算法的推薦準確率和召回率整體呈現(xiàn)逐漸增高的趨勢,并在k>35時,增加趨勢變緩。如此,本文將近鄰院線數(shù)量k設定為35,后面的所有實驗都將在k=35的條件下進行。

(2)近鄰計算加權(quán)干預

按3.2節(jié)描述,引入?yún)?shù)lon對近鄰院線計算加權(quán)干預,減少訂購集中的院線對訂購廣泛的院線的干擾。公式(3)A、B的值與院線訂購影片部數(shù)分布相關(guān),如圖1示,訂購影片部數(shù) [0,120]區(qū)間內(nèi)的院線有89條,訂購影片部數(shù)[120,350]區(qū)間內(nèi)的院線有102條,訂購影片部數(shù)[350+]區(qū)間內(nèi)的院線有81條,三個區(qū)間院線數(shù)量大體相同,設定區(qū)間A、B的值分別為120、350。常數(shù)C 為訂購影片超過350部的院線間相同訂購閾值,設定最小可參考相似性鄰居數(shù)量不低于80%,通過計算得到C值約為80。設定推薦影片數(shù)量N=10、近鄰院線數(shù)量k=35的條件下,加權(quán)因子α的值從0.5增加到0.95,間隔增加為0.05,對比近鄰計算加權(quán)前后的推薦效果,實驗結(jié)果如圖5示。

圖5 近鄰計算加權(quán)干預前后推薦效果對比

實驗結(jié)果表明,隨著近鄰計算加權(quán)因子的變化,加權(quán)后算法的推薦準確率和召回率整體呈現(xiàn)先增再減的趨勢,在加權(quán)因子α=0.75時效果最好,準確率達到36.5%,比未加權(quán)提高4.8%;召回率達到8.3%,比未加權(quán)提高4.7%。此時在區(qū)間 [120,350]內(nèi)的院線采用其訂購影片部數(shù)的25%作為相同訂購閾值計算近鄰院線。后續(xù)實驗將在α=0.75的條件下進行。

(3)推薦列表優(yōu)化排序

按3.3節(jié)描述,引入影片片種加權(quán)參數(shù)t平衡各地區(qū)群眾觀影習慣,優(yōu)化推薦影片排序。設定推薦影片數(shù)量N=10、近鄰院線數(shù)量k=35、加權(quán)因子α=0.75的條件下,加權(quán)因子β的值從0增加到0.4,間隔增加為0.05,對比參數(shù)t引入前后的推薦效果,實驗結(jié)果如圖6示。

圖6 推薦影片排序優(yōu)化前后推薦效果對比

實驗結(jié)果表明,隨著影片片種加權(quán)因子的變化,推薦準確率先增再減,推薦召回率呈逐漸減少趨勢。在加權(quán)因子β=0.15時準確率最高,達到37.3%,比未加權(quán)提高2.3%;召回率為8.5%,比未加權(quán)提高2.2%。

綜合上述兩組實驗結(jié)果可知,在傳統(tǒng)基于用戶的協(xié)同過濾推薦基礎上,通過修正評分預測模型、干預近鄰計算、優(yōu)化推薦影片排序后,推薦算法準確率能達到37.3%,較優(yōu)化前提升2倍,算法召回率能達到8.5%,較優(yōu)化前提升約2.7倍,算法改進有效。

5 結(jié)語

本文通過對農(nóng)村電影院線在影片訂購區(qū)域性、引導性、計劃性上的深入分析,不斷改進和優(yōu)化傳統(tǒng)推薦算法,提出了一種適用于農(nóng)村電影放映場景下的影片訂購推薦算法,實驗結(jié)果表明算法改進效果達到預期。但本文方法是在離線環(huán)境下計算并完成推薦,在線推薦還需要考慮影片檔期和計算時效性等問題,并且方法中對影片類型細分顆粒度還不夠,這些問題將在下一步研究工作中予以優(yōu)化。

猜你喜歡
相似性預測算法
一類上三角算子矩陣的相似性與酉相似性
無可預測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
淺析當代中西方繪畫的相似性
河北畫報(2020年8期)2020-10-27 02:54:20
基于MapReduce的改進Eclat算法
Travellng thg World Full—time for Rree
進位加法的兩種算法
不必預測未來,只需把握現(xiàn)在
低滲透黏土中氯離子彌散作用離心模擬相似性
清水河县| 隆林| 凤台县| 莒南县| 隆德县| 承德市| 富宁县| 广东省| 微山县| 赤城县| 易门县| 孟州市| 同心县| 四子王旗| 怀宁县| 信宜市| 客服| 鄂托克旗| 青冈县| 龙井市| 建阳市| 监利县| 格尔木市| 清涧县| 澄迈县| 贵港市| 谷城县| 灵璧县| 宜兰县| 阳西县| 溧水县| 吴堡县| 樟树市| 牟定县| 大余县| 甘孜县| 罗山县| 若羌县| 赞皇县| 铁岭市| 武平县|