国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)段-時(shí)長(zhǎng)耦合LDA的用戶收視行為挖掘

2020-04-18 13:14顧軍華李曉雪
關(guān)鍵詞:類節(jié)目時(shí)段電視節(jié)目

顧軍華 李曉雪 楊 亮

1(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院 天津 300401)2(河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室 天津 300401)3(河北工業(yè)大學(xué)電子信息工程學(xué)院 天津 300401)

0 引 言

IPTV[1]是隨著互聯(lián)網(wǎng)發(fā)展出現(xiàn)的一種嶄新技術(shù)。IPTV利用寬帶網(wǎng)將多媒體信息傳遞給用戶,為用戶提供包括數(shù)字電視在內(nèi)的多種交互式服務(wù)。它在傳統(tǒng)電視的基礎(chǔ)上,加入點(diǎn)播、回看等交互功能,使得電視觀眾與電視服務(wù)提供商之間有了更好的互動(dòng)。為了給用戶提供更好的收視服務(wù),電視服務(wù)提供商可以通過(guò)大數(shù)據(jù)分析用戶行為,為用戶建模。IPTV用戶行為建??梢酝ㄟ^(guò)分析用戶行為來(lái)優(yōu)化網(wǎng)絡(luò)規(guī)劃,進(jìn)而提升IPTV系統(tǒng)的性能[2-3];可以通過(guò)挖掘用戶收視興趣,給IPTV用戶提供諸如個(gè)性化電子菜單、節(jié)目推薦[4-5]、個(gè)性化情景廣告[6]等服務(wù),以此提升用戶收視體驗(yàn)。

現(xiàn)有的用戶收視行為建模方法大致可以分為兩類。一類是通過(guò)適當(dāng)抽象節(jié)目類別信息,將收看節(jié)目歸納為不同類型,從而建立用戶興趣模型[7]。其中,AIMED模型[8]是一種利用人工神經(jīng)網(wǎng)絡(luò)技術(shù)結(jié)合用戶的活動(dòng)、興趣和心情等屬性構(gòu)建的推薦模型,該模型可以預(yù)測(cè)用戶對(duì)電視節(jié)目的偏好。另一類方法是基于主題模型LDA[9]算法的改進(jìn)。例如,隱式反饋LDA模型[10]結(jié)合IPTV用戶收視過(guò)程中的點(diǎn)播、收藏和瀏覽等行為,采用LDA聯(lián)合建模為用戶做推薦。TMUD模型[11]將兩個(gè)LDA模型通過(guò)主題連接成為一個(gè)統(tǒng)一的模型,用于相似用戶群分組和電視節(jié)目推薦??紤]到一個(gè)IPTV用戶對(duì)應(yīng)一個(gè)家庭,不同的家庭成員會(huì)在不同時(shí)段觀看節(jié)目,張婭等[12]提出基于時(shí)間耦合主題模型(cLDA)的IPTV用戶建模方法,該模型通過(guò)對(duì)用戶收視節(jié)目與收視時(shí)間點(diǎn)的聯(lián)合建模,挖掘IPTV用戶在每個(gè)時(shí)段的收視興趣主題。

以上基于LDA模型的改進(jìn)算法在用戶行為建模方面取得了良好的效果,但這些方法忽略了對(duì)節(jié)目觀看時(shí)長(zhǎng)的利用,而節(jié)目的觀看時(shí)長(zhǎng)在很大程度上反映用戶對(duì)節(jié)目的喜愛(ài)程度。基于此,本文提出一個(gè)新的時(shí)段-時(shí)長(zhǎng)耦合LDA(Time-Duratioan Coupled LDA)模型。TDC-LDA模型是一個(gè)概率生成模型,其中用戶興趣主題和收視時(shí)段隱變量可同時(shí)生成收視記錄中的所看節(jié)目、觀看時(shí)間點(diǎn)與時(shí)長(zhǎng)。每一個(gè)IPTV用戶可以用一個(gè)時(shí)段-興趣主題的聯(lián)合分布來(lái)表示,稱之為用戶行為模式。

1 LDA模型

LDA是Blei等學(xué)者于2003年提出的一種基于概率模型的文本主題建模方法,可以識(shí)別龐大文檔集或語(yǔ)料庫(kù)中的隱藏主題信息,被廣泛應(yīng)用于信息檢索、自然語(yǔ)言處理等領(lǐng)域[13~15]。LDA的圖模型如圖1所示,該模型假設(shè)文章是由多個(gè)主題以不同比例混合而成,每個(gè)主題可以用多個(gè)詞的概率分布表示,文章中的每一個(gè)詞都是由一個(gè)潛在主題生成。

圖1 LDA概率圖模型

用LDA模型挖掘用戶收視興趣的原理如下:

將一個(gè)IPTV用戶的觀看記錄當(dāng)成一篇文檔,IPTV用戶觀看的電視節(jié)目當(dāng)成文檔中的詞。假設(shè)IPTV用戶在觀看節(jié)目時(shí)有多個(gè)收視興趣主題,興趣主題可以表示為一些電視節(jié)目的分布,那么用戶m從大量IPTV數(shù)據(jù)中選擇觀看節(jié)目的生成過(guò)程可以描述如下:

(3) 對(duì)于第m個(gè)用戶中的任意一個(gè)收視紀(jì)錄n,其中n∈{1,2,…,Nm}:

① 根據(jù)興趣主題的多項(xiàng)式分布,選擇一個(gè)主題zm,n~Multinomial(θm);

② 根據(jù)選擇出的主題對(duì)應(yīng)的電視節(jié)目多項(xiàng)式分布,生成電視節(jié)目wm,n~Multinomial(φzm,n)。

表1 論文中用到的符號(hào)

續(xù)表1

LDA模型能捕捉到IPTV用戶的收視興趣分布,但是用于IPTV用戶行為模式挖掘有較多的缺陷。第一,一個(gè)IPTV用戶對(duì)應(yīng)一個(gè)家庭,一個(gè)家庭由不同的成員組成。LDA模型只能挖掘到一個(gè)家庭的收視興趣,但無(wú)法挖掘到每個(gè)家庭成員的興趣。第二,家庭成員可能選擇在不同的時(shí)段觀看電視,因此一個(gè)IPTV用戶在不同時(shí)段的興趣愛(ài)好可能會(huì)不相同。比如:兒童在放學(xué)后喜歡觀看動(dòng)畫片,爺爺奶奶喜歡在下午觀看戲曲類節(jié)目,年輕人喜歡在晚上觀看各類娛樂(lè)節(jié)目。LDA模型無(wú)法挖掘到用戶在不同時(shí)段的收視興趣。第三,用戶在觀看電視節(jié)目時(shí),對(duì)每個(gè)節(jié)目的觀看時(shí)長(zhǎng)不盡相同,而觀看時(shí)長(zhǎng)是體現(xiàn)用戶收視興趣的重要因素,LDA無(wú)法刻畫收視興趣主題隨觀看時(shí)長(zhǎng)的變化。

2 TDC-LDA模型

為了更好地挖掘用戶行為模式,對(duì)IPTV電視節(jié)目每周的收視周期性展開(kāi)研究。本文使用的IPTV數(shù)據(jù)由天津電視臺(tái)IPTV運(yùn)營(yíng)商提供,用戶收視歷史數(shù)據(jù)由服務(wù)器端收集用戶的操作記錄形成。圖2展示了一部動(dòng)畫節(jié)目、一部愛(ài)情劇和一檔綜藝節(jié)目在兩周內(nèi)的收視曲線,其中橫坐標(biāo)記錄了每周周一的起始時(shí)間,觀看次數(shù)以四小時(shí)為間隔進(jìn)行統(tǒng)計(jì),縱坐標(biāo)記錄了每個(gè)節(jié)目一小時(shí)的播放次數(shù)。該曲線有較強(qiáng)的周期性,其周期為一周。假設(shè)同一類節(jié)目會(huì)在固定的時(shí)段被收看,不同家庭成員看電視的時(shí)段不同,在同一時(shí)段用戶傾向于觀看同一類型的節(jié)目,用戶對(duì)節(jié)目的觀看時(shí)長(zhǎng)體現(xiàn)了他對(duì)節(jié)目的喜愛(ài)程度。基于上述假設(shè),IPTV用戶觀看行為有如下幾個(gè)特點(diǎn):

(1) 一個(gè)IPTV用戶有一個(gè)或多個(gè)成員;

(2) 每個(gè)成員有多種不同的收視興趣;

(3) 每個(gè)成員傾向于在每周的特定時(shí)段看電視;

(4) 用戶對(duì)某個(gè)節(jié)目的觀看時(shí)長(zhǎng)越長(zhǎng),則對(duì)這個(gè)節(jié)目的喜愛(ài)程度越高。

基于上述分析,本文將LDA模型中的興趣主題分布θm擴(kuò)展為表示用戶收視興趣、時(shí)段與時(shí)長(zhǎng)的行為模式分布,建立TDC-LDA模型。表2是LDA模型推廣到TDC-LDA模型后θm的變化。在LDA模型中,每個(gè)IPTV用戶的興趣主題分布不區(qū)分時(shí)段。而TDC-LDA模型中,每個(gè)IPTV用戶會(huì)因時(shí)段的不同而有不同的興趣主題分布,且興趣主題分布受觀看時(shí)長(zhǎng)影響。

表2 主題分布向量θm

值得說(shuō)明的是,本文中的時(shí)間點(diǎn)服從多項(xiàng)式分布而不是連續(xù)分布。在基于時(shí)間的主題模型TOT[16]中,時(shí)間為連續(xù)分布,它可以在很長(zhǎng)的非周期性時(shí)間跨度內(nèi)生成單峰時(shí)間分布,但很難描述如圖2所示的具有周期性和多峰的分布。多項(xiàng)式分布可以輕松地將時(shí)間點(diǎn)聚合在一起,生成時(shí)段,如“工作日早晨”、“周末午夜”等。因此,時(shí)段對(duì)應(yīng)的時(shí)間點(diǎn)由多項(xiàng)式分布生成。

2.1 模型生成

TDC-LDA模型是一個(gè)概率生成模型,它是對(duì)LDA模型的拓展,模型如圖3所示。假設(shè)有K個(gè)興趣主題,Vm個(gè)不同的電視節(jié)目,興趣主題對(duì)應(yīng)的電視節(jié)目多項(xiàng)式分布描述成K×Vm維的矩陣Φ,φk,vw是節(jié)目vm屬于主題k的概率。同樣,假設(shè)有L個(gè)時(shí)段(時(shí)段指一些特定的時(shí)間區(qū)間,例如,工作日17:00-19:00),Vt個(gè)不同的時(shí)間點(diǎn)。時(shí)段對(duì)應(yīng)的時(shí)間點(diǎn)多項(xiàng)式分布描述成L×Vt的矩陣Ψ,ψl,vt是時(shí)間點(diǎn)vt屬于時(shí)段l的概率。

圖3 TDC-LDA概率圖模型

每一個(gè)IPTV用戶對(duì)應(yīng)一個(gè)描述興趣主題、時(shí)段與觀看時(shí)長(zhǎng)的多項(xiàng)式分布,用戶收看的節(jié)目、觀看時(shí)間點(diǎn)以及觀看時(shí)長(zhǎng)為該用戶的行為模式。具體來(lái)講,行為模式是指用戶選擇在哪個(gè)時(shí)段收看哪種類型的節(jié)目以及其收看時(shí)長(zhǎng),其中用戶對(duì)節(jié)目的觀看時(shí)長(zhǎng)體現(xiàn)了他對(duì)這個(gè)節(jié)目的喜愛(ài)程度。把K×L維的行為模式矩陣分解成KL維的向量θm。θm中第z項(xiàng)代表一個(gè)IPTV用戶在zm,n,1時(shí)段選擇興趣主題zm,n,2這個(gè)行為并且觀看時(shí)長(zhǎng)為dm,n的概率。其中zm,n,1、zm,n,2的計(jì)算公式如下:

(1)

對(duì)于用戶m,用TDC-LDA模型選擇觀看時(shí)間點(diǎn)、觀看節(jié)目與觀看時(shí)長(zhǎng)的過(guò)程如下所示:

(2) 根據(jù)Dirichlet分布選擇時(shí)段的時(shí)間點(diǎn)分布ψl~Dir(γ),其中l(wèi)∈{1,2,…,L}:

(4) 對(duì)于m用戶中每一個(gè)收視紀(jì)錄n,其中n∈{1,2,…,Nm}:

① 根據(jù)該用戶的行為模式多項(xiàng)式分布,選擇一個(gè)行為模式zm,n~Multinomial(θm);

② 根據(jù)選擇的行為模式對(duì)應(yīng)的時(shí)段找到這個(gè)時(shí)段生成時(shí)間點(diǎn)的多項(xiàng)式分布,然后根據(jù)時(shí)段對(duì)應(yīng)的時(shí)間點(diǎn)分布生成時(shí)間點(diǎn)tm,n~Multinomial(ψzm,n,1);

③ 根據(jù)選擇的行為模式對(duì)應(yīng)的興趣主題找到這個(gè)主題生成電視節(jié)目的多項(xiàng)式分布,然后根據(jù)主題對(duì)應(yīng)的電視節(jié)目分布生成電視節(jié)目wm,n~Multinomial(φzm,n,2);

(2)

2.2 模型擬合

(3)

(4)

同理,對(duì)興趣主題-電視節(jié)目分布矩陣Φ和時(shí)段-時(shí)間點(diǎn)分布矩陣Ψ有如下公式:

p(φk|z,w,β)=Dirichlet(φk|nk+β)

(5)

p(ψl|z,t,γ)=Dirichlet(ψl|nl+γ)

(6)

通過(guò)對(duì)上述Dirichlet分布的期望求解,得到:

(7)

(8)

(9)

TDC-LDA模型的Gibbs采樣過(guò)程如算法1所示。

算法1TDC-LDA算法

輸入:用戶收視數(shù)據(jù)、K(興趣主題數(shù))、L(時(shí)段數(shù))、α、β、γ、Niter(迭代次數(shù))

輸出:用戶-行為模式分布矩陣Θ、興趣主題-電視節(jié)目分布矩陣Φ和時(shí)段-時(shí)間點(diǎn)分布矩陣Ψ

00:%初始化

02:for 每一個(gè)用戶m∈{1,2,…,M} do

03: for 用戶m中每一個(gè)觀看行為n∈{1,2,…,Nm} do

05: 根據(jù)采樣的zm,n用式(1)求得興趣主題索引k和時(shí)段主題索引l

07: end for

08: end for

09: %Gibbs采樣

10: foriter=1 toNiterdo

11: for每一個(gè)用戶m∈{1,2,…,M} do

12: for用戶m中每一個(gè)觀看行為n∈{1,2,…,Nm} do

13: %對(duì)于當(dāng)前行為模式zm,n=i

18: end for

19: end for

21: end for

22: 根據(jù)式(7)-式(9)計(jì)算Θ、Φ、Ψ

3 實(shí) 驗(yàn)

本節(jié)主要介紹實(shí)驗(yàn)中使用的數(shù)據(jù)集并分析TDC-LDA模型的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)中,α、β、γ設(shè)置為0.1。首先,對(duì)比TDC-LDA、cLDA與LDA模型在挖掘興趣主題與時(shí)段方面的不同,驗(yàn)證TDC-LDA模型的優(yōu)勢(shì)。然后,對(duì)同一節(jié)目不同觀看時(shí)長(zhǎng)的用戶群體的興趣主題分布求平均,通過(guò)對(duì)比不同用戶群體的興趣主題分布展現(xiàn)了TDC-LDA模型挖掘到的興趣主題隨觀看時(shí)長(zhǎng)增加而遞增的特性。通過(guò)分析一個(gè)兒童與主婦主導(dǎo)型家庭的觀看數(shù)據(jù)與實(shí)驗(yàn)結(jié)果的吻合度來(lái)證實(shí)該模型的有效性。最后,分別用LDA、cLDA與TDC-LDA模型為用戶推薦節(jié)目,通過(guò)計(jì)算困惑度,證明TDC-LDA在執(zhí)行推薦任務(wù)上有更高的準(zhǔn)確度。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)中使用的IPTV數(shù)據(jù)由天津電視臺(tái)IPTV運(yùn)營(yíng)商提供。服務(wù)器端收集用戶的操作記錄形成IPTV用戶收視歷史數(shù)據(jù)。整個(gè)數(shù)據(jù)集包含2 480個(gè)用戶,7 857個(gè)電視節(jié)目,同一個(gè)電視節(jié)目中的不同集數(shù)視為同一個(gè)節(jié)目。本文僅提取用戶的觀看節(jié)目名稱、觀看時(shí)間點(diǎn)、觀看時(shí)長(zhǎng)等信息。表3展示了一些用戶的觀看記錄樣例,每一條記錄包含用戶ID、節(jié)目的開(kāi)始時(shí)間點(diǎn)、節(jié)目名稱和觀看時(shí)長(zhǎng)。本文將時(shí)間點(diǎn)改成“星期-時(shí)”的形式,不同的時(shí)間點(diǎn)Vt總共是7×24個(gè)。只保留觀看時(shí)長(zhǎng)超過(guò)3分鐘的觀看記錄(節(jié)目的平均觀看時(shí)長(zhǎng)是35分鐘)。換句話說(shuō),如果用戶相鄰觀看記錄之間的時(shí)間間隔小于三分鐘,則刪除上一個(gè)觀看記錄。通過(guò)對(duì)數(shù)據(jù)的處理,最終得到2 447個(gè)用戶從2014年12月到2015年2月在5 925個(gè)節(jié)目上的106 599 085條觀看記錄。

表3 IPTV用戶觀看行為記錄樣例

3.2 興趣主題與時(shí)段挖掘

本節(jié)根據(jù)LDA、cLDA、TDC-LDA模型在實(shí)驗(yàn)數(shù)據(jù)集上運(yùn)行的結(jié)果,分析三個(gè)不同模型在興趣主題發(fā)現(xiàn)與時(shí)段挖掘上的異同。實(shí)驗(yàn)中根據(jù)經(jīng)驗(yàn)將每一個(gè)模型的興趣主題K設(shè)為50,cLDA與TDC-LDA的時(shí)段L設(shè)為8。

3.2.1興趣主題挖掘

三種模型得到的興趣主題基本都是由一些相關(guān)性比較強(qiáng)的節(jié)目以不同比例混合而成,如表4所示。但是不同模型中相同主題的電視節(jié)目分布不同。由于LDA與cLDA模型得到的結(jié)果基本一致,所以只分析TDC-LDA模型與cLDA模型的不同。

表4 興趣主題對(duì)應(yīng)的節(jié)目

為了證明TDC-LDA模型加入觀看時(shí)長(zhǎng)后挖掘到的興趣主題分布與真實(shí)情況更加接近,先對(duì)IPTV數(shù)據(jù)中所有電視節(jié)目的觀看總時(shí)長(zhǎng)與觀看總次數(shù)做統(tǒng)計(jì)。然后通過(guò)古裝愛(ài)情這一興趣主題的節(jié)目分布來(lái)對(duì)比兩種模型挖掘到的興趣主題的不同。表5是一些古裝愛(ài)情類電視節(jié)目的觀看總次數(shù)與觀看總時(shí)長(zhǎng)的統(tǒng)計(jì)數(shù)據(jù),表6列出了兩個(gè)模型挖掘到的古裝愛(ài)情主題的電視節(jié)目分布。

表5 電視節(jié)目的觀看總次數(shù)與觀看總時(shí)長(zhǎng)

表6 兩種模型中古裝愛(ài)情主題的電視節(jié)目分布

由表6可以看出,兩個(gè)模型在古裝愛(ài)情這一興趣主題里包含的主導(dǎo)電視節(jié)目基本一致,但每個(gè)節(jié)目所占的比率不同。通過(guò)表5中電視節(jié)目的觀看次數(shù)與觀看時(shí)長(zhǎng)可以看出,“甄嬛傳”“美人制造”“一仆二主”等節(jié)目更受歡迎,在該主題下應(yīng)有更高的概率,這與TDC-LDA模型得出的結(jié)果基本一致。而cLDA模型本身不考慮觀看時(shí)長(zhǎng),興趣主題的節(jié)目分布與實(shí)際情況有出入。此外,cLDA模型在該主題下還出現(xiàn)一些不相關(guān)的節(jié)目,如“頻道包裝”,且占有較高的概率。

3.2.2時(shí)段的挖掘

由TDC-LDA和cLDA產(chǎn)生的時(shí)間點(diǎn)信息如圖4所示。圖中將一周的時(shí)間點(diǎn)總共分為8個(gè)時(shí)段,用序號(hào)“0-7”來(lái)標(biāo)記,相同時(shí)段的時(shí)間點(diǎn)用同種填充圖案標(biāo)記。

(a) TDC-LDA時(shí)段行為模式

(b) cLDA時(shí)段行為模式圖4 TDC-LDA與cLDA的時(shí)段行為模式

從圖4中可以清楚地看出,一周的時(shí)間點(diǎn)被劃分為上午、下午、晚上等時(shí)段。時(shí)段的劃分完全由TDC-LDA與cLDA模型根據(jù)用戶收視記錄挖掘得到,沒(méi)有加入任何先驗(yàn)信息。工作日的18時(shí)被單獨(dú)劃分出來(lái),是因?yàn)橥ǔW(xué)生在18時(shí)放學(xué)到家,開(kāi)始看電視。LDA中沒(méi)有時(shí)間點(diǎn)因素,在此不作比較。cLDA和TDC-LDA都可以將一周中的時(shí)間點(diǎn)劃分為不同時(shí)段且基本合理,但是根據(jù)對(duì)IPTV數(shù)據(jù)的統(tǒng)計(jì)分析可以證明,TDC-LDA模型挖掘到的時(shí)段信息與實(shí)際情況更貼近一些。第一,經(jīng)過(guò)統(tǒng)計(jì)發(fā)現(xiàn),早上6時(shí)至8時(shí)之間是新聞?lì)惞?jié)目的收視高峰期,并且在周末的時(shí)候人們傾向于晚起;第二,18時(shí)是動(dòng)畫類節(jié)目的收視高峰期;第三,19時(shí)也是一個(gè)看電視的高峰期,這時(shí)候用戶傾向于觀看一些新聞?lì)惖墓?jié)目。

分析圖4可知,TDC-LDA對(duì)于早上新聞?lì)惞?jié)目收視高峰期的時(shí)段挖掘是準(zhǔn)確的,而且可以將18時(shí)與19時(shí)兩個(gè)時(shí)段成功分開(kāi)。cLDA對(duì)于這三個(gè)時(shí)段的挖掘并不準(zhǔn)確,且時(shí)段2與時(shí)段1和時(shí)段3有交叉錯(cuò)亂之處。

3.3 興趣主題隨觀看時(shí)長(zhǎng)的變化

本節(jié)通過(guò)比較觀看時(shí)長(zhǎng)不同的用戶群體的平均興趣主題分布,分析TDC-LDA與cLDA模型的興趣主題分布與觀看時(shí)長(zhǎng)的關(guān)系。將每個(gè)電視節(jié)目的觀看用戶分為4類,分別為觀看該節(jié)目時(shí)長(zhǎng)3~10分鐘、10~17分鐘、17~30分鐘以及觀看時(shí)長(zhǎng)30分鐘以上的用戶,時(shí)長(zhǎng)類別簡(jiǎn)記為短、次短、中、長(zhǎng)。用實(shí)驗(yàn)得出的θm來(lái)描述每個(gè)用戶,通過(guò)對(duì)每類用戶的θm求平均,并用圖5所示的方式展現(xiàn)出來(lái)(圖中為電視節(jié)目“海綿寶寶”所對(duì)應(yīng)的4類用戶的平均興趣主題分布,TDC-LDA中的θm消除時(shí)段的影響,從400維折合到50維,即50個(gè)興趣主題上。興趣主題15與興趣主題21用黑色圓點(diǎn)進(jìn)行標(biāo)記)。

(a) LDA

(b) TDC-LDA圖5 兩種模型中不同用戶群體的平均興趣主題分布

實(shí)驗(yàn)中,僅保留滿足以下兩個(gè)條件的節(jié)目:第一,通過(guò)用戶對(duì)該節(jié)目觀看時(shí)長(zhǎng)的不同,使用上面的分類方式將用戶分為4類群體;第二,該節(jié)目至少被20個(gè)以上的用戶收看。通過(guò)前面條件的過(guò)濾,得到899個(gè)節(jié)目中不同用戶群體的興趣主題分布。從一些節(jié)目中可以比較明顯地看出,TDC-LDA擬合效果與實(shí)際更相符。

根據(jù)圖5分析,隨著用戶對(duì)節(jié)目觀看時(shí)長(zhǎng)的增加,其興趣主題分布的變化。假設(shè)用戶觀看某個(gè)節(jié)目的時(shí)長(zhǎng)越長(zhǎng),則對(duì)這個(gè)節(jié)目的喜好程度越高,那么第四組用戶的平均興趣主題分布和真實(shí)數(shù)據(jù)應(yīng)該最接近。

表7列出了興趣主題15和興趣主題21的一部分電視節(jié)目分布,由表可知,“海綿寶寶”屬于興趣主題21,是一部動(dòng)畫類節(jié)目。從圖5可以看出,在LDA模型中,4類用戶在主題21上有著大小不一的概率,每一類用戶對(duì)某個(gè)興趣主題的喜愛(ài)程度沒(méi)有一個(gè)確切的規(guī)律。而在TDC-LDA模型中,隨著用戶觀看時(shí)長(zhǎng)的增加,興趣主題21的概率逐漸增長(zhǎng),尤其是第4類用戶,觀看興趣比較明顯,偏向于興趣主題15與興趣主題21。興趣主題21是動(dòng)畫類主題,其中“海綿寶寶”在該主題下概率最高,興趣主題15是動(dòng)畫片與娛樂(lè)類主題。通過(guò)分析可知,TDC-LDA可以準(zhǔn)確地挖掘到興趣主題分布隨觀看時(shí)長(zhǎng)的變化,這與實(shí)際情況相符。

表7 兩個(gè)動(dòng)畫類主題的電視節(jié)目分布

3.4 案例分析

前面已經(jīng)對(duì)TDC-LDA在挖掘興趣主題與時(shí)段方面的優(yōu)勢(shì)做了詳細(xì)論述。本節(jié)通過(guò)一個(gè)具體用戶(記為M)的觀看數(shù)據(jù)與模型實(shí)驗(yàn)結(jié)果,對(duì)比TDC-LDA與cLDA模型在挖掘用戶行為模式上的優(yōu)劣。表8列出了用戶M用TDC-LDA模型生成的用戶行為模式,表中的時(shí)段與圖3(a)中標(biāo)注的時(shí)段相同,只列出了三種概率最高的行為模式。表9分別列出了用TDC-LDA與cLDA模型挖掘到的三個(gè)概率最高的興趣主題概率分布(為方便進(jìn)行比較,對(duì)每個(gè)興趣主題上不同時(shí)段的概率值進(jìn)行加和,得到用戶的興趣主題概率分布)。圖6展示了用戶M平時(shí)觀看最多的5個(gè)節(jié)目以及每個(gè)節(jié)目的觀看次數(shù)和觀看時(shí)長(zhǎng)(其中時(shí)長(zhǎng)按十分鐘一個(gè)單位統(tǒng)計(jì))。

表8 TDC-LDA生成的行為模式

表9 用戶M的興趣主題概率分布

圖6 用戶M觀看最多的5個(gè)節(jié)目的觀看次數(shù)與時(shí)長(zhǎng)

分析圖6可知用戶M是一個(gè)以兒童與家庭主婦主導(dǎo)收視興趣的混合型家庭,觀看的主要節(jié)目是動(dòng)畫類節(jié)目與古裝愛(ài)情類節(jié)目,其中動(dòng)畫類節(jié)目為主,古裝愛(ài)情類節(jié)目為輔。由表8可知,該用戶傾向于在16時(shí)至17時(shí)收看動(dòng)畫類節(jié)目,在20時(shí)至23時(shí)收看古裝愛(ài)情類節(jié)目。由表9可知,cLDA只挖掘到用戶M的動(dòng)畫I類興趣主題,并且該主題占有很高的概率,成為絕對(duì)主導(dǎo)主題。TDC-LDA模型中,用戶的收視興趣在動(dòng)畫I類與古裝愛(ài)情類主題上都占有較高的概率。由圖6用戶觀看節(jié)目的統(tǒng)計(jì)數(shù)據(jù)可知,“甄嬛傳”這個(gè)節(jié)目有較高的收視時(shí)長(zhǎng),但是觀看的次數(shù)相對(duì)少一些,可能導(dǎo)致cLDA模型無(wú)法準(zhǔn)確地挖掘到用戶對(duì)這一類節(jié)目主題的喜好。圖7按照觀看頻次與觀看時(shí)長(zhǎng)分別對(duì)用戶觀看興趣分布進(jìn)行研究,然后給出兩個(gè)模型的用戶興趣主題分布實(shí)驗(yàn)結(jié)果。圖7(b)是通過(guò)統(tǒng)計(jì)得到的用戶真實(shí)的興趣主題分布,可以明顯地看出,TDC-LDA挖掘到的用戶興趣主題更接近實(shí)際情況。

(a) 觀看頻次結(jié)果 (b) 觀看時(shí)長(zhǎng)結(jié)果

(c) cLDA模型結(jié)果 (d) TDC-LDA模型結(jié)果圖7 四種方式得到的用戶興趣主題分布

現(xiàn)實(shí)生活中,兒童的觀看行為與成年人不太相同。第一,兒童觀看的節(jié)目類型時(shí)長(zhǎng)普遍較短,而成年人觀看的節(jié)目時(shí)長(zhǎng)較長(zhǎng),尤其一些紀(jì)錄片、綜藝類節(jié)目。第二,兒童不太容易集中注意力去有始有終地觀看一個(gè)節(jié)目,成年人一般有自己固定的收視規(guī)律與喜好,每次觀看時(shí)長(zhǎng)較長(zhǎng)。根據(jù)這些分析,cLDA中單單考慮觀看次數(shù)來(lái)衡量用戶對(duì)某個(gè)興趣主題的喜好是不太準(zhǔn)確的。由此可見(jiàn),TDC-LDA模型中引入觀看時(shí)長(zhǎng)這一項(xiàng)是非常必要和有效的。

3.5 困惑度分析

本節(jié)用時(shí)段-時(shí)長(zhǎng)耦合LDA模型在數(shù)據(jù)集上執(zhí)行推薦任務(wù),并計(jì)算LDA、cLDA、TDC-LDA模型的預(yù)測(cè)困惑度(predictive-perplexity)。推薦任務(wù)的目標(biāo)是預(yù)測(cè)IPTV用戶在特定的時(shí)段打開(kāi)電視時(shí)會(huì)收看什么節(jié)目。實(shí)驗(yàn)中,將IPTV用戶分為訓(xùn)練集和測(cè)試集。訓(xùn)練集包括每個(gè)用戶除最后一個(gè)收視行為記錄外的所有記錄。測(cè)試集由每個(gè)用戶的最后一個(gè)收視行為記錄構(gòu)成。推薦任務(wù)要完成的是通過(guò)每一個(gè)用戶最后一個(gè)收視行為記錄的時(shí)間點(diǎn)來(lái)預(yù)測(cè)用戶收看的節(jié)目。預(yù)測(cè)困惑度指標(biāo)定義如下:

predictive-perplexity(Dtest)=

(10)

式中:Mtest是測(cè)試集中用戶數(shù)目。困惑度越低表示模型泛化性能越好,推薦更準(zhǔn)確。實(shí)驗(yàn)中,令cLDA與TDC-LDA的時(shí)段L=8,通過(guò)將興趣主題K設(shè)置為不同的值來(lái)比較不同模型的困惑度,如表10所示。由表可知,TDC-LDA、cLDA、LDA模型的推薦效果依次降低。這說(shuō)明,在挖掘用戶不同時(shí)段的收視興趣時(shí)加入用戶觀看時(shí)長(zhǎng)信息是非常有必要的。

表10 預(yù)測(cè)困惑度

4 結(jié) 語(yǔ)

本文提出了一種全新的TDC-LDA模型。該模型的觀看節(jié)目與觀看時(shí)間點(diǎn)由Dirichlet分布生成,觀看時(shí)長(zhǎng)由指數(shù)分布生成,通過(guò)Gibbs采樣對(duì)隱變量進(jìn)行推斷進(jìn)而得到用戶的興趣主題與收視時(shí)段分布,進(jìn)而可以挖掘到用戶在不同時(shí)段的收視興趣。最后,在天津電視臺(tái)IPTV用戶數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,TDC-LDA模型可以更加精確地挖掘到用戶的觀看興趣主題與收視時(shí)段信息,在IPTV節(jié)目推薦任務(wù)中,TDC-LDA模型也明顯優(yōu)于cLDA模型。

雖然TDC-LDA模型考慮了用戶的觀看節(jié)目、觀看時(shí)間點(diǎn)、觀看時(shí)長(zhǎng)等信息,但是IPTV用戶收視過(guò)程中還有很多其他信息,比如收藏、瀏覽、回看等。之后,我們將考慮通過(guò)融入各類用戶互動(dòng)信息進(jìn)一步提升模型的魯棒性和靈活性。

猜你喜歡
類節(jié)目時(shí)段電視節(jié)目
第70屆黃金時(shí)段艾美獎(jiǎng)主要獎(jiǎng)項(xiàng)提名
不喜歡胖的
周日廣播電視
周五廣播電視
周三廣播電視
電視節(jié)目
電視社教類節(jié)目創(chuàng)新策劃的三個(gè)角度
省級(jí)衛(wèi)視新聞專題類節(jié)目發(fā)展的困境與思考
編者的話
西藏文物 迎來(lái)大修時(shí)段
永修县| 阿巴嘎旗| 新化县| 钦州市| 抚州市| 陵川县| 林周县| 辽宁省| 罗甸县| 嘉义县| 抚州市| 江门市| 石屏县| 大港区| 黑山县| 新乡县| 凤山市| 合阳县| 丽水市| 肇庆市| 革吉县| 黄大仙区| 阜南县| 金湖县| 德州市| 敦化市| 郑州市| 盘锦市| 米泉市| 水城县| 延津县| 巴楚县| 新津县| 苍山县| 论坛| 封开县| 综艺| 原平市| 南汇区| 兴和县| 陇西县|