集成FM 的短視頻喜好率預(yù)測模型

2020-07-17 08:19:52王麗苗許青林姜文超符基高

計(jì)算機(jī)工程與應(yīng)用 2020年14期

王麗苗，許青林，姜文超，符基高

廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院，廣州 510006

1 引言

隨著以智能手機(jī)為代表的各類智能化移動(dòng)終端的日益普及，移動(dòng)互聯(lián)網(wǎng)廣告行業(yè)得到了迅猛的發(fā)展，尤其是移動(dòng)短視頻廣告。根據(jù)QuestMobile發(fā)布的數(shù)據(jù)，截止2017年9月，中國短視頻的用戶數(shù)突破3億，同比增長94.1%；而移動(dòng)短視頻廣告的喜好率也遠(yuǎn)高于其他形式的廣告。喜好率（Like-Through Rate，LTR）是衡量移動(dòng)短視頻廣告投放效果的重要指標(biāo)。通過對(duì)移動(dòng)短視頻廣告的分析與預(yù)測，不僅能夠讓用戶瀏覽到自己感興趣的視頻，改善用戶體驗(yàn)，還能輔助廣告主合理使用預(yù)算，將廣告精準(zhǔn)傳遞給目標(biāo)人群，同時(shí)提高移動(dòng)媒體的網(wǎng)站收益。

近年來，喜好率和點(diǎn)擊率預(yù)測等相關(guān)問題的研究已取得了大量的進(jìn)展[1]。目前工業(yè)界應(yīng)用最廣泛的預(yù)測方法是利用邏輯回歸（Logistic Regression，LR）來學(xué)習(xí)點(diǎn)擊率預(yù)測模型[2-4]。LR的優(yōu)點(diǎn)是簡單、非常容易實(shí)現(xiàn)大規(guī)模實(shí)時(shí)并行處理，但是線性模型的學(xué)習(xí)能力有限，不能捕獲高階特征攜帶的信息（非線性信息）[5]，從而限制了LR的預(yù)測性能。Joachims[6]提出用支持向量機(jī)（Support Vector Machine，SVM）模型預(yù)測廣告點(diǎn)擊率，能夠有效地處理多維非線性數(shù)據(jù)，但無法對(duì)大數(shù)據(jù)量的稀疏廣告進(jìn)行預(yù)測。Lee等人[7]從媒體、用戶和廣告主三方角度出發(fā)，對(duì)數(shù)據(jù)進(jìn)行分層建模來緩解數(shù)據(jù)稀疏性，進(jìn)而提高展示廣告轉(zhuǎn)化率預(yù)測的準(zhǔn)確性。Shen等人[8]提出了基于協(xié)同過濾和張量分解的點(diǎn)擊率預(yù)測模型。該模型根據(jù)用戶、查詢和文檔的關(guān)系來挖掘用戶的個(gè)性化偏好，以提升預(yù)測精度?？锟〉热薣9]使用矩陣分解等方法生成交叉特征，通過將用戶特征和視頻特征進(jìn)行交叉組合，來提高模型的精度。潘書敏等人[10]提出了USFD模型來對(duì)廣告點(diǎn)擊率進(jìn)行預(yù)測，該模型從用戶的角度出發(fā)，對(duì)具有相似特征的用戶進(jìn)行建模分析，挖掘特征差異對(duì)用戶點(diǎn)擊行為的影響，來提高點(diǎn)擊率預(yù)測精度。Rendle[11]結(jié)合支持向量機(jī)（SVM）和分解模型的優(yōu)點(diǎn)，提出了一種因子分解機(jī)（Factorization Machines，F(xiàn)M）模型，F(xiàn)M使用分解參數(shù)模擬變量之間的所有交互，可以在非常稀疏的數(shù)據(jù)下進(jìn)行參數(shù)估計(jì)，相比于SVM有較好的預(yù)測質(zhì)量，此外，F(xiàn)M是一種可以與任何實(shí)值特征向量一起使用的通用預(yù)測器。朱志北等[12]提出的LDA-FMS模型預(yù)測廣告點(diǎn)擊率，能有效地解決廣告和用戶數(shù)據(jù)量大且數(shù)據(jù)稀疏的問題，但是其沒有考慮特征工程的成本和時(shí)間。田嫦麗等[13]提出了一種基于梯度提升決策樹（Gradient Boosting Decision Tree，GBDT）模型的高影響力特征提取方法。使用該方法降低了特征提取的人工和時(shí)間成本，具有很好的參考意義。

此外，隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)[14]的不斷發(fā)展，劉夢(mèng)娟等人[15]提出了能夠融合不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)特征的高階表示，來提高模型精度；張志強(qiáng)等人[16]使用張量分解和神經(jīng)網(wǎng)絡(luò)來解決廣告數(shù)據(jù)的稀疏性問題和非線性關(guān)系。深度學(xué)習(xí)方法的主要劣勢在于可解釋性差，訓(xùn)練過程較為復(fù)雜，訓(xùn)練耗時(shí)較長。

基于以上分析，本文從移動(dòng)短視頻廣告的多主題性質(zhì)出發(fā)，針對(duì)特征工程費(fèi)時(shí)費(fèi)力問題，采用集成的思想，提出了基于LDA-GBDT-FM的短視頻喜好率預(yù)測模型。該模型的主要貢獻(xiàn)如下：（1）利用LDA對(duì)原有訓(xùn)練集進(jìn)行基于主題的分割，分割生成的每個(gè)子訓(xùn)練集顯著小于原始訓(xùn)練集，在一定程度上降低了計(jì)算復(fù)雜度。（2）對(duì)不同主題下的訓(xùn)練集采用GBDT模型進(jìn)行特征的自動(dòng)選擇以及特征的非線性轉(zhuǎn)換，減少基線算法中人工特征工程對(duì)時(shí)間和人力的依賴。（3）利用因子分解機(jī)非線性模型，可有效解決數(shù)據(jù)的高度稀疏問題。（4）通過集成不同主題的預(yù)測結(jié)果，進(jìn)而提高預(yù)測精度。實(shí)驗(yàn)證明基于LDA-GBDT-FM模型能有效提高預(yù)測短視頻點(diǎn)擊事件的準(zhǔn)確率。

2 LDA-GBDT-FM短視頻喜好率預(yù)測模型

短視頻本身具有多主題的性質(zhì)，即一個(gè)短視頻可以對(duì)應(yīng)多個(gè)主題。本文從短視頻標(biāo)題本身的潛在語義出發(fā)，充分利用短視頻的多主題性，提出一種基于LDAGBDT-FM的短視頻喜好率預(yù)測模型。圖1表示短視頻喜好率的預(yù)測框架。

圖1 LDA-GBDT-FM模型結(jié)構(gòu)圖

如圖1所示，首先利用LDA主題模型對(duì)短視頻標(biāo)題進(jìn)行建模，得到短視頻的主題分布，再對(duì)原始訓(xùn)練集進(jìn)行基于主題的分割，得到不同主題下的子訓(xùn)練集，在每個(gè)子訓(xùn)練集上，利用GBDT提取連續(xù)型特征的高影響力特征，再將提取到的高影響力特征與離散型特征合并后進(jìn)行獨(dú)熱編碼，訓(xùn)練FM并建立子模型，最后利用合成策略將子模型集成得到最終的預(yù)測。

2.1 LDA算法建模生成不同主題的子訓(xùn)練集

（1）短視頻標(biāo)題集建模

對(duì)短視頻標(biāo)題集進(jìn)行LDA[17]建模，利用吉布斯抽樣算法（Gibbssampling）學(xué)習(xí)得到短視頻主題分布β，如式（1）所示：

其中，βnk表示短視頻n屬于主題k的概率，即：

本文將βnk稱為短視頻n與主題k的相關(guān)度。

（2）分割短視頻訓(xùn)練數(shù)據(jù)集

利用短視頻主題分布β將訓(xùn)練集分成不同主題的子訓(xùn)練集。

定義1（短視頻主題相關(guān)閾值）當(dāng)n與k的相關(guān)度βnk大于σ(0≤σ<1)時(shí)，表示n屬于k，σ稱為短視頻主題相關(guān)閾值。

假設(shè)有K個(gè)主題，則n屬于k的平均概率為1/K，當(dāng)βnk大于1/K時(shí)，則說明n與k的相關(guān)度較大。因此在LDA-GBDT-FM模型中，將σ設(shè)為平均概率，即σ=1/K。

分割思想如下：對(duì)短視頻訓(xùn)練數(shù)據(jù)集D進(jìn)行遍歷，查看每條數(shù)據(jù)的短視頻主題分布βnk，若大于σ，則將n存到相應(yīng)的子訓(xùn)練集dk中。應(yīng)當(dāng)注意，因?yàn)槎桃曨l具有多主題性，對(duì)于同一個(gè)短視頻，其相關(guān)度大于σ的主題會(huì)不止一個(gè)，因此，不同主題的子訓(xùn)練集中可能具有相同的短視頻數(shù)據(jù)。

2.2 利用GBDT提取高影響力特征

分割短視頻訓(xùn)練數(shù)據(jù)集D后，得到不同主題的子訓(xùn)練集d1,d2,…,dk。利用GBDT對(duì)每個(gè)子訓(xùn)練集中的連續(xù)特征提取高影響力特征。GBDT是由Friedman J H[18]在2000年提出的一種非線性模型，它采用的是Boosting集成學(xué)習(xí)方法[19]，每次迭代都在殘差減少的梯度方向新建立一棵決策樹，即最終迭代次數(shù)與決策樹的數(shù)目相等，決策樹的葉子節(jié)點(diǎn)可以直接作為特征向量的一個(gè)維度。GBDT的這種思想使其具備很大優(yōu)勢，發(fā)現(xiàn)多種有區(qū)分性的特征和特征組合，構(gòu)造的高影響力特征可以直接作為預(yù)估模型輸入特征，節(jié)約人工成本，提高效率。圖2表示使用GBDT前后的特征選擇示意圖，融合前人工發(fā)掘有區(qū)分度的特征，融合后直接通過GBDT非線性模型提取高影響力特征。

圖2 使用GBDT前后的特征選擇示意圖

2.3 訓(xùn)練不同主題下的喜好率預(yù)測模型

本文使用FM作為短視頻喜好率的預(yù)測模型。FM因子分解機(jī)可以使用分解參數(shù)模擬不同類型變量間的所有交互，并且可對(duì)任意實(shí)值向量進(jìn)行預(yù)測，因此，F(xiàn)M在面對(duì)高度稀疏數(shù)據(jù)時(shí)具有較高的預(yù)測精度。

在短視頻喜好率預(yù)測的背景下，本文將GBDT提取到的高影響力特征與離散型特征合并后進(jìn)行獨(dú)熱編碼后，作為FM的輸入，對(duì)輸入的特征向量進(jìn)行兩兩因子分解，短視頻的喜好率作為輸出，短視頻喜好率預(yù)測模型如式（2）所示：

其中，xi為第i個(gè)特征的值，n是短視頻特征的維度，w0∈R為全局偏差，wi∈Rn是第i個(gè)特征的影響因子，V∈Rn×h為互異特征分量之間的交互參數(shù)。 Vi,Vj表示的是兩個(gè)維度為h的向量Vi和向量Vj的點(diǎn)積：

其中，Vi表示的是系數(shù)矩陣V的第i維向量，且Vi=是超參數(shù)。

本文采用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）的方法對(duì)FM模型進(jìn)行參數(shù)計(jì)算。該方法通過最小化每條樣本的損失函數(shù)來達(dá)到目的，為了防止參數(shù)過多而導(dǎo)致的過擬合問題，在優(yōu)化函數(shù)中加入正則化項(xiàng)L2范式，其定義如下：

其中，l(y1,y2)=(y1-y2)2為最小平方損失函數(shù)。

SGD通過遍歷訓(xùn)練集中的每條數(shù)據(jù)并按照一定的學(xué)習(xí)率沿著負(fù)梯度方向更新參數(shù)，直至收斂，參數(shù)更新方法如下：

其中，α∈R+為學(xué)習(xí)速率.。

2.4 短視頻喜好率預(yù)測

短視頻喜好率預(yù)測過程中，充分考慮短視頻的多主題性，先利用2.3節(jié)中訓(xùn)練得到的喜好率預(yù)測模型分別計(jì)算每個(gè)主題的短視頻喜好率；再將2.1節(jié)中得到的短視頻與主題的相關(guān)度作為每個(gè)主題的短視頻喜好率的權(quán)重;最后，將K個(gè)主題下的預(yù)測結(jié)果集成起來產(chǎn)生最終的短視頻喜好率。

對(duì)于一條短視頻n，其喜好率預(yù)測結(jié)果可表示為：

其中，βnk為短視頻n與主題k的相關(guān)度。

模型LDA-GBDT-FM：

輸入：訓(xùn)練集D，經(jīng)過步驟1和步驟2預(yù)處理的測試集X，主題數(shù)目K。

輸出：測試集中每條數(shù)據(jù)的喜好率p。

步驟1 Topic clustering

1.讀取訓(xùn)練集D，提取短視頻廣告的標(biāo)題特征樣本集合W

2.利用吉布斯抽樣法,得到短視頻-主題分布：β={β11,β12,…,βnk}

3.設(shè)置短視頻-主題關(guān)聯(lián)閾值σ

4.For eachninD：

5.For eachkinK：

6.Ifβnk>σ：

7.n∈dk

8.ReturnD={d1,d2,…,dk}和β

步驟2 Feature extraction

9.For eachdiinD：

10.從d中提取連續(xù)特征集U={u1,u2,…,ut}和離散特征集V={v1,v2,…,vt}

11.設(shè)置梯度提升決策樹的棵數(shù)α=30和深度η=4

12.利用GBDT訓(xùn)練連續(xù)特征集U得到高影響力特征集G={g1,g2,…,gt}

13.結(jié)合G和V，得到重構(gòu)訓(xùn)練樣本集γi={gi}∪{vi}

14.Returnγ={γ1,γ2,…,γt}

步驟3 Training

15.For eachγiinγ：

16.訓(xùn)練因子分解機(jī)FM模型y?dk

17.ReturnFM={y?d1,y?d2,…,y?dk}

步驟4 Predicting

18.For eachxinX：

19.For eachy?diinFM：

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境介紹

本文的數(shù)據(jù)集采用Bytedance公司的短視頻廣告歷史日志。該數(shù)據(jù)集包含19 624 543條短視頻歷史數(shù)據(jù)。數(shù)據(jù)集中的一條數(shù)據(jù)包含用戶信息、短視頻廣告信息以及用戶與短視頻的交互信息，如表1所示。

表1 數(shù)據(jù)集列名

本文程序由Python3.6編寫完成，運(yùn)行環(huán)境為Ubuntu16.04，內(nèi)存大小64GB，Intel?CoreTMi9-7900X CPU@3.30 GHz。

3.2 實(shí)驗(yàn)結(jié)果與分析

本文使用曲線下方的面積（Area Under Curve，AUC）[20]指標(biāo)來檢驗(yàn)短視頻喜好率預(yù)測模型的訓(xùn)練效果，因?yàn)長DA-GBDT-FM模型研究的主要目的是通過提高短視頻喜好率預(yù)測的精度來對(duì)短視頻廣告的展示和排序產(chǎn)生一定的指導(dǎo)意義。

（1）GBDT的樹棵數(shù)和樹深度的設(shè)定

表2表示GBDT模型的樹棵數(shù)和樹深度以及學(xué)習(xí)率取不同值時(shí)，對(duì)LDA-GBDT-FM模型準(zhǔn)確度的影響。如表2所示，隨著樹的數(shù)量和樹的深度的增加，AUC沒有顯著提高，綜合考慮，后面的實(shí)驗(yàn)中將采用樹數(shù)量為30，樹深度為4，學(xué)習(xí)率為0.13作為最終的GBDT的模型參數(shù)。

表2 GBDT高層提取實(shí)驗(yàn)記錄

（2）主題個(gè)數(shù)對(duì)喜好率預(yù)測的影響

在LDA-GBDT-FM模型和LDA-FM模型中，主題數(shù)量作為原始訓(xùn)練集分割和預(yù)測結(jié)果集成的依據(jù)，是一個(gè)重要的超參數(shù)。本實(shí)驗(yàn)將短視頻廣告按照不同的主題數(shù)量進(jìn)行劃分，分別計(jì)算模型對(duì)不同主題數(shù)量的數(shù)據(jù)集的喜好率預(yù)測情況。

如圖3所示，隨著主題數(shù)量的增加，AUC的值逐漸上升，當(dāng)達(dá)到20時(shí)，上升趨勢平緩，當(dāng)主題數(shù)目為35時(shí)，能夠取得最佳的預(yù)測結(jié)果，因此，后續(xù)實(shí)驗(yàn)取主題數(shù)目為35時(shí)的實(shí)驗(yàn)結(jié)果。

圖3 不同主題下喜好率預(yù)測結(jié)果

（3）預(yù)測結(jié)果分析

為了檢驗(yàn)?zāi)Ｐ偷挠行?，本?shí)驗(yàn)在相同的實(shí)驗(yàn)環(huán)境和相同的參數(shù)設(shè)置下將LDA-GBDT-FM模型與邏輯回歸模型（LR）、因子分解機(jī)模型（FM）和LDA-FM模型三種點(diǎn)擊率預(yù)測模型進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 LDA-GBDT-FM與其他喜好率預(yù)測模型對(duì)比

如圖4所示，在預(yù)測短視頻廣告的喜好率時(shí)，本文提出的模型有更高的預(yù)測準(zhǔn)確度，具體來說，LDA-GBDTFM相較LDA-FM、FM和LR的AUC分別提高了3.0%、5.7%和8.5%。這說明GBDT對(duì)每個(gè)主題的FM預(yù)測模型是有效的，提升了模型的預(yù)測準(zhǔn)確度，因?yàn)镚BDT可以對(duì)特征進(jìn)行非線性轉(zhuǎn)換，發(fā)掘高影響力特征，消除噪聲的干擾。

4 結(jié)束語

計(jì)算廣告學(xué)蓬勃發(fā)展，精準(zhǔn)的短視頻廣告喜好率對(duì)APP運(yùn)營商、廣告主和用戶都有著重要意義。本文的主要工作是從短視頻的多主題性質(zhì)出發(fā)，提出了一種基于LDA-GBDT-FM短視頻喜好率預(yù)測方法，通過對(duì)不同主題的數(shù)據(jù)，提取高影響力特征來訓(xùn)練模型，根據(jù)短視頻與主題的關(guān)聯(lián)度，將子模型集成來提高短視頻喜好率預(yù)測精度。實(shí)驗(yàn)結(jié)果表明，LDA-GBDT-FM模型相較于以往的模型在喜好率預(yù)測方面具有更高的準(zhǔn)確性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡