国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高低階特征交互學(xué)習(xí)的點擊率預(yù)測模型研究

2023-05-24 07:46:38曾旺旺胡洋陳俊文廖澤宇阮謝林
無線互聯(lián)科技 2023年5期
關(guān)鍵詞:點擊率細粒度

曾旺旺 胡洋 陳俊文 廖澤宇 阮謝林

摘要:作為在線廣告推送中極為重要的環(huán)節(jié),準確的點擊率預(yù)測(Click-Through Rate,CTR)不僅能提升用戶體驗,更能增加經(jīng)濟收益,減少資源浪費。目前,基于深度學(xué)習(xí)的CTR預(yù)測模型雖然取得了一定成績,但在高低階特征交互學(xué)習(xí)方面存在不兼顧、不充分以及模型可解釋性不強等問題。為解決上述問題,文章提出的模型基于壓縮交互網(wǎng)絡(luò)對高階交互特征進行顯式學(xué)習(xí),增強可解釋性。同時采用ECA-net網(wǎng)絡(luò)與雙線性層組合的方式,對一階特征進行加權(quán)學(xué)習(xí),對二階特征進行更加細粒度的特征交互,實現(xiàn)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更細粒度的高階交互特征,兼顧高低階特征學(xué)習(xí),獲取更加全面的潛在特征相關(guān)性。在Criteo和Avazu兩個公開的大數(shù)據(jù)集上實驗發(fā)現(xiàn),與已提出的相關(guān)模型相比較,新模型在性能方面均有所提升。

關(guān)鍵詞:點擊率;高低階特征交互;壓縮交互網(wǎng)絡(luò);細粒度

中圖分類號:TP39文獻標志碼:A

0 引言

2023年1月12日發(fā)布的《2022中國互聯(lián)網(wǎng)廣告數(shù)據(jù)報告》顯示,2022年,國內(nèi)互聯(lián)網(wǎng)廣告市場規(guī)模已達5 088億元,規(guī)模巨大。通過提升廣告點擊率(Click-Through-Rate,CTR)預(yù)測模型的準確性,實現(xiàn)更加準確的廣告推送,不僅能大大節(jié)約成本,提升廣告商收益,更能夠提升用戶體驗感,有效獲取感興趣廣告。為此,關(guān)于提升CTR預(yù)測模型準確率問題也引起了業(yè)界廣泛研究。

目前,對預(yù)測模型的研究可分為基于傳統(tǒng)機器學(xué)習(xí)的線性模型和基于深度學(xué)習(xí)的非線性模型。線性模型雖然易于實現(xiàn)、可解釋性強,但無法學(xué)習(xí)高階交互特征,獲取更加全面的特征間潛在相關(guān)性,如邏輯回歸(Logistic Regression, LR)、因子分解機(Factorization Machines, FM)等模型[1-2]。與線性模型相比,非線性模型雖然在性能上有所提升,但在高低階數(shù)特征交互方面未做到全面兼顧、對不同一階特征未按重要程度進行區(qū)分,導(dǎo)致模型在準確性方面還存在較大的提升空間,如Autoint,MaskNet等模型[3-4]。

1 模型設(shè)計及原理

針對現(xiàn)已提出的模型所存在的問題,本文提出了一種兼顧高低階特征學(xué)習(xí),能夠顯式地學(xué)習(xí)高階交互特征,具有較強可解釋性的點擊率預(yù)測模型,模型結(jié)構(gòu)如圖1所示。模型主要包括:FM層、Embedding Layer(嵌入層)、Compressed Interaction Network Layer(CIN層)、Effificient Channel Attention Layer(ECA-net層)、Bilinear Interaction Layer(雙線性層)、Combination Layer(全連接層)以及Multilayer Perceptron Layer(多層感知機層)。其中,F(xiàn)M層主要針對每個特征引入一個對應(yīng)的隱向量,在進行二階特征交互時兩個特征的隱向量進行內(nèi)積求得交互特征的權(quán)重,因此,F(xiàn)M層在面對稀疏特征及冷啟動問題時具有非常好的效果,并且與模型結(jié)構(gòu)圖中右邊部分構(gòu)成雙塔模型并行聯(lián)合訓(xùn)練,計算公式如下。

2 數(shù)據(jù)集介紹

針對所提出的預(yù)測模型,本文將采用Criteo和Avazu兩個學(xué)術(shù)界、工業(yè)界常用于對CTR模型進行實驗的廣告數(shù)據(jù)集進行實驗。為能夠更加有效地說明模型在實際應(yīng)用場景中面對海量數(shù)據(jù)的情況,本文將采用上述兩個數(shù)據(jù)集的全部數(shù)據(jù)用于實驗。其中,Criteo數(shù)據(jù)集包含26個脫敏分類特征、13個連續(xù)數(shù)值特征,共計約4 500萬條真實用戶數(shù)據(jù)。在實驗過程中分為兩部分,其中,90%用訓(xùn)練、10%用于測試;Avazu數(shù)據(jù)集包含24個特征,共計4 000萬條真實用戶數(shù)據(jù),其中,80%用訓(xùn)練、20%用于測試。

3 實驗參數(shù)設(shè)置與分析

3.1 參數(shù)設(shè)置

本實驗硬件設(shè)備中處理器使用的是Intel(R) Xeon(R) platinum 8350C CPU @2.60 GHz,顯卡是RTX A5000(24 G),運行內(nèi)存43 GB。實驗?zāi)P驮赑ython 3.8下進行編程,在PyTorch 1.9.0版本下的深度學(xué)習(xí)框架進行實驗。對于所有的對比模型中具有相同網(wǎng)絡(luò)結(jié)構(gòu)的將采用統(tǒng)一參數(shù),其中,多層感知機層網(wǎng)絡(luò)層數(shù)均為3,每層間的激活函數(shù)為ReLu,學(xué)習(xí)率為0.001,優(yōu)化器采用Adma。由于采用的數(shù)據(jù)集較大,在訓(xùn)練過程中Criteo數(shù)據(jù)集batch-size設(shè)置為10 000,Avazu數(shù)據(jù)集batch-size設(shè)置為5 000。

3.2 實驗分析

實驗將從基于淺層模型情況下與基于深層模型下的實驗結(jié)果兩個方面進行分析。

3.2.1 淺層模型性能對比

本節(jié)將所提出的模型在消去多層感知機層后作為CTR淺層模型與LR,F(xiàn)M,AFM等淺層模型(Low-order Model)進行對比,結(jié)果如表1所示。

在CTR預(yù)測領(lǐng)域中,AUC值提升0.001也是非常具有價值的,在實際應(yīng)用場景中面對海量數(shù)據(jù)將帶來巨大經(jīng)濟效益[5-6]。從表1中可以發(fā)現(xiàn),在Criteo數(shù)據(jù)中本文所提出的模型在淺層模型(Ours-sh)下的性能比其他淺層模型的性能都要好。

3.2.2 深層模型性能對比

為進一步說明模型在深層網(wǎng)絡(luò)下的效果,本文所提出的模型將與其他基于深度神經(jīng)網(wǎng)絡(luò)下所提出的深層模型(High-order Model)進行比較,結(jié)果如表2所示。

從表1、表2的實驗結(jié)果可以發(fā)現(xiàn),本文所提出的模型無論是在淺層模型下還是在深層模型下,性能都要比其他對比模型性能要好。這表明本文所提的雙塔加雙線并行訓(xùn)練的模型在提升模型性能方面是有效的,CIN層與ECA-net、雙線性層及多層感知機所構(gòu)成的雙線訓(xùn)練分支在提取高階特征的潛在相關(guān)性方面具有一定的效果。

4 結(jié)語

為進一步提升CTR預(yù)測模型的準確性,本文所提出的預(yù)測模型在關(guān)注一階特征重要性的基礎(chǔ)上細化特征粒度,通過顯隱性高階特征并行學(xué)習(xí)的方式學(xué)習(xí)更加全面、細微的特征間的關(guān)聯(lián)性。實驗證明,該模型在預(yù)測在線廣告是否被點擊的準確性等方面有較好的表現(xiàn)。

參考文獻

[1]KUMAR R,NAIK S M,NAIK V D,et al.Predicting clicks:CTR estimation of advertisements using logistic regression classifier:Advance Computing Conference[C].New York,NY:IEEE,2015.

[2]RENDLE S.Factorization machines:2010 IEEE International Conference on Data Mining[C].New York,NY:IEEE,2010.

[3]SONG W,SHI C,XIAO Z,et al.Autoint:automatic feature interaction learning via self-attentive neural networks:Proceedings of the 28th ACM International Conference on Information and Knowledge Management[C].New York,NY:ACM,2019.

[4]WANG Z Q,SHE Q Y,ZHANG J L.MaskNet:introducing feature-wise multiplication to CTR ranking models by instance-guided mask[J].ArXiv,2021:2102.07619.

[5]HUANG T,ZHANG Z,ZHANG J.FiBiNET:combining feature importance and bilinear feature interaction for click-through rate prediction:Proceedings of the 13th ACM Conference on Recommender Systems[C].New York,NY:ACM,2019.

[6]蔣興渝,黃賢英,陳雨晶,等.特征重要性動態(tài)提取的廣告點擊率預(yù)測模型[J].小型微型計算機系統(tǒng),2022(5):976-984.

(編輯沈 強)

猜你喜歡
點擊率細粒度
利用類型語義表示進行標簽降噪的細粒度實體分類①
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
細粒度的流計算執(zhí)行效率優(yōu)化方法
功夫應(yīng)在標題外
參花(下)(2020年6期)2020-06-09 12:03:53
基于SVM多分類的超分辨圖像細粒度分類方法
基于特征工程的視頻點擊率預(yù)測算法
基于雙線性卷積網(wǎng)絡(luò)的細粒度圖像定位
支持細粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
計算廣告:“技術(shù)+數(shù)據(jù)+內(nèi)容”的綜合運用
喜報!萌寶大賽參賽者660名,投票321657人次,點擊率超60萬!
海峽姐妹(2015年8期)2015-02-27 15:12:30
洪洞县| 获嘉县| 周口市| 遂川县| 扎鲁特旗| 汉阴县| 泰宁县| 和静县| 湖北省| 淳安县| 石台县| 祁东县| 横山县| 柳林县| 扎赉特旗| 开封县| 澄迈县| 江达县| 射阳县| 周宁县| 余姚市| 家居| 碌曲县| 海原县| 巴青县| 古蔺县| 庆云县| 平山县| 临夏县| 新建县| 且末县| 宜春市| 清远市| 江孜县| 赤峰市| 临朐县| 博湖县| 涞源县| 正定县| 山丹县| 江油市|