曾旺旺 胡洋 陳俊文 廖澤宇 阮謝林
摘要:作為在線廣告推送中極為重要的環(huán)節(jié),準確的點擊率預(yù)測(Click-Through Rate,CTR)不僅能提升用戶體驗,更能增加經(jīng)濟收益,減少資源浪費。目前,基于深度學(xué)習(xí)的CTR預(yù)測模型雖然取得了一定成績,但在高低階特征交互學(xué)習(xí)方面存在不兼顧、不充分以及模型可解釋性不強等問題。為解決上述問題,文章提出的模型基于壓縮交互網(wǎng)絡(luò)對高階交互特征進行顯式學(xué)習(xí),增強可解釋性。同時采用ECA-net網(wǎng)絡(luò)與雙線性層組合的方式,對一階特征進行加權(quán)學(xué)習(xí),對二階特征進行更加細粒度的特征交互,實現(xiàn)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更細粒度的高階交互特征,兼顧高低階特征學(xué)習(xí),獲取更加全面的潛在特征相關(guān)性。在Criteo和Avazu兩個公開的大數(shù)據(jù)集上實驗發(fā)現(xiàn),與已提出的相關(guān)模型相比較,新模型在性能方面均有所提升。
關(guān)鍵詞:點擊率;高低階特征交互;壓縮交互網(wǎng)絡(luò);細粒度
中圖分類號:TP39文獻標志碼:A
0 引言
2023年1月12日發(fā)布的《2022中國互聯(lián)網(wǎng)廣告數(shù)據(jù)報告》顯示,2022年,國內(nèi)互聯(lián)網(wǎng)廣告市場規(guī)模已達5 088億元,規(guī)模巨大。通過提升廣告點擊率(Click-Through-Rate,CTR)預(yù)測模型的準確性,實現(xiàn)更加準確的廣告推送,不僅能大大節(jié)約成本,提升廣告商收益,更能夠提升用戶體驗感,有效獲取感興趣廣告。為此,關(guān)于提升CTR預(yù)測模型準確率問題也引起了業(yè)界廣泛研究。
目前,對預(yù)測模型的研究可分為基于傳統(tǒng)機器學(xué)習(xí)的線性模型和基于深度學(xué)習(xí)的非線性模型。線性模型雖然易于實現(xiàn)、可解釋性強,但無法學(xué)習(xí)高階交互特征,獲取更加全面的特征間潛在相關(guān)性,如邏輯回歸(Logistic Regression, LR)、因子分解機(Factorization Machines, FM)等模型[1-2]。與線性模型相比,非線性模型雖然在性能上有所提升,但在高低階數(shù)特征交互方面未做到全面兼顧、對不同一階特征未按重要程度進行區(qū)分,導(dǎo)致模型在準確性方面還存在較大的提升空間,如Autoint,MaskNet等模型[3-4]。
1 模型設(shè)計及原理
針對現(xiàn)已提出的模型所存在的問題,本文提出了一種兼顧高低階特征學(xué)習(xí),能夠顯式地學(xué)習(xí)高階交互特征,具有較強可解釋性的點擊率預(yù)測模型,模型結(jié)構(gòu)如圖1所示。模型主要包括:FM層、Embedding Layer(嵌入層)、Compressed Interaction Network Layer(CIN層)、Effificient Channel Attention Layer(ECA-net層)、Bilinear Interaction Layer(雙線性層)、Combination Layer(全連接層)以及Multilayer Perceptron Layer(多層感知機層)。其中,F(xiàn)M層主要針對每個特征引入一個對應(yīng)的隱向量,在進行二階特征交互時兩個特征的隱向量進行內(nèi)積求得交互特征的權(quán)重,因此,F(xiàn)M層在面對稀疏特征及冷啟動問題時具有非常好的效果,并且與模型結(jié)構(gòu)圖中右邊部分構(gòu)成雙塔模型并行聯(lián)合訓(xùn)練,計算公式如下。
2 數(shù)據(jù)集介紹
針對所提出的預(yù)測模型,本文將采用Criteo和Avazu兩個學(xué)術(shù)界、工業(yè)界常用于對CTR模型進行實驗的廣告數(shù)據(jù)集進行實驗。為能夠更加有效地說明模型在實際應(yīng)用場景中面對海量數(shù)據(jù)的情況,本文將采用上述兩個數(shù)據(jù)集的全部數(shù)據(jù)用于實驗。其中,Criteo數(shù)據(jù)集包含26個脫敏分類特征、13個連續(xù)數(shù)值特征,共計約4 500萬條真實用戶數(shù)據(jù)。在實驗過程中分為兩部分,其中,90%用訓(xùn)練、10%用于測試;Avazu數(shù)據(jù)集包含24個特征,共計4 000萬條真實用戶數(shù)據(jù),其中,80%用訓(xùn)練、20%用于測試。
3 實驗參數(shù)設(shè)置與分析
3.1 參數(shù)設(shè)置
本實驗硬件設(shè)備中處理器使用的是Intel(R) Xeon(R) platinum 8350C CPU @2.60 GHz,顯卡是RTX A5000(24 G),運行內(nèi)存43 GB。實驗?zāi)P驮赑ython 3.8下進行編程,在PyTorch 1.9.0版本下的深度學(xué)習(xí)框架進行實驗。對于所有的對比模型中具有相同網(wǎng)絡(luò)結(jié)構(gòu)的將采用統(tǒng)一參數(shù),其中,多層感知機層網(wǎng)絡(luò)層數(shù)均為3,每層間的激活函數(shù)為ReLu,學(xué)習(xí)率為0.001,優(yōu)化器采用Adma。由于采用的數(shù)據(jù)集較大,在訓(xùn)練過程中Criteo數(shù)據(jù)集batch-size設(shè)置為10 000,Avazu數(shù)據(jù)集batch-size設(shè)置為5 000。
3.2 實驗分析
實驗將從基于淺層模型情況下與基于深層模型下的實驗結(jié)果兩個方面進行分析。
3.2.1 淺層模型性能對比
本節(jié)將所提出的模型在消去多層感知機層后作為CTR淺層模型與LR,F(xiàn)M,AFM等淺層模型(Low-order Model)進行對比,結(jié)果如表1所示。
在CTR預(yù)測領(lǐng)域中,AUC值提升0.001也是非常具有價值的,在實際應(yīng)用場景中面對海量數(shù)據(jù)將帶來巨大經(jīng)濟效益[5-6]。從表1中可以發(fā)現(xiàn),在Criteo數(shù)據(jù)中本文所提出的模型在淺層模型(Ours-sh)下的性能比其他淺層模型的性能都要好。
3.2.2 深層模型性能對比
為進一步說明模型在深層網(wǎng)絡(luò)下的效果,本文所提出的模型將與其他基于深度神經(jīng)網(wǎng)絡(luò)下所提出的深層模型(High-order Model)進行比較,結(jié)果如表2所示。
從表1、表2的實驗結(jié)果可以發(fā)現(xiàn),本文所提出的模型無論是在淺層模型下還是在深層模型下,性能都要比其他對比模型性能要好。這表明本文所提的雙塔加雙線并行訓(xùn)練的模型在提升模型性能方面是有效的,CIN層與ECA-net、雙線性層及多層感知機所構(gòu)成的雙線訓(xùn)練分支在提取高階特征的潛在相關(guān)性方面具有一定的效果。
4 結(jié)語
為進一步提升CTR預(yù)測模型的準確性,本文所提出的預(yù)測模型在關(guān)注一階特征重要性的基礎(chǔ)上細化特征粒度,通過顯隱性高階特征并行學(xué)習(xí)的方式學(xué)習(xí)更加全面、細微的特征間的關(guān)聯(lián)性。實驗證明,該模型在預(yù)測在線廣告是否被點擊的準確性等方面有較好的表現(xiàn)。
參考文獻
[1]KUMAR R,NAIK S M,NAIK V D,et al.Predicting clicks:CTR estimation of advertisements using logistic regression classifier:Advance Computing Conference[C].New York,NY:IEEE,2015.
[2]RENDLE S.Factorization machines:2010 IEEE International Conference on Data Mining[C].New York,NY:IEEE,2010.
[3]SONG W,SHI C,XIAO Z,et al.Autoint:automatic feature interaction learning via self-attentive neural networks:Proceedings of the 28th ACM International Conference on Information and Knowledge Management[C].New York,NY:ACM,2019.
[4]WANG Z Q,SHE Q Y,ZHANG J L.MaskNet:introducing feature-wise multiplication to CTR ranking models by instance-guided mask[J].ArXiv,2021:2102.07619.
[5]HUANG T,ZHANG Z,ZHANG J.FiBiNET:combining feature importance and bilinear feature interaction for click-through rate prediction:Proceedings of the 13th ACM Conference on Recommender Systems[C].New York,NY:ACM,2019.
[6]蔣興渝,黃賢英,陳雨晶,等.特征重要性動態(tài)提取的廣告點擊率預(yù)測模型[J].小型微型計算機系統(tǒng),2022(5):976-984.
(編輯沈 強)