国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多層次特征交互的點(diǎn)擊率預(yù)測(cè)模型

2022-09-01 10:10鄭嘉偉王粉花1b嚴(yán)由齊
實(shí)驗(yàn)室研究與探索 2022年5期
關(guān)鍵詞:集上二階高階

鄭嘉偉,王粉花,1b,2,趙 波,嚴(yán)由齊

(1.北京科技大學(xué)a.自動(dòng)化學(xué)院;b.人工智能研究院,北京 100083;2.北京市工業(yè)波譜成像工程中心,北京 100083)

0 引言

點(diǎn)擊率(Click-throughRate,CTR)預(yù)測(cè)是推薦系統(tǒng)[1]、廣告系統(tǒng)[2]的重要組成模塊,其本質(zhì)上是一個(gè)二分類任務(wù),直接使用原始數(shù)據(jù)很難達(dá)到最佳的預(yù)測(cè)效果,需要從原始數(shù)據(jù)中提取信息并進(jìn)行變換組合,構(gòu)建出新的特征,這些組合特征融合了多個(gè)原始特征的信息,又被稱為交叉特征或者高階特征。利用機(jī)器學(xué)習(xí)的方式從原始的特征中自動(dòng)學(xué)習(xí)特征組合,最常用的方法就是因子分解機(jī)[3](Factorization Machines,F(xiàn)M),該模型把特征嵌入到一個(gè)隱空間中,通過嵌入向量的內(nèi)積對(duì)特征間的相互作用進(jìn)行建模,能夠有效降低高維數(shù)據(jù)稀疏性,并且對(duì)噪聲和冗余不敏感,擁有良好的可擴(kuò)展性[4]。然而,為了讓模型結(jié)構(gòu)降低難度,一般只使用其二階的特征交互,雖然在許多預(yù)測(cè)任務(wù)中取得了成功,但性能會(huì)受到二階特征交互的限制[5]。

近年來,深度學(xué)習(xí)技術(shù)發(fā)展迅速,其對(duì)隱特征的學(xué)習(xí)能力非常出色,并且在圖像處理、自然語言處理以及語音識(shí)別領(lǐng)域已有應(yīng)用,許多學(xué)者開始將深度學(xué)習(xí)技術(shù)引入點(diǎn)擊率預(yù)測(cè)模型當(dāng)中。其中,Zhang 等[6]提出結(jié)合因子分解機(jī)和深度神經(jīng)網(wǎng)絡(luò)的模型(Factorization Machine Supported Neural Network,F(xiàn)NN),將輸入特征經(jīng)過因子分解機(jī)處理之后再輸入多層全連接層,從而生成更高階的特征組合,提高了模型的學(xué)習(xí)能力。Qu等[7]提出一種基于向量點(diǎn)擊(Product)的模型(Product-based Neural Network,PNN),在嵌入層和全連接層之間進(jìn)行product操作,從而更好地學(xué)習(xí)不同域特征之間的相關(guān)性。He 等[8]提出稀疏預(yù)測(cè)分析的神經(jīng)因子分解機(jī)(Neural Factorization Machine,NFM),使用雙線性交互結(jié)構(gòu)來對(duì)二階交叉信息進(jìn)行處理,使交叉特征的信息能更好的被DNN結(jié)構(gòu)學(xué)習(xí),提高了對(duì)稀疏數(shù)據(jù)處理的能力。

但是,F(xiàn)NN、PNN和NFM都只考慮了高階特征,缺乏對(duì)低階特征信息的利用。對(duì)此,Cheng 等[9]提出了一種融合淺層模型和深層模型進(jìn)行聯(lián)合訓(xùn)練的框架Wide&Deep,綜合利用淺層模型的記憶能力和深層模型的泛化能力,實(shí)現(xiàn)單模型對(duì)推薦系統(tǒng)準(zhǔn)確性和擴(kuò)展性的兼顧。Guo 等[10]基于Wide & Deep 模型進(jìn)一步提出了一種將FM 和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)相結(jié)合的模型Deep FM,和Wide &Deep模型不同點(diǎn)在于將Wide 模型部分由LR 替換為FM,并且共享原始輸入特征。Wang 等[11]提出了一種利用很少的參數(shù)去高效地顯式學(xué)習(xí)特征的高階交互關(guān)系的深度交叉模型DeepCross,將Wide 部分替換為由特殊網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)的交叉網(wǎng)絡(luò),自動(dòng)進(jìn)行高階特征的交叉組合,并學(xué)習(xí)對(duì)應(yīng)權(quán)重,不需耗費(fèi)大量成本去人工組合特征。Lian 等[12]提出一種可以同時(shí)顯式和隱式的學(xué)習(xí)高階特征向量之間的交互模型xDeepFM(eXtreme Deep Factorization Machine),以向量為最細(xì)粒度學(xué)習(xí)相關(guān)性,高階特征學(xué)習(xí)效果更好。然而,該模型對(duì)CIN和DNN子模型只是簡(jiǎn)單的并列,沒有在子模型的結(jié)合方式和輸入數(shù)據(jù)的預(yù)處理上做其他工作,對(duì)低階特征信息利用不充分,且訓(xùn)練參數(shù)過多。

本文基于xDeepFM 模型提出一種多層次特征交互的深度因子分解機(jī)(Multi Level Deep Factorization Machine,mDeepFM)。相比于xDeepFM,mDeepFM 在全特征學(xué)習(xí)和性能評(píng)測(cè)中均表現(xiàn)更優(yōu)。

1 mDeepFM模型

mDeepFM模型如圖1 所示,主要包含特征嵌入層、壓縮交互網(wǎng)絡(luò)、二階特征交互層、全連接層、預(yù)測(cè)層幾部分。相比xDeepFM,特征信息經(jīng)過特征嵌入層處理之后,沒有直接輸入DNN,而是先經(jīng)過二階特征交互層,特征向量對(duì)位相乘再求和池化處理,輸入DNN模塊之前達(dá)到降維效果,減少了該模型學(xué)習(xí)的參數(shù)量,降低了DNN的訓(xùn)練難度,從而提高了訓(xùn)練速度。同時(shí)將嵌入層的信息輸入壓縮特征交互網(wǎng)絡(luò),進(jìn)行顯式特征交互,得到更加豐富的特征信息。

圖1 mDeepFM模型框架圖

1.1 特征嵌入層

特征嵌入層是將高維稀疏特征向量轉(zhuǎn)換為低維稠密向量,再輸入深層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,計(jì)算用戶和物品的嵌入向量相似度,可將嵌入技術(shù)作為推薦系統(tǒng)的召回策略之一。

將輸入特征分類聚集為多個(gè)域,特征嵌入層會(huì)將不同域的稀疏向量進(jìn)行獨(dú)熱編碼后映射到低維向量,減少數(shù)據(jù)稀疏性并降低輸入維度[13]。從輸入層到嵌入層的子網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。將任意長(zhǎng)度的輸入域向量轉(zhuǎn)換成相同的連續(xù)數(shù)值型向量,特征嵌入層的輸出結(jié)果是一個(gè)水平拼接的向量,如下式所示:

圖2 特征嵌入映射圖

式中:n表示域的個(gè)數(shù);ei表示第i個(gè)域的嵌入向量。

1.2 壓縮交互網(wǎng)絡(luò)

壓縮交互網(wǎng)絡(luò)(Compressed Intereaction Network,CIN)的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。網(wǎng)絡(luò)中的第l層隱藏層計(jì)算過程如下式所示:

圖3 壓縮交互網(wǎng)絡(luò)架構(gòu)圖

1.3 二階特征交互層

二階特征交互層將n個(gè)域中的向量?jī)蓛蓪?duì)位相乘,得到n×(n-1)/2 個(gè)向量,將這些向量相加得到一個(gè)低維的向量,這部分無任何參數(shù)需要學(xué)習(xí)。圖4為一個(gè)3 維的向量二階交互過程,嵌入層的輸出向量在進(jìn)入DNN 之前,先進(jìn)入二階特征交互模塊進(jìn)行處理,將嵌入向量進(jìn)行兩兩交叉運(yùn)算,然后將所有向量通過一個(gè)求和池化進(jìn)行對(duì)位元素求和,即:

圖4 二階特征交互圖

式中:vi和vj分別代表第i個(gè)和第j個(gè)向量的權(quán)重;?表示兩個(gè)向量的元素積,即(ei?ej)k=eikejk,可以看出輸出的是一個(gè)k維向量。數(shù)據(jù)在輸入到全連接層之前進(jìn)行降維,降低了DNN 部分的學(xué)習(xí)難度,同時(shí)提高模型的訓(xùn)練速度。

1.4 全連接層

模型中的DNN部分是將二階特征交互層的輸出向量作為輸入,經(jīng)過多層全連接神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)高階的特征交互。其前向過程如下式所示:

式中:l是隱藏層的編號(hào);σ為非線性激活函是第l層隱藏層的輸出向量。

1.5 預(yù)測(cè)層

在預(yù)測(cè)層將邏輯回歸、壓縮交互層和全連接神經(jīng)網(wǎng)絡(luò)集成到一個(gè)框架,輸出方程如下式所示:

式中:σ是Sigmoid 函數(shù);x代表沒有經(jīng)過特征嵌入層處理的原始特征值;ydnn、ycin分別是全連接神經(jīng)網(wǎng)絡(luò)和壓縮交互網(wǎng)絡(luò)的輸出值;Wlinear、Wdnn和Wcin分別是線性回歸、全連接神經(jīng)網(wǎng)絡(luò)和壓縮交互網(wǎng)絡(luò)的參數(shù)模型;bdnn和b分別是全連接層和預(yù)測(cè)層的偏置參數(shù)。

2 預(yù)處理和防止過擬合方法

2.1 獨(dú)熱編碼映射

在輸入的原始數(shù)據(jù)中通常會(huì)有多種分類特征,這些特征的特點(diǎn)是離散化且無序,在點(diǎn)擊率預(yù)測(cè)中進(jìn)行特征相似度計(jì)算是非常有必要的,所以對(duì)這些特征進(jìn)行獨(dú)熱(One-hot)編碼,但是有的類別數(shù)量較多,獨(dú)熱編碼后會(huì)非常稀疏,造成維度爆炸的現(xiàn)象增加計(jì)算難度,因此,有學(xué)者在獨(dú)熱編碼過程中引入了一個(gè)最大支持維度參數(shù)M[14],例如,某個(gè)哈希類型的數(shù)據(jù)與頻數(shù)的字典映射關(guān)系,

式中:xi是第i個(gè)不同的哈希值;Ni為哈希值對(duì)應(yīng)的頻數(shù);K是哈希值的總數(shù)。如果K≤M,那么只需將xi對(duì)應(yīng)的索引在獨(dú)熱編碼中取值為1;如果K>M,則需要對(duì)頻數(shù)Ni進(jìn)行二次編碼,創(chuàng)建一個(gè)新的映射表,直到維度小于M。

2.2 早停法

深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中很容易出現(xiàn)過擬合現(xiàn)象。為了讓模型的泛化能力達(dá)到最優(yōu),防止訓(xùn)練過程中出現(xiàn)過擬合,本文在訓(xùn)練過程中引入了早停法[15]。

如圖5 所示,訓(xùn)練集誤差和測(cè)試集誤差在某一時(shí)刻趨勢(shì)發(fā)生了變化,訓(xùn)練集誤差還在下降,而測(cè)試集誤差開始上升,當(dāng)模型在測(cè)試集上的效果開始變差時(shí)停止訓(xùn)練,就能避免繼續(xù)訓(xùn)練導(dǎo)致的過擬合問題。

圖5 理想狀態(tài)下訓(xùn)練集和測(cè)試集誤差

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)中采用TITAN Xp×2 進(jìn)行運(yùn)算加速,操作系統(tǒng)為64 位Ubuntu16.04,基于python3.6.7 的深度學(xué)習(xí)框架Tensorflow1.14.0 完成程序編程,基礎(chǔ)學(xué)習(xí)率為0.001,優(yōu)化方法為Adam,嵌入維度為10,批量大小為256。對(duì)于DNN,DCN,Wide&Deep,DeepFM,xDeepFM以及mDeepFM 用系數(shù)為0.000 1的L2 正則去約束模型,并選擇文獻(xiàn)[12]中最優(yōu)的結(jié)構(gòu)和參數(shù)設(shè)定。訓(xùn)練epoch 的選擇采用了早停法,自動(dòng)選擇最佳迭代次數(shù)。

3.2 實(shí)驗(yàn)數(shù)據(jù)集

本文在Criteo和Avazu兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行測(cè)試。其中,Criteo 數(shù)據(jù)集是Criteo 公司提供的關(guān)于用戶-廣告的歷史點(diǎn)擊行為的真實(shí)數(shù)據(jù)集,該數(shù)據(jù)集中包括了4 500 萬用戶點(diǎn)擊事件記錄,有13 個(gè)連續(xù)特征和26 個(gè)分類特征;Avazu 數(shù)據(jù)集是Avazu 公司提供的關(guān)于用戶-廣告的歷史點(diǎn)擊行為的真實(shí)數(shù)據(jù)集,該數(shù)據(jù)集包括了6 000 萬用戶點(diǎn)擊事件記錄,有8 個(gè)連續(xù)特征和14 個(gè)分類特征,兩個(gè)數(shù)據(jù)集都根據(jù)9∶1的比例劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。

3.3 評(píng)價(jià)指標(biāo)

本文使用二分類問題中最流行的兩種評(píng)價(jià)指標(biāo):邏輯回歸損失(Logloss)和ROC 特征曲線下的面積(AUC),值得注意的是AUC 即使提升0.001,對(duì)CTR預(yù)測(cè)任務(wù)都有重要意義,點(diǎn)擊率的提升能直接影響業(yè)務(wù)收益。

Logloss針對(duì)的是單個(gè)樣本的預(yù)測(cè)值,計(jì)算結(jié)果為預(yù)測(cè)概率和真實(shí)值之間的二元交叉熵,其能夠體現(xiàn)出預(yù)測(cè)值與真實(shí)值之間的差距。Logloss定義為

式中:N是總體的樣本數(shù)量;y(i)和分別為測(cè)試集上第i個(gè)樣本的真實(shí)標(biāo)簽和模型預(yù)測(cè)為正樣本的概率。

隨機(jī)抽取一對(duì)樣本,包含一個(gè)正樣本一個(gè)負(fù)樣本,模型把正樣本排到負(fù)樣本上面的概率即為AUC。它能體現(xiàn)出樣本間的相對(duì)關(guān)系,不會(huì)被具體的概率值變化擾動(dòng)。AUC的定義如下:

式中:M為正樣本個(gè)數(shù);N為負(fù)樣本個(gè)數(shù);ranki表示每個(gè)樣本為正樣本概率的大小排序。

3.4 實(shí)驗(yàn)結(jié)果與分析

(1)二階特征交互層有效性驗(yàn)證。為了驗(yàn)證二階特征交互層的有效性,將mDeepFM模型去掉線性回歸和壓縮交互網(wǎng)絡(luò),只保留二階特征交互層和DNN退化為Bi+DNN結(jié)構(gòu),并和FM與DNN進(jìn)行對(duì)比。表1 分別展示了3 個(gè)不同模型在Criteo 和Avauz數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中二階特征交互層加全連接神經(jīng)網(wǎng)絡(luò)的效果在兩項(xiàng)指標(biāo)上都達(dá)到最優(yōu),說明這種結(jié)構(gòu)在特征交互中是非常有效的。由于FM只考慮二階特征的交互,DNN只進(jìn)行了高階特征交互,而Bi +DNN 的結(jié)構(gòu)則同時(shí)兼顧了低階和高階特征信息的融合,因此在包含大量稀疏和稠密特征的真實(shí)數(shù)據(jù)集上表現(xiàn)最好。而FM的效果最差,則說明了真實(shí)數(shù)據(jù)集中只進(jìn)行二階特征交互是不夠的,有必要進(jìn)行高階特征交互。DNN的效果雖然有所提升,但同時(shí)忽略了特征的低階信息,所以效果不如同時(shí)融合多層次特征信息的Bi +DNN結(jié)構(gòu)。綜上實(shí)驗(yàn)結(jié)果表明,在真實(shí)數(shù)據(jù)上進(jìn)行多層次的特征交互非常必要。

表1 二階特征交互層有效性驗(yàn)證實(shí)驗(yàn)結(jié)果

(2)DNN 層數(shù)對(duì)模型影響測(cè)試。對(duì)xDeepFM 和mDeepFM的DNN 部分選擇不同層數(shù)做對(duì)比實(shí)驗(yàn),驗(yàn)證更深層次的隱式特征提取能否進(jìn)一步提高性能。本文分別對(duì)兩個(gè)模型的DNN部分選擇1 層、2 層和3 層進(jìn)行對(duì)比,xDeepFM-和mDeepFM-i 分別表示模型中有i層全連接層。結(jié)果如圖6 所示,DNN 的全連接層越多,效果越差;當(dāng)DNN為1 層時(shí),兩個(gè)模型的效果都達(dá)到最優(yōu)。同時(shí)結(jié)果顯示,當(dāng)DNN 層數(shù)相同時(shí),mDeepFM模型效果仍然優(yōu)于xDeepFM。根據(jù)本實(shí)驗(yàn)的結(jié)果可知,更深的全連接層不能提高性能,反而會(huì)使性能降低,在異構(gòu)組合模型中二階特征交互層和1 層全連接層結(jié)合的效果優(yōu)于兩層全連接層。由于模型采用的是線性回歸、壓縮交互網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)3部分組成,壓縮交互網(wǎng)絡(luò)已經(jīng)具備了高階特征交互的能力,如果DNN 部分使用更多的全連接層,會(huì)導(dǎo)致系統(tǒng)過擬合,從而導(dǎo)致性能下降。因此,要根據(jù)不同的場(chǎng)景選擇合適的全連接層。

圖6 不同DNN層數(shù)的性能對(duì)比

(3)本模型與其他主流模型性能對(duì)比評(píng)測(cè)。將mDeepFM模型與其他幾種主流模型在Criteo 和Avauz數(shù)據(jù)集上進(jìn)行比較,結(jié)果如表2 所示。可見,LR 模型效果最差,這說明如果僅僅使用最簡(jiǎn)單的記憶模型會(huì)受到數(shù)據(jù)稀疏性的影響,缺乏泛化能力,只能學(xué)習(xí)到數(shù)據(jù)集中存在的特征,無法進(jìn)行特征組合學(xué)習(xí)高階特征,其他的模型則能夠進(jìn)行特征交互具有一定的泛化能力。

同時(shí)從表2 可以看出,xDeepFM 模型的效果比其他主流的點(diǎn)擊率預(yù)測(cè)模型更優(yōu),本文提出的模型效果相比xDeepFM模型又有進(jìn)一步的提升:在Criteo 數(shù)據(jù)集上Logloss 達(dá)到了0.472 7,AUC 達(dá)到了0.775 8;在Avauz數(shù)據(jù)集上Logloss 達(dá)到了0.384 5,AUC 達(dá)到了0.764 1,和其他模型相比兩項(xiàng)指標(biāo)均達(dá)到了最優(yōu)。實(shí)驗(yàn)結(jié)果表明,mDeepFM能夠有效完成在真實(shí)數(shù)據(jù)集上的點(diǎn)擊率預(yù)測(cè)任務(wù),異構(gòu)組合模型的點(diǎn)擊率預(yù)測(cè)效果優(yōu)于單一結(jié)構(gòu)模型,多層次的特征交互對(duì)特征信息的利用更加有效。

表2 mDeepFM與其他模型對(duì)比

4 結(jié)語

本文提出一種基于多層次特征交互的點(diǎn)擊率預(yù)測(cè)模型,結(jié)合了高階特征的隱式和顯式兩種學(xué)習(xí)方法,在特征嵌入層和全連接神經(jīng)網(wǎng)絡(luò)之間加入二階特征交互層,對(duì)低階和高階特征的線性和非線性組合進(jìn)一步融合,可以讓神經(jīng)網(wǎng)絡(luò)模型在低層次上學(xué)到更豐富的特征信息,在稀疏數(shù)據(jù)集和稠密數(shù)據(jù)集上都能對(duì)特征進(jìn)行有效的自動(dòng)組合,增強(qiáng)了模型的特征組合能力。同時(shí)為了避免訓(xùn)練過程中出現(xiàn)過擬合引入了早停法,并在特征預(yù)處理過程中引入最大支持的維度參數(shù),避免稀疏特征在獨(dú)熱編碼時(shí)發(fā)生維度爆炸現(xiàn)象。通過這些改進(jìn)模型可以學(xué)到信息更加豐富的特征組合,并提高點(diǎn)擊率預(yù)測(cè)的性能。在兩個(gè)真實(shí)數(shù)據(jù)集Criteo 和Avazu上進(jìn)行驗(yàn)證,結(jié)果表明,本文提出的模型在真實(shí)數(shù)據(jù)集上的點(diǎn)擊率預(yù)測(cè)任務(wù)中非常有效,其性能均優(yōu)于xDeepFM和其他幾個(gè)主流特征交互模型。

猜你喜歡
集上二階高階
實(shí)數(shù)集到時(shí)標(biāo)上的概念推廣的若干原則
GCD封閉集上的冪矩陣行列式間的整除性
二階整線性遞歸數(shù)列的性質(zhì)及應(yīng)用
單位球上全純函數(shù)的高階Schwarz-Pick估計(jì)
滾動(dòng)軸承壽命高階計(jì)算與應(yīng)用
二階線性微分方程的解法
一類二階中立隨機(jī)偏微分方程的吸引集和擬不變集
基于高階奇異值分解的LPV魯棒控制器設(shè)計(jì)
師如明燈,清涼溫潤(rùn)
非線性m點(diǎn)邊值問題的多重正解
罗定市| 桦南县| 共和县| 长子县| 盱眙县| 阿巴嘎旗| 县级市| 武夷山市| 满洲里市| 巴塘县| 中西区| 诏安县| 济南市| 丰都县| 乌鲁木齐市| 栾川县| 惠安县| 嘉善县| 乐亭县| 来安县| 大连市| 贡山| 平远县| 福鼎市| 奎屯市| 治多县| 安远县| 山丹县| 独山县| 富顺县| 金秀| 年辖:市辖区| 洛阳市| 宜兰县| 葫芦岛市| 宜阳县| 岳阳县| 大悟县| 丰城市| 兴和县| 黔南|