国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

推薦系統(tǒng)點擊率預(yù)測模型

2022-09-03 05:06露,王
遼寧科技大學(xué)學(xué)報 2022年2期
關(guān)鍵詞:點擊率對數(shù)高階

孟 露,王 莉

(遼寧科技大學(xué) 計算機與軟件工程學(xué)院,遼寧 鞍山 114051)

隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)資源呈指數(shù)型增長,信息過載現(xiàn)象日益嚴重,如何高效獲取符合需求的資源成為困擾人們的問題之一[1]。推薦系統(tǒng)能夠?qū)A啃畔⑦M行有效過濾與篩選,為用戶推薦符合需求的資源,已成為人們?nèi)粘I钪惺褂妙l率極高的應(yīng)用[2],廣泛應(yīng)用于電子商務(wù)、線上教育、新聞等個性化信息服務(wù)平臺中[3]。推薦系統(tǒng)中點擊率預(yù)測的效果會直接影響整體性能,是推薦系統(tǒng)最重要的環(huán)節(jié)。

深度神經(jīng)網(wǎng)絡(luò)在點擊率預(yù)測方面取得很大進展。HFM(Holographic factorization machine)模型[4]使用循環(huán)卷積運算代替因式分解機的內(nèi)積運算,對特征交互建模,但該模型與經(jīng)典模型相對比,結(jié)構(gòu)差別并不明顯。AutoInt(Automatic feature interaction)模型[5]通過自注意力機制構(gòu)造高階交互特征,有效提升點擊率預(yù)測的準確度,但注意力網(wǎng)絡(luò)的訓(xùn)練過程較為復(fù)雜。FiGNN(Feature interactions graph neural network)模型[6]利用圖神經(jīng)網(wǎng)絡(luò)的消息傳遞機制代替向量拼接,考慮特征之間的結(jié)構(gòu),便于學(xué)習(xí)高階交互特征,但該模型參數(shù)量較大。ONN(Operation-aware neural networks)模型[7]對相同特征在交互過程中執(zhí)行不同操作時的向量進行區(qū)分,但生成的嵌入向量維度較大。InterHAt(Interpretable hierarchical attention)模型[8]使用分層注意力網(wǎng)絡(luò)提取重要的高階交互特征,并引入自注意力機制做多重意義的交互,對預(yù)測結(jié)果提供解釋,但計算復(fù)雜度較高。本文提出一種基于改進DeepFM(Deep factorization machine)的點擊率預(yù)測LCFFM(Logarithmic conversion field-aware factorization machine)模型,能夠充分利用特征信息,進行深層次特征交互,期望提升點擊率預(yù)測的準確度。

1 特征交互及注意力機制

1.1 k階特征交互

對于輸入特征向量x∈Rn,k階特征交互定義為g(xi,…,xp)。其中g(shù)(·)是特征組合函數(shù),可以為內(nèi)積、外積或哈達瑪積等運算。當p≤2時,稱為低階特征交互,當p>2時,稱為高階特征交互。特征經(jīng)過組合后會提升與標簽的相關(guān)性,如少兒與玩具、年輕人與娛樂設(shè)備、老年人與保健產(chǎn)品、健身教練與運動器材等,均為有相關(guān)聯(lián)性的標簽信息。由此可見,進行特征交互是十分必要的。

1.2 注意力機制

神經(jīng)網(wǎng)絡(luò)的注意力機制是將更多的資源分配給需要重點處理的目標,進而獲取更多有價值的信息,并且極大程度上提高網(wǎng)絡(luò)的訓(xùn)練效率。在推薦系統(tǒng)中利用點擊率預(yù)測模型安排各項任務(wù)的優(yōu)先級至關(guān)重要,引入注意力機制能夠在大量特征中聚焦到對當前任務(wù)影響程度高的幾項,降低或過濾冗余信息所帶來的負面影響,進而提高模型的運算效率與準確性。

注意力機制的本質(zhì)是尋址,實現(xiàn)過程分為信息輸入、計算注意力分布和加權(quán)平均三個步驟[9]。第一階段將給定任務(wù)的查詢向量輸入到模型中;第二階段通過計算向量點積表示兩個向量之間的相關(guān)度,采用softmax函數(shù)計算注意力權(quán)重;第三階段計算輸入信息的加權(quán)平均,用注意力分布解釋信息間的相關(guān)程度。

2 LCFFM模型結(jié)構(gòu)

LCFFM模型由特征輸入、特征嵌入、低階特征交互、高階特征交互和點擊率預(yù)測五部分組成,具體結(jié)構(gòu)如圖1所示。

圖1 LCFFM模型結(jié)構(gòu)Fig.1 Structure of LCFFMmodel

2.1 特征輸入

在點擊率預(yù)測問題中,輸入數(shù)據(jù)由稀疏的數(shù)值特征和分類特征組成,將所有輸入數(shù)據(jù)串聯(lián)起來,表示為

式中:m是特征的總數(shù)量;xi是第i個特征的輸入。

2.2 特征嵌入

由于輸入的特征采用One-hot編碼,使樣本空間擴大數(shù)倍,而神經(jīng)網(wǎng)絡(luò)對于高維稀疏數(shù)據(jù)訓(xùn)練效率極差,因此需要將輸入數(shù)據(jù)進行稠密化處理

式中:ei是嵌入向量;Vembed∈Rdi×de為對應(yīng)的嵌入矩陣,di和de分別表示第i個特征xi的大小和其對應(yīng)嵌入向量的大小。

稠密化處理本質(zhì)上屬于一種映射表查詢機制,利用拓撲不變性原理,將離散數(shù)據(jù)所屬的高維度特征空間映射到低維稠密特征空間中,保留原始數(shù)據(jù)的信息并具有可解釋性。其主要目的是把網(wǎng)絡(luò)中的每個節(jié)點映射到一個固定維度的空間中,同時這些向量還能反映網(wǎng)絡(luò)中的關(guān)系。

采用SENet(Squeeze-and-excitation networks)注意力機制學(xué)習(xí)特征重要程度的權(quán)值,學(xué)習(xí)過程主要分三個步驟。

首先是壓縮階段,對每個特征嵌入向量進行數(shù)據(jù)壓縮,重新構(gòu)建特征的信息組合,從而得到一個新的全局特征統(tǒng)計向量Z={z1,z2,…,zi},其中

式中:zi表示第i個特征的全局信息;ei為嵌入向量;k為組合中特征個數(shù)。

其次是激勵階段,為每個特征學(xué)習(xí)一個相對應(yīng)的權(quán)重向量A={a1,a2,…,am},用來表示特征重要程度。為了降低模型復(fù)雜度并提升泛化能力,這里采用包含兩個全連接層的沙漏型結(jié)構(gòu),第一層的作用是降低緯度,第二層的作用是恢復(fù)原始維度。其中,注意力權(quán)重的計算式

式中:σ為非線性激活函數(shù);w1和w2為兩個要學(xué)習(xí)的參數(shù)。

最后是重構(gòu)階段,把學(xué)習(xí)到的m個注意力權(quán)重向量與原始特征嵌入向量進行逐元素相乘,輸

新的向量與原始輸入向量具有相同的維度,但其包含特征重要性權(quán)重,對高價值特征進行加強,提升學(xué)習(xí)效果,并且抑制重要性低的特征和噪聲數(shù)據(jù),更有利于模型對不同特征進行區(qū)分。

2.3 低階特征交互

利用FFM(Field-aware factorization machine)學(xué)習(xí)特征的一階項和二階交叉項,引進特征域感知概念,使模型的表達能力更強。計算式

式中:x為特征向量;w為權(quán)重向量。

FFM與FM的區(qū)別在于隱向量由原來的wj1變成了wj1,f2,這意味著每個特征對應(yīng)的隱向量不是一個,而是一組。當特征xj1與特征xj2進行交叉時,xj1會從xj1這一組的隱向量中挑選出與xj2的域f2對應(yīng)的隱向量wj1,f2進行交叉。同理,xj2也會用與xj1的域f1對應(yīng)的隱性量進行交叉。

2.4 高階特征交互

在高階特征交互階段,首先利用對數(shù)轉(zhuǎn)換結(jié)構(gòu)學(xué)習(xí)交叉特征中每個特征的冪(即階數(shù)),然后堆疊多個隱藏層捕獲信息。

對數(shù)轉(zhuǎn)換結(jié)構(gòu)將輸入轉(zhuǎn)換為對數(shù)空間,將乘法轉(zhuǎn)換為加法,將除法轉(zhuǎn)換為減法,將冪運算轉(zhuǎn)換為常數(shù)乘法。這種轉(zhuǎn)換方法能夠在不改變數(shù)據(jù)性質(zhì)和關(guān)系的前提下縮小變量的尺度,使數(shù)據(jù)更加平穩(wěn),方便計算,并彌補了前饋神經(jīng)網(wǎng)絡(luò)表達能力不足的缺點。該結(jié)構(gòu)由多個對數(shù)神經(jīng)元組成,其中每個對數(shù)神經(jīng)元表示為

通過多個對數(shù)神經(jīng)元學(xué)習(xí)交互特征中每個特征的冪,進而確定特征交互的階數(shù)。第j個對數(shù)神經(jīng)元的輸出可表示為

式中:wij表示第j個對數(shù)神經(jīng)元輸入的第i類特征嵌入向量的權(quán)重;exp()和ln()表示相應(yīng)向量的求導(dǎo)和取對數(shù)運算。

由于取對數(shù)操作的取值范圍是(0,+∞),因此需要在輸入時加上一個極小的正數(shù),以保證各項輸入均為正值。

在對數(shù)轉(zhuǎn)換結(jié)構(gòu)后堆疊了多個隱藏層。首先將所有的交互特征連接起來作為前饋神經(jīng)網(wǎng)絡(luò)的輸入

其中N是前一層中對數(shù)神經(jīng)元的數(shù)量。將z0輸入到L個隱藏層中

式中:WL表示第L層的權(quán)重矩陣;bL表示偏置向量;σ為激活函數(shù),用于捕捉非線性特征交互。

2.5 點擊率預(yù)測

LCFFM模型中,低階特征交互與高階特征交互兩部分為并行結(jié)構(gòu),因此先對二者做線性組合,經(jīng)Sigmoid函數(shù)處理,得到點擊預(yù)測結(jié)果

式中:和分別表示低階和高階特征交互模塊的權(quán)重;b表示模型的總體偏差;σ選用Sigmoid激活函數(shù),其輸出結(jié)果在0到1之間,便于點擊率預(yù)測效果的判斷。

3 模擬實驗

3.1 數(shù)據(jù)集及預(yù)處理

實驗采用Avazu廣告數(shù)據(jù)集,由按時間順序排列的廣告點擊數(shù)據(jù)組成,共有4 042萬個樣本。每個樣本有24個變量,均為類別型特征,有廣告、用戶和設(shè)備的屬性。其中l(wèi)abel=1表示該條廣告被用戶點擊,label=0表示該條廣告未被用戶點擊。

Avazu廣告數(shù)據(jù)集包含的數(shù)據(jù)量較大,其中存在較多的噪聲數(shù)據(jù),因此需要對數(shù)據(jù)進行預(yù)處理,使模型可以更好地學(xué)習(xí)特征及特征之間的規(guī)律。采用Min-Max標準化方法將特征數(shù)據(jù)的取值范圍進行縮放,對特征數(shù)值x1,x2,…,xn進行變換,將其映射到[0,1]的范圍中,令yi=[y1,y2,…,yn]∈[0,1],則

這種歸一化操作使特征在一個區(qū)間內(nèi)表達,消除特征之間的量綱影響,同時可以加快模型的收斂速度。

3.2 實驗環(huán)境與評價指標

編程語言為Python,機器內(nèi)存為128G,操作系統(tǒng) 為Ubuntu16.04,處 理 器 為Intel Xeon(R)Bronze3104,顯卡為Nvidia Titan Xp(Pascal),硬盤為512G SSD+4T×2,并且采用PyTorch1.7.1框架。

點擊率預(yù)測為二分類問題,使用AUC(Area under curve)和對數(shù)損失(Logloss)兩個指標對LCFFM模型效果進行評估。

AUC是機器學(xué)習(xí)中廣泛應(yīng)用的評價指標,它用坐標系中ROC(Receiver operating characteristic)曲線與x軸之間的面積作為結(jié)果,對二分類問題的預(yù)測效果進行比較。AUC值通常介于0.5~1之間,其值越大,模型的分類效果越好,預(yù)測越準確。

對數(shù)損失亦稱交叉熵損失,能夠反映預(yù)測結(jié)果的平均偏差,計算式

式中:N為輸入的樣本總數(shù);yi為第i個樣本的真實值;Pi為輸出層計算出的概率。

對數(shù)損失測量每個樣本真實與預(yù)測分數(shù)之間的距離,其值越小,模型的損失越小,預(yù)測的性能越好。

3.3 模型超參數(shù)分析

(1)隱藏層層數(shù)。隱藏層的層數(shù)是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中一個至關(guān)重要的部分。LCFFM模型在訓(xùn)練過程中,將隱藏層層數(shù)設(shè)置為1~5進行實驗,結(jié)果如表1所示。當隱藏層層數(shù)為3時,AUC值最大,Logloss值最小,表明此時模型表現(xiàn)最好。同時說明當深度神經(jīng)網(wǎng)絡(luò)可挖掘到有效信息時,想進一步提升點擊率預(yù)測效果,通過增加網(wǎng)絡(luò)的深度,在訓(xùn)練成本方面可能會消耗過大,而且層數(shù)過多的網(wǎng)絡(luò)很容易出現(xiàn)過擬合現(xiàn)象。

表1 不同隱藏層層數(shù)的效果Tab.1 Effects of different hidden layers

(2)丟棄率設(shè)置。丟棄率(Dropout)是指神經(jīng)元保留在網(wǎng)絡(luò)中的概率,其作為一種正則化技術(shù),可以有效防止或降低過擬合現(xiàn)象。LCFFM模型在訓(xùn)練過程中,將丟棄率設(shè)置為不同的值進行實驗,結(jié)果如表2所示。當丟棄率為0.5時,AUC達到最大值,Logloss達到最小值。這表明在每一輪訓(xùn)練的過程中,隨機地讓一半數(shù)量的神經(jīng)元參與到模型中,會得到較好的預(yù)測效果。

表2 不同丟棄率的效果Tab.2 Effects of different dropout rates

(3)激活函數(shù)。對采用深度學(xué)習(xí)技術(shù)的模型,激活函數(shù)通過加入非線性因素使數(shù)據(jù)線性可分,能夠解決較為復(fù)雜的問題,同時也為神經(jīng)網(wǎng)絡(luò)的反向傳播帶來可能。LCFFM模型在訓(xùn)練過程中,選擇Sigmoid、Tanh與Relu三種常用的激活函數(shù)分別進行實驗,結(jié)果如表3所示。采用激活函數(shù)Relu時,AUC和Logloss指標均達到最佳。與Sigmoid和Tanh相比,Relu不需要鏈式求導(dǎo),也不會發(fā)生梯度飽和,并且其計算復(fù)雜度較低,更適合反向傳播求導(dǎo)。

表3 不同激活函數(shù)的效果Tab.3 Effects of different activation functions

(4)優(yōu)化器。使用優(yōu)化器能夠在一定程度上優(yōu)化模型參數(shù),使預(yù)估值不斷逼近真實值,從而達到最小化損失函數(shù)的目的。LCFFM模型在訓(xùn)練過程 中,選 擇Momentum、RMSProp(Root mean square prop)、SGD(Stochastic gradient descent)與Adam(Adaptive momentum estimation)四種常用的優(yōu)化器分別進行實驗,結(jié)果如表4所示。采用Adam得到的AUC和Logloss值均優(yōu)于其余三個優(yōu)化器,因其在每一次訓(xùn)練過程中,使用的學(xué)習(xí)率都有一定的范圍,有利于模型收斂。

表4 不同優(yōu)化器的效果Tab.4 Effects of different optimizers

3.4 實驗結(jié)果與分析

LCFFM模型最優(yōu)參數(shù)設(shè)置:批量大小設(shè)為4 096,L2正則項參數(shù)設(shè)為0.000 1,學(xué)習(xí)率設(shè)為0.001,激活函數(shù)選擇Relu,優(yōu)化器選擇Adam,隱藏層層數(shù)設(shè)為3,神經(jīng)元丟棄率設(shè)為0.5,隱藏層的神經(jīng)元數(shù)目設(shè)為256,數(shù)據(jù)迭代訓(xùn)練次數(shù)為10。

將LCFFM模型分別與FM、FFM、LR(Logistic regression)、LR+GBDT(Gradient boosting decision tree)四個傳統(tǒng)點擊率預(yù)測模型,以及FNN(Factorization neural network)、PNN(Product-based neural network)、Deep Cross、NFM(Neural factorization machines)、AFM(Attentional factorization machines)、DeepFM、AutoInt(Automatic feature interaction)七個基于深度學(xué)習(xí)的點擊率預(yù)測模型進行對比實驗。結(jié)果如表5所示。表中實驗結(jié)果為5次實驗的均值。

表5 模型效果對比Tab.5 Comparison between results of different models

與四個傳統(tǒng)模型相比,LCFFM模型在Avazu數(shù)據(jù)集上的AUC達到0.785 9,提升了1.08%到3.01%,Logloss達到0.372 8,降低了1.53%到2.4%;與深度學(xué)習(xí)模型相比,LCFFM模型的AUC提升了0.17%~0.97%,Logloss降低了0.11%~1.16%,均得到最優(yōu)效果。在推薦系統(tǒng)的點擊率預(yù)測研究領(lǐng)域,AUC微小的提高通常被認為具有重要意義,因為平臺擁有龐大的用戶群,微小的提升就能帶來收入大幅的增長。

實驗結(jié)果表明,利用注意力機制計算并區(qū)分不同特征對預(yù)測結(jié)果的影響程度,能夠抑制噪聲數(shù)據(jù)。結(jié)合域因式分解機和對數(shù)轉(zhuǎn)換結(jié)構(gòu)對特征組合進行探索,挖掘特征之間的相關(guān)性,能夠強化模型的記憶能力,同時增強其表達能力,從而使點擊率預(yù)測的準確度得到進一步提升。

4 結(jié)論

本文提出LCFFM模型預(yù)測點擊率。首先,在特征嵌入階段加入SENet注意力機制,動態(tài)學(xué)習(xí)不同特征的重要性,抑制低頻或無效特征的影響。其次,利用特征域因式分解機學(xué)習(xí)低階特征交互,同時融合對數(shù)轉(zhuǎn)換結(jié)構(gòu)與前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)高階非線性特征交互,將特征組合中每個特征的冪作為要學(xué)習(xí)的系數(shù),在強化模型泛化能力的同時,增強其表達能力。最后,通過Relu函數(shù)處理,得到點擊率預(yù)測結(jié)果。

對比實驗結(jié)果顯示,本文的LCFFM模型AUC達到0.785 9,Logloss達到0.372 8,均比現(xiàn)階段點擊率預(yù)測模型的效果有所提升。這表明模型通過計算并區(qū)分不同特征對預(yù)測結(jié)果的影響程度,并從多角度進行特征交互,可以有效提升點擊率預(yù)測的準確度,同時有較強的抗噪能力。該模型適用于現(xiàn)實生活的點擊率預(yù)測任務(wù),具有較高的擴展性和實用性。

猜你喜歡
點擊率對數(shù)高階
高階時頻變換理論與應(yīng)用
明晰底數(shù)間的區(qū)別,比較對數(shù)式的大小
比較底數(shù)不同的兩個對數(shù)式大小的方法
高階思維介入的高中英語閱讀教學(xué)
三個高階微分方程的解法研究
高階非線性慣性波模型的精確孤立波和周期波解
基于特征工程的視頻點擊率預(yù)測算法
活用對數(shù)換底公式及推論
神奇的對數(shù)換底公式
《江南STYLE》為何這么火
哈尔滨市| 景德镇市| 衡水市| 西畴县| 贵溪市| 保康县| 汉川市| 平原县| 邯郸县| 沂南县| 西乡县| 池州市| 汉川市| 区。| 鄢陵县| 桓仁| 密山市| 高要市| 革吉县| 个旧市| 丹寨县| 新兴县| 漳浦县| 婺源县| 寻甸| 通海县| 广饶县| 长兴县| 肥乡县| 双峰县| 辽源市| 天水市| 辰溪县| 承德市| 中山市| 林芝县| 永宁县| 泌阳县| 叙永县| 桃江县| 商丘市|