李春秋,卜天然,何 軍
隨著移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,CTR 預(yù)估廣泛應(yīng)用于推薦系統(tǒng)、信息檢索和在線廣告等領(lǐng)域,點(diǎn)擊率預(yù)估在上述領(lǐng)域占有越來(lái)越重要的地位.然而點(diǎn)擊率預(yù)估場(chǎng)景下的數(shù)據(jù)是高維稀疏的,因此,需要找到與點(diǎn)擊率高度相關(guān)的特征,并對(duì)特征進(jìn)行有效組合.隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,因子分解機(jī)(Factorization Machines,F(xiàn)M)[1]利用二階特征組合,計(jì)算任意兩個(gè)特征嵌入向量的內(nèi)積作為特征組合的權(quán)重,由于FM 能夠處理大規(guī)模稀疏特征和復(fù)雜度低的優(yōu)點(diǎn),被廣泛應(yīng)用到工業(yè)界領(lǐng)域并取得良好的效果.Attentional factorization machines(AFM)[2]通過(guò)一個(gè)注意力網(wǎng)絡(luò)學(xué)習(xí)不同特征交互的重要性,但忽略了特征域的交互和不同輸入樣本的區(qū)別.Input?aware Factorization Machines(IFM1)[3]和Dual Input?aware Factor?ization Machine(DIFM)[4]考慮每個(gè)輸入實(shí)例的唯一性,并從bit?wise 和vector?wise 方面為不同輸入實(shí)例中的相同特征學(xué)習(xí)一個(gè)唯一的輸入感知因子,但是沒(méi)有考慮到特征域的交互影響,且忽略了層次化特征的交互對(duì)輸入感知因子的影響.上述方法在一定程度上提高了CTR 模型的預(yù)測(cè)能力,但仍存在明顯的缺點(diǎn),F(xiàn)M 同等對(duì)待所有的特征,對(duì)所有的兩兩特征都做了等權(quán)重的交叉,但會(huì)引入額外的噪聲;給定特征的表示在不同的輸入樣本之間共享會(huì)限制CTR 模型的預(yù)測(cè)能力.
針對(duì)這些問(wèn)題,根據(jù)每個(gè)實(shí)例的唯一性,通過(guò)允許相同的特征在不同的實(shí)例中具有不同的預(yù)測(cè)能力,并且結(jié)合多語(yǔ)義特征域的交互影響,提出了一個(gè)適用于CTR 預(yù)測(cè)任務(wù)的模型——深度協(xié)同感知因子分解機(jī)(Deep Cooperation?aware Factorization Machine,DCFM).首先,考慮了輸入感知和特征域交互感知,在學(xué)習(xí)輸入感知因子相比DIFM 新增了層次化特征域交互的影響,以重新加權(quán)原始特征表示.其次,在學(xué)習(xí)特征域交互感知時(shí),考慮到了特征的多語(yǔ)義特點(diǎn).最后,提出一個(gè)三重輸入感知網(wǎng)絡(luò),同時(shí)對(duì)特征的field?wise、vector?wise、bit?wise 進(jìn)行輸入感知因子的學(xué)習(xí).分析和實(shí)驗(yàn)結(jié)果表明,DCFM 模型有效地提高了點(diǎn)擊率預(yù)估的準(zhǔn)確度.
點(diǎn)擊率預(yù)估是計(jì)算廣告和推薦算法中的一個(gè)關(guān)鍵環(huán)節(jié),在機(jī)器學(xué)習(xí)領(lǐng)域?qū)⑵湟暈橐粋€(gè)二分類(lèi)問(wèn)題,即預(yù)測(cè)用戶(hù)是否會(huì)點(diǎn)擊一個(gè)商品.邏輯回歸模型(Logistic Regression,LR)[5]是點(diǎn)擊率預(yù)估最經(jīng)典的方法,在線預(yù)測(cè)速度快,結(jié)構(gòu)簡(jiǎn)單,可解釋性強(qiáng),然而由于LR 是一個(gè)線性模型,無(wú)法進(jìn)行特征交叉,因此為了提高點(diǎn)擊率預(yù)估的準(zhǔn)確性需要大量的人工特征工程.因子分解機(jī)FM[1]的提出解決了高維稀疏數(shù)據(jù)下的自動(dòng)特征組合問(wèn)題,用低維稠密的向量提高了模型的泛化能力并減少了計(jì)算復(fù)雜度.特征域信息很重要,但FM 沒(méi)有考慮特征域信息,F(xiàn)ield?aware Factorization Machines(FFM)[6]通過(guò)引入特征所屬域的信息來(lái)提高模型準(zhǔn)確度,特征在各自特征域?qū)W習(xí)一個(gè)隱向量,但由于時(shí)間復(fù)雜度高且不能表達(dá)高階信息,導(dǎo)致其并不能廣泛使用.隨著深度學(xué)習(xí)的發(fā)展,其擬合高階特征的能力被研究人員引入點(diǎn)擊率預(yù)估領(lǐng)域.FNN[7]利用FM 預(yù)訓(xùn)練的隱向量輸入神經(jīng)網(wǎng)絡(luò)來(lái)組合高階特征.Product?based Neural Networks(PNN)[8]將輸入特征進(jìn)行內(nèi)積/外積后的向量作為深度神經(jīng)網(wǎng)絡(luò)的輸入,然而上述模型都是對(duì)高階特征建模,忽略了低階特征.Wide&Deep[9]模型結(jié)合了LR 模型和DNN 網(wǎng)絡(luò),同時(shí)對(duì)低階和高階特征進(jìn)行學(xué)習(xí),但依然需要人工特征工程,DeepFM[10]利用DNN 和FM 聯(lián)合訓(xùn)練,實(shí)現(xiàn)了高階特征和低階特征的組合學(xué)習(xí).DCN[11]利用交叉網(wǎng)絡(luò)和DNN 網(wǎng)絡(luò)學(xué)習(xí)特征的關(guān)聯(lián)關(guān)系.但是上述模型沒(méi)有考慮特征域的交互、多語(yǔ)義特性和不同樣本對(duì)特征的影響.Interaction?aware Factorization Machines(IFM2)[12]首次將特征域信息融入到特征交互學(xué)習(xí)中,研究了特征在不同特征域交互時(shí)的不同作用.DIFM[4]研究了同一個(gè)特征在不同樣本中的作用,同時(shí)考慮了bit?wise 和vector?wise 兩個(gè)層面信息.
受到AFM[2]、DIFM[4]、IFM2[12]等研究成果的啟發(fā),提出深度協(xié)同感知因子分解機(jī)(DCFM),DCFM 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,包含以下5 個(gè)模塊:①稀疏輸入和嵌入層,其中嵌入層包含特征嵌入層和多域嵌入層;②輸入感知網(wǎng)絡(luò),包含三重因子估計(jì)網(wǎng)絡(luò)層、組合層和特征表示調(diào)整層;③多語(yǔ)義交互網(wǎng),包含兩兩特征域之間交互、門(mén)網(wǎng)絡(luò)和矩陣映射;④協(xié)同感知融合層;⑤輸出層.
圖1 DCFM 網(wǎng)絡(luò)結(jié)構(gòu)圖
稀疏輸入層和嵌入層被廣泛應(yīng)用在深度CTR 預(yù)估模型中,例如AFM[2]和DeepFM[9].稀疏輸入層對(duì)原始輸入特征采用稀疏表示.嵌入層能夠?qū)⑾∈杼卣髑度氲揭粋€(gè)低維、稠密的實(shí)值向量中.DCFM 使用兩種維度的嵌入矩陣V和Ui,i=1,2,…,K,分別作為特征嵌入和多域嵌入的查詢(xún).
2.1.1 稀疏輸入
假設(shè)每個(gè)輸入實(shí)例x={x1,x2,…,xh},包含h個(gè)特征和一個(gè)目標(biāo)y,xi是第i個(gè)特征值.定義非零特征的成對(duì)枚舉:
2.1.2 特征嵌入
特征是可以分層的,例如“商品標(biāo)簽”和“商品id”都屬于更加層次化的“商品域”.在實(shí)踐中,根據(jù)特征描述的商品屬性和用戶(hù)/上下文屬性進(jìn)行分類(lèi)[13](即如圖1 所示的用戶(hù)特征、商品特征和上下文特征).假設(shè)有h個(gè)特征,劃分為M個(gè)層次化特征域,F(xiàn)(h)表示特征h屬于的層次化特征域.特征嵌入輸出是一個(gè)連接的特征嵌入向量fm是第m個(gè)層次化特征域連接的特征嵌入向量,fm=concat(vn|F(n)=m),vi∈Rk第i個(gè) 特征嵌入向量,k是嵌入維度.接下來(lái),將sum?pooling操作應(yīng)用于fm,計(jì)算層次化特征域向量表示:最后連接所有的層次化特征域向量表示得到
2.1.3 多域嵌入
根據(jù)IFM[12]文獻(xiàn)的研究,域嵌入從field 方面學(xué)習(xí)特征域交互,但忽略了特征多語(yǔ)義,因?yàn)椴煌奶卣鹘换タ赡軙?huì)對(duì)點(diǎn)擊有相反的效果,出現(xiàn)問(wèn)題的原因是不同語(yǔ)義子空間特征交互多語(yǔ)義造成的,所以單域不能充分學(xué)習(xí)到重要特征域交互.為了解決上述問(wèn)題,引入多域嵌入.多域嵌入是對(duì)同一個(gè)特征field 有多個(gè)嵌入矩陣,分別表示不同的特征語(yǔ)義空間.多域嵌入的輸出是K個(gè)連接的特征嵌入向量表示第j個(gè)語(yǔ)義空間的第i個(gè)特征的嵌入向量,kf是嵌入維度.
2.2.1 三重因子估計(jì)網(wǎng)絡(luò)層
三重輸入感知網(wǎng)絡(luò)層包含Cross 網(wǎng)絡(luò)和MF 網(wǎng)絡(luò)兩部分.Cross 網(wǎng)絡(luò)從vector?wise 和bit?wise 角度進(jìn)行特征交互.MF 網(wǎng)絡(luò)學(xué)習(xí)高層特征域間的特征交互,稱(chēng)為hierarchical field?wise 特征交互.
Cross 網(wǎng) 絡(luò):受 到DCN?V2[14]中Cross 網(wǎng) 絡(luò)在建模特征交互方面的成功應(yīng)用,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示.在文中使用該特征交互網(wǎng)絡(luò)在vector?wise 和bit?wise 角度學(xué)習(xí)輸入感知因子.Cross 網(wǎng)絡(luò)的核心是cross 層,它可以顯示建模特征交互.下面公式展示了第l+1 層cross 層,
圖2 Cross 網(wǎng)絡(luò)
其中:☉表示按元素相乘;x0∈Rd是包含原始一階特征的基礎(chǔ)層,通常設(shè)置為嵌入層Ev;xl,xl+1∈Rd,分別表示第(l+1)Cross 層的輸入和輸出.對(duì)于一個(gè)l層的Cross 網(wǎng)絡(luò),多項(xiàng)式的最高階數(shù)是l+1,該網(wǎng)絡(luò)包含的所有特征交互都能達(dá)到最高階.從文獻(xiàn)[14]可知,Cross 網(wǎng)絡(luò)同時(shí)從bit?wise 和vector?wise 角度進(jìn)行特征交互.相比DIFM[4]中分別使用多頭注意力機(jī)制和MLP 進(jìn)行vector?wise 和bit?wise 的特征交互,Cross 網(wǎng)絡(luò)使用一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)且降低了計(jì)算量和參數(shù).為了保留原始嵌入向量的一些信息,在Cross 網(wǎng)絡(luò)之后,利用殘差網(wǎng)絡(luò)將原始特征嵌入向量添加到Cross 網(wǎng)絡(luò)的輸出中:
MF 網(wǎng)絡(luò):該網(wǎng)絡(luò)主要學(xué)習(xí)兩兩層次化特征域間的特征交互,如圖3 所示.所有層次化域特征向量對(duì)進(jìn)行元素積運(yùn)算:
圖3 MF 網(wǎng)絡(luò)
其中:r[i][j]∈R是一個(gè)權(quán)重,用來(lái)學(xué)習(xí)層次特征域i和j之間的相互作用強(qiáng)度,☉表示兩個(gè)向量的元素乘積,Ofield∈Rk.
在實(shí)際的工業(yè)系統(tǒng)中,特征字段的數(shù)量通常為10 個(gè)或更多,但是層次化特征域的數(shù)量通常小于4 個(gè),減少了計(jì)算量和過(guò)擬合的風(fēng)險(xiǎn).這種分層字段方式是受YouTube 啟發(fā)的,根據(jù)它們描述的是商品的屬性和用戶(hù)/上下文的屬性[13].如圖3 所示,有3 個(gè)MF 分別為每一對(duì)層次用戶(hù)、商品和上下文信息學(xué)習(xí)特征交互,稱(chēng)為field?wise 角度特征交互.
2.2.2 組合層
基于Ovec_bit和Ofield的輸入感知因子計(jì)算如下:
其中:Pvec_bit∈Rd×h和Pfield∈Rk×h表示權(quán)重矩陣,是Ovec_bit和Ofield映射到j(luò)維的特征向量,將兩個(gè)中間結(jié)果結(jié)合起來(lái):
其中:mx∈Rh是對(duì)應(yīng)的輸入感知因子,考慮bit?wise、vector?wise 和field?wise 三個(gè)層次的特征交互.
2.2.3 特征表示調(diào)整層
當(dāng)獲得三重因子估計(jì)層的輸出mx,mx用來(lái)改善特征權(quán)重wi和嵌入向量vi.該層的輸入x是給定的wi、vi和上一層的輸入感知因子mxi.特征表示調(diào)整層的定義如下:
其中:mxi是mx中第i個(gè)元素,wxi和vxi表示對(duì)于特定輸入x提煉后的特征表示,該表示更準(zhǔn)確,提供信息更有價(jià)值.
2.3.1 Pair-wise 交互層和門(mén)網(wǎng)絡(luò)
交互層枚舉交互潛在向量,每一個(gè)向量都是嵌入層中兩個(gè)嵌入向量的元素乘積.受文獻(xiàn)[15]的啟發(fā),采用混合專(zhuān)家(mix?of?Experts,MoE)的觀點(diǎn)[16],基于MoE 的模型由兩個(gè)部分組成:專(zhuān)家(通常是一個(gè)小網(wǎng)絡(luò))和門(mén)控(輸入函數(shù)).在實(shí)際應(yīng)用中,不依賴(lài)單個(gè)語(yǔ)義的特征域交互,而是在多個(gè)語(yǔ)義的特征域空間交互,然后利用輸入的多域空間嵌入學(xué)習(xí)一個(gè)門(mén)函數(shù)自動(dòng)組合多語(yǔ)義的域交互.設(shè)置域的pair?wise 交互為PI:
其中:Iij∈,K表示語(yǔ)義空間的數(shù)量,Gm(·)是一個(gè)門(mén)網(wǎng)絡(luò),輸入是多域嵌入的池化后結(jié)果Eu∈,輸出是一個(gè)softmax 函數(shù),動(dòng)態(tài)決定不同語(yǔ)義特征域交互的重要性.
2.3.2 映射矩陣
嵌入矩陣V和U具有不同的嵌入維度,一般情況下:
因?yàn)榫S度不匹配,所以通過(guò)矩陣映射把維度kf映射到k;其中,D∈,F(xiàn)i,j∈Rk表 示特征域i和j交互的結(jié)果,考慮了不同的語(yǔ)義空間.
2.4.1 Attention Net
該層融合了2.2 和2.3 提出的輸入感知和多語(yǔ)義交互感知的結(jié)果,并考慮了特征交互的重要性.受到文獻(xiàn)AFM[2]的啟發(fā),當(dāng)特征嵌入vi和vj交互時(shí),因不同的特征交互重要性不一樣,且存在部分噪聲信息,所以利用一個(gè)注意力網(wǎng)絡(luò)學(xué)習(xí)該特征交互的重要性,記為T(mén)i,j,計(jì)算如下:
其中:a'ij是注意力網(wǎng)絡(luò)的隱藏神經(jīng)元數(shù)量和τ表示用來(lái)控制預(yù)測(cè)的隨機(jī)性的超參數(shù),在應(yīng)用softmax 之前,通過(guò)縮放logit[17],控制特征方面的有效性強(qiáng)度.對(duì)于(τ→∞),所有交互的重要性幾乎相同,對(duì)最終預(yù)測(cè)的影響有限;對(duì)于(τ→0)時(shí),期望回報(bào)最高的交互向量的概率趨于1,其他交互忽略.該模塊如圖1 的Attention Net.
2.4.2 注意力網(wǎng)絡(luò)(Attention)
注意力網(wǎng)絡(luò)本質(zhì)上是一種分配機(jī)制,其主旨是習(xí)得對(duì)象相對(duì)重要的特征,并重新分配權(quán)重.本文通過(guò)注意力網(wǎng)絡(luò)挖掘數(shù)據(jù)之間的關(guān)聯(lián)性,進(jìn)而突出其中的重要特征,并為重要特征賦予更大的權(quán)重.
2.4.3 協(xié)同感知因子分解機(jī)(CFM)
綜上所述,給出CFM 公式:
在U和D上應(yīng)用L2 正則化,F(xiàn)控制正則化強(qiáng) 度,并 在pair?wise 交互層上使用dropout[18]防止過(guò)擬合.CFM 綜合考慮了三重交互的輸入感知、多語(yǔ)義特征域交互和特征交互重要性.
現(xiàn)在很多工作思路是共同訓(xùn)練兩個(gè)并行網(wǎng)絡(luò),靈感來(lái)自于wide&deep 模型[10].受到該思路的啟發(fā),提出了CFM 和MLP 并行訓(xùn)練的版本,稱(chēng)為深度協(xié)同感知因子分解機(jī)(DCFM).
2.5.1 多層感知機(jī)
使用一個(gè)多層感知機(jī)(MLP)網(wǎng)絡(luò)捕獲非線性的、高階的特征交互.輸入是所有字段嵌入向量的拼接,即Ev.在輸入Ev上構(gòu)造一個(gè)完全連接的層堆棧.全連接層的定義如下:
其中:L表示隱藏層的數(shù)量,WL、bL、σL分別表示權(quán)重矩陣、偏置向量和激活函數(shù).最后一層只有一個(gè)神經(jīng)元,生成一個(gè)密集實(shí)值特征向量hL,即ydnn.
2.5.2 深度協(xié)同感知因子分解機(jī)
結(jié)合CFM 的輸出yCFM和MLP 網(wǎng)絡(luò)的輸出ydnn,得到y(tǒng)^,所有的參數(shù)都是聯(lián)合訓(xùn)練的:
其 中:yCFM是CFM 的輸出,ydnn是deep 側(cè)的輸出.
2.5.3 損失函數(shù)
對(duì)于二分類(lèi)任務(wù),學(xué)習(xí)過(guò)程的目標(biāo)是最小化以下目標(biāo)函數(shù)(log loss):
其 中:yi∈{ 0,1} 是第i個(gè)實(shí)例的真實(shí)標(biāo)簽,是預(yù)估的CTR(這里的σ是sig?mod 函數(shù)),N是訓(xùn)練樣本的總數(shù).
Avazu 數(shù)據(jù)集是在2014 年Avazu 點(diǎn)擊率預(yù)測(cè)競(jìng)賽中發(fā)表,包含有4 000 萬(wàn)個(gè)數(shù)據(jù)實(shí)例的點(diǎn)擊日志,每個(gè)點(diǎn)擊數(shù)據(jù),有24 個(gè)特征,為了使模型的準(zhǔn)確率更高,泛化能力更強(qiáng),將數(shù)據(jù)集隨機(jī)劃分為兩個(gè)部分進(jìn)行訓(xùn)練,其中80%用于訓(xùn)練,20%用于測(cè)試.Criteo 數(shù)據(jù)集包含一個(gè)月的廣告點(diǎn)擊日志,含有1 億個(gè)數(shù)據(jù)實(shí)例,13個(gè)連續(xù)特征和26 個(gè)分類(lèi)特征;選擇連續(xù)7 天的樣本進(jìn)行訓(xùn)練,第8 天樣本進(jìn)行評(píng)估.
AUC 和交叉熵?fù)p失Logloss 是評(píng)估點(diǎn)擊率預(yù)估性能的兩個(gè)重要指標(biāo).AUC 反映了點(diǎn)擊率預(yù)估模型將正樣本排在負(fù)樣本前面的概率大小.交叉熵?fù)p失是衡量二分類(lèi)問(wèn)題常用的損失函數(shù),損失值越小,預(yù)測(cè)得越準(zhǔn)確.通常來(lái)說(shuō),AUC 或Logloss 上0.001 的提高即被認(rèn)為對(duì)CTR 預(yù)測(cè)有重要意義.
為了驗(yàn)證模型的有效性,實(shí)驗(yàn)選取FM[1]、AFM[2]、DIFM[4]、FFM[6]、DeepFM[9]和XDeepFM[19]模型進(jìn)行對(duì)比.以下是對(duì)模型的介紹:
FM:利用特征隱向量學(xué)習(xí)二階特征組合,可對(duì)很少出現(xiàn)的組合進(jìn)行建模,增強(qiáng)了模型的泛化性.
AFM:在FM 的基礎(chǔ)上引入注意力模塊,給所有的特征交互分配對(duì)應(yīng)的權(quán)重向量,改進(jìn)了FM 均等對(duì)待所有特征的缺點(diǎn).
DIFM:可自適應(yīng)地在bit?wise 和vector?wise上對(duì)原始特征表示進(jìn)行重新修正.
FFM:域感知因子分解機(jī),是FM 的擴(kuò)展模型.每個(gè)特征對(duì)于不同特征域都有單獨(dú)的嵌入向量,與來(lái)自不同特征域的嵌入向量進(jìn)行交互.
DeepFM:主要是利用因子分解機(jī)將稀疏特征編碼轉(zhuǎn)換成低維嵌入向量并與深度神經(jīng)網(wǎng)絡(luò)進(jìn)行結(jié)合,這兩部分共享相同的輸入向量,實(shí)現(xiàn)對(duì)低階和高階特征的同時(shí)提取.
XDeepFM:一個(gè)利用壓縮交互網(wǎng)絡(luò)對(duì)特征顯式建模的深度學(xué)習(xí)模型.
CFM:協(xié)同感知因子分解機(jī),Criteo 中不能得到層次化特征域,所以估計(jì)網(wǎng)絡(luò)層中不包含MF 網(wǎng)絡(luò).
DCFM:深度協(xié)同感知因子分解機(jī),在CFM基礎(chǔ)上增加并行MLP 網(wǎng)絡(luò)聯(lián)合訓(xùn)練.
所有對(duì)比模型都是基于TensorFlow 實(shí)現(xiàn)的,為了公平地比較,所有模型都是使用Adam(學(xué)習(xí)率:0.001)優(yōu)化器優(yōu)化對(duì)數(shù)損失進(jìn)行學(xué)習(xí).對(duì)于所有方法,Criteo 和Avazu 的嵌入維度分別設(shè)置為20 和40,與DIFM[4]中的參數(shù)設(shè)置相同.每層神經(jīng)元數(shù)量的默認(rèn)設(shè)置為:DeepFM、DIFM 和DCFM 中 的DNNs 層 為256;XDeepFM中CIN 層為200,AFM 注意因子按照原論文推薦設(shè)置為256,CFM 中Cross 網(wǎng)絡(luò)的層數(shù)設(shè)置為3,語(yǔ)義空間的數(shù)量K=3.每個(gè)模型的超參數(shù)均通過(guò)網(wǎng)格搜索進(jìn)行了仔細(xì)調(diào)整,以達(dá)到最佳的性能.
經(jīng)過(guò)多次實(shí)驗(yàn)驗(yàn)證,不同模型在Avazu 和Criteo 數(shù)據(jù)集上的性能如表1 所示.
表1 各模型在2 個(gè)數(shù)據(jù)集上的性能對(duì)比
首先,學(xué)習(xí)特征交互可以提高CTR 預(yù)測(cè)模型的性能.DeepFM 對(duì)低階和高階特征建模比單獨(dú)的FM、FFM 能夠取得更好的效果,說(shuō)明特征的低階和高階交互對(duì)于模型效果是有價(jià)值的,使CTR 預(yù)估模型具有更好的表示能力.其次,AFM 比傳統(tǒng)的FM 效果更好說(shuō)明特征重要性對(duì)模型性能是有提升.DIFM 模型比深度學(xué)習(xí)方法如AFM、DeepFM、XDeepFM 獲得更好的性能,說(shuō)明了特征域交互感知的有效性.因此,不同樣本的輸入感知和特征域的交互感知對(duì)CTR 預(yù)測(cè)是至關(guān)重要的.最后,本文提出的CFM 和DCFM 在兩個(gè)數(shù)據(jù)集都達(dá)到了最好的效果,說(shuō)明結(jié)合輸入感知和特征域的交互感知可以取得更好的效果.實(shí)驗(yàn)結(jié)果表明,DCFM 模型可以有效提升點(diǎn)擊率預(yù)測(cè)的準(zhǔn)確率.
CFM 模型從策略上集成了輸入感知和特征域交互感知,以學(xué)習(xí)感知因素到統(tǒng)一的端到端模型中.此外,學(xué)習(xí)輸入感知因素集成了bit?wise、vector?wise 和field?wise 三個(gè)層面;學(xué)習(xí)特征域交互的時(shí)候考慮了多重語(yǔ)義的特性.因此,為了驗(yàn)證將兩者結(jié)合起來(lái)進(jìn)行聯(lián)合預(yù)測(cè)是否確有必要和有效,哪個(gè)是DIFM 模型中最重要的組件,深入了解CFM 模型,進(jìn)行了消融實(shí)驗(yàn).
經(jīng)過(guò)多次實(shí)驗(yàn)驗(yàn)證,從消融實(shí)驗(yàn)結(jié)果(表2)來(lái)看,對(duì)比CFM 和CFM(只包含輸入感知網(wǎng)絡(luò))、CFM(只包含多語(yǔ)義交互網(wǎng)絡(luò)),可以發(fā)現(xiàn)結(jié)合輸入感知和多語(yǔ)義特征域交互感知效果更好.對(duì)比CFM(只包含輸入感知網(wǎng)絡(luò))和DIFM,從Criteo 數(shù)據(jù)集的效果來(lái)看,使用Cross網(wǎng)絡(luò)從bit?wise 和vector?wise 兩個(gè)層面學(xué)習(xí)輸入感知因子、DIFM 中使用多頭注意力網(wǎng)絡(luò)學(xué)習(xí)vector?wise、MLP 學(xué)習(xí)bit?wise 的方法效果相差無(wú)幾.從Avazu 數(shù)據(jù)集的效果可以看出增加field?wise 層面學(xué)習(xí)輸入感知因子的有效性.對(duì)比CFM(只包含多語(yǔ)義交互網(wǎng)絡(luò))和IFM,對(duì)比CFM 和CFM(輸入感知+單個(gè)語(yǔ)義空間)的效果可以看出,考慮特征的多語(yǔ)義特性是有效并且合理的.
表2 消融實(shí)驗(yàn)在2 個(gè)數(shù)據(jù)集上的性能對(duì)比
因子分解機(jī)是現(xiàn)階段提高點(diǎn)擊率預(yù)估準(zhǔn)確性的有效方法.有效挖掘特征的隱藏語(yǔ)義信息和特征交互信息對(duì)推動(dòng)計(jì)算廣告領(lǐng)域快速發(fā)展具有重要的意義.本文首先利用三重輸入感知網(wǎng)絡(luò)學(xué)習(xí)感知因子,然后通過(guò)多語(yǔ)義交互網(wǎng)絡(luò)學(xué)習(xí)特征域的多語(yǔ)義交互,最后通過(guò)模型對(duì)比實(shí)驗(yàn)、消融實(shí)驗(yàn),驗(yàn)證了DCFM模型在公開(kāi)集的性能最好,有效地提高了預(yù)估準(zhǔn)確性.
本文提出的模型雖然可以提升預(yù)測(cè)準(zhǔn)確性,但是缺少對(duì)其原理的可解釋性研究,包括特征交互原理、梯度分析等.以后可以進(jìn)一步探索有效的特征表示和交互問(wèn)題,并在可解釋性方面進(jìn)行深入研究.