王利娥,李小聰,劉紅翼
(1.廣西師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林 541004;2.廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室(廣西師范大學(xué)),廣西 桂林 541004)(?通信作者電子郵箱redwing33@sohu.com)
融合知識(shí)圖譜和差分隱私的新聞推薦方法
王利娥1,2,李小聰1,劉紅翼2*
(1.廣西師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西 桂林 541004;2.廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室(廣西師范大學(xué)),廣西 桂林 541004)(?通信作者電子郵箱redwing33@sohu.com)
針對(duì)現(xiàn)有融合知識(shí)圖譜和隱私保護(hù)的推薦方法不能有效平衡差分隱私(DP)噪聲與推薦系統(tǒng)性能的問(wèn)題,提出了一種融合知識(shí)圖譜和隱私保護(hù)的新聞推薦方法(KGPNRec)。首先,采用多通道知識(shí)感知的卷積神經(jīng)網(wǎng)絡(luò)(KCNN)模型融合新聞標(biāo)題、知識(shí)圖譜中實(shí)體和實(shí)體上下文等多維度的特征向量,以提高推薦的準(zhǔn)確度;其次,利用注意力機(jī)制為不同敏感程度的特征向量添加不同程度的噪聲,從而降低噪聲對(duì)數(shù)據(jù)分析的影響;然后,對(duì)加權(quán)的用戶特征向量添加統(tǒng)一的拉普拉斯噪聲,以保證用戶數(shù)據(jù)的安全性;最后,在真實(shí)的新聞數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)結(jié)果表明,與隱私保護(hù)的多任務(wù)推薦方法(PPMTF)和基于深度知識(shí)感知網(wǎng)絡(luò)(DKN)的推薦方法等相比,所提KGPNRec在保護(hù)用戶隱私的同時(shí)能保證方法的預(yù)測(cè)性能。在Bing News數(shù)據(jù)集上,所提方法的曲線下面積(AUC)值、準(zhǔn)確率和F1分?jǐn)?shù)與PPMTF相比分別提高了0.019、0.034和0.034。
知識(shí)圖譜;差分隱私;推薦系統(tǒng);新聞;卷積神經(jīng)網(wǎng)絡(luò)
隨著互聯(lián)網(wǎng)和智能終端技術(shù)的發(fā)展,在線新聞網(wǎng)站和移動(dòng)應(yīng)用如必應(yīng)新聞、今日頭條受到了廣泛的歡迎。由于網(wǎng)絡(luò)上每天需要發(fā)布大量的新聞文章,使得在線新聞平臺(tái)上的用戶面臨著嚴(yán)重的信息過(guò)載問(wèn)題。由于不同的用戶會(huì)偏好于不同的新聞信息,因此,個(gè)性化新聞推薦已作為一種提高用戶體驗(yàn)度的有效工具,受到了學(xué)術(shù)界和工業(yè)界的高度關(guān)注。
在新聞推薦系統(tǒng)的相關(guān)研究中,許多方法都是基于深度學(xué)習(xí)(Deep Learning, DL)技術(shù)來(lái)實(shí)現(xiàn)對(duì)用戶和新聞信息的建模[1-5]。其中,大部分工作都是將新聞內(nèi)容或者標(biāo)題表征為新聞向量,將用戶的歷史行為數(shù)據(jù)表征為興趣向量,然后根據(jù)這兩個(gè)特征向量來(lái)預(yù)測(cè)用戶對(duì)某個(gè)新聞的點(diǎn)擊概率。然而,由于新聞是高度濃縮的,其中包含大量的知識(shí)實(shí)體,如果僅僅從語(yǔ)義層面來(lái)對(duì)新聞信息進(jìn)行建模,不能充分挖掘出新聞之間潛在的知識(shí)層面的關(guān)聯(lián)[6]。而知識(shí)圖譜(Knowledge Graph, KG)作為一種有效的輔助工具,能夠準(zhǔn)確地描述實(shí)體之間的復(fù)雜關(guān)聯(lián)。近年來(lái),已有研究者將知識(shí)圖譜作為信息描述工具引入到推薦系統(tǒng)中,以便更深層次地發(fā)現(xiàn)用戶的興趣,提高推薦精準(zhǔn)性和多樣性[7-9]。然而,融合知識(shí)圖譜的推薦系統(tǒng)通過(guò)更多輔助信息的關(guān)聯(lián),雖然能有效提高推薦結(jié)果的精度,但引入的關(guān)聯(lián)也給攻擊者提供了更多的背景知識(shí),面臨著更為嚴(yán)重的隱私安全問(wèn)題。這是因?yàn)樵谕扑]系統(tǒng)中為用戶進(jìn)行個(gè)性化推薦時(shí),用于分析的用戶歷史行為數(shù)據(jù)可以體現(xiàn)用戶的興趣愛(ài)好,包含大量的敏感信息,一旦這些數(shù)據(jù)被攻擊者獲取,將對(duì)用戶造成不可預(yù)估的后果。
差分隱私(Differential Privacy, DP)作為一種有效的隱私保護(hù)方法,在攻擊者有很強(qiáng)的背景知識(shí)的情況下,仍然可以有效抵御各種攻擊。很多研究提出將差分隱私應(yīng)用到協(xié)同過(guò)濾推薦算法中進(jìn)行隱私保護(hù),如Boutet等[10]提出了一種基于差分隱私的矩陣分解算法,該算法通過(guò)在用戶評(píng)級(jí)數(shù)據(jù)和隨機(jī)梯度下降過(guò)程中增加滿足不同隱私預(yù)算的噪聲來(lái)保護(hù)隱私;但是,該方法僅適用于單一的矩陣分解推薦場(chǎng)景中。Yu等[11]提出了一種隱私保護(hù)的多任務(wù)推薦方法(Privacy-Preserving Multi-Task recommendation Framework, PPMTF),該方法將噪聲添加到梯度下降過(guò)程和多任務(wù)模型的相關(guān)性參數(shù)中,提高推薦系統(tǒng)的效率和安全性;但是,該方法需要將知識(shí)圖譜特征學(xué)習(xí)模塊和推薦模塊交替地進(jìn)行學(xué)習(xí),會(huì)增加大量的時(shí)間開(kāi)銷。另外,由于該方法在每次迭代訓(xùn)練過(guò)程中都對(duì)梯度添加拉普拉斯噪聲,會(huì)導(dǎo)致噪聲不斷地累加,影響最終模型的準(zhǔn)確率,并不適用于單任務(wù)新聞推薦過(guò)程。
因此,針對(duì)現(xiàn)有的方法不能有效均衡拉普拉斯噪聲與推薦系統(tǒng)效率的問(wèn)題,本文提出了一種融合知識(shí)圖譜和隱私保護(hù)的新聞推薦方法(News Recommendation method with Knowledge Graph and Privacy protection, KGPNRec),將一種二階段隱私保護(hù)方法應(yīng)用于單任務(wù)新聞推薦場(chǎng)景中,能在保證推薦準(zhǔn)確性的同時(shí)有效保護(hù)用戶的隱私安全。在該方法中,為了保證推薦系統(tǒng)的預(yù)測(cè)精度,在前期的知識(shí)圖譜表示學(xué)習(xí)過(guò)程中并未添加噪聲,所以學(xué)習(xí)得到的實(shí)體向量和關(guān)系向量更加準(zhǔn)確;在后期的推薦任務(wù)中,差分隱私機(jī)制被添加到與大量個(gè)人隱私數(shù)據(jù)相關(guān)聯(lián)的特征向量中,并且為了減少噪聲的添加,利用注意力機(jī)制為特征向量添加不同程度的噪聲。
本文的主要工作如下:
1)提出了一種差分隱私保護(hù)方法,能適用于融合知識(shí)圖譜的新聞推薦系統(tǒng)。該方法不僅融合新聞標(biāo)題和用戶實(shí)體特征向量,還能有效融合實(shí)體上下文的特征向量,提高了推薦結(jié)果的準(zhǔn)確率。
2)基于差分隱私,設(shè)計(jì)了一種二階段隱私保護(hù)機(jī)制,能同時(shí)兼顧推薦的精確度和隱私的安全性。具體來(lái)說(shuō),在第一階段中考慮用戶特征的重要性,提出將拉普拉斯噪聲添加到與用戶歷史敏感數(shù)據(jù)高度相關(guān)的特征向量中,并根據(jù)不同的敏感程度分配不同的隱私預(yù)算;在第二階段基于差分隱私模型添加相應(yīng)噪聲以保證數(shù)據(jù)的安全性。該機(jī)制不僅能保證重要的用戶特征添加的噪聲更少,確保了推薦結(jié)果的準(zhǔn)確性,還能保護(hù)用戶的隱私安全。
推薦系統(tǒng)的隱私保護(hù)要求推薦系統(tǒng)不向推薦服務(wù)提供商或攻擊者暴露用戶相關(guān)的隱私信息,包括用戶歷史數(shù)據(jù)訓(xùn)練集的隱私、預(yù)測(cè)模型的隱私和推薦結(jié)果的隱私。目前推薦系統(tǒng)中的隱私保護(hù)技術(shù)可分為基于數(shù)據(jù)擾動(dòng)[10,12-14]的方法和基于全同態(tài)加密的方法[15]兩類。其中,基于全同態(tài)加密的方法主要思想是利用公鑰全同態(tài)加密使用戶的歷史數(shù)據(jù)不可見(jiàn),將密文上傳到推薦服務(wù)器上,并基于其全同態(tài)性質(zhì)在密文域上訓(xùn)練出一個(gè)模型并計(jì)算預(yù)測(cè)結(jié)果。這類方法雖然能在一定程度上解決推薦系統(tǒng)可用性與隱私性的統(tǒng)一問(wèn)題,但存在密文上的模型訓(xùn)練問(wèn)題和計(jì)算復(fù)雜度問(wèn)題。而基于數(shù)據(jù)擾動(dòng)的技術(shù)則主要是利用各類加法擾動(dòng)或乘法擾動(dòng)方法對(duì)其擁有的數(shù)據(jù)集實(shí)現(xiàn)隱私保護(hù),其中最具有代表性的方法是差分隱私。
差分隱私具有嚴(yán)格的數(shù)學(xué)定義和最強(qiáng)的背景知識(shí)假設(shè),已成為目前推薦系統(tǒng)中主流的隱私保護(hù)方法。Berlioz等[12]提出了三種將差分隱私應(yīng)用到矩陣分解的技術(shù),并且評(píng)估了每種方法對(duì)隱私保護(hù)和推薦結(jié)果精確度的權(quán)衡效果。Wang等[14]通過(guò)向預(yù)測(cè)模型訓(xùn)練過(guò)程中添加拉普拉斯噪聲,提出了基于近鄰關(guān)系的隱私保護(hù)推薦系統(tǒng),與Berlioz等[12]提出的方法相比,具有更高的推薦精確性。Meng等[16]提出了一種隱私保護(hù)的社交推薦方法,通過(guò)對(duì)用戶的評(píng)分?jǐn)?shù)據(jù)和社交關(guān)系進(jìn)行隱私保護(hù)建模,將不同強(qiáng)度的噪聲添加到敏感和非敏感的訓(xùn)練數(shù)據(jù)集中,能夠有效地抵御不可信的推薦服務(wù)器與惡意用戶發(fā)起的攻擊。
將知識(shí)圖譜融合到推薦系統(tǒng)中,能有效地提高推薦精度,已成為了學(xué)術(shù)界的研究熱點(diǎn)。但是,推薦系統(tǒng)作為一種機(jī)器學(xué)習(xí)模型,在模型訓(xùn)練過(guò)程中仍然會(huì)有隱私泄露的風(fēng)險(xiǎn),因?yàn)楣粽呖梢酝ㄟ^(guò)各種攻擊手段對(duì)學(xué)習(xí)模型進(jìn)行攻擊,如成員推理攻擊[17]、模型提取攻擊[18],從而竊取隱私。Yu等[11]提出了將差分隱私用于知識(shí)圖譜增強(qiáng)的多任務(wù)推薦模型中,通過(guò)在梯度下降過(guò)程和模型訓(xùn)練的相關(guān)參數(shù)添加拉普拉斯噪聲達(dá)到保護(hù)隱私的目的。但是,該方法的缺點(diǎn)是在每次迭代訓(xùn)練過(guò)程中,都需要優(yōu)化兩個(gè)子任務(wù),即知識(shí)圖譜表示學(xué)習(xí)和推薦,而且該方法在每次迭代過(guò)程中都對(duì)梯度添加拉普拉斯噪聲,會(huì)導(dǎo)致噪聲不斷地累加,影響最終模型的準(zhǔn)確率。因此,本文面向融合知識(shí)圖譜的新聞推薦系統(tǒng)提出一種新的隱私保護(hù)方法。不同于已有的方法,本文方法通過(guò)在包含敏感數(shù)據(jù)的特征向量中添加噪聲,來(lái)取代在迭代訓(xùn)練的梯度中加入噪聲,以避免在模型訓(xùn)練過(guò)程中梯度噪聲的累加效應(yīng),能有效提高數(shù)據(jù)的效用性。
差分隱私是一種隱私保護(hù)方法。差分隱私的思想是:對(duì)于只相差一條記錄的兩個(gè)相鄰數(shù)據(jù)集,查詢它們獲得相同值的概率非常接近。這樣,惡意攻擊者就不能推算出某條目標(biāo)記錄是否存在于數(shù)據(jù)集中,其形式化定義如下。
定義2 全局敏感度[19]。對(duì)于查詢函數(shù),對(duì)于任意的相鄰數(shù)據(jù)集和,的全局敏感度為:
定義3 拉普拉斯機(jī)制[19]。給定任意查詢函數(shù),其全局敏感度為,如果算法的輸出結(jié)果滿足式(3),則稱算法滿足差分隱私。
定義4 序列組合性質(zhì)[19]。給定一個(gè)數(shù)據(jù)集,假設(shè)有一組算法,如果算法滿足差分隱私,則這些算法的組合滿足差分隱私。
知識(shí)圖譜本質(zhì)是一種異構(gòu)信息網(wǎng)絡(luò),常用于表示實(shí)體之間的復(fù)雜關(guān)系,網(wǎng)絡(luò)中的節(jié)點(diǎn)表示實(shí)體,節(jié)點(diǎn)間的邊表示實(shí)體間的關(guān)系。知識(shí)圖譜可以形式化表示為三元組,其中,表示頭實(shí)體,表示尾實(shí)體,代表實(shí)體間的關(guān)系。
KGPNRec在保護(hù)系統(tǒng)數(shù)據(jù)隱私性的同時(shí),還能保證推薦結(jié)果的預(yù)測(cè)準(zhǔn)確性。KGPNRec的框架如圖1所示,該框架可分為兩個(gè)模塊:推薦模塊和隱私保護(hù)模塊。
圖1 KGPNRec框架Fig. 1 Framework of KGPNRec
在融合知識(shí)圖譜的推薦模塊,為了融入更多的輔助信息到新聞推薦任務(wù)中,本文借助知識(shí)圖譜表示學(xué)習(xí)方法,不僅能夠得到實(shí)體的嵌入信息,還能獲得完整的與實(shí)體相關(guān)的上下文信息。然后,將這兩個(gè)特征向量與候選新聞的詞向量輸入到多通道卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)中,得到每條新聞的表征向量,再利用注意力機(jī)制對(duì)用戶的點(diǎn)擊歷史在候選新聞上的興趣進(jìn)行加噪建模,并得到加噪的用戶潛在特征向量。最后,根據(jù)用戶特征向量和候選新聞特征向量預(yù)測(cè)用戶的點(diǎn)擊概率。
在隱私保護(hù)模塊,為了保護(hù)用戶的隱私,本文添加服從拉普拉斯分布的隨機(jī)噪聲到用戶特征向量中。首先,為了提高數(shù)據(jù)的效用性,本文根據(jù)不同的權(quán)重對(duì)用戶所有點(diǎn)擊新聞的特征向量添加不同維度的噪聲。因?yàn)橛脩羲悬c(diǎn)擊新聞的特征向量反映了用戶不同的偏好特征,而基于注意力機(jī)制得到的權(quán)重反映了用戶對(duì)于不同新聞的興趣程度,權(quán)重越大表示用戶的點(diǎn)擊新聞對(duì)候選新聞的影響程度越大,即用戶對(duì)當(dāng)前新聞的偏好程度越大。然后,對(duì)累加求和得到的用戶特征向量中添加統(tǒng)一的噪聲,進(jìn)一步確保推薦過(guò)程中不會(huì)泄露用戶隱私。在整個(gè)過(guò)程中,添加的噪聲滿足差分隱私。
知識(shí)圖譜通常是由知識(shí)圖譜表示學(xué)習(xí)方法進(jìn)行預(yù)處理的,本文采用經(jīng)典的知識(shí)圖譜表示學(xué)習(xí)方法TransD[20]來(lái)學(xué)習(xí)實(shí)體和關(guān)系的特征向量。現(xiàn)如今大多數(shù)知識(shí)圖譜表示學(xué)習(xí)方法都能很好地學(xué)出知識(shí)圖譜中的結(jié)構(gòu)信息,改善推薦的效果,但本文考慮到在新聞推薦這個(gè)特殊的場(chǎng)景中,新聞標(biāo)題中可能會(huì)包含多個(gè)實(shí)體,不同新聞標(biāo)題中的多個(gè)實(shí)體間存在關(guān)聯(lián)性,用戶在點(diǎn)擊某條新聞后也可能對(duì)其他包含相關(guān)實(shí)體的新聞產(chǎn)生興趣。所以,為了融合更多輔助信息,本文除了融合知識(shí)圖譜的結(jié)構(gòu)信息外,還從知識(shí)圖譜中提取出每個(gè)實(shí)體的上下文信息,即知識(shí)圖譜中每個(gè)實(shí)體的一跳鄰居節(jié)點(diǎn)的信息。實(shí)體的上下文信息形式化表達(dá)為:
對(duì)于三種表征信息,即新聞標(biāo)題的表示向量、實(shí)體的表示向量、實(shí)體上下文的表示向量,為了將它們結(jié)合,通常的做法是采用拼接策略。然而,這種方式存在一定的缺點(diǎn):首先,直接拼接會(huì)打破新聞標(biāo)題的詞語(yǔ)與知識(shí)圖譜中實(shí)體的關(guān)聯(lián);另外,單詞的表示向量和對(duì)應(yīng)實(shí)體的特征向量由不同的方式得到,所以在單一的特征空間中對(duì)它們進(jìn)行卷積并不適合;其次,直接對(duì)表征向量進(jìn)行拼接的前提是它們具有相同的維度,但實(shí)際上單詞和實(shí)體的特征向量的最佳維度并不相同。所以,本文利用多通道知識(shí)感知的卷積神經(jīng)網(wǎng)絡(luò)(multi-channel Knowledge-aware Convolutional Neural Network, KCNN)模型[8]來(lái)融合詞的知識(shí)信息和語(yǔ)義信息。
每個(gè)新聞標(biāo)題轉(zhuǎn)換后的實(shí)體特征向量和上下文特征向量分別表示為和,是連續(xù)的轉(zhuǎn)換函數(shù)。將三個(gè)特征向量聯(lián)合起來(lái)作為KCNN的輸入,表示為:
對(duì)以上卷積層的輸出,采用最大池化提取特征中最重要的信息:
最后,將所有的特征進(jìn)行拼接作為KCNN模型的輸出,即輸入的新聞標(biāo)題的特征表示為:
為了得到用戶的潛在特征向量,本文利用注意力網(wǎng)絡(luò)[5,8]預(yù)測(cè)用戶的興趣。因?yàn)橛脩粼陂喿x新聞時(shí)帶有明顯的傾向性,即一個(gè)用戶閱讀過(guò)的文章會(huì)屬于某些特定的主題,所以本文利用用戶點(diǎn)擊過(guò)的新聞?dòng)涗涱A(yù)測(cè)其對(duì)于候選文章的興趣。本文使用一個(gè)神經(jīng)網(wǎng)絡(luò)模型和softmax激活函數(shù)來(lái)計(jì)算用戶的歷史閱讀記錄對(duì)當(dāng)前候選新聞的影響權(quán)重:
得到用戶的潛在特征向量和候選新聞的潛在特征向量后,將它們進(jìn)行拼接并輸入到另一個(gè)神經(jīng)網(wǎng)絡(luò)中,得到點(diǎn)擊概率:
如圖1所示,灰色填充表示本文的隱私保護(hù)部分。本文將隱私保護(hù)機(jī)制分為兩個(gè)階段,總的噪聲不超過(guò)隱私預(yù)算。首先,對(duì)經(jīng)過(guò)注意力模型得到的特征向量添加拉普拉斯噪聲?,F(xiàn)有的研究一般做法是對(duì)這些特征向量添加相同維度的噪聲,但本文考慮了用戶特征的重要程度,基于注意力權(quán)重對(duì)這些特征向量分配不同的隱私預(yù)算,因?yàn)檫@些用戶的偏好向量中,注意力權(quán)重更高的特征對(duì)用戶的影響更大,因此基于注意力機(jī)制來(lái)添加不同程度的噪聲能有效地提高數(shù)據(jù)的效用性,保證最終模型的推薦效果。算法設(shè)計(jì)如算法1所示,其中特征向量的全局敏感度計(jì)算如下:
然后根據(jù)注意力權(quán)重對(duì)這些特征向量分配不同的隱私預(yù)算,對(duì)于那些權(quán)重大的特征向量,分配更大的隱私預(yù)算,添加更少的噪聲。因此,每個(gè)特征向量對(duì)應(yīng)的隱私預(yù)算可計(jì)算如下:
根據(jù)定義3,每個(gè)特征向量經(jīng)過(guò)擾動(dòng)后得到的結(jié)果如下:
此外,為了確保推薦過(guò)程中不會(huì)泄露用戶隱私,在第二階段,進(jìn)一步對(duì)累加求和得到的用戶特征向量添加噪聲。結(jié)合式(11)可得擾動(dòng)后的用戶特征向量如下所示:
算法1 KGPNRec。
1)初始化超參數(shù);
2)對(duì)知識(shí)圖譜進(jìn)行特征學(xué)習(xí)得到實(shí)體的嵌入和關(guān)系的嵌入,對(duì)新聞標(biāo)題進(jìn)行表示學(xué)習(xí)得到對(duì)應(yīng)的詞向量;
3)根據(jù)式(4)~(5)計(jì)算實(shí)體的上下文特征向量;
11)根據(jù)式(9)、(12)、(16)計(jì)算用戶對(duì)候選新聞的點(diǎn)擊概率。
本文基于真實(shí)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證本文方法的有效性。實(shí)驗(yàn)操作系統(tǒng)為Ubuntu18.04 LTS,CPU為Intel Xeon Gold 6230 CPU@2.10 GHz,顯卡型號(hào)為T(mén)esla V100-FHHL,采用Tensorflow深度學(xué)習(xí)框架。
本文在公開(kāi)的新聞數(shù)據(jù)集Bing News[8]和MIND(MIcrosoft News Dataset)上進(jìn)行模擬實(shí)驗(yàn)。其中Bing News數(shù)據(jù)采集自Bing News在線網(wǎng)站, MIND(https://msnews.github.io)來(lái)自Microsoft News用戶的行為日志,知識(shí)圖譜通過(guò)Bing知識(shí)庫(kù)構(gòu)建。Bing News中每條閱讀記錄主要包括時(shí)間戳、新聞url、用戶id和點(diǎn)擊數(shù)量(1表示點(diǎn)擊過(guò)、0表示未點(diǎn)擊),MIND數(shù)據(jù)集包含2019年10月12日到11月22日之間由用戶產(chǎn)生的閱讀數(shù)據(jù),每條日志包含用戶的id、時(shí)間戳、用戶的點(diǎn)擊歷史和交互行為標(biāo)簽。數(shù)據(jù)集和提取出的知識(shí)圖譜的基本信息如表1所示。
表1 數(shù)據(jù)集和知識(shí)圖譜的統(tǒng)計(jì)信息Tab. 1 Statistics of datasets and knowledge graphs
為了更好地驗(yàn)證本文方法的性能與效果,將本文提出的KGPNRec和與本文方法相近的研究成果[8,11,21]進(jìn)行對(duì)比。本文選擇TransD[20]作為知識(shí)圖譜表示學(xué)習(xí)方法來(lái)學(xué)習(xí)實(shí)體和上下文的表示向量,使用Adam優(yōu)化器來(lái)優(yōu)化目標(biāo)損失函數(shù),設(shè)置詞向量的維度和實(shí)體表征的維度為128,新聞標(biāo)題最大長(zhǎng)度為10,卷積核的數(shù)量為128,學(xué)習(xí)率為0.01,為了避免過(guò)擬合,設(shè)置正則化項(xiàng)權(quán)重為0.01。
1)深度知識(shí)感知網(wǎng)絡(luò)(Deep Knowledge-aware Network, DKN)[8]是一種用于新聞推薦的網(wǎng)絡(luò)模型,將它作為本文推薦精確度的基線。與該方法進(jìn)行比較,以驗(yàn)證本文方法在進(jìn)行隱私保護(hù)后是否仍能保證推薦的準(zhǔn)確率。在該方法的實(shí)驗(yàn)設(shè)置中,詞向量的維度和實(shí)體向量的維度為128,卷積核的數(shù)量為128。
2)KPCNN(Knowledge Powered Convolutional Neural Network)[21]是一種基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法,它將單詞對(duì)應(yīng)的實(shí)體表示為潛在向量,將實(shí)體向量與新聞標(biāo)題的詞向量進(jìn)行拼接作為新聞的向量表示。用多層感知機(jī)模型來(lái)對(duì)用戶特征和候選新聞特征進(jìn)行訓(xùn)練,得到用戶的點(diǎn)擊概率,將該方法作為本文推薦精準(zhǔn)度的基線,詞向量和實(shí)體向量的維度為128。
3)PPMTF[11]是一種隱私保護(hù)的多任務(wù)框架,被應(yīng)用于知識(shí)圖譜增強(qiáng)的推薦系統(tǒng)中,將它作為驗(yàn)證本文隱私安全程度的基線。在該方法的實(shí)驗(yàn)設(shè)置中,將詞向量的維度和實(shí)體向量的維度設(shè)置為128。
1)AUC。
ROC(Receiver Operating Characteristic)的曲線下面積(Area Under Curve, AUC)是分類模型的常用評(píng)估指標(biāo),它的值為ROC曲線覆蓋的區(qū)域面積,通常介于0.5~1.0,反映了分類器分類結(jié)果的準(zhǔn)確性。AUC越接近1.0,表明模型分類的真實(shí)性越高。由于本文方法主要應(yīng)用于點(diǎn)擊率預(yù)測(cè)場(chǎng)景,因此使用AUC評(píng)估算法的性能。
2)Accuracy。
Accuracy是分類模型中廣泛使用的評(píng)估指標(biāo),它反映的是模型分類的準(zhǔn)確率,表示的是預(yù)測(cè)正確的樣本數(shù)占總預(yù)測(cè)樣本數(shù)的比值。Accuracy值越大,表明模型預(yù)測(cè)的結(jié)果越準(zhǔn)確。
3)F1-score。
F1分?jǐn)?shù)(F1-score)是一種分類模型中常用的評(píng)估指標(biāo),它是精確率(Precision)和召回率(Recall)的調(diào)和平均數(shù),它的值介于0~1,反映了分類器的分類結(jié)果的準(zhǔn)確性。F1-score越接近1.0,表明模型分類的精確度越高。由于本文方法主要應(yīng)用于點(diǎn)擊率預(yù)測(cè)場(chǎng)景,因此使用F1-score評(píng)估推薦算法的性能。
1)不同方法在推薦性能方面的對(duì)比。
該部分主要考察不同方法在不同數(shù)據(jù)集上的推薦性能,以驗(yàn)證本文方法在進(jìn)行隱私保護(hù)后仍能保證推薦的準(zhǔn)確率。圖2給出的是使用Bing News數(shù)據(jù)集時(shí),本文方法KGPNRec與DKN、KPCNN、PPMTF在為1.0、不同epoch時(shí)的對(duì)比結(jié)果。
從圖2中可以看出,在訓(xùn)練到第8個(gè)epoch時(shí),模型逐漸擬合,本文方法與沒(méi)有進(jìn)行隱私保護(hù)的融合知識(shí)圖譜的推薦方法DKN相比,預(yù)測(cè)準(zhǔn)確率、精準(zhǔn)度和AUC三項(xiàng)指標(biāo)的差值都不超過(guò)0.01,所以二者的性能總體上不相上下,雖然偶爾DKN的精度更高,不過(guò)這是由于本文方法中添加的噪聲對(duì)結(jié)果造成的數(shù)據(jù)損失所導(dǎo)致的。盡管本文方法對(duì)數(shù)據(jù)的擾動(dòng)造成了一定的信息損失,但從結(jié)果可以看出,與沒(méi)有進(jìn)行隱私保護(hù)的KPCNN方法相比,KGPNRec的預(yù)測(cè)準(zhǔn)確率仍然較優(yōu),這是因?yàn)镵GPNRec融合了知識(shí)圖譜中實(shí)體上下文的特征信息,而且在使用新聞和實(shí)體的特征向量進(jìn)行訓(xùn)練時(shí),不是簡(jiǎn)單地對(duì)向量進(jìn)行拼接,這也表明了本文方法中使用的KCNN模型要優(yōu)于KPCNN模型。另外,與隱私保護(hù)的多任務(wù)推薦方法相比,在10個(gè)訓(xùn)練epoch中,KGPNRec的預(yù)測(cè)準(zhǔn)確率有7次提高超過(guò)0.02,當(dāng)模型收斂后,KGPNRec的預(yù)測(cè)準(zhǔn)確率相較PPMTF提高了0.034。
圖2 Bing News數(shù)據(jù)集上不同方法的性能對(duì)比Fig. 2 Performance comparison of different methods on Bing News dataset
另外,根據(jù)圖2(b)、(c)可以看出,KGPNRec的預(yù)測(cè)精確度和AUC值相較PPMTF分別提高0.034和0.019,表明本文方法能夠較好地改善數(shù)據(jù)的效用性,提供精確的推薦服務(wù)。
圖3給出了在MIND數(shù)據(jù)集上,本文方法與DKN、KPCNN、PPMTF在為1.0、不同epoch時(shí)的實(shí)驗(yàn)結(jié)果。從圖3中可以看出,這四種方法在該數(shù)據(jù)集上的性能總體趨勢(shì)和在數(shù)據(jù)集Bing News上大體相似,這也說(shuō)明了本文方法的性能在不同數(shù)據(jù)集上都有優(yōu)勢(shì)。
圖3 MIND數(shù)據(jù)集上不同方法的性能對(duì)比Fig. 3 Performance comparison of different methods on MIND dataset
2)隱私預(yù)算對(duì)推薦結(jié)果的影響。
由圖4可以看出,當(dāng)隱私預(yù)算為0.5時(shí),意味著模型中注入了最大的噪聲,這時(shí)本文方法在測(cè)試集上的預(yù)測(cè)準(zhǔn)確率仍然比隱私保護(hù)的多任務(wù)方法的準(zhǔn)確率高,并且隨著隱私預(yù)算的增大,模型中注入的噪聲減少,準(zhǔn)確率逐漸提高,當(dāng)隱私預(yù)算大于2.0時(shí),模型的預(yù)測(cè)精度基本不再上升,并且與未實(shí)現(xiàn)隱私保護(hù)的DKN相比,KGPNRec所能達(dá)到的最大預(yù)測(cè)準(zhǔn)確率與DKN相差無(wú)幾,這表明本文方法在保護(hù)隱私的同時(shí)能有效地保證模型的預(yù)測(cè)性能。從圖4(b)可以看出,當(dāng)隱私預(yù)算大于1.5時(shí),KGPNRec的預(yù)測(cè)準(zhǔn)確率已經(jīng)明顯高于KPCNN,表明當(dāng)模型中添加較少的噪聲時(shí),本文方法的性能要優(yōu)于KPCNN。
圖4 不同隱私預(yù)算下不同方法的性能對(duì)比Fig. 4 Performance comparison of different methods under different privacy budgets
3)模型中變量對(duì)推薦結(jié)果的影響。
為了進(jìn)一步驗(yàn)證模型中變量對(duì)推薦結(jié)果的影響,本文針對(duì)KGPNRec的各種變體在隱私預(yù)算為1.0時(shí)進(jìn)行實(shí)驗(yàn)對(duì)比。其中,KGPNRec-attention表示沒(méi)有使用注意力機(jī)制來(lái)動(dòng)態(tài)地分配隱私預(yù)算的方法,TransE[22]+KGPNRec、TransH[23]+KGPNRec和TransR[24]+KGPNRec分別表示在KGPNRec中使用不同的知識(shí)圖譜表示學(xué)習(xí)方法來(lái)得到實(shí)體向量,結(jié)果如表2所示。
從表2的結(jié)果可以看出,通過(guò)注意力機(jī)制的權(quán)重來(lái)動(dòng)態(tài)地為特征向量分配隱私預(yù)算,可以提高數(shù)據(jù)的效用性,使推薦系統(tǒng)的性能得到較大的提升。另外,在使用不同的知識(shí)圖譜表示學(xué)習(xí)方法得到特征向量時(shí),基于TransD方法的推薦效果比其他的方法更好,這可能是因?yàn)門(mén)ransD方法比另外三種知識(shí)圖譜表示學(xué)習(xí)方法更加復(fù)雜,在用于新聞推薦的場(chǎng)景下能學(xué)習(xí)到更好的非線性關(guān)系。
綜上可知,相較于PPMTF、KPCNN等現(xiàn)有方法,本文所提推薦方法的預(yù)測(cè)結(jié)果更加安全可靠,分析其原因在于:一方面,本文方法基于多通道卷積神經(jīng)網(wǎng)絡(luò)融合多維度的特征向量,有效地提高了推薦的準(zhǔn)確度;另一方面,本文設(shè)計(jì)的兩階段隱私保護(hù)機(jī)制能夠在保護(hù)隱私安全的同時(shí)降低對(duì)數(shù)據(jù)的影響。
表2 KGPNRec中采用不同變體時(shí)的性能對(duì)比Tab. 2 Performance comparison among KGPNRec with different variants
本文以融合知識(shí)圖譜的新聞推薦系統(tǒng)為研究基礎(chǔ),針對(duì)用戶關(guān)注的數(shù)據(jù)泄露和隱私保護(hù)問(wèn)題,將差分隱私應(yīng)用到知識(shí)圖譜增強(qiáng)的新聞推薦方法中,從而提出了一種融合差分隱私和知識(shí)增強(qiáng)的新聞推薦方法。該方法適用于新聞推薦場(chǎng)景,并通過(guò)實(shí)驗(yàn)驗(yàn)證了其在保護(hù)數(shù)據(jù)隱私安全性的同時(shí)能保證推薦結(jié)果的效用性。未來(lái)的工作將進(jìn)一步考慮如何在提供隱私保護(hù)的前提下優(yōu)化推薦算法以降低計(jì)算開(kāi)銷,從而實(shí)現(xiàn)推薦精度、算法性能和隱私保護(hù)之間的平衡。
[1] OKURA S, TAGAMI Y, ONO S, et al. Embedding-based news recommendation for millions of users [C]// Proceedings of the 2017 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017: 1933-1942.
[2] DE SOUZA PEREIRA MOREIRA G. CHAMELEON: a deep learning meta-architecture for news recommender systems [C]// Proceedings of the 2018 12th ACM Conference on Recommender Systems. New York: ACM, 2018: 578-583.
[3] WU C H, WU F Z, AN M X, et al. NPA:neural news recommendation with personalized attention [C]// Proceedings of the 2019 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2019: 2576-2584.
[4] ZHANG L M, LIU P, GULLA J A. Dynamic attention-integrated neural network for session-based news recommendation [J]. Machine Learning, 2019, 108(10): 1851-1875.
[5] WANG X J, YU L T, REN K, et al. Dynamic attention deep model for article recommendation by learning human editors’demonstration [C]// Proceedings of the 2017 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017:2051-2059.
[6] 田萱,丁琪,廖子慧,等.基于深度學(xué)習(xí)的新聞推薦算法研究綜述[J].計(jì)算機(jī)科學(xué)與探索,2021,15(6):971-998.(TIAN X, DING Q, LIAO Z H, et al. Survey on deep learning based news recommendation algorithm [J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(6): 971-998.)
[7] MA W Z, ZHANG M, CAO Y, et al. Jointly learning explainable rules for recommendation with knowledge graph [C]// Proceedings of the 2019 World Wide Web Conference. New York: ACM, 2019:1210-1221.
[8] WANG H W, ZHANG F Z, XIE X, et al. DKN:deep knowledge-aware network for news recommendation [C]// Proceedings of the 2018 World Wide Web Conference. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2018: 1835-1844.
[9] SHI C, HU B B, ZHAO W X, et al. Heterogeneous information network embedding for recommendation [J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(2): 357-370.
[10] BOUTET A, FREY D, GUERRAOUI R, et al. Privacy-preserving distributed collaborative filtering [J]. Computing, 2016, 98(8):827-846.
[11] YU B, ZHOU C Y, ZHANG C, et al. A privacy-preserving multi-task framework for knowledge graph enhanced recommendation [J]. IEEE Access,2020, 8:115717-115727.
[12] BERLIOZ A, FRIEDMAN A, KAAFAR M A, et al. Applying differential privacy to matrix factorization [C]// Proceedings of the 2015 9th ACM Conference on Recommender Systems. New York: ACM, 2015: 107-114.
[13] LIU Z Q, WANG Y X, SMOLA A. Fast differentially private matrix factorization [C]// Proceedings of the 2015 9th ACM Conference on Recommender Systems. New York: ACM, 2015: 171-178.
[14] WANG J, TANG Q. Differentially private neighborhood-based recommender systems [C]// Proceedings of the 2017 IFIP International Conference on ICT Systems Security and Privacy Protection, IFIPAICT 502. Cham: Springer, 2017: 459-473.
[15] RAMAKRISHNAN N, KELLER B J, MIRZA B J, et al. Privacy risks in recommender systems [J]. IEEE Internet Computing, 2001, 5(6): 54-63.
[16] MENG X Y, WANG S H, SHU K, et al. Personalized privacy-preserving social recommendation [C]// Proceedings of the 2018 32nd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2018: 3796-3803.
[17] SHOKRI R, STRONATI M, SONG C Z, et al. Membership inference attacks against machine learning models [C]// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2017: 3-18.
[18] TRAMèR F, ZHANG F, JUELS A, et al. Stealing machines learning models via prediction APIs [C]// Proceedings of the 2016 25th USENIX Security Symposium. Berkeley: USENIX Association, 2016: 601-618.
[19] DWORK C. A firm foundation for private data analysis [J]. Communications of the ACM, 2011, 54(1): 86-95.
[20] JI G L, HE S Z, XU L H, et al. Knowledge graph embedding via dynamic mapping matrix [C]// Proceedings of the 2015 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1:Long Papers). Stroudsburg: ACL, 2015: 687-696.
[21] WANG J, WANG Z Y, ZHANG D W, et al. Combining knowledge with deep convolutional neural networks for short text classification [C]// Proceedings of the 2017 26th International Joint Conference on Artificial Intelligence. California: IJCAI Organization, 2017: 2915-2921.
[22] BORDES A, USUNIER N, GARCIA-DURáN A, et al. Translating embeddings for modeling multi-relational data [C]// Proceedings of the 2013 26th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2013: 2787-2795.
[23] WANG Z, ZHANG J W, FENG J L, et al. Knowledge graph embedding by translating on hyperplanes [C]// Proceedings of the 2014 28th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2014: 1112-1119.
[24] LIN Y K, LIU Z Y, SUN M S, et al. Learning entity and relation embeddings for knowledge graph completion [C]// Proceedings of the 2015 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 2181-2187.
News recommendation method with knowledge graph and differential privacy
WANG Li’e1,2, LI Xiaocong1, LIU Hongyi2*
(1.School of Computer Science and Engineering,Guangxi Normal University,Guilin Guangxi541004,China;2.Guangxi Key Laboratory of Multi?Source Information Mining and Security(Guangxi Normal University),Guilin Guangxi541004,China)
The existing recommendation method with knowledge graph and privacy protection cannot effectively balance the noise of Differential Privacy (DP) and the performance of recommender system. In order to solve the problem, a News Recommendation method with Knowledge Graph and Privacy protection (KGPNRec) was proposed. Firstly, the multi-channel Knowledge-aware Convolutional Neural Network (KCNN) model was adopted to merge the multi-dimensional feature vectors of news title, entities and entity contexts of knowledge graph to improve the accuracy of recommendation. Secondly, based on the attention mechanism, the noise with different magnitudes was added in the feature vectors according to different sensitivities to reduce the impact of noise on data analysis. Then, the uniform Laplace noise was added to weighted user feature vectors to ensure the security of user data. Finally,the experimental analysis was conducted on real news datasets. Experimental results show that, compared with the baseline methods such as Privacy-Preserving Multi-Task recommendation Framework (PPMTF) and recommendation method based on Deep Knowledge-aware Network (DKN), the proposed KGPNRec can protect user privacy and ensure the prediction performance of method. For example, on the Bing News dataset, the Area Under Curve (AUC) value, accuracy and F1-score of the proposed method are improved by 0.019, 0.034 and 0.034 respectively compared with those of PPMTF.
knowledge graph; Differential Privacy (DP); recommender system; news; Convolutional Neural Network (CNN)
TP309
A
1001-9081(2022)05-1339-08
10.11772/j.issn.1001-9081.2021030527
2021?04?08;
2021?07?07;
2021?07?07。
廣西自然科學(xué)基金資助項(xiàng)目(2020GXNSFAA297075);廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室系統(tǒng)性研究課題基金資助項(xiàng)目(19?A?02?02);廣西師范大學(xué)院級(jí)研究生創(chuàng)新項(xiàng)目(JXXYYJSCXXM?006)。
王利娥(1981—),女,湖南邵陽(yáng)人,教授,碩士,CCF會(huì)員,主要研究方向:分布式系統(tǒng)、網(wǎng)絡(luò)安全、隱私保護(hù)、推薦系統(tǒng); 李小聰(1996—),男,湖北黃岡人,碩士研究生,主要研究方向:數(shù)據(jù)隱私、推薦系統(tǒng); 劉紅翼(1969—),女,廣西桂林人,副教授,碩士,主要研究方向:數(shù)據(jù)隱私、教育信息、數(shù)據(jù)庫(kù)。
This work is partially supported by Guangxi Natural Science Foundation (2020GXNSFAA297075), Systematic Research Project Fund of Guangxi Key Laboratory of Multi-Source Information Mining and Security (19-A-02-02), School-Level Post Graduate Innovation Project of Guangxi Normal University (JXXYYJSCXXM-006).
WANG Li’e, born in 1981, M. S., professor. Her research interests include distributed system, network security, privacy protection, recommender system.
LI Xiaocong, born in 1996, M. S. candidate. His research interests include data privacy,recommender system.
LIU Hongyi, born in 1969, M. S., associate professor. Her research interests include data privacy, education information, database.