蘇暢 李佳慶 謝顯中
關(guān)鍵詞:個性化;跨域;推薦系統(tǒng);用戶隱私保護
一、引言
隨著社會信息產(chǎn)業(yè)的發(fā)展,電影、音樂、網(wǎng)購等行業(yè)的交易量不斷增長。相比之下,個人很難體驗到一個又一個龐大的產(chǎn)品和服務(wù)。為了實現(xiàn)產(chǎn)品的精準銷售,提高個人服務(wù)質(zhì)量,需要有一個好的算法來給出個人推薦。推薦方法的準確性不僅決定了個人的生活體驗,也決定了商業(yè)效益。但同時,在個性化的推薦中,重點做好用戶隱私的保護工作,就成為個性化推薦系統(tǒng)研發(fā)和升級中必須考量的問題。結(jié)合既有的推薦系統(tǒng)用戶隱私保護現(xiàn)狀來看,仍舊存在一些漏洞,導(dǎo)致用戶隱私安全受到威脅,亟待做出改進。鑒于此,本文的研究內(nèi)容具有一定現(xiàn)實意義。
二、個性化跨域推薦系統(tǒng)中用戶隱私保護工作開展的意義
個性化跨域推薦系統(tǒng)的研發(fā),可以很好地緩解普適性推薦系統(tǒng)中存在的冷啟動以及數(shù)據(jù)稀疏問題,同時個性化跨域推薦系統(tǒng)的構(gòu)建,可以更好地完成用戶特征提取,對于用戶隱私數(shù)據(jù)安全保護也可發(fā)揮作用[1]。其中,特征提取關(guān)系到個性化跨域推薦系統(tǒng)的推薦準確性,數(shù)據(jù)安全更是關(guān)系到用戶的隱私以及用戶的信任度。本文采用異構(gòu)信息網(wǎng)絡(luò)通過多類型的節(jié)點和邊的關(guān)系來進行特征提取,采用聯(lián)邦學(xué)習(xí)來保護用戶隱私,聯(lián)邦學(xué)習(xí)并不要求用戶上傳數(shù)據(jù),只需在本地訓(xùn)練,可以有效地保護用戶的隱私。
隨著推進系統(tǒng)的發(fā)展,推薦影響準確度的因素越來越多,因為用戶需求是由用戶興趣偏好與實時需求共同決定的,本文在此基礎(chǔ)上重點研究了實時性的因素,實時性可以代表用戶當(dāng)前的狀態(tài),在考慮用戶偏好的同時加入實時性的因素,能夠進一步優(yōu)化個性化推薦系統(tǒng)的推薦準確度以及用戶隱私保護質(zhì)量。
三、個性化跨域推薦系統(tǒng)中的用戶隱私保護國內(nèi)外研究現(xiàn)狀
(一)個性化跨域推薦系統(tǒng)研究現(xiàn)狀
在當(dāng)前的網(wǎng)絡(luò)生態(tài)系統(tǒng)中,一些網(wǎng)站在功能和提供信息方面具有一定程度的同質(zhì)性是很常見的。從構(gòu)建推薦服務(wù)的角度來看,這意味著這兩個同質(zhì)域的模型正在處理許多相同的項[2]。這為通過豐富數(shù)據(jù)提高推薦質(zhì)量提供了機會。例如,如果域?qū)ο鬀]有關(guān)于某些項(即稀疏項或冷啟動項)的足夠數(shù)據(jù),而其他域?qū)ο笥?,利用其他域的輔助數(shù)據(jù)來提高目標域的推薦質(zhì)量的任務(wù)稱為個性化跨域推薦。
1. 個性化跨域推薦通過知識遷移可以有效地緩解推薦系統(tǒng)的數(shù)據(jù)稀疏問題和冷啟動問題
有學(xué)者提出了一個稱為信任感知跨域深層神經(jīng)矩陣分解(TCrossDNMF)的模型,該模型預(yù)測活動用戶的項目評級,并解決了電子商務(wù)系統(tǒng)中“用戶重疊”跨域場景中的用戶冷啟動問題。TCrossDNMF 模型分為四個主要步驟:①特征學(xué)習(xí),即使用潛在因素模型學(xué)習(xí)用戶的特征,然后發(fā)現(xiàn)源域和目標域用戶之間的相似性。當(dāng)用戶在兩個域之間共享時,該模型學(xué)習(xí)公共信息并將知識從源域轉(zhuǎn)移到目標域。②排序,找到一組相似的用戶(鄰居),然后根據(jù)相似度閾值θ 過濾出不同的用戶,然后從這些減少的用戶集生成二分信任圖,并執(zhí)行蟻群優(yōu)化,為活動用戶找到可信的鄰居。③加權(quán)計算活動用戶與其前k 個鄰居之間的信任度。④使用多層感知器(MLP)和廣義矩陣分解(GMF)通過在更高維度上表示用戶項交互來訓(xùn)練TCrossDNMF 模型的預(yù)測,并將GMF 和MLP 與用于評級預(yù)測的信任信息集成在一起。通過在兩個域的用戶之間轉(zhuǎn)移知識和合并信任,解決了用戶冷啟動問題。有學(xué)者提出了一個DAAN 框架,該框架考慮了跨領(lǐng)域的領(lǐng)域共享和領(lǐng)域特定知識。通過注意網(wǎng)絡(luò)將基于矩陣分解的協(xié)同過濾與深度對抗域自適應(yīng)緊密耦合。在該框架中,首先從源和目標用戶項交互矩陣中學(xué)習(xí)每個用戶和每個項特定域的表示。然后,框架捕獲了兩個域之間的域共享特性,并將公共用戶(或項目)嵌入到域?qū)狗妒街?。利用相對密集的源用戶項交互矩陣中的知識遷移,重構(gòu)了稀疏的目標用戶項交互矩陣,緩解了數(shù)據(jù)稀疏性問題。
2. 個性化跨域推薦系統(tǒng)的遷移學(xué)習(xí)可以更準確地識別用戶的特征,提高推薦系統(tǒng)的性能
有學(xué)者提出了一個新的基于跨域個性的推薦系統(tǒng)框架,兩個主要方法為跨域人格分類方法和人格增強概率矩陣分解(P2MF)。它通過預(yù)測文本嵌入(PTE),將人格分類模型在一個共享的潛在特征空間上進行訓(xùn)練,該空間由來自源域的有監(jiān)督數(shù)據(jù)和來自目標域的無監(jiān)督數(shù)據(jù)解釋。將個性標簽作為先驗信息集成到經(jīng)典推薦方法概率矩陣分解(PMF)中。真實數(shù)據(jù)集上證實了該方法在各種目標域上的優(yōu)越性。有學(xué)者通過結(jié)合不同域用戶評論中隱含的情感信息,提出一種基于情感分析和潛在特征映射的跨域推薦算法(CDR-SAFM)。通過對用戶評論信息進行情感分析,基于三項決策思想將情感分為三類,即積極、消極和中性。通過潛在狄利克雷分配(LDA)用于對用戶的語義方向進行建模以生成潛在情感評論特征。并在此基礎(chǔ)上使用多層感知器(MLP)獲得跨域非線性映射函數(shù)來傳遞用戶的情感評論特征,通過實驗證明了框架的有效性。
(二)隱私保護推薦算法研究現(xiàn)狀
隨著推薦系統(tǒng)的發(fā)展,一些問題也暴露了出來,其中用戶最關(guān)心的就是隱私保護問題,也是推薦系統(tǒng)發(fā)展的一個重要因素。有學(xué)者提出了一種基于可逆數(shù)據(jù)變換(RDT)算法的隱私保護數(shù)據(jù)采集協(xié)議。該協(xié)議允許針對超出范圍的處理實現(xiàn)隱私保護,不需要私有通道或依賴第三方身份驗證。協(xié)議不僅可以保障內(nèi)部和外部身份泄露的安全,還可以為超出處理范圍的隱私提供保護。有學(xué)者提出了一種基于多探測局部敏感哈希(LSH)的隱私保護興趣點推薦算法。通過改進的LSH 選擇相似的用戶集,可以大大減少計算量,滿足用戶快速響應(yīng)的需求。通過引入多重探索來緩解內(nèi)存中多個哈希表的壓力,并快速獲取目標用戶的最近鄰集合,從而對LSH 進行了改進。在計算過程中采用了改進的LSH 和派利爾同態(tài)加密技術(shù)來保護數(shù)據(jù)隱私。有學(xué)者提出了嶺回歸,嶺回歸是一種統(tǒng)計方法,用于模擬獨立變量和一些解釋值之間的線性關(guān)系。在該協(xié)議中,每個用戶以加密的形式將其數(shù)據(jù)提交給評估者,評估者計算所有用戶數(shù)據(jù)的線性模型,而無需了解他們的內(nèi)容[3]。核心加密方法配有同態(tài)屬性,使評估者能夠?qū)用軘?shù)據(jù)執(zhí)行嶺回歸。研究中發(fā)現(xiàn)協(xié)議適用于處理分布在數(shù)百萬用戶中的高危數(shù)據(jù)。有學(xué)者提出了一種基于局部差分隱私保護方案的動態(tài)隱私預(yù)算分配方法。有學(xué)者提出了一種改進的基于用戶的協(xié)同過濾算法,該算法在計算用戶相似度時采用了基于矩陣的相似度計算方法。在推薦過程中保護用戶的隱私,同時保證推薦性能不會受到太大的損失。
本文提出的方案首先對本地敏感數(shù)據(jù)動態(tài)添加噪聲,以保證用戶的隱私,然后將添加噪聲的數(shù)據(jù)發(fā)送到服務(wù)器進行相似度計算,最后通過基于用戶的協(xié)同過濾算法給出推薦。有學(xué)者提出了一種基于差分隱私保護和時間因子的高效隱私保護協(xié)同過濾算法。這種方法可以有效地降低泄露私人數(shù)據(jù)的風(fēng)險,同時獲得所需的隱私保護服務(wù)。有學(xué)者提出了一種基于位置敏感度的位置推薦隱私保護方法。該方法使用位置軌跡和值機頻率來設(shè)置閾值,從而對位置敏感度級別進行分類。然后根據(jù)靈敏度分配相應(yīng)的隱私預(yù)算,以添加滿足差異隱私的拉普拉斯噪聲。
四、個性化跨域推薦系統(tǒng)中的用戶隱私保護研究中存在的問題
(一)用戶數(shù)據(jù)安全性和特征提取問題
推薦系統(tǒng)是基于用戶所提供的一些隱私數(shù)據(jù)進行推薦的,而這些數(shù)據(jù)包含一定的敏感性信息。個性化跨域推薦系統(tǒng)更是如此,至少結(jié)合兩個領(lǐng)域的數(shù)據(jù),如果將所有的數(shù)據(jù)都上傳到一個服務(wù)器上來進行訓(xùn)練,稍有不慎就會發(fā)生數(shù)據(jù)泄露,產(chǎn)生數(shù)據(jù)安全問題。出于對用戶隱私數(shù)據(jù)的保護,跨域推薦系統(tǒng)在訓(xùn)練時應(yīng)在用戶或運營商服務(wù)器本地進行訓(xùn)練,以知識遷移的方式將加密后的特征上傳到中央服務(wù)器,生成對用戶的推薦。如何在本地進行用戶特征的提取和如何加密特征保護用戶隱私不受侵犯是一個值得研究的問題。
(二)用戶數(shù)據(jù)隱私保護問題
用戶的數(shù)據(jù)隱私問題也是跨域推薦中廣泛研究的問題。在POI 跨域推薦系統(tǒng)可以根據(jù)用戶的位置信息來推斷用戶的興趣偏好。例如,一個用戶若經(jīng)常在某商場簽到,可以推薦出該用戶是商場的工作人員或有較強的消費能力。再比如,若一個用戶經(jīng)常在旅游點打卡簽到,可以推斷出該用戶經(jīng)常出去旅游或出差等等。個性化跨域推薦系統(tǒng)可以有效地緩解冷啟動問題,但是如果這些數(shù)據(jù)使用不當(dāng),被竊取或盜用,會產(chǎn)生用戶數(shù)據(jù)的隱私安全問題。因此保護用戶的數(shù)據(jù)安全是跨域推薦系統(tǒng)的主要研究方向。傳統(tǒng)的推薦系統(tǒng)都是采用集中式的訓(xùn)練模型,即所有領(lǐng)域的數(shù)據(jù)都存儲在一個中央服務(wù)器中,在這種情況下,用戶的數(shù)據(jù)很容易發(fā)生泄露,因為現(xiàn)實生活中我們很難找到一個值得信任的服務(wù)器。若采用分布式的訓(xùn)練模型,可以有效地解決服務(wù)器不可信和數(shù)據(jù)存儲問題,但是由于各個平臺之間存在商業(yè)利益,往往不愿意將自己收集的數(shù)據(jù)分享出來,就會出現(xiàn)“數(shù)據(jù)孤島”現(xiàn)象,使得跨域協(xié)同變得非常困難。因此如何在解決“數(shù)據(jù)孤島”問題的同時保護數(shù)據(jù)隱私,是個性化跨域推薦系統(tǒng)亟待解決的問題。
五、個性化跨域推薦系統(tǒng)中的用戶隱私保護研究策略提出
為了更好地在跨域推薦系統(tǒng)提取特征、保護用戶的隱私數(shù)據(jù)以及提升跨域推薦系統(tǒng)的推薦準確性,本文設(shè)計了基于隱私保護的跨域推薦系統(tǒng)。本文擬采用個性化異構(gòu)信息網(wǎng)絡(luò)來提取用戶的特征,異構(gòu)信息網(wǎng)絡(luò)具有很強的靈活性,可以充分提取用戶的特征。使用聯(lián)邦學(xué)習(xí)結(jié)合同態(tài)加密技術(shù)算法來保護用戶的隱私數(shù)據(jù),聯(lián)邦學(xué)習(xí)在用戶本地訓(xùn)練數(shù)據(jù)后再使用同態(tài)加密技術(shù)將潛在特征分布加密后用作知識遷移,以保護用戶的隱私信息。為進一步提升推薦系統(tǒng)的推薦準確性,本文考慮加入實時性的因素,以應(yīng)對用戶不斷實時變化的需求,提升用戶的使用體驗。
(一)基于異構(gòu)信息網(wǎng)絡(luò)的隱私保護個性化跨域推薦
由于個性化跨域推薦系統(tǒng)需要在多領(lǐng)域中提取用戶的特征,因此數(shù)據(jù)在用戶與用戶、用戶與項目、項目與項目之間存在相關(guān)的特征交互,導(dǎo)致特征提取和數(shù)據(jù)轉(zhuǎn)移相對復(fù)雜。為解決這一問題,本文提出使用異構(gòu)信息網(wǎng)絡(luò)提取不同領(lǐng)域之間的關(guān)聯(lián)特征,該網(wǎng)絡(luò)在結(jié)構(gòu)上含有多種類型的節(jié)點和邊,蘊含著豐富的關(guān)聯(lián)信息。同時為確保數(shù)據(jù)安全性和用戶隱私,需要對特征提取和數(shù)據(jù)轉(zhuǎn)移進行隱私保護。為此,采用聯(lián)邦學(xué)習(xí)和同態(tài)加密算法結(jié)合的方法,讓用戶在本地訓(xùn)練數(shù)據(jù),將潛在特征分布加密后進行知識遷移,保證用戶的隱私數(shù)據(jù)不被泄露。此外,為提升推薦系統(tǒng)的準確性,本文考慮加入實時性因素,以滿足用戶不斷變化的需求,提高用戶的使用體驗。由于用戶的選擇決策取決于實時需求和偏好喜好,因此增加實時因素對于增強個性化跨域推薦系統(tǒng)的準確性至關(guān)重要。在保障用戶隱私保護的同時,加入實時因素可促進用戶體驗的提升。
(二)具有隱私保護的跨域?qū)崟r推薦推薦
系統(tǒng)是根據(jù)用戶的歷史性行為給用戶來生成推薦的,但是由于用戶的需求是不斷地實時變化的,且用戶的選擇是實時需求和用戶偏好加權(quán)求和的結(jié)果,若一味地根據(jù)用戶的歷史偏好來生成推薦的話,可能會導(dǎo)致推薦系統(tǒng)的準確性下降,用戶滿意度不高等結(jié)果。因此實時性成為提升推薦系統(tǒng)準確性的一個重要因素,比如用戶所處的地點位置、絕對時間等實時因素,均會影響用戶的選擇。本文在跨域隱私保護推薦系統(tǒng)基礎(chǔ)上,考慮融合絕對時間等實時性因素,訓(xùn)練推薦系統(tǒng),提升系統(tǒng)的準確性。其間,利用聯(lián)邦學(xué)習(xí)訓(xùn)練框架為:首先自服務(wù)端下發(fā)模型參數(shù),用于完成本地模型的初始化訓(xùn)練。其次,由客戶端將數(shù)據(jù)發(fā)送中間梯度,再到服務(wù)器端,利用服務(wù)器端去將用戶端的參數(shù)做聚合處理,實現(xiàn)全局模型的更新,最后將最新參數(shù)下發(fā)至本地,用于更新本地模型。具體的聯(lián)邦學(xué)習(xí)訓(xùn)練框架如圖1 所。
另外,由于數(shù)據(jù)在用戶與用戶、用戶與項目、項目與項目間均存在關(guān)聯(lián)特征,特征交互復(fù)雜,本文擬采用異構(gòu)信息網(wǎng)絡(luò)來提取不同領(lǐng)域數(shù)據(jù)的特征,異構(gòu)信息網(wǎng)絡(luò)對數(shù)據(jù)處理具有很強的靈活性,可以提取豐富的特征信息。進一步,采用聯(lián)邦學(xué)習(xí)結(jié)合同態(tài)加密技術(shù)的方法來保護用戶的隱私數(shù)據(jù),聯(lián)邦學(xué)習(xí)不需要數(shù)據(jù)集中地進行訓(xùn)練,可在用戶本地進行訓(xùn)練,將訓(xùn)練后特征加密進行上傳,可以有效保護用戶的隱私數(shù)據(jù)。
六、結(jié)束語
綜上所述,在用戶隱私保護研究中,想要全面提升保護質(zhì)量,就需要著重圍繞個性化跨域推薦系統(tǒng)展開問題,在了解推薦原理的基礎(chǔ)之上,才能摸索出更具可行性的保護方案,以此為用戶在互聯(lián)網(wǎng)中的隱私安全提供保障。此外,在具有隱私特性的用戶安全個性化跨域推薦系統(tǒng)研究方面,充分將聯(lián)邦學(xué)習(xí)結(jié)合同態(tài)加密技術(shù)算法應(yīng)用于用戶隱私數(shù)據(jù)保護中,能夠有效將潛在的用戶數(shù)據(jù)特征所分布加密處理,以此搭建知識遷移體系,為用戶的隱私保護提供支持,最終強化用戶體驗。
作者單位:蘇暢 李佳慶 謝顯中 重慶郵電大學(xué)