国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

推薦系統(tǒng)中隱私保護策略的研究綜述

2020-01-01 09:25◆喬
關(guān)鍵詞:差分加密協(xié)同

◆喬 雨

(南京工業(yè)大學(xué)浦江學(xué)院 計算機與通信工程學(xué)院 江蘇 211200)

計算機技術(shù)的快速發(fā)展讓人們獲取信息的成本更低、方式更多樣化,而隨著信息的爆炸式增長,信息超載成為海量數(shù)據(jù)使用過程中的一大難題,為此產(chǎn)生了搜索引擎(如谷歌、百度等)和推薦系統(tǒng)(如電商平臺的“猜你喜歡”模塊、互聯(lián)網(wǎng)平臺中的廣告智能推送業(yè)務(wù)等)這兩種主流的信息過濾技術(shù),它們對解決信息超載的問題做出了巨大的貢獻。這兩種技術(shù)最明顯的區(qū)別在于前者是由用戶主動輸入關(guān)鍵詞進行搜索,而后者則是主動向用戶推薦其可能需要的信息[1]。推薦系統(tǒng)(Recommender Systems)的實現(xiàn)原理是通過分析特定的數(shù)據(jù)(包括書籍、文章、電影、音樂、網(wǎng)站瀏覽記錄等)來定位用戶的信息需求,并生成相應(yīng)的推薦結(jié)果幫助用戶做出選擇。但是,推薦系統(tǒng)能夠?qū)崿F(xiàn)精確的推薦效果的前提是需要事先收集大量的用戶信息,通常信息越豐富,推薦結(jié)果的精確度就越高;從另一個角度來看,若對用戶數(shù)據(jù)進行深度挖掘和分析會對用戶的隱私造成嚴(yán)重的威脅。因此,出于對用戶隱私保護和數(shù)據(jù)安全的考慮,在推薦過程中加強對隱私數(shù)據(jù)的保護顯得格外重要,這也成為推薦系統(tǒng)領(lǐng)域一個迫切需要解決的問題,也受到相關(guān)學(xué)者和專家的關(guān)注和重視。

本文從隱私保護的技術(shù)實現(xiàn)角度出發(fā),對該方向的研究進展和發(fā)展趨勢進行介紹和分析,首先闡述了兩種主流的推薦系統(tǒng)產(chǎn)生推薦的原理,再分別對協(xié)同過濾推薦系統(tǒng)和上下文推薦系統(tǒng)中的隱私保護策略進行歸納總結(jié),為日后的進一步研究提供參考依據(jù)。

1 相關(guān)背景

1.1 協(xié)同過濾推薦系統(tǒng)介紹

協(xié)同過濾的概念在1992 年首次提出后被應(yīng)用到推薦系統(tǒng)中,經(jīng)過多年理論研究和工業(yè)應(yīng)用,協(xié)同過濾推薦已經(jīng)成為推薦領(lǐng)域應(yīng)用最廣泛的技術(shù)[2]。協(xié)同過濾推薦是通過收集用戶相關(guān)信息來建立用戶喜好模型;然后尋找與目標(biāo)用戶相似的鄰居用戶,根據(jù)鄰居對項目的喜愛程度進行信息的協(xié)同過濾,進而產(chǎn)生推薦;這里的用戶相關(guān)信息是指用戶的歷史購買記錄、具體的評分值等能夠反映用戶偏好的行為信息。同時,“在線協(xié)同-離線過濾”是協(xié)同過濾的工作特點,“在線協(xié)同”是指通過線上的數(shù)據(jù)找到目標(biāo)用戶可能喜歡的項目,“離線過濾”則是過濾掉一些不值得推薦的數(shù)據(jù),例如用戶已經(jīng)購買過的或者評分低的項目數(shù)據(jù)。

1.2 基于上下文的推薦系統(tǒng)介紹

上下文推薦系統(tǒng)與傳統(tǒng)的推薦系統(tǒng)相比,融入了上下文維度的數(shù)據(jù)進行推薦,這一維度的信息包括位置、時間段、心情、使用的設(shè)備類型等場景信息,在建立用戶喜好模型時會充分考慮上下文狀態(tài)信息對用戶個性化需求的影響程度[3]?;谏舷挛牡耐扑]系統(tǒng)深入地挖掘了“用戶-項目-上下文”三者之間的潛在關(guān)系,利用用戶所在的上下文狀態(tài)來提高推薦的精確度和推薦的時效性,大大提升了用戶體驗。目前,上下文推薦系統(tǒng)已成為推薦系統(tǒng)領(lǐng)域重要的研究方向。

1.3 推薦系統(tǒng)中隱私保護問題描述

Westin 等人認(rèn)為隱私是指個人或團體有權(quán)控制、編輯、管理并刪除關(guān)于自己的信息,自己有權(quán)決定在何時或者以何種方式將個人信息公開給他人[4]。該定義中強調(diào)了信息所有者對自我信息數(shù)據(jù)的控制權(quán),應(yīng)該讓用戶擁有控制自己信息數(shù)據(jù)的權(quán)利(如收集哪些數(shù)據(jù)、為什么收集這些數(shù)據(jù)、自己的數(shù)據(jù)將被如何使用等),但也并不是完全不能被第三方使用。文獻[5]認(rèn)為隱私就是個人所擁有的,且他人無權(quán)搜集、保留和使用的權(quán)利的信息資料集合,它只能按照擁有者的意愿在特定時間、以特定方式、在特定程度上公開。該定義強調(diào)了隱私保護的主體實際上是對個人隱私的保護,其保護的目的則是防止個人的隱私數(shù)據(jù)被泄露或者被濫用。

然而,根據(jù)推薦系統(tǒng)產(chǎn)生推薦的三個主要步驟:(1)基于用戶的個人信息和行為信息挖掘出用戶可能的興趣點;(2)根據(jù)項目的內(nèi)容信息或者被評價的信息提取項目的特征;(3)將用戶的興趣點與項目的特征點進行匹配,并將匹配程度最高的信息推薦給用戶。從這三個基本步驟的實現(xiàn)過程可以看出,這三個階段中都涉及到個人的隱私數(shù)據(jù),如收集用戶的個人基本信息、個人興趣偏好、個人瀏覽行為和內(nèi)容,并且在未經(jīng)用戶許可的情況下對個人信息進行了處理、傳輸、存儲、計算等。所以,由于推薦系統(tǒng)的特殊性,一方面需要大量的用戶信息來保證推薦的精確度和高效性,而另一方面大量獲取和使用用戶的個人信息會增加用戶個人隱私泄露的風(fēng)險[6]。因此,如何在推薦系統(tǒng)的高準(zhǔn)確性要求和隱私保護的要求之間找到一定的平衡是目前推薦系統(tǒng)隱私保護問題研究的難點之一,即如何實現(xiàn)在幫助用戶獲得高效的個性化信息服務(wù)的同時,也能為用戶的隱私信息提供可信的保護,降低隱私泄露的風(fēng)險。

2 推薦系統(tǒng)中隱私保護問題研究現(xiàn)狀

隨著互聯(lián)網(wǎng)技術(shù)日益發(fā)展,作為互聯(lián)網(wǎng)中的主體----網(wǎng)民對于個人隱私的保護意識也不斷增強,因此,無論是人文方面還是商業(yè)應(yīng)用方面都將隱私保護作為一項重要的研究議題。目前社會對隱私保護采取的主要措施是通過立法來完善隱私保護的法律法規(guī);個體方面通過加強自我隱私保護的意識,不隨意向外界透露個人信息[7]來降低隱私泄露的風(fēng)險;技術(shù)角度則是通過加密算法等手段對用戶的敏感信息進行隱藏,增強抵御外界的惡意攻擊能力,要求信息不容易被攻擊者獲取,同時還能夠?qū)⑿畔⒌膩G失控制在一個較低的級別,從而實現(xiàn)數(shù)據(jù)價值的最大化利用。

2.1 協(xié)同過濾推薦系統(tǒng)中隱私保護問題的研究現(xiàn)狀

(1)基于數(shù)據(jù)的模糊方法

協(xié)同過濾推薦系統(tǒng)中的隱私保護方法常用基于數(shù)據(jù)的模糊方法,比如隨機干擾方法[8]和匿名分組方法[9]。文獻[8]提出了運用隨機擾亂的數(shù)據(jù)變換技術(shù),將經(jīng)過隨機擾亂的數(shù)據(jù)發(fā)送到服務(wù)器進行運算,并利用協(xié)同過濾的方式產(chǎn)生推薦;在這種模式下,服務(wù)器獲取的并不是真實的用戶評分,而是被隨機修改后的數(shù)據(jù),這種方式在一定程度上能夠保護用戶的隱私數(shù)據(jù)。Li 等人[9]提出了t 維漸進隱私保護方法,該方法的核心是在等價類中對敏感屬性的分布進行匿名處理,并且處理后的敏感屬性總體分布維數(shù)不能超過t,在保護分組中敏感信息的同時,還能保證它們在語義上的多樣性。

這兩種方法的核心思想是要求數(shù)據(jù)只有經(jīng)過加工處理才能移交給推薦服務(wù)提供方進行使用,并產(chǎn)生對應(yīng)的推薦;這實際上是將推薦服務(wù)提供方看作是不可信任的,利用隨機干擾方法雖然能夠有效保護用戶的真實行為信息,但也會增加推薦系統(tǒng)無法產(chǎn)生有效推薦結(jié)果的風(fēng)險;匿名分組方法雖然能夠?qū)€人的行為信息按照一定的規(guī)則泛化,但良好的泛化效果需要建立在用戶的信任關(guān)系上[10]。文獻[11]就是基于推薦服務(wù)提供方不可信的前提,提出了一種能夠?qū)崿F(xiàn)隱私保護的協(xié)同過濾推薦框架,能夠為用戶提供自定義的代換密碼機制,實現(xiàn)了對重要信息的個性化加密效果,達到保護隱私的目的。

(2)數(shù)據(jù)加密方法

數(shù)據(jù)加密的方法就是使用加密技術(shù)對推薦過程涉及的數(shù)據(jù)進行加密,通過這樣的方式來保護數(shù)據(jù)不被輕易獲取和非法使用。文獻[12]在P2P(peer to peer)的應(yīng)用場景下,設(shè)計了一個基于安全多方計算的協(xié)議,該協(xié)議通過加密技術(shù)對數(shù)據(jù)進行處理,使得用戶的隱私數(shù)據(jù)不用直接暴露地展示出來,并利用SVD 技術(shù)和極大似然技術(shù)產(chǎn)生推薦結(jié)果。文獻[13]在文獻[12]的基礎(chǔ)上進行了改進,優(yōu)化了同態(tài)加密技術(shù)的復(fù)雜性,實現(xiàn)了增量計算的可能,進一步提高了算法實現(xiàn)效率。

(3)差分隱私保護法

DWork 團隊提出差分隱私的概念重點關(guān)注數(shù)據(jù)的安全性保護,他們首先提出完全安全的概念,又通過圖靈模型證明了完全保護是不可能實現(xiàn)的,進而引出了差分隱私保護的概念。差分隱私的主要目的是限制原始數(shù)據(jù)集的查詢結(jié)果與某條記錄相鄰數(shù)據(jù)集之間的差異級別,這樣攻擊者就無法根據(jù)數(shù)據(jù)集查詢的結(jié)果來判斷目標(biāo)用戶在數(shù)據(jù)集中是否存在,即使所有的背景知識都是已知的情況,目標(biāo)用戶的隱私也能夠受到保護。

MsSherry 等人[14]將差分隱私保護的方法在協(xié)同過濾推薦系統(tǒng)中進行使用,使用方式是在建立項目的相似度矩陣時,向矩陣中加入噪聲干擾,然后再分析項目之間的相似性,最后將數(shù)據(jù)應(yīng)用到推薦系統(tǒng)產(chǎn)生推薦結(jié)果。文獻[15]則基于協(xié)同過濾推薦系統(tǒng)提出了一種基于差分隱私保護的k 近鄰算法,用于改善相似鄰居計算過程中所面臨的隱私泄露問題。此外,針對基于標(biāo)簽的推薦系統(tǒng),文獻[16]將差分隱私保護的思想應(yīng)用于用戶畫像的構(gòu)建,能夠在保證推薦準(zhǔn)確度的同時達到保證用戶隱私的目的。但是,當(dāng)數(shù)據(jù)量比較大時,使用該方法會引入大量的噪聲反而覆蓋了原來的數(shù)據(jù),導(dǎo)致數(shù)據(jù)的可用性急劇下降。同時,差分隱私的計算復(fù)雜度較高,該缺點也限制了其在實際中的應(yīng)用范圍[17]。

2.2 上下文推薦系統(tǒng)中隱私保護問題的研究現(xiàn)狀

(1)數(shù)據(jù)加密方法

文獻[18]中提出的JPH(Jeckmans Peter and Hartel)協(xié)議,該協(xié)議分為線上和線下兩部分,分別在適當(dāng)?shù)臅r候?qū)?shù)據(jù)進行加密,然后再產(chǎn)生推薦;但仍有來自不可信的服務(wù)器、鄰居標(biāo)簽和非鄰居標(biāo)簽等方面的威脅;因此,該文獻中還采用了隨機加密策略,即在加密的過程中,通過隨機選取標(biāo)簽值或者設(shè)置權(quán)重來減少上述不可信的威脅程度。因此,對用戶和項目數(shù)據(jù)進行加密的方法能夠在一定程度上保證數(shù)據(jù)的安全性,但是并不適用于用戶和項目數(shù)量規(guī)模較大的場景。

(2)基于數(shù)據(jù)模糊的方法

在上下文推薦系統(tǒng)中應(yīng)用的數(shù)據(jù)模糊方法,與協(xié)同過濾推薦系統(tǒng)的應(yīng)用原理類似,都是通過在原始數(shù)據(jù)中增加噪音來實現(xiàn)隱私數(shù)據(jù)的保護,這種方法一般不會有太復(fù)雜的處理過程,且效率較高;不同之處在于融合上下文信息的推薦系統(tǒng)中,在收集上下文數(shù)據(jù)時也要進行信息的模糊處理,以保護用戶的各方面隱私信息。但是,這類方法也存在著明顯的缺點,特別是在如何定義隱私保護的級別、如何評價數(shù)據(jù)模糊的程度等方面值得更深入地研究[19]。

(3)差分隱私保護。

文獻[20]將差分隱私引入到頻繁模式的挖掘過程中,使得自頂向下的樹狀劃分過程在支持top-n 頻繁模式挖掘的基礎(chǔ)上,也保護了原始數(shù)據(jù)中的敏感信息。文獻[21-22]中提出的DiffP-C4.5方法和Diff Gen 方法是將差分隱私保護技術(shù)與分類技術(shù)進行結(jié)合,同時考慮了樹型結(jié)構(gòu)中各節(jié)點上屬性分割的問題來更好地進行數(shù)據(jù)預(yù)測和分析。

用戶的實時位置信息是基于上下文推薦系統(tǒng)中非常重要的影響因素之一,但是,位置信息若被泄露將嚴(yán)重影響著用戶的隱私安全?;谶@一方面,文獻[23]中將位置因素納入上下文情景中來產(chǎn)生推薦,設(shè)計了一種基于敏感位置的隱私保護方法。位置推薦服務(wù)器首先對用戶發(fā)送的位置服務(wù)請求進行解析,然后生成初次的推薦結(jié)果;利用設(shè)置好的隱私保護級別對推薦結(jié)果進行敏感位置的匹配,再將匹配到的敏感位置進行隱藏。經(jīng)過實驗證明,該方法能夠在保證推薦效率的基礎(chǔ)上實現(xiàn)對敏感位置數(shù)據(jù)的快速隱藏,從而起到隱私保護的作用。

3 結(jié)束語

隱私保護作為推薦系統(tǒng)中一項不可忽略的議題,近年來對其的研究還處于探索的階段,雖然出現(xiàn)了很多隱私保護的技術(shù),但是若想要進行隱私保護的同時還能保持較好的推薦效果,未來還有待做進一步深入地研究。例如,保證用戶數(shù)據(jù)使用的透明性方面,如何通過技術(shù)手段讓用戶能夠清晰地看到自己的個人數(shù)據(jù)被使用的過程,以此來提升用戶與系統(tǒng)之間的互信程度;另一方面,不同的用戶對于不同種類的個人信息會持不同的態(tài)度,那么如何實現(xiàn)針對不同用戶,定制化地進行隱私保護策略的制定,使得系統(tǒng)能夠快速地適應(yīng)各類用戶,從而實現(xiàn)真正的個性化服務(wù)。

猜你喜歡
差分加密協(xié)同
RLW-KdV方程的緊致有限差分格式
符合差分隱私的流數(shù)據(jù)統(tǒng)計直方圖發(fā)布
輸入受限下多無人機三維協(xié)同路徑跟蹤控制
家校社協(xié)同育人 共贏美好未來
數(shù)列與差分
電力安全防護加密裝置
“四化”協(xié)同才有出路
京津冀協(xié)同發(fā)展
加密與解密
DES 對稱加密和解密算法的安全性應(yīng)用
西宁市| 青神县| 依兰县| 章丘市| 建阳市| 莱西市| 荆州市| 永清县| 安新县| 英山县| 澳门| 阿鲁科尔沁旗| 阳山县| 库伦旗| 建瓯市| 阆中市| 佛山市| 吴川市| 遂平县| 柘城县| 贵定县| 客服| 马边| 雷山县| 云浮市| 仙居县| 资讯 | 孝感市| 青岛市| 若羌县| 江达县| 乌拉特后旗| 福贡县| 松江区| 繁昌县| 施秉县| 融水| 温州市| 左云县| 南皮县| 泗阳县|