□路應(yīng)金 杜素娟
[電子科技大學(xué) 成都 611731]
基于奇異值分解模型的在線實(shí)時(shí)推薦的隱私保護(hù)
□路應(yīng)金 杜素娟
[電子科技大學(xué) 成都 611731]
利用縮減的奇異值分解更新算法和隨機(jī)技術(shù)提出了一個(gè)基于奇異值分解模型的在線推薦的隱私保護(hù)方法,將新數(shù)據(jù)混合到原始數(shù)據(jù)中保護(hù)消費(fèi)者在線購(gòu)物的隱私數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,我們提供的模型可以保證數(shù)據(jù)高效性和更低概率的隱私泄露,并且預(yù)測(cè)的精度仍然很高,對(duì)于實(shí)現(xiàn)消費(fèi)者網(wǎng)上隱私保護(hù)有重要的指導(dǎo)意義。
奇異值分解;隱私保護(hù);實(shí)時(shí)推薦;協(xié)同過(guò)濾
伴隨著電子商務(wù)的快速發(fā)展,個(gè)性化推薦系統(tǒng)成為電子商務(wù)企業(yè)在線推銷商品的有力工具。亞馬遜、京東通過(guò)向消費(fèi)者推薦感興趣的產(chǎn)品提升在線商品銷售的選擇。推薦系統(tǒng)是通過(guò)構(gòu)建消費(fèi)者的購(gòu)物模式利用相關(guān)算法來(lái)預(yù)測(cè)消費(fèi)者的購(gòu)物偏好的系統(tǒng)。從上世紀(jì)90年代中期就有很多關(guān)于推薦系統(tǒng)的論文發(fā)表[1],學(xué)者們將其算法和模型應(yīng)用于現(xiàn)實(shí)生活中,大多數(shù)的推薦系統(tǒng)源于協(xié)同過(guò)濾算法[2~3]。協(xié)調(diào)過(guò)濾算法是推薦算法中應(yīng)用得最為廣泛和成功的一種算法[4~5]。協(xié)同過(guò)濾技術(shù)也是個(gè)性化推薦中應(yīng)用最成功的技術(shù)[6~7]。協(xié)同過(guò)濾技術(shù)可以分為兩大分支:鄰近算法和潛在因子模型[8]。奇異值分解算法是基于潛在因子模型的一種算法[9]。
隱私保護(hù)的協(xié)同過(guò)濾推薦研究致力于在確保高質(zhì)、高效地產(chǎn)生推薦的同時(shí)有效地保護(hù)參與方的隱私[10]。奇異值分解模型是協(xié)同過(guò)濾算法中重要的一種典型算法[11],是一種基于數(shù)據(jù)擾動(dòng)的方法[12]。在推薦系統(tǒng)中,用戶并不參與原始數(shù)據(jù)的處理,他們將自己的數(shù)據(jù)發(fā)送給服務(wù)器,然后服務(wù)器進(jìn)行數(shù)據(jù)的協(xié)同過(guò)濾。Polat和Du將隨機(jī)擾動(dòng)加入到基于協(xié)同過(guò)濾技術(shù)的奇異值分解算法中,以此來(lái)構(gòu)建隱私保護(hù)系統(tǒng)[13~14],把統(tǒng)一的或者高斯分布的擾動(dòng)加入到用戶的真實(shí)偏好中,然后服務(wù)器預(yù)測(cè)這些擾動(dòng)數(shù)據(jù)的未知偏好。在這種結(jié)構(gòu)下,數(shù)據(jù)擁有者也要注意數(shù)據(jù)的快速更新,以及隨著數(shù)據(jù)更新,對(duì)隱私的保護(hù)水平還可以保持在一個(gè)相對(duì)合理的位置。Stewart研究了奇異值分解算法中的擾動(dòng)理論以及其在信號(hào)處理中的應(yīng)用[15]。Brand論證了一個(gè)奇異值分解算法的快速降低矩陣的秩的修正算法[16],Tougas和Spiteri證明了局部奇異值分解更新算法時(shí)需要進(jìn)行正交三角分解以及完全奇異值分解時(shí)計(jì)算并不復(fù)雜[17]。Wang等提出了一種改進(jìn)的奇異值分解模型,本文改進(jìn)了模型的奇異值分解更新算法,加入了隨機(jī)擾動(dòng)和后期的加工。
(一)基于潛在因子模型的原始奇異值分解算法
潛在因子模型[18]主要致力于用戶評(píng)分矩陣的降低維度上,以此來(lái)發(fā)掘一些潛在因子,這些因子使用最少的擾動(dòng)數(shù)據(jù)可以最好地詮釋用戶的偏好,我們可以充分利用這些因子來(lái)近似估計(jì)原始評(píng)分值。在Paterek的基于潛在因子模型的奇異值分解算法中,將用戶評(píng)分矩陣因式分解成更低的評(píng)分矩陣,用戶元素矩陣UF和商品元素矩陣IF。每一個(gè)用戶i和商品j可以分別表示成一個(gè)f維度矢量UFi(矩陣UF的第i行)和IFi(矩陣IF的第j列)。我們通過(guò)計(jì)算向量UFi和IFi的內(nèi)積來(lái)預(yù)測(cè)第i行第j列元素的評(píng)分。
首先,應(yīng)用奇異值分解算法計(jì)算稀疏矩陣R,填補(bǔ)所有的缺失值,將缺失數(shù)值設(shè)置為零,然后得到用戶向量和商品向量。
這里的U和V是標(biāo)準(zhǔn)正交矩陣,S是對(duì)角線上的元素為奇異值的對(duì)角陣,且矩陣S的秩為r。
利用Berry的大范圍的稀疏奇異值算法[19],當(dāng)分解評(píng)分矩陣時(shí),維度f(wàn)(f不大于r)比較容易定義,因此用戶元素矩陣和商品元素矩陣也可以表示為:
(二)問(wèn)題描述
假設(shè)數(shù)據(jù)擁有者有一個(gè)用戶評(píng)分矩陣,R∈Rm×n,其中有m個(gè)用戶和n個(gè)商品,rij表示用戶i對(duì)商品j的評(píng)分。有效的評(píng)分值取值范圍在不同網(wǎng)絡(luò)的情況是不同的,一些網(wǎng)絡(luò)評(píng)分值從1~5,1是最低評(píng)分表示不喜歡,5是最高評(píng)分代表最受歡迎,而一些網(wǎng)站用-10~10來(lái)評(píng)分,其中-10表示最低分,0表示中立評(píng)分,10為最高評(píng)分。
用戶的原始評(píng)分矩陣包含用戶對(duì)商品的真實(shí)評(píng)分,我們可以由此確定用戶的購(gòu)物模式。這些模型可能泄露了某些用戶的隱私,所以在毫無(wú)隱私保護(hù)措施的情況下放出用戶的原始評(píng)分?jǐn)?shù)據(jù)將會(huì)導(dǎo)致隱私的泄露。在放出用戶原始評(píng)分?jǐn)?shù)據(jù)之前插補(bǔ)矩陣然后擾亂它是一種可行的保護(hù)用戶隱私的方法。因?yàn)樗械纳唐范茧S著評(píng)分做了標(biāo)記,所以存在缺失數(shù)值就無(wú)法分辨哪些商品已經(jīng)評(píng)分。在這個(gè)過(guò)程中,插補(bǔ)估算缺失的評(píng)分?jǐn)?shù)據(jù),隱藏用戶對(duì)特定商品的喜好,同時(shí)這個(gè)擾動(dòng)使得用戶對(duì)特定商品的喜好變得模糊不清。
當(dāng)有新的用戶交易數(shù)據(jù)出現(xiàn)時(shí),新的行向量,定義為T∈Rp×n,添加到原始矩陣R中,
類似的,當(dāng)有新的商品交易數(shù)據(jù)出現(xiàn)時(shí),新的列向量,定義為G∈Rm×q,添加到原始矩陣R中,
為了保護(hù)用戶隱私,新的評(píng)分矩陣在放出之前必須經(jīng)過(guò)加工。Tr∈Rp×n表示處理過(guò)的新的行向量,Gr∈Rm×q表示處理過(guò)的新的列向量。
(三)數(shù)據(jù)更新模型
本部分主要介紹在數(shù)據(jù)更新過(guò)程保護(hù)隱私的協(xié)同過(guò)濾算法中的數(shù)據(jù)更新模型。通過(guò)在以下三個(gè)方面用戶的隱私:缺失數(shù)值的插補(bǔ),隨機(jī)擾動(dòng)數(shù)據(jù)和縮減的SVD算法。插補(bǔ)值的步驟可以保護(hù)用戶已評(píng)分的隱私信息。但是由于單一的傳統(tǒng)的插補(bǔ)值會(huì)產(chǎn)生相同的值并以此填入空白項(xiàng),這樣的矩陣容易被攻擊。因此我們?cè)黾恿肆硗庖环N隱私信息,即用戶對(duì)特定商品的實(shí)際評(píng)分值。在這種情況下,隨機(jī)性和縮減的SVD技術(shù)可以作為解決問(wèn)題的第二種擾動(dòng)項(xiàng)。一方面,隨機(jī)擾動(dòng)可以一定程度上改變?cè)u(píng)分值,剩余的分布不改變。另一方面,所用的SVD技術(shù)是一種理想的數(shù)據(jù)擾動(dòng)的方式,這種技術(shù)可以捕獲矩陣的潛在性質(zhì)并且消除無(wú)用的擾動(dòng)。對(duì)于給定的已選好的縮減排列,SVD可以在數(shù)據(jù)隱私和效用之間保持很好的平衡。
正如前面部分的陳述一樣,新的數(shù)據(jù)可以作為矩陣新的行向量或者列向量。把這些新數(shù)據(jù)添加到原始矩陣R,然后進(jìn)一步擾亂數(shù)據(jù)來(lái)保護(hù)用戶隱私。相應(yīng)的,我們提出的模型也可以在行向量或者列向量單獨(dú)更新的時(shí)候使用。
1.行更新
在等式(1)中,將向量T加入R中,得到的新矩陣R’是一個(gè)(m+p)×n的矩陣,假設(shè)縮減矩陣R的k階SVD先前已經(jīng)計(jì)算過(guò),
其中,Uk∈Rm×k,Vk∈Rn×k是正交矩陣;是最大有K個(gè)奇異值的對(duì)角線矩陣。
我們上一部分提到的,用戶評(píng)分矩陣在因式分解之前是一個(gè)不完全的矩陣,需要提前插入缺失值,例如,插入每個(gè)商品的平均評(píng)分值,這些平均值用來(lái)幫助更新SVD。
對(duì)于新的行向量T,在加入現(xiàn)存矩陣之前,先插入缺失值,用插入數(shù)值填補(bǔ)空白項(xiàng),插入數(shù)值來(lái)自于現(xiàn)存矩陣和新評(píng)分?jǐn)?shù)據(jù)的平均值。列的均值由下式計(jì)算:
新的列的平均值不影響原來(lái)的矩陣,因此,擁有擾動(dòng)數(shù)據(jù)的第三方平臺(tái)和數(shù)據(jù)擁有者只需要釋放擾動(dòng)的新數(shù)據(jù),不需要改變列均值。
這個(gè)k階奇異值分解矩陣在下面的矩陣中計(jì)算得到
由于(k+p)是一個(gè)很小的值,奇異值分解的計(jì)算過(guò)程很快,所以我們用矩陣縮減的奇異值分解來(lái)代替完整的分解
在協(xié)同過(guò)濾算法中,所有項(xiàng)的值的取值范圍應(yīng)該是有效的。例如,在MovielLens數(shù)據(jù)中的r的取值范圍應(yīng)該是0<r≤5。所以,在得到新的新矩陣之后,接下來(lái)的一步就是應(yīng)用有效取值范圍,使得合理值取代所有的非有效值
以下總結(jié)了行更新時(shí)的奇異值分解算法步驟
2.列更新
列更新類似于行更新,但是兩者有一些不同。在新的用戶評(píng)分矩陣中,用商品平均值來(lái)填補(bǔ)缺失值。在行更新中,當(dāng)新用戶增加時(shí)均值改變;但是列更新中,均值僅僅取決于新商品。由于這種特性,列更新時(shí)不必保持一個(gè)商品的均值矢量。
以下總結(jié)了行更新時(shí)的奇異值分解算法步驟
數(shù)據(jù)擁有者應(yīng)該持有更新元素矩陣,無(wú)論是列更新還是行更新,并且插入新的數(shù)據(jù)矩陣。當(dāng)用戶發(fā)生更新時(shí),這個(gè)更新商品均值也應(yīng)該由數(shù)據(jù)擁有者持有。
正像在兩種算法中表述的,在保護(hù)用戶隱私方面,結(jié)合使用了三種插入數(shù)值技術(shù)。初始插入數(shù)值替補(bǔ)了所有的缺失值。在插入數(shù)據(jù)中加入隨機(jī)擾動(dòng)使得插入數(shù)值之間彼此不同??s減的奇異值分解算法消除了數(shù)據(jù)的繁瑣性,這個(gè)過(guò)程保護(hù)了數(shù)據(jù)的有效性同時(shí)保護(hù)了數(shù)據(jù)的隱私。三種技術(shù)結(jié)合起來(lái)在不同方面保護(hù)隱私。
圖1 奇異值分解算法流程示意圖
(一)預(yù)測(cè)模型和誤差檢測(cè)
因?yàn)槠娈愔捣纸饽P筒荒芙鉀Q缺失數(shù)值問(wèn)題,如果沒(méi)有預(yù)處理值的話那些缺失數(shù)值就會(huì)為零。經(jīng)典的填補(bǔ)缺失數(shù)值的方法就是使用商品的均值。
假設(shè)p’ij是通過(guò)基于協(xié)同過(guò)濾算法的奇異值分解模型得到的預(yù)測(cè)值,為了確保預(yù)測(cè)的評(píng)分值在有效范圍內(nèi),我們需要做一些邊界范圍的檢測(cè):
當(dāng)我們檢測(cè)預(yù)測(cè)的準(zhǔn)確度時(shí),用戶元素矩陣UF和商品元素矩陣IF首先來(lái)自于樣本集,然后對(duì)于在每個(gè)樣本集里的評(píng)分集,我們對(duì)所有的評(píng)分值計(jì)算出相應(yīng)的預(yù)測(cè)值,并且檢測(cè)誤差值,以及絕對(duì)平均誤差,誤差值越小越好。計(jì)算公式如下:
(二)隱私估計(jì)
隱私水平是一個(gè)度量,表示我們可以通過(guò)給出的隨機(jī)變量X來(lái)估計(jì)隨機(jī)變量Y的取值范圍
隱私估計(jì)是由阿格瓦拉和阿加沃爾提出的,并且波拉提爾應(yīng)用于協(xié)同過(guò)濾算法中。阿格瓦拉和阿加沃爾還提出了已知X條件下的Y的缺失值的條件隱私的估計(jì)[20]。
(三)評(píng)估策略
為了檢測(cè)何時(shí)重新進(jìn)行奇異值分解,我們把評(píng)分矩陣的數(shù)據(jù)集用一個(gè)專門的比率ρ1分解成兩個(gè)子欄目。 假設(shè)第一個(gè)的ρ1已經(jīng)處理過(guò)了,剩下的數(shù)據(jù)然后更新進(jìn)去。然后計(jì)算矩陣中的k階奇異值分解和商品平均值矢量。我們命名K階矩陣的近似值為開(kāi)始矩陣。我們利用這些數(shù)據(jù)結(jié)構(gòu)作為公式(10)的輸入。我們期望得到的結(jié)果隨著分流比率不同而變化。如果結(jié)果與我們預(yù)先確定的臨界值偏離太遠(yuǎn),或者結(jié)果演變的更慢或者開(kāi)始在某些點(diǎn)上下降,我們將會(huì)進(jìn)行重新的計(jì)算。
然而,我們?cè)跇颖炯斜A舻?0%行向量不僅僅只有一次更新,因?yàn)楝F(xiàn)實(shí)當(dāng)中程序通常是逐步增加的。本次實(shí)驗(yàn)當(dāng)中,分幾次向60%的行向量添加到開(kāi)始矩陣,取決于另一個(gè)分流比ρ2。比如說(shuō),如果ρ2=1/10,增加十次新數(shù)據(jù)到開(kāi)始矩陣。最后由開(kāi)始矩陣與十次增加矩陣之和得到的矩陣就是擾動(dòng)和更新矩陣。
本次實(shí)驗(yàn)的數(shù)據(jù)取自MovieLens數(shù)據(jù)庫(kù)和Jester數(shù)據(jù)庫(kù)。我們選取MovieLens數(shù)據(jù)庫(kù)的10萬(wàn)條評(píng)分集,其中有943位用戶和1682件商品。這十萬(wàn)條評(píng)分,評(píng)分值從1~5,可分為有8萬(wàn)評(píng)分的樣本集和2萬(wàn)評(píng)分的測(cè)試集,兩個(gè)集合都比較稀疏。
Jester數(shù)據(jù)庫(kù)來(lái)自一個(gè)笑話推薦系統(tǒng)的網(wǎng)站,我們選取其中的數(shù)據(jù)集,包括24983位用戶和100條笑話以及1810455個(gè)評(píng)分,評(píng)分值從-10~+10。我們隨機(jī)抽取其中的80%作為樣本集,其余的作為測(cè)試集。與MovieLens數(shù)據(jù)庫(kù)相比,Jester數(shù)據(jù)沒(méi)有那么稀疏。
(一)奇異值分解算法中的縮減的秩(k)的選取
在實(shí)驗(yàn)中我們從{2,5,…,25,50,100}中選取k值,然后計(jì)算相應(yīng)的絕對(duì)平均誤差。MovieLens的結(jié)果如圖2,這個(gè)曲線顯示MAE隨著k值的變化而變化,并且在k=13的時(shí)候有最小值。類似的Jester的實(shí)驗(yàn)結(jié)果顯示k=11的時(shí)候有最小的MAE值。因此,我們?cè)贛ovieLens數(shù)據(jù)集里面選擇k=13,Jester數(shù)據(jù)集里面的k=11是合理的。
(二)分流比ρ2
在本次實(shí)驗(yàn)當(dāng)中,ρ1是固定的40%,也就是樣本集里的40%的數(shù)據(jù)作為起始矩陣,余下的60%的會(huì)加到矩陣?yán)锩?。分別設(shè)置ρ2為1/10,1/9,1/8,…,1/2,1。
圖3描述了不同的分流比ρ2對(duì)應(yīng)的時(shí)間成本。行更新用Row代表,列更新用Column代表。為了消除其中的隨機(jī)影響,設(shè)置μ和σ為零。
圖2 不同秩k值下的MAE變化圖
圖3 隨著分流比ρ2變化的時(shí)間成本圖
MovieLens數(shù)據(jù)的曲線通常是隨著分流比的增大而上升的趨勢(shì),行更新的時(shí)間比列的更新的更長(zhǎng)一些。在Jester數(shù)據(jù)中,當(dāng)ρ2=1/3時(shí),列更新的時(shí)間最短,行更新的時(shí)間比列的更新較短,而且在每次循環(huán)中更新的數(shù)據(jù)越少,需要的時(shí)間越短。分流比不能僅僅通過(guò)時(shí)間因素來(lái)確定,實(shí)驗(yàn)中的預(yù)測(cè)精確度和隱私保護(hù)水平也是關(guān)鍵。
圖3表明更新的時(shí)間取決于行和列的維度。比如說(shuō),MovieLens數(shù)據(jù)集有列比行多,Jester數(shù)據(jù)的列比行少。每一步的行和列的算法顯示,當(dāng)列數(shù)比行數(shù)多的時(shí)候,因?yàn)橛懈叩木S度和,算法中的第一步和第三步需要更多時(shí)間。與插入數(shù)據(jù)的時(shí)間成本相比,進(jìn)行原始樣本集的奇異值分解,該方案在行和列更新上運(yùn)行更快。
圖4顯示,不同分流比ρ2對(duì)應(yīng)的絕對(duì)平均誤差保持不變,說(shuō)明更新數(shù)據(jù)的預(yù)測(cè)精確度受ρ2的影響不大,類似的隱私水平結(jié)果也是如此,如下圖4所示。
通過(guò)以上的分流比ρ2的實(shí)驗(yàn)結(jié)果,我們?cè)O(shè)定在MovieLens數(shù)據(jù)中,行更新和列更新時(shí)ρ2=1/10,在Jester數(shù)據(jù)中行更新是設(shè)定ρ2=1/10,列更新時(shí)設(shè)定ρ2=1/3 。
圖4 隨著分流比ρ2變化的MAE圖
(三)分流比ρ1
由于SVD算法固有的特性,每次運(yùn)算中少不了誤差。數(shù)據(jù)的擁有者應(yīng)該意識(shí)到合適的時(shí)間對(duì)整個(gè)數(shù)據(jù)重新進(jìn)行奇異值分解以便保證數(shù)據(jù)的質(zhì)量,這個(gè)問(wèn)題就是通過(guò)分流比ρ1來(lái)解決。
不同ρ1下更新數(shù)據(jù)的時(shí)間成本如圖5所示,我們預(yù)期更新的行或列數(shù)據(jù)越少花費(fèi)的時(shí)間越少。但是,隨著分流比的不同,相應(yīng)的行更新和列更新的時(shí)間成本保持不變。
圖5 隨著分流比ρ2變化的隱私水平圖
圖6表示了絕對(duì)平均誤差,MovieLens數(shù)據(jù)的曲線在航更新中有一個(gè)下降的趨勢(shì),但是在列更新中保持穩(wěn)定。
圖6 隨著分流比ρ1變化的時(shí)間成本圖
在Jester數(shù)據(jù)中有所不同,隨著分流比ρ1的增加絕對(duì)平均誤差在列更新中有下降趨勢(shì),在行更新中保持穩(wěn)定。這說(shuō)明起始矩陣的評(píng)分值越少,預(yù)測(cè)模型刻畫(huà)用戶偏好的精確度越低,因此導(dǎo)致了更低的預(yù)測(cè)精準(zhǔn)度。關(guān)于行和列對(duì)絕對(duì)平均誤差的影響,取決于行和列的維度。因?yàn)樵谝粋€(gè)評(píng)分矩陣中的信息總量是確定的,假設(shè)每個(gè)矩陣之間的輸入量是相同的,用戶的數(shù)目越少,每個(gè)用戶貢獻(xiàn)的信息就越多。比如,在MovieLens數(shù)據(jù)中,行維度比列維度少,因此用戶比商品扮演更重要的角色,因?yàn)橛脩舯壬唐飞?,所以每個(gè)用戶貢獻(xiàn)的信息量比每個(gè)商品多。因此隨著用戶書(shū)面的增加,絕對(duì)平均誤差減少了。在Jester數(shù)據(jù)中正好相反,行維度比列的多,因此列向量對(duì)于誤差更為關(guān)鍵。如圖7,與未更新的樣本集的絕對(duì)平均誤差MovieLens數(shù)據(jù)的0.7769和Jester數(shù)據(jù)的3.2871相比,當(dāng)更新模型的ρ1為40%時(shí),MovieLens數(shù)據(jù)的行更新為0.7951,列更新為0.7768和Jester數(shù)據(jù)的行更新為3.2870,列更新為3.3221,絕對(duì)平均誤差保持在很好的水平,預(yù)測(cè)模型可用。
圖8展示了隨著分流比變化的隱私水平,起始矩陣中的數(shù)據(jù)越多隱私水平越低,數(shù)據(jù)越多,尤其是用戶越多,對(duì)建構(gòu)模型的貢獻(xiàn)越多,泄露的隱私也就越多。在本次實(shí)驗(yàn)中,行更新的隱私水平都比列更新高,變化速度都比列的更新快。隱私在更新過(guò)程中至關(guān)重要。在已知擾亂的更新數(shù)據(jù)(X)時(shí),得到的樣本集數(shù)據(jù)的隱私的缺失值(Y)的結(jié)果如圖9所示。
圖7 隨著分流比ρ1變化的絕對(duì)平均誤差圖
圖8 隨著分流比ρ1變化的隱私水平圖
隨著分流比的增大,隱私的缺失數(shù)值增大,隱私水平減小。兩個(gè)曲線看起來(lái)是相反的。
從圖6和圖7可以確定整個(gè)數(shù)據(jù)重新進(jìn)行奇異值分解的時(shí)間,由于當(dāng)ρ1大于等于50%之后絕對(duì)平均誤差下降的很慢,并且隱私保護(hù)水平曲線的斜率沒(méi)有顯著的變化,所以重新計(jì)算時(shí)的ρ1設(shè)定為50%。
(四)數(shù)據(jù)更新中的隨機(jī)性
隨機(jī)技術(shù)還未應(yīng)用到我們提出的數(shù)據(jù)更新模型當(dāng)中,但是隨機(jī)性還是對(duì)于數(shù)據(jù)的質(zhì)量和隱私的保護(hù)很重要的。一下的實(shí)驗(yàn)當(dāng)中,ρ1是不變的值40%,ρ2是固定值1/9,我們?cè)囍O(shè)置μ在{0,1}中取值,σ在{0.1,1}當(dāng)中取值。實(shí)驗(yàn)結(jié)果如表1所示。
圖9 隨著分流比ρ1變化的隱私缺失值圖
表1 數(shù)據(jù)更新過(guò)程中的隨機(jī)性因素
在這個(gè)表格中,隨機(jī)的行更新和列更新與沒(méi)有隨機(jī)因素的進(jìn)行比較。在數(shù)據(jù)更新前加入了隨機(jī)擾動(dòng)的新數(shù)據(jù),隱私量和都有一定程度的提高。但是,數(shù)據(jù)的有效性略有下降,MAE也有所增加。因此,應(yīng)該在數(shù)據(jù)的效用和數(shù)據(jù)的隱私之間權(quán)衡,選擇參數(shù)。而且,結(jié)果顯示期望μ比標(biāo)準(zhǔn)差σ更能影響實(shí)驗(yàn)結(jié)果,所以我們優(yōu)先考慮μ。
在基于數(shù)據(jù)更新模型的奇異值分解算法中,我們采用隨機(jī)技術(shù)作為一個(gè)輔助的步驟,以便更好地保護(hù)隱私。在奇異值算法更新前插入數(shù)據(jù)是隨機(jī)的。因此,算上奇異值分解,有兩次數(shù)據(jù)的擾動(dòng),可以提高隱私保護(hù)水平。同時(shí),通過(guò)奇異值分解獲取的潛在因子,我們可以保留關(guān)鍵的信息,確保推薦數(shù)據(jù)的質(zhì)量。
本文提出了一個(gè)基于協(xié)同過(guò)濾技術(shù)的隱私保護(hù)數(shù)據(jù)更新模型,這個(gè)模型是一個(gè)基于隨機(jī)技術(shù)的增量的奇異值分解算法,可以用來(lái)更新增量的用戶商品矩陣同時(shí)保護(hù)隱私。這個(gè)模型試著從三個(gè)方面保護(hù)消費(fèi)者的隱私,分別是缺失數(shù)值的插入,隨機(jī)地?cái)_動(dòng)和縮減的奇異值分解技術(shù)。實(shí)驗(yàn)結(jié)果表明,我們提出的模型可以快速地將更新的數(shù)據(jù)加入到現(xiàn)存的數(shù)據(jù)中,而且在保護(hù)隱私的同時(shí)推薦的精確度依然很高。
[1]ADOMAVICIUS G,TUZHILIN A.Toward the Next Generation of Recommender Systems: A Survey of the State-ofthe-Art and Possible Extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.
[2]GOLDBERG D,NICHOLS D,OKI B,TERRY D.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35:61-70.
[3]KONSTAN J,MILLER B,MALTZ D,HERLOCKER J,et al.GroupLens: Applying Collaborative Filtering to Usenet News[J].Communications of the ACM,1997,40:77-87.
[4]黃宇.基于協(xié)同過(guò)濾的推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京: 北京交通大學(xué),2015.
[5]劉青文.基于協(xié)同過(guò)濾的推薦算法研究[D].北京: 中國(guó)科學(xué)技術(shù)大學(xué),2013.
[6]姚婷.基于協(xié)同過(guò)濾算法的個(gè)性化推薦研究[D].北京: 北京理工大學(xué),2015.
[7]沈鍵.電子商務(wù)的個(gè)性化協(xié)同過(guò)濾推薦算法研究[D].上海: 上海交通大學(xué),2013.
[8]KOREN Y.Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model[C]// The 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Las Vegas: Nevada,2008: 436-434.
[9]SARWAR B,KARYPIS G,KONSTAN J,RIEDL J.Application of Dimensionality Reduction in Recommender Systems[J].In Acm Webkdd Workshop,2000.
[10]張鋒,孫雪冬,常會(huì)友,趙淦森.兩方參與的隱私保護(hù)協(xié)同過(guò)濾推薦研究[J].電子學(xué)報(bào),2009(01): 84-89.
[11]PATEREK A.Improving Regularized Singular Value Decomposition for Collaborative Filtering[J].Proceedings of KDD Cup and Workshop,2007(8):39-42.
[12]李光,王亞?wèn)|.一種改進(jìn)的基于奇異值分解的隱私保持分類挖掘方法[J].電子學(xué)報(bào),2012(04): 739-744.
[13]POLAT H,DU W.Privacy-Preserving Collaborative Filtering [J].International Journal of Electronic Commerce,2005,9(4):9-35.
[14]POLAT H,DU W.SVD-based Collaborative Filtering with Privacy[J].ACM Symposium on Applied Computing,2005,1:791-795.
[15]STEWART G.Perturbation Theory for the Singular Value Decomposition [J].SVD &Signal Processing II Algorithms Analysis &Applications,1996,13(9):99-109.
[16]BRAND M.Fast Low-Rank Modifications of the Thin Singular Value Decomposition [J].Linear Algebra and its Applications,2006,415(1):20-30.
[17]TOUGAS J,SPITERI R.Updating the Partial Singular Value Decomposition in Latent Semantic Indexing [J].Computational Statistics &Data Analysis,2007,52: 174-183.
[18]KOREN Y.Factorization Meets the Neighborhood: a Multifaceted Collaborative Filtering Model[C]// the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Las Vegas: Nevada,2008:436-434.
[19]BERRY M.Large-scale Sparse Singular Value Computations [J].International Journal of High Performance computing Application,1992,6(1):13-49.
[20]ADOMAVICIUS G,TUZHILIN A.Toward the Next Generation of Recommender Systems: A Survey of the State-ofthe-Art and Possible Extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.
Privacy Preservation of Online Real-Time Recommendation Based on the SVD Scheme
LU Ying-jin DU Su-juan
( University of Electronic Science and Technology of China Chengdu 611731 China)
The most personalized recommendation method research of online shopping faces challenges about how to ensure the validity of data during the data sharing process and protect users' personal privacy.In this paper,we propose a privacy preserving scheme of online recommendation based on the SVD algorithm by the truncated SVD update algorithms and randomization techniques.It turns out that the proposed scheme can conduct data efficiently and protect data privacy effectively.It is of important guiding significance for privacy preserving of online consumers.
SVD;privacy preservation;real-time recommendation;collaborative filtering
G206.2
A
10.14071/j.1008-8105(2017)02-0074-08
編 輯 何婧
2015-11-25
國(guó)家自然科學(xué)基金(71372140).
路應(yīng)金(1964-)男,博士,電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院副教授;杜素娟(1993-)女,電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院碩士研究生.