国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模糊核聚類和支持向量機(jī)的魯棒協(xié)同推薦算法

2017-08-16 11:02:44伊華偉張付志巢進(jìn)波
電子與信息學(xué)報(bào) 2017年8期
關(guān)鍵詞:魯棒性分類器準(zhǔn)確性

伊華偉 張付志 巢進(jìn)波

?

基于模糊核聚類和支持向量機(jī)的魯棒協(xié)同推薦算法

伊華偉①②③張付志*①②巢進(jìn)波①②

①(燕山大學(xué)信息科學(xué)與工程學(xué)院 秦皇島 066004)②(河北省計(jì)算機(jī)虛擬技術(shù)與系統(tǒng)集成重點(diǎn)實(shí)驗(yàn)室(燕山大學(xué)) 秦皇島 066004)③(遼寧工業(yè)大學(xué)電子與信息工程學(xué)院 錦州 121001)

該文針對(duì)現(xiàn)有推薦算法在面對(duì)托攻擊時(shí)魯棒性不高的問題,提出一種基于模糊核聚類和支持向量機(jī)的魯棒推薦算法。首先,根據(jù)攻擊概貌間高度相關(guān)的特性,利用模糊核聚類方法在高維特征空間對(duì)用戶概貌進(jìn)行聚類,實(shí)現(xiàn)攻擊概貌的第1階段檢測(cè)。然后,利用支持向量機(jī)分類器對(duì)含有攻擊概貌的聚類進(jìn)行分類,實(shí)現(xiàn)攻擊概貌的第2階段檢測(cè)。最后,基于攻擊概貌檢測(cè)結(jié)果,通過構(gòu)造指示函數(shù)排除攻擊概貌在推薦過程中產(chǎn)生的影響,并引入矩陣分解技術(shù)設(shè)計(jì)相應(yīng)的魯棒協(xié)同推薦算法。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的基于矩陣分解模型的推薦算法相比,所提算法不但具有很好的魯棒性,而且準(zhǔn)確性也有提高。

魯棒推薦算法;托攻擊;矩陣分解;模糊核聚類;支持向量機(jī)

1 引言

協(xié)同過濾推薦系統(tǒng)作為電子商務(wù)快速發(fā)展的一個(gè)重要產(chǎn)物,能夠?yàn)槿藗兲峁┚_又快速的推薦[1,2]。由于推薦系統(tǒng)的開放特性,一些商家為了個(gè)人利益蓄意偽造虛假用戶評(píng)分,并將其注入到系統(tǒng)中干擾正常的決策推薦過程,企圖影響正常的推薦結(jié)果,這種惡意行為被稱為托攻擊(shilling attacks)、推薦攻擊(recommendation attacks)或概貌注入攻擊(profile infection attacks)。根據(jù)攻擊的目的可將托攻擊分為推攻擊和核攻擊[3]。托攻擊的存在嚴(yán)重影響了系統(tǒng)的推薦質(zhì)量以及用戶對(duì)系統(tǒng)的信任。因此,如何降低托攻擊的影響,確保系統(tǒng)推薦結(jié)果的可信性已成為亟待解決的問題。本文的主要目的就是設(shè)計(jì)一種抗攻擊能力強(qiáng)、推薦準(zhǔn)確性高的魯棒推薦算法。

針對(duì)托攻擊問題,目前主要有兩種解決方法:一種是在推薦算法運(yùn)行之前采用托攻擊檢測(cè)技術(shù)識(shí)別攻擊概貌并將其過濾掉,使其不進(jìn)入推薦過程;另一種是采用魯棒推薦技術(shù),提高推薦算法的魯棒性[4]?;谶@兩種方法,人們提出了諸多魯棒推薦算法。

從攻擊檢測(cè)角度,Mehta等人[5]基于攻擊概貌間的高相關(guān)性提出了變量選擇-奇異值分解算法,首先使用主元方法檢測(cè)可疑用戶,然后在推薦模型構(gòu)建過程中排除可疑用戶的干擾。Lee等人[6]提出了一種混合兩階段攻擊檢測(cè)方法,分別利用多維尺度和-means技術(shù)過濾和標(biāo)識(shí)攻擊概貌。Bhaumik等人[7]利用-means技術(shù)把用戶概貌聚成兩類,將用戶概貌數(shù)量少的類判定為攻擊概貌所在類,并將該類中的全部用戶概貌都視為攻擊概貌。李聰?shù)热薣8]通過度量攻擊概貌的群體效應(yīng)構(gòu)建遺傳優(yōu)化的目標(biāo)函數(shù),并在遺傳優(yōu)化過程中融入貝葉斯推斷思想,提出了一種無監(jiān)督檢測(cè)算法。Williams等人[9,10]基于用戶評(píng)分?jǐn)?shù)據(jù)提取若干推薦攻擊特征,并訓(xùn)練有監(jiān)督機(jī)器學(xué)習(xí)算法生成分類器,然后用分類器對(duì)測(cè)試集中用戶概貌進(jìn)行分類。He等人[11]在Williams等人提出的一系列攻擊特征基礎(chǔ)上,提出了一種基于粗糙集理論的托攻擊檢測(cè)方法。伍之昂等人[12]也同樣基于Williams等人提出的一系列攻擊特征,提出了一種基于特征選擇的托攻擊檢測(cè)方法,在一定程度上提高了針對(duì)特定攻擊類型的檢測(cè)效果。李文濤等人[13]從用戶選擇評(píng)分項(xiàng)目方式入手,提出了基于流行度分類特征和決策樹的托攻擊檢測(cè)算法。Zhang等人[14]針對(duì)有監(jiān)督攻擊檢測(cè)方法精度低的問題,基于BP神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)提出一種集成檢測(cè)模型。

為了提高推薦算法的魯棒性,文獻(xiàn)[15,16]對(duì)基于-means聚類、概率潛在語義分析、主成分分析和關(guān)聯(lián)規(guī)則的4種協(xié)同過濾推薦算法進(jìn)行了研究。與傳統(tǒng)的-近鄰方法相比,在面對(duì)托攻擊時(shí)4種算法的魯棒性都有明顯提高,但是準(zhǔn)確性會(huì)有所降低。Mehta等人[17]提出了基于M-估計(jì)量的魯棒推薦算法,但是該方法只適用于中小規(guī)模攻擊。Cheng等人[18]提出了一種基于最小截尾二乘估計(jì)量的魯棒矩陣分解算法,在梯度下降過程中通過丟棄殘差值較大的評(píng)分來抵制惡意攻擊的影響。Yi等人[19]提出了基于-距離與Tukey M-估計(jì)量的魯棒協(xié)同推薦算法,與文獻(xiàn)[17]和文獻(xiàn)[18]相比,在魯棒性和準(zhǔn)確性方面都有提高。李聰?shù)热薣20]提出了用于魯棒協(xié)同推薦的元信息增強(qiáng)變分貝葉斯矩陣分解模型,將用戶嫌疑性及項(xiàng)類屬等原信息與貝葉斯概率矩陣分解模型相融合,有效提高了推薦系統(tǒng)的魯棒性。張燕平等人[21]結(jié)合協(xié)同過濾推薦領(lǐng)域內(nèi)的隱語義模型并引入用戶聲譽(yù)系數(shù),提出了基于用戶聲譽(yù)的隱語義模型魯棒協(xié)同算法,從人為攻擊和自然噪聲兩個(gè)方面對(duì)系統(tǒng)的魯棒性進(jìn)行了改善,在準(zhǔn)確性得到一定提升的情況下增強(qiáng)了系統(tǒng)抵御攻擊的能力。李改等人[22]將Sigmoid和Fidelity兩個(gè)成對(duì)損失函數(shù)分別與基于矩陣分解和基于最近鄰的協(xié)同過濾推薦算法進(jìn)行結(jié)合,提出了兩個(gè)魯棒的單類協(xié)同排序算法,在含有大量噪聲數(shù)據(jù)點(diǎn)的真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,提出的算法在各個(gè)評(píng)價(jià)指標(biāo)下均優(yōu)于當(dāng)前最新的單類協(xié)同排序算法。

已有的魯棒推薦算法具有一定的抗攻擊能力,但是存在一些不足,一是容易將真實(shí)概貌誤判為攻擊概貌,導(dǎo)致算法準(zhǔn)確性受損;二是算法魯棒性的提高是以損失準(zhǔn)確性為代價(jià)的。

為了解決上述問題,本文提出一種基于模糊核聚類和支持向量機(jī)的魯棒協(xié)同推薦算法(RCR- FKCSVM)。與現(xiàn)有魯棒推薦算法相比,本文算法綜合考慮了托攻擊檢測(cè)技術(shù)和魯棒推薦技術(shù)。首先基于托攻擊檢測(cè)技術(shù),對(duì)攻擊概貌進(jìn)行識(shí)別和標(biāo)記;然后運(yùn)用魯棒推薦技術(shù),降低攻擊概貌對(duì)推薦結(jié)果的影響。本文的主要貢獻(xiàn)包括:(1)提出了一種基于模糊核聚類的攻擊概貌檢測(cè)算法。依據(jù)攻擊概貌之間的高度相關(guān)特性,利用模糊核聚類方法對(duì)用戶概貌進(jìn)行聚類,實(shí)現(xiàn)攻擊概貌的第1階段檢測(cè)。(2)提出了一種基于支持向量機(jī)的攻擊概貌識(shí)別算法。利用支持向量機(jī)分類器對(duì)含有攻擊概貌的類進(jìn)行分類,實(shí)現(xiàn)攻擊概貌的第2階段檢測(cè)。(3)將攻擊檢測(cè)結(jié)果融入矩陣分解模型,設(shè)計(jì)一種魯棒協(xié)同推薦算法,在MovieLens數(shù)據(jù)集上與現(xiàn)有相關(guān)算法從評(píng)分預(yù)測(cè)和top-推薦兩個(gè)方面進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)算法的準(zhǔn)確性和魯棒性進(jìn)行性能評(píng)價(jià),以驗(yàn)證所提算法的有效性。

2 基于模糊核聚類和支持向量機(jī)的魯棒協(xié)同推薦算法RCR-FKCSVM

本文提出的魯棒協(xié)同推薦算法RCR-FKCSVM框架如圖1所示。從圖1可以看出,算法主要由基于模糊核聚類的攻擊概貌檢測(cè)、基于支持向量機(jī)的攻擊概貌識(shí)別和基于矩陣分解模型的魯棒推薦3部分構(gòu)成。

圖1 魯棒協(xié)同推薦算法RCR-FKCSVM框架圖

2.1基于模糊核聚類的攻擊概貌檢測(cè)

通常情況下,受生成模型的影響,攻擊概貌彼此之間具有較高的相似度。因此,根據(jù)概貌間的相似度,利用模糊核聚類對(duì)用戶概貌進(jìn)行聚類,將用戶概貌聚為兩類,一類是真實(shí)概貌的類,一類是含有攻擊概貌的類。設(shè)含有個(gè)用戶概貌的數(shù)據(jù)集合,通過核函數(shù)將映射到高維特征空間,在中完成用戶概貌的聚類。本文采用高斯核函數(shù),其中,為高斯核函數(shù)的寬度(本文取)。

基于模糊核聚類的攻擊概貌檢測(cè)算法(APD-FKC)如表1的算法1所示。

2.2 基于支持向量機(jī)的攻擊概貌識(shí)別

本節(jié)提出了基于支持向量機(jī)的攻擊概貌識(shí)別方法(API-SVM),采用文獻(xiàn)[9]和文獻(xiàn)[10]提出的關(guān)于推薦攻擊的13個(gè)用戶概貌特征。將訓(xùn)練集樣本表示為特征向量的形式,然后用特征向量組成的訓(xùn)練集來訓(xùn)練支持向量機(jī)生成SVM分類器。在識(shí)別過程中,首先對(duì)算法1得到的聚類結(jié)果進(jìn)行類別判定,根據(jù)文獻(xiàn)[23],將用戶概貌評(píng)分偏離度的平均值較小的類作為含有攻擊概貌的聚類,然后將該類作為待識(shí)別用戶概貌集,根據(jù)上面提到的13個(gè)概貌特征將其映射到特征空間,得到待識(shí)別用戶概貌集所對(duì)應(yīng)的特征向量集,最后利用已訓(xùn)練好的SVM分類器對(duì)其進(jìn)一步識(shí)別攻擊概貌,排除部分真實(shí)用戶概貌,得到最終的攻擊概貌集合。

表1 APD-FKC算法

基于上述分析,給出基于支持向量機(jī)的攻擊概貌識(shí)別算法(API-SVM)如表2的算法2所示。

2.3基于矩陣分解模型的魯棒協(xié)同推薦算法

本節(jié)基于SVM分類器識(shí)別得到的攻擊概貌結(jié)果,結(jié)合矩陣分解模型[18],設(shè)計(jì)魯棒協(xié)同推薦算法RCR-FKCSVM。算法的預(yù)測(cè)評(píng)分公式為,為了得到用戶特征向量和項(xiàng)目特征向量,通過梯度下降分別對(duì)和進(jìn)行迭代更新:

(2)

(3)

表2 API-SVM算法

(5)

從式(1)和式(4)可以看出,在梯度下降過程中,如果是攻擊概貌,根據(jù)指示函數(shù)的取值,只對(duì)進(jìn)行更新,保持不變,因此可以降低攻擊概貌對(duì)的影響,提高算法的魯棒性。最后得到用戶特征矩陣和項(xiàng)目特征矩陣,實(shí)現(xiàn)對(duì)用戶的魯棒推薦。

基于上述算法思想,給出基于模糊核聚類和支持向量機(jī)的魯棒協(xié)同推薦算法RCR-FKCSVM描述如表3的算法3。

3 實(shí)驗(yàn)與評(píng)價(jià)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文實(shí)驗(yàn)采用美國(guó)明尼蘇達(dá)大學(xué)Grouplens研究小組公布的Movielens 100K公共數(shù)據(jù)集。該數(shù)據(jù)集由943名用戶對(duì)1682部電影的10萬條評(píng)分?jǐn)?shù)據(jù)組成,評(píng)分值為1~5之間的任一整數(shù),評(píng)分值越大,說明用戶對(duì)該部電影的偏好程度就越大。為了驗(yàn)證算法的性能,將整個(gè)數(shù)據(jù)集的80%用作訓(xùn)練集,20%用作測(cè)試集。

3.2性能評(píng)價(jià)指標(biāo)

為了評(píng)價(jià)評(píng)分預(yù)測(cè)算法的準(zhǔn)確性和魯棒性,我們采用平均絕對(duì)誤差(Mean Absolute Error, MAE)和預(yù)測(cè)偏差(Prediction Shift, PS)作為各自的評(píng)價(jià)指標(biāo),計(jì)算公式為[24]

(7)

為了評(píng)價(jià)top-推薦算法的準(zhǔn)確性和魯棒性,我們采用召回率(Recall)和命中率(Hit Ratio, HR) 作為各自的評(píng)價(jià)指標(biāo),計(jì)算公式為[25]

表3 RCR-FKCSVM算法

(9)

3.3 實(shí)驗(yàn)結(jié)果與性能分析

為了評(píng)價(jià)本文算法RCR-FKCSVM的性能,我們將其與下面3種算法進(jìn)行對(duì)比。(1) MMF: Mehta等人[17]提出的基于M-估計(jì)量的矩陣分解方法。(2) LTSMF: Cheng等人[18]提出的基于最小截尾二乘估計(jì)量的矩陣分解方法。(3)RCR-FKC:首先利用模糊核聚類對(duì)用戶概貌進(jìn)行聚類,然后進(jìn)行類別判斷,識(shí)別出含有攻擊概貌的類,并將該類中全部用戶概貌標(biāo)識(shí)為攻擊概貌,最后進(jìn)行基于矩陣分解的魯棒推薦。

3.3.1評(píng)分預(yù)測(cè)算法的準(zhǔn)確性及魯棒性對(duì)比分析 為了評(píng)價(jià)攻擊概貌存在情況下算法的預(yù)測(cè)準(zhǔn)確性及魯棒性,向訓(xùn)練集中分別注入均值攻擊和AOP攻擊這兩種不同類型的攻擊概貌,攻擊規(guī)模和填充規(guī)模如表4~表5中所示。各算法在不同的攻擊類型、攻擊規(guī)模和填充規(guī)模下的MAE值和PS值的實(shí)驗(yàn)對(duì)比結(jié)果如表4~表5所示。實(shí)驗(yàn)過程中注入的攻擊為推攻擊。

從表4和表5可以看出,在不同類型攻擊下,算法MMF和LTSMF的MAE值均在0.75以上,隨著攻擊規(guī)模和填充規(guī)模的增加,二者的MAE值波動(dòng)范圍不大,說明算法的穩(wěn)定性較好。算法RCR- FKC的MAE值在0.7360~0.7449之間,同算法MMF和LTSMF相比,MAE值偏小,原因是算法RCR-FKC在預(yù)測(cè)運(yùn)行之前利用模糊核聚類方法將攻擊概貌聚到同一類內(nèi),將含有攻擊概貌的類內(nèi)用戶概貌全部標(biāo)識(shí)為攻擊概貌,從而在預(yù)測(cè)過程中排除攻擊概貌的影響,有效提高算法的預(yù)測(cè)準(zhǔn)確性。算法RCR-FKCSVM的MAE值在0.7295~0.7358之間,在4種推薦算法中MAE值是最小的。相比算法RCR-FKC來說,算法RCR-FKCSVM在模糊核聚類之后,針對(duì)含有攻擊概貌的類利用SVM分類器再次對(duì)其進(jìn)行攻擊概貌的識(shí)別,有助于保留部分真實(shí)概貌,進(jìn)一步提高算法的預(yù)測(cè)準(zhǔn)確性,也驗(yàn)證了利用SVM分類器進(jìn)一步識(shí)別攻擊概貌的必要性。因此,在系統(tǒng)被注入攻擊概貌的情況下,同算法MMF, LTSMF和RCR-FKC相比,本文算法RCR-FKCSVM的預(yù)測(cè)準(zhǔn)確性最好。

從表4和表5可以看出,在均值攻擊下,算法MMF的PS值變化范圍在0.9057~1.7731之間,算法LTSMF的PS值變化范圍在0.7700~1.6167之間;在AOP攻擊下,算法MMF的PS值變化范圍在0.9595~1.8735之間,算法LTSMF的PS值變化范圍在0.8599~1.7193之間。由此可見,算法LTSMF的魯棒性要好于算法MMF,原因是算法LTSMF利用最小截?cái)喽斯烙?jì)量對(duì)參數(shù)進(jìn)行魯棒估計(jì),通過排除殘差較大的攻擊概貌來提高算法的魯棒性。在AOP攻擊下,相比均值攻擊,算法MMF和LTSMF的PS值要偏大,原因是AOP攻擊選取一定比例的流行項(xiàng)目作為填充項(xiàng),使攻擊概貌與真實(shí)概貌間具有很高的相似性,以致一些攻擊概貌被當(dāng)作真實(shí)用戶概貌進(jìn)入到預(yù)測(cè)過程中,導(dǎo)致預(yù)測(cè)偏差增大。對(duì)于算法RCR-FKC和RCR-FKCSVM來說,在均值攻擊和AOP攻擊下,算法的PS值變化范圍均在0.1以下,相比算法MMF和LTSMF的PS值來說要小很多,所以算法RCR-FKC和RCR-FKCSVM的魯棒性要優(yōu)于算法MMF和LTSMF。而算法RCR- FKCSVM和RCR-FKC的PS值差別不是很大,說明在模糊核聚類之后,已經(jīng)成功地將攻擊概貌聚到同一類內(nèi),從而驗(yàn)證了模糊核聚類的有效性。綜上,算法RCR-FKCSVM的魯棒性最好,是因?yàn)槭紫韧ㄟ^模糊核聚類將用戶概貌映射到高維特征空間,放大用戶概貌之間的特征,使得用戶概貌間具有更好的分離性,能夠?qū)⒐舾琶簿鄣酵活悆?nèi),然后又利用SVM分類器對(duì)含有攻擊概貌類進(jìn)一步識(shí)別,將攻擊概貌與類內(nèi)真實(shí)概貌進(jìn)行分離,最大限度地保留了真實(shí)用戶概貌,在提高算法魯棒性的同時(shí)提高預(yù)測(cè)準(zhǔn)確性。

表4均值攻擊下各算法的MAE和PS對(duì)比

填充規(guī)模(%)攻擊規(guī)模(%) 1246810 353535353535 MMFMAE0.75380.75470.75300.75310.75300.75280.75240.75320.75420.75430.75340.7535 PS0.90570.94251.33471.35361.55861.57941.63361.64411.72241.67391.74941.7731 LTSMFMAE0.75100.75080.75080.75070.75140.75210.75000.75030.75090.75210.75030.7518 PS0.77000.85611.17731.20311.39391.40991.4581.49921.55051.52851.57981.6167 RCR-FKCMAE0.74250.74170.74210.74200.74190.74240.74060.74180.74100.74070.74160.7406 PS0.07130.06780.06590.0690.07160.13540.06960.06790.07640.13450.07890.1234 RCR-FKCSVMMAE0.73070.73150.73200.73180.73210.72960.73580.73150.73060.72970.73050.7314 PS0.06330.06880.06430.06860.07040.12870.06770.0660.07590.11210.07440.1107

填充規(guī)模(%)攻擊規(guī)模(%) 1246810 353535353535 MMFMAE0.75690.75470.75560.75310.75890.75580.75900.75620.75420.75630.75640.7555 PS0.95950.99811.44651.55621.67461.67821.84391.84671.82891.83521.9361.8735 LTSMFMAE0.75300.75080.75230.75150.75280.75210.75140.75270.75150.75330.75220.7528 PS0.85990.94641.30191.35651.50771.56541.67331.73471.66051.72751.71851.7193 RCR-FKCMAE0.74490.73970.73600.74200.74090.74240.73960.73980.74100.74070.74160.7406 PS0.0660.07430.06770.0780.06530.07430.07660.07570.06890.07230.06770.076 RCR-FKCSVMMAE0.73090.73190.72950.73100.73120.73230.73220.72950.73070.73200.73000.7313 PS0.06450.07070.06760.0720.06640.07230.06720.07650.06790.07080.06710.0756

3.3.2 top-推薦算法的準(zhǔn)確性及魯棒性對(duì)比分析

為了檢驗(yàn)推薦列表的長(zhǎng)度對(duì)推薦準(zhǔn)確性的影響,本文在未注入攻擊情況下,根據(jù)的不同取值情況,將各算法的召回率進(jìn)行了對(duì)比,具體結(jié)果如圖2所示。

從圖2可以看出,隨著推薦列表長(zhǎng)度的逐漸增大,4種算法的召回率也逐漸增大。由此可知,為目標(biāo)用戶推薦的項(xiàng)目個(gè)數(shù)越多,其中包含用戶喜歡的項(xiàng)目也就越多。在同一推薦列表長(zhǎng)度下,算法RCR-FKCSVM的召回率最高,算法RCR-FKC的召回率較高,算法LTSMF的召回率次之,算法MMF的召回率最低。正如3.3.1節(jié)中所述,本文提出的RCR-FKCSVM算法首先采用模糊核聚類對(duì)用戶概貌進(jìn)行聚類,將攻擊概貌聚到同一類內(nèi),然后又利用SVM分類器進(jìn)一步對(duì)攻擊概貌進(jìn)行識(shí)別,最大限度地保留了真實(shí)用戶概貌,能夠有效提高算法的推薦準(zhǔn)確性。

圖2 不同推薦列表長(zhǎng)度下各算法的召回率變化情況

采用3.3.1節(jié)中所述的實(shí)驗(yàn)設(shè)置方式,對(duì)攻擊概貌存在情況下各算法的推薦準(zhǔn)確性及魯棒性進(jìn)行了對(duì)比。在實(shí)驗(yàn)過程中,我們選取推薦列表長(zhǎng)度=70。各算法在不同的攻擊類型、攻擊規(guī)模和填充規(guī)模下的Recall值和HR值如表6和表7所示。

從表6和表7中的Recall值可以看出,在不同的攻擊類型、填充規(guī)模和攻擊規(guī)模下,算法RCR- FKCSVM的Recall值在4種算法當(dāng)中是最大的,召回率越大,說明算法的推薦準(zhǔn)確性越高,從而證明算法RCR-FKCSVM的推薦準(zhǔn)確性是最好的。從表6和表7的HR值可以看出,對(duì)于算法MMF和LTSMF來說,在填充規(guī)模為3%和5%的情況下,當(dāng)均值攻擊和AOP攻擊的攻擊規(guī)模超過1%時(shí),HR值就已經(jīng)接近1了,說明系統(tǒng)被注入攻擊概貌后,攻擊項(xiàng)幾乎出現(xiàn)在所有目標(biāo)用戶的推薦列表當(dāng)中,被推薦給目標(biāo)用戶,因此說明這兩種算法的抗攻擊能力差,魯棒性弱。對(duì)于算法RCR-FKC和RCR- FKCSVM來說,在推薦列表長(zhǎng)度被設(shè)置為70的情況下,兩種算法的HR值均為0,說明系統(tǒng)被注入攻擊概貌后,攻擊項(xiàng)并未出現(xiàn)在各用戶的推薦列表里,從而也說明了這兩種算法未受攻擊概貌的影響,魯棒性強(qiáng)。綜合上述分析,算法RCR-FKC和RCR- FKCSVM能夠抵制攻擊概貌影響系統(tǒng)的推薦結(jié)果,而算法RCR-FKCSVM相比RCR-FKC來說,能夠進(jìn)一步保留真實(shí)用戶概貌,在保證系統(tǒng)推薦準(zhǔn)確性的基礎(chǔ)上提高魯棒性。

表6均值攻擊下各算法的Recall值和HR值對(duì)比

填充規(guī)模(%)攻擊規(guī)模(%) 1246810 353535353535 MMFRecall(%)47.8247.1347.2548.0748.0746.9547.0047.8248.1947.6947.9446.87 HR000.98420.98730.98890.98890.98890.98890.98890.98890.98890.9889 LTSMFRecall(%)48.3248.4448.0748.9248.8848.1748.5048.0648.9148.9448.0047.20 HR0.001600.98100.98260.98890.98890.98890.98890.98890.98890.98890.9889 RCR-FKCRecall(%)49.3249.3448.9949.7849.7249.0249.0248.9149.3849.4549.0248.34 HR000000000000 RCR-FKCSVMRecall(%)50.8650.1249.9350.4951.1650.1850.9949.9850.0550.3749.9249.98 HR000000000000

填充規(guī)模(%)攻擊規(guī)模(%) 1246810 353535353535 MMFRecall(%)47.1248.9947.6846.8947.4547.5147.6347.0947.5747.2547.6948.12 HR00.00630.98890.98890.98890.98890.98890.98890.98890.98890.98890.9889 LTSMFRecall(%)48.1949.1148.3148.3148.1948.6948.1948.7648.1848.0748.3049.01 HR00.02060.98730.98890.98890.98890.98890.98890.98890.98890.98890.9889 RCR-FKCRecall(%)48.9050.0248.9549.6749.0049.2248.7949.1249.0248.9949.0149.89 HR000000000000 RCR-FKCSVMRecall(%)49.9150.9949.8650.8050.1750.3049.9350.1749.8050.0649.8750.90 HR000000000000

3.3.3算法運(yùn)行時(shí)間對(duì)比分析 為了評(píng)價(jià)算法的時(shí)間性能,將填充規(guī)模為5%和攻擊規(guī)模為6%的均值攻擊注入到訓(xùn)練集中,并以該情況為例,分別運(yùn)行文中提出的算法和對(duì)比算法,記錄各自的模型訓(xùn)練時(shí)間和在線預(yù)測(cè)時(shí)間,對(duì)各算法進(jìn)行時(shí)間性能對(duì)比分析。其中在線預(yù)測(cè)時(shí)間是指測(cè)試集中全部用戶預(yù)測(cè)評(píng)分時(shí)間的平均值。

從表8可以看出,對(duì)模型訓(xùn)練時(shí)間來說,算法RRA-FKCSVM用時(shí)稍長(zhǎng)一些,因?yàn)槭紫纫M(jìn)行模糊核聚類和SVM分類操作,然后再對(duì)用戶特征矩陣和項(xiàng)目特征矩陣進(jìn)行迭代運(yùn)算;其次是算法RRA-FKC,主要包括模糊核聚類操作以及對(duì)用戶特征矩陣和項(xiàng)目特征矩陣進(jìn)行迭代運(yùn)算;算法MMF和LTSMF用時(shí)相差不大,主要對(duì)用戶特征矩陣和項(xiàng)目特征矩陣進(jìn)行迭代運(yùn)算。對(duì)在線預(yù)測(cè)時(shí)間來說,4種算法用時(shí)幾乎沒有差別,時(shí)間都很短。結(jié)合3.3.1節(jié)和3.3.2節(jié)的實(shí)驗(yàn)結(jié)果,本文算法RRA-FKCSVM在保證時(shí)間性能的前提下,算法的評(píng)分預(yù)測(cè)性能均優(yōu)于其他3種對(duì)比算法。

表8各算法的時(shí)間性能對(duì)比

算法迭代次數(shù)模型訓(xùn)練時(shí)間(s)在線預(yù)測(cè)時(shí)間(s) MMF6068.7910.231 LTSMF6067.2330.226 RRA-FKC5070.3860.212 RRA-FKCSVM5079.1020.229

4 結(jié)束語

如何使推薦系統(tǒng)不受惡意攻擊的影響是保障推薦質(zhì)量的關(guān)鍵,本文在這方面進(jìn)行了有益的探索和嘗試。提出了一種基于模糊核聚類的攻擊檢測(cè)方法,根據(jù)概貌間的相似度將攻擊概貌聚到同一類內(nèi)。提出了一種基于SVM分類器的攻擊概貌檢測(cè)方法,進(jìn)一步識(shí)別攻擊概貌。通過構(gòu)造指示函數(shù)將攻擊概貌檢測(cè)結(jié)果融入到基于矩陣分解模型的推薦算法中,提出魯棒推薦算法RCR-FKCSVM。同現(xiàn)有的魯棒推薦算法相比,本文提出的算法在保證預(yù)測(cè)準(zhǔn)確性和推薦準(zhǔn)確性的前提下,提高了算法的魯棒性。下一步工作是提高SVM分類器的檢測(cè)性能,嘗試提出更有效的推薦攻擊特征來精準(zhǔn)地識(shí)別攻擊概貌,減少誤判,提高算法的準(zhǔn)確性。

[1] 孟祥武, 劉樹棟, 張玉潔, 等. 社會(huì)化推薦系統(tǒng)研究[J]. 軟件學(xué)報(bào), 2015, 26(6): 1356-1372.

MENG Xiangwu, LIU Shudong, ZHANG Yujie,. Research on social recommendation systems[J]., 2015, 26(6): 1356-1372.

[2] CHEN L, CHEN G L, WANG F. Recommender systems based on user reviews: The state of the art[J].-, 2015, 25(2): 99-154. doi: 10.1007/s11257-015-9155-5.

[3] GUNES I, KALELI C, BILGE A,. Shilling attacks against recommender systems: A comprehensive survey[J]., 2014, 42(4): 767-799. doi: 10.1007/s10462-012-9364-9.

[4] O'MAHONY M, HURLEY N, KUSHMERICK N,. Collaborative recommendation: A robustness analysis[J]., 2004, 4(4): 344-377. doi: 10.1145/1031114.1031116.

[5] MEHTA B and NEJDL W. Attack resistant collaborative filtering[C]. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, 2008: 75-82.

[6] LEE J and ZHU D. Shilling attack detection-a new approach for a trustworthy recommender system[J]., 2012, 24(1): 117-131. doi: 10.1287/ijoc.1100. 0440.

[7] BHAUMIK R, MOBASHER B, and BURKE R. A clustering approach to unsupervised attack detection in collaborative recommender systems[C]. Proceedings of the 7th International Conference on Data Mining, IEEE Computer Society, Washington: 2011: 181-187.

[8] 李聰, 駱志剛, 石金龍. 一種探測(cè)推薦系統(tǒng)托攻擊的無監(jiān)督算法[J]. 自動(dòng)化學(xué)報(bào), 2011, 37(2): 160-167.

LI Cong, LUO Zhigang, and SHI Jinlong. An unsupervised algorithm for detecting shilling attacks on recommender systems[J]., 2011, 37(2): 160-167.

[9] WILLIAMS C A, MOBASHER B, BURKE R,. Detecting profile injection attacks in collaborative filtering: A classification-based approach[C]. Proceedings of the 8th Knowledge Discovery on the Web International Conference on Advances in Web Mining and Web Usage Analysis, Berlin, 2007: 167-186.

[10] WILLIAMS C, MOBASHER B, and BURKE R. Defending recommender systems: Detection of profile injection attacks [J]., 2007, 1(3): 157-170. doi: 10.1007/s11761-007-0013-0.

[11] HE F, WANG X, and LIU B. Attack detection by rough set theory in recommendation system[C]. 2010 IEEE International Conference on Granular Computing, Washington, 2010: 692-695.

[12] 伍之昂, 莊毅, 王有權(quán), 等. 基于特征選擇的推薦系統(tǒng)托攻擊檢測(cè)算法[J]. 電子學(xué)報(bào), 2012, 40(8): 1687-1693. doi: 10.3969/ j.issn.0372-2112.2012.08.031.

WU Zhiang, ZHUANG Yi, WANG Youquan,. Shilling attack detection based on feature selection for recommendation systems[J]., 2012, 40(8): 1687-1693. doi: 10.3969/j.issn.0372-2112.2012.08.031.

[13] 李文濤, 高旻, 李華, 等. 一種基于流行度分類特征的托攻擊檢測(cè)算法. 自動(dòng)化學(xué)報(bào), 2015, 41(9): 1563-1575.

LI Wentao, GAO Min, LI Hua,. An shilling attack detection algorithm based on popularity degree features[J]., 2015, 41(9): 1563-1575. doi: 10.16383/j.aas.2015.c150040.

[14] ZHANG F and ZHOU Q. Ensemble detection model for profile injection attacks in collaborative recommender systems based on BP neural network[J]., 2015, 9(1): 24-31. doi: 10.1049/iet-ifs.2013.0145.

[15] SANDVIG J J, MOBASHER B, and BURKE R. A survey of collaborative recommendation and the robustness of model-based algorithms[J]., 2008, 31(2): 3-13.

[16] SANDVIG J J, MOBASHER B, and BURKE R. Robustness of collaborative recommendation based on association rule mining[C]. Proceedings of the 2007 ACM Conference on Recommender Systems, Minneapolis, 2007: 105–112.

[17] MEHTA B, HOFMANN T, and NEJDL W. Robust collaborative filtering[C]. ACM Conference on Recommender Systems, Recsys, Minneapolis, MN, USA, 2007: 49-56.

[18] CHENG Z and HURLEY N. Robust collaborative recommendation by least trimmed squares matrix factorization[C]. Proceedings of the 22nd IEEE International Conference on Tools with Artificial Intelligence, Arras, France, 2010: 105-112.

[19] YI Huawei and ZHANG Fuzhi. A robust collaborative recommendation algorithm based on-distance and Tukey M-estimator[J]., 2014, 11(9): 119-130. doi: 10.1109/CC.2014.6969776.

[20] 李聰, 駱志剛. 用于魯棒協(xié)同推薦的元信息增強(qiáng)變分貝葉斯矩陣分解模型[J]. 自動(dòng)化學(xué)報(bào), 2011, 37(9): 1067-1076.

LI Cong and LUO Zhigang. A metadata-enhanced variational Bayesian matrix factorization model for robust collaborative recommendation[J]., 2011, 37(9): 1067-1076.

[21] 張燕平, 張順, 錢付蘭, 等. 基于用戶聲譽(yù)的魯棒協(xié)同推薦算法[J]. 自動(dòng)化學(xué)報(bào), 2015, 41(5): 1004-1012. doi: 10.16383/j. aas.2015.c140073.

ZHANG Yanping, ZHANG Shun, QIAN Fulan,. Robust collaborative recommendation algorithm based on user’s reputation[J]., 2015, 41(5): 1004-1012. doi: 10.16383/j.aas.2015.c140073.

[22] 李改, 李磊. 魯棒的單類協(xié)同排序算法[J]. 自動(dòng)化學(xué)報(bào), 2015, 41(2): 405-418. doi: 10.16383/j.aas.2015.c140231.

LI Gai and LI Lei. Robust ranking algorithms for one-class collaborative filtering[J]., 2015, 41(2): 405-418. doi: 10.16383/j.aas.2015.c140231.

[23] YI H and ZHANG F. Robust recommendation algorithm based on the identification of suspicious users and matrix factorization[J]., 2014, 11(13): 4769-4777. doi: 10.12733/ JICS20104307.

[24] RICCI F, SHAPIRA B, and ROKACH L. Recommender Systems Handbook[M]. New York, Springer US, 2015: 961-995. doi: 10.1007/978-1-4899-7637-6_28.

[25] DESHPANDE M and KARYPIS G. Item-based top-recommendation algorithms[J]., 2004, 22(1): 143-177.

Robust Collaborative Recommendation Algorithm Based on Fuzzy Kernel Clustering and Support Vector Machine

YI Huawei①②③ZHANG Fuzhi①②Chao Jinbo①②

①(,,066004,)②((),066004)③(,,121001,)

The existing collaborative recommendation algorithms have low robustness against shilling attacks. To solve this problem, a robust collaborative recommendation algorithm is proposed based on Fuzzy Kernel Clustering (FKC) and Support Vector Machine (SVM). Firstly, according to the high correlation characteristic between attack profiles, the FKC method is used to cluster user profiles in high-dimensional feature space, which is the first stage of the attack profile detection. Then, the SVM classifier is used to classify the cluster including attack profiles, which is the second stage of the attack profile detection. Finally, an indicator function is constructed based on the attack detection results to reduce the influence of attack profiles on the recommendation, and it is combined with the matrix factorization technology to devise the corresponding robust collaborative recommendation algorithm. Experimental results show that the proposed algorithm outperforms the existing methods in terms of both recommendation accuracy and robustness.

Robust recommendation algorithm; Shilling attacks;Matrix factorization; Fuzzy Kernel Clustering (FKC); Support Vector Machine (SVM)

TP391; TP311

A

1009-5896(2017)08-1942-08

10.11999/JEIT161154

2016-10-27;

改回日期:2017-04-19;

2017-05-11

張付志 xjzfz@ysu.edu.cn

國(guó)家自然科學(xué)基金(61379116),河北省自然科學(xué)基金(F2015203046),遼寧省教育廳科學(xué)研究項(xiàng)目(L2015240)

The National Natural Science Foundation of China (61379116), The Natural Science Foundation of Hebei Province (F2015203046), The Scientific Research Foundation of Liaoning Provincial Education Department (L2015240)

伊華偉: 女,1978年生,副教授,研究方向?yàn)橥扑]系統(tǒng)、信息安全.

張付志: 男,1964年生,教授,研究方向?yàn)橹悄芫W(wǎng)絡(luò)信息處理、網(wǎng)絡(luò)與信息安全、面向服務(wù)計(jì)算.

巢進(jìn)波: 女,1977年生,講師,研究方向?yàn)榫W(wǎng)絡(luò)與信息安全.

猜你喜歡
魯棒性分類器準(zhǔn)確性
淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
論股票價(jià)格準(zhǔn)確性的社會(huì)效益
松江区| 庄浪县| 自治县| 资源县| 桃源县| 襄城县| 雅安市| 蒙城县| 南投市| 宁乡县| 吴旗县| 依兰县| 巫溪县| 福建省| 盐津县| 香港| 宁国市| 简阳市| 和林格尔县| 儋州市| 宜城市| 阳东县| 盈江县| 施秉县| 尼勒克县| 莆田市| 肇东市| 沙河市| 拜城县| 米易县| 商洛市| 樟树市| 革吉县| 柳林县| 安福县| 山阳县| 固安县| 汝阳县| 湟源县| 翼城县| 顺义区|