一種基于相似度的混合推薦方法

2015-06-05 08:56:50胡三寧

三門峽職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2015年2期

關(guān)鍵詞：標(biāo)簽聚類個(gè)性化

◎胡三寧

(三門峽職業(yè)技術(shù)學(xué)院教務(wù)處，河南三門峽472000)

一種基于相似度的混合推薦方法

◎胡三寧

(三門峽職業(yè)技術(shù)學(xué)院教務(wù)處，河南三門峽472000)

提出了一種基于用戶興趣及標(biāo)簽相似度的混合推薦算法，構(gòu)建基于標(biāo)簽的用戶興趣模型，通過計(jì)算與資源相似度完成推薦，同時(shí)融合時(shí)間因素研究用戶興趣變化，提高了基于內(nèi)容的推薦中相似度計(jì)算的準(zhǔn)確率；根據(jù)用戶興趣相似度聚類用戶，通過興趣協(xié)同推薦減少對(duì)評(píng)分矩陣的依賴，一定程度上解決了協(xié)同過濾中推薦數(shù)據(jù)缺失問題；同時(shí)，結(jié)合用戶基本信息有望緩解冷啟動(dòng)問題。實(shí)驗(yàn)表明該算法具有一定的有效性及可行性。

用戶興趣；標(biāo)簽；相似度；混合推薦

在Web技術(shù)高速發(fā)展的今天，互聯(lián)網(wǎng)上的信息呈指數(shù)級(jí)劇增[1]。然而面對(duì)海量的、分散的數(shù)字化資源，渴望進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)的用戶卻往往無法準(zhǔn)確獲得滿足其需要的資源。即盡管“資源海洋”表現(xiàn)為“信息過載”，但由于海量資源與學(xué)習(xí)者個(gè)性化需求之間存在的較大的供需矛盾，仍不可避免的造成了有用信息的“匱乏”[2]。為解決這一矛盾，個(gè)性化推薦技術(shù)應(yīng)用而生，并逐漸成為領(lǐng)域研究熱點(diǎn)。筆者在總結(jié)現(xiàn)有個(gè)性化推薦技術(shù)的基礎(chǔ)上，提出一種基于用戶及標(biāo)簽相似度的混合推薦方法。經(jīng)過實(shí)驗(yàn)驗(yàn)證，該方法具有一定的可行性。

1 個(gè)性化推薦技術(shù)

文獻(xiàn)[3]給出推薦系統(tǒng)的非形式化概念：“利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議，幫助用戶決定應(yīng)該購(gòu)買什么產(chǎn)品，模擬銷售人員幫助客戶完成購(gòu)買過程?！毕鄳?yīng)的，文獻(xiàn)[4,5,6]給出推薦系統(tǒng)的形式化定義：設(shè)C是所有用戶(user)的集合，S是所有可以推薦給用戶的對(duì)象(object)的集合，實(shí)際中，C和S集合的規(guī)模通常很大,如上百萬的顧客以及上億種歌曲等。設(shè)效用函數(shù)u()可以計(jì)算對(duì)象s對(duì)用戶c的推薦度（如提供商的可靠性和產(chǎn)品的可得性等），即u:C×S→R，R是一定范圍內(nèi)的全序的非負(fù)實(shí)數(shù)，推薦要研究的問題就是找到推薦度R最大的那些對(duì)象S*，如式（1）：

綜合兩種理解可以發(fā)現(xiàn)，個(gè)性化推薦旨在通過建立用戶與產(chǎn)品之間的二元關(guān)系，利用規(guī)則計(jì)算或挖掘用戶的潛在興趣對(duì)象，從而進(jìn)行個(gè)性化推薦，其本質(zhì)仍為信息過濾[7,8]。隨著互聯(lián)網(wǎng)的發(fā)展，個(gè)性化推薦的應(yīng)用范圍不斷擴(kuò)展，但一個(gè)完整的推薦系統(tǒng)主要可抽象為三部分[5,6,7]，分別是用戶建模模塊、推薦對(duì)象建模模塊、推薦算法模塊。

整個(gè)推薦過程可描述為：通過用戶的基本信息及歷史行為記錄進(jìn)行用戶建模，抽象出用戶的潛在興趣模型；結(jié)合領(lǐng)域特征，提取推薦對(duì)象特征；結(jié)合推薦算法，完成用戶需求與推薦對(duì)象的有效對(duì)接，最終實(shí)現(xiàn)個(gè)性化推薦。

進(jìn)一步的，根據(jù)側(cè)重內(nèi)容的不同，推薦算法可以分為基于規(guī)則的推薦、基于內(nèi)容的推薦、協(xié)同過濾以及混合推薦等四種[5,7,9]。其中，基于規(guī)則的推薦以關(guān)聯(lián)規(guī)則為基礎(chǔ)，以知識(shí)推理為目標(biāo)，但規(guī)則發(fā)現(xiàn)及推理演化效率較低；基于內(nèi)容的推薦源于信息的檢索與過濾，重點(diǎn)與難點(diǎn)均是用戶與內(nèi)容間的特征提取與匹配；協(xié)同過濾采用最近鄰策略，但依賴于用戶對(duì)資源的評(píng)分；混合推薦采取多種推薦方法的組合，以彌補(bǔ)單一推薦技術(shù)的弱點(diǎn)。

個(gè)性化推薦自被提出，得到了廣泛關(guān)注與發(fā)展。文獻(xiàn)[1]提出二分網(wǎng)絡(luò)協(xié)同過濾算法，結(jié)合灰色關(guān)聯(lián)相似度實(shí)現(xiàn)個(gè)性化推薦；文獻(xiàn)[2]采用基于二部圖的協(xié)同推薦，整合協(xié)同標(biāo)注中標(biāo)簽的潛在語(yǔ)義進(jìn)行音樂推薦；文獻(xiàn)[9]通過分析用戶行為模式及瀏覽內(nèi)容，提出基于用戶行為的興趣度模型，并采用EM算法聚類興趣相似用戶進(jìn)行協(xié)同推薦；文獻(xiàn)[10]利用統(tǒng)計(jì)分析構(gòu)建用戶偏好模型，進(jìn)而結(jié)合網(wǎng)絡(luò)推薦模型進(jìn)行線性組合推薦。文獻(xiàn)[11]通過單值分解對(duì)評(píng)分矩陣進(jìn)行降維處理，利用近鄰粗糙集理論獲取最近鄰居，最終提出一種基于最近鄰居的協(xié)同過濾推薦算法。

2 基于相似度的混合推薦算法

2.1 推薦對(duì)象特征建模

獲取結(jié)構(gòu)化資源的內(nèi)容特征可以采用TF-IDF等特征提取技術(shù)，而對(duì)于半結(jié)構(gòu)化、非結(jié)構(gòu)化資源的特征提取，社會(huì)化標(biāo)簽出現(xiàn)為其提供了一種行之有效的解決途徑。

協(xié)同標(biāo)注的標(biāo)簽（Tag）含有豐富的信息描述對(duì)象內(nèi)容[2]，即由用戶標(biāo)注的標(biāo)簽Tagi可以作為資源的特征，多個(gè)標(biāo)簽即可構(gòu)成該資源的特征向量Vres={Tag1,Tag2,…,Tagn}。

在實(shí)際推薦過程中發(fā)現(xiàn)，多個(gè)標(biāo)簽之間存在同義及近義現(xiàn)象；盡管不同標(biāo)簽含有不同詞義，但仍存在較強(qiáng)的語(yǔ)義相關(guān)性。采用互信息衡量標(biāo)簽Tagi與Tagj間相似度Sim(Tagi,Tagj)，具體如式(2)所示：

其中，P（Tagi）、P（Tagj）分別表示標(biāo)簽Tagi、Tagj所在文檔中出現(xiàn)的概率；P（Tagi,Tagj）為Tagi與Tagj同時(shí)出現(xiàn)在同一文檔的概率。相似度較高的標(biāo)簽之間，具有較大的語(yǔ)義相關(guān)性，在興趣推薦過程中，更容易獲得目標(biāo)用戶的關(guān)注。

進(jìn)一步的，資源Resp與Resq之間的相似度定義為其所含標(biāo)簽間的相似度之和，具體如式(3)：

其中，Tagi,Tagj分別Resp與Resq的項(xiàng)。

2.2 用戶興趣建模

用戶興趣是推薦系統(tǒng)的需求驅(qū)動(dòng)，文獻(xiàn)[9,12,13]針對(duì)用戶興趣挖掘進(jìn)行了大量研究。其中，文獻(xiàn)[9]定義了11種用戶瀏覽行為，并選取7種構(gòu)建用戶的興趣行為集合；文獻(xiàn)[12]采用基于本體論及概率頻繁興趣簇的用戶模型并引入興趣衰減；文獻(xiàn)[13]引入局部興趣相似指導(dǎo)用戶建模。

考慮到推薦系統(tǒng)實(shí)時(shí)性、可操作性要求，采用基于向量空間的用戶模型。根據(jù)用戶歷史記錄，主要關(guān)注用戶的關(guān)鍵字檢索及瀏覽歷史等。用戶針對(duì)關(guān)鍵字的檢索所表現(xiàn)出的是對(duì)該關(guān)鍵字key具有較高的關(guān)注，可以抽象為＜關(guān)鍵詞，瀏覽次數(shù)＞二元組，而對(duì)資源(主題title)的瀏覽可以進(jìn)一步抽象為＜主題，駐留時(shí)間＞二元組。通常意義上，檢索次數(shù)愈多、駐留時(shí)間愈長(zhǎng)，表明用戶對(duì)該資源愈感興趣。即用戶檢索及瀏覽歷史可分別用向量V（searchinfo）、V（browseInfo）、表示：

其中，為所檢索關(guān)鍵字及其權(quán)重構(gòu)成的向量，且某關(guān)鍵字keyi權(quán)重由檢索該關(guān)鍵字的次數(shù)numi在整個(gè)檢索過程總次數(shù)中的比確定，即

由用戶瀏覽的信息titlei及該條信息的權(quán)重組成，瀏覽某信息titlej的權(quán)重為瀏覽該信息占總瀏覽時(shí)間的比，即

而結(jié)合資源由標(biāo)簽標(biāo)注，將關(guān)鍵詞key、主題title替換為標(biāo)簽Tag，同時(shí)經(jīng)歸一化處理，用戶的興趣向量可以表示為Vu={＜Tag1,w1＞,＜Tag2,w2＞,…,＜Tagm,wm＞}。

考慮到用戶興趣是隨時(shí)間變化的量，且用戶最近的興趣更能反映其當(dāng)前需求[14]。引入時(shí)間函數(shù)標(biāo)識(shí)用戶的興趣演化，可以更準(zhǔn)確的衡量當(dāng)前資源對(duì)目標(biāo)用戶當(dāng)前興趣需求的契合程度。因此，在用戶檢索及瀏覽過程中，必須考慮時(shí)間對(duì)Tag權(quán)重的影響。通過式(7)衡量時(shí)間對(duì)用戶興趣的效用衰減：

其中，ti為Tagi標(biāo)簽發(fā)生時(shí)刻，to為時(shí)間原點(diǎn)，δ為衰減因子。

2.3 基于相似度的混合推薦算法

協(xié)同推薦依賴于評(píng)分矩陣，而當(dāng)評(píng)分?jǐn)?shù)據(jù)過于稀疏甚至缺失時(shí)，將影響近鄰用戶的挖掘。為解決該問題，采用基于用戶行為相似度的聚類。監(jiān)督學(xué)習(xí)需要人工干預(yù)，而無監(jiān)督學(xué)習(xí)準(zhǔn)確率偏低，故筆者采用KMeans與SVM相結(jié)合的方法，同時(shí)引入GSA計(jì)算質(zhì)點(diǎn)間相互作用，具體算法描述及流程圖如下：

算法3-1.用戶聚類分析算法

輸入：用戶興趣向量

輸出：聚類完成的k個(gè)簇識(shí)別與標(biāo)記離群點(diǎn)，剩余點(diǎn)執(zhí)行(2)；利用文獻(xiàn)[15]中提出算法得出最佳聚類數(shù)k；利用KMeans算法進(jìn)行聚類，至滿足終止條件；根據(jù)GSA計(jì)算質(zhì)點(diǎn)與當(dāng)前簇之質(zhì)心的相互作用，標(biāo)記作用最強(qiáng)的數(shù)據(jù)作為訓(xùn)練樣本；通過SVM對(duì)樣本數(shù)據(jù)進(jìn)行分類，從而得到SVM分類器；利用上一步得到的SVM分類器對(duì)原數(shù)據(jù)(包含(1)的離群點(diǎn))重新分類。

其中，因KMeans對(duì)離群點(diǎn)極為敏感，故在(1)中，采用基于密度的離群噪聲點(diǎn)檢測(cè)[16]標(biāo)記離群點(diǎn)。步驟（3）中定義的終止條件(或目標(biāo)函數(shù))為：簇中心不變，或最小化對(duì)象到其所在簇的質(zhì)心的距離平方和，即滿足式（9）時(shí)，停止聚類。

獲取了資源的特征向量Vres、用戶的興趣向量Vu，用戶興趣與資源特征間的相似度(S)定義為：

其中，Tagi,Tagj分別Vres及Vu的項(xiàng)，Wj為用戶對(duì)標(biāo)簽，Tagj的興趣權(quán)重。

進(jìn)一步結(jié)合相似用戶的聚類，算法3-2給出基于相似度的混合推薦算法偽代碼：

算法3-2.基于相似度的混合推薦算法

即對(duì)用戶Ui，計(jì)算其與資源Resj（1≤j≤m）的相似度S；取與Ui具有S最大的、且大于閾值φ的w個(gè)資源向其推薦；若滿足條件的資源count＜w，則補(bǔ)增與該count個(gè)資源相似度大于閾值θ的資源，直至w個(gè)；若資源數(shù)仍少于w，則補(bǔ)增與該用戶最相似用戶的興趣資源向其推薦，直至w個(gè)。其中，資源Resj（1≤j≤m）為聚類后該簇用戶感興趣的資源集合，通過縮小用戶的興趣范圍，減少相似度計(jì)算，從而提高算法的實(shí)時(shí)性。閾值φ的設(shè)定，旨在最大限度地保證推薦結(jié)果的準(zhǔn)確率。推薦資源的補(bǔ)增按照相似資源-相似用戶的順序排列，主要考慮用戶潛在興趣對(duì)資源內(nèi)容更加關(guān)注。

3 實(shí)驗(yàn)與分析

以某學(xué)習(xí)資源推薦系統(tǒng)數(shù)據(jù)為基礎(chǔ)，從正確推薦數(shù)C、準(zhǔn)確率P、召回率R、推薦覆蓋率COV等[8,17]方面，結(jié)合以下三種算法進(jìn)行比較：

（1）Base_Com：根據(jù)用戶注冊(cè)信息聚類而進(jìn)行的推薦；

（2）Act_Com：根據(jù)用戶歷史行為聚類而進(jìn)行的推薦；

（3）HAS_Com：筆者提出基于相似度的混合推薦算法。

進(jìn)一步的，為更準(zhǔn)確的評(píng)價(jià)系統(tǒng)推薦結(jié)果，系統(tǒng)在引入標(biāo)簽機(jī)制的基礎(chǔ)上，允許用戶對(duì)資源按5分制[18]進(jìn)行評(píng)分，以作為用戶對(duì)該資源感興趣程度。下表給出三種實(shí)驗(yàn)方法在向系統(tǒng)用戶推薦資源的平均結(jié)果對(duì)比。

鑒于該系統(tǒng)使用面向?qū)I(yè)、主題明確，故區(qū)別于其他三個(gè)指標(biāo)，COV定義為聚類后簇內(nèi)用戶推薦資源所占系統(tǒng)內(nèi)全部資源的比例。但由下表可知，盡管筆者提出的方法在準(zhǔn)確率與召回率等方面較Base_Com、Act_Com均有改善，但基于用戶興趣的聚類導(dǎo)致推薦多樣性的降低及覆蓋率的降低。

表3 Top20實(shí)驗(yàn)結(jié)果

4 結(jié)束語(yǔ)

筆者提出的基于相似度的混合推薦算法，通過用戶行為挖掘構(gòu)建基于標(biāo)簽的興趣模型，結(jié)合社會(huì)化標(biāo)簽、引入標(biāo)簽相似度概念，融合時(shí)間影響以考慮用戶興趣變化，提高了基于內(nèi)容的推薦中相似度計(jì)算的準(zhǔn)確率；而根據(jù)興趣相似度進(jìn)行協(xié)同推薦，使得推薦不局限于評(píng)分矩陣，一定程度上解決了協(xié)同過濾中推薦數(shù)據(jù)集稀疏及缺失的問題。若結(jié)合用戶注冊(cè)信息，可以緩解冷啟動(dòng)問題。實(shí)驗(yàn)表明，該算法在準(zhǔn)確率、召回率等方面具有良好表現(xiàn)。在今后的工作中，將重點(diǎn)研究用戶潛在興趣變化，并在保證算法準(zhǔn)確率的基礎(chǔ)上提高推薦的覆蓋率。

[1]李霞,李守維.面向個(gè)性化推薦系統(tǒng)的二分網(wǎng)絡(luò)協(xié)同過濾算法研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(7):1946-1949.

[2]李瑞敏,林鴻飛,嚴(yán)俊，等.基于用戶-標(biāo)簽-項(xiàng)目的語(yǔ)義挖掘的個(gè)性化音樂推薦[J].計(jì)算機(jī)研究與發(fā)展, 2014,51(10):2270-2276.

[3]R esn ickP,Varian HR.Recommendersystems[J].Communications ofthe ACM,1997,40(3):56-58.

[4]Ad o mavicius G,Tuzhilin A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].Daa,2005,17(6):734-749.

[5]許海玲,吳瀟,李曉東，等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.

[6]王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):66-76.

[7]劉建國(guó),周濤,汪秉宏，等.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.

[8]劉建國(guó),周濤,郭強(qiáng)，等.個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1-10.

[9]王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(8):148-151.

[10]張新猛,蔣盛益,李霞，等.基于網(wǎng)絡(luò)和標(biāo)簽的混合推薦算法[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(1):119-124.

[11]李慧,胡云,李存華，等.基于近鄰關(guān)系的個(gè)性化推薦算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(36):205-209.

[12]石林,徐飛,徐守坤.基于用戶興趣建模的個(gè)性化推薦[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(12):211-214.

[13]吳發(fā)青,賀樑,夏薇薇，等.一種基于用戶興趣局部相似的推薦算法[J].計(jì)算機(jī)應(yīng)用,2008,28(8):1981-1985.

[14]趙婷,肖如良,孫聰，等.融合時(shí)間綜合影響的輪盤賭游走個(gè)性化推薦算法[J].計(jì)算機(jī)應(yīng)用,2014,34(4):1114.

[15]周世兵,徐振源,唐旭清，等.Kmeans算法最佳聚類數(shù)確定方法[J].計(jì)算機(jī)應(yīng)用,2010,30(8):1995-1998.

[16]張毅,劉旭敏,關(guān)永，等.基于密度的離群噪聲點(diǎn)檢測(cè)[J].計(jì)算機(jī)應(yīng)用,2010,30(3):802-805.

[17]朱郁筱,呂琳媛.推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J].電子科技大學(xué)學(xué)報(bào),2012,41(2):163-175.

（責(zé)任編輯卞建寧）

TP391

1671-9123（2015）02-0140-05

2015-02-11

胡三寧（1983-），男，河南洛寧人，三門峽職業(yè)技術(shù)學(xué)院教務(wù)處教師。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于相似度的混合推薦方法

1 個(gè)性化推薦技術(shù)

2 基于相似度的混合推薦算法

3 實(shí)驗(yàn)與分析

4 結(jié)束語(yǔ)