◎胡三寧
(三門峽職業(yè)技術(shù)學(xué)院教務(wù)處,河南三門峽472000)
一種基于相似度的混合推薦方法
◎胡三寧
(三門峽職業(yè)技術(shù)學(xué)院教務(wù)處,河南三門峽472000)
提出了一種基于用戶興趣及標(biāo)簽相似度的混合推薦算法,構(gòu)建基于標(biāo)簽的用戶興趣模型,通過計(jì)算與資源相似度完成推薦,同時(shí)融合時(shí)間因素研究用戶興趣變化,提高了基于內(nèi)容的推薦中相似度計(jì)算的準(zhǔn)確率;根據(jù)用戶興趣相似度聚類用戶,通過興趣協(xié)同推薦減少對(duì)評(píng)分矩陣的依賴,一定程度上解決了協(xié)同過濾中推薦數(shù)據(jù)缺失問題;同時(shí),結(jié)合用戶基本信息有望緩解冷啟動(dòng)問題。實(shí)驗(yàn)表明該算法具有一定的有效性及可行性。
用戶興趣;標(biāo)簽;相似度;混合推薦
在Web技術(shù)高速發(fā)展的今天,互聯(lián)網(wǎng)上的信息呈指數(shù)級(jí)劇增[1]。然而面對(duì)海量的、分散的數(shù)字化資源,渴望進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)的用戶卻往往無法準(zhǔn)確獲得滿足其需要的資源。即盡管“資源海洋”表現(xiàn)為“信息過載”,但由于海量資源與學(xué)習(xí)者個(gè)性化需求之間存在的較大的供需矛盾,仍不可避免的造成了有用信息的“匱乏”[2]。為解決這一矛盾,個(gè)性化推薦技術(shù)應(yīng)用而生,并逐漸成為領(lǐng)域研究熱點(diǎn)。筆者在總結(jié)現(xiàn)有個(gè)性化推薦技術(shù)的基礎(chǔ)上,提出一種基于用戶及標(biāo)簽相似度的混合推薦方法。經(jīng)過實(shí)驗(yàn)驗(yàn)證,該方法具有一定的可行性。
文獻(xiàn)[3]給出推薦系統(tǒng)的非形式化概念:“利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購(gòu)買什么產(chǎn)品,模擬銷售人員幫助客戶完成購(gòu)買過程?!毕鄳?yīng)的,文獻(xiàn)[4,5,6]給出推薦系統(tǒng)的形式化定義:設(shè)C是所有用戶(user)的集合,S是所有可以推薦給用戶的對(duì)象(object)的集合,實(shí)際中,C和S集合的規(guī)模通常很大,如上百萬的顧客以及上億種歌曲等。設(shè)效用函數(shù)u()可以計(jì)算對(duì)象s對(duì)用戶c的推薦度(如提供商的可靠性和產(chǎn)品的可得性等),即u:C×S→R,R是一定范圍內(nèi)的全序的非負(fù)實(shí)數(shù),推薦要研究的問題就是找到推薦度R最大的那些對(duì)象S*,如式(1):
綜合兩種理解可以發(fā)現(xiàn),個(gè)性化推薦旨在通過建立用戶與產(chǎn)品之間的二元關(guān)系,利用規(guī)則計(jì)算或挖掘用戶的潛在興趣對(duì)象,從而進(jìn)行個(gè)性化推薦,其本質(zhì)仍為信息過濾[7,8]。隨著互聯(lián)網(wǎng)的發(fā)展,個(gè)性化推薦的應(yīng)用范圍不斷擴(kuò)展,但一個(gè)完整的推薦系統(tǒng)主要可抽象為三部分[5,6,7],分別是用戶建模模塊、推薦對(duì)象建模模塊、推薦算法模塊。
整個(gè)推薦過程可描述為:通過用戶的基本信息及歷史行為記錄進(jìn)行用戶建模,抽象出用戶的潛在興趣模型;結(jié)合領(lǐng)域特征,提取推薦對(duì)象特征;結(jié)合推薦算法,完成用戶需求與推薦對(duì)象的有效對(duì)接,最終實(shí)現(xiàn)個(gè)性化推薦。
進(jìn)一步的,根據(jù)側(cè)重內(nèi)容的不同,推薦算法可以分為基于規(guī)則的推薦、基于內(nèi)容的推薦、協(xié)同過濾以及混合推薦等四種[5,7,9]。其中,基于規(guī)則的推薦以關(guān)聯(lián)規(guī)則為基礎(chǔ),以知識(shí)推理為目標(biāo),但規(guī)則發(fā)現(xiàn)及推理演化效率較低;基于內(nèi)容的推薦源于信息的檢索與過濾,重點(diǎn)與難點(diǎn)均是用戶與內(nèi)容間的特征提取與匹配;協(xié)同過濾采用最近鄰策略,但依賴于用戶對(duì)資源的評(píng)分;混合推薦采取多種推薦方法的組合,以彌補(bǔ)單一推薦技術(shù)的弱點(diǎn)。
個(gè)性化推薦自被提出,得到了廣泛關(guān)注與發(fā)展。文獻(xiàn)[1]提出二分網(wǎng)絡(luò)協(xié)同過濾算法,結(jié)合灰色關(guān)聯(lián)相似度實(shí)現(xiàn)個(gè)性化推薦;文獻(xiàn)[2]采用基于二部圖的協(xié)同推薦,整合協(xié)同標(biāo)注中標(biāo)簽的潛在語(yǔ)義進(jìn)行音樂推薦;文獻(xiàn)[9]通過分析用戶行為模式及瀏覽內(nèi)容,提出基于用戶行為的興趣度模型,并采用EM算法聚類興趣相似用戶進(jìn)行協(xié)同推薦;文獻(xiàn)[10]利用統(tǒng)計(jì)分析構(gòu)建用戶偏好模型,進(jìn)而結(jié)合網(wǎng)絡(luò)推薦模型進(jìn)行線性組合推薦。文獻(xiàn)[11]通過單值分解對(duì)評(píng)分矩陣進(jìn)行降維處理,利用近鄰粗糙集理論獲取最近鄰居,最終提出一種基于最近鄰居的協(xié)同過濾推薦算法。
2.1 推薦對(duì)象特征建模
獲取結(jié)構(gòu)化資源的內(nèi)容特征可以采用TF-IDF等特征提取技術(shù),而對(duì)于半結(jié)構(gòu)化、非結(jié)構(gòu)化資源的特征提取,社會(huì)化標(biāo)簽出現(xiàn)為其提供了一種行之有效的解決途徑。
協(xié)同標(biāo)注的標(biāo)簽(Tag)含有豐富的信息描述對(duì)象內(nèi)容[2],即由用戶標(biāo)注的標(biāo)簽Tagi可以作為資源的特征,多個(gè)標(biāo)簽即可構(gòu)成該資源的特征向量Vres={Tag1,Tag2,…,Tagn}。
在實(shí)際推薦過程中發(fā)現(xiàn),多個(gè)標(biāo)簽之間存在同義及近義現(xiàn)象;盡管不同標(biāo)簽含有不同詞義,但仍存在較強(qiáng)的語(yǔ)義相關(guān)性。采用互信息衡量標(biāo)簽Tagi與Tagj間相似度Sim(Tagi,Tagj),具體如式(2)所示:
其中,P(Tagi)、P(Tagj)分別表示標(biāo)簽Tagi、Tagj所在文檔中出現(xiàn)的概率;P(Tagi,Tagj)為Tagi與Tagj同時(shí)出現(xiàn)在同一文檔的概率。相似度較高的標(biāo)簽之間,具有較大的語(yǔ)義相關(guān)性,在興趣推薦過程中,更容易獲得目標(biāo)用戶的關(guān)注。
進(jìn)一步的,資源Resp與Resq之間的相似度定義為其所含標(biāo)簽間的相似度之和,具體如式(3):
其中,Tagi,Tagj分別Resp與Resq的項(xiàng)。
2.2 用戶興趣建模
用戶興趣是推薦系統(tǒng)的需求驅(qū)動(dòng),文獻(xiàn)[9,12,13]針對(duì)用戶興趣挖掘進(jìn)行了大量研究。其中,文獻(xiàn)[9]定義了11種用戶瀏覽行為,并選取7種構(gòu)建用戶的興趣行為集合;文獻(xiàn)[12]采用基于本體論及概率頻繁興趣簇的用戶模型并引入興趣衰減;文獻(xiàn)[13]引入局部興趣相似指導(dǎo)用戶建模。
考慮到推薦系統(tǒng)實(shí)時(shí)性、可操作性要求,采用基于向量空間的用戶模型。根據(jù)用戶歷史記錄,主要關(guān)注用戶的關(guān)鍵字檢索及瀏覽歷史等。用戶針對(duì)關(guān)鍵字的檢索所表現(xiàn)出的是對(duì)該關(guān)鍵字key具有較高的關(guān)注,可以抽象為<關(guān)鍵詞,瀏覽次數(shù)>二元組,而對(duì)資源(主題title)的瀏覽可以進(jìn)一步抽象為<主題,駐留時(shí)間>二元組。通常意義上,檢索次數(shù)愈多、駐留時(shí)間愈長(zhǎng),表明用戶對(duì)該資源愈感興趣。即用戶檢索及瀏覽歷史可分別用向量V(searchinfo)、V(browseInfo)、表示:
其中,為所檢索關(guān)鍵字及其權(quán)重構(gòu)成的向量,且某關(guān)鍵字keyi權(quán)重由檢索該關(guān)鍵字的次數(shù)numi在整個(gè)檢索過程總次數(shù)中的比確定,即
由用戶瀏覽的信息titlei及該條信息的權(quán)重組成,瀏覽某信息titlej的權(quán)重為瀏覽該信息占總瀏覽時(shí)間的比,即
而結(jié)合資源由標(biāo)簽標(biāo)注,將關(guān)鍵詞key、主題title替換為標(biāo)簽Tag,同時(shí)經(jīng)歸一化處理,用戶的興趣向量可以表示為Vu={<Tag1,w1>,<Tag2,w2>,…,<Tagm,wm>}。
考慮到用戶興趣是隨時(shí)間變化的量,且用戶最近的興趣更能反映其當(dāng)前需求[14]。引入時(shí)間函數(shù)標(biāo)識(shí)用戶的興趣演化,可以更準(zhǔn)確的衡量當(dāng)前資源對(duì)目標(biāo)用戶當(dāng)前興趣需求的契合程度。因此,在用戶檢索及瀏覽過程中,必須考慮時(shí)間對(duì)Tag權(quán)重的影響。通過式(7)衡量時(shí)間對(duì)用戶興趣的效用衰減:
其中,ti為Tagi標(biāo)簽發(fā)生時(shí)刻,to為時(shí)間原點(diǎn),δ為衰減因子。
2.3 基于相似度的混合推薦算法
協(xié)同推薦依賴于評(píng)分矩陣,而當(dāng)評(píng)分?jǐn)?shù)據(jù)過于稀疏甚至缺失時(shí),將影響近鄰用戶的挖掘。為解決該問題,采用基于用戶行為相似度的聚類。監(jiān)督學(xué)習(xí)需要人工干預(yù),而無監(jiān)督學(xué)習(xí)準(zhǔn)確率偏低,故筆者采用KMeans與SVM相結(jié)合的方法,同時(shí)引入GSA計(jì)算質(zhì)點(diǎn)間相互作用,具體算法描述及流程圖如下:
算法3-1.用戶聚類分析算法
輸入:用戶興趣向量
輸出:聚類完成的k個(gè)簇識(shí)別與標(biāo)記離群點(diǎn),剩余點(diǎn)執(zhí)行(2);利用文獻(xiàn)[15]中提出算法得出最佳聚類數(shù)k;利用KMeans算法進(jìn)行聚類,至滿足終止條件;根據(jù)GSA計(jì)算質(zhì)點(diǎn)與當(dāng)前簇之質(zhì)心的相互作用,標(biāo)記作用最強(qiáng)的數(shù)據(jù)作為訓(xùn)練樣本;通過SVM對(duì)樣本數(shù)據(jù)進(jìn)行分類,從而得到SVM分類器;利用上一步得到的SVM分類器對(duì)原數(shù)據(jù)(包含(1)的離群點(diǎn))重新分類。
其中,因KMeans對(duì)離群點(diǎn)極為敏感,故在(1)中,采用基于密度的離群噪聲點(diǎn)檢測(cè)[16]標(biāo)記離群點(diǎn)。步驟(3)中定義的終止條件(或目標(biāo)函數(shù))為:簇中心不變,或最小化對(duì)象到其所在簇的質(zhì)心的距離平方和,即滿足式(9)時(shí),停止聚類。
獲取了資源的特征向量Vres、用戶的興趣向量Vu,用戶興趣與資源特征間的相似度(S)定義為:
其中,Tagi,Tagj分別Vres及Vu的項(xiàng),Wj為用戶對(duì)標(biāo)簽,Tagj的興趣權(quán)重。
進(jìn)一步結(jié)合相似用戶的聚類,算法3-2給出基于相似度的混合推薦算法偽代碼:
算法3-2.基于相似度的混合推薦算法
即對(duì)用戶Ui,計(jì)算其與資源Resj(1≤j≤m)的相似度S;取與Ui具有S最大的、且大于閾值φ的w個(gè)資源向其推薦;若滿足條件的資源count<w,則補(bǔ)增與該count個(gè)資源相似度大于閾值θ的資源,直至w個(gè);若資源數(shù)仍少于w,則補(bǔ)增與該用戶最相似用戶的興趣資源向其推薦,直至w個(gè)。其中,資源Resj(1≤j≤m)為聚類后該簇用戶感興趣的資源集合,通過縮小用戶的興趣范圍,減少相似度計(jì)算,從而提高算法的實(shí)時(shí)性。閾值φ的設(shè)定,旨在最大限度地保證推薦結(jié)果的準(zhǔn)確率。推薦資源的補(bǔ)增按照相似資源-相似用戶的順序排列,主要考慮用戶潛在興趣對(duì)資源內(nèi)容更加關(guān)注。
以某學(xué)習(xí)資源推薦系統(tǒng)數(shù)據(jù)為基礎(chǔ),從正確推薦數(shù)C、準(zhǔn)確率P、召回率R、推薦覆蓋率COV等[8,17]方面,結(jié)合以下三種算法進(jìn)行比較:
(1)Base_Com:根據(jù)用戶注冊(cè)信息聚類而進(jìn)行的推薦;
(2)Act_Com:根據(jù)用戶歷史行為聚類而進(jìn)行的推薦;
(3)HAS_Com:筆者提出基于相似度的混合推薦算法。
進(jìn)一步的,為更準(zhǔn)確的評(píng)價(jià)系統(tǒng)推薦結(jié)果,系統(tǒng)在引入標(biāo)簽機(jī)制的基礎(chǔ)上,允許用戶對(duì)資源按5分制[18]進(jìn)行評(píng)分,以作為用戶對(duì)該資源感興趣程度。下表給出三種實(shí)驗(yàn)方法在向系統(tǒng)用戶推薦資源的平均結(jié)果對(duì)比。
鑒于該系統(tǒng)使用面向?qū)I(yè)、主題明確,故區(qū)別于其他三個(gè)指標(biāo),COV定義為聚類后簇內(nèi)用戶推薦資源所占系統(tǒng)內(nèi)全部資源的比例。但由下表可知,盡管筆者提出的方法在準(zhǔn)確率與召回率等方面較Base_Com、Act_Com均有改善,但基于用戶興趣的聚類導(dǎo)致推薦多樣性的降低及覆蓋率的降低。
表3 Top20實(shí)驗(yàn)結(jié)果
筆者提出的基于相似度的混合推薦算法,通過用戶行為挖掘構(gòu)建基于標(biāo)簽的興趣模型,結(jié)合社會(huì)化標(biāo)簽、引入標(biāo)簽相似度概念,融合時(shí)間影響以考慮用戶興趣變化,提高了基于內(nèi)容的推薦中相似度計(jì)算的準(zhǔn)確率;而根據(jù)興趣相似度進(jìn)行協(xié)同推薦,使得推薦不局限于評(píng)分矩陣,一定程度上解決了協(xié)同過濾中推薦數(shù)據(jù)集稀疏及缺失的問題。若結(jié)合用戶注冊(cè)信息,可以緩解冷啟動(dòng)問題。實(shí)驗(yàn)表明,該算法在準(zhǔn)確率、召回率等方面具有良好表現(xiàn)。在今后的工作中,將重點(diǎn)研究用戶潛在興趣變化,并在保證算法準(zhǔn)確率的基礎(chǔ)上提高推薦的覆蓋率。
[1]李霞,李守維.面向個(gè)性化推薦系統(tǒng)的二分網(wǎng)絡(luò)協(xié)同過濾算法研究[J].計(jì)算機(jī)應(yīng)用研究,2013,30(7):1946-1949.
[2]李瑞敏,林鴻飛,嚴(yán)俊,等.基于用戶-標(biāo)簽-項(xiàng)目的語(yǔ)義挖掘的個(gè)性化音樂推薦[J].計(jì)算機(jī)研究與發(fā)展, 2014,51(10):2270-2276.
[3]R esn ickP,Varian HR.Recommendersystems[J].Communications ofthe ACM,1997,40(3):56-58.
[4]Ad o mavicius G,Tuzhilin A.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].Daa,2005,17(6):734-749.
[5]許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2):350-362.
[6]王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):66-76.
[7]劉建國(guó),周濤,汪秉宏,等.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.
[8]劉建國(guó),周濤,郭強(qiáng),等.個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1-10.
[9]王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度模型[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(8):148-151.
[10]張新猛,蔣盛益,李霞,等.基于網(wǎng)絡(luò)和標(biāo)簽的混合推薦算法[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(1):119-124.
[11]李慧,胡云,李存華,等.基于近鄰關(guān)系的個(gè)性化推薦算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(36):205-209.
[12]石林,徐飛,徐守坤.基于用戶興趣建模的個(gè)性化推薦[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(12):211-214.
[13]吳發(fā)青,賀樑,夏薇薇,等.一種基于用戶興趣局部相似的推薦算法[J].計(jì)算機(jī)應(yīng)用,2008,28(8):1981-1985.
[14]趙婷,肖如良,孫聰,等.融合時(shí)間綜合影響的輪盤賭游走個(gè)性化推薦算法[J].計(jì)算機(jī)應(yīng)用,2014,34(4):1114.
[15]周世兵,徐振源,唐旭清,等.Kmeans算法最佳聚類數(shù)確定方法[J].計(jì)算機(jī)應(yīng)用,2010,30(8):1995-1998.
[16]張毅,劉旭敏,關(guān)永,等.基于密度的離群噪聲點(diǎn)檢測(cè)[J].計(jì)算機(jī)應(yīng)用,2010,30(3):802-805.
[17]朱郁筱,呂琳媛.推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J].電子科技大學(xué)學(xué)報(bào),2012,41(2):163-175.
(責(zé)任編輯 卞建寧)
TP391
A
1671-9123(2015)02-0140-05
2015-02-11
胡三寧(1983-),男,河南洛寧人,三門峽職業(yè)技術(shù)學(xué)院教務(wù)處教師。