孫玲芳,馮遵倡
(1.泰州學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇泰州225300)
(2.江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇鎮(zhèn)江212003)
基于特征加權(quán)張量分解的標(biāo)簽推薦算法研究
孫玲芳1,馮遵倡2
(1.泰州學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇泰州225300)
(2.江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇鎮(zhèn)江212003)
針對(duì)標(biāo)簽推薦系統(tǒng)存在極度稀疏性的問(wèn)題,通過(guò)提取標(biāo)注過(guò)程的關(guān)鍵特征并計(jì)算元組的初始權(quán)重,構(gòu)建加權(quán)元組集的張量模型;然后應(yīng)用高階奇異值分解(high order singular value decomposition,HOSVD)對(duì)張量模型降維,根據(jù)處理結(jié)果作標(biāo)簽推薦,從而達(dá)到提高推薦效率的目的;運(yùn)用MovieLens數(shù)據(jù)集對(duì)基于特征加權(quán)張量分解的標(biāo)簽推薦算法進(jìn)行了模擬,實(shí)驗(yàn)結(jié)果表明:基于特征加權(quán)張量分解的標(biāo)簽推薦算法比傳統(tǒng)算法推薦效果更好。該方法能夠有效改善數(shù)據(jù)稀疏性問(wèn)題,提高了推薦效率.
大眾標(biāo)注;標(biāo)簽推薦;張量分解;特征加權(quán);高階奇異值分解
隨著WEB2.0的快速發(fā)展,網(wǎng)絡(luò)中社會(huì)標(biāo)簽(Social Tags)數(shù)據(jù)越來(lái)越多,大量標(biāo)簽數(shù)據(jù)處于無(wú)控制狀態(tài),存在冗余性和概念上的模糊性等問(wèn)題,影響了大眾標(biāo)注系統(tǒng)的進(jìn)一步發(fā)展.標(biāo)簽推薦(tag recommendation)是大眾標(biāo)注系統(tǒng)的重要應(yīng)用之一,它能夠簡(jiǎn)化標(biāo)注過(guò)程,為用戶提供個(gè)性化的標(biāo)簽并很好地控制數(shù)據(jù)的冗余性和模糊性[1].
為解決標(biāo)簽推薦系統(tǒng)存在數(shù)據(jù)極度稀疏性的問(wèn)題,張量分解方法越來(lái)越多地被應(yīng)用到標(biāo)簽推薦系統(tǒng)中.文獻(xiàn)[2]中首先將張量應(yīng)用于社會(huì)標(biāo)簽系統(tǒng)中,利用其能夠完整地表示高維數(shù)據(jù)并且能維持高維空間數(shù)據(jù)的本征結(jié)構(gòu)信息等特點(diǎn)來(lái)進(jìn)行標(biāo)簽預(yù)測(cè).文獻(xiàn)[3]中嘗試將K-means聚類與張量分解結(jié)合起來(lái)建立張量模型,既保證了數(shù)據(jù)初始聚合性又可以改善數(shù)據(jù)的稀疏性.然而,在現(xiàn)有國(guó)內(nèi)外研究成果中,忽略了一些標(biāo)注過(guò)程的重要特征.例如,用戶使用不同標(biāo)簽的頻率體現(xiàn)了標(biāo)簽在其心目中的重要程度;用戶標(biāo)注不同資源的頻率體現(xiàn)了用戶的興趣大小.這些特征的忽略多少影響了推薦的個(gè)性化程度和準(zhǔn)確度.
在此基礎(chǔ)上,文中介紹了一種基于特征加權(quán)張量分解的標(biāo)簽推薦算法.首先提取標(biāo)注過(guò)程中體現(xiàn)用戶興趣的重要特征進(jìn)行加權(quán),然后結(jié)合張量分解方法建立模型.在解決數(shù)據(jù)稀疏性問(wèn)題的同時(shí),提供更加準(zhǔn)確和個(gè)性化的標(biāo)簽推薦.最后以MovieLens數(shù)據(jù)集對(duì)該方法進(jìn)行檢驗(yàn).
大眾標(biāo)注(Folksonomy)又被稱作大眾分類、通俗分類,是在WEB2.0環(huán)境下伴隨標(biāo)簽(Tag)技術(shù)的出現(xiàn)而產(chǎn)生的新型網(wǎng)絡(luò)信息組織方式.大眾標(biāo)注允許用戶對(duì)網(wǎng)絡(luò)信息資源添加標(biāo)簽以方便對(duì)其進(jìn)行管理和組織,并且可以和他人共享標(biāo)注[4].大眾標(biāo)注不采用嚴(yán)格的分類標(biāo)準(zhǔn),分類全部由用戶提交,分類的形成過(guò)程是完全自發(fā)的,因此具備:①平面化、非等級(jí)的類目結(jié)構(gòu);② 低成本的信息組織方式;③多維度揭示信息資源等優(yōu)勢(shì)[5].隨著WEB2.0的發(fā)展,大眾標(biāo)注以其獨(dú)特的優(yōu)勢(shì)得到廣泛的研究和應(yīng)用,國(guó)外著名網(wǎng)站有Del.icio.us,F(xiàn)lickr,CiteUlike等,國(guó)內(nèi)較受歡迎的有新浪微博、豆瓣等.圖1給出了一則豆瓣電影標(biāo)簽示例,網(wǎng)頁(yè)不僅包括電影基本信息,還顯示用戶常用的標(biāo)簽以供其他用戶選擇.
圖1 豆瓣電影示例Fig.1 Example of movie.douban.com
與傳統(tǒng)結(jié)構(gòu)的“用戶—資源”二元組關(guān)系不同,大眾標(biāo)注包括3個(gè)重要組成部分,即用戶(User)、資源(Item)和標(biāo)簽(Tag).標(biāo)簽是用戶根據(jù)各自需求、偏好對(duì)感興趣資源的注釋,是用戶為資源添加的自定義關(guān)鍵詞[6].用戶可以為資源標(biāo)注一個(gè)或者多個(gè)標(biāo)簽,也可以看到網(wǎng)絡(luò)上的具有相同標(biāo)簽的網(wǎng)絡(luò)資源,并以此建立與其他客戶更貼心的聯(lián)系和溝通.因此標(biāo)簽體現(xiàn)出了群體的力量,它進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)資源之間的相關(guān)性和用戶之間的交互性,讓互聯(lián)網(wǎng)用戶接觸到一個(gè)更加多樣化的世界,一個(gè)關(guān)聯(lián)度更大的網(wǎng)絡(luò)資源.社會(huì)標(biāo)簽是標(biāo)簽的進(jìn)一步延伸和擴(kuò)展,當(dāng)標(biāo)簽在信息關(guān)聯(lián)中被大眾關(guān)注和使用時(shí),標(biāo)簽就具有了社會(huì)意義,從而轉(zhuǎn)化為社會(huì)標(biāo)簽[7].
由大眾標(biāo)注過(guò)程可以看出,標(biāo)注過(guò)程主要涉及到4個(gè)方面的內(nèi)容:資源、標(biāo)簽、用戶以及三者之間的交互關(guān)系.因此將大眾標(biāo)注形式化定義為一個(gè)四元組[7]:F(U,I,T,A),其中U為所有用戶的集合; I為所有資源的集合;T為所有標(biāo)簽的集合,A?T ×U×I是T,U,I之間的交互關(guān)系,它是三元組(T,U,I)的集合,表示用戶u使用標(biāo)簽t標(biāo)注資源i.
標(biāo)簽推薦是大眾標(biāo)注系統(tǒng)重要應(yīng)用之一,它通過(guò)挖掘分析信息資源的內(nèi)容、用戶的標(biāo)注歷史等為待標(biāo)注信息資源提供一系列高質(zhì)量的標(biāo)簽作為候選[8].目前國(guó)內(nèi)外應(yīng)用較為廣泛的標(biāo)簽推薦技術(shù)主要分為兩類:基于協(xié)同過(guò)濾的標(biāo)簽推薦和基于內(nèi)容的標(biāo)簽推薦.
2.1 基于協(xié)同過(guò)濾的標(biāo)簽推薦
協(xié)同過(guò)濾是面向用戶行為的標(biāo)簽推薦技術(shù),是迄今最為成熟、應(yīng)用最廣泛的推薦技術(shù).它基于一組相似的用戶或項(xiàng)目進(jìn)行推薦,根據(jù)相似用戶的偏好信息產(chǎn)生對(duì)目標(biāo)用戶的推薦列表[14].根據(jù)考慮對(duì)象的不同,協(xié)同過(guò)濾算法又可以分為基于用戶的協(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾.
基于用戶的(User-based)協(xié)同過(guò)濾算法是根據(jù)與當(dāng)前用戶相似的用戶信息預(yù)測(cè)產(chǎn)生對(duì)當(dāng)前用戶的推薦標(biāo)簽.它基于這樣一個(gè)假設(shè):如果一些用戶對(duì)某一類項(xiàng)目的推薦結(jié)果比較接近,則他們對(duì)其他類項(xiàng)目的推薦結(jié)果也比較接近.首先查找與當(dāng)前用戶相似的用戶,然后根據(jù)這些用戶的標(biāo)簽信息去預(yù)測(cè)當(dāng)前用戶的標(biāo)簽信息.基于用戶的協(xié)同過(guò)濾算法核心在于用戶之間的相似度計(jì)算,常用方法有向量空間相似度和Pearson相關(guān)系數(shù)等[15].
基于項(xiàng)目的(Item-based)協(xié)同過(guò)濾是根據(jù)用戶對(duì)相似項(xiàng)目的推薦結(jié)果產(chǎn)生對(duì)當(dāng)前項(xiàng)目的推薦標(biāo)簽,它基于如下假設(shè):如果用戶對(duì)相似項(xiàng)目的推薦結(jié)果相近,則用戶對(duì)當(dāng)前項(xiàng)的推薦結(jié)果也會(huì)比較接近.基于項(xiàng)目的協(xié)同過(guò)濾算法核心在于項(xiàng)目之間的相似性計(jì)算,然后返回K個(gè)相似度最大的項(xiàng)目的標(biāo)簽[16-17].
以基于用戶的協(xié)同過(guò)濾為例,協(xié)同過(guò)濾算法的計(jì)算過(guò)程如下:
1)獲取用戶ua和用戶us評(píng)價(jià)過(guò)的相同項(xiàng)目,即兩個(gè)項(xiàng)目集的交集,定義為項(xiàng)目集合Ia,s.
2)在Ia,s中,計(jì)算目標(biāo)用戶ua和用戶us之間評(píng)分向量的相似度Sa,s.常用的相似度度量公式有以下3種[13]:
余弦相似度
相關(guān)性相似度,即Pearson相關(guān)系數(shù)
式中,Ra,Rs分別為用戶ua和us對(duì)已評(píng)價(jià)項(xiàng)目的評(píng)分均值.Jaccard相關(guān)系數(shù)
式中,Ia和Is分別為用戶ua和us評(píng)價(jià)過(guò)的項(xiàng)目.Jaccard相關(guān)系數(shù)的計(jì)算就是用兩個(gè)用戶共同評(píng)價(jià)過(guò)的項(xiàng)目總數(shù)除以兩個(gè)用戶分別評(píng)價(jià)過(guò)的項(xiàng)目數(shù)的總和.
3)重復(fù)進(jìn)行第1步和第2步,直至得到ua和所有用戶的相似度集合Sa,并使用Top-N方法得到最臨近集合UN.
4)預(yù)測(cè)用戶ua可能對(duì)未評(píng)價(jià)項(xiàng)目ij的評(píng)分,公式如下:
式中,Uj為評(píng)價(jià)過(guò)項(xiàng)目ij的用戶集合.
5)重復(fù)上一步,直至得到用戶ua對(duì)所有未評(píng)價(jià)項(xiàng)目的預(yù)測(cè)值集合Pa.然后采用Top-N方法,從集合Pa中選取前N個(gè)最高評(píng)分的項(xiàng)目推薦給用戶.
協(xié)同過(guò)濾推薦的優(yōu)點(diǎn),如非結(jié)構(gòu)化信息處理、個(gè)性化推薦以及自動(dòng)化程度高等.但同時(shí)也暴露了一些缺點(diǎn),如稀疏性問(wèn)題、冷啟動(dòng)問(wèn)題、實(shí)時(shí)性問(wèn)題等[12].
基于內(nèi)容的標(biāo)簽推薦是標(biāo)簽推薦的基本方法,是以文檔的內(nèi)容作為標(biāo)簽推薦的依據(jù),一般使用文本內(nèi)容,如新聞網(wǎng)頁(yè)、博客等.該方法通常包括3個(gè)步驟:首先提取文本內(nèi)容特征建立模型,然后比較已有標(biāo)簽與內(nèi)容特征之間的相似度,得出有序的標(biāo)簽推薦候選集,最后選出相似度最大的前N個(gè)標(biāo)簽,推薦給用戶[7].
使用基于內(nèi)容的方法作標(biāo)簽推薦首先考慮內(nèi)容特征粒度問(wèn)題,即用什么粒度的特征來(lái)表示文本內(nèi)容,作為標(biāo)簽推薦的依據(jù).
詞匯是一種表示文本內(nèi)容的細(xì)粒度特征.當(dāng)新的資源被提交時(shí),推薦算法首先從文本內(nèi)容中抽取關(guān)鍵詞,找出關(guān)鍵詞與已有標(biāo)簽之間的相似度,根據(jù)相似度選擇前N個(gè)標(biāo)簽推薦給用戶.關(guān)鍵詞和標(biāo)簽的相關(guān)性計(jì)算有許多方法,最簡(jiǎn)單直觀的是計(jì)算關(guān)鍵詞和標(biāo)簽共同出現(xiàn)的次數(shù)占所有情況的比例.但是,由于標(biāo)簽的稀疏性,直接使用該方法可能使得相似性無(wú)法計(jì)算.因此,使用改進(jìn)的Google距離公式[8]計(jì)算描述詞和標(biāo)簽的相關(guān)性.
式中:f(w),f(t)分別為關(guān)鍵詞和標(biāo)簽在詞集和標(biāo)簽集的并集中出現(xiàn)的次數(shù);f(w,t)為關(guān)鍵詞和標(biāo)簽同時(shí)出現(xiàn)在并集中的次數(shù);N為并集總計(jì)詞數(shù).
隱含主題是表示文本內(nèi)容的粗粒度特征.在基于隱含主題的方法中,不再考慮單個(gè)詞匯與標(biāo)簽之間的關(guān)系,而是將整個(gè)文本看作不同主題的混合,通過(guò)抽取文本與標(biāo)簽集的主題特征,找出兩者之間的相似度,根據(jù)相似度,選擇前N個(gè)標(biāo)簽推薦給用戶.應(yīng)用最廣泛的是隱含狄利克雷分配模型(latent dirichlet allocation,LDA)[9].LDA模型最早是由Blei等人提出的無(wú)監(jiān)督的概率圖模型,它將文本表示為K個(gè)隱含主題上的一個(gè)分布,而文本中的每個(gè)詞是由一個(gè)不可觀察的隱含主題生成,這些隱含主題則是從文本對(duì)應(yīng)的分布中采樣得到.標(biāo)準(zhǔn)LDA模型的建模對(duì)象是文本中的詞,為把標(biāo)簽引入LDA模型,同時(shí)建模文本資源的詞匯集和標(biāo)簽集.文獻(xiàn)[8]中對(duì)Author-Topic模型作改進(jìn),提出了新的模型Tag Topic來(lái)進(jìn)行標(biāo)簽的推薦.標(biāo)簽的概率計(jì)算如下: PTT(ti|Tr)=Σzj=1p(ti|zi=j)p(zi=j|(Tr∪Dr))=
3.1 計(jì)算元組的初始權(quán)重
在標(biāo)簽推薦系統(tǒng)中,用戶的標(biāo)注過(guò)程在一定程度上反映了用戶的興趣.注意到這樣兩個(gè)特征:用戶使用特定標(biāo)簽進(jìn)行標(biāo)注的次數(shù)越多,表明用戶對(duì)此標(biāo)簽的興趣越大;用戶對(duì)特定資源進(jìn)行標(biāo)注的次數(shù)越多,表明用戶對(duì)此資源的興趣越大.因此,用戶的興趣度就通過(guò)元組集中標(biāo)簽和資源出現(xiàn)的頻率得以表現(xiàn)[10].據(jù)此特征為元組的初始權(quán)重進(jìn)行加權(quán)計(jì)算,經(jīng)過(guò)標(biāo)準(zhǔn)化處理之后,元組ti的權(quán)重T表示為:
式中:fu1(ti)為用戶u使用標(biāo)簽ti的頻數(shù);fu1為用戶u的標(biāo)簽總頻數(shù);fu2(ri)為用戶u標(biāo)注資源ri的頻數(shù);fu2為用戶的資源總頻數(shù);0.5為調(diào)節(jié)因子.
坡度空間數(shù)據(jù)由DEM數(shù)據(jù)在ArcGIS 9.3中,通過(guò)Slope功能生成。曼寧系數(shù)空間數(shù)據(jù)利用ArcGIS 9.3將查閱文獻(xiàn)獲得的曼寧系數(shù)屬性數(shù)據(jù)(表1)與土地覆蓋類型空間數(shù)據(jù)相關(guān)聯(lián)生成。土壤飽和導(dǎo)水率與土壤儲(chǔ)水能力,通過(guò)結(jié)合土壤類型組成及其土壤剖面等屬性數(shù)據(jù),借助于土壤水分運(yùn)動(dòng)參數(shù)模型RETC推導(dǎo)獲得,空間數(shù)據(jù)在ArcGIS 9.3下通過(guò)建立土壤水分運(yùn)動(dòng)參數(shù)與土壤類型空間數(shù)據(jù)之間的關(guān)聯(lián)生成。
3.2 初始三維張量的構(gòu)建
基于用戶標(biāo)注關(guān)系,根據(jù)加權(quán)三元組集(user,item,tag)構(gòu)建三維張量A∈Ru×i×t,使用p表示三元組的初始權(quán)重,其大小代表二元組(user,item)對(duì)tag的喜好程度,使用u,t和i分別表示用戶、標(biāo)簽和資源的字序標(biāo)識(shí).
3.3 張量分解和重構(gòu)
對(duì)張量A進(jìn)行高階奇異值分解,首先需要將張量進(jìn)行矩陣展開(kāi),也就是將張量按照不同的維度(n-mode)重新排列成新的矩陣[11].文中張量為三維張量,因此根據(jù)定義將張量A的三個(gè)維度分別展開(kāi),可構(gòu)成張量1-模、2-模、3-模展開(kāi)式A1,A2,A3分別如下:
3.3.1 奇異值分解(SVD)
接下來(lái)對(duì)得到的展開(kāi)矩陣分別作奇異值分解,通過(guò)奇異值分解,得到由矩陣An的奇異值組成的對(duì)角矩陣S(n).具體分解如下:
張量分解過(guò)程中,最重要的是矩陣的低秩逼近計(jì)算,即對(duì)矩陣An的奇異值進(jìn)行刪減(保留前c個(gè)較大的奇異值,且滿足c<min{I1,I2},其中c可以通過(guò)實(shí)驗(yàn)保留對(duì)角陣si(1≤i≤3)中原始信息的百分比來(lái)確定.低秩逼近能夠很好地過(guò)濾掉由小的奇異值引起的噪聲,從而達(dá)到降噪的目的.
3.3.2 高階奇異值分解
高階奇異值分解是奇異值分解(high order singulr value decomposition,HOSVD)[18]在張量中的推廣,張量的高階奇異值分解是指將張量分解成與其大小相同的核心張量和多個(gè)矩陣的乘積形式.本文中,將三維張量A高階奇異值分解表示為:
式中,核心張量S∈RIu×It×Ii是一個(gè)與張量A維數(shù)相同的正交張量,確定了實(shí)體user,item和tag之間的交互關(guān)系.S的數(shù)學(xué)表達(dá)式為:
最后,由于張量數(shù)據(jù)中存在大量噪聲,張量A并不具備低秩性,需要通過(guò)HOSVD構(gòu)造張量A的近似張量^A.重構(gòu)張量^A的數(shù)學(xué)表達(dá)式如下:
4.1 數(shù)據(jù)集
文中采用Mevie Lens標(biāo)簽數(shù)據(jù)集進(jìn)行模擬分析(表1).該網(wǎng)站是歷史最悠久的推薦系統(tǒng),由美國(guó)明尼蘇達(dá)大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的GroupLens項(xiàng)目組創(chuàng)辦,是一個(gè)非商業(yè)性質(zhì)的,以研究為目的的實(shí)驗(yàn)性站點(diǎn),主要用途是向用戶推薦他們感興趣的電影.該數(shù)據(jù)集包含37個(gè)用戶,671部電影及1 120個(gè)標(biāo)簽,共2 287個(gè)標(biāo)注元組.實(shí)驗(yàn)過(guò)程中,將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中75%為訓(xùn)練集,25%為測(cè)試集.
表1 部分Movie lens數(shù)據(jù)Table 1 Data from Movie lens
4.2 評(píng)估標(biāo)準(zhǔn)
文中采用準(zhǔn)確率Precision和召回率Recall來(lái)評(píng)估推薦算法的準(zhǔn)確性和有效性,這兩個(gè)評(píng)估指標(biāo)定義如下:
準(zhǔn)確率
式中,test和N分別代表測(cè)試集的大小和推薦的數(shù)目,準(zhǔn)確率和召回率分別表示算法成功推薦的比率和待推薦項(xiàng)目被推薦的比率[3].可見(jiàn),這兩個(gè)指標(biāo)是沖突的,為尋找二者之間的平衡點(diǎn),設(shè)定測(cè)度值F,F(xiàn)越大說(shuō)明推薦效果越好:
式中,P和R分別為準(zhǔn)確率和召回率.
4.3 結(jié)果分析
實(shí)驗(yàn)過(guò)程中,為比較算法性能,文中采用經(jīng)典的協(xié)同過(guò)濾算法進(jìn)行對(duì)比,兩種方法采用相同的數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn).計(jì)算初始權(quán)重時(shí)將調(diào)節(jié)因子設(shè)為0.5以避免出現(xiàn)負(fù)數(shù)或較小的數(shù)值,在作低秩逼近計(jì)算過(guò)程中,經(jīng)過(guò)數(shù)次測(cè)試調(diào)節(jié),將參數(shù)ci(1≤i≤3)分別設(shè)置為40,56,56.另外,按照數(shù)據(jù)集標(biāo)簽的數(shù)量特征,實(shí)驗(yàn)中top-N值分別取2,4,6,8和10進(jìn)行對(duì)比分析,計(jì)算結(jié)果如表2,3,兩種算法性能比較如圖2.
表2 文中算法推薦結(jié)果Table 2 Recommended results in this paper
表3 協(xié)同過(guò)濾算法推薦結(jié)果Table 3 Recommended results of collaborative filtering algorithm
圖2 兩種算法性能比較Fig.2 Comparison of performances of two algorithms
綜上所示,文中介紹算法所得F值在不同top-N值時(shí)均比協(xié)同過(guò)濾算法要大,而且隨著N的增大,F(xiàn)值呈上升趨勢(shì),文中推薦算法最大值可達(dá)到0.38,而協(xié)同過(guò)濾算法得到的最大值略高于0.29.由此可以看出,基于特征加權(quán)張量分解的標(biāo)簽推薦算法比傳統(tǒng)算法推薦效果更好.
大眾標(biāo)注系統(tǒng)中的標(biāo)注數(shù)據(jù)稀疏性非常嚴(yán)重,并且會(huì)時(shí)常出現(xiàn)缺失情況,張量分解是用來(lái)解決數(shù)據(jù)稀疏性問(wèn)題的常用手段,但是由于算法相對(duì)復(fù)雜,處理稀疏性和缺失值的效果不甚理想.另外,傳統(tǒng)張量分解算法對(duì)所有元組數(shù)據(jù)均一視同仁,采用相同的初始權(quán)重值,無(wú)法有效區(qū)分用戶標(biāo)注的重要特征.
文中的基于特征加權(quán)的張量分解算法,提取用戶標(biāo)注的重要特征,在張量分解算法基礎(chǔ)上對(duì)元組初始權(quán)重進(jìn)行改進(jìn),通過(guò)不同權(quán)重值反映用戶的興趣所在;同時(shí)使用相同數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)與經(jīng)典協(xié)同過(guò)濾算法推薦結(jié)果進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明基于特征加權(quán)張量分解的標(biāo)簽推薦算法的推薦效果更好.
References)
[1]許棣華,王志堅(jiān),林巧民,等.一種基于偏好的個(gè)性化標(biāo)簽推薦系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2011,28 (7):2573-2579.Xu Dihua,Wang Zhijian,Lin Qiaomin,et al.Personalized tag recommendation system based on preferences[J].Application Research of Computers,2011,28 (7):2573-2579.(in Chinese)
[2]Symeonidis P,Nanopoulos A,Manolopoulos Y.Tag recommendations based on tensor dimensionality reduction[C]∥Proceedings of the 2008 ACM Conference on Recommender Systems.New York,NY,USA:ACM,2008: 43-50.
[3] 孫玲芳,李爍朋.基于K-means聚類與張量分解的社會(huì)化標(biāo)簽推薦系統(tǒng)研究[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,26(6):597-601.Sun Lingfang,Li Shuopeng.Social tagging recommendation system based on K-means cluster and tensor decomposition[J].Journal of Jiangsu University of Science and Technology(Natural Science Edition),2012,26(6):597-601.(in Chinese)
[4] 喬綠茵,張敏.我國(guó)基于Folksonomy的標(biāo)簽推薦方法研究綜述[J].信息資源管理學(xué)報(bào),2012(4):41 -46.Qiao Lvyin,Zhang Min.Review of tag recommendation method on folksonomy in China[J].Journal of Information Resources Management,2012(4):41-46.(in Chinese)
[5] 余金香.Folksonomy及其國(guó)外研究進(jìn)展[J].圖書情報(bào)工作,2007,51(7):38-74.Yu Jinxiang.Folksonomy and related research progress in some advanced countries[J].Library and Information Service,2007,51(7):38-74.(in Chinese)
[6] 吳思竹.社會(huì)標(biāo)注系統(tǒng)中標(biāo)簽推薦方法研究進(jìn)展[J].圖書館雜志,2010,29(3):48-52.Wu Sizhu.Research on tag recommendation methods in the social tagging system[J].Library Journal,2010,29(3):48-52(in Chinese)
[7]劉志麗.基于內(nèi)容的社會(huì)標(biāo)簽推薦技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2012.
[8] 靳延安,李玉華,劉行軍.不同粒度標(biāo)簽推薦算法的比較研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(2): 504-509.Jin Yan'an,Li Yuhua,Liu Xingjun.Comparative research on different grain-based tag recommendation algorithm[J].Application Research of Computers,2012,29(2):504-509.(in Chinese)
[9]司憲策.基于內(nèi)容的社會(huì)標(biāo)簽推薦與分析研究[D].北京:清華大學(xué),2010.
[10] 叢維強(qiáng).基于數(shù)據(jù)倉(cāng)庫(kù)和語(yǔ)義分析的社會(huì)標(biāo)簽推薦技術(shù)研究[D].江蘇鎮(zhèn)江:江蘇科技大學(xué),2014.
[11] 李貴,王爽,李征宇等.基于張量分解的個(gè)性化標(biāo)簽推薦算法[J].計(jì)算機(jī)科學(xué),2015,42(2):267-273.Li Gui,Wang Shuang,Li Zhengyu,et al.Personalized tag recommendation algorithm based on tensor decomposition[J].Computer Science,2015,42(2): 267-273.(in Chinese)
[12]王金輝.基于標(biāo)簽的協(xié)同過(guò)濾稀疏性問(wèn)題研究[D].合肥:中國(guó)科技大學(xué),2011.
[13] 萬(wàn)朔.基于社會(huì)化標(biāo)簽的協(xié)同過(guò)濾推薦策略研究[D].成都:電子科技大學(xué),2010.
[14] 張兵.基于標(biāo)簽的協(xié)同過(guò)濾推薦技術(shù)的研究[D].杭州:浙江大學(xué),2011.
[15]Symeonidis P,Nanopoulos A,Manolopoulos Y.A unified framework for providing recommendations in social tagging systems based on ternary semantic analysis[J].IEEE Transactions on Knowledge and Data Engineering,2010(22):1-14.
[16]Sarwar B,Karypis G,Konstan J et al.Item-based collaborative filtering recommendation algorithms[C]∥Proceedings of the 10th International Conference on World Wide Web.New York:ACM,2001:285-295.
[17]Linden G,Smith B,York J.Anlazon.com recommendations:item-to-item collaborative filtering[J].IEEE Internet Computing,2003,7(1):76-80.
[18]Harvey M,Baillie M,Ruthven I,et al.Tripartite hidden topic models for personalised tag suggestion[M]∥Advances in Information Retrieval.Berlin Heidelberg: Springer,2010:432-443.
[19]Jaschke R,Marinho L,Hotho A,et al.Tag recommendations in folksonomies[M]∥Knowledge Discovery in Databases:PKDD 2007.Berlin Heidelberg: Springer,2007:506-514.
[20]Lee S O K,Chun A H W.A web 2.0 tag recommendation algorithm using hybrid ANN semantic structures[J].International Journal of Computers,2007,1:49 -58.
(責(zé)任編輯:童天添)
Tag recommendation algorithm based on feature weighting and tensor decomposition
Sun Lingfang1,F(xiàn)eng Zunchang2
(1.College of Computor Science and Technology,Taizhou University,Taizhou Jiangsu 225300,China)
(2.School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhenjiang Jiangsu 212003,China)
Aiming at the problem that the tag recommendation system is extremely sparse,the tensor model of weighted tuble set is constructed by extracting the key features of the tagging process and calculating the initial weights of the elements;Then,we use the high order singular value decomposition(HOSVD)to reduce the dimension of the tensor model,So that it can improve the recommendation efficiency;The MovieLens data set is used to simulate the tag recommendation algorithm based on feature weighting tensor decomposition.The experimental results show that the tag recommendation algorithm based on feature weighting tensor decomposition is better than the traditional algorithm.The proposed method can effectively deal with the data sparsity problem and improve the recommendation effect.
folksonomy;tag recommendation;tensor decomposition;feature weighting;HOSVD
TP39
A
1673-4807(2015)06-0574-06
10.3969/j.issn.1673-4807.2015.06.012
2015-08-04
泰州市科技支撐項(xiàng)目(TS201515);教育部人文社科基金資助項(xiàng)目(10YJAZH069);江蘇省“六大人才高峰”項(xiàng)目(2012XXRJ-013)
孫玲芳(1963—),男,博士,教授,研究方向?yàn)橛?jì)算機(jī)應(yīng)用技術(shù).E-mail:slf0308@163.com
孫玲芳,馮遵倡.基于特證加權(quán)張量分解的標(biāo)簽推薦算法研究[J].江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,29(6):574-579.
江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版)2015年6期