黃山山,馬 軍,郭 磊,王帥強
(山東大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 濟南 250101;山東財經(jīng)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 濟南 250014)
LinkMF: 結(jié)合Linked Data的協(xié)同過濾推薦算法
黃山山,馬 軍,郭 磊,王帥強
(山東大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 濟南 250101;山東財經(jīng)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 濟南 250014)
協(xié)同過濾(CF)是推薦系統(tǒng)中應(yīng)用最為廣泛的推薦算法之一,然而數(shù)據(jù)稀疏性和冷啟動問題是協(xié)同過濾方法的兩個主要挑戰(zhàn)。由于Linked Data整合了關(guān)于實體的豐富且結(jié)構(gòu)化的特征,可以作為額外的信息源來緩解以上兩種挑戰(zhàn)。該文中我們首次提出了結(jié)合Linked Data改進CF推薦算法,基于矩陣分解提出了一種新的CF模型——LinkMF,在保證推薦準確度的基礎(chǔ)上利用Linked Data緩解數(shù)據(jù)稀疏性和冷啟動問題。首先,我們從Linked Data中抽取項目的特征表示并為項目建模;然后提出新的相似度度量方法計算項目相似度;最后利用項目相似度約束和指導(dǎo)MF分解過程產(chǎn)生推薦。在MovielLens和YAGO標準數(shù)據(jù)集上的大量實驗結(jié)果表明,LinkMF優(yōu)于現(xiàn)有的一些CF方法,特別在緩解數(shù)據(jù)稀疏性和冷啟動問題上取得很好地效果。
推薦系統(tǒng);矩陣分解;Linked Data;數(shù)據(jù)稀疏性;冷啟動
隨著互聯(lián)網(wǎng)的迅猛發(fā)展和信息的爆炸式增長,用戶無法從海量數(shù)據(jù)中獲取對自己有用的信息,造成了信息超載的問題。同時,用戶的個性化需求越來越突出,許多商業(yè)Web站點都希望能夠盡量滿足用戶喜好,與用戶建立穩(wěn)固的合作關(guān)系。在這種背景下,推薦系統(tǒng)[1](Recommender System)應(yīng)運而生,它能挖掘用戶的歷史行為信息發(fā)現(xiàn)用戶興趣,并及時主動的為用戶推送與用戶興趣相符的項目。在過去的數(shù)十年中,推薦系統(tǒng)在學(xué)術(shù)研究和工業(yè)界都取得了長足進步,許多推薦算法被提出并得到日益完善。
協(xié)同過濾[1-2]是應(yīng)用最為廣泛的推薦算法之一,其基本思想是利用評分相似的最近鄰居的評分數(shù)據(jù)向目標用戶產(chǎn)生推薦,且不需要項目(item)的顯式特征表示。協(xié)同過濾技術(shù)存在一些挑戰(zhàn): (1)冷啟動問題[3]。當新用戶或項目出現(xiàn)時,由于缺乏它們的偏好信息而無法產(chǎn)生推薦;(2)數(shù)據(jù)稀疏性問題[4]。當評分數(shù)據(jù)比較稀疏時,根據(jù)傳統(tǒng)計算方法很難找到相似用戶,這就導(dǎo)致推薦效果大大降低。以上這些問題的主要原因是數(shù)據(jù)不充分問題,為了提供有效的推薦,還需要合適并容易獲取的更多數(shù)據(jù)來豐富用戶或項目的表示形式。
最近幾年,由于Web of Data的繁榮發(fā)展,越來越多的組織和機構(gòu)通過遵循一定的規(guī)范——RDF/XML發(fā)布包含豐富信息和知識的語義數(shù)據(jù)庫。這些語義數(shù)據(jù)庫通過W3C的關(guān)聯(lián)數(shù)據(jù)規(guī)范相互連接,使得互聯(lián)網(wǎng)進化成一個更大的富含語義的、互聯(lián)互通的知識海洋,也稱為Linked Data[5]。Linked Data包含了多個領(lǐng)域的實體的結(jié)構(gòu)化描述,例如,在電影領(lǐng)域,Linked Data提供了電影的導(dǎo)演、演員、類別、上映日期等。
這些結(jié)構(gòu)化的數(shù)據(jù)可以用來建立推薦系統(tǒng)中項目的語義表示,從而改進傳統(tǒng)的推薦算法。利用Linked Data設(shè)計推薦算法的研究還比較少,文獻[6-8]使用Linked Data設(shè)計了基于內(nèi)容過濾的推薦算法,免去了信息抽取和過濾過程,并取得了很好的推薦效果。然而,Linked Data還沒有被應(yīng)用于CF推薦算法。Linked Data提供了豐富的、結(jié)構(gòu)化的信息,這些信息提供給我們更多額外的知識來彌補協(xié)同過濾算法中數(shù)據(jù)稀疏的問題。同樣的,對于冷啟動的項目,我們也可以獲得除了評分以外的特征信息來為項目建模,從而提高對冷啟動項目推薦的準確度。
本文探討如何利用Linked Data來提高協(xié)同過濾推薦算法的推薦準確度,并希望能夠緩解冷啟動和數(shù)據(jù)稀疏性問題。目前為止,矩陣分解(MF)[9-10]是協(xié)同過濾算法中表現(xiàn)最好的推薦模型之一。本文基于MF模型,提出了項目相似度敏感的MF。首先,將推薦系統(tǒng)中的項目和Linked Data中實體對齊,并抽取特征表示;然后,根據(jù)特征表示設(shè)計合適的相似度度量方法,計算項目之間的相似度;最后,利用項目相似度獲得最近鄰,并約束矩陣分解過程。對比實驗結(jié)果表明文中的方法具有更高的推薦準確度并能緩解數(shù)據(jù)稀疏和冷啟動問題。
本文的創(chuàng)新性表現(xiàn)在: (1)首次利用Linked Data改進CF推薦算法;(2)基于MF提出了一種新的項目相似度敏感的矩陣分解算法;(3)實驗證明了可以結(jié)合Linked Data緩解CF的數(shù)據(jù)稀疏和冷啟動問題。
2.1 問題定義
在基于評分預(yù)測的推薦系統(tǒng)中,有m個用戶U={u1,u2,...,um}和n個項目I={i1,i2,...,in},用戶對項目的偏好信息用評分矩陣Rm×n表示。在評分矩陣中,Rij表示用戶ui對項目ij的喜好,一般取值為1~5的整數(shù)。通常我們只能觀測到極少部分的打分值,矩陣中99%以上的值都是缺失的[1]。推薦系統(tǒng)的任務(wù)是學(xué)習(xí)到一個函數(shù)f(ui,ij)能夠為用戶ui沒有評過分的項目ij預(yù)測打分值,并把預(yù)測打分值比較高的項目推薦給ui。
2.2 相關(guān)工作
2.2.1 協(xié)同過濾
協(xié)同過濾[1-2]是最早提出、商業(yè)應(yīng)用最廣泛的個性化推薦算法,它利用用戶的歷史打分信息找到相似的用戶或項目,然后基于相似的用戶或項目的打分信息進行推薦。目前為止,矩陣分解[9-11]是協(xié)同過濾算法中推薦準確度最好的推薦模型。
矩陣分解的基本思想是通過將評分矩陣R分解成兩個低秩的隱含特征向量P和Q,并使用P和Q的內(nèi)積逼近原來的評分矩陣。評分矩陣的分解可以通過優(yōu)化以下目標函數(shù)獲得,如式(1)所示。
(1)
(2)
其中λP,λQ>0,是正則化項的參數(shù)。通過最小化以上目標函數(shù)就可以得到用戶和項目的隱含特征向量P和Q。
MF有很多很好的性質(zhì): (1)許多優(yōu)化算法比如梯度下降方法都能用于求解MF;(2)可擴展性好,可以處理百萬的用戶和項目;(3)有很好的靈活性,可以加入額外的因素來約束分解過程以達到更好的推薦效果。但是當評分矩陣過于稀疏或者存在新用戶(項目),MF將不能產(chǎn)生有效的推薦結(jié)果。
2.2.2 Linked Data
Linked Data[5]是基于http URIs和語義網(wǎng)標準RDF將數(shù)據(jù)、信息和知識連接、發(fā)布和共享的一種技術(shù),從而使任何人都能夠借助整個互聯(lián)網(wǎng)的計算設(shè)施和運算能力,在更大范圍內(nèi),準確、高效、可靠地查找、分享、利用這些相互關(guān)聯(lián)的信息和知識。在過去的幾年中,越來越多的數(shù)據(jù)提供者和Web應(yīng)用開發(fā)者將他們各自的數(shù)據(jù)發(fā)布到Web上,并且與其他知識庫關(guān)聯(lián)在一起,形成一個巨大的知識海洋。例如,DBpedia[12]、Freebase[13]、YAGO[14]等。Linked Data組織了豐富的、準確的并且結(jié)構(gòu)化的數(shù)據(jù),并提供SPARQL查詢語言和其他API方便獲取。
以YAGO為例,圖1是從YAGO抽取出的關(guān)于實體Independence Day與其他實體和屬性的關(guān)系示意圖。
圖1 Linked Data中實體與實體和屬性的關(guān)系示意圖
圖1中方框表示實體,橢圓表示屬性。圖中只顯示了一部分關(guān)于Independence Day與其他實體和屬性的關(guān)系,其中還包括yago:created,yago:produced,yago:wasCreatedOnDate等關(guān)系。如果我們將推薦系統(tǒng)中的電影和YAGO的實體映射就可以獲得電影的這些結(jié)構(gòu)化信息來幫助推薦。
在文獻[7]中,作者將Linked Data中的實體表示成集合的形式,并定義了類似于Jaccard相似度的相似度度量方式,但是并沒有區(qū)分不同特征的重要性。例如,對于電影,人們通常只看type類似的電影,而不在乎演員列表是否相似。因此,為了彌補文獻[7]中的不足,我們在后面提出了加權(quán)的Jaccard相似度度量方法。
在本節(jié)中,我們基于MF利用Linked Data設(shè)計新的CF推薦算法。通過矩陣分解,我們可以得到用戶和項目的隱特征向量Pi和Qj,然后基于Pi和Qj的內(nèi)積預(yù)測評分。由于數(shù)據(jù)稀疏性,分解之后的項目隱特征向量不能準確代表項目的特征,從而導(dǎo)致預(yù)測的不準確性。在這里,我們基于這樣一種假設(shè): 在Linked Data中特征表示比較相似的項目經(jīng)過矩陣分解之后對應(yīng)的隱特征向量也應(yīng)該是比較相似的。這樣即使有些項目的打分信息很少,也可以通過約束其與相似鄰居的隱特征向量近似,進而得到更準確的預(yù)測評分。基于普通的MF,我們結(jié)合Linked Data提出了項目相似度敏感的MF。
我們的工作主要包括以下部分: (1)將項目映射到Linked Data的實體,抽取相關(guān)特征為項目建模并定義相似度度量方式找到項目的最近鄰;(2)利用項目最近鄰約束矩陣分解,并進行推薦。下面我們依次介紹每個部分的主要工作。
3.1 在Linked Data中實體的特征表示
在文獻[7]中,Linked Data中的實體被表示成集合的形式,但是沒有區(qū)分不同類型的特征,類似的,我們定義了新的實體表示形式。
定義 1(Linked Data中實體特征表示)Linked Data是一個有多種鏈接類型的有向標記圖G=(V1∪V2,A,L),其中V1為實體集合,V2為V1中實體的屬性集合,A為G的有向邊集,L={l1,l2,...,l|L|}表示link的類型集合。?v1∈V1,v2∈V1∪V2,
例如,根據(jù)圖1,F(xiàn)(Independence Day)={(directed, Roland Emmerich),(actedIn, Will Smith),(actedIn, Margaret Colin),(type, Aviation Films),(type, Doomsday Films),...}。在應(yīng)用中,我們將在推薦系統(tǒng)中被推薦的對象和Linked Data中實體對齊并抽取特征表示,將項目按照以上形式為項目建模。
3.2 實體的相似度度量——加權(quán)Jaccard相似度
為討論方便起見,推薦系統(tǒng)中的項目最多對應(yīng)G中的一個實體。對于推薦系統(tǒng)中的兩個項目,如果能分別映射到Linked Data中的實體vi和vj,就可以獲得它們的特征表示F(vi)和F(vj)。Jaccard相似度是衡量集合相似度的常用度量方式,如2.2.2節(jié)所述,傳統(tǒng)的Jaccard相似度沒有考慮不同特征的重要性,使得相似度計算結(jié)果不盡人意。為了彌補文獻[7]中的不足,我們提出了加權(quán)的Jaccard相似度度量方法。如果兩個項目在重要性高的特征類型上擁有更多相同的特征,那么這兩個項目越相似。
不同的特征類型對描述項目起到的重要程度可能不同,例如,電影的導(dǎo)演和上映日期。我們將F(v)按照|L|種不同的類型細分為F(v)=Fl1(v)∪Fl2(v)∪…∪Fl|L|(v),其中Fli(v)表示只與link類型為li相關(guān)的特征集合,有些link的特征集合可能為空。我們?yōu)椴煌琹ink類型賦予不同的權(quán)值w={w1,w2,…,w|L|},滿足‖w‖1=1。
另外,在Fli(v)中,不同的特征值包含的信息量是不同的。定義若f∈Fli(v),我們用類似于IDF的方式定義特征值f的信息量如式(3)所示。
(3)
其中n是推薦系統(tǒng)中能找到對應(yīng)實體的數(shù)目,φf表示擁有特征值f的項目數(shù)目。如果擁有特征值f的項目越多,則f的IC(f)值越小。
衡量任意的兩個實體的相似度時,?vi,vj∈V1,定義vi和vj之間加權(quán)Jaccard相似度如式(4)所示。
(4)
對能夠找到Linked Data中對應(yīng)實體的項目,我們就可以計算兩兩之間的相似度。將項目之間的相似度表示成矩陣S,為了方便和計算效率,對任意項目i,我們只保留相似度最大的若干鄰居項目,比如20個相似度最大的項目形成鄰居集合N(i)。我們設(shè)置其余項目的相似度值為0,并進行行歸一化使得∑Si,j=1。
3.3 項目相似度敏感的MF算法
最近幾年,由于社交網(wǎng)絡(luò)的迅速發(fā)展和普及,有些研究者利用用戶的社會關(guān)系[15]或信任關(guān)系[16]來約束MF中用戶隱特征向量的分解,并取得了很好的推薦效果。由于一般網(wǎng)站不提供建立社會或信任關(guān)系的功能和隱私保護的問題,很難獲得關(guān)于用戶的社交網(wǎng)絡(luò)或信任網(wǎng)絡(luò)。在本節(jié)中我們通過上節(jié)計算得到的項目之間的相似度關(guān)系來約束和指導(dǎo)MF中項目隱特征向量的分解,設(shè)計項目相似度敏感的MF算法。
我們基于這樣一種假設(shè): 在LinkedData顯式特征上相似的項目在矩陣分解得到的隱特征向量上也應(yīng)該是相似的。在這里我們根據(jù)項目之間的相似度提出兩種不同的約束方法。
3.3.1 基于平均的相似度約束方法
在矩陣分解模型中,項目隱特征向量之間是相互獨立的。然而,這種假設(shè)是不準確的。一些顯式特征上比較相似的項目在分解之后的隱特征向量也應(yīng)該是相近的。如果對一個項目觀測到的打分值比較少,而它的相似鄰居的打分值比較多,我們可以約束它與相似鄰居的隱特征向量相近,使得這個項目得到與它的相似鄰居相似的推薦結(jié)果。
具體地,我們根據(jù)項目在LinkedData中的顯式特征計算相似度并得到項目ij的鄰居集合,那么項目ij的隱特征向量應(yīng)該和它鄰居集合的平均隱特征向量相似,這種關(guān)系可以表示為式(5)。
(5)
其中N(j)表示項目ij的鄰居集合,ij的隱特征向量表示為鄰居項目隱特征向量的加權(quán)平均。因此,我們可以在目標函數(shù)(2)上加入約束項得到以下目標函數(shù),如式(6)所示。
(6)
其中α>0,代表了項目ij多大程度上依賴于其鄰居集合。式(6)約束矩陣分解過程使得項目的隱特征向量不是相互獨立的,而是接近于相似鄰居集合的隱特征向量的平均值。
可以通過梯度下降的方法迭代更新Pi和Qj得到目標函數(shù)(6)的局部極小值,如式(7)所示。
(7)
3.3.2 基于個體的相似度約束方法
在3.2.1節(jié)中,我們對矩陣分解進行約束使得vj的隱特征向量與鄰居集合中的項目的隱特征向量的加權(quán)平均近似,這往往會導(dǎo)致信息的丟失。例如,一個項目i的鄰居集合是{ii,ij,ik},相似度分別為0.6,0.3,0.3,它們的隱特征向量分別為[0.1,0.1]T,[1,1]T,[2,2]T。按照3.2.1節(jié),項目i的隱特征向量應(yīng)該近似為[0.96,0.96]T,這樣就偏離了與它較為相似的項目的隱特征向量。尤其對比較獨特的項目,與它相似的項目并不多,如果使用鄰居集合中的項目的隱特征向量的加權(quán)平均更會得到偏離的結(jié)果,導(dǎo)致分解結(jié)果的不準確。
為了解決上述問題,我們又提出了基于個體的相似度約束方法。項目ij應(yīng)該和相似度較大的鄰居在隱特征空間中更為相似,而與相似度較小的鄰居可以不太相似。因此,對鄰居集合上的項目應(yīng)該按照不同的權(quán)重給予不同的約束強度。相對應(yīng)地,我們在目標函數(shù)(2)上加入以下約束,如式(8)所示。
(8)
其中β>0,與式(6)的α作用一致。當Sj,k比較大時,Qj和Qk應(yīng)該更為接近。我們的目標函數(shù)變?yōu)槭?9)。
(9)
同樣的,通過梯度下降的方法迭代更新Pi和Qj來求得局部極小值,如式(10)所示。
(10)
3.4 模型復(fù)雜度分析
4.1 實驗準備
4.1.1 數(shù)據(jù)集和評價標準
我們選用了MovieLens-100k評分數(shù)據(jù)集和YAGO知識庫作為Linked Data信息來源。Movie-Lens-100k包括943個用戶和1 682個電影,每個用戶至少給20個電影評過分,打分取值為1~5之間的整數(shù)。首先我們需要將MovieLens中的電影 title 映射到Y(jié)AGO的entity并獲取對應(yīng)的特征表示。1 682個電影中有1 437個電影找到了匹配對象并抽取了電影的yago:type、yago:directed和yago:actedIn特征。
在實驗中,我們采取五折交叉驗證的方法,其中評分數(shù)據(jù)的80%作為訓(xùn)練集,剩余20%作為測試集。在基于評分預(yù)測的推薦系統(tǒng)中,均方根誤差(RMSE)是最常用的準確性度量標準,RMSE定義為式(11)。
(11)
4.1.2 比較的方法
為了說明我們方法的有效性,我們將實現(xiàn)以下方法并比較推薦結(jié)果的準確性。
? Item-CF: 基于項目的協(xié)同過濾算法[2],采用pearson相似度,鄰居數(shù)目設(shè)為10;
? CBCF: 結(jié)合基于內(nèi)容和基于協(xié)同過濾的混合推薦算法[17];
? MF:在文獻[11]中提出的基本的矩陣分解算法;
? LinkMF1-type:使用基于平均的相似度約束方法,只使用yago:type特征;
? LinkMF1-all:使用基于平均的相似度約束方法,利用yago:type、yago:directed和yago:actedIn特征,使用加權(quán)的Jaccard相似度度量方法;
? LinkMF2-type:使用基于個體的相似度約束方法,只使用yago:type特征;
? LinkMF2-all:使用基于個體的相似度約束方法,利用yago:type、yago:directed和yago:actedIn特征,使用加權(quán)的Jaccard相似度度量方法;
在以上模型中,我們設(shè)置矩陣分解的維度為20,λP=λQ=0.1,學(xué)習(xí)速率為0.0001。在使用加權(quán)的Jaccard 相似度度量方法中,通過幾次實驗,我們選取了推薦結(jié)果最好的權(quán)重分配,type、directed和actedIn特征權(quán)重分別為0.5、0.3和0.2。
4.2 實驗結(jié)果與分析
4.2.1 參數(shù)選擇
在我們的模型中,α和β控制了鄰居項目集合對項目隱特征向量的影響程度。當α和β趨于0時,模型近似于基本的MF;當α和β越大時,項目隱特征向量受鄰居項目集合的影響越大。圖2顯示了隨著α和β變化時LinkMF1和LinkMF2兩種不同模型在測試集的RMSE值的變化趨勢。
從圖2的兩個圖中可以看出,隨著α和β逐漸增加時,RMSE都是先減小后逐漸增大,在α=β=0.3附近時取得最小值。因此可以說明結(jié)合Linked Data的項目特征可以提高推薦的準確度。當β>0.3時,LinkMF2-type和LinkMF2-all的RMSE值增加幅度相對比較大,這是因為待預(yù)測項目的隱特征向量與最相似鄰居更為接近而偏離了自身的隱含特征使得推薦準確度下降。在后面的實驗中,我們設(shè)置α=β=0.3。
圖2 不同的α和β值對推薦結(jié)果的影響
4.2.2 不同方法推薦效果比較
在實際的推薦系統(tǒng)中,數(shù)據(jù)稀疏度一般達到99%以上,因此在非常稀疏的數(shù)據(jù)集上能否取得較高的推薦準確度是衡量一個推薦算法實用性的重要指標。為了產(chǎn)生不同稀疏度的數(shù)據(jù)集,我們從Movie-Lens中分別抽取80%、60%和40%的評分數(shù)據(jù)作為訓(xùn)練集,這樣,我們得到數(shù)據(jù)稀疏度分別為94.96%、96.22%和97.48%的數(shù)據(jù)集。表1比較了不同推薦算法在不同稀疏度的數(shù)據(jù)集上的推薦效果。
表1 不同推薦算法在不同稀疏度的數(shù)據(jù)集上的RMSE值
從表1中可以看到我們提出的模型比Item-CF和MF的推薦準確度都高,說明了結(jié)合Linked Data能比傳統(tǒng)的協(xié)同過濾算法取得更好的推薦結(jié)果。而且,我們提出的模型比混合推薦算法CBCF也要好,LinkMF2-all始終能夠取得最好的推薦效果。當訓(xùn)練集變得更稀疏時,所有的推薦算法的推薦準確度都有所下降,然而我們的模型下降幅度不大且推薦準確度仍然較高,說明了使用項目相似度來約束MF能夠從一定程度上緩解數(shù)據(jù)稀疏問題。
從表1中還可以觀察到使用全部的信息計算項目相似度來約束MF比只使用type信息能取得更高的準確性。而且基于個體的相似度約束方法比基于平均的相似度約束方法要好,這是因為基于平均的相似度約束方法使用加權(quán)平均而喪失了部分信息。
4.2.3 冷啟動項目的推薦效果
在商務(wù)網(wǎng)站中,一般都存在長尾效應(yīng),這是由于大部分商品的購買人數(shù)和評分很少,從而處于“尾部”的商品很難被推薦出去。處于尾部的商品占了總商品數(shù)目的80%以上,提高對這些商品的推薦準確度能提高長尾商品的銷售量,從而增加網(wǎng)站的利潤。本實驗中,我們使用80%作為訓(xùn)練集,將訓(xùn)練集中打分少于五個和十個的項目作為冷啟動項目,比較不同推薦算法預(yù)測用戶對冷啟動項目打分的準確度。其中打分少于五個和十的項目分別占全部項目的25.6%和35.7%。
從圖3中可以看出,對冷啟動項目推薦時,混合推薦算法CBCF比Item-CF要好,這是因為CBCF首先利用基于內(nèi)容的推薦算法對評分矩陣填充,給冷啟動項目更多的打分。我們的模型要比基本的Item-CF、MF和CBCF推薦準確度都要高。其中LinkMF2-all的效果最好,與Item-CF和MF方法相比分別提高了16.2%和11.15%,相對于全部項目的提高幅度更高。
圖3 對冷啟動項目的推薦準確度比較
實驗中我們還觀察到隨著α和β增大時,LinkMF模型對冷啟動項目推薦時的RMSE逐漸減小,這是因為對冷啟動項目的打分記錄太少,需要更多的依賴于鄰居項目才能更準確的預(yù)測評分。因此,在實際系統(tǒng)中,可以針對冷啟動項目和非冷啟動項目賦予不同的α和β值,這樣可以進一步提高推薦準確度。
為了緩解推薦系統(tǒng)中數(shù)據(jù)稀疏和冷啟動問題,本文提出使用Linked Data提供的豐富的、結(jié)構(gòu)化的信息設(shè)計項目相似度敏感的矩陣分解算法。通過分析在MovieLens-100k和YAGO上的實驗結(jié)果,我們得出以下結(jié)論: (1)本文提出的兩種模型在RMSE度量指標上優(yōu)于基于項目的協(xié)同過濾方法和基本的矩陣分解算法;(2)我們的方法在比較稀疏的數(shù)據(jù)集上仍能夠取得較好的推薦準確度;(3)利用Linked Data提供的信息能夠緩解項目的冷啟動問題,準確度提高11%以上;(4)基于個體的相似度約束方法比基于平均的相似度約束方法推薦性能要好;(5)利用更多的信息計算相似度可以提高推薦準確度。在以后工作中,我們希望能在更大數(shù)據(jù)集和其他推薦領(lǐng)域驗證我們方法的有效性。
[1] G Adomavicius, A Tuzhilin. Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions[C]//Proceedings of the IEEE Transactions on Knowledge and Data Engineering, 2005, 17(6):734-749.
[2] G Linden, B Smith, J York. Amazon.com recommendations: Item-to-item collaborative filtering[C]//Proceedings of the IEEE Internet Comput., 2003, 7(1):76-80.
[3] P Cremonesi, R Turrin. Analysis of cold-start recommendations in IPTV systems[C]//Proceedings of the RecSys, 2009: 233-236.
[4] 趙琴琴,魯凱,王斌.SPCF: 一種基于內(nèi)存的傳播式協(xié)同過濾推薦算法[J].計算機學(xué)報,2013, 3:671-676.
[5] C Bizer, T Heath, T Berners-Lee. Linked data—the story so far[C]//Proceedings of the IJSWIS, 2009, 5(3):1-22.
[6] T Di Noia, R Mirizzi, V C Ostuni, et al. Linked open data to support content-based recommender systems[C]//Proceedings of the International Conference on Semantic Systems. 2012: 1-8.
[7] R Meymandpour, J G Davis. Recommendations using linked data[C]//Proceedings of the 5th PhD. workshop on Information and knowledge. ACM, 2012,8(4): 75-82.
[8] R Mirizzi, T Di Noia, A Ragone, et al. Movie recommendation with dbpedia[C]//Proceedings of the IIR, 2012.
[9] Y Koren, R Bell, C Volinsky. Matrix factorization techniques for recommender systems[C]//Proceedings of the Computer, 2009, 42(8):30-37.
[10] G Dror, N Koenigstein, Y Koren. Web-Scale Media Recommendation System[C]//Proceedings of the IEEE, 2012, 100(9): 2722-2736.
[11] R Salakhutdinov, A Mnih. Probabilistic matrix factorization. NIPS, 2008, 20: 1257-1264.
[12] C Bizer, J Lehmann, G Kobilarov, et al. Dbpedia—A crystallizationpoint for the Web of Data[J]. Journal of Web Semantics, 2009, 7(3): 154-165.
[13] K Bollacker, C Evans, P Paritosh, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of the SIGMOD, 2008: 1247-1250.
[14] F M Suchanek, G Kasneci, G Weikum. Yago: a core of semantic knowledge[C]//Proceedings of the WWW, 2007: 697-706.
[15] H Ma, D Y Zhou, C Liu, et al. Recommender systems with social regularization[C]//Proceedings of the WSDM, 2011: 287-296.
[16] M Jamali,M Ester. A matrix factorization technique with trust propagation for recommendation in social networks[C]//Proceedings of the RecSys, 2010: 135-142.
[17] P Melville, R J Mooney, R Nagarajan. Content-boosted collaborative filtering for improved recommendations[C]//Proceedings of the 18th National Conference on Artificial Intelligence, 2002: 187-192.
LinkMF: Collaborative Filtering Recommendation Algorithm with Linked Data
HUANG Shanshan, MA Jun, GUO Lei, WANG Shuaiqiang
(School of Computer and Science Technology, Shandong University, Jinan, Shandong 250101, China; School of Computer and Science Technology, Shandong University of Fiance & Economic, Jinan, Shandong 250014, China)
Collaborative filtering (CF) is one of the most popular recommendation techniques in application. However data sparsity and cold start remain as two challenges in CF applications. Since Linked Data integrates rich and structured features about entities, this paper proposes the idea of leveraging Linked Data to improve CF recommendation algorithm. Based on matrix factorization (MF), we develope a novel CF model denoted as LinkMF, incorporating structured Linked Data to mediate data sparsity and cold start problems while preserving recommendation accuracy. In particular, we extract features from the Linked Data and construct the item profiles; then we propose new similarity metrics for dufferent items; and, finally, we incorporate the obtained item similarities into the basic MF model to constrain and improve the factorization process. Comprehensive experiments on MovieLens and YAGO benchmark datasets demonstrate the promising results of the LinkMF compared with the state-of-the-art CF models, especially in the data sparsity and cold start scenarios.
recommender systems; matrix factorization; Linked Data; data sparsity; cold start
黃山山(1990—),博士,主要研究領(lǐng)域為推薦系統(tǒng)、知識庫和數(shù)據(jù)分析。E?mail:huangshanshansdu@163.com馬軍(1956—),博士,博士生導(dǎo)師,主要研究領(lǐng)域為信息檢索、社會網(wǎng)絡(luò)分析、推薦系統(tǒng)和數(shù)據(jù)挖掘等。E?mail:majun@sdu.edu.cn郭磊(1983—),博士,講師,主要研究領(lǐng)域為推薦系統(tǒng)和社會計算。E?mail:leiguo.cs@hotmail.com
1003-0077(2016)01-0085-08
2013-07-16 定稿日期: 2014-05-08
國家自然科學(xué)基金(61272240,60970047,61103151),山東省自然科學(xué)基金(ZR2012FM037),山東省優(yōu)秀中青年科學(xué)家科研獎勵基金(BS2012DX017)
TP391
A