劉建東
摘要:UGC標簽推薦系統(tǒng)的推薦效果依賴標簽的質(zhì)量,因為UGC標簽是用戶隨意標注的,并不是所有的標簽都符合用戶興趣,有必要清空一些不符合用戶興趣的標簽,提高標簽質(zhì)量。本文根據(jù)標簽的頻率和物品的流行程度,提出假設(shè),建立衡量標簽與用戶興趣匹配度的數(shù)學模型,通過設(shè)置閥值,建立篩選規(guī)則,并應(yīng)用該規(guī)則進行了實驗。實驗的準確率和召回率達到70%和75%,一定程度上達到了提高標簽質(zhì)量的目的。
關(guān)鍵詞:UGC標簽;推薦系統(tǒng);數(shù)據(jù)標簽清理
一、引言
UGC標簽推薦系統(tǒng)是指通過讓普通用戶給物品或者服務(wù)打標簽,然后分析標簽的內(nèi)容和打標簽的行為來進行推薦。UGC標簽是普通用戶對物品的評價,同時也表示了用戶的興趣,所以標簽成了物品和用戶興趣之間的橋梁,成為推薦系統(tǒng)研究物品和用戶興趣的媒介。UGC標簽推薦系統(tǒng)是一種新型的個性化推薦方法。
豆瓣是國內(nèi)文藝青年廣泛使用的社交網(wǎng)站,包含讀書、電影、音樂等領(lǐng)域的信息,在這些領(lǐng)域內(nèi),豆瓣網(wǎng)站嘗試了不同的個性化推薦算法,UGC標簽推薦就是其中一種。它允許普通用戶為電影,書籍,音樂打上自己的標簽,標注用戶的理解,從而改善推薦效果。
UGC標簽推薦系統(tǒng)的推薦效果依賴用戶為物品和服務(wù)打上的標簽的質(zhì)量,而因為UGC標簽是普通用戶根據(jù)自己的理解隨意打上的,并不是所有的標簽都會反映用戶的興趣。比如,在豆瓣網(wǎng)站上,用戶看完一個電影,打上了“不好笑”這樣的標簽,那么并不代表用戶喜歡“不好笑”的電影。因此,有必要對標簽進行清理,提高標簽的質(zhì)量,從而更進一步改善推薦效果。
從另外一個角度來看,標簽可以為推薦結(jié)果提供解釋,方便用戶理解推薦的理由,如果標簽的內(nèi)容冗余,也會影響用戶對UGC推薦系統(tǒng)的體驗。所以標簽清理工作顯得尤其重要。
二、相關(guān)工作
目前對于清理標簽所做的研究,有一定的成果。趙亞楠等針對標簽的冗余問題,提出通過計算標簽之間的相似度,來消除同義詞,也有其他學者通過利用IDF值清除冷僻標簽,或者通過計算詞頻將高頻的停止詞進行清理。雖然解決了標簽冗余問題,但是有些標簽與用戶興趣不相符的問題依然存在。本文的主要工作就是要提出一種新的計算方法來篩選不符合用戶興趣的標簽。
三、標簽清理方法
(一)基本假設(shè)
(1)用戶不能使用重復(fù)的標簽對同一個物品進行標注。
(2)通過文獻中方法,剔除了冗余標簽和冷僻標簽,所以候選的標簽從使用頻率來說屬于正常標簽。
(3)被候選標簽qi標注的物品集W(qi)的長度是N(W(qi)),如果候選標簽qi的出現(xiàn)的次數(shù)最多是t次,則用tN(W(qi))的比值來衡量候選標簽qi與用戶興趣的匹配度,tN(W(qi))的值與匹配度成正比例。
(二)說明
現(xiàn)在對假設(shè)(3)進行說明,根據(jù)假設(shè)(2),候選標簽qi的使用次數(shù)是正常,意味著對該物品集進行標簽的人數(shù)屬于正常范圍。N個物品都被標簽qi標注過,意味著至少有N人都知道標簽qi。標簽qi越符合用戶興趣,那么N個人越會對標簽qi屬性最明顯的電影進行標注,從而qi的次數(shù)會接近N,因此可以用tN的比值來衡量匹配度。舉一個例子,100部電影都被標注為“武俠”,基于假設(shè)(1),意味著有100個用戶看過“武俠”的電影,如果100個用戶都對“武俠”感興趣,則他們一定會去看最經(jīng)典的“武俠”電影,因此最經(jīng)典的“武俠”電影的次數(shù)就會達到100次。也就是說“武俠”標簽出現(xiàn)的次數(shù)與電影的數(shù)量是成正比的。相反,100部電影都被標注為“不好笑”,基于假設(shè)(1),意味著100個用戶看過自己評價為“不好笑”的電影,因為對“不好笑”不感興趣,所以就不會選擇去看類似的電影,從而,被標注“不好笑的”電影的次數(shù)就越少。
四、結(jié)論
本文針對UGC標簽推薦系統(tǒng)中標簽質(zhì)量不高的問題進行了研究,提出了清空標簽的數(shù)學模型,建立了篩選的規(guī)則。從實驗結(jié)果的準確性和召回率的比率來看,該方法一定程度上達到了提高標簽質(zhì)量的目的。(作者單位:吉首大學張家界學院)
參考文獻:
[1]項亮.推薦系統(tǒng)實踐[M].北京:人民郵電出版社,2012.
[2]JiaweiHan,Micheline Kamber 范明,孟小峰等譯.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
[3]趙亞楠,董晶,董佳梁.基于社會化標注的博客標簽推薦方法照[J].計算機工程與設(shè)計,2012,33(12):4609-4614.
[4]http://www.douban.com/
[5]CHAKPABORTY B. Integrating awareness in user oriented route recommendation system[A].CHAKRABORTY B.The International Joint Conference on Neural Networks[C].New Jersey:IEEE Press,2012.1-5.
[6]張斌,張引,高克寧,郭朋偉,孫達明.融合關(guān)系與內(nèi)容分析的社會標簽推薦[J].軟件學報,2012,3(3):477-450.