(北京印刷學院 北京 102600)
1.研究背景
當前社會是一個信息過載(information overload)的社會,為了解決這種問題,人們發(fā)明了搜索引擎。雖然搜索引擎可以有效幫助用戶獲取其需要的信息,但它也有局限性,在大多數(shù)場合,用戶并不明確自己需要的信息,搜索引擎也就不能發(fā)揮其最大的作用。
推薦系統(tǒng),就是為了填補搜索引擎的缺陷而產(chǎn)生的。它以用戶的歷史行為為基礎,將用戶的喜好和興趣分析透徹,主動地將用戶感興趣的結(jié)果反饋給用戶,而不需要用戶主動描述自己所需要的信息。
2.國內(nèi)外研究現(xiàn)狀
1992年,Goldberg第一次引入了協(xié)同過濾的思想,1997年Resnick首次在文獻中正式提出了推薦系統(tǒng)這個詞匯,他定義了推薦系統(tǒng)是“利用電子商務網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應該購買什么產(chǎn)品,仿照銷售人員向客戶推薦商品幫助他們完成購買過程?!边@一定義也被沿用至今。
1.推薦系統(tǒng)概述
推薦系統(tǒng)是存在于內(nèi)容平臺網(wǎng)站中,網(wǎng)站通過系統(tǒng)向用戶推薦商品信息,幫助用戶決定應該選擇什么,或向他們推薦他們可能會需要的產(chǎn)品,來幫助用戶完成購買行為。
為了解決信息過載而造成的時間浪費,個性化推薦系統(tǒng)此而產(chǎn)生。該系統(tǒng)是設立在基于大量數(shù)據(jù)基礎上的一個高級商務智能平臺,幫助電商網(wǎng)站向用戶提供個性化的解決方案和信息服務。
推薦系統(tǒng)有三個重要模塊:用戶建模、推薦對象建模和推薦算法建模。首先根據(jù)用戶的歷史行為或信息進行建模,然后將需要推薦的特征對象與用戶特征進行匹配,通過某些特定的算法進行計算,將用戶可能會感興趣的商品推薦給用戶。
2.相關(guān)算法
在構(gòu)成推薦系統(tǒng)的三個主要模塊中,推薦算法是最關(guān)鍵的。判斷一個推薦系統(tǒng)是否準確有效,取決于其是否選用了一個好的推薦算法。
(1)基于內(nèi)容的推薦(Content-based Recommendation)
基于內(nèi)容的推薦,簡而言之,是基于用戶以往瀏覽或購買過的商品的特征,并建立起用戶的個人興趣模型,它將用戶的個人興趣與物品特征來進行匹配,以推薦用戶可能感興趣的商品。它通常是對項目本身的內(nèi)容屬性進行分析?;趦?nèi)容推薦一般應用于基于文本的內(nèi)容推薦,如書籍、網(wǎng)頁、新聞等,這些物品通常采用非結(jié)構(gòu)化數(shù)據(jù)來描述。為了描述這些特征,通常采用特征提取技術(shù)從非結(jié)構(gòu)化的文本中提取關(guān)鍵特征并建立特征向量。
(2)協(xié)同過濾推薦
協(xié)同過濾推薦算法主要是利用用戶歷史信息來為用戶進行建模,根據(jù)建模作出推薦的一種算法。根據(jù)不同的實現(xiàn)方法,可以分為基于記憶的協(xié)同過濾和基于模型的協(xié)同過濾。該算法是推薦系統(tǒng)中最成功也是被應用最廣泛的算法之一。它是利用記錄用戶各自不同的歷史行為來計算用戶與用戶之間的距離,根據(jù)與被評估用戶的最近鄰居用戶對某件商品的評價值來判斷被評估用戶對某件商品的喜好程度,根據(jù)目標用戶的偏好程度來為他們進行推薦。
(3)基于關(guān)聯(lián)規(guī)則推薦(Association Rule-based Recommendation)
該算法是以關(guān)聯(lián)規(guī)則為基礎,規(guī)則頭是已購商品,推薦對象視為規(guī)則體。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)銷售過程中各種不同商品的相關(guān)性。
(4)基于效用推薦(Utility-based Recommendation)
該算法是基于用戶使用項目的效用情況上計算的,其核心問題是創(chuàng)建一個覆蓋全用戶的效用函數(shù)。因此,用戶數(shù)據(jù)模型是什么樣的,大部分要取決于系統(tǒng)使用什么樣的效用函數(shù)。該算法的優(yōu)點是它可以考慮非產(chǎn)品的性質(zhì),如供應商的可靠性和產(chǎn)品的可用性。
(5)基于知識推薦(Knowledge-based Recommendation)
該算法并不需要用戶偏好和需要的數(shù)據(jù)來支持,更像是一種推理技術(shù)。效用知識(Functional Knowledge)是一種為了滿足某類特定用戶而需求的某種項目的知識,它可以解釋用戶需求和系統(tǒng)推薦之間的關(guān)系。
(6)組合推薦
由于上述所有算法都有缺陷,所以在日常工作中最常用的是組合推薦(Hybrid Recommendation),根據(jù)某一問題的實際情況將多種推薦算法組合在一起使用,可以通過組合后彌補或避免其中單個推薦系統(tǒng)的缺點,提高推薦系統(tǒng)的性能。
1.亞馬遜
著名的電商網(wǎng)站亞馬遜是個性化推薦系統(tǒng)的頂級應用者和推廣者,被RWW(讀寫網(wǎng))稱為“推薦系統(tǒng)之王”。其最主要的是個性化商品推薦列表和相關(guān)商品的推薦列表。它采用協(xié)同過濾技術(shù),可以準確分析每個用戶購買的情況,主動向用戶推薦,并根據(jù)用戶的歷史行為,給出某個用戶可能喜歡的書籍或商品供其選擇。據(jù)美國著名的科技博客網(wǎng)站Venture Beat統(tǒng)計,亞馬遜有約35%的銷售額來自于其推薦系統(tǒng)。
2.今日頭條
今日頭條的推薦系統(tǒng)實際上是建立一個三維變量函數(shù),其所描述的內(nèi)容是用戶對內(nèi)容的滿意度。這三個維度分別是內(nèi)容、用戶特征、環(huán)境特征。將這三個維度結(jié)合起來,系統(tǒng)能夠得出一個計算結(jié)果,用來預測推薦內(nèi)容在某一場景下是否會得到用戶的喜歡。
1.用戶滿意度(Customer Satisfaction)
在電子商務平臺中,用戶滿意度主要是通過統(tǒng)計用戶的行為來得到,如果用戶購買了系統(tǒng)為他們推薦的商品,就說明用戶對推薦結(jié)果是滿意的。此外,用戶的滿意度還可以通過點擊率、轉(zhuǎn)化率、停留時間等指標來衡量。
2.預測準確度(Prediction Accuracy)
預測準確度是評判一個系統(tǒng)是否能夠預測用戶行為的能力,它的主要思想是將推薦算法計算出的推薦結(jié)果與用戶對某一商品的真實喜愛程度進行相似度匹配。該指標可以通過離線計算得出。
3.覆蓋率(Coverage Rate)
覆蓋率是用來描述一個推薦系統(tǒng)能否挖掘出這個內(nèi)容平臺網(wǎng)站更多長尾物品的能力。其定義為推薦系統(tǒng)能夠向用戶推薦出的物品占平臺中總物品的比例。
網(wǎng)絡技術(shù)的飛速發(fā)展給人類生活帶來了極大的影響,提供了許多便利,但隨之而來的信息過載問題也不容小覷。在有限的時間和資源中,用戶并不希望在浩如煙海的信息中漫無目的地尋找自己所需要的信息,更希望能夠簡便高效的找到他們所需要的信息。
推薦系統(tǒng)的本質(zhì)就是猜測用戶的喜好,并向其推薦,從而幫助他們購買。而當人們的喜好不斷發(fā)生變化時,推薦系統(tǒng)如何準確及時地抓住這些變化并滿足人們實時的需求,成了現(xiàn)在個性化推薦系統(tǒng)急需解決的一大問題。