朱夢(mèng)婷
關(guān)鍵詞:推薦系統(tǒng);協(xié)同過(guò)濾;數(shù)據(jù)稀疏;相似度
1引言
隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,人們獲取大量信息十分便捷。與此同時(shí),如何從海量信息中高效篩選出所需內(nèi)容變得十分困難。推薦系統(tǒng)能夠在用戶需求不明確或是信息量過(guò)大時(shí),根據(jù)用戶的行為判斷其興趣,提供個(gè)性化的信息以滿足用戶需求。另外,為提高轉(zhuǎn)化率,推薦系統(tǒng)還能主動(dòng)將有效信息推送至目標(biāo)用戶。因此,推薦系統(tǒng)既是引導(dǎo)用戶獲取需要信息的助手,又是公司驅(qū)動(dòng)業(yè)務(wù)發(fā)展的重要?jiǎng)恿Α?/p>
推薦系統(tǒng)最早被應(yīng)用于電子商務(wù)網(wǎng)站,通常是根據(jù)用戶的訂單和評(píng)價(jià)來(lái)推測(cè)偏好和需求,從而向用戶推薦可能感興趣的項(xiàng)目。例如亞馬遜、淘寶等平臺(tái),其中亞馬遜網(wǎng)站上約35%的銷售額來(lái)自個(gè)性化推薦,可見推薦系統(tǒng)在電商平臺(tái)的意義重大。一個(gè)好的推薦系統(tǒng)可以提高用戶的購(gòu)買轉(zhuǎn)化率,從而進(jìn)一步提升企業(yè)的收益并增強(qiáng)其用戶黏性。近年來(lái),推薦系統(tǒng)在其他領(lǐng)域也有非常廣泛的應(yīng)用,如社交網(wǎng)絡(luò)、短視頻、教育、智慧醫(yī)療等。
傳統(tǒng)的推薦方法在一定程度上可以有效解決推薦問(wèn)題,主要有基于內(nèi)容的推薦、協(xié)同過(guò)濾的推薦和混合推薦方法?;趦?nèi)容的推薦主要通過(guò)機(jī)器學(xué)習(xí)的方法在內(nèi)容信息中挖掘用戶偏好,不涉及評(píng)分?jǐn)?shù)據(jù)。而基于協(xié)同過(guò)濾的推薦核心是計(jì)算用戶或項(xiàng)目間的相似度,需要用到“用戶一項(xiàng)目”評(píng)分?jǐn)?shù)據(jù)。混合推薦是融合多種推薦技術(shù),充分利用輔助信息,實(shí)現(xiàn)優(yōu)缺點(diǎn)互補(bǔ)。然而,隨著數(shù)據(jù)爆發(fā)式增長(zhǎng),推薦系統(tǒng)面臨十分嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。具體地,用戶通常只對(duì)極少部分項(xiàng)目有過(guò)交互行為(如瀏覽,收藏,加車,購(gòu)買,評(píng)價(jià)等),這為精確建立用戶畫像并推薦合適的項(xiàng)目造成巨大困難。例如,電影推薦網(wǎng)站Movielens中“用戶一項(xiàng)目”矩陣近95%的數(shù)據(jù)是缺失的,在電子商務(wù)網(wǎng)站Amazon、新聞推薦平臺(tái)Mind數(shù)據(jù)中,這種缺失程度更是達(dá)到了99.9%以上,這嚴(yán)重影響了推薦的效果[1-3]。因此,如何進(jìn)一步挖掘用戶和項(xiàng)目之間的特征來(lái)提升算法準(zhǔn)確率變得尤為重要。
下文將對(duì)基于協(xié)同過(guò)濾的推薦算法進(jìn)行詳細(xì)的梳理與分析,針對(duì)面臨的數(shù)據(jù)稀疏問(wèn)題,提出解決方法與對(duì)策,并預(yù)測(cè)未來(lái)研究的幾個(gè)發(fā)展方向。
2基于協(xié)同過(guò)濾的推薦
2.1基于內(nèi)存的協(xié)同過(guò)濾
基于內(nèi)存的推薦方法核心是利用“用戶一項(xiàng)目”評(píng)分矩陣、用戶信息和項(xiàng)目信息來(lái)計(jì)算對(duì)象之間的相似度,然后根據(jù)相似對(duì)象的評(píng)分加權(quán)值來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)特定項(xiàng)目的評(píng)分,最后按評(píng)分高低進(jìn)行推薦。按照相似性度量對(duì)象,這類算法可分為基于用戶和基于項(xiàng)目的推薦:前者主要依據(jù)評(píng)分情況衡量不同用戶間的相似性,進(jìn)而將相似用戶的偏好項(xiàng)目推薦給目標(biāo)用戶,能夠發(fā)現(xiàn)其潛在的偏好,更能體現(xiàn)社會(huì)性;而基于項(xiàng)目的推薦則是依據(jù)評(píng)分情況衡量項(xiàng)目間的相似性,進(jìn)而將已知偏好項(xiàng)目的相似項(xiàng)目推薦給目標(biāo)用戶,更能反映自身的興趣和個(gè)性。二者的性能和適用場(chǎng)景對(duì)比如表1所列。
基于內(nèi)存的協(xié)同過(guò)濾技術(shù)的核心是相似度計(jì)算,包括常用的余弦相似度、皮爾遜相關(guān)系數(shù)、歐式距離、杰卡德相關(guān)系數(shù)等,統(tǒng)一符號(hào)后具體如表2所列,可以根據(jù)實(shí)際場(chǎng)景和數(shù)據(jù)特點(diǎn)做選擇。
2.2基于模型的協(xié)同過(guò)濾
基于模型的協(xié)同過(guò)濾推薦主要通過(guò)訓(xùn)練數(shù)學(xué)模型的方式挖掘用戶和項(xiàng)目之間的特征和潛在聯(lián)系,模擬用戶的評(píng)分行為,從而得到未交互項(xiàng)目的評(píng)分并作為推薦依據(jù)。模型通常為聚類模型、矩陣分解模型、貝葉斯模型等,其中基于矩陣分解的推薦應(yīng)用較為廣泛[4-6]。
聚類算法是經(jīng)典的無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法,原理是尋找一種劃分,使得類內(nèi)距離小,并盡可能地相似,同時(shí)類間距離盡可能大,以保證差異和區(qū)分度。算法過(guò)程是先隨機(jī)指定若干個(gè)聚類中心,然后依據(jù)對(duì)象的歐式距離聚成若干簇,并重新計(jì)算每簇對(duì)象的均值,將其作為新的聚類中心,不斷重復(fù)以上步驟,直至聚類中心穩(wěn)定下來(lái)。聚類是相對(duì)直接的方法,對(duì)象可以是用戶、項(xiàng)目,也可以是二者聯(lián)合,最后還需在聚類結(jié)果的基礎(chǔ)上進(jìn)行推薦對(duì)象的選擇。
矩陣分解是推薦系統(tǒng)協(xié)同過(guò)濾方法中最常用的模型之一,原理是從“用戶一項(xiàng)目”評(píng)分矩陣中學(xué)習(xí)用戶潛在信息和項(xiàng)目潛在信息,進(jìn)而預(yù)測(cè)未評(píng)分部分的分值。目標(biāo)函數(shù)一般形式如下:
貝葉斯模型用于解決分類問(wèn)題,屬于有監(jiān)督的機(jī)器學(xué)習(xí),原理是基于條件概率和貝葉斯定理,用決策樹表示用戶和項(xiàng)目間的概率關(guān)系。
2.3推薦過(guò)程
協(xié)同過(guò)濾的推薦過(guò)程主要分為三個(gè)步驟:第一步,根據(jù)定義的度量和已知數(shù)據(jù),形成“用戶一項(xiàng)目”評(píng)分矩陣;第二步,通過(guò)協(xié)同過(guò)濾算法預(yù)測(cè)未評(píng)分?jǐn)?shù)據(jù),補(bǔ)全“用戶一項(xiàng)目”評(píng)分矩陣:第三步,根據(jù)評(píng)分做出項(xiàng)目推薦?;趦?nèi)存的協(xié)同過(guò)濾可解釋性強(qiáng),易于操作實(shí)現(xiàn),但缺少提取特征的方法,無(wú)法得到推薦對(duì)象和被推薦對(duì)象的潛在信息。相比之下,基于模型的協(xié)同過(guò)濾可以同時(shí)得到這些潛在信息,但解釋性相對(duì)較弱,也難以處理大規(guī)模的推薦。除了這兩類推薦方法,還有融合多種方法揚(yáng)長(zhǎng)避短的混合推薦,其克服了普通方法的缺點(diǎn),但過(guò)程較為復(fù)雜,難以用顯式的數(shù)學(xué)模型表示。
推薦系統(tǒng)常用的數(shù)據(jù)集涵蓋電影、電商、音樂(lè)、圖書等領(lǐng)域,其中MovieLens是電影評(píng)分?jǐn)?shù)據(jù),分為3種大小的數(shù)據(jù)集,包含用戶個(gè)人信息和電影信息:Epinions包含商品和匿名用戶信息,商品至少被評(píng)價(jià)過(guò)一次;Amazon包含商品數(shù)量、價(jià)格,用戶瀏覽記錄、購(gòu)買情況等信息;Last. fm是音樂(lè)播放數(shù)據(jù),包含最受歡迎的歌手列表和播放量;Book-Crossing是圖書評(píng)分?jǐn)?shù)據(jù)。具體規(guī)模和稀疏度如表3所列。
3面臨的數(shù)據(jù)稀疏問(wèn)題
協(xié)同過(guò)濾的推薦方法僅需依據(jù)用戶對(duì)項(xiàng)目的評(píng)分?jǐn)?shù)據(jù),以挖掘用戶偏好,其解釋性強(qiáng),操作簡(jiǎn)便,能夠很大程度上解決推薦問(wèn)題。然而現(xiàn)實(shí)場(chǎng)景中,用戶和項(xiàng)目并不是固定不變的,各大平臺(tái)為占領(lǐng)市場(chǎng)份額,會(huì)花費(fèi)大量資金和精力在用戶拉新和產(chǎn)品上新上。當(dāng)有新用戶或新項(xiàng)目出現(xiàn)時(shí),數(shù)據(jù)庫(kù)中沒(méi)有相關(guān)的歷史數(shù)據(jù),無(wú)從判斷用戶的偏好,也沒(méi)法預(yù)估項(xiàng)目的交互情況,進(jìn)而使推薦系統(tǒng)難以做出合理的推薦,這種問(wèn)題稱為冷啟動(dòng)。
另外,當(dāng)項(xiàng)目數(shù)量遠(yuǎn)大于用戶數(shù)量時(shí),有大部分的項(xiàng)目未經(jīng)交互和評(píng)價(jià),導(dǎo)致“用戶一項(xiàng)目”評(píng)分矩陣嚴(yán)重稀疏,為提取用戶和項(xiàng)目的潛在特征帶來(lái)挑戰(zhàn)。在信息飛漲的時(shí)代,以電子商務(wù)為例,隨著達(dá)人直播帶貨、短視頻引流等新形式的出現(xiàn),規(guī)模不斷擴(kuò)大,用戶信息、商家信息、項(xiàng)目信息、交互信息急劇增長(zhǎng),用戶間共同評(píng)分的項(xiàng)目數(shù)量相對(duì)不足。在時(shí)間分秒游走的同時(shí),指尖滑動(dòng)產(chǎn)生的數(shù)據(jù)激增,導(dǎo)致用戶與項(xiàng)目間的評(píng)分矩陣變得愈發(fā)稀疏,推薦效果差強(qiáng)人意。因此,協(xié)同過(guò)濾的推薦方法面臨嚴(yán)峻的數(shù)據(jù)稀疏問(wèn)題。
融合多種技術(shù)的混合推薦方法雖然可以利用輔助信息(如社交信息)在一定程度上緩解冷啟動(dòng)和數(shù)據(jù)稀疏問(wèn)題,但輔助信息形式多樣,普適性較差。另外,相似度計(jì)算在協(xié)同過(guò)濾推薦方法中尤為關(guān)鍵,易受數(shù)據(jù)稀疏的影響,直接影響推薦效果。大多數(shù)相似度為兩個(gè)用戶之間的相似性關(guān)系賦予相等的值,這意味著和用戶之間的相似性。這樣刻畫的相似度無(wú)法區(qū)分兩個(gè)具有不同評(píng)級(jí)配置文件的用戶,即二者交集占各自體量比重差距較大的用戶。
4解決方法與對(duì)策
為解決冷啟動(dòng)和數(shù)據(jù)稀疏問(wèn)題,協(xié)同過(guò)濾推薦方法有三條路徑可以嘗試。
(1)補(bǔ)全評(píng)分?jǐn)?shù)據(jù)。針對(duì)多數(shù)場(chǎng)景,“用戶一評(píng)分”矩陣極度稀疏的困境,可以應(yīng)用數(shù)學(xué)模型和算法預(yù)測(cè)缺失值。例如矩陣分解技術(shù),常用于基于模型的協(xié)同過(guò)濾,核心是將“用戶一項(xiàng)目”評(píng)分矩陣分解成兩個(gè)低秩矩陣,一個(gè)代表用戶潛在信息,另一個(gè)代表項(xiàng)目潛在信息,然后根據(jù)分解后的兩個(gè)矩陣乘積做預(yù)測(cè)。另外,可以將傳統(tǒng)協(xié)同過(guò)濾算法和深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法進(jìn)行結(jié)合,以計(jì)算分析用戶和項(xiàng)目之間隱含的復(fù)雜非線性關(guān)系。深度學(xué)習(xí)能夠通過(guò)訓(xùn)練集學(xué)習(xí)較為復(fù)雜的內(nèi)在聯(lián)系,深層次地挖掘推薦對(duì)象的特征,并模擬用戶評(píng)分過(guò)程,從而進(jìn)行更為準(zhǔn)確的預(yù)測(cè)。
(2)添加輔助信息。為提高推薦效果,可以考慮除評(píng)分矩陣以外的數(shù)據(jù),如用戶的詳細(xì)信息、社交信息、商品的詳細(xì)信息等。當(dāng)有新用戶日寸,根據(jù)性別、年齡等基本信息聚類,將所屬聚類的評(píng)分平均值作為新用戶的評(píng)分?jǐn)?shù)據(jù)。另外,好友之間興趣偏好相似的概率較高,來(lái)自好友的推薦更精準(zhǔn),也更易獲得信任,所以社交關(guān)系可以有效輔助推薦效果的提升。
(3)遷移知識(shí)學(xué)習(xí)。由于實(shí)際場(chǎng)景有生態(tài)化發(fā)展的趨勢(shì),通常涉及不同領(lǐng)域。例如,美團(tuán)外賣和本地生活、美團(tuán)電商等打通,雖然美團(tuán)電商起步較晚,但用戶基數(shù)大,可以根據(jù)外賣數(shù)據(jù)和線下團(tuán)購(gòu)數(shù)據(jù)推薦線上商品,這里外賣和本地生活是源域,電商是目標(biāo)域。因此,可以將多個(gè)源域的知識(shí)遷移到目標(biāo)域,以取得更好的效果,解決數(shù)據(jù)稀疏的問(wèn)題。
另外,相似度矩陣通常潛藏用戶之間的關(guān)系,在特征挖掘和興趣發(fā)現(xiàn)中十分關(guān)鍵。為避免對(duì)稱相似度在一些場(chǎng)景中的局限性和矛盾,可以使用不對(duì)稱相似度,通過(guò)用戶之間共同評(píng)分項(xiàng)目占各自評(píng)分項(xiàng)目的比例將原有計(jì)算結(jié)果標(biāo)準(zhǔn)化。非對(duì)稱的用戶相似度計(jì)算方法,可以區(qū)分每一用戶對(duì)其相似用戶的影響和相似用戶對(duì)該用戶的影響。
5未來(lái)的研究方向
近年來(lái),推薦系統(tǒng)的深度研究和廣泛應(yīng)用為用戶帶來(lái)了便捷,為企業(yè)帶來(lái)了收益,為行業(yè)帶來(lái)了進(jìn)步。雖然基于協(xié)同過(guò)濾的推薦技術(shù)已取得不錯(cuò)的效果,但隨著其他技術(shù)的研究和發(fā)展,以及用戶體驗(yàn)需求的上升,未來(lái)仍有許多方面值得研究。其一,將知識(shí)圖譜、圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù)與推薦系統(tǒng)結(jié)合,以符合用戶的個(gè)性化追求。其二,增強(qiáng)推薦模式的動(dòng)態(tài)性和交互性。在實(shí)際生活中,用戶的偏好和興趣會(huì)隨外部環(huán)境改變,如果能考慮環(huán)境因素提供實(shí)時(shí)動(dòng)態(tài)推薦,并給予用戶反饋優(yōu)化的機(jī)會(huì),推薦算法會(huì)更加精準(zhǔn)和智能。其三,數(shù)據(jù)安全與隱私保護(hù)。挖掘用戶特征時(shí)會(huì)用到多維度的信息,用戶希望得到準(zhǔn)確推薦的同時(shí)并不愿意公開隱私。一般通過(guò)數(shù)據(jù)模糊和扭曲來(lái)保護(hù)隱私,但會(huì)降低推薦準(zhǔn)確性。因此,兼顧效果和隱私的方法會(huì)是眾望所歸。
6結(jié)束語(yǔ)
通過(guò)對(duì)基于協(xié)同過(guò)濾的推薦算法的研究,整理常用相似度和數(shù)據(jù)集,分析基于內(nèi)存和模型的推薦方法及過(guò)程,易見用戶或項(xiàng)目間的相似性度量尤為重要,且協(xié)同過(guò)濾推薦面臨著嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題和冷啟動(dòng)問(wèn)題。目前的工作主要是通過(guò)模型和深度學(xué)習(xí)算法補(bǔ)全評(píng)分?jǐn)?shù)據(jù),添加社交關(guān)系等輔助信息,遷移學(xué)習(xí)其他領(lǐng)域的知識(shí)到目標(biāo)領(lǐng)域,定義非對(duì)稱的相似性度量等提升推薦效果。未來(lái)可以在多技術(shù)結(jié)合、增強(qiáng)推薦的動(dòng)態(tài)性和交互性、兼顧效果和隱私保護(hù)方面進(jìn)行更深入的研究。