趙海燕,孫俊松,陳慶奎,曹 健
1(上海市現(xiàn)代光學(xué)系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,光學(xué)儀器與系統(tǒng)教育部工程研究中心,上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
2(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 200030)
近年來,隨著移動互聯(lián)網(wǎng)技術(shù)的普及,一種新型的活動社交網(wǎng)絡(luò)(Event-based Social Networks,簡稱EBSNs)紛紛出現(xiàn),在近幾年獲得大量用戶的追捧.以Meetup(活動推薦平臺)為例,據(jù)官方數(shù)據(jù)統(tǒng)計(jì),至2019年已經(jīng)有超過44000000的會員,超過33萬的群組以及每周超過84000的活動數(shù).用戶通過Meetup平臺尋找和建立社區(qū)團(tuán)體,在真實(shí)世界中進(jìn)行面對面的互動.任何人都可以組織小組或參加任何主題的活動,將興趣相似的人在現(xiàn)實(shí)中聯(lián)系起來.
由于活動社交網(wǎng)絡(luò)中有著大量的活動,用戶搜索感興趣的活動并不容易,因此,有必要主動為用戶進(jìn)行活動推薦.活動推薦可以簡單的理解成向用戶個(gè)性化地推薦用戶可能喜歡的活動.作為推薦系統(tǒng)的一個(gè)分支,活動推薦已經(jīng)成為新興的研究方向.
在EBSNs環(huán)境下,向用戶個(gè)性化推薦活動面臨一系列挑戰(zhàn).冷啟動問題是推薦系統(tǒng)常見的問題,在缺乏用戶數(shù)據(jù)和評價(jià)的活動推薦中這一問題更為明顯.EBSNs上的許多活動生命周期短并且前期參與反饋較少,致使活動推薦必須要求系統(tǒng)能在有效時(shí)間內(nèi)快速推薦,不然推薦會失去意義,因此,在推薦活動的過程中遇到了比物品推薦中更嚴(yán)重的冷啟動問題;其次,由于EBSNs中存在線上線下異構(gòu)社交網(wǎng)絡(luò)[1],需要考慮兩者相互作用.相比于活動本身的屬性,社會因素對推薦的影響十分顯著,這也與物品推薦存在差異.
近年來,許多學(xué)者圍繞活動推薦進(jìn)行了研究.現(xiàn)有的研究主要是利用EBSNs特性以及活動的特殊屬性等來緩解冷啟動問題.使用的算法主要有基于協(xié)同過濾的方法、基于圖的方法以及基于上下文感知的方法.深度學(xué)習(xí)在活動推薦中的文獻(xiàn)相比于傳統(tǒng)的方法較少.深度學(xué)習(xí)的使用在推薦中起到良好的作用,改善了特征提取并提升最終的推薦效果.同時(shí),也有學(xué)者對于EBSNs下的活動參與率和活動組織問題進(jìn)行多方位的研究.本文對EBSNs中的活動推薦的研究現(xiàn)狀進(jìn)行了總結(jié),并對未來的研究方向進(jìn)行了展望.
根據(jù)百度百科的定義,活動是由共同目的聯(lián)合起來并完成一定社會職能的動作的總和.活動由目的、動機(jī)、動作和共同性構(gòu)成,具有完整的結(jié)構(gòu).活動的定義是寬泛的,對活動分類的方式也有很多種.研究者們探討了不同類型活動的推薦:在文獻(xiàn)[2]中,作者研究如何對于文娛活動進(jìn)行推薦,同時(shí)也有學(xué)者對學(xué)術(shù)活動進(jìn)行推薦[3]等.EBSNs下的活動推薦與一般的活動推薦有較大的差別.本文討論的是EBSNs上的活動推薦.
根據(jù)文獻(xiàn)[4]等的總結(jié),EBSNs上的活動具有4個(gè)方面的主要特性:
1.生命周期:活動具有生命周期,具體是從活動的發(fā)起到活動結(jié)束的這段時(shí)間.
2.時(shí)效性:對于活動推薦來說,系統(tǒng)必須要在活動的生命周期內(nèi)向用戶推薦,一旦活動的生命周期結(jié)束,再向用戶推薦該活動,是沒有任何意義的.
3.短暫性:EBSNs上的活動數(shù)量非常多,同時(shí)每天也有大量的活動完成和消失.這也意味推薦系統(tǒng)必須能應(yīng)對大量活動的出現(xiàn)和消失,并在活動生命周期內(nèi)向用戶準(zhǔn)確推送.
4.反饋較少:一個(gè)活動在其剛發(fā)布時(shí),用戶的參與意圖反饋較少,而大量的參與意圖發(fā)生在活動即將發(fā)生的時(shí)候.一個(gè)活動只有在即將發(fā)生的時(shí)候才能有更多參與者,考慮到活動時(shí)效性,向用戶推薦活動會變得很困難.
根據(jù)活動舉辦形式的不同,活動可以分為線上活動與線下活動.線上活動[5]主要是指通過互聯(lián)網(wǎng)舉辦的社交活動,這些活動對于時(shí)間地點(diǎn)的要求較低,用戶容易參與,而線下活動則恰好相反.文獻(xiàn)[1]中的研究表明在線社交網(wǎng)絡(luò)的活動頻率要高于線下活動.在EBSNs同時(shí)包含了線上活動和線下活動的信息.
按照活動的周期性,活動又可以被分為周期性活動與非周期性活動.這種分類在推薦的過程中,可以作為依據(jù)緩解推薦中碰到的問題.文獻(xiàn)[6]的研究表明EBSNs中存在大量的周期活動,這類活動是由某個(gè)小組長期組織的活動,對于一部分用戶來說參與這些活動已經(jīng)成為慣例,不會受到其他因素的影響,同時(shí),由于他們長期參與這類活動,所以在相同時(shí)間段內(nèi)推薦同類型活動常常是無用的.因此,將周期性因素考慮進(jìn)推薦過程,可以提升推薦效果.
同時(shí)在EBSNs上存在線上群組,這種群組類似于同好群,用戶可以通過自己興趣加入群組,并參與這些群組織的活動.群組的存在影響了用戶對活動的選擇[7].圖1為對上述活動分類的匯總.
圖1 活動分類結(jié)構(gòu)圖
2.2.1 EBSNs 特性
EBSNs同時(shí)擁有在線社交和線下社交,它以活動為驅(qū)動,使人們通過線上組織,在線下進(jìn)行社交活動.根據(jù)文獻(xiàn)[1,6]的研究,線上社交要比線下社交密集得多,兩者之間具有互相促進(jìn)作用.EBSNs除網(wǎng)絡(luò)特性以外,還具有社會特性和時(shí)空特性.
EBSNs是一個(gè)特殊的社交網(wǎng)絡(luò),其本身也是一個(gè)值得研究的課題.文獻(xiàn)[8]中對離線社交與在線社交的相互影響進(jìn)行了研究,發(fā)現(xiàn)參與線下社交的人在線上社交更加地活躍,但同時(shí)對于那些未參與活動的用戶,他們的聯(lián)系會因此變?nèi)?在文獻(xiàn)[9]中,作者研究了EBSNs中人員的關(guān)系,發(fā)現(xiàn)EBSNs成員的參與方式并不完全相同,并且他們在不同的情況下可能在不同的角色之間轉(zhuǎn)換.在文獻(xiàn)[10]中,作者對活動流行度進(jìn)行了預(yù)測,并研究了如何提高EBSNs活動流行度問題.在文獻(xiàn)[11]中作者提出了活動之間的時(shí)間沖突問題.
文獻(xiàn)[1]的研究表明,EBSNs存在周期性特點(diǎn),線下活動需要充足的時(shí)間,因此大部分活動的舉行都會選擇在休息日和節(jié)假日.在參與活動的位置選擇上,81.93%的用戶都選擇離家10英里以內(nèi)的活動,活動的參與人數(shù)以及群組的人數(shù)都服從于長尾分布,參與的人數(shù)越多的活動其數(shù)量越少.由此可知,EBSNs上的活動推薦需要考慮時(shí)間、位置、在線離線社交網(wǎng)絡(luò)信息,在現(xiàn)有的研究中,這些因素也經(jīng)常被用與緩解冷啟動問題.線上社交網(wǎng)絡(luò)中,基于位置的社交網(wǎng)絡(luò)中在線服務(wù)也會通過地理位置向用戶推薦活動.但不同的是,基于EBSNs的活動推薦更加復(fù)雜,它需要考慮到線上群組對于活動組織的影響.活動存在目的,動機(jī),動作等構(gòu)成部分,這與物品的定義不同,因此,活動相比于物品更為復(fù)雜,不能把傳統(tǒng)的對于物品的推薦方法簡單應(yīng)用于活動推薦上.
用戶在EBSNs上通過RSVP(Reply,if you please,收到請回復(fù),以下簡稱RSVP)對活動進(jìn)行意圖反饋,RSVP信息一般只有參與和不參與兩個(gè)選項(xiàng).通常用戶的反饋并不積極,且反饋大多數(shù)發(fā)生在活動即將舉行的時(shí)間段,導(dǎo)致了用戶的反饋稀疏問題.許多用戶在活動參加后對活動進(jìn)行評分,此時(shí),由于活動已經(jīng)結(jié)束,評分只能影響推薦系統(tǒng)日后對于向用戶進(jìn)行其他活動的推薦,顯然,缺乏顯式反饋也將影響活動推薦的效果.
2.2.2 數(shù)據(jù)集
在活動推薦研究中,多數(shù)學(xué)者基于Meetup的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),主要原因是Meetup提供的服務(wù)較為完善,用戶基數(shù)大,且每周都有大量活動更新.同時(shí),也有一部分學(xué)者以豆瓣同城平臺作為研究對象.豆瓣有許多活動涉及到劇團(tuán)或公司發(fā)布的活動與展覽等,其與一般的活動性質(zhì)有所不同.研究人員可以從Meetup接口(1)www.meetup.com/meetup_api/以及豆瓣同城(2)www.douban.com/location/world/上直接爬取,兩個(gè)網(wǎng)站都有提供接口供用戶獲取數(shù)據(jù),主要爬取用戶關(guān)系、活動文本以及地理信息.相比較而言,Meetup的接口提供較為完整,其中包含了群組及群組活動的各類詳細(xì)信息,也包括了組員的公開信息.
不同的EBSNs的數(shù)據(jù)集有不同的特點(diǎn),例如Meetup的數(shù)據(jù)集中沒有活動的時(shí)間窗和活動時(shí)間長短這些信息,因此在活動行程的推薦中,系統(tǒng)無法判斷一個(gè)活動的持續(xù)時(shí)間,導(dǎo)致無法給用戶準(zhǔn)確推薦下一個(gè)活動行程,而在文獻(xiàn)[12]中,作者利用了數(shù)據(jù)集DEvIR(3)www.github.com/ecafidid/DEvIR,該數(shù)據(jù)源自一個(gè)著名的大型分布式事件—圣地亞哥國際漫展,它包含了活動的時(shí)間信息,因此,漫展官方自2013年起提供了一種行程軟件用于規(guī)劃和記錄與會者行程.
2.2.3 評價(jià)指標(biāo)
目前文獻(xiàn)中評價(jià)主要以離線測試為主,將數(shù)據(jù)集分為測試集與訓(xùn)練集并通過測試集預(yù)測評分.相比于在線測試和問卷調(diào)查,離線實(shí)驗(yàn)預(yù)測速度較快,花費(fèi)較低.在離線實(shí)驗(yàn)中使用較多的評測指標(biāo)如下:
1.推薦準(zhǔn)確度:準(zhǔn)確度是指推薦系統(tǒng)預(yù)測用戶可能行為的能力,又可以具體分為評分預(yù)測和前n項(xiàng)預(yù)測(TopN).評分測定常常使用均方根誤差(RMSE).
(1)
TopN是活動推薦常用的方式中,經(jīng)常以準(zhǔn)確率(precision)、召回率(recall)、歸一化折損累計(jì)增益(NDCG,Normalized Discounted cumulative gain)以及AUC(ROC曲線下的面積)等.
在活動推薦中常用的準(zhǔn)確率指標(biāo)為P@n(Precision at Position n,位置n處的準(zhǔn)確率)和mAP(Mean Average Precision,平均準(zhǔn)確率均值),是將所有用戶的平均準(zhǔn)確率取均值.
(2)
(3)
(4)
召回率(Recall)能衡量一個(gè)推薦系統(tǒng)是否只有頂部的部分物品被推薦.
(5)
di(L)表示推薦列表Li在top-n位置時(shí)用戶i參與的活動數(shù)量,|Hi|表示用戶i參與活動數(shù)量.
接受者操作特性曲線(ROC,receiver operating characteristic curve)橫坐標(biāo)為假陽性率,縱軸為真陽性率.公式中AUC(Area Under Curve,曲線下面積)代表ROC曲線下面積,表示分類器給正樣本打分高于負(fù)樣本的可能性.
(6)
折損累計(jì)增益(DCG)能將推薦結(jié)果相關(guān)性分值累加后作為整個(gè)推薦列表的得分,而nDCG則是對DCG做歸一化處理,方法是將DCG除以理想最大折損累計(jì)增益(IDCG).
(7)
其中,DCGP是位置p折損累計(jì)增益,IDCGp是位置p的理想最大折損累計(jì)增益.
2.覆蓋率:指推薦對象占整個(gè)推薦池的比例,它描述了一個(gè)推薦系統(tǒng)對長尾對象的挖掘能力.
3.多樣性:推薦系統(tǒng)的多樣性衡量推薦結(jié)果是否能夠覆蓋用戶的不同的興趣愛好,在推薦系統(tǒng)中直接體現(xiàn)是被推薦物品的不相似性,因此通常使用漢明距離作為評測指標(biāo)測量這種差異性.
4.新穎性:通過新穎性,系統(tǒng)可以向用戶推薦一些非熱門活動.
推薦系統(tǒng)除了以上4種推薦指標(biāo),還有公平性,健壯性等指標(biāo).但是在活動推薦的文獻(xiàn)中較為常見的為第一種推薦指標(biāo).
活動推薦屬于單類推薦,同時(shí)在實(shí)際推薦過程中往往會生成一個(gè)以時(shí)間為順序的列表向用戶進(jìn)行推薦或是在活動下方推薦相似活動.在文獻(xiàn)中一般都是采取TopN預(yù)測,并計(jì)算相應(yīng)的準(zhǔn)確率和召回率.P@n、mAP、NDCG與AUC都是文獻(xiàn)較中為常見的評價(jià)指標(biāo).
EBSNs上的活動推薦有很多模型,其中有基于協(xié)同過濾,基于圖,基于上下文感知等.在大部分模型中,考慮到的因素可以分成兩部分,一是考慮EBSNs本身的特性,二是考慮活動相關(guān)的因素,如圖2所示.
圖2 活動推薦模型考慮的因素
大部分推薦模型中都考慮了活動的屬性,其中較為常見的有時(shí)間、標(biāo)簽、地理和社會因素.時(shí)間與地理因素主要是指活動具體時(shí)間,活動的舉辦位置和成員所在位置,它們的影響是顯性的,例如,活動位置與參與者距離過遠(yuǎn)或者時(shí)間安排在工作日,勢必會影響其參與積極性.社會因素又涉及到了多個(gè)方面.EBSNs上的活動大多數(shù)屬于社交類活動,社會與人的影響對于活動相當(dāng)重要.文獻(xiàn)[13]中作者通過分析線上網(wǎng)絡(luò)的用戶行為來識別用戶的社交圈與用戶之間的友誼,從而推薦熟人相關(guān)的活動.現(xiàn)有的參與者對于尚未參與者的決定會產(chǎn)生影響,文獻(xiàn)[14]將參與者影響分為3個(gè)部分,包括施加影響的用戶、受到影響的用戶和目標(biāo)事件.作者通過泊松分布對含有參與者影響的數(shù)據(jù)建模,獲得了一個(gè)概率泊松分解模型(probabilistic Poisson factorization model).
文獻(xiàn)[15]中,作者將活動組織者作為因素加入討論.在文獻(xiàn)[16,17]中討論的是用戶的吸引力,當(dāng)用戶發(fā)布或組織活動后,用戶將會提升自身的影響力,并會提升吸引其他用戶參與相同活動的能力.通過對吸引力的計(jì)算能更好地表示活動之中人與人間的聯(lián)系.文獻(xiàn)[18]中,作者探討了忠誠度對于推薦的影響,并表明穩(wěn)定且繁榮的群體擁有更多的忠實(shí)用戶.與推薦用戶喜歡的活動不同,文獻(xiàn)[19]中作者考慮的是哪些活動與用戶是存在沖突因而不能參與的,以此分配最適合的活動給用戶.
此外,有一些推薦模型對EBSNs的本身特性進(jìn)行建模.文獻(xiàn)[16]中考慮了EBSNs的異構(gòu)性,所提出的模型針對EBSNs擁有線上線下兩種社交網(wǎng)絡(luò)的特性進(jìn)行推薦.文獻(xiàn)[20]中提出了一種名為HeSi的模型,在模型中綜合考慮了異構(gòu)性和區(qū)域傾向性,在5個(gè)地區(qū)的測試數(shù)據(jù)集上,該模型的AUC要高于傳統(tǒng)矩陣分解方法.在文獻(xiàn)[21]中,作者利用了EBSNs的信息,并結(jié)合地理位置以及用戶評分,構(gòu)造了一個(gè)貝葉斯?jié)撛谝蜃幽P?文獻(xiàn)[22,23]使用核密度估計(jì)(KDE)為每個(gè)用戶的個(gè)性化二維位置分布建模(經(jīng)緯度坐標(biāo)),來學(xué)習(xí)活動的地理影響.
傳統(tǒng)推薦模型有3種,主要是基于內(nèi)容的推薦算法,基于協(xié)同過濾的推薦算法以及兩者結(jié)合的混合推薦算法.這些方法在活動推薦中都有應(yīng)用.
3.2.1 基于內(nèi)容的活動推薦
基于內(nèi)容的方法是指對于用戶喜歡的物品的描述和屬性進(jìn)行分析,為其推薦與這些物品的描述和屬性相似的物品.該方法通常包括物品特征挖掘,用戶偏好計(jì)算,物品相似度計(jì)算,排序等步驟.其中,物品的相似度根據(jù)物品的特征進(jìn)行計(jì)算.為了做到這一點(diǎn),需要有一個(gè)內(nèi)容分析器,它通過關(guān)鍵字匹配或通過TF-IDF(term frequency-inverse document frequency,詞頻-逆文本頻率指數(shù))來提取物品的相關(guān)特征.
文獻(xiàn)[24]中,作者使用LDA(Latent Dirichlet Allocation,文檔主題生成模型)在每個(gè)活動和用戶上生成主題分布,基于活動內(nèi)容相似性和用戶興趣主題進(jìn)行推薦,在該模型中同時(shí)也將社交好友以及出勤歷史信息放入算法中,結(jié)果發(fā)現(xiàn)這兩種屬性可以提高推薦系統(tǒng)的準(zhǔn)確率.在文獻(xiàn)[25]中,作者對于用戶近期歷史記錄,通過LDA主題模型獲取其特征向量,并結(jié)合行為權(quán)重和時(shí)間衰減生成用戶長短興趣模型,使用戶偏好預(yù)測更準(zhǔn)確,也能更好的結(jié)合基于內(nèi)容的方法進(jìn)行推薦.文獻(xiàn)[15]中,通過分析用戶參與的活動的內(nèi)容來獲取用戶偏好,同時(shí)結(jié)合組織者影響,地理特征影響,提出了一個(gè)整合用戶興趣、組織者影響和地理偏好的活動推薦模型,針對數(shù)據(jù)稀疏問題,作者提出了一個(gè)綜合考慮用戶偏好和組織者偏好流行感知的概率矩陣分解方法(Popularity-aware Probabilistic Matrix Factorization,PPMF)來推斷缺失值.
基于內(nèi)容的推薦方法可以避免活動的冷啟動問題,但是它對內(nèi)容表示的要求較高,而且單純的基于內(nèi)容的推薦方法忽略了社會關(guān)系的影響,而這一點(diǎn)恰恰是EBSNs的一個(gè)特點(diǎn).
3.2.2 基于協(xié)同過濾的活動推薦
基于協(xié)同過濾的方法可分為基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法,其主要思想是“物以類聚、人以群分”.
文獻(xiàn)[26]中采取了基于項(xiàng)目的協(xié)同過濾方法,通過項(xiàng)目之間的相似性預(yù)測結(jié)果,這種方法在用戶個(gè)性化需求強(qiáng)烈的領(lǐng)域能應(yīng)對用戶不同的需求,但缺點(diǎn)是基于項(xiàng)目的協(xié)同過濾中相似矩陣計(jì)算代價(jià)過大.
矩陣分解在基于模型的協(xié)同過濾推薦算法中普遍使用.文獻(xiàn)[27]中,作者提出了一種基于事件用戶鄰域的集合矩陣分解(Collective Matrix Factorization with Event-User Neighborhood,CMF-EUN)模型將基于活動和用戶的鄰域方法結(jié)合到矩陣分解模型中,在該模型中綜合了用戶在活動內(nèi)容,活動地點(diǎn),活動時(shí)間上的相似度來計(jì)算用戶之間的相似度,實(shí)驗(yàn)結(jié)果表明,該方法要遠(yuǎn)好于傳統(tǒng)的奇異值分解.文獻(xiàn)[28]中提出了通過活動參與歷史信息來表達(dá)用戶偏好,通過協(xié)同過濾來推薦個(gè)性化活動的方法.在推薦過程中,利用用戶評價(jià)信息可以提高推薦系統(tǒng)的準(zhǔn)確性,而沒有評價(jià)信息則對推薦系統(tǒng)性能造成影響.該方法通過矩陣分解預(yù)測特征值.為了考慮用戶的潛在偏好,作者通過在有參與類似活動的用戶之間進(jìn)行協(xié)同過濾來選擇候選用戶.實(shí)驗(yàn)結(jié)果表明,這種方法要好于現(xiàn)有的基于地理特性的方法.文獻(xiàn)[29]中,作者則使用貝葉斯概率模型對EBSNs的社會異構(gòu)性進(jìn)行建模.文獻(xiàn)[21]中,作者把用戶的RSVP(收到請回復(fù))數(shù)據(jù)作為用戶評分,將它與EBSNs異構(gòu)性和活動的地理特征綜合考慮,結(jié)合貝葉斯因子模型提出HESIG模型(Heterogenous Social Information and Geographical information,異構(gòu)社會信息與地理信息模型),其AUC在Meetup休斯頓數(shù)據(jù)集上達(dá)到0.729,但是這種方法沒有充分考慮推薦的冷啟動問題,同時(shí)也忽略了活動的內(nèi)容和組織者信息.在文獻(xiàn)[30]中,作者進(jìn)一步考慮活動的內(nèi)容信息,通過LDA進(jìn)行主題建模.在文獻(xiàn)[4]中,作者提出了集合成對矩陣分解模型(Collective Pairwise Matrix Factorization Model)對EBSNs中用戶的成對偏好和多重交互進(jìn)行建模,并為模型學(xué)習(xí)設(shè)計(jì)了一種有效的隨機(jī)梯度下降算法.在活動推薦中用戶、活動和用戶群組/位置之間存在三角交互.以用戶、群組和活動為例,用戶可以加入組,組可以組織活動,用戶可以參與任意活動.而作者將上述信息的三角交互建模,同時(shí)把交互矩陣推廣為整數(shù)矩陣,使用正、負(fù)、零值表示用戶的偏好,使這種偏好更具層次.其在與HESIG[21]和基于上下文感知的MCLRE[31](Multi-Contextual Learning to Rank method,多語境學(xué)習(xí)排序法算法)比較中,取得更好的推薦效果.
由于EBSNs上數(shù)據(jù)的稀疏性,往往難以找到相似用戶或者相似活動,導(dǎo)致單純的協(xié)同過濾推薦算法往往效果不佳.事實(shí)上,上述介紹的方法中,在計(jì)算用戶的相似性或者活動的相似性時(shí)也利用了活動的相關(guān)特征,因此已經(jīng)不是純粹的協(xié)同過濾方法.
3.2.3 混合推薦
文獻(xiàn)[32]中的實(shí)驗(yàn)表明,單純的矩陣分解方法在該問題上效果欠佳.由于單一的推薦系統(tǒng)有各自的弊端,因此結(jié)合各種模型的優(yōu)勢的混合模型得到了應(yīng)用.
混合推薦方法如文獻(xiàn)[33,34],將基于內(nèi)容的方法和基于協(xié)同過濾的方法相結(jié)合:傳統(tǒng)的協(xié)同過濾方法在數(shù)據(jù)缺失時(shí)有嚴(yán)重用戶冷啟動問題,而基于內(nèi)容的方法則有利于克服這個(gè)問題.例如文獻(xiàn)[35]一文中,將基于活動和基于用戶的鄰域方法結(jié)合到矩陣分解中,提出了一種混合的協(xié)同過濾模型,即活動用戶鄰域的矩陣分解(Matrix Factorization with Event-User Neighborhood,MF-EUN)模型.該模型首先考慮了用戶特征信息和活動特征信息,以此發(fā)現(xiàn)它們的鄰域.再將其與矩陣分解的方法相結(jié)合來提高準(zhǔn)確率.鄰域發(fā)現(xiàn)的推薦中,更重視與其相近的鄰居,而忽略全局.基于矩陣分解的方法則恰好相反,兩者結(jié)合可以互相補(bǔ)足.
文獻(xiàn)[36]中Simon Dooms等人基于用戶的實(shí)際評測從準(zhǔn)確性、新穎性、多樣性、滿意度和信任度這5點(diǎn)進(jìn)行了推薦模型效果的研究,發(fā)現(xiàn)混合算法要比單純的協(xié)同過濾或者基于內(nèi)容的方法要優(yōu)秀,這說明混合推薦在該問題上的優(yōu)越性.
在活動推薦的研究中,近年來出現(xiàn)了許多基于圖的推薦模型.基于圖的推薦方法中將數(shù)據(jù)用圖模型表示,其中的節(jié)點(diǎn)代表了EBSNs中的實(shí)體,連接代表了實(shí)體的各種關(guān)系.
文獻(xiàn)[37]較早將基于圖的方法引入活動推薦,作者構(gòu)建了一個(gè)異構(gòu)圖來刻畫EBSNs,將推薦看作一個(gè)鄰近節(jié)點(diǎn)的查詢問題,文中提出了一個(gè)通用的基于圖的推薦模型HeteRS(Heterogeneous graph-based Recommendation System model),并通過數(shù)據(jù)自動學(xué)習(xí)多元馬爾可夫鏈(multivariate Markov chain,MMC)的參數(shù).該模型能夠完成活動推薦中的3種推薦任務(wù):向用戶推薦線上活動,向用戶推薦線上群組以及向群組推薦活動標(biāo)簽.然而文獻(xiàn)[37]中的方法只考慮到EBSNs中顯性關(guān)聯(lián).在文獻(xiàn)[38]中發(fā)現(xiàn),只考慮顯性關(guān)聯(lián)會產(chǎn)生許多懸掛節(jié)點(diǎn),這些節(jié)點(diǎn)影響了圖的連通性以及隨機(jī)游走的展開,因此作者提出了不同于異構(gòu)圖的混合圖模型,將原先異構(gòu)圖中活動與屬性的顯性關(guān)聯(lián)轉(zhuǎn)化為活動與活動間的隱式關(guān)聯(lián),以減少圖中節(jié)點(diǎn).作者發(fā)現(xiàn)這樣的做法不能區(qū)分不同類型的關(guān)系的優(yōu)先級,于是進(jìn)一步提出使用基于內(nèi)容的重排序算法,從圖隨機(jī)游動所選擇的候選活動中獲得最終的活動推薦列表.
EBSNs中有大量實(shí)體和具有唯一性的活動,如果使用所有的信息會增加計(jì)算負(fù)擔(dān),十分耗時(shí).文獻(xiàn)[39]中提出了一種改進(jìn)的基于演化圖的連續(xù)推薦(evolving graph-based successive recommendation,EGSR)算法解決這種問題.在EGSR中利用一個(gè)長度可調(diào)的滑動窗口機(jī)制構(gòu)造演化圖.它將時(shí)間線劃分為長度相等的連續(xù)槽,然后通過一個(gè)滑動窗口的最新的信息構(gòu)造圖.同時(shí),作者提出了一個(gè)基于圖熵的方法用以調(diào)整窗口長度,并對每個(gè)歷史時(shí)間塊進(jìn)行加權(quán).文獻(xiàn)[40]中,作者提出一種反向的帶重啟的隨機(jī)游動(Reverse Random walk with Restart,RRWR)方法,也使用滑動窗口機(jī)制來構(gòu)造演化圖,以連續(xù)地為每個(gè)用戶推薦新活動.一些不組織活動的群組被稱為懸掛組節(jié)點(diǎn),在隨機(jī)游走遇到這些節(jié)點(diǎn)會對結(jié)果產(chǎn)生偏差.RRWR中的懸掛節(jié)點(diǎn)比帶重啟的隨機(jī)游動中的懸掛節(jié)點(diǎn)接收到的傳輸概率更小,導(dǎo)致更可靠的穩(wěn)態(tài)概率,從而解決了懸掛節(jié)點(diǎn)的問題.
文獻(xiàn)[41]一文中考慮了活動的社會屬性,將活動推薦的重點(diǎn)放在向用戶推薦活動伙伴上,為此,提出了一個(gè)通用圖的嵌入模型(generic graph-based embedding model,GEM)將用戶、活動、位置、時(shí)間和文本內(nèi)容間的關(guān)系嵌入到一個(gè)共享的低維空間中,以解決冷啟動的問題.在文獻(xiàn)[42]中提出了基于圖熵的連續(xù)活動推薦(successive event recommendationbased on graph entropy,SERGE)構(gòu)建了一個(gè)主圖來尋找不同實(shí)體間的關(guān)系,此外還構(gòu)建了一張用戶反饋圖,通過在兩張圖上應(yīng)用帶重啟的隨機(jī)游走算法獲得兩組用戶活動相似度得分,生成最終的推薦列表,其基本思想是在利用帶重啟的隨機(jī)游動(RWR,Random walk with Restart)來對即將發(fā)生的活動進(jìn)行排序,然后應(yīng)用主題分析技術(shù)來分析活動文本建立每個(gè)用戶的興趣模型,并計(jì)算活動內(nèi)容和用戶興趣之間的相似度作為每個(gè)圖的邊緣權(quán)重.
在算法的精度上,從早期文獻(xiàn)中實(shí)驗(yàn)的準(zhǔn)確率在0.2以下,到文獻(xiàn)[42]一文中SERGE模型準(zhǔn)確率接近0.3,表明基于圖的方法有助于提高推薦性能.但在文獻(xiàn)[38]一文中,作者同時(shí)對上海北京兩地的數(shù)據(jù)建模,最后的準(zhǔn)確率差距十分巨大,這也體現(xiàn)模型仍有不足的地方需要去改進(jìn).
基于圖的方法能很好地表示關(guān)系,同時(shí)也存在很多局限性.基于圖的方法聚合過去的交互歷史,但會隨著數(shù)據(jù)量的增加性能急劇下降.
上下文是用于描述實(shí)體狀態(tài)的任何信息.在推薦系統(tǒng)中上下文定義十分寬泛.上下文可以是文本主題,時(shí)間,位置等.通過上下文感知能夠獲得大量有用的信息有助于緩解冷啟動現(xiàn)象,因此,在活動推薦中,也有大量關(guān)于上下文感知活動推薦的研究.
文獻(xiàn)[43]中,作者深度剖析了活動主持人和群體成員的社會影響,利用活動主持人和群組成員的社會影響力以及上下文(如時(shí)間、內(nèi)容和位置)的影響進(jìn)行推薦,提出了一種基于活動主持人的活動推薦模型,在實(shí)驗(yàn)中發(fā)現(xiàn)活動主持人和群體成員的社會影響力比活動的時(shí)間信息更為重要.在文獻(xiàn)[31]中提出了一個(gè)混合推薦方法,利用多個(gè)上下文感知的推薦模型學(xué)習(xí)活動排序,除了基于活動描述的信息和來自用戶的RSVP(收到請回復(fù))的信號外,還利用了基于組成員身份的社會信息、基于用戶地理偏好的位置信息和用戶時(shí)間偏好.文獻(xiàn)[44]中,作者將隱式反饋和各種上下文信息結(jié)合進(jìn)行建模,在實(shí)驗(yàn)中發(fā)現(xiàn),活動、用戶、時(shí)間等語境特征的信息量最大,其次是社會、空間語境特征,而將它們結(jié)合在一起的方法有更高的準(zhǔn)確率.
文獻(xiàn)[45]關(guān)注本地冷啟動活動推薦任務(wù).作者提出集體貝葉斯泊松因式分解(collective Bayesian Poisson factorization,CBPF)模型結(jié)合貝葉斯泊松分解和集合矩陣分解的優(yōu)點(diǎn),首先通過貝葉斯泊松分解(Bayesian Poisson factorization,BPF)分別對社會關(guān)系、用戶對活動的響應(yīng)和活動內(nèi)容文本進(jìn)行建模.泊松分解是一種概率矩陣分解的變體,其中每個(gè)用戶和物品的權(quán)重都為正,并且用泊松分布代替高斯分布.在基礎(chǔ)的數(shù)據(jù)分布外,作者還將Gamma先驗(yàn)放在潛在屬性和潛在偏好上,從而使得模型趨向于用戶和項(xiàng)目的稀疏表示.此外,作者對用戶和項(xiàng)目特定的速率參數(shù)設(shè)置了額外的優(yōu)先級,以控制表示的平均大小.這種層次結(jié)構(gòu)能更好地捕捉用戶多樣性.作者稱此為層次泊松分解(hierarchical Poisson factorization,HPF),而BPF是將HPF中所有用戶和項(xiàng)的速率參數(shù)固定為同一對超參數(shù),屬于HPF的一種子類.貝葉斯泊松分解方法結(jié)合了貝葉斯學(xué)習(xí)與泊松分解,能夠很好地處理稀疏數(shù)據(jù),并且對過擬合問題具有更強(qiáng)的魯棒性.在建模完成后再通過集體矩陣分解(Collective Matrix Factorization,CMF)將上述各個(gè)單元聯(lián)系起來.
文獻(xiàn)[46]中作者發(fā)現(xiàn)組織者和活動的文本內(nèi)容之間的相關(guān)性,同一組織者舉辦的活動往往有更多相似的內(nèi)容,通過組織者與活動內(nèi)容之間的關(guān)聯(lián)可以緩解活動文本內(nèi)容的稀疏性,從而更準(zhǔn)確地提取出對活動的群體興趣.文獻(xiàn)[47]中,作者提出了一種基于語義增強(qiáng)和上下文感知的混合協(xié)同過濾的活動推薦方法,將語義內(nèi)容分析和上下文影響相結(jié)合,用于用戶的近鄰選擇,試驗(yàn)表明,應(yīng)用活動描述語義來建立用戶的興趣模型是有用的,但也需要活動文本對于用戶興趣建模的時(shí)間衰減.
在各類算法中,許多使用了時(shí)間,位置等上下文信息等進(jìn)行綜合計(jì)算,在這些算法中,涉及到對信息以及由這些信息帶來的對結(jié)果的影響的合成.經(jīng)常用超參數(shù)來控制合成的方式,而由于算法中考慮的上下文不同,各個(gè)算法中的超參數(shù)也有所不同.在文獻(xiàn)[24]中,作者將用戶與活動的語義相似度,用戶關(guān)系以及用戶歷史信息進(jìn)行綜合后推薦.在實(shí)驗(yàn)中,對這3者的權(quán)重設(shè)置了3組值(0.2,0.3,0.5;0.5,0.2,0.3;0.3,0.5,0.2),其中第一種權(quán)重設(shè)置的精度是最高的.而在利用LDA主題建模對語義進(jìn)行獲取的過程中,主題數(shù)從25個(gè)增加到150個(gè)時(shí),這時(shí)的性能相對穩(wěn)定.
另外,許多模型中在目標(biāo)函數(shù)中加入多種誤差的權(quán)重,以及模型的正則項(xiàng),它們的系數(shù)也需要確定.同時(shí),對于迭代優(yōu)化過程,需要設(shè)置學(xué)習(xí)速率和迭代參數(shù).目前這些系數(shù)通過經(jīng)驗(yàn)和實(shí)驗(yàn)進(jìn)行設(shè)置.如在文獻(xiàn)[31]中,在考慮用戶、群組以及活動間的多關(guān)系模型中,目標(biāo)函數(shù)為:
(8)
其中,L是所考慮關(guān)系的重建誤差的損失函數(shù),α、β、γ是所考慮關(guān)系的損失的特定權(quán)重和λU、λG、λE正則化參數(shù).對于權(quán)重值,作者分別設(shè)為0.1,0.22和0.68.作者使用了MRBPR(Multi-Relational Factorization withBayesian Personalized Ranking,貝葉斯個(gè)性化排序的多關(guān)系分解)進(jìn)行算法的比較.其對于隱因子參數(shù)k設(shè)置為200,學(xué)習(xí)速率為0.1,迭代次數(shù)600.而文章作者介紹了一種結(jié)合位置信息,時(shí)間信息,群組信息等通過坐標(biāo)上升法優(yōu)化的基于上下文信息推薦算法MCLRE[31].同樣的,在文獻(xiàn)[44]中研究中,其將學(xué)習(xí)速率設(shè)為0.1,正則化參數(shù)設(shè)為0.01.經(jīng)過實(shí)驗(yàn)也發(fā)現(xiàn)潛在因子維數(shù)k對模型性能的影響較小,在作者自己的模型中維數(shù)選擇為100.
MCLRE模型是基于上下文信息活動推薦模型中有代表性的算法,它融合了文本內(nèi)容、時(shí)間、位置和群組信息.該模型在活動描述上使用經(jīng)典的詞袋模型,每個(gè)用戶被表示為從用戶參加的過去活動中提取的單詞的TF-IDF向量,用戶u的形式定義:
(9)
很多研究工作[4,22,43,44,46]對其進(jìn)行比較與借鑒,這些算法中對信息使用上不少依舊采用MCLRE中的方法.例如在文獻(xiàn)[43]中對上下文信息的使用上對MCLRE中的超參數(shù)進(jìn)行了一定的保留與改進(jìn).其中時(shí)間衰減因子α為{0.005,0.01,0.5},其余超參數(shù)相同.文獻(xiàn)[44]對于在群組偏好的計(jì)算:
(10)
g(e,ei)=δ·I(u∈ge)+(1-δ)·I(ge∈gei)
(11)
其中,gp(u,e)表示當(dāng)用戶參加活動時(shí)的群組偏好,ge是主辦活動e的群組,I(u∈ge)表示u是否是ge的成員,舉辦事件e和ei的組是否是同一組.,Sim()是余弦相似度.δ權(quán)重設(shè)置為0.5.
從相關(guān)研究中可以看出,每個(gè)模型都具有自己的超參數(shù),目前的超參數(shù)取值還是采用了基于經(jīng)驗(yàn)和基于實(shí)驗(yàn)的方法.如何能夠更好地設(shè)置模型中的超參數(shù),還是一個(gè)具有挑戰(zhàn)性的問題.特別是在活動推薦中,許多模型融合多方面的信息,這就必然會帶來較多的超參數(shù),這就使得這一問題更具有挑戰(zhàn)性.
深度學(xué)習(xí)近幾年十分流行.在文獻(xiàn)[48]中,作者對于深度學(xué)習(xí)在推薦系統(tǒng)中應(yīng)用進(jìn)行了綜述,文章主要寫了深度學(xué)習(xí)如何改進(jìn)傳統(tǒng)推薦算法例如協(xié)同過濾等以及介紹了深度學(xué)習(xí)方法對于推薦系統(tǒng)的改進(jìn).深度學(xué)習(xí)主要可以改進(jìn)推薦系統(tǒng)的特征提取與特征表示,使系統(tǒng)學(xué)習(xí)到更好的用戶和項(xiàng)目的隱向量.嵌入(embedding)技術(shù)是深度學(xué)習(xí)得到目標(biāo)的低維表示.進(jìn)一步,循環(huán)神經(jīng)網(wǎng)絡(luò)可以對序列數(shù)據(jù)建模.
根據(jù)文獻(xiàn)[49]的研究,深度學(xué)習(xí)的技術(shù)可以增加協(xié)同過濾的能力,主要的方法是通過某種形式的深度學(xué)習(xí)來代替矩陣分解.文獻(xiàn)[50]中提出一種新的上下文感知推薦模型卷積矩陣分解(convolutional matrix factorization,ConvMF),該模型將卷積神經(jīng)網(wǎng)絡(luò)與概率矩陣分解(probabilistic matrix factorization,PMF)相結(jié)合,ConvMF能更好捕捉上下文信息并提高預(yù)測準(zhǔn)確性.文獻(xiàn)[51]中提出了一個(gè)層次貝葉斯模型,稱為協(xié)同深度學(xué)習(xí)(collaborative deep learning,CDL),它融合了內(nèi)容信息的深度表示學(xué)習(xí)和基于評分矩陣的協(xié)同過濾.文獻(xiàn)[52]中的研究表明,協(xié)同過濾可以轉(zhuǎn)化為序列預(yù)測問題,因此遞歸神經(jīng)網(wǎng)絡(luò)可以起到作用.
圖神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)在圖上一種新應(yīng)用,主要分為遞歸圖形神經(jīng)網(wǎng)絡(luò)、卷積圖形神經(jīng)網(wǎng)絡(luò)、圖形自動編碼器和時(shí)空圖形神經(jīng)網(wǎng)絡(luò)[53].圖神經(jīng)網(wǎng)絡(luò)作為一種能夠自然地集成節(jié)點(diǎn)信息和拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò),在圖數(shù)據(jù)的學(xué)習(xí)中有很好的效果,已經(jīng)被用于推薦系統(tǒng)[54].
文獻(xiàn)[55]中提出了基于用戶深度建模框架的活動推薦(Deep User Modeling framework for Event Recommendation,DUMER),通過挖掘用戶參與活動的上下文信息來刻畫用戶的偏好,并利用卷積神經(jīng)網(wǎng)絡(luò)和詞嵌入技術(shù)來深入捕捉用戶感興趣活動的上下文信息,并為每個(gè)用戶建立用戶潛在模型,再將用戶潛在模型引入概率矩陣分解模型,提高推薦精度,在實(shí)驗(yàn)中與另外兩種基于深度學(xué)習(xí)模型ConvMF[50]和CDL[51]比較,該模型在RMSE與召回率表現(xiàn)更優(yōu).實(shí)驗(yàn)也表明,嵌入與bag-of-word模型對比,使用嵌入能更好地捕獲活動的上下文信息.文獻(xiàn)[56]中,研究了一種基于卷積神經(jīng)網(wǎng)絡(luò)的用戶和活動聯(lián)合表示方法,以減輕冷啟動影響:在第一階段,進(jìn)行聯(lián)合表示學(xué)習(xí),同時(shí)建立活動模型和用戶模型,對于兩個(gè)模型通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)預(yù)處理,將任何給定的用戶和活動投影到同一個(gè)潛在空間中,實(shí)現(xiàn)高效和準(zhǔn)確的匹配;第二階段,將匹配結(jié)果作為一個(gè)特征,與其他標(biāo)準(zhǔn)特征一起,輸入到基于梯度增強(qiáng)決策樹(Gradient Boosting Decision Tree,GBDT)的組合器模型中.
深度學(xué)習(xí)除了對于特征提取上對于活動推薦有所助益,在對預(yù)測上也有很大的提升,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對序列建模,可以更好地反映用戶興趣.
文獻(xiàn)[57]中,提出了一種循環(huán)神經(jīng)網(wǎng)絡(luò)模型來解決時(shí)間異構(gòu)反饋推薦,時(shí)間異構(gòu)反饋推薦的任務(wù)是決定用戶將來可能感興趣的項(xiàng)目,而反饋的順序反映了用戶偏好的變化.在文獻(xiàn)[58]中,作者提出了一個(gè)共同進(jìn)化的潛在特征過程模型,該模型能夠準(zhǔn)確地捕捉用戶和項(xiàng)目特征的共同進(jìn)化性質(zhì),使用循環(huán)神經(jīng)網(wǎng)絡(luò)來自動學(xué)習(xí)來自用戶和項(xiàng)目特征的漂移、進(jìn)化和協(xié)同進(jìn)化的影響的表示.文獻(xiàn)[59]中運(yùn)用了一個(gè)3層長短期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)的結(jié)構(gòu),在第1層中,將活動的上下文信息以非線性的方式轉(zhuǎn)化為潛在的嵌入向量;在第2層中,考慮用戶在不同組中的出勤行為來編碼用戶不斷變化的獨(dú)特偏好;第3層中,對用戶的順序偏好進(jìn)行編碼,以捕獲出勤模式的時(shí)間演化特性,并與前兩層生成的嵌入向量進(jìn)行交互,生成語義嵌入偏好向量的多維編碼,最后,輸入到多層感知器(Multilayer Perceptron,MLP)中,用于預(yù)測每個(gè)用戶的活動出席率.而文獻(xiàn)[60]中,作者提出了一個(gè)基于LSTM模型DeepVenue,用于推薦舉辦Meetup活動的場館.
文獻(xiàn)[61]中,作者對神經(jīng)網(wǎng)絡(luò)RankNet進(jìn)行了改進(jìn),建立了一個(gè)學(xué)習(xí)排序算法來揭示每個(gè)特征的重要性,其性能與基于多特征評分模型的MHF[62]和基于上下文感知的MCLRE[31]等算法相比,表現(xiàn)要更好.文獻(xiàn)[63]中,作者提出了一個(gè)混合式深度神經(jīng)網(wǎng)絡(luò)協(xié)同過濾架構(gòu)(HDNN-CF,Hybrid Deep Neural Networks CollaborativeFiltering).這是一個(gè)生成模型,它將協(xié)同訓(xùn)練一個(gè)堆疊降噪自動編碼器(SDAE,Stacked Denoising Auto Encoder)以深度表示語義信息和一個(gè)用于表示隱式反饋的PAutoRec模型.PAutoRec是AutoRec[64](autoencoder framework for collaborative filtering,基于自動編碼器的協(xié)同過濾模型)的擴(kuò)展,它引入了自適應(yīng)先驗(yàn),通過合適的先驗(yàn)?zāi)茏詣涌刂颇P偷娜萘?實(shí)驗(yàn)結(jié)果顯示,HDNN-CF在前30名推薦的召回率上比現(xiàn)有方法有10%以上的顯著提高.
綜合看來,深度學(xué)習(xí)在活動推薦中方興未艾.兩者的結(jié)合應(yīng)用上還有很大的研究空間.表1所示為文章歸納的文獻(xiàn)分類.
表1 活動推薦的方法分類
1)更豐富的數(shù)據(jù)集支持更多的推薦場景
目前的許多研究工作都是基于Meetup的數(shù)據(jù),但是Meetup數(shù)據(jù)集本身也存在一定的不足,例如其缺乏活動持續(xù)時(shí)間.如果數(shù)據(jù)集中包含更多信息,則可以支持更為豐富的推薦場景.例如文獻(xiàn)[12]提出的展會數(shù)據(jù)集,由于展會密集的活動行程、活動沖突和充足的時(shí)間信息,能更好對分布式活動以及活動行程進(jìn)行推薦.雖然該數(shù)據(jù)集的作用和本文著重討論的EBSNs下的活動推薦有所出入,但活動行程推薦能很好幫助用戶規(guī)劃自己行程,尤其是在活動密集的會議和展覽中效果顯著,值得進(jìn)一步的探索.
2)融合用戶更詳細(xì)的信息
現(xiàn)有的研究將大部分注意力都集中在活動的社會性方面,包括成員影響力,成員社交圈等.研究證明這些因素確實(shí)影響活動推薦的準(zhǔn)確率,然而關(guān)于活動成員以及用戶的研究仍可以細(xì)化與深入.目前研究的維度主要是活動與其他參與者對用戶的影響,卻很少有文章從用戶自身因素做研究,例如用戶的個(gè)人信息、經(jīng)濟(jì)能力等.
3)考慮平臺和地點(diǎn)差異性
文獻(xiàn)[38]的實(shí)驗(yàn)中,北京與上海兩地預(yù)測的準(zhǔn)確率差距說明了地理信息不同對于活動推薦的影響也不盡相同.這說明,在不同的地域中,用戶對活動的偏好可能有所不同.進(jìn)一步,在不同的平臺上,用戶群體也有差別,這使得某一平臺上的模型并不能簡單遷移到另一平臺上.如何考慮由于地點(diǎn)、平臺差別帶來的異構(gòu)性,是一個(gè)值得探討的問題.
4)推薦中考慮更多的目標(biāo)
目前對活動推薦很少有對于推薦公平性、多樣性等測定,這是目前研究中存在的不足,也是未來研究中值得考慮的問題.
5)深度學(xué)習(xí)在活動推薦中的應(yīng)用
深度學(xué)習(xí)在活動推薦中應(yīng)用的文獻(xiàn)較少,但是深度學(xué)習(xí)在推薦系統(tǒng)領(lǐng)域已經(jīng)取得了很大的進(jìn)展,可以預(yù)計(jì)深度學(xué)習(xí)對于活動推薦一定有所幫助,考慮到圖模型在活動推薦廣泛的應(yīng)用,圖神經(jīng)網(wǎng)絡(luò)可能是深度學(xué)習(xí)在活動推薦中一個(gè)比較好的研究方向.
隨著Meetup、豆瓣同城等網(wǎng)站的流行,EBSNs上的活動推薦成為了一個(gè)熱門的領(lǐng)域.本文對EBSNs環(huán)境以及活動特性進(jìn)行描述,總結(jié)了其對活動推薦產(chǎn)生的影響,指出了由于活動缺乏反饋信息等而引起的嚴(yán)重冷啟動問題以及活動屬性極大地影響了用戶對于活動的選擇.這些問題直接導(dǎo)致傳統(tǒng)的推薦方法在活動推薦中應(yīng)用難以取得滿意的結(jié)果.在活動推薦中較為常見評價(jià)指標(biāo)是AUC、P@n以及nDCG,而活動推薦的數(shù)據(jù)集一般由作者自行在meetup等活動推薦網(wǎng)站爬取,文中通過分析活動推薦考慮的因素維度和活動推薦模型闡述了活動推薦的研究進(jìn)展.現(xiàn)有的推薦模型大多是混合方法.其中,基于圖的方法能很好地對EBSNs異構(gòu)關(guān)系進(jìn)行建模,但是圖方法需要大量的數(shù)據(jù)以及計(jì)算量.基于上下文感知的推薦算法在推薦中能擴(kuò)展數(shù)據(jù),并且時(shí)間,位置以及主辦人信息等能緩解冷啟動問題.深度學(xué)習(xí)能夠自動學(xué)習(xí)活動、用戶的深度表示,一方面能夠緩解冷啟動問題,另一方面也能對復(fù)雜關(guān)系進(jìn)行建模,在活動推薦中具有良好的應(yīng)用前景.