国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合地理和社交因素影響的興趣點推薦

2020-04-14 10:04:32
關(guān)鍵詞:玻爾茲曼限制性個性化

畢 波

(馬鞍山師范高等??茖W(xué)校,安徽 馬鞍山 243041)

0 引 言

近幾年來,具有簽到功能且基于位置的社交網(wǎng)絡(luò),如Brightkite、Gowalla和Jiepang等,都運作失敗.失敗的主要原因之一是個性化服務(wù)的質(zhì)量,盡管用戶能夠被推送他們朋友訪問喜歡的空間地點,但推薦的質(zhì)量不足以滿足用戶的需求[1].這些地點稱為興趣點,可以包括餐館、博物館和商店.Foursquare是最早基于位置的社交網(wǎng)絡(luò)之一,最近推出一款名為Marsbot的新應(yīng)用,向用戶推薦個性化興趣點.Marsbot可以在任何給定地點自動推薦首選的個性化興趣點.Foursquare不僅能讓用戶分享簽到體驗,還能為用戶提供個性化服務(wù),尤其是基于位置的推薦.單純的簽到已經(jīng)不能滿足用戶的需求.而孟祥福等[2]研究了位置興趣推薦所帶來的兩者與用戶之間的耦合問題,利用分類算法及關(guān)聯(lián)集成算法,在yelp數(shù)據(jù)集測試得到了良好的實驗結(jié)果.康來松等[3]提出了奇異值和因子等分解對異構(gòu)數(shù)據(jù)的興趣點推薦算法改進(jìn),并且在Gowalla和Foursquare數(shù)據(jù)集測試得到了優(yōu)化效果,未來可以為服務(wù)推薦等場景提供依據(jù).因此,提供智能化且個性化的推薦,是基于位置的社交網(wǎng)絡(luò)成功的關(guān)鍵.

1 傳統(tǒng)興趣點推薦算法

個性化興趣點推薦的主要算法是協(xié)同過濾,依賴于用戶-個性化興趣點檢查.這種算法又可分為基于記憶的推薦算法和基于模型的推薦算法[4].

1.1 基于記憶的推薦算法

基于記憶的推薦算法包括基于用戶和基于項目的協(xié)同過濾.這些算法基于相似性或某種特定關(guān)系,通過聚合相似用戶或個性化興趣點的得分來預(yù)測目標(biāo)用戶的偏好[5-7].個性化興趣點通常根據(jù)地理信息進(jìn)行關(guān)聯(lián).例如,Ye等[6]利用2個個性化興趣點之間距離的冪律分布來模擬個性興趣點之間的關(guān)系.Zhang等[7]估計核密度來探索個性化興趣點與二維地理坐標(biāo)的關(guān)系.Sarwat等[5]應(yīng)用基于項目的協(xié)同過濾計算項目的空間相似度,并考慮了距離懲罰.

1.2 基于模型的推薦算法

基于模型的推薦算法通過計算表示訪問不同個性化興趣點可能性的偏好,向用戶推薦某些個性化興趣點.這些偏好是通過推導(dǎo)出建立在整個數(shù)據(jù)集上的模型來計算的[8].基于模型算法的典型例子包括矩陣因子化和貝葉斯概率模型.矩陣因子化已經(jīng)應(yīng)用于融合地理信息和社會信息方面[9-11].Liu等[12]利用概率因子模型預(yù)測用戶對個性化興趣點的偏好,該模型融合了概率矩陣因子化和泊松因子模型.Yin等[13]提出了基于潛伏Dirichlet分配的用戶評分特征的概率生成模型.

無論是基于記憶還是基于模型的推薦算法,在協(xié)同過濾中都會給每個用戶和個性化的興趣點分配低層次的特征,因此,探索用戶偏好的深層特征和學(xué)習(xí)特征之間的高階交互是不可能的.深度學(xué)習(xí)是具有多層次表示的學(xué)習(xí)算法,通過組成簡單的非線性模塊獲得,將某個層次的表示轉(zhuǎn)化為更高且更抽象層次的表示.這種算法非常善于發(fā)現(xiàn)高維數(shù)據(jù)中的復(fù)雜結(jié)構(gòu),從簽到數(shù)據(jù)中發(fā)現(xiàn)有效的特征或表示是個性化的興趣點推薦的關(guān)鍵.因此,深度學(xué)習(xí)模型非常適用于發(fā)現(xiàn)內(nèi)在的高級特征,這對個性化的興趣點推薦任務(wù)非常有用.

2 結(jié)合地理和社交因素影響的興趣點推薦算法

對于個性化興趣點推薦來說,用戶偏好最重要的信息是地理和社會影響因素[9-11].根據(jù)Tobler第一定律[12],用戶簽到行為呈現(xiàn)出地理聚類的特點.例如,研究者利用模式分解對個性化興趣點之間的距離及對用戶簽到行為進(jìn)行建模[13-15].Cheng等[10]發(fā)現(xiàn)用戶傾向于在幾個中心附近簽到,并將地理相似度建模為多中心高斯模型.Zhang等[7]通過估計內(nèi)核密度來捕捉二維地理坐標(biāo).因此,本研究提出了深度學(xué)習(xí)模型來探索個性化興趣點之間的地理相似性.

關(guān)于社交影響的大量研究[16-17]表明,用戶行為受在線社交好友的影響很大.大多數(shù)研究從社交鏈接中得出相似性,并將其放入傳統(tǒng)的協(xié)作過濾器[18]中.與以往算法相比,此算法采用深度學(xué)習(xí)的方式來推導(dǎo)用戶之間的社交影響因素,并考慮社交好友的簽到數(shù)據(jù).

與以往研究不同,此算法嘗試對地理相似性和社會影響進(jìn)行建模,而不是時間和順序上下文.許多深度學(xué)習(xí)模型都可以使用,然而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)被設(shè)計為處理多個數(shù)組形式的數(shù)據(jù),最好使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)和門控循環(huán)單元(Gate recurrent unit,GRU)對順序上下文進(jìn)行建模[19].上述模型都利用了監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練,但是人類的學(xué)習(xí)基本上是無監(jiān)督的,因此此算法使用無監(jiān)督深度學(xué)習(xí)的算法.

2.1 結(jié)合地理和社交因素的特征設(shè)計

在傳統(tǒng)的推薦任務(wù)中,偏好可以通過評分來明確獲得,但此算法沒有明確的評分?jǐn)?shù)據(jù),只有訪問個性化興趣點的用戶簽到數(shù)據(jù)[20].此外,不同類別的簽到頻率尺度也不具有可比性.顯然,單憑簽到頻率數(shù)據(jù)不能完全代表用戶對個性化興趣點的偏好程度.詞頻-逆文檔頻率(Term frequency-inverse document frequency,TF-IDF)是當(dāng)今信息檢索及文本挖掘系統(tǒng)中最常用加權(quán)技術(shù)之一[21].根據(jù)TF-IDF的設(shè)計,c類對于用戶簽到的重要性也同樣可以設(shè)計為:

(1)

式中,Nik是用戶i簽入的屬于類別k的不同個性化興趣點的數(shù)量,而所有類別都在集合Cat中.Nuser為用戶總數(shù),Nc為已打卡屬于c類興趣點的用戶數(shù).βic由兩部分的乘積計算而來:左邊部分代表c類在用戶i的簽到中的頻率,右邊部分表示c類在所有用戶簽到中的稀有度.因此,該產(chǎn)品可以衡量類別c在用戶i的簽到中的重要性.例如,如果c在用戶i中的出現(xiàn)頻率較高,而在其他用戶中較為罕見,那么c對于用戶i來說更為重要.

眾所周知,簽到次數(shù)遵循高度偏態(tài)分布,所以對數(shù)轉(zhuǎn)換是文獻(xiàn)中的標(biāo)準(zhǔn)作法[22].因此,結(jié)合以上所有內(nèi)容,可以得出特定用戶i及其對位置j的偏好變換:

(2)

基于文獻(xiàn)[15]中的數(shù)據(jù)可知,興趣點之間的距離與簽到頻率的關(guān)系大致遵循冪律分布.大多數(shù)用戶的朋友數(shù)量少于10個,但盡管大多數(shù)用戶的朋友數(shù)量相對較少,但與朋友共同簽到的比例明顯高于與陌生人簽到的比例.因此,社會影響力對用戶的簽到行為有一定的影響,在個性化興趣點推薦任務(wù)中應(yīng)被考慮到.

本研究使用冪律分布來計算個性化興趣點之間的地理相似性:

s=α×Dβ

(3)

式中,α和β為冪律分布的參數(shù),D為同一用戶訪問的個性化興趣點之間的距離,s指個性化興趣點之間的地理相似度.用戶的簽到行為受到其移動性的影響,移動性用所訪問的個性化興趣點的地理分布來表示.

2.2 基于半限制性玻爾茲曼機的深度學(xué)習(xí)模型

本研究提出的深度學(xué)習(xí)模型不僅要考慮地理和社會影響因素,還要發(fā)現(xiàn)隱性因素特征,比如偏好.整體框架有4部分,如圖1所示.首先,從用戶個性化興趣點的簽到歷史中得出用戶對個性化興趣點的偏好.其次,利用半限制性玻爾茲曼機對個性化興趣點的地理相似性進(jìn)行建模,而用限制性玻爾茲曼機對用戶在個性化興趣點的偏好進(jìn)行建模.基于半限制性玻爾茲曼機和限制性玻爾茲曼機來逐層構(gòu)建多層結(jié)構(gòu).具體來說,第1層由半限制性玻爾茲曼機組成,表示個性化興趣點和它們之間的相似性.然后,利用限制性玻爾茲曼機來構(gòu)建其余各層.需要注意的是,當(dāng)前的限制性玻爾茲曼機的隱藏層是下層的限制性玻爾茲曼機的可見層.多層限制性玻爾茲曼機用于預(yù)訓(xùn)練模型的參數(shù).第三,將模型展開,產(chǎn)生基于半限制性玻爾茲曼機的深度自動編碼器.第四,基于用戶之間的社交鏈接,在模型中加入條件層,建立了深度學(xué)習(xí)模型.考慮到好友的簽到行為,本研究將社交影響融入到提出的深度模型中.

在深度學(xué)習(xí)中,學(xué)習(xí)表示和轉(zhuǎn)換輸入特征通常是無監(jiān)督的任務(wù).因此,本研究選擇了深度自動編碼器.受Salakhutdinov等[23]使用條件層獲取額外信息的啟發(fā),本研究對朋友的簽到信息使用了條件層,并將其連接到第1個隱藏層,以學(xué)習(xí)更高層的特征.在深度自動編碼器中,輸入層和輸出層代表個性化興趣點.半限制性玻爾茲曼機捕獲了個性化興趣點之間的地理接近性,因此,它被連接到深度自動編碼器的第1層和最后層.

3 結(jié)合地理和社交因素影響的興趣點推薦算法實現(xiàn)

本研究在深度學(xué)習(xí)模型的預(yù)訓(xùn)練過程中使用了半限制性玻爾茲曼機來模擬地理相似性[24].限制性玻爾茲曼機是層內(nèi)無連接的二元連接圖,通常用于預(yù)訓(xùn)練深度學(xué)習(xí)模型.與限制性玻爾茲曼機不同,半限制性玻爾茲曼機的可見單元之間是完全或部分連接.本研究中,半限制性玻爾茲曼機的可見單元代表個性化興趣點,可見單元之間的連接可以模擬個性化興趣點之間的地理相似性.半限制性玻爾茲曼機很少用于現(xiàn)有的工作中,由于可見單元之間存在聯(lián)系,卻適合于模擬個性化興趣點之間的地理近似性.

在此算法的模型中,每個半限制性玻爾茲曼機代表1個用戶,每個可見單元代表用戶訪問過的個性化興趣點.所有的半限制性玻爾茲曼機都有相同數(shù)量的隱藏單元,但每個用戶的可見單元數(shù)量不同,因為不同的用戶訪問過不同的個性化興趣點.然而,所有的半限制性玻爾茲曼機都共享相同的權(quán)重和偏差集.即,當(dāng)數(shù)據(jù)被輸入到模型的可見單元時,每個用戶都有缺失值,因為用戶沒有檢查到一些個性化興趣點.本研究中,此算法沒有將缺失值設(shè)置為0,而是在所有計算中忽略這些值,而對于其余值,將更新連接的權(quán)重.

半限制性玻爾茲曼機不僅是此算法深度學(xué)習(xí)模型的組成部分,而且還用于預(yù)訓(xùn)練此算法的模型[24].對于每個用戶,此算法可以獲得1個包含用戶訪問過的個性化興趣點簽到數(shù)據(jù)集合.

如圖2所示,基于半限制性玻爾茲曼機的自動編碼器是通過展開多層半限制性玻爾茲曼機和限制性玻爾茲曼機得到的.因此,第1層(輸入層)有可見單元之間的連接,最后層(輸出層)有代表個性化興趣點的隱藏單元之間的連接.此算法的自動編碼器中,第1層的可見輸入是個性化興趣點的偏好,輸出是模型預(yù)測的用戶對個性化興趣點的偏好.

由于通過傳統(tǒng)反向傳播訓(xùn)練難于優(yōu)化參數(shù),預(yù)訓(xùn)練程序[25]已經(jīng)成為一種流行的初始化參數(shù)算法.此算法使用半限制性玻爾茲曼機和限制性玻爾茲曼機對自動編碼器進(jìn)行預(yù)訓(xùn)練.對于第1層(輸入層),此算法使用半限制性玻爾茲曼機來預(yù)訓(xùn)練相應(yīng)的參數(shù),但對于其余層,此算法使用限制性玻爾茲曼機來預(yù)訓(xùn)練參數(shù).對于每個限制性玻爾茲曼機,將上層的隱藏單元視為當(dāng)前層的可見單元.

訓(xùn)練過程使用鏈?zhǔn)揭?guī)則的反向傳播算法,此外通過最小化平方誤差函數(shù)優(yōu)化參數(shù).具體來說,對于包含用戶訪問過的個性化興趣點集Lt的訓(xùn)練案例t(用戶特定),此算法將成本定義為總的瞬時方差函數(shù):

(4)

式中,yi是輸入層中單位i的輸入值,oi?Output是輸出層中單位i的輸出值.

給定由N個訓(xùn)練案例(用戶)組成的訓(xùn)練集T,則此算法定義整體損失函數(shù)如下:

(5)

式(5)中的第1項是訓(xùn)練案例的總誤差平均值,加入正則化項(即第2項),以防止問題的過度擬合.

此算法的模型輸出了用戶對所有個性化興趣點的偏好.所有個性化興趣點都按總體偏好降序排列,其中前K個候選者被推薦給用戶.此外,即使用戶已經(jīng)訪問了某個特定的個性化興趣點,基于位置的社交網(wǎng)絡(luò)仍然需要向用戶推薦該個性化興趣點,并通知用戶相關(guān)的折扣或促銷活動.因此,此算法模型考慮了所有個性化興趣點,包括在推薦之前用戶已經(jīng)訪問過的個性化興趣點.

4 實驗結(jié)果與性能分析

本研究建立了3種模型進(jìn)行對比,第1種模型為Semi-DAE,是去除社交層后的深度學(xué)習(xí)模型;第2種模型為CDAE,是具有社會影響力層但去除了半限制波爾曼層的深度學(xué)習(xí)模型,第3種模型為Semi-CDAE,綜合了地域相似性和社會影響力兩者.本研究比較了Semi-DAE、CDAE和Semi-CDAE在3個數(shù)據(jù)集上的推薦精度,以證明半限制性玻爾茲曼機層和社交層的有效性及模型管理額外隱含信息的能力.

實驗硬件平臺配置為:Intel Core i9-9900K CPU@3.60 GHz處理器;TITAN RTX型號GPU,32 GiB內(nèi)存;64-bit Ubuntu 18.04操作系統(tǒng).數(shù)據(jù)收集自基于位置的流行社交網(wǎng)絡(luò)Foursquare,其包括3個數(shù)據(jù)集:紐約、布魯克林與舊金山.基于位置的社交網(wǎng)絡(luò)提供了用戶對個性化興趣點的簽到次數(shù)及經(jīng)緯度等地理信息,此外也提供了用戶直接的在線社交鏈接,這些鏈接是沒有加權(quán)的原始數(shù)據(jù).

對于此3個數(shù)據(jù)集,Semi-CDAE的性能優(yōu)于Semi-DAE.與CDAE相比,Semi-CDAE在3個數(shù)據(jù)集上的表現(xiàn)也要優(yōu)越得多.實驗結(jié)果表明,該算法有效地處理了社會和地理因素的影響,提高了精度.

這些結(jié)果不僅證明了社會和地理因素實際影響到用戶訪問個性化興趣點的決定,而且也顯示了此算法在模擬這些影響和學(xué)習(xí)用戶偏好方面的潛力.

5 結(jié) 語

地理和社會影響對個性化興趣點推薦服務(wù)非常重要,社會影響是個性化興趣點建議的有效預(yù)測因子.從數(shù)據(jù)科學(xué)的角度,本研究提出了一種利用深度學(xué)習(xí)技術(shù)結(jié)合地理和社會影響信息的新算法.傳統(tǒng)的技術(shù)需要仔細(xì)的工程設(shè)計和扎實的領(lǐng)域?qū)I(yè)知識來為每個因素設(shè)計特征提取器.

因此,幾乎不可能明確地包含個性化興趣點推薦的所有因素.然而,深度學(xué)習(xí)模型非常擅長自動發(fā)現(xiàn)內(nèi)隱特征.本研究的實驗結(jié)果表明,深度學(xué)習(xí)模式在抽象的高水平上學(xué)習(xí)這些因素是非常有效的.因此,基于位置的社交網(wǎng)絡(luò)中,深度學(xué)習(xí)是一種更好的推薦選擇,特別是當(dāng)存在多個未知特征時,因為它能夠隱式地發(fā)現(xiàn)特征.

本研究證明了在基于位置的社交網(wǎng)絡(luò)中使用半限制性玻爾茲曼機模型來模擬地理相似性的實用價值.實驗也表明,半限制性玻爾茲曼機模型和提出的Semi-CDAE算法能夠很好地學(xué)習(xí)地理相似性.這些模型最顯著的特點是在某些層中存在內(nèi)部聯(lián)系,可以用來表示個性化興趣點之間的地理相似性.

猜你喜歡
玻爾茲曼限制性個性化
基于格子玻爾茲曼方法的流固耦合問題模擬
因“限制性條件”而舍去的根
非對稱彎道粒子慣性遷移行為的格子玻爾茲曼模擬
堅持個性化的寫作
文苑(2020年4期)2020-05-30 12:35:12
新聞的個性化寫作
新聞傳播(2018年12期)2018-09-19 06:27:10
骨科手術(shù)術(shù)中限制性與開放性輸血的對比觀察
髁限制性假體應(yīng)用于初次全膝關(guān)節(jié)置換的臨床療效
上汽大通:C2B個性化定制未來
淺談玻爾茲曼分布的微小偏離量所引起的微觀狀態(tài)數(shù)的變化
滿足群眾的個性化需求
建宁县| 宣城市| 通州市| 高尔夫| 华阴市| 元谋县| 沙坪坝区| 桐庐县| 天峨县| 开原市| 上栗县| 上饶市| 巴塘县| 古浪县| 乐陵市| 江安县| 贵州省| 那坡县| 修武县| 寿宁县| 广宁县| 兴国县| 临猗县| 扶风县| 万载县| 瑞丽市| 长岭县| 泾阳县| 象山县| 韩城市| 萝北县| 白朗县| 和龙市| 错那县| 仙居县| 重庆市| 阿勒泰市| 平乡县| 香河县| 杭锦旗| 策勒县|