暴 琳 孫曉燕 鞏敦衛(wèi) 張 勇
近年來,隨著大數(shù)據(jù)、云計算等技術的迅猛發(fā)展,信息呈現(xiàn)爆炸式增長,給用戶帶來新資訊的同時,也增加了用戶篩選有用信息并最終做出決策的難度.個性化搜索和推薦算法深度而準確挖掘用戶潛在需求和興趣偏好,向用戶推薦其可能感興趣且滿足用戶需求的項目,進而提供高質(zhì)量的個性化服務[1-2].然而,互聯(lián)網(wǎng)技術的發(fā)展以及互聯(lián)網(wǎng)參與人數(shù)的激增,使得各類互聯(lián)網(wǎng)應用中聚集了大量用戶生成內(nèi)容(User generated content,UGC),如:用戶評分、商品類別標簽、用戶文本評論、社交網(wǎng)絡信息、地理位置信息、圖像或視頻等各種各樣的復雜數(shù)據(jù),這些信息具有多源異構異質(zhì)特性.在個性化搜索過程中充分利用多源異構UGC 數(shù)據(jù),勢必將在很大程度上提高個性化搜索和推薦的綜合性能[3-4].其中,構建精確描述用戶個性化偏好的用戶興趣模型是個性化搜索問題的關鍵.目前常用的構建用戶興趣模型的方法包括貝葉斯模型[5]、多層感知機[6]、自編碼器[7]、受限玻爾茲曼機(Restricted Boltzmann machine,RBM)[8]、卷積神經(jīng)網(wǎng)絡(Convolutional neural network,CNN)[9]等.Kim 等[9]整合了CNN 和概率矩陣分解,提出了卷積矩陣分解(Convolutional matrix factorization,ConvMF)模型.Jin 等[10]通過元路徑引導鄰域捕獲節(jié)點間的交互模式,提出了高效的端到端基于鄰域的交互模型,用于基于異構信息網(wǎng)絡的推薦.這些方法的成功應用展示了綜合考慮多源異構信息對于提高推薦系統(tǒng)和個性化搜索性能是十分有利的.另外,受到人類視覺機理的啟發(fā),基于注意力機制(Attention mechanism,AM)的神經(jīng)網(wǎng)絡已成功應用于圖像處理、自然語言理解、語音識別、模式生成等領域[11-12].融合AM 的神經(jīng)網(wǎng)絡充分利用特征及其重要性程度,使得神經(jīng)網(wǎng)絡在處理數(shù)據(jù)時加強重要特征,有利于更有效地進行特征提取.Zhou 等[12]提出了基于AM 用戶行為模型處理推薦問題.湯文兵等[13]提出了基于注意力機制的協(xié)同卷積動態(tài)推薦網(wǎng)絡,捕捉高階特征交互.Li 等[14]提出了基于時間間隔感知的自注意力序列推薦算法.這些方法證明了融合AM神經(jīng)網(wǎng)絡的有效性,加強了重要特征對應用領域的貢獻.然而,現(xiàn)有大部分研究工作均假設所有數(shù)據(jù)已知且充足,模型訓練復雜度較大,且考慮的數(shù)據(jù)類型較單一,面對高稀疏性數(shù)據(jù)時通常表現(xiàn)不佳,同時,未考慮用戶興趣偏好的動態(tài)變化特性,模型難以隨新增UGC 及時更新,不適用于實際應用場景中個性化搜索.
個性化搜索本質(zhì)上是一類復雜的定性指標優(yōu)化問題,也是目前人工智能領域亟待解決的難題.用戶參與進化搜索的交互式進化計算(Interactive evolutionary computations,IECs)能夠有效利用用戶對優(yōu)化問題的主觀評價和決策,將人類智能評價信息與傳統(tǒng)進化優(yōu)化算法相結合,是處理個性化搜索這類復雜定性指標優(yōu)化問題的可行途徑[15-17].Sun 等[15]考慮區(qū)間適應值的不確定性,提出了基于代理模型的交互式遺傳算法(Interactive genetic algorithm,IGA),處理復雜設計問題.Chen 等[17]利用基于語言模型的編碼,結合基于Dirichlet 多項式復合分布的用戶偏好表示和貝葉斯推理機制,提出了改進IEDA 算法.Bao 等[8]充分挖掘用戶隱式偏好信息,構建基于RBM 的用戶偏好模型,提出了RBM 模型驅動的交互式分布估計算法(Interactive estimation of distribution algorithms,IEDA).
這些方法從構建用戶偏好代理模型設計進化優(yōu)化策略的角度處理個性化搜索問題,為進化計算在個性化搜索和推薦中的應用進行了嘗試,取得了良好效果.但是,融合多源異構UGC 和基于偏好代理模型進化計算(Evolutionary computations,ECs)的相關研究較少,已有研究也僅僅利用了單一類型UGC信息,此外,沒有考慮UGC 不同特征信息對用戶認知偏好和ECs 算子的影響.
基于代理模型的進化算法在復雜工程和函數(shù)優(yōu)化中已有較多研究成果,主要利用進化過程中產(chǎn)生的數(shù)據(jù)或者生產(chǎn)實踐中獲得的數(shù)據(jù),采用機器學習方法等構建模型,在進化過程中,利用該模型代替復雜適應度評價函數(shù),實現(xiàn)對進化個體的適應值估計,進而提高進化優(yōu)化的效率.常用代理模型包括:多項式回歸模型[18]、支持向量機[19]、神經(jīng)網(wǎng)絡[20]和克里金模型[21]等.Min 等[22]提出了基于多問題代理模型的遷移進化多目標優(yōu)化算法.Wang 等[23]結合基于代理模型的低代價魯棒估計和時間消耗的實際魯棒性測量,提出了基于圖嵌入的大規(guī)模網(wǎng)絡代理模型輔助魯棒優(yōu)化算法.Cai 等[24]提出了一種廣義代理模型輔助的進化算法處理高維高代價優(yōu)化問題.顯然,已有代理模型均基于數(shù)值型描述的優(yōu)化問題,而本文研究面向UGC 的個性化搜索,需要構建用戶偏好代理模型,其處理對象為文本、類別標簽、打分數(shù)據(jù)甚至圖像等,傳統(tǒng)代理模型不再適用.
本文考慮深入理解和充分挖掘多源異構UGC數(shù)據(jù),利用無監(jiān)督學習RBM 模型強大的表示學習能力和AM 在特征選擇方面的突出表現(xiàn),設計融合多源異構數(shù)據(jù)和AM 的RBM 用戶偏好代理模型,并結合IECs 進化優(yōu)化框架,提出增強RBM 驅動的IEDA,應用于個性化搜索中.充分利用多源異構UGC 數(shù)據(jù)包含的文本類信息,包括用戶評價和項目類別兩類連續(xù)、離散混合數(shù)據(jù),提取與用戶認知偏好高度相關的特征,獲取表示用戶偏好的注意力權重,構建精準擬合用戶搜索偏好的基于注意力機制和RBM 的用戶認知偏好模型,實現(xiàn)多重特征交互,同時捕捉低階至高階的基于多源異構數(shù)據(jù)的用戶偏好特征;在IEDA 框架下,設計基于RBM用戶偏好的概率模型,生成含用戶偏好的可行解,同時,設計基于RBM 用戶偏好代理模型的進化個體適應度估計函數(shù),為搜索對象提供量化的評價值,部分代替用戶評價選擇優(yōu)良個體,生成用戶可能感興趣的項目推薦列表;考慮用戶偏好的動態(tài)演化特性,根據(jù)新增UGC 數(shù)據(jù)和模型管理機制,動態(tài)更新融合多源異構數(shù)據(jù)和AM 的RBM 用戶偏好模型,引導個性化進化搜索過程,以期快速準確地搜索用戶滿意解,提高個性化搜索算法的評分預測準確性和推薦效果.
本文貢獻主要包括3 個方面:1)針對含用戶生成內(nèi)容的個性化搜索問題,充分挖掘用戶生成內(nèi)容中的連續(xù)語義特征和離散類別特征,給出基于RBM 的特征融合方法和注意力權重確定策略,以及融合注意力權重的RBM 用戶偏好模型構建機制,以擬合用戶興趣偏好的動態(tài)變化過程;2)基于所構建RBM 偏好模型,通過計算當前用戶偏好個體中決策變量屬性值為1 的概率,建模用戶的興趣選擇傾向,形成IEDA 進化個體生成的采樣概率模型;3)基于RBM 模型參數(shù)確定法則是最小化能量函數(shù)的原則,利用能量函數(shù)構建了分布估計算法(Estimation of distribution algorithm,EDA)進化個體適應值評價代理模型,進而實現(xiàn)了面向含用戶生成內(nèi)容個性化進化搜索的高效IEDA 算法.
本文后續(xù)內(nèi)容組織如下:第1 節(jié)給出所提算法框架;第2 節(jié)詳細描述基于注意力機制和RBM 的用戶認知偏好模型構建;第3 節(jié)提出基于偏好模型的交互式分布估計算法;第4 節(jié)給出實例分析;最后總結本文工作.
本文旨在利用UGC 和RBM 建模用戶偏好特征及其動態(tài)變化過程,以交互式進化優(yōu)化的方式,準確刻畫用戶實時興趣,抽取用戶行為規(guī)律和發(fā)展動態(tài),可望從海量數(shù)據(jù)構成的動態(tài)演化空間中引導用戶盡快搜索到滿意解,提高面向多源異構UGC的個性化搜索的綜合性能.
所提融合注意力機制的增強受限玻爾茲曼機驅動的交互式分布估計算法(Enhanced restricted Boltzmann machine-driven interactive estimation of distribution algorithms with attention mechanism,AM-ERBM-IEDA)的基本框架如圖1 所示.首先根據(jù)用戶查詢信息,獲得初始物品集合及其UGC 數(shù)據(jù),作為EDA 初始化搜索空間;分別將UGC 的評價文本和類別標簽送入doc2vec 和multihot 編碼模塊,獲得UGC 數(shù)據(jù)的向量化表示;將量化表示的UGC 作為RBM 偏好模型的輸入,訓練該模型;計算RBM 偏好模型的輸入層分布概率,將其作為EDA種群再生的采樣概率模型;基于RBM 能量函數(shù)定義,構建EDA 進化個體(搜索物品)適應值代理模型,以估計個體適應值,實現(xiàn)選擇操作,將TopN列表提交給用戶評價,實現(xiàn)交互過程;在進化過程中,根據(jù)用戶交互信息和代理模型估計值管理RBM 模型更新過程,以跟蹤用戶興趣變化,從而更新采樣概率模型和適應值代理模型.循環(huán)上述過程,直至用戶找到滿意物品.
圖1 AM-ERBM-IEDA 算法框架Fig.1 The framework of AM-ERBM-IEDA algorithm
圖1中,“?”標記模塊為核心部分,包括:基于注意力機制和RBM 的用戶認知偏好模型構建、基于RBM 用戶偏好的交互式分布估計算法,特別是EDA采樣概率模型計算,以及EDA 用戶評價代理模型和管理.
多源異構UGC 數(shù)據(jù)中包含豐富的用戶歷史交互行為數(shù)據(jù)(如:用戶對項目的評分數(shù)據(jù)、用戶對項目的文本評論等)、項目內(nèi)容信息(如:項目類別標簽等)、用戶之間的社交網(wǎng)絡關系等,這些數(shù)據(jù)含有大量用戶顯式和隱式的興趣偏好信息,充分探索和挖掘這些有用信息,建?;谧⒁饬C制和RBM的用戶認知偏好模型,能夠有效提高個性化搜索算法的性能.該模型包含3 個模塊:融合多源異構數(shù)據(jù)的RBM 注意力權重生成模塊、注意力層和基于注意力機制的RBM 模塊,其結構示意圖如圖2所示.
圖2 基于注意力機制和RBM 的用戶認知偏好模型Fig.2 User cognitive preference model based on attention mechanism and RBM
融合多源異構數(shù)據(jù)的RBM 注意力權重生成模型具有兩層網(wǎng)絡結構:v11為第1 組可見層,有n1個可見單元,表示項目的類別特征;v12為第2 組可見層,有n2個可見單元,表示用戶對項目評論的文本特征;h1為隱層,有m1個隱單元,表示用戶偏好特征.其中,層間全連接,層內(nèi)無連接,可見單元和隱單元均為實數(shù).該模型的輸入數(shù)據(jù)由用戶評分數(shù)據(jù)、項目類別標簽和用戶文本評論構成,具體如下:
3)將用戶對項目的文本評論進行數(shù)據(jù)預處理,基于數(shù)據(jù)集的語料庫訓練doc2vec 文本向量化表示模型[25],生成用戶文本評論的向量化表示T=,其中,tij表示用戶ui對于項目xj的文本評論的向量化表示.Du中各項目的文本評論向量化表示Tu,即
由多源異構UGC 數(shù)據(jù)整合模型訓練數(shù)據(jù),表示為|Du|×n特征向量矩陣Vu,即
根據(jù)訓練數(shù)據(jù)集Vu和對比散度(Contrastive divergence,CD)學習算法[26],訓練融合多源異構數(shù)據(jù)的RBM 注意力權重生成模型,獲得包含用戶u偏好特征的模型參數(shù),均為實數(shù).
當給定可見單元狀態(tài)時,各隱單元的激活狀態(tài)條件獨立,第j個隱單元的激活概率為
其中,ci表示第1 組可見層v11中第i個可見單元的狀態(tài);ti表示第2 組可見層v12中第i個可見單元的狀態(tài);表示隱層h1中第j個隱單元的狀態(tài);表示可見單元i與隱單元j之間的連接權重;表示第j個隱單元的偏置;σ(x)=1/(1+exp(-x))是sigmoid 激活函數(shù).
當給定隱單元狀態(tài)時,各可見單元的激活狀態(tài)亦條件獨立,第1 組和第2 組可見層第i個可見單元的激活概率分別為
模型訓練完成后可同時獲得兩類信息:用戶u對當前待搜索對象的偏好特征,即隱層輸出;用戶u對于項目中各決策變量的偏好程度,即輸入層最終獲得的.
考慮用戶歷史行為中不同項目的屬性特征對評分預測的貢獻的差異性,增加了注意力層,對用戶的個性化偏好特征賦予不同權重,著力分析不同特征間的關聯(lián)度,以加強重要特征對評分預測的貢獻.
計算用戶u的注意力權重atu,即
用戶u偏好的注意力權重atu刻畫了項目中各決策變量對于用戶u偏好特征的重要性程度,由此得到優(yōu)勢群體Du中第i個項目個體的編碼表示,即
則Du中所有項目個體的融合多源異構數(shù)據(jù)的基于AM 的向量表示為,即
將Du中的個體xu再次輸入已訓練好的融合多源異構數(shù)據(jù)的RBM 注意力權重生成模型,幫助融合多源異構數(shù)據(jù)的基于AM 的RBM 用戶偏好模型將注意力集中于重要的特征,更精細地表達當前用戶u的偏好特征.由此得到可見單元的輸出,即
其中,softmax(·)函數(shù)保證所有權重系數(shù)之和為1.函數(shù)衡量了項目個體xu相對于用戶偏好特征的注意力權重系數(shù),計算式為
進一步獲得訓練數(shù)據(jù)集Xu中個體xu的基于AM 的用戶偏好注意力權重At(xu),即
其中,at(xi)表示Du中項目個體xi(i=1,2,···,|D|)融合AM 的注意力權重系數(shù),即
注意力層抽取并融合了用戶對于個體決策變量的注意力權重系數(shù)A(xu),從全局的角度考慮項目各屬性特征對于用戶偏好的影響,加權求和獲得融合AM 的注意力權重系數(shù)的用戶偏好特征向量At(xu),更加關注對用戶偏好貢獻大的屬性特征.
各項目個體基于AM 的向量表示為At(Xu),由此訓練基于AM 的RBM 用戶偏好模型,獲取用戶偏好特征的高階關系.當給定可見單元狀態(tài)時,第j個隱單元的激活概率為
當給定隱單元狀態(tài)時,第i個可見單元的激活概率為
在IEDA 進化優(yōu)化框架下,設計基于RBM 用戶偏好的概率模型Pu(x),即
基于RBM 用戶偏好的概率模型Pu(x)通過計算當前用戶偏好的項目中決策變量屬性值為1 的概率p(xi=1),以概率生成的角度表示用戶對于項目的偏好,建模用戶興趣選擇傾向.在IEDA 進化優(yōu)化過程中,隨機采樣概率模型Pu(x),生成包含當前用戶偏好的Pop個新個體.根據(jù)相似性準則,將生成的新個體與搜索空間中的項目進行相似性匹配,選擇出相同的項目或者最相似的項目作為可行解,構成待推薦項目集合Su.
由第2 節(jié)已訓練好的融合多源異構數(shù)據(jù)的基于AM 的RBM 用戶偏好模型的能量函數(shù)項目x在(x,h2)狀態(tài)下的能量函數(shù)隱式表達了用戶u對于項目x的偏好程度,即
本文所提算法的計算復雜性由訓練用戶文本評論的doc2vec 向量化表示模型、訓練用戶偏好模型和篩選可行解所決定.其中,用戶文本評論的doc2vec向量化表示模型的訓練是離線計算.訓練用戶偏好模型的計算復雜性為O(|Du|×(n1+n2)×m);選擇Su個可行解的時間花費是O(Su×D),D是搜索空間中的項目數(shù)量;計算Su個候選項目的個體適應值的時間花費為O(Su).因此,本文所提算法每代總的計算復雜性為O(|Du|× (n1+n2)×m+Su×D).
為了驗證所提算法的綜合性能,將其應用于Amazon[14]的6 個數(shù)據(jù)集和Yelp 數(shù)據(jù)集,這些數(shù)據(jù)集包括豐富的多源異構數(shù)據(jù),如:用戶ID、項目ID、用戶對項目的1~5 整數(shù)值評分、項目類別、用戶文本評論、用戶評論時間等信息.數(shù)據(jù)集的統(tǒng)計信息描述如表1 所示.
表1 數(shù)據(jù)集統(tǒng)計信息Table 1 Statistical information of datasets
實驗環(huán)境是Intel Core i5-4590 CPU 3.30 GHz和4 GB RAM,實驗平臺使用Python 3.6 開發(fā).為了客觀比較本文所提算法的性能,選擇Random、Popularity、BPRMF[5]、ConvMF[9]、ATRank[12]、RBMAEDA[20]、DRBM[8]算法進行對比實驗和分析.BPRMF、ConvMF 和ATRank 都是有監(jiān)督學習的推薦算法,BPRMF 隱因子數(shù)目為20.RBMAEDA是一種基于無監(jiān)督學習的個性化搜索算法.實驗中采用以下評價指標:均方根誤差(Root mean square error,RMSE)、命中率(Hit ratio,HR)、平均準確率(Average precision,AP)、平均準確率均值(Mean average precision,mAP)[8]和運行時間.
在數(shù)據(jù)集中隨機選取10 個測試用戶,按用戶評論時間順序排列,分別以70%和30%的比例劃分訓練數(shù)據(jù)集和測試數(shù)據(jù)集,使用各種推薦算法為測試用戶進行個性化搜索實驗,各種推薦算法分別獨立運行10 次,記錄相應的平均實驗結果.本文所提算法的實驗參數(shù)如表2 所示.
表2 算法的實驗參數(shù)Table 2 Experimental parameters of our algorithm
為了證明本文所提融合多源異構數(shù)據(jù)的RBM用戶偏好模型及基于RBM 用戶偏好的代理模型的可行性和有效性,在各種不同領域的數(shù)據(jù)集中進行了大量實驗.RBM-MsH 算法考慮了各項用戶評分數(shù)據(jù)、類別標簽和文本評論,是沒有融合AM 的RBM用戶偏好模型算法.融合了AM 和多源異構UGC數(shù)據(jù)的增強RBM 的個性化搜索算法(Integrating attention mechanism into RBM for multi-source heterogeneous UGC),記為AtRBM-MsH.表3 中展示了各算法實驗結果,最優(yōu)結果用粗體標注.
表3 對比實驗結果Table 3 Experiments compared with popular recommendation algorithms
實驗中,置信水平0.95 的Mann-Whitney U是一種非參數(shù)檢驗,用來展示本文所提算法的顯著性不同,帶有標記“*”的數(shù)據(jù)表示該算法與其他算法有顯著性不同.
由表3 可得出以下結論:
1)在大部分數(shù)據(jù)集中,AtRBM-MsH 都取得了最優(yōu)的結果,如:在Kindle 數(shù)據(jù)集中RMSE 值取得了最優(yōu)1.168,低于ATRank 算法47.22%,而HR和mAP 值取得了0.0308 和0.926,分別高于次優(yōu)ATRank 算法2.33%和2.89%,展示了本文所提算法模型比其他模型具備更強的特征提取能力和表示學習能力,進行更準確的評分預測和有效的項目推薦.同樣地,在Yelp 數(shù)據(jù)集中也取得了優(yōu)良的預測準確性和推薦效果.
2)在各數(shù)據(jù)集中,AtRBM-MsH 總體上優(yōu)于BPRMF、ConvMF 和ATRank 這些有監(jiān)督學習算法,其中,ConvMF 算法的時間花費巨大,是因為CNN 深度學習網(wǎng)絡的運算過程復雜、訓練時間較長,使得這類基于深度學習的推薦算法在所有數(shù)據(jù)集上計算代價最高.Random 和Popularity 算法無法有效獲取用戶的偏好特征,在進行推薦時不具備個性化特性,總體上的推薦效果不如個性化搜索算法.Random 算法的時間花費獲得最小值,這是容易理解的.在保證預測精度和推薦準確性的情況下,AtRBM-MsH 利用基于RBM 的個性化搜索方法極大縮短了構建用戶偏好模型的訓練時間,在推薦效果和時間花費上取得了較好的折中效果.
3)在各數(shù)據(jù)集對比實驗中,AtRBM-MsH 全部優(yōu)于RBMAEDA,這是因為RBMAEDA 只考慮了用戶評分數(shù)據(jù)和項目類別標簽進行個性化搜索,而AtRBM-MsH 算法綜合考慮了UGC 中的多源異構數(shù)據(jù)和影響用戶偏好的決策變量的重要程度,構建基于AM 的RBM 用戶偏好模型,更加有利于抽取用戶偏好特征,取得了最優(yōu)的預測精度、推薦效果和用戶滿意度.另外,RBM-MsH 雖然考慮了多源異構UGC 數(shù)據(jù),但沒有引入AM,綜合推薦效果優(yōu)于RBMAEDA,但是不如AtRBM-MsH,進一步說明了融合AM 的有效性.
因此,本文所提算法聯(lián)合多源異構UGC 數(shù)據(jù)和AM,深入理解項目類別標簽和用戶文本評論,加強重要特征對于構建用戶偏好模型的貢獻,同時,減輕數(shù)據(jù)稀疏對評分預測的影響,進行有效的項目推薦,具備良好的評分預測精確性和項目推薦準確率.
為了充分展示本文所提算法的個性化搜索和推薦性能,以Kindle_Store 數(shù)據(jù)集中用戶“A13QTZ8-CIMHHG4”為例,篩選當前用戶評分數(shù)據(jù)和用戶文本評論,按時間順序排列截取前 #% 為訓練數(shù)據(jù)集,后(100 -#)%為測試數(shù)據(jù)集,測試在不同的數(shù)據(jù)集稀疏度情況下用戶進行個性化搜索.表4 是測試用戶的個性化搜索實驗結果.
表4 測試用戶個性化搜索實驗結果Table 4 Experimental results of a test user
實驗結果表明,在數(shù)據(jù)稠密度只有30%時,At-RBM-MsH 也達到了很好的預測精度和推薦準確性,幾乎是把用戶喜歡的項目都排在了TopN項目推薦列表的前面,具備更好的用戶滿意度和用戶體驗.隨著數(shù)據(jù)集中稠密度的逐漸增大,AtRBMMsH 的預測精度和推薦準確性也在不斷提高,說明當數(shù)據(jù)稠密時有用信息逐漸增加,有利于融合多源異構數(shù)據(jù)的RBM 用戶偏好模型抽取當前用戶偏好特征,為個性化搜索算法提供了有效的用戶偏好策略引導.
圖3是以圖形形式展示測試用戶分別利用RBMAEDA、DRBM、RBM-MsH 和AtRBM-MsH 算法進行個性化搜索的實驗結果.
圖3 測試用戶個性化搜索實驗Fig.3 Experimental results of a test user
從圖3 可以看出,用戶對于項目的文本評論包含了較多的用戶偏好信息,融合多源異構數(shù)據(jù)的RBM-MsH 優(yōu)于只考慮項目類別標簽的RBMAEDA和DRBM,而AtRBM-MsH 能夠充分整合多源異構UGC 數(shù)據(jù)和AM,有效抽取用戶偏好,獲得了優(yōu)良的綜合性能.
為了進一步展示本文提出的AtRBM-MsH 輔助的IEDA (AtRBM-MsH assisted IEDA,At-RIEDA-MsH)算法的綜合性能,在CDs_and_Vinyl 數(shù)據(jù)集隨機選擇某用戶,將未結合IEDA 框架的AtRBM-MsH 算法與AtRIEDA-MsH 算法進行了對比實驗,實驗結果如圖4 所示.
圖4 CDs_and_Vinyl 數(shù)據(jù)集測試用戶個性化搜索實驗Fig.4 Experimental results of a test user on CDs_and_Vinyl
從圖4 中可以看出,AtRIEDA-MsH 優(yōu)于At-RBM-MsH,其RMSE 值降低了4.35%,HR 和AP分別提高了108.94%和32.66%,展示了在IEDA框架下充分利用多源異構UGC 數(shù)據(jù),融合AM 構建增強的基于RBM 用戶偏好模型,抽取用戶偏好特征,引導用戶進行個性化搜索是可行且有效的.
在實驗中,隨機選擇某用戶參與交互式個性化搜索過程,前50%作為訓練數(shù)據(jù)集,其中,前20%作為初始的歷史交互數(shù)據(jù),后30% 數(shù)據(jù)分割為10 份,作為每次迭代的新增UGC,剩余50%作為個性化搜索的可行解搜索空間,模擬用戶的交互式個性化搜索的動態(tài)過程,展示本文所提算法的可行性、有效性和適應能力.將本文所提算法與5 種IECs:傳統(tǒng)IEDA、RBM 輔助的IGA (RBM assisted IGA,RBMIGA)、RBMAEDA[20]、DRBMIEDA[8]、RBM-MsH 輔助的IEDA (RBM-MsH assisted IEDA,RIEDA-MsH)算法進行對比實驗,其中,IEDA 作為基線算法,RBMIGA 是IGA 框架下的基于RBM 個性化搜索算法.各算法進行10 代優(yōu)化搜索,給出10 次評分預測和項目推薦,同時,各算法獨立運行10 次,計算平均評價指標評估算法的綜合性能.實驗結果如表5 所示,其中最優(yōu)解用粗體表示.
表5 對比實驗結果Table 5 Comparison of experimental results
在表5 中,標記“*”表示根據(jù)置信水平0.95 的Mann-Whitney U 非參數(shù)檢驗算法顯著區(qū)別于其他算法.另外,由于在IEDA 算法中沒有構造代理模型預測用戶對于項目的評分,所以IEDA 算法沒有RMSE 值.由表5 可得出以下結論:
1)在各數(shù)據(jù)集中,AtRIEDA-MsH 取得了最優(yōu)效果,如:在Music 數(shù)據(jù)集中AtRIEDA-MsH 平均RMSE 值獲得了最優(yōu)值0.955,HR 和AP 值分別為0.0305 和0.956,高于次優(yōu)RIEDA-MsH 算法6.64%和2.69%.在Yelp 數(shù)據(jù)集中也獲得了類似的實驗結果.雖然在部分數(shù)據(jù)集中一些評價指標沒有取得最優(yōu)值,但是綜合比較獲得了最優(yōu)綜合性能.AtRIEDA-MsH 是在RBMAEDA 中融合了用戶文本評論和AM,更有利于構建高效的用戶偏好模型、EDA 概率模型和用戶評價代理模型,提高了評分預測能力和推薦準確性.
2)在各數(shù)據(jù)集對比實驗中,RBMAEDA 優(yōu)于RBMIGA,RBMIGA 優(yōu)于IEDA,RIEDA-MsH 優(yōu)于RBMAEDA,說明用戶文本評論相比較項目類別標簽包含了更多的用戶偏好信息,幫助RIEDAMsH 算法提高了評分預測能力和推薦準確性.更進一步,AtRIEDA-MsH 算法考慮多源異構UGC 數(shù)據(jù),利用基于注意力機制RBM 模型構建用戶偏好模型,引導個性化搜索,取得了最優(yōu)的預測準確性和綜合搜索效果.
為了進一步展示本文所提算法的優(yōu)越性能,以圖形的形式動態(tài)展示Music 和Games 數(shù)據(jù)集中用戶的個性化搜索過程,如圖5 和圖6 所示.
圖5 Music 數(shù)據(jù)集某用戶個性化搜索實驗Fig.5 Experimental results of a test user on Music
圖6 Games 數(shù)據(jù)集某用戶個性化搜索實驗Fig.6 Experimental results of a test user on Games
從圖中可以看出,大部分情況下藍色線代表AtRIEDA-MsH 和紅色線代表的RIEDA-MsH 算法的RMSE 值低于其他對比算法,而HR 和AP 優(yōu)于其他算法,說明本文所提出的算法能夠較好地抽取用戶偏好特征,動態(tài)跟蹤用戶偏好,為當前用戶進行有效的個性化推薦,取得了較好的預測精確性和推薦準確率,改善了用戶體驗和滿意度.
針對如何在大數(shù)據(jù)環(huán)境下充分有效利用多源異構UGC 數(shù)據(jù),本文提出了融合多源異構數(shù)據(jù)的增強RBM 驅動的IEDA,并將其應用于個性化搜索這類復雜定性指標優(yōu)化問題中.利用多源異構UGC數(shù)據(jù),構建融合多源異構數(shù)據(jù)的基于注意力機制的RBM 用戶偏好模型,幫助用戶偏好模型將關注點聚焦于屬性信息的重要特征,有效抽取用戶偏好特征,動態(tài)跟蹤用戶興趣和偏好.同時,以創(chuàng)造良好的用戶體驗和平臺效益為目標,在IEDA 框架下構建用戶與個性化搜索算法的交互式過程,設計了相應的進化優(yōu)化策略,通過用戶偏好模型所獲得的用戶認知經(jīng)驗和興趣偏好動態(tài)引導當前用戶逐漸搜尋到滿意解,從而有效解決了個性化搜索問題.在今后的研究工作中,擬將進一步有效利用圖像、視頻等信息,研究融合動態(tài)群體智能IECs 的個性化搜索算法及其應用,提供智能化、專屬化的用戶服務體驗.