麥英健
(深圳供電局有限公司,廣東,深圳 518048)
混合推薦算法往往是基于內(nèi)容推薦實現(xiàn)的,這也造成協(xié)同過濾推薦的數(shù)據(jù)稀疏性問題無法解決[1]。而稀疏性評分矩陣與混合推薦算法之間不存在相似性,當混合推薦算法與推薦算法的傳統(tǒng)評級出現(xiàn)偏差時,用戶相似性協(xié)同內(nèi)容也會受到影響[2-3]。如果推薦內(nèi)容的相似性存在本質(zhì)區(qū)別,則推薦內(nèi)容出現(xiàn)偏差,個性化推薦內(nèi)容的準確率下降,根據(jù)偏差推薦內(nèi)容相似性推薦的內(nèi)容大概率與內(nèi)容特征相悖[4]。因此,除了依靠近鄰小概率點擊計算內(nèi)容個性化特征外,還需要篩選個性化推薦的關(guān)鍵性內(nèi)容,通過預(yù)測評分的準確性因子確定統(tǒng)計信息的協(xié)作結(jié)果[5]。
因此,為了保證推薦算法的準確性,要讓特殊數(shù)據(jù)項與過濾內(nèi)容保持一致[6]。在推薦內(nèi)容列表中找到內(nèi)容推薦的屬性信息,以屬性信息為基礎(chǔ)制定篩選項目列表的文本內(nèi)容[7]。在統(tǒng)計信息中不斷增加新的特征因數(shù),利用這些特征因數(shù)確定推薦項目的內(nèi)容。借助推薦內(nèi)容的補充項確定預(yù)測置信度的屬性信息,在保證推薦項目列表符合同類項基本特征的同時,通過內(nèi)容推薦重新過濾準確率推薦的篩選內(nèi)容,以完成個性化內(nèi)容的推薦。
文獻[8]更新了模型基礎(chǔ)增量,并提供電子商務(wù)平臺用戶相異度參數(shù)用于相異度矩陣,根據(jù)電子商務(wù)平臺用戶模型增量構(gòu)建分布式數(shù)據(jù)增量模型。通過擴展學習算法良好的相異度增量,計算大數(shù)據(jù)推薦的增量內(nèi)容,但缺少對分布式數(shù)據(jù)擴展增量的計算。文獻[9]針對混合多因子建立序列模型,并根據(jù)推薦內(nèi)容協(xié)同過濾出混合多因子,根據(jù)混合多因子稀疏性做出序列建模,提取推薦內(nèi)容的多維度興趣點,但缺少對推薦內(nèi)容相關(guān)性的計算。文獻[10]通過個性化推薦算法構(gòu)建推薦對象的模型,根據(jù)個性化推薦算法分析建模的體系結(jié)構(gòu),同時計算個性化結(jié)構(gòu)性能評價指標的相似性,并根據(jù)性能評價指標的特征確定推薦內(nèi)容的合理性,但缺少對推薦系統(tǒng)關(guān)鍵性技術(shù)的總結(jié)。
綜合現(xiàn)有文獻研究,本文計算了分布式數(shù)據(jù)擴展增量,分析推薦內(nèi)容的相關(guān)性,總結(jié)并評判推薦系統(tǒng)的關(guān)鍵性技術(shù)。據(jù)此建立個性化內(nèi)容推薦算法持久化層,并完成個性化內(nèi)容推薦。
優(yōu)化聚類個性化內(nèi)容簇集劃分結(jié)果的信息量巨大,要計算劃分結(jié)果的信息量,先要確定個性化內(nèi)容推薦特征向量。因此,在推薦過程中首先需要整合現(xiàn)有個性化內(nèi)容的數(shù)據(jù)特征,同時利用腳本獲取個性化信息的調(diào)用內(nèi)容,以部分函數(shù)中的分詞特征為主,清洗過濾個性化內(nèi)容推薦特征向量,由此得到強關(guān)聯(lián)性的特征內(nèi)容。
設(shè)個性化內(nèi)容的向量維數(shù)為k,此時個性化內(nèi)容的詞向量維數(shù)為固定數(shù)值,在固定的向量維數(shù)范圍內(nèi)提取特征值。根據(jù)特征值輸入的數(shù)據(jù)大小,確定優(yōu)化聚類的特征值提取結(jié)果,公式如下:
Ci=f(w×xi+h-1+b)
(1)
其中,xi+h-1為優(yōu)化聚類的詞向量,i為目標興趣相似度近似的項目編號,h為優(yōu)化聚類的詞向量所屬的項目編號,w為詞向量的特征維度,b為提取的特征維數(shù)。降低優(yōu)化聚類中特征詞向量的維度,并根據(jù)輸出的線性函數(shù)計算降維的特征相關(guān)性。將特征值提取結(jié)果做分割處理,設(shè)C為Ci中的最大值,則有:
C(n-h+1)/m=[cm+1,cm+2,cm+3,…,c2 m]
(2)
根據(jù)優(yōu)化聚類的特征值總結(jié)特征范圍內(nèi)輸出數(shù)據(jù)的處理結(jié)果,設(shè)定個性化內(nèi)容特征值窗口步幅大小。針對步幅的特征信息提取特征值,匹配特征值高度與縮放窗口比例。由此得到優(yōu)化聚類個性化內(nèi)容推薦的最終輸出數(shù)據(jù)。根據(jù)相同高度的特征值首層數(shù)據(jù),過濾個性化內(nèi)容的特征向量,確定過濾部分神經(jīng)元數(shù)據(jù)的擬合特征。連接個性化內(nèi)容的步幅內(nèi)容,并整合維度向量與輸出數(shù)據(jù),通過主要函數(shù)確定設(shè)定取值的連接單元。基于此可從個性化內(nèi)容詞窗口的第一個詞單位大小,確定詞單位的取值范圍為[1,n-k+1]。在個性化內(nèi)容詞單位的范圍內(nèi)尋找維度向上的個性化內(nèi)容偏置項,表達式為c=[c1,c2,…,cn-h+1]。根據(jù)對應(yīng)個性化內(nèi)容的連接層元素,將提取的特征拼接成為獨立的偏置向量,得到偏置向量的表達式為B=[b1,b2,…,bn-h+1],據(jù)此設(shè)個性化內(nèi)容連接權(quán)重的表達式如下:
W=(wi)n×m∈Rn×m
(3)
根據(jù)連接權(quán)重的大小,判斷隱藏在個性化內(nèi)容中的未知參數(shù),計算組合長向量的其他分量,在給定狀態(tài)下確定個性內(nèi)容推薦特征向量的函數(shù)表達式如下:
(4)
其中,wi與wj分別為分量組合中的長向量,bi和bj分別為聯(lián)合分布概率的特征權(quán)重與層內(nèi)連接權(quán)重,Ii(t)為個性化內(nèi)容推薦項目類別,β為推薦內(nèi)容的信息評價指標值。根據(jù)個性化內(nèi)容特征正態(tài)分布的隱藏層,確定單元激活條件與內(nèi)容特征的相關(guān)度,根據(jù)對稱的輸出向量確定觀測數(shù)據(jù)的原始輸入樣本。根據(jù)修正參數(shù)不斷橫向比較樣本向量,同時針對樣本向量的修正內(nèi)容確定分布采樣的規(guī)律,得到個性化內(nèi)容層向量的原始輸入樣本集合。在確定誤差分布與采樣效果持平的同時,針對輸入樣本向量的范圍,重新確定訓(xùn)練樣本的個性化內(nèi)容參照標準,并利用更新的參數(shù)估計采樣內(nèi)容[11]。在保證計算采樣內(nèi)容運算量不變的前提下,修正處理概率公式得到的個性化內(nèi)容向量可見層,總結(jié)得到個性化內(nèi)容推薦特征向量的計算式如下:
(5)
其中,v為個性化內(nèi)容屬性編號的信息向量。利用個性化內(nèi)容推薦特征向量,構(gòu)建優(yōu)化聚類的個性化內(nèi)容推薦模型,并計算個性化內(nèi)容過濾參數(shù)。利用輸入樣本向量的大小,根據(jù)計算個性化內(nèi)容推薦模型的分布效果,完成對個性化內(nèi)容推薦算法的設(shè)計。
通過個性化內(nèi)容推薦特征向量的計算,完成對個性化內(nèi)容特征參數(shù)融合處理,將計算得到的個性化內(nèi)容推薦特征向量整合為特征集合,并通過拼接融合處理個性化內(nèi)容。利用個性化內(nèi)容訓(xùn)練集合調(diào)整推薦概率值,針對出現(xiàn)文本信息特征的內(nèi)容做融合屬性處理,并計算出推薦概率值排序,確定個性化內(nèi)容推薦的嵌入式向量。針對含義相近的特征向量,構(gòu)建個性化內(nèi)容推薦模型。
根據(jù)個性化內(nèi)容向量的特征表達,對嵌入的個性化內(nèi)容做編碼處理,同時利用千萬量級的編碼維度計算個性化內(nèi)容的稀疏特征。由此得到個性化內(nèi)容融合特征的表達式x0=(P(v,h),E(w,b)),將拼接過的個性化內(nèi)容融合特征代入特征輸出公式中,如下:
x1=f(Wx0+b1)
(6)
其中,f為拼接特征的激活函數(shù),W為個性化內(nèi)容連接權(quán)重,b1為提取的特征維數(shù)。由此得到個性化內(nèi)容推薦輸出層的隱藏矩陣,利用矩陣確定輸出層的損失內(nèi)容。并計算輸出層損失內(nèi)容的稀疏性,公式如下:
(7)
根據(jù)個性化內(nèi)容項目特征的指標召回強度,判斷屬于個性化內(nèi)容測試中的列表位置,根據(jù)個性化內(nèi)容相關(guān)性結(jié)果確定個性化內(nèi)容指標。按照等級關(guān)聯(lián)性確定個性化內(nèi)容推薦集合的歸一化結(jié)果,分別根據(jù)樣本比例確定參考個性化內(nèi)容的個性化內(nèi)容推薦模型,公式如下:
P(W1|W1-L,Wx1-(1-L),…,Wx1+L-1,Wx1+L)
(8)
根據(jù)優(yōu)化聚類的個性化內(nèi)容推薦模型實現(xiàn)個性化內(nèi)容推薦。
根據(jù)優(yōu)化聚類的個性化內(nèi)容推薦模型,對推薦的個性化內(nèi)容做過濾處理,并將處理結(jié)果轉(zhuǎn)化為個性化預(yù)測矩陣。根據(jù)相關(guān)度取值波動,濾除[-1,1]范圍內(nèi)的平均值,整合正負相關(guān)度不高的個性化內(nèi)容。根據(jù)個性化內(nèi)容推薦模型計算組合分量,并根據(jù)獨立的單元確定個性化內(nèi)容的對稱參數(shù)。保證個性化參數(shù)特征與原始輸入樣本向量相似的情況下,根據(jù)輸入樣本向量與個性化內(nèi)容推薦的偏離系數(shù),確定修正參數(shù)的大小。利用輸出向量的可見層參數(shù)重新確定樣本向量,由此得到個性化內(nèi)容的參數(shù)更新公式,如下:
(9)
其中,g為集合樣本的個數(shù),a和e分別為隱藏單元中的數(shù)值,η為偏置向量中的初始值,Δa和Δe分別為隱藏層單元數(shù)目的初始值。根據(jù)偏置結(jié)果計算權(quán)重矩陣中的隨機數(shù),并根據(jù)偏置初始化的值計算個性化內(nèi)容比例,公式如下:
(10)
針對個性化內(nèi)容比例確定物品偏好的關(guān)系,通過分解梯度計算適合的矩陣因子與收斂模型,根據(jù)個性化內(nèi)容的推薦排序值做上升數(shù)據(jù),得到分解后的梯度上升公式,如下:
(11)
根據(jù)分解后的梯度上升數(shù)據(jù)篩選個性化內(nèi)容中的推薦值,根據(jù)個性化內(nèi)容中的關(guān)鍵詞完成第一輪篩選,設(shè)關(guān)鍵詞的集合為(cd1,cd2,…,cdn),將個性化內(nèi)容中詞頻較高的部分標記為(tf1,tf2,…,tfn),得到優(yōu)化聚類的個性化內(nèi)容推薦值的計算式如下:
(12)
其中,cdk為關(guān)鍵詞集合中的值,k為優(yōu)化聚類的個性化內(nèi)容關(guān)鍵詞出現(xiàn)次數(shù)。按照優(yōu)化聚類的個性化內(nèi)容推薦值,排列優(yōu)化聚類的個性化內(nèi)容的序次,并按照序次完成個性化內(nèi)容推薦。算法實現(xiàn)偽代碼如下。
輸入:內(nèi)容信息表CUser
輸出:用數(shù)字代表的內(nèi)容信息表NCUser
① 從CUser表中查詢n個類別內(nèi)容,記為U={u1,…,un}
② For allui∈U
For(j=0;j<3;j++)
分別判斷每個ui(j)的特征信息
If
ui(j)∈{0-17‖18-24‖25-34‖45-49‖50-55‖56-}
then int flagfirst:={0‖1‖2‖3‖4‖5‖6}
else ifui(j+1)∈{Q‖P}
then int flagfirst:={0‖1}
else ifui(j+2)∈{某一類別}
then int flagfirst:={0‖1‖2‖3}
end if
end if
End
為驗證個性化內(nèi)容推薦算法的功能性,設(shè)計對比實驗,對比文獻[8]電子商務(wù)平臺個性化推薦強化學習算法、文獻[10]基于用戶行為數(shù)據(jù)分析的個性化推薦算法分析與基于優(yōu)化聚類的個性化內(nèi)容推薦算法的性能。其中,文獻[8]基于強化學習中的內(nèi)容推薦和協(xié)同過濾2種推薦算法,完成電子商務(wù)平臺個性化推薦,文獻[10]基于用戶行為數(shù)據(jù)時間效應(yīng)的推薦算法,實現(xiàn)了個性化推薦算法。
實驗中使用的數(shù)據(jù)集為某數(shù)字博物館中的瀏覽數(shù)據(jù),其中部分數(shù)據(jù)信息經(jīng)過數(shù)字博物館系統(tǒng)處理導(dǎo)出,主要包括部分瀏覽游客的基礎(chǔ)信息和瀏覽內(nèi)容,并包括數(shù)字博物館中藏品的編號和游客類型等信息。導(dǎo)出獨立瀏覽游客的瀏覽記錄,并保留瀏覽游客的重復(fù)瀏覽數(shù)據(jù),利用數(shù)據(jù)清洗預(yù)處理瀏覽數(shù)據(jù),如圖1所示。
圖1 清洗預(yù)處理瀏覽數(shù)據(jù)集
統(tǒng)計數(shù)據(jù)集中的瀏覽數(shù)據(jù),得到瀏覽游客信息2487條,瀏覽藏品基礎(chǔ)信息79 551條,游客瀏覽記錄169 427條。游客類型為1的是登錄實名游客,游客類型為2的是普通未實名游客,在測試集中保留單個瀏覽游客的一次瀏覽記錄,在訓(xùn)練集中保留該游客剩余的瀏覽記錄。在負樣本中隨機抽選數(shù)字博物館中99個無關(guān)藏品的信息,與其他游客瀏覽藏品組成測試樣本100個,排列樣品順序,按照設(shè)定指標判斷排序列表的性能。
為保證推薦算法的推薦排序精度,需要衡量推薦元素與個性化內(nèi)容的相關(guān)性,并根據(jù)推薦結(jié)果的位置,判斷推薦算法的排序質(zhì)量,由此得到衡量推薦算法召回率的指標,計算式如下:
(13)
設(shè)訓(xùn)練數(shù)據(jù)集為實驗中的負樣本,則正樣本為瀏覽游客的瀏覽藏品記錄,分別根據(jù)單獨游客的瀏覽量,在未被瀏覽的藏品信息中隨機抽取,經(jīng)過15輪次的迭代后,分別按照1∶1比例的正負樣本計算采樣數(shù)據(jù)集的指標大小,如圖2所示。
圖2 正負樣本比例1∶1的個性化內(nèi)容推薦召回率
分析圖2可知,基于優(yōu)化聚類的個性化內(nèi)容推薦算法的個性化內(nèi)容推薦召回率在負樣本個數(shù)為1時最低為0.42,后隨負樣本個數(shù)增多而增多,其個性化內(nèi)容推薦召回率最高為0.62,較其他算法更趨近于1,因此,基于優(yōu)化聚類的個性化內(nèi)容推薦算法的推薦效果更精準。
設(shè)定目標推薦內(nèi)容數(shù)量為500條,分別采用文獻[8]算法、文獻[10]算法以及本文方法向目標群體進行推薦,統(tǒng)計3種方法推薦500條內(nèi)容的完成時間,以驗證不同算法的復(fù)雜度,如圖3所示。
圖3 個性化內(nèi)容推薦時間
分析圖3可知,基于優(yōu)化聚類的個性化內(nèi)容推薦算法的個性化內(nèi)容推薦時間最高為4.5 min,文獻[8]算法和文獻[10]算法的個性化內(nèi)容推薦時間高于4.5 min。因此,基于優(yōu)化聚類的個性化內(nèi)容推薦算法的復(fù)雜度更低,推薦效率更高。
為了提高個性化內(nèi)容推薦召回率,以博物館數(shù)據(jù)為樣本,研究了基于優(yōu)化聚類的個性化內(nèi)容推薦算法。經(jīng)過本文研究,確定了推薦算法與負樣本的相關(guān)性,在保證迭代次數(shù)不變的情況下,提高了個性化內(nèi)容特征屬性的提取率。今后應(yīng)繼續(xù)以提高個性化內(nèi)容推薦效果為目標,借助導(dǎo)出的推薦數(shù)據(jù)樣本生成推薦列表,分析并處理嵌入式推薦內(nèi)容的關(guān)系特征。