宋梅青
摘 要:[目的/意義]在高維數(shù)據(jù)環(huán)境下,推薦的精準度和實時性存在相互制約的現(xiàn)象。如何在精準度與實時性之間取得平衡,實現(xiàn)對推薦質(zhì)量的有效控制是值得研究的問題。[方法/過程]本文首先分析了高維數(shù)據(jù)環(huán)境的成因及其對推薦質(zhì)量的影響,在此基礎(chǔ)上構(gòu)建了一種個性化推薦質(zhì)量控制模型,該模型先評估推薦質(zhì)量在精準度和實時性兩個方面的損失,再結(jié)合應(yīng)用環(huán)境,得到相應(yīng)的質(zhì)量控制策略。[結(jié)果/結(jié)論]實驗分析的結(jié)果證明該模型可以在高維數(shù)據(jù)環(huán)境下實現(xiàn)對推薦質(zhì)量的有效控制,讓推薦系統(tǒng)可以更好地適應(yīng)不同的應(yīng)用環(huán)境。
關(guān)鍵詞:高維數(shù)據(jù)環(huán)境;大數(shù)據(jù);個性化推薦;推薦質(zhì)量;控制;模型;應(yīng)用環(huán)境
DOI:10.3969/j.issn.1008-0821.2019.11.003
〔中圖分類號〕G202 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)11-0023-07
Abstract:[Purpose/Significance]The accuracy and the real-time performance of recommendation exist mutual restraint under high dimensional data environment.How to achieve the balance between accuracy and real-time performance and to realize effective control of recommendation quality are problems worth studying.[Method/Process]At first,the causes of high dimensional data environment and its affects to recommendation quality were analyzed.On this basis,a quality control model of personalized recommendation was constructed.This model first assessed the loss of recommendation quality from two aspects of accuracy and real-time performance and then combined with the application environments to get the corresponding quality control strategies.[Result/Conclusion]The result of experimental analysis illustrated that the model was able to realize effective control of recommendation quality under high dimensional data environment,so that personalized recommendation system could better adapt to different application environments.
Key words:high dimensional data environment;big data;personalized recommendation;recommendation quality;control;model;application environment
個性化推薦技術(shù)在電子商務(wù)、社交、廣告和新聞領(lǐng)域都取得了商業(yè)上的成功,受到眾多學者的關(guān)注。精準度和實時性是個性化推薦質(zhì)量的兩個核心指標,推薦的精準度越高、實時性越強,就表示推薦質(zhì)量越好。大數(shù)據(jù)時代的來臨,高維數(shù)據(jù)環(huán)境對推薦系統(tǒng)來說已經(jīng)成為常態(tài)。在高維數(shù)據(jù)環(huán)境下,個性化推薦的精準度和實時性存在相互制約的現(xiàn)象,即:在追求更高精準度的同時,其推薦實時性往往會下降,反之如果想實現(xiàn)更高實時性則精準度也會受到影響。因此,當應(yīng)用環(huán)境變化需要調(diào)節(jié)推薦的精準度或者實時性時,就必須在它們兩者之間取得一個平衡,不能為了提升一個推薦質(zhì)量指標,而導致另一個推薦質(zhì)量指標的大幅下降,這樣系統(tǒng)的推薦質(zhì)量是無法保證的。由此,本文提出一種面向高維數(shù)據(jù)環(huán)境的個性化推薦質(zhì)量控制模型,該模型通過對比推薦質(zhì)量在精準度和實時性兩個方面的損失,來尋找有效的推薦質(zhì)量控制策略,讓推薦系統(tǒng)可以更好地應(yīng)對不同的應(yīng)用環(huán)境。本研究不僅豐富了個性化推薦的理論體系,也為實際應(yīng)用提供借鑒。
1 相關(guān)研究
個性化推薦是通過一定的技術(shù)手段來挖掘數(shù)據(jù)中的用戶興趣,再根據(jù)用戶興趣挖掘的結(jié)果來篩選待推薦的項目,最后生成推薦集合推送給目標用戶。目前有關(guān)個性化推薦的研究中,比較有代表性的有:
1)根據(jù)內(nèi)容相似性來實現(xiàn)推薦。安悅等[1]提出一種基于內(nèi)容的熱門微話題個性化推薦算法,該算法通過對比內(nèi)容的相似性為用戶尋找感興趣的微話題,實驗結(jié)果表明該算法可以在一定程度上解決微博數(shù)據(jù)過載的問題,實現(xiàn)較好的推薦效果。王嫣然等[2]提出一種基于內(nèi)容過濾的科技文獻個性化推薦算法,該算法將訪問時間權(quán)重和文獻重要度兩種概念與內(nèi)容過濾相結(jié)合,實現(xiàn)了推薦精準度的提升。王潔等[3]先根據(jù)歷史瀏覽記錄對有相同興趣的用戶進行聚類,再通過內(nèi)容相似性挖掘?qū)ふ彝扑]項目,實驗證明該個性化推薦方法可以有效提升推薦的精準度。
2)根據(jù)社交網(wǎng)絡(luò)中的用戶關(guān)系實現(xiàn)推薦。陳婷等[4]提出一種融合社交信息的個性化推薦方法,該方法將用戶評分相似度與社交網(wǎng)絡(luò)中的信任關(guān)系兩者相結(jié)合來尋找最近鄰,結(jié)合用戶自身偏好和最近鄰的影響實現(xiàn)評分預(yù)測,實驗結(jié)果證明該算法可以提升推薦的精準度。李鑫等[5]提出了一種基于興趣圈中社會關(guān)系挖掘的個性化推薦算法,該算法將興趣圈中的社會關(guān)系與矩陣分解模型相結(jié)合,實現(xiàn)矩陣分解的優(yōu)化,實驗證明該方法在解決推薦冷啟動方面有較好的效果。Ma H等[6]將信任網(wǎng)絡(luò)與用戶評分結(jié)合,通過概率矩陣分解來優(yōu)化推薦。景楠等[7]提出了一種基于用戶社會關(guān)系的好友個性化推薦算法,該算法將用戶在社會網(wǎng)絡(luò)中的影響力和社會關(guān)系相結(jié)合實現(xiàn)推薦算法的改進。
3)利用標簽信息來改進推薦效果。陳梅梅等[8]提出了基于標簽簇的信任張量模型,再通過計算簇內(nèi)和簇間的信任強度,實現(xiàn)對傳統(tǒng)相似性計算的補充,從而改進個性化推薦的準確性??仔佬赖萚9]提出一種基于標簽權(quán)重評分的個性化推薦模型,并結(jié)合該模型對多類傳統(tǒng)推薦算法進行改進,實驗證明了該模型的有效性。李瑞敏等[10]通過分析用戶、標簽和項目之間的關(guān)系建立圖模型,在此基礎(chǔ)上將初步推薦列表與間接關(guān)聯(lián)集合進行綜合,實現(xiàn)對推薦算法的改進。
4)融合情境的個性化推薦。劉海鷗等[11]提出了一種對多種情境進行興趣建模的方法,該方法可以提升推薦的精準度。周明建等[12]用多維度建模法構(gòu)建了知識情境模型,通過計算知識情境的相似性來尋找關(guān)聯(lián)知識并實現(xiàn)推薦,實驗表明該方法提升了個性化推薦的精準度。
5)基于協(xié)同過濾的個性化推薦。杜永萍等[13]將用戶間的信任關(guān)系與評分相似性相結(jié)合來尋找最近鄰,實現(xiàn)對傳統(tǒng)協(xié)同過濾推薦算法的改進。董立巖等[14]提出一種基于時間衰減的協(xié)同過濾個性化推薦算法,該算法將遺忘曲線和記憶周期融入?yún)f(xié)同過濾推薦中,以興趣衰減函數(shù)來優(yōu)化評分相似性的判斷,實驗證明該算法可提高推薦的精準度。郭蘭杰等[15]提出一種融合社交網(wǎng)絡(luò)的協(xié)同過濾個性化推薦算法,該算法利用社交網(wǎng)絡(luò)中的朋友關(guān)系來進行評分矩陣的填充,可有效緩解數(shù)據(jù)稀疏性問題,實現(xiàn)算法的改進。郭弘毅等[16]提出一種融合社區(qū)結(jié)構(gòu)和興趣聚類的協(xié)同過濾改進算法,該算法先識別社交網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),再與用戶興趣聚類信息進行融合來共同優(yōu)化矩陣分解模型,實驗證明該算法提升了推薦的精準度。
總體來看,目前針對個性化推薦的研究中,無論是優(yōu)化相似性的度量方法,還是改進最近鄰的查找流程,或是優(yōu)化矩陣降維的方法等等,其改進的思路都是通過對推薦算法的不同環(huán)節(jié)進行優(yōu)化改進來提升推薦質(zhì)量。大數(shù)據(jù)時代,推薦系統(tǒng)經(jīng)常面對高維的數(shù)據(jù)環(huán)境,高維數(shù)據(jù)環(huán)境下推薦精準度和推薦實時性相互制約的現(xiàn)象,會嚴重影響推薦質(zhì)量的穩(wěn)定,讓推薦系統(tǒng)無法適應(yīng)應(yīng)用環(huán)境的變化,而目前恰恰缺少對該問題解決方法的研究。由此,本文提出一種面向高維數(shù)據(jù)環(huán)境的個性化推薦質(zhì)量控制模型,為解決該問題提供參考。
2 推薦系統(tǒng)高維數(shù)據(jù)環(huán)境的形成原因
大數(shù)據(jù)時代用戶數(shù)據(jù)極大豐富,個性化推薦系統(tǒng)為了更好地感知用戶的興趣偏好,會通過不同渠道收集用戶的各類數(shù)據(jù),并將它們集中存儲起來作為推薦算法的數(shù)據(jù)源。如果這些數(shù)據(jù)源中的數(shù)據(jù)具有很高的維度,那么推薦系統(tǒng)就處在高維數(shù)據(jù)環(huán)境當中。推薦系統(tǒng)高維數(shù)據(jù)環(huán)境的形成原因主要有以下兩點:
第一,用戶數(shù)和項目數(shù)的快速增長,導致推薦系統(tǒng)主數(shù)據(jù)源的維度大幅增加。個性化推薦系統(tǒng)是通過分析用戶已有消費或評分記錄,來判斷用戶的興趣,再在用戶未消費過的項目中匹配合適的推薦項目。因此,用戶消費或者評分的歷史記錄就是推薦系統(tǒng)的主數(shù)據(jù)源。隨著用戶數(shù)和項目數(shù)的快速增長,用戶歷史消費記錄矩陣或用戶對項目的評分矩陣都會大幅擴容,形成高維數(shù)據(jù)環(huán)境。
第二,由于數(shù)據(jù)之間存在關(guān)聯(lián)關(guān)系,附屬數(shù)據(jù)源的維度也會快速增長。上文提到推薦系統(tǒng)會收集各類用戶數(shù)據(jù)作為興趣感知源。本文將歷史消費信息與評分信息以外的數(shù)據(jù)統(tǒng)稱為附屬數(shù)據(jù)源。這些附屬數(shù)據(jù)雖然來源很多,數(shù)據(jù)類型和數(shù)據(jù)格式也很復(fù)雜,但它們都有一個共同特點,就是可以根據(jù)用戶的行為軌跡進行關(guān)聯(lián)。這樣一來不同類型的用戶數(shù)據(jù)不再是相互孤立的,而是通過這種關(guān)聯(lián)關(guān)系緊密地聯(lián)系起來。因此,當主數(shù)據(jù)源的維度增加時,附屬數(shù)據(jù)也必須進行相應(yīng)擴容。比如將用戶背景信息、社交網(wǎng)絡(luò)、標簽等與歷史購買記錄或用戶評分進行融合來實現(xiàn)推薦時,當購買記錄矩陣或評分矩陣的維度增加時,與之對應(yīng)的用戶背景信息、社交網(wǎng)絡(luò)信息或者標簽信息的數(shù)據(jù)維度也在增長,這些附屬數(shù)據(jù)維度的增長速度甚至快于主數(shù)據(jù)源本身,由此進一步促使了推薦系統(tǒng)高維數(shù)據(jù)環(huán)境的形成。
3 高維數(shù)據(jù)環(huán)境對個性化推薦質(zhì)量的影響
精準度與實時性是個性化推薦質(zhì)量的兩個核心指標,以下將分別介紹高維數(shù)據(jù)環(huán)境對推薦精準度和推薦實時性的影響,最后分析了精準度與實時性在高維數(shù)據(jù)環(huán)境下相互制約的原因。
3.1 高維數(shù)據(jù)環(huán)境對推薦精準度的影響
個性化推薦是通過分析用戶行為數(shù)據(jù)或用戶背景數(shù)據(jù)等信息來判斷用戶的興趣偏好。用戶的興趣是多方面,每個方向上都可能有潛在的興趣點,要想感知這些興趣,就需要有相應(yīng)的用戶數(shù)據(jù)。總的來說,用戶興趣感知源越多,就越能從多個側(cè)面來推斷用戶的偏好。當推薦系統(tǒng)處于高維數(shù)據(jù)環(huán)境時,主數(shù)據(jù)源和附屬數(shù)據(jù)源都涵蓋了大量的有用信息,推薦系統(tǒng)可以利用不同的算法模型來挖掘用戶的興趣。從這個角度來說,高維數(shù)據(jù)環(huán)境對提升推薦精準度有正面的作用。比如推薦系統(tǒng)可以利用用戶背景數(shù)據(jù)與消費評價數(shù)據(jù)進行融合,在多個用戶背景維度上對其興趣進行細分,這樣預(yù)測出的用戶興趣的精準度會大大提高,同樣的結(jié)合項目本身的屬性或者社交網(wǎng)絡(luò)、信任關(guān)系等也可以提升推薦的精準度??偟膩碚f,高維數(shù)據(jù)環(huán)境為推薦系統(tǒng)提供了豐富的興趣感知源,為推薦精準度的提升奠定了數(shù)據(jù)基礎(chǔ)。
3.2 高維數(shù)據(jù)環(huán)境對推薦實時性的影響
推薦實時性也是推薦質(zhì)量的重要指標,當用戶訪問網(wǎng)站時,推薦系統(tǒng)必須快速地識別用戶的潛在意圖,并及時給予推薦,這樣用戶根據(jù)系統(tǒng)推薦進行進一步的選擇。如果推薦集合的計算時間太長,無法保證推薦的實時性,用戶可能跳轉(zhuǎn)到另外一個頁面,其興趣可能已經(jīng)發(fā)生轉(zhuǎn)化,或者在新的頁面下已經(jīng)沒有了推薦欄的設(shè)置,無法實現(xiàn)推薦。這樣系統(tǒng)的推薦質(zhì)量會大大下降,用戶體驗也會降低。因此,保證推薦實時性對推薦系統(tǒng)來說非常重要。在高維數(shù)據(jù)環(huán)境下,用戶興趣感知源的增加,對推薦精準度來說是利好,但是對于推薦實時性來說,會使得興趣挖掘的計算復(fù)雜度大幅提升,從而導致系統(tǒng)開銷過大,直接影響推薦系統(tǒng)的響應(yīng)。特別是將附屬數(shù)據(jù)源與主數(shù)據(jù)源進行融合挖掘時,計算復(fù)雜度的數(shù)量級會大大增加。此外,當大量用戶同時訪問時,系統(tǒng)的負擔會進一步加重,系統(tǒng)響應(yīng)時間也會延長??偟膩碚f,高維數(shù)據(jù)環(huán)境會降低推薦的實時性。
3.3 高維數(shù)據(jù)環(huán)境下精準度和實時性相互制約的原因 ?在高維數(shù)據(jù)環(huán)境下,系統(tǒng)要想改善推薦的精準度,就希望從不同角度來深入挖掘用戶的興趣偏好,這時需要調(diào)用的用戶數(shù)據(jù)會大幅增加。而調(diào)用數(shù)據(jù)的增加會使得興趣挖掘的計算量大幅提升,推薦實時性就無法保證。如果只調(diào)用很少的數(shù)據(jù)來挖掘用戶的興趣,雖然減少了計算量但無法深入感知用戶的興趣偏好,推薦精準度就很難保證,這就是造成推薦精準度和推薦實時性相互制約的原因。
推薦系統(tǒng)可以使用不同的算法來實現(xiàn)推薦,也可以通過多類型算法相互補充實現(xiàn)更高的精準度。因此,需要重點說明的是精準度與實時性的相互制約是針對整個推薦系統(tǒng)來說的。部分推薦算法通過模型的改進,可以在提高精準度的同時也提升實時性,但這只是局限在算法的層面,改進算法相對于原來的算法,在調(diào)用數(shù)據(jù)不變的情況下可以實現(xiàn)精準度與實時性的同時改進。但是,當推薦系統(tǒng)使用這種改進算法進行實際推薦時,其調(diào)用數(shù)據(jù)的越來越多,推薦實時性必然會下降。此外,還需要強調(diào)的是推薦精準度的提升不是無限的,達到局部的峰值以后會下降。
綜上,為實現(xiàn)高維數(shù)據(jù)環(huán)境下對推薦質(zhì)量的有效控制,本文提出一種個性化推薦質(zhì)量控制模型,下文將詳細介紹該模型的設(shè)計,并通過實驗分析驗證模型的有效性。
4 面向高維數(shù)據(jù)環(huán)境的個性化推薦質(zhì)量控制模型4.1 模型的詳細設(shè)計
本文提出的面向高維數(shù)據(jù)環(huán)境的個性化推薦質(zhì)量控制模型,包含6個主要步驟,具體如下:
4.1.1 對推薦系統(tǒng)的狀態(tài)進行標記
在高維數(shù)據(jù)環(huán)境下,推薦系統(tǒng)通過挖掘歷史數(shù)據(jù)中的用戶興趣來產(chǎn)生推薦,挖掘越深越耗時,但精準度會提升。放棄精準度的提升,降低挖掘深度就會節(jié)省時間,提升推薦的實時性。推薦系統(tǒng)通過調(diào)整挖掘深度來控制精準度與實時性的高低。設(shè)F={ft,0,1,2,3,…,k}為推薦系統(tǒng)處于不同挖掘深度時的狀態(tài)集合(非空集合),ft為F中的任意一個系統(tǒng)狀態(tài),ft記錄了系統(tǒng)調(diào)用的推薦算法的相關(guān)信息以及調(diào)用數(shù)據(jù)的范圍。設(shè)wft表示推薦系統(tǒng)處于狀態(tài)ft時的推薦精準度,設(shè)dft表示推薦系統(tǒng)處于狀態(tài)ft時的推薦實時性。F中的每一個的系統(tǒng)狀態(tài)分別對應(yīng)一組精準度與實時性的值。
4.1.2 計算推薦實時性
推薦實時性可以用推薦時間來反映,推薦時間越短實時性越好。然而使用推薦時間來直接表示推薦實時性不能反映算法挖掘的細節(jié)。由此,本文在衡量推薦實時性時采用算法計算量來替代推薦時間。所謂算法計算量,為推薦算法在所調(diào)用的數(shù)據(jù)中需要比對的用戶數(shù)或者項目數(shù)。在個性化推薦中,推薦時間與算法計算量成正比,即:算法計算量越大,推薦時間越長,其對應(yīng)的推薦實時性越低。反之,算法計算量越小,其推薦時間越短,相應(yīng)的推薦實時性越高。計算F中每個系統(tǒng)狀態(tài)下的推薦實時性,再將F中的系統(tǒng)狀態(tài)按照其對應(yīng)的推薦實時性從高到低順序排列,形成一個系統(tǒng)狀態(tài)列表L。設(shè)系統(tǒng)狀態(tài)為ft時的算法計算量為Qft,即推薦實時性dft就等于Qft的值。
4.1.3 確定推薦實時性的臨界值
在個性化推薦中,系統(tǒng)會根據(jù)應(yīng)用環(huán)境和用戶反饋,設(shè)置推薦實時性的臨界值。該臨界值就是推薦系統(tǒng)能夠接受的最長推薦時間,超過這個臨界值,則被認定無法實現(xiàn)即時的推薦,精準度的高低就失去了意義。由于本文采用算法計算量替代推薦時間來評價推薦實時性,所以推薦實時性的臨界值,就是算法計算量的上限值,設(shè)該上限值為B。將系統(tǒng)狀態(tài)列表L中推薦實時性超過臨界值B的系統(tǒng)狀態(tài)刪除,形成新的列表L1。
4.1.4 計算推薦精準度
計算h′ ft是為了測量其它系統(tǒng)狀態(tài)相對于基準狀態(tài)的實時性損失程度。因此,必須以Qf0為基準減去Qft,這種順序安排對應(yīng)了質(zhì)量損失的意義。先計算不同系統(tǒng)狀態(tài)下算法計算量的差值的絕對值,再判斷推薦實時性的方向系數(shù),是為了分別展示推薦實時性的變化幅度和變化方向。
當推薦實時性損失h′ ft為正數(shù)時,表示與基準狀態(tài)相比推薦實時性下降了。當h′ ft為負數(shù)時,表示與基準狀態(tài)相比推薦實時性提高了。
根據(jù)上述公式,計算列表L2中除基準狀態(tài)f0以外的其它系統(tǒng)狀態(tài)的推薦精準度損失和推薦實時性損失。
4.1.6 建立推薦質(zhì)量控制節(jié)點
將推薦精準度損失與推薦實時性損失的結(jié)果,按照列表L2中系統(tǒng)狀態(tài)的順序依次排列,可以對比不同系統(tǒng)狀態(tài)下精準度與實時性的損失程度,由此可建立推薦質(zhì)量控制節(jié)點,推薦質(zhì)量控制節(jié)點的格式如表1所示:
在個性化推薦中,系統(tǒng)都會盡量提升推薦的精準度,由于基準狀態(tài)的精準度最高,所以可以讓系統(tǒng)先以基準狀態(tài)進行推薦。當系統(tǒng)的應(yīng)用環(huán)境發(fā)生變化,需要改變推薦精準度或推薦實時性時,為保證推薦質(zhì)量的穩(wěn)定,避免單一推薦質(zhì)量指標的大幅下降,可以先設(shè)置質(zhì)量控制的目標。根據(jù)質(zhì)量控制目標的要求,找到相應(yīng)的推薦質(zhì)量控制節(jié)點。再通過推薦質(zhì)量控制節(jié)點中系統(tǒng)狀態(tài)的信息,設(shè)置算法的挖掘深度和數(shù)據(jù)調(diào)用的范圍,由此可以實現(xiàn)有效的推薦質(zhì)量控制。
4.2 仿真實驗
4.2.1 實驗說明
本次實驗以協(xié)同過濾推薦系統(tǒng)為例,對提出的個性化推薦質(zhì)量控制模型進行驗證,并完整的展示該控制模型的全過程,為其他學者使用模型提供參照。實驗中的協(xié)同過濾推薦系統(tǒng)以用戶—項目評分矩陣為主數(shù)據(jù)源,以用戶背景中的年齡數(shù)據(jù)為附屬數(shù)據(jù)源,通過將用戶年齡數(shù)據(jù)與評分數(shù)據(jù)進行融合來實施興趣挖掘。具體算法過程如下:設(shè)與目標用戶年齡差值的絕對值小于等于K的用戶,為目標用戶的同年齡段用戶。算法先將與目標用戶處于同一年齡段的用戶查找出來,作為最近鄰的備選,再在同年齡段用戶群中利用評分相似性篩選出最近鄰用戶集合,最后計算項目的推薦分數(shù),生成最終的推薦列表。實驗中K的取值不同,意味著算法挖掘深度和調(diào)用數(shù)據(jù)的不同,不同的K值對應(yīng)著個性化推薦質(zhì)量控制模型中的不同系統(tǒng)狀態(tài)。
4.2.2 數(shù)據(jù)來源
本實驗的數(shù)據(jù)來自美國明尼蘇達大學的Grouplens研究項目組提供的ml-100k數(shù)據(jù)集,該數(shù)據(jù)集中的文件u.data包含了943位用戶對1 682部電影的10萬條評分記錄,評分標準采用五分制,用戶打分越高表示用戶對該電影的滿意度越高。由u.data生成了5組訓練集和測試集。文件u.user記錄了用戶的背景信息。
4.2.3 結(jié)果分析
在實際應(yīng)用中,設(shè)定同年齡段用戶的年齡差距不宜過大,本試驗依次測試k從0~6的試驗結(jié)果。根據(jù)本文提出的個性化推薦質(zhì)量控制模型,依次計算k的取值從0~6的7個系統(tǒng)狀態(tài)下的推薦精準度與推薦實時性。
首先計算推薦實時性,本文用算法計算量替代推薦時間來評價推薦實時性。分析本實驗中的推薦算法可以發(fā)現(xiàn),在算法的相似性計算環(huán)節(jié),通過對比目標用戶與每一個潛在相似用戶之間的評分相似性程度來尋找最近鄰。因此目標用戶需要對比的潛在相似用戶數(shù)的變化直接反映了算法計算量的變化。先計算全部用戶在K取不同取值時的潛在相似用戶數(shù),再取平均值可以作為推薦實時性的值,最終的計算結(jié)果如表2所示:
根據(jù)表2中推薦實時性的計算結(jié)果可以發(fā)現(xiàn),隨著K值的增加,推薦系統(tǒng)查找潛在用戶的范圍逐漸擴大,推薦實時性逐漸下降。k=0時,推薦系統(tǒng)需要對比23.26個潛在相似用戶來實現(xiàn)推薦。k=6時,推薦需要對比的潛在用戶數(shù)增長為289.96個。本試驗設(shè)定推薦實時性的臨界值為總用戶數(shù)的30%,則臨界值為282.9。根據(jù)個性化推薦質(zhì)量控制模型,刪除k=6的狀態(tài),保留k等于0~5的6個系統(tǒng)狀態(tài)。計算這6個系統(tǒng)狀態(tài)下對應(yīng)的推薦精準度,計算結(jié)果如表3所示。
根據(jù)表3中推薦精準度的計算結(jié)果可以發(fā)現(xiàn),從當K從0增長到5的過程中,其推薦精準度剛好也是逐漸上升。根據(jù)個性化推薦質(zhì)量控制模型,以K=5的系統(tǒng)狀態(tài)為基準狀態(tài),計算其它系統(tǒng)狀態(tài)的推薦質(zhì)量在精準度和實時性兩個方面的損失,將計算結(jié)果按照推薦質(zhì)量控制節(jié)點的格式排列,結(jié)果如表4所示:
表4中,由于k=5為基準狀態(tài),所以其推薦精準度和推薦實時性的損失都為0。通過表4可以發(fā)現(xiàn),跟基準狀態(tài)相比,其它系統(tǒng)狀態(tài)的推薦實時性損失都為負值,這表示推薦實時性都提高了,與此同時推薦精準度損失都為正值,意味著推薦精準度都下降了。
按照K值從4到0的順序,將表4中推薦實時性損失的絕對值與其相應(yīng)的推薦精準度損失,繪制成圖1。
通過圖1可以發(fā)現(xiàn),k的值從4到0的變化過程中,推薦實時性提升的程度要大大高于精準度下降的程度。本實驗?zāi)M一個應(yīng)用環(huán)境來演示如何應(yīng)用推薦質(zhì)量控制節(jié)點來尋找合適的質(zhì)量控制策略。系統(tǒng)剛開始以基準狀態(tài)進行個性化推薦。假設(shè)短時間內(nèi)訪問用戶數(shù)大幅增長,系統(tǒng)需要提升推薦實時性,但是希望推薦精準度保持在基準狀態(tài)的90%以上的水平。參照表4中的推薦質(zhì)量控制節(jié)點,從
圖1 精準度與實時性的損失對比圖
k=5時的系統(tǒng)狀態(tài)到k=2時的系統(tǒng)狀態(tài),算法的計算量減少53%,推薦實時性大幅提升,而此時推薦精準度只下降了9%,符合質(zhì)量控制目標的要求。由此可以根據(jù)k=2時的系統(tǒng)狀態(tài)實施推薦。如果應(yīng)用環(huán)境進一步改變,系統(tǒng)可設(shè)定新的質(zhì)量控制目標,再和上述過程一樣找到合適的推薦質(zhì)量控制節(jié)點實施推薦,由此實現(xiàn)了對個性化推薦質(zhì)量的有效控制。
5 結(jié) 語
本文以大數(shù)據(jù)時代為背景闡述了推薦系統(tǒng)高維數(shù)據(jù)環(huán)境的形成原因,并且詳細分析了高維數(shù)據(jù)環(huán)境對個性化推薦質(zhì)量的影響。然后針對性地提出了一種個性化推薦質(zhì)量控制模型,該模型可以在高維數(shù)據(jù)環(huán)境下通過對比推薦精準度與推薦實時性的損失,形成一系列推薦質(zhì)量控制節(jié)點。再根據(jù)應(yīng)用環(huán)境的差異,選擇合適的推薦質(zhì)量控制節(jié)點。最后根據(jù)該控制節(jié)點的系統(tǒng)狀態(tài)信息,實現(xiàn)推薦系統(tǒng)的狀態(tài)切換,從而達到對推薦質(zhì)量進行有效控制的目的。未來筆者將進一步對該領(lǐng)域進行深入研究。
參考文獻
[1]安悅,李兵,楊瑞泰,等.基于內(nèi)容的熱門微話題個性化推薦研究[J].情報雜志,2014,33(2):155-160.
[2]王嫣然,陳梅,王翰虎,等.一種基于內(nèi)容過濾的科技文獻推薦算法[J].計算機技術(shù)與發(fā)展,2011,21(2):66-69.
[3]王潔,湯小春.基于社區(qū)網(wǎng)絡(luò)內(nèi)容的個性化推薦算法研究[J].計算機應(yīng)用研究,2011,28(4):1248-1250.
[4]陳婷,朱青,周夢溪,等.社交網(wǎng)絡(luò)環(huán)境下基于信任的推薦算法[J].軟件學報,2017,28(3):721-731.
[5]李鑫,劉貴全,李琳,等.LBSN上基于興趣圈中社會關(guān)系挖掘的推薦算法[J].計算機研究與發(fā)展,2017,54(2):394-404.
[6]Ma H,Yang H,Lyu M R,et al.SoRec:Social Recommendation Using Probabilistic Matrix Factorization.In:Proc.of the Intl Conf.on Information and Knowledge Management.ACM Press,2008:931-940.
[7]景楠,王建霞,許皓,等.基于用戶社會關(guān)系的社交網(wǎng)絡(luò)好友推薦算法研究[J].中國管理科學,2017,25(3):164-171.
[8]陳梅梅,薛康杰.基于標簽簇多構(gòu)面信任關(guān)系的個性化推薦算法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,(5):94-101.
[9]孔欣欣,蘇本昌,王宏志,等.基于標簽權(quán)重評分的推薦模型及算法研究[J].計算機學報,2017,40(6):1440-1552.
[10]李瑞敏,林鴻飛,閆俊.基于用戶-標簽-項目語義挖掘的個性化音樂推薦[J].計算機研究與發(fā)展,2014,51(10):2270-2276.
[11]劉海鷗,孫晶晶,蘇妍嫄,等.面向圖書館大數(shù)據(jù)知識服務(wù)的多情境興趣推薦方法[J].現(xiàn)代情報,2018,38(6):62-67,156.
[12]周明建,趙建波,李騰.基于情境相似的知識個性化推薦系統(tǒng)研究[J].計算機工程與科學,2016,38(3):569-576.
[13]杜永萍,黃亮,何明.融合信任計算的協(xié)同過濾推薦方法[J].模式識別與人工智能,2014,27(5):417-425.
[14]董立巖,王越群,賀嘉楠,等.基于時間衰減的協(xié)同過濾推薦算法[J].吉林大學學報:工學版,2017,47(4):1268-1272.
[15]郭蘭杰,梁吉業(yè),趙興旺.融合社交網(wǎng)絡(luò)信息的協(xié)同過濾推薦算法[J].模式識別與人工智能,2016,29(3):281-288.
[16]郭弘毅,劉功申,蘇波,等.融合社區(qū)結(jié)構(gòu)和興趣聚類的協(xié)同過濾推薦算法[J].計算機研究與發(fā)展,2016,53(8):1664-1672.
[17]項亮.推薦系統(tǒng)實現(xiàn)[M].北京:人民郵電出版社,2012:2-63.
[18]Pazzani M,Billsus D.Learning and Revising User Profiles:The Identification of Interesting Web Sites[J].Machine Learning,1997,(27):313-331.
(責任編輯:郭沫含)