童啟 劉強(qiáng) 許賽華 胡益廣
【摘 要】以大數(shù)據(jù)時(shí)代為背景,改變傳統(tǒng)推薦系統(tǒng)的設(shè)計(jì)思路,給出一個(gè)“相關(guān)物品”智能推薦系統(tǒng)體系結(jié)構(gòu)。將用戶(hù)即時(shí)購(gòu)買(mǎi)需求和歷史偏好相結(jié)合,提出一種改進(jìn)的基于粗糙集的屬性約簡(jiǎn)算法,用于數(shù)據(jù)預(yù)處理階段提取用戶(hù)實(shí)時(shí)需求商品類(lèi)的特征,在線分析階段采用引入興趣域的聚類(lèi)算法挖掘用戶(hù)實(shí)時(shí)關(guān)注商品的相似商品集,離線用協(xié)同過(guò)濾推薦挖掘相關(guān)商品集,將在線部分與離線部分的相關(guān)商品集融合,按照點(diǎn)擊率預(yù)估對(duì)集合進(jìn)行排序,形成推薦,以解決推薦系統(tǒng)在實(shí)時(shí)性、擴(kuò)展性、智能性和實(shí)時(shí)性與精準(zhǔn)平衡性方面存在的問(wèn)題。
【關(guān)鍵詞】推薦系統(tǒng);粗糙集;數(shù)據(jù)挖掘
【中圖分類(lèi)號(hào)】TP18;TP311.52【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2019)12-0079-02
信息過(guò)載時(shí)代,智能推薦系統(tǒng)在電子商務(wù)領(lǐng)域的地位不斷提高,它能最大化地體現(xiàn)電子商務(wù)網(wǎng)站的優(yōu)勢(shì)。電子商務(wù)智能推薦系統(tǒng)是通過(guò)一定方法幫助人們找到自己需要的物品,它涉及的技術(shù)很多,其核心是推薦算法。隨著電子商務(wù)系統(tǒng)規(guī)模的擴(kuò)大,目前電子商務(wù)推薦系統(tǒng)在準(zhǔn)確率、多樣性、實(shí)時(shí)性等方面存在很多問(wèn)題。文章以物品—物品的角度,將多種推薦算法融合,構(gòu)建面向電子商務(wù)的推薦系統(tǒng)。
1 推薦算法在應(yīng)用中存在的問(wèn)題
1.1 實(shí)時(shí)性和擴(kuò)展性問(wèn)題
大部分推薦算法是在小數(shù)量級(jí)上評(píng)估的。而隨著電子商務(wù)的發(fā)展,大型購(gòu)物網(wǎng)站是千萬(wàn)級(jí)顧客、百萬(wàn)級(jí)商品的大數(shù)據(jù)集。面對(duì)這樣的大數(shù)據(jù)集,算法會(huì)遭受?chē)?yán)峻的性能和計(jì)算量問(wèn)題,達(dá)不到實(shí)時(shí)性、擴(kuò)展性的要求。例如,采用傳統(tǒng)協(xié)同過(guò)濾來(lái)產(chǎn)生推薦,最壞的情況是O(M×N)(其中M是用戶(hù)數(shù)量,N是物品數(shù)量),如果用戶(hù)或物品數(shù)量級(jí)不大,算法的執(zhí)行也接近于O(M+N)。解決此問(wèn)題的思路是可以根據(jù)用戶(hù)實(shí)時(shí)關(guān)注的物品類(lèi)關(guān)鍵屬性挖掘相似物品集合,使算法的在線計(jì)算規(guī)模與用戶(hù)數(shù)量無(wú)關(guān),僅與用戶(hù)實(shí)時(shí)購(gòu)買(mǎi)需求的物品大類(lèi)數(shù)量有關(guān)。
1.2 智能化問(wèn)題
大部分的推薦系統(tǒng)僅抓住了用戶(hù)在過(guò)去一段時(shí)間內(nèi)的行為偏好,并沒(méi)有對(duì)用戶(hù)當(dāng)前行為的短期意圖進(jìn)行考慮,而這些意圖正是最能反映用戶(hù)當(dāng)前需求的一些信息。傳統(tǒng)的推薦系統(tǒng)并未能很好地解決智能化推薦的問(wèn)題。解決此問(wèn)題的思路是將用戶(hù)的歷史偏好信息與在線的實(shí)時(shí)購(gòu)買(mǎi)需求信息相結(jié)合并推薦給用戶(hù),力求給用戶(hù)最需要的推薦,解決智能化問(wèn)題。
1.3 實(shí)時(shí)性與推薦滿(mǎn)意度平衡問(wèn)題
根據(jù)用戶(hù)在線行為的短期意圖做推薦時(shí),大部分算法需要處理大量數(shù)據(jù)不斷迭代,執(zhí)行時(shí)間較長(zhǎng),而執(zhí)行快速的算法在用戶(hù)滿(mǎn)意度指標(biāo)上又有欠缺,因此算法在實(shí)時(shí)性與滿(mǎn)意度兩個(gè)方面無(wú)法找到一個(gè)平衡點(diǎn)。解決此問(wèn)題的思路是采用在線部分和離線部分,分別挖掘相似物品集合,然后按權(quán)重融合,再進(jìn)行推薦。
2 相關(guān)物品思路的推薦引擎架構(gòu)
架構(gòu)包括離線處理和在線分析兩個(gè)部分。離線處理部分根據(jù)用戶(hù)的信息如年齡、性別、職業(yè)、用戶(hù)的歷史購(gòu)物信息及歷史物品的評(píng)價(jià)信息,采用協(xié)同過(guò)濾算法挖掘用戶(hù)關(guān)注物品的相似物品集合。在線部分考慮用戶(hù)實(shí)時(shí)性需求,在服務(wù)器日志中收集用戶(hù)在線行為,如瀏覽的網(wǎng)頁(yè)信息、收藏的物品信息,研究用戶(hù)對(duì)物品的興趣度,接著對(duì)感興趣物品類(lèi)信息進(jìn)行數(shù)據(jù)預(yù)處理時(shí),采用改進(jìn)的基于粗糙集屬性約簡(jiǎn)算法,提取用戶(hù)實(shí)時(shí)關(guān)注的物品特征,如物品的款式、價(jià)格、顏色、購(gòu)買(mǎi)人數(shù)、評(píng)價(jià)分等,抽取出特征后采用混合數(shù)據(jù)聚類(lèi)標(biāo)簽算法挖掘用戶(hù)實(shí)時(shí)購(gòu)買(mǎi)需求的相似物品集合。兩類(lèi)集合按照權(quán)重進(jìn)行融合,如果用戶(hù)的瀏覽帶無(wú)目的性或者已經(jīng)完成購(gòu)物,則以離線部分的相似物品集合為主,如果用戶(hù)的瀏覽行為有明確的購(gòu)物目標(biāo),則以在線部分的相似物品集合為主。最后用決策樹(shù)算法對(duì)相似物品集合按照點(diǎn)擊率預(yù)估進(jìn)行排序,產(chǎn)生推薦。
3 推薦系統(tǒng)設(shè)計(jì)及算法研究
3.1 隱式獲取數(shù)據(jù)
推薦算法分析設(shè)計(jì)的基礎(chǔ)是用戶(hù)行為數(shù)據(jù),在線部分通過(guò)隱式獲取法,如獲取用戶(hù)瀏覽網(wǎng)頁(yè)的行為和內(nèi)容,包括瀏覽、查詢(xún)的物品及某物品瀏覽的次數(shù)、頻率、停留時(shí)間等,以及行為操作(收藏、加入購(gòu)物車(chē)、下單等)。以上這些行為反映了用戶(hù)對(duì)物品有不同興趣,可以將用戶(hù)興趣與行為的聯(lián)系用公式(1)表達(dá)。其中,c為消費(fèi)者用戶(hù),i為物品,Ab(c)為用戶(hù)c操作物品的行為集合,fb為用戶(hù)行為b所代表的興趣權(quán)重,pc,i為用戶(hù)c對(duì)物品i的綜合興趣度。計(jì)算pc,i得出用戶(hù)在線狀態(tài)感興趣的物品集合。
■=∑ fb (1)
3.2 提取物品關(guān)鍵屬性
對(duì)感興趣物品的屬性進(jìn)行數(shù)據(jù)預(yù)處理。一是連續(xù)屬性離散化,如商品的價(jià)格屬性,可以按規(guī)則進(jìn)行離散化,區(qū)分為高、中、低。二是對(duì)不完備信息系統(tǒng)進(jìn)行補(bǔ)齊處理,采用粗糙集中數(shù)據(jù)不可分辨關(guān)系理論來(lái)處理或直接刪除數(shù)據(jù)。數(shù)據(jù)挖掘的結(jié)果很大程度上依賴(lài)于預(yù)處理的效果。
屬性約簡(jiǎn)是指在保證數(shù)據(jù)劃分一致的前提下,通過(guò)去除不需要的屬性,以簡(jiǎn)化大數(shù)據(jù)環(huán)境下的復(fù)雜程度,降低計(jì)算維度。因?yàn)榇植诩碚摬恍枰闰?yàn)信息,可以采用基于差別矩陣的屬性約簡(jiǎn)算法提取用戶(hù)感興趣物品的關(guān)鍵屬性。用等價(jià)類(lèi)代替單個(gè)元素構(gòu)造差別矩陣,將差別矩陣與屬性區(qū)分力相融合,提高算法效率。
3.3 根據(jù)物品關(guān)鍵屬性運(yùn)用混合數(shù)據(jù)聚類(lèi)標(biāo)簽算法挖掘相似物品集
基于“相關(guān)物品”推薦的思想,即在用戶(hù)對(duì)物品i感興趣時(shí),給用戶(hù)推薦和i相似的物品,在線挖掘考慮用戶(hù)的實(shí)時(shí)購(gòu)物需求。根據(jù)屬性約簡(jiǎn)提取的物品特征屬性對(duì)物品進(jìn)行聚類(lèi)。在聚類(lèi)算法中引入物品特征屬性興趣域,采用融合興趣域的混合數(shù)據(jù)聚類(lèi)標(biāo)簽算法。根據(jù)物品特征屬性的范圍可以建立物品特征屬性興趣域Dj。在Dj中每個(gè)屬性取值都有一個(gè)范圍,相似物品數(shù)據(jù)集中每個(gè)屬性與Dj中對(duì)應(yīng)屬性范圍的關(guān)聯(lián)用dij表示,當(dāng)混合數(shù)據(jù)集的屬性值在范圍內(nèi),dij=1,否則dij=0。公式(2)中,數(shù)據(jù)集Si與物品特征屬性興趣域Dj關(guān)聯(lián)度的權(quán)值用Cij表示。公式(3)中,fij為數(shù)據(jù)集關(guān)于興趣域的隸屬度,其中N為物品特征屬性個(gè)數(shù)。fij取值范圍是0到1,fij值越大,說(shuō)明Si歸屬Dj的集成度越高,反之,fij值越小,Si歸屬Dj的集成度越低。
Cij=∑dij(2)
fij=■(3)
采用K-prototypes算法對(duì)物品特征屬性信息進(jìn)行聚類(lèi)處理,構(gòu)建物品特征屬性興趣域。通過(guò)公式計(jì)算dij和fij,對(duì)混合數(shù)據(jù)集數(shù)值聚類(lèi)標(biāo)簽輸出。引入物品特征屬性興趣域提升了聚類(lèi)結(jié)果對(duì)用戶(hù)的針對(duì)性。此外,可以對(duì)關(guān)鍵屬性設(shè)置感興趣的權(quán)重,進(jìn)一步提高推薦的滿(mǎn)意度。在線分析部分主要是用于滿(mǎn)足用戶(hù)實(shí)時(shí)需求的推薦,由于受到物品關(guān)鍵屬性特征提取能力的限制,所以很難滿(mǎn)足推薦的新穎性和驚喜度。
3.4 在線物品集與離線物品集融合,排序產(chǎn)生推薦
離線部分采用基于用戶(hù)的協(xié)同過(guò)濾算法產(chǎn)生相似物品推薦集。離線部分是在線部分的補(bǔ)充,為用戶(hù)提供新的興趣推薦。融合時(shí)在用戶(hù)屬性中加入一個(gè)表示行為狀態(tài)的字段,如“1”表示無(wú)需求瀏覽,“2”表示購(gòu)物中,“3”表示購(gòu)物后3種狀態(tài)值。根據(jù)狀態(tài)值按不同的權(quán)重對(duì)在線物品集和離線物品集進(jìn)行融合。
接下來(lái)是對(duì)融合的候選物品集進(jìn)行排序。因?yàn)橥扑]系統(tǒng)的不同評(píng)測(cè)指標(biāo)和用戶(hù)的不同需求狀態(tài),物品與用戶(hù)的相關(guān)度會(huì)不同,因此本文重點(diǎn)考慮用戶(hù)的反饋,使用用戶(hù)對(duì)推薦物品的點(diǎn)擊率作為指標(biāo)來(lái)對(duì)物品進(jìn)行排序。點(diǎn)擊率預(yù)估問(wèn)題可以轉(zhuǎn)化為傳統(tǒng)的兩類(lèi)分類(lèi)問(wèn)題??紤]電子商務(wù)網(wǎng)站物品特征屬性少的情況,使用決策樹(shù)的算法,可以發(fā)揮決策樹(shù)算法解決非線性問(wèn)題的優(yōu)勢(shì)。
4 結(jié)論
文章提出“相關(guān)物品”思路的電子商務(wù)推薦系統(tǒng)架構(gòu)。在線部分的計(jì)算僅需考慮用戶(hù)實(shí)時(shí)關(guān)注的商品類(lèi)別中商品數(shù)量,以解決大數(shù)據(jù)環(huán)境下推薦的實(shí)時(shí)性、擴(kuò)展性問(wèn)題;按照用戶(hù)狀態(tài)行為的屬性值對(duì)兩個(gè)商品集進(jìn)行融合,使得系統(tǒng)能夠同時(shí)滿(mǎn)足用戶(hù)的實(shí)時(shí)需求和對(duì)新物品的興趣,以解決推薦的智能性問(wèn)題;在線分析與離線推薦相結(jié)合,以解決實(shí)時(shí)性與精準(zhǔn)性的平衡問(wèn)題。需要進(jìn)一步研究降低精簡(jiǎn)屬性集對(duì)決策效能的影響和數(shù)據(jù)聚類(lèi)標(biāo)簽算法中引入的興趣域容忍度參數(shù)對(duì)推薦正確率的影響。
參 考 文 獻(xiàn)
[1]鄧愛(ài)林.機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘在個(gè)性化推薦系統(tǒng)中的應(yīng)用[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2013(9).
[2]蘇慶等.改進(jìn)模糊劃分聚類(lèi)的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)工程與應(yīng)用,2019(5).
[3]雷曼等.基于標(biāo)簽權(quán)重的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)應(yīng)用,2019(3).