国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web挖掘的電子商務(wù)推薦系統(tǒng)研究

2015-01-16 05:26方傳霞閆仁武
電子設(shè)計(jì)工程 2015年11期
關(guān)鍵詞:數(shù)據(jù)挖掘個性化電子商務(wù)

方傳霞,閆仁武

(江蘇科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 鎮(zhèn)江 212003)

電子商務(wù)的興起正在全世界范圍內(nèi)迅速改變傳統(tǒng)商業(yè)模式[1],越來越多的顧客在電子商務(wù)網(wǎng)站活動日益頻繁。商家若是能跟蹤用戶在網(wǎng)站上的瀏覽軌跡并進(jìn)行行為分析,讓企業(yè)更清楚掌握客戶的需求,有針對性的開展網(wǎng)上銷售。

基于Web挖掘的購物個性化推薦系統(tǒng)可以直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利完成購物過程[2]。電子商務(wù)推薦系統(tǒng)作為網(wǎng)站個性化服務(wù)之一,將Web挖掘技術(shù)應(yīng)用于商務(wù)網(wǎng)站推薦系統(tǒng)中,對用戶屬性和行為進(jìn)行學(xué)習(xí),進(jìn)而從中獲取知識信息并產(chǎn)生推薦,不僅為電子商務(wù)領(lǐng)域的海量數(shù)據(jù)提供一種有效的處理方式,而且為電子商務(wù)推薦系統(tǒng)提供更加智能化、更加自動化和更高質(zhì)量的推薦結(jié)果[3]。

1 Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用

1.1 面向電子商務(wù)Web挖掘的數(shù)據(jù)源

電子商務(wù)網(wǎng)站進(jìn)行Web挖掘時(shí),數(shù)據(jù)來源類型多、數(shù)據(jù)量大、非結(jié)構(gòu)化等特點(diǎn)。數(shù)據(jù)源主要包括:服務(wù)器日志、代理服務(wù)器端數(shù)據(jù)、Web頁面數(shù)據(jù)、頁面鏈接數(shù)據(jù)、用戶注冊信息等。通過對這些數(shù)據(jù)源進(jìn)行Web挖掘,能夠發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解用戶行為,進(jìn)行預(yù)測性分析,從而轉(zhuǎn)化為商業(yè)價(jià)值。

1.2 面向電子商務(wù)的Web挖掘技術(shù)

應(yīng)用于電子商務(wù)網(wǎng)站的Web挖掘技術(shù)主要包括關(guān)聯(lián)規(guī)則、序列模式、分類分析、聚類分析應(yīng)用等。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)交易數(shù)據(jù)中不同項(xiàng)之間的關(guān)聯(lián),從而找出用戶購買行為模式,典型的應(yīng)用就是“購物籃分析”;序列模式分析是Web日志數(shù)據(jù),發(fā)現(xiàn)用戶訪問模式,同時(shí)挖掘商品的購買順序以及時(shí)間間隔;分類分析目的是分析輸入數(shù)據(jù),通過訓(xùn)練集中數(shù)據(jù)表現(xiàn),建立分類模型,包括樸素貝葉斯、決策樹等分類算法;聚類相似瀏覽行為的用戶,提取具有相似興趣度用戶,執(zhí)行合理市場策略等。

2 電子商務(wù)的個性化推薦系統(tǒng)類型

完整的推薦系統(tǒng)一般由三部分組成[4]:收集用戶信息的行為記錄模塊、分析用戶喜好的模型分析模塊和推薦算法模塊,其中核心是推薦算法模塊。可以根據(jù)電子商務(wù)推薦系統(tǒng)采用的推薦算法不同,將其劃分不同類型的個性化推薦系統(tǒng)。

2.1 基于協(xié)同過濾的個性化推薦系統(tǒng)

傳統(tǒng)的協(xié)同過濾的電子商務(wù)個性化推薦系統(tǒng)只是對用戶購買行為之間的相似性感興趣,主要是挖掘目標(biāo)用戶和歷史用戶之間購買行為的相似性,根據(jù)相似性生成推薦結(jié)果集,它是第一代被提出并且得到廣泛應(yīng)用的個性化推薦系統(tǒng)。

基于協(xié)同過濾的個性化推薦系統(tǒng)優(yōu)點(diǎn)是能夠?yàn)橛脩敉诰虺鲂赂信d趣的商品,而無需對商品的特征進(jìn)行任何考慮,而且任何形式的商品都可以進(jìn)行推薦,例如藝術(shù)品、電影、音樂、服務(wù)等。目前協(xié)同過濾個性化推薦是應(yīng)用最廣泛的推薦算法,但這種方法也面臨多種問題,冷啟動問題、評分矩陣稀疏問題,且隨著系統(tǒng)用戶和商品數(shù)量不斷增長,系統(tǒng)性能會變差。

2.2 基于內(nèi)容的個性化推薦系統(tǒng)

基于內(nèi)容的推薦技術(shù)主要過程是:首先收集用戶愛好信息,構(gòu)建和維護(hù)用戶概要信息庫;其次,建立清晰、完整的用戶愛好模型;再對文本集內(nèi)的文本進(jìn)行分詞、詞頻統(tǒng)計(jì)、加權(quán)等過程從而生成每一個文本的文本向量;然后,計(jì)算用戶向量和文本向量之間的相關(guān)系數(shù),將相關(guān)系數(shù)高的文本發(fā)送給該用戶的模型用戶;最后,根據(jù)用戶的反饋信息進(jìn)行修正,以提高推薦信息的效率和質(zhì)量[5]。

基于內(nèi)容的個性化推薦系統(tǒng)可以根據(jù)用戶和商品配置文件進(jìn)行推薦,能夠處理冷啟動問題;推薦新商品和未流行的商品,發(fā)現(xiàn)隱藏的信息,不會受到評分矩陣稀疏問題影響;通過列出推薦項(xiàng)目的內(nèi)容特征,合理解釋推薦的理由,具有良好的用戶體驗(yàn)。該推薦系統(tǒng)受到信息獲取技術(shù)的制約,要求信息流是機(jī)器可以分析的形式,對機(jī)器識別的要求很高,且難度較大;基于內(nèi)容推薦易產(chǎn)生重復(fù)推薦問題,且不易發(fā)現(xiàn)新的信息;信息識別的局限性,對商品信息的品質(zhì)、風(fēng)格無法進(jìn)行準(zhǔn)確的區(qū)分。

2.3 基于網(wǎng)絡(luò)結(jié)構(gòu)的個性化推薦系統(tǒng)

基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法是周濤首次提出,該算法不用考慮用戶和項(xiàng)目的內(nèi)容特征,而只是把它們作為抽象的節(jié)點(diǎn),首先將目標(biāo)用戶選擇過的每個項(xiàng)目產(chǎn)品上設(shè)定初始資源,并將初始資源平均分配給項(xiàng)目的鄰居用戶,再將該用戶的平均資源分配給選擇過的所有項(xiàng)目,最后讓每個項(xiàng)目都獲得最終資源,并將項(xiàng)目的最終資源按大小排序且推薦前L個給目標(biāo)用戶,即完成推薦[6]。

基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法是電子商務(wù)中個性化推薦系統(tǒng)的一個全新的研究方向,然而同樣面臨冷啟動問題。

2.4 混合個性化推薦系統(tǒng)

協(xié)同過濾、基于內(nèi)容以及基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法在實(shí)際電子商務(wù)網(wǎng)站應(yīng)用過程中都有各自的優(yōu)缺點(diǎn),因而在實(shí)際的推薦系統(tǒng)中需要結(jié)合不同的推薦算法組成混合推薦算法,提高推薦系統(tǒng)的性能。常見的混合推薦算法是將基于內(nèi)容的推薦與協(xié)同過濾推薦組合。

2.5 基于Web挖掘技術(shù)的個性化推薦系統(tǒng)

Web挖掘技術(shù)根據(jù)挖掘?qū)ο蟮牟煌煞譃?類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘?;赪eb挖掘技術(shù)的個性化推薦系統(tǒng)是通過瀏覽器的方式進(jìn)行商品推薦,方便用戶體驗(yàn),增加推薦可信度。將Web挖掘技術(shù)與電子商務(wù)的個性化推薦系統(tǒng)結(jié)合,生成完全自動化的推薦,讓用戶體驗(yàn)完全個性化的購物體驗(yàn),是電子商務(wù)推薦系統(tǒng)發(fā)展的必然趨勢。

3 基于Web挖掘技術(shù)在電子商務(wù)的個性化推薦系統(tǒng)研究

3.1 傳統(tǒng)的電子商務(wù)推薦系統(tǒng)應(yīng)用模型

集成Web挖掘的電子商務(wù)應(yīng)用推薦系統(tǒng)模型如圖1[7]所示。

圖1 傳統(tǒng)的電子商務(wù)推薦系統(tǒng)模型Fig.1 Traditional model of e-commerce recommendation system

基于Web挖掘的電子商務(wù)系統(tǒng)模型中,主要是由業(yè)務(wù)數(shù)據(jù)、用戶與站點(diǎn)互動所產(chǎn)生的數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)分析組成。業(yè)務(wù)數(shù)據(jù)是描述產(chǎn)品實(shí)體的數(shù)據(jù)信息,包含產(chǎn)品或服務(wù)的詳細(xì)信息。

第二個要素是用戶活動信息數(shù)據(jù),包括用戶的選擇,訪問方式,用戶偏好,產(chǎn)品或朋友轉(zhuǎn)發(fā),特定頁面或鏈接的點(diǎn)擊率,用戶的特性等詳細(xì)信息。將所有收集到的信息存儲到數(shù)據(jù)庫或數(shù)據(jù)倉庫;同時(shí)需要收集商品的評分頁面數(shù)據(jù),將這些數(shù)據(jù)作為分析引擎的一個輸入,挖掘出用戶可能喜歡的其他物品數(shù)據(jù)集,提交數(shù)據(jù)集給分析引擎,從而分析用戶的行為。數(shù)據(jù)分析模塊主要負(fù)責(zé)數(shù)據(jù)分析、決策支持等。在SQL Server中,包含兩種數(shù)據(jù)挖掘算法:Microsoft決策樹和Microsoft聚集,且能夠與MS-Excel結(jié)合提供高效的數(shù)據(jù)挖掘方案。同樣Oracle數(shù)據(jù)庫也提供數(shù)據(jù)挖掘方案。整個分析的結(jié)果信息返回給用戶,包括產(chǎn)品成交次數(shù)、產(chǎn)品服務(wù)的知名度,用戶最佳選擇等。

3.2 改進(jìn)的電子商務(wù)推薦系統(tǒng)模塊研究

現(xiàn)階段電子商務(wù)個性化推薦系統(tǒng)對實(shí)時(shí)性能要求高,可以將推薦系統(tǒng)模塊分為在線和離線兩部分[8],系統(tǒng)基本的結(jié)構(gòu)如圖2所示。

圖2 改進(jìn)的推薦系統(tǒng)模型Fig.2 Improved model of recommender system

1)離線模塊

主要工作是生成各種頁面和用戶的聚類結(jié)果,生成關(guān)聯(lián)分析的頻繁項(xiàng)集,由數(shù)據(jù)預(yù)處理和Web數(shù)據(jù)挖掘組成。離線挖掘的結(jié)果集直接為在線模塊提供支持。數(shù)據(jù)預(yù)處理和Web挖掘耗時(shí)較長,無法滿足商務(wù)系統(tǒng)的實(shí)時(shí)性要求,故而將其放在離線部分。

2)在線模塊

在線模塊主要是動態(tài)實(shí)時(shí)地實(shí)現(xiàn)推薦引擎的過程,并且將推薦引擎產(chǎn)生的頻繁項(xiàng)集添加到離線模塊中。結(jié)合離線模塊,提高個性化推薦的實(shí)時(shí)響應(yīng)速度和伸縮能力,以及保證推薦系統(tǒng)提供給用戶最優(yōu)質(zhì)的推薦服務(wù)。

3.3 構(gòu)建多模塊推薦個性化模型研究

在電子商務(wù)網(wǎng)站的實(shí)際應(yīng)用中,不同的情形下,用戶所需的推薦服務(wù)是不同的。注冊用戶登錄網(wǎng)站首頁時(shí),需要推薦模塊根據(jù)用戶歷史記錄等,推薦用戶感興趣的熱門商品或者廣告信息;在很多電子商務(wù)網(wǎng)站中,交易完成后,用戶可以對商品的質(zhì)量、賣家服務(wù)、物流速度等滿意度進(jìn)行評價(jià),當(dāng)用戶提交商品評價(jià)信息時(shí),調(diào)用協(xié)同過濾推薦,更新“用戶和項(xiàng)目評分”矩陣;用戶在瀏覽商品或者站點(diǎn)搜索自己想要的商品,啟用關(guān)聯(lián)推薦模塊進(jìn)行推薦,且能夠進(jìn)行交叉銷售。電子商務(wù)個性化推薦系統(tǒng)中,需要集成多種推薦模塊類型來滿足不同的應(yīng)用需求,為用戶提供更高質(zhì)量的推薦服務(wù),圖3為多模塊系統(tǒng)框架流程所示。

圖3 多模塊推薦系統(tǒng)框架Fig.3 Multi-module frame of recommender system

3.4 基于隱私保護(hù)的Web挖掘個性化推薦研究

Web挖掘的目標(biāo)是從數(shù)據(jù)集中提取準(zhǔn)確的信息滿足商業(yè)的需要,也就決定著這個過程與客戶密切相關(guān),使得Web用戶與管理者就數(shù)據(jù)隱私問題發(fā)生分歧。國外的立法和監(jiān)管機(jī)構(gòu)為保護(hù)用戶隱私問題做出了很多努力,同樣很多研究學(xué)者也在研究新的技術(shù)去實(shí)現(xiàn)保護(hù)用戶隱私。W3C已開啟了“隱私首選平臺(Platform for Privacy Preferences,P3P)”項(xiàng)目,提出協(xié)議來解決Web用戶與站點(diǎn)管理者的爭端。

為保護(hù)用戶隱私數(shù)據(jù),基于隱私保護(hù)的Web挖掘可分為兩個途徑:隨機(jī)擾亂方法和安全多方計(jì)算方法。隨機(jī)擾亂適用于對單個數(shù)據(jù)記錄和密集型數(shù)據(jù)集合進(jìn)行隨機(jī)變換;安全多方計(jì)算分為安全和計(jì)算方法、安全并集求法、安全計(jì)算交集大小方法和安全數(shù)量積計(jì)算方法。在Web挖掘的電子商務(wù)個性化中,添加隱私保護(hù)模塊的是為了防止用戶機(jī)密信息外泄,同時(shí)要求基于屬性的統(tǒng)計(jì)保持不變,不會影響Web挖掘結(jié)果。Agrawal Srikant提出一種建立決策樹分類實(shí)施對源數(shù)據(jù)中隱私信息進(jìn)行擾動[9];Evfimievski etal提出一種交換數(shù)據(jù)的方式進(jìn)行關(guān)聯(lián)規(guī)則分析以達(dá)到保護(hù)隱私的目的。基于隱私保護(hù)的數(shù)據(jù)挖掘流程如圖4所示。

圖4 隱私保護(hù)的數(shù)據(jù)挖掘基本流程Fig.4 Basic flow of privacy protection based on web mining

如今,數(shù)據(jù)集基本上都是分布于不同的環(huán)境和不同地理位置,挖掘這樣數(shù)據(jù)集,必須使用基于分布式的Web數(shù)據(jù)挖掘算法獲得有效數(shù)據(jù)。在分布式數(shù)據(jù)挖掘中,處于不同地理位置的隱私數(shù)據(jù)更易被泄露。即使在某一環(huán)境中刪除或者干擾敏感信息,利用這些不全面的數(shù)據(jù)信息與用戶相關(guān)的其他數(shù)據(jù)庫鏈接就有可能獲取用戶的敏感信息,即當(dāng)分布式數(shù)據(jù)合并使用。電子商務(wù)網(wǎng)站中用戶信息涉及到詳細(xì)住址、電話號碼、郵箱、銀行卡信息等隱私數(shù)據(jù),如何在電子商務(wù)平臺進(jìn)行基于隱私保護(hù)的Web挖掘成為熱點(diǎn)問題。

3.5 注冊用戶與非注冊用戶推薦策略

Web用戶分為注冊用戶和非注冊用戶,其相關(guān)推薦策略也有所不同:

1)對非注冊用戶分析是Web使用挖掘技術(shù)的一個難點(diǎn)。比如未注冊的用戶,瀏覽站點(diǎn)的頁面統(tǒng)計(jì)信息、駐留時(shí)間;是否有后續(xù)訪問行為;是否最終轉(zhuǎn)換為注冊用戶。未注冊用戶缺乏唯一標(biāo)示,可以根據(jù)IP地址前三位加上瀏覽器信息來大致定位未注冊用戶,經(jīng)實(shí)驗(yàn)可以精確定位80%以上的用戶[10]。采用協(xié)同過濾,將非注冊用戶聚類,選取權(quán)值較高的物品,推薦給用戶。

2)注冊用戶則根據(jù)用戶當(dāng)前狀態(tài)以及歷史記錄向用戶做推薦。首先對用戶的訪問日志進(jìn)行分析,從而得到用戶當(dāng)前訪問的事務(wù)序列,取出當(dāng)前訪問事務(wù)中后N項(xiàng)與各個聚類中心進(jìn)行比較并求出它與每個中心的相似度,最后將相似度值最小的類確定為該用戶所屬的類。由推薦引擎結(jié)合前面挖掘的結(jié)果集與當(dāng)前用戶的歷史訪問記錄進(jìn)行匹配,并根據(jù)計(jì)算結(jié)果對頁面進(jìn)行排序,預(yù)測用戶將要訪問的頁面,最后將預(yù)測的結(jié)果頁面的鏈接推薦給用戶。

4 結(jié)束語

電子商務(wù)網(wǎng)站是交流和推廣企業(yè)形象的一個關(guān)鍵渠道,本文介紹在電子商務(wù)典型Web挖掘技應(yīng)用,電子商務(wù)個性化推薦系統(tǒng)類型以及傳統(tǒng)的電子商務(wù)推薦系統(tǒng)模型和改進(jìn)推薦系統(tǒng)模型,建立多模塊的挖掘系統(tǒng)以及將數(shù)據(jù)隱私保護(hù)加入到基于Web挖掘的電子商務(wù)推薦系統(tǒng)中,針對注冊用戶和非注冊用戶采用不同的推薦策略。在電子商務(wù)和Web挖掘技術(shù)迅速發(fā)展的今天,將Web挖掘技術(shù)與電子商務(wù)網(wǎng)站更有效的融合,提高更高效的Web挖掘模型,將是未來電子商務(wù)發(fā)展的一個重要方向。

[1]毛國君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005.

[2]程宏水.網(wǎng)絡(luò)數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站設(shè)計(jì)的應(yīng)用[J].中山大學(xué)研究生學(xué)刊,2007,28(1):107-114.CHEN Hong-shui.Study on the design of e-commerce website based on web data mining[J].Sun Yat-sen Graduate Studies Journal,2007, 28(1):107-114.

[3]鮮學(xué)豐,楊元峰.一種基于Web數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)[J].電腦知識與技術(shù),2007(16):1046-1047,1058.XIAN Xue-feng,YANG Yuan-feng.An e-commerce recommendation system based on web data mining[J].Computer knowledge and technology,2007(16):1046-1047,1058.

[4]劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.LIU Jian-guo,ZHOU Tao,WANG Bing-hong.Research progress of personalized recommendation system[J].Progress in Natural Science,2009,19(1):1-15.

[5]黃文榮,周長征.基于內(nèi)容和協(xié)作的推薦系統(tǒng)的研究[J].計(jì)算機(jī)時(shí)代,2009(2):5-7,10.HUANG Wen-rong,ZHOU Chang-zheng.Reasearh of recommender system based on content and collaboration[J].Computer era,2009(2):5-7,10.

[6]Zhou T,RenJ,MedoM,et al.Bipartite network projection and personal recommendation[J].Phys Rev E, 2007,76(4):1-7.

[7]Siddiqui A T,Aljahdali S.Web mining techniques in ecommerce applications[J].International Journal of Computer Applications, 2013, 69(8):39-43.

[8]程德理,張新玲,黃立平.基于數(shù)據(jù)挖掘的個性化電子商務(wù)模型設(shè)計(jì)[J].情報(bào)雜志,2006,25(8):8-10.CHENG De-li,ZHANG Xin-ling,HUANG Li-ping.Design of personalization e-commerce model based on data mining[J].Journal of Infomation,2006,25(8):8-10.

[9]Rakesh Agrawal,Ramakrishnan Srikant.Privacy-preserving data mining[R].IBM Almaden Research Center,2006.

[10]張喆.電子商務(wù)公司W(wǎng)eb數(shù)據(jù)挖掘研究[D].北京:北京交通大學(xué),2011.

猜你喜歡
數(shù)據(jù)挖掘個性化電子商務(wù)
2025年我國農(nóng)村電子商務(wù)交易額達(dá)到2.8萬億元
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
堅(jiān)持個性化的寫作
《電子商務(wù)法》如何助力直銷
新聞的個性化寫作
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
上汽大通:C2B個性化定制未來
關(guān)于加快制定電子商務(wù)法的議案
跨境電子商務(wù)中的跨文化思考
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用