国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

客戶網(wǎng)購(gòu)行為分析及預(yù)測(cè)引擎研究

2015-12-21 15:34馬月坤劉鵬飛
電腦知識(shí)與技術(shù) 2015年27期
關(guān)鍵詞:知識(shí)庫(kù)本體電子商務(wù)

馬月坤 劉鵬飛

摘要:近年來(lái),隨著電子商務(wù)的快速發(fā)展,客戶網(wǎng)購(gòu)行為分析及預(yù)測(cè)成為研究熱點(diǎn)。目前的預(yù)測(cè)模型大多是基于數(shù)據(jù)驅(qū)動(dòng)的數(shù)學(xué)模型,在用戶行為智能預(yù)測(cè)方面存在不足。針對(duì)這些不足,文中提出了知識(shí)驅(qū)動(dòng)的客戶網(wǎng)購(gòu)行為分析及預(yù)測(cè)引擎。引擎基于本體論構(gòu)建了電子商務(wù)客戶網(wǎng)購(gòu)行為知識(shí)圖,其中包括電子商務(wù)領(lǐng)域知識(shí)和客戶網(wǎng)購(gòu)行為知識(shí)等。預(yù)測(cè)引擎將此知識(shí)圖作為用戶行為進(jìn)行實(shí)時(shí)預(yù)測(cè)過(guò)程的知識(shí)來(lái)源,以用戶實(shí)時(shí)行為預(yù)測(cè)場(chǎng)景為輸入完成對(duì)用戶行為的預(yù)測(cè),整個(gè)引擎體現(xiàn)了對(duì)用戶行為的智慧化預(yù)測(cè)。

關(guān)鍵詞:知識(shí)圖;用戶行為預(yù)測(cè);電子商務(wù);本體;知識(shí)庫(kù)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)28-0200-05

The Research on the Engine of Customer Online Behavior Analysis and Predicting

MA Yue-kun,LIU Peng-fei

(College of Information Engineer, North China University of Science and Technology, Tangshan 063000, China)

Abstract:Recently,with the development of e-commerce,the research on the analysis and prediction of customer online shopping behavior has attracted more and more attentions.At present,most of the prediction models are based on data driven,and they cant provide the intelligent forecasting for user behavior,exists many shortcoming.Refer to solve these problems,this paper puts forward a knowledge driven engine of customer online shopping behavior analysis and predicting.The engine construct a knowledge graph of e-commerce domain based on ontology ,which consist of the knowledge on the domain of e-commerce and user behavior.This knowledge graph is considered as the knowledge source,when the engine predict the user behavior based on the predicting scene of user real-time behavior. The engine reflects the intelligent prediction of user's behavior.

Key words: knowledge graph; user behavior predicting; e-commerce; ontology; knowledge base

近年來(lái),隨著電子商務(wù)的蓬勃發(fā)展以及在互聯(lián)網(wǎng)經(jīng)濟(jì)中和人們生活中所占地位的提高,越來(lái)越多的學(xué)者加入到電子商務(wù)相關(guān)方向的研究中。其中用戶行為分析及預(yù)測(cè)成為研究熱點(diǎn)之一。其中,Bucklin,Sismeir[1]運(yùn)用記錄在服務(wù)器日志文件上的點(diǎn)擊流數(shù)據(jù),并通過(guò)使用二元概率模型對(duì)用戶行為進(jìn)行建模的方式預(yù)測(cè)用戶的購(gòu)買行為。Moe,F(xiàn)ader[2]通過(guò)使用點(diǎn)擊流數(shù)據(jù)對(duì)電子商務(wù)用戶的在線訪問(wèn)及購(gòu)買行為進(jìn)行研究,構(gòu)建了用戶行為轉(zhuǎn)換模型對(duì)用戶購(gòu)買行為進(jìn)行預(yù)測(cè)。Pavlov和 Manavoglu[3,4]提出了基于概率序列模型的用戶行為建模方法,依據(jù)日志中的用戶歷史行為序列,構(gòu)建出購(gòu)買者的行為矩陣模型;然后以此作為析客戶在整個(gè)或者部分屬性空間中的相似行為的基礎(chǔ),獲得用戶購(gòu)買行為規(guī)則;當(dāng)需要時(shí),就可以利用這些規(guī)則對(duì)顧客行為進(jìn)行分析及預(yù)測(cè)。王毅,王鎖柱,杜華[5]提出了采用馬爾科夫鏈模型,結(jié)合訪問(wèn)日志和后臺(tái)交易數(shù)據(jù)的方法進(jìn)行用戶行為預(yù)測(cè)。黨小超,郝占軍等[6]提出了基于模糊加權(quán)Markov鏈模型,通過(guò)分析用戶行為特征和最優(yōu)狀態(tài)分類的方法,預(yù)測(cè)網(wǎng)絡(luò)用戶行為。上述幾種方法在用戶行為預(yù)測(cè)方面存在一定的準(zhǔn)確性,但是均是基于單一的模型對(duì)用戶進(jìn)行預(yù)測(cè),沒(méi)有充分考慮到用戶之間的異質(zhì)性以及用戶每次購(gòu)物所處場(chǎng)景得差異性,并且由于這些模型均是基于用戶的個(gè)人歷史數(shù)據(jù)對(duì)用戶進(jìn)行預(yù)測(cè),沒(méi)有考慮到用戶實(shí)時(shí)的購(gòu)物需求,因此在用戶的實(shí)時(shí)行為預(yù)測(cè)方面表現(xiàn)出不足。針對(duì)上述不足,本文提出了基于知識(shí)的客戶網(wǎng)購(gòu)行為分析及預(yù)測(cè)引擎(The Engine for Customers online Shopping behavior Analysis and Prediction Based on Knowledge,簡(jiǎn)稱ECSBAPK),ECSBAPK根據(jù)用戶的實(shí)時(shí)瀏覽行為數(shù)據(jù)以及個(gè)人信息,構(gòu)建客戶實(shí)時(shí)動(dòng)態(tài)購(gòu)物場(chǎng)景。然后基于構(gòu)建的用戶行為預(yù)測(cè)場(chǎng)景,利用引擎知識(shí)庫(kù)中已有的知識(shí),通過(guò)知識(shí)推理的方式構(gòu)建合適的動(dòng)態(tài)預(yù)測(cè)模型完成對(duì)客戶網(wǎng)購(gòu)行為的實(shí)時(shí)預(yù)測(cè)。本引擎在考慮了用戶異質(zhì)性、用戶所處場(chǎng)景得差異性的同時(shí)又滿足了用戶行為預(yù)測(cè)的實(shí)時(shí)性,體現(xiàn)了對(duì)用戶行為的智慧化預(yù)測(cè)。

為了能夠更好地適應(yīng)各種用戶場(chǎng)景得變化,我們將ECSBAPK設(shè)定為一個(gè)永不停止學(xué)習(xí)的預(yù)測(cè)引擎,并在引擎中構(gòu)建了一個(gè)能夠存儲(chǔ)大規(guī)模知識(shí)的電子商務(wù)領(lǐng)域知識(shí)庫(kù)(基于陶瓷電子商務(wù)),用以為存儲(chǔ)引擎學(xué)習(xí)所得的知識(shí)以及為用戶行為預(yù)測(cè)提供知識(shí)支撐。知識(shí)庫(kù)中記憶著從多種數(shù)據(jù)源中學(xué)習(xí)而來(lái)的知識(shí),包括日志數(shù)據(jù)、交易數(shù)據(jù)、現(xiàn)有知識(shí)庫(kù)等,由于從這些數(shù)據(jù)源獲得知識(shí)中包含了大量的關(guān)系信息,因此我們采用知識(shí)的圖表示方式。知識(shí)的圖表示方式是知識(shí)領(lǐng)域進(jìn)行知識(shí)組織的一個(gè)良好的解決方案,具有豐富的表達(dá)能力。目前已經(jīng)出現(xiàn)了許多有關(guān)知識(shí)圖成功應(yīng)用,比如谷歌的知識(shí)圖譜[7]、搜狗的知識(shí)立方、RoboBrain[8]。其中谷歌的知識(shí)圖譜、搜狗的知立方是針對(duì)日常問(wèn)題的,并不是面向電子商務(wù)領(lǐng)域的,而RoboBrain是面機(jī)器人領(lǐng)域的。這些知識(shí)庫(kù)在各自的領(lǐng)域都取得了良好的應(yīng)用效果,體現(xiàn)了強(qiáng)大的解決問(wèn)題的能力。

1 綜述

本文描述了基于知識(shí)驅(qū)動(dòng)的客戶網(wǎng)購(gòu)行為分析及預(yù)測(cè)引擎(Knowledge Driven Based Customers Online Shopping Behavior Analysis and Prediction System,簡(jiǎn)稱KDBCBAPS)。KDBCBAPS是一個(gè)模擬人腦解決問(wèn)題模式,不斷的“學(xué)習(xí)”知識(shí),并運(yùn)用習(xí)得的知識(shí)實(shí)時(shí)預(yù)測(cè)用戶在未來(lái)某段時(shí)間內(nèi)購(gòu)物行為的系統(tǒng)。從提高系統(tǒng)運(yùn)行效率的角度,本引擎主要由相互聯(lián)系的三部分組成:第一部分解決的是知識(shí)學(xué)習(xí)問(wèn)題,即引擎中知識(shí)庫(kù)的知識(shí)獲取問(wèn)題。我們通過(guò)使用多種數(shù)據(jù)挖掘方法對(duì)多種數(shù)據(jù)源進(jìn)行挖掘分析來(lái)獲得我們需要的知識(shí),我們稱之為知識(shí)獲取過(guò)程。在這個(gè)過(guò)程中所分析的數(shù)據(jù)是經(jīng)時(shí)間積累而成的海量數(shù)據(jù),因?yàn)楹A繑?shù)據(jù)中蘊(yùn)含含著豐富的知識(shí)供我們?nèi)ネ诰?,而某一時(shí)刻的少量的數(shù)據(jù)中所蘊(yùn)含的知識(shí)是片面的,準(zhǔn)確度不高的知識(shí)。因此整個(gè)知識(shí)獲取過(guò)程是不定期執(zhí)行的,我們稱整個(gè)知識(shí)獲取過(guò)程為離線部分;第二部分主要完成對(duì)用戶行為的實(shí)時(shí)預(yù)測(cè)。在實(shí)現(xiàn)對(duì)網(wǎng)購(gòu)用戶的實(shí)時(shí)預(yù)測(cè)過(guò)程中,通過(guò)分析用戶的個(gè)人信息數(shù)據(jù)、此次購(gòu)物過(guò)程中產(chǎn)生的瀏覽數(shù)據(jù)動(dòng)態(tài)構(gòu)建用戶行為預(yù)測(cè)場(chǎng)景,然后根據(jù)預(yù)測(cè)場(chǎng)景,通過(guò)知識(shí)推理來(lái)動(dòng)態(tài)選擇預(yù)測(cè)模型完成對(duì)用戶的實(shí)時(shí)預(yù)測(cè),整個(gè)預(yù)測(cè)過(guò)程的執(zhí)行條件是用戶正在電商網(wǎng)站產(chǎn)生購(gòu)物行為,因此我們稱這部分為實(shí)時(shí)預(yù)測(cè)部分。第三部分主要是為引擎中其他要素提供知識(shí)支撐,由于這一部分與離線部分、實(shí)時(shí)預(yù)測(cè)部分都有交互,所以我們將這部分獨(dú)立出來(lái),我們稱之為知識(shí)服務(wù)部分。下面我們分別從這三個(gè)方面描述本引擎的工作原理以及相關(guān)計(jì)算模型。

1.1 知識(shí)獲取部分

離線部分的主要工作是進(jìn)行知識(shí)學(xué)習(xí),完成知識(shí)庫(kù)的創(chuàng)建與更新。知識(shí)庫(kù)是我們引擎的大腦,由電子商務(wù)領(lǐng)域知識(shí)、用戶行為知識(shí)、算法參數(shù),推理規(guī)則等部分組成,為系統(tǒng)中的其他要素提供知識(shí)服務(wù)。為了將這些知識(shí)有效的組織在一起,本系統(tǒng)知識(shí)庫(kù)采用知識(shí)圖的作為知識(shí)表示方式,基于本體論構(gòu)建了電子商務(wù)領(lǐng)域知識(shí)圖。下面我們討論有關(guān)知識(shí)圖的相關(guān)內(nèi)容。

1)知識(shí)圖創(chuàng)建

我們通過(guò)知識(shí)重構(gòu)、機(jī)器學(xué)習(xí)等方法從多種數(shù)據(jù)源學(xué)習(xí)并獲得知識(shí),這些數(shù)據(jù)源包括用戶歷史數(shù)據(jù)(用戶瀏覽日志數(shù)據(jù)、用戶交易數(shù)據(jù)、用戶個(gè)人信息)、UNSPSC(聯(lián)合國(guó)標(biāo)準(zhǔn)產(chǎn)品與服務(wù)分類代碼)、(用戶行為知識(shí)相關(guān)文獻(xiàn))、現(xiàn)有領(lǐng)域?qū)<抑R(shí)庫(kù)等,其中用戶歷史數(shù)據(jù)中蘊(yùn)含著豐富的用戶共性行為特征等知識(shí),我們通過(guò)數(shù)據(jù)挖掘方法來(lái)學(xué)習(xí)并獲取這些知識(shí)。另外通過(guò)知識(shí)重構(gòu)的方式從UNSPSC、現(xiàn)有領(lǐng)域?qū)<抑R(shí)庫(kù)、(用戶行為知識(shí)相關(guān)文獻(xiàn))等知識(shí)源抽取領(lǐng)域相關(guān)知識(shí)來(lái)作為知識(shí)圖知識(shí)來(lái)源的一部分,并對(duì)所抽取的知識(shí)進(jìn)行適當(dāng)?shù)恼{(diào)整和修剪以滿足我們系統(tǒng)的需求。

UNSPSC-China: UNSPSC-China 是UNSPSC(聯(lián)合國(guó)標(biāo)準(zhǔn)產(chǎn)品與服務(wù)代碼)的中文版本,是電子商務(wù)領(lǐng)域產(chǎn)品與服務(wù)的分類標(biāo)準(zhǔn),為引擎提供了所需的產(chǎn)品知識(shí),提供了產(chǎn)品分類參考,是我們構(gòu)建電子商務(wù)領(lǐng)域知識(shí)圖的基礎(chǔ)之一。

產(chǎn)品數(shù)據(jù)庫(kù):主要提供具體產(chǎn)品項(xiàng)及產(chǎn)品相關(guān)屬性。

用戶行為數(shù)據(jù):用戶歷史行為數(shù)據(jù)包括用戶瀏覽日志數(shù)據(jù)、用戶交易數(shù)據(jù)、用戶個(gè)人信息數(shù)據(jù)。這些海量的用戶行為數(shù)據(jù)中蘊(yùn)含著大量的用戶行為知識(shí),我們通過(guò)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)等數(shù)據(jù)挖掘方法對(duì)其進(jìn)行分析挖掘來(lái)獲得其中蘊(yùn)含的知識(shí)。這些知識(shí)作為共性化知識(shí)加入到知識(shí)圖中。

用戶個(gè)人歷史數(shù)據(jù):用戶個(gè)人歷史數(shù)據(jù)包括個(gè)人購(gòu)買歷史數(shù)據(jù)、瀏覽數(shù)據(jù)。引擎通過(guò)對(duì)這部分?jǐn)?shù)據(jù)的挖掘分析來(lái)獲取用戶個(gè)人相關(guān)屬性信息,包括用戶購(gòu)買力、收入等。

現(xiàn)有領(lǐng)域知識(shí)庫(kù)、專家知識(shí):目前有許多關(guān)于電子商務(wù)知識(shí)挖掘的研究,也出現(xiàn)了很多有價(jià)值的電子商務(wù)領(lǐng)域知識(shí)庫(kù)。因此我們可以從這些現(xiàn)有知識(shí)庫(kù)中獲取相關(guān)知識(shí)。

2)知識(shí)圖定義

在知識(shí)庫(kù)中,我們將知識(shí)圖表示成一個(gè)有向圖G=(V,E),例子見(jiàn)圖1。其中頂點(diǎn)表示多種類型數(shù)據(jù):包括電子商務(wù)領(lǐng)域相關(guān)概念、商品項(xiàng)及其相關(guān)特征知識(shí)、數(shù)據(jù)挖掘所得知識(shí)、用戶行為相關(guān)概念等,由于頂點(diǎn)所表示的數(shù)據(jù)存在多樣性,圖中頂點(diǎn)的內(nèi)部結(jié)構(gòu)可以有多種表現(xiàn)形式,例如圖、key/value鍵值對(duì)集合等,關(guān)于頂點(diǎn)的具體定義如下:

Node={node_id,node_type,}

其中node_id,node_type是每個(gè)定點(diǎn)所固有的屬性,property為每個(gè)節(jié)點(diǎn)所特有的屬性,均以鍵值對(duì)的形式,其中value值可以是文本、公式、圖、算法等,還可以以其他形式表征節(jié)點(diǎn)所表示的知識(shí)。

邊E∈V×V×C(C是表示邊的類型的一個(gè)集合)連接兩個(gè)頂點(diǎn),表示頂點(diǎn)之間的關(guān)系,每一條邊是單向的。邊的定義如下:

Edge={nodeA,nodeB,node_id,edge_type,,<>}

表示圖中節(jié)點(diǎn)A到節(jié)點(diǎn)B之間的一條邊,其中Edge_id,edge_type是每條邊的固有屬性,property是每條邊自身所特有的屬性,以鍵值對(duì)的形式存在。是每條成立所應(yīng)該滿足的約束條件的集合。在表1和表2中列出了一些頂點(diǎn)和邊的相關(guān)例子。

由于知識(shí)圖當(dāng)中的很多知識(shí)是我們使用數(shù)據(jù)挖掘方法在海量電子商務(wù)相關(guān)數(shù)據(jù)當(dāng)中學(xué)習(xí)而得,并不是確定正確的真理,在后續(xù)的學(xué)習(xí)過(guò)程中可能是不斷變化的,因此我們定義了一系列的可信度函數(shù)R(α),例如數(shù)據(jù)挖掘中的置信度、支持度等,來(lái)表示目前相關(guān)概念以及關(guān)系的正確性,其中α可以是頂點(diǎn)、邊等。這些可信度函數(shù)可以以頂點(diǎn)的屬性、邊上的值或者邊的屬性等形式存儲(chǔ)在知識(shí)圖當(dāng)中。

1.2 實(shí)時(shí)預(yù)測(cè)部分

1)用戶場(chǎng)景構(gòu)建

客戶需求場(chǎng)景知識(shí)刻畫了預(yù)測(cè)客戶在某段時(shí)間內(nèi)多維度購(gòu)物需求的相關(guān)因素,是進(jìn)行用戶行為預(yù)測(cè)的先驅(qū)條件。本系統(tǒng)通過(guò)對(duì)客戶動(dòng)態(tài)行為數(shù)據(jù)[6]、用戶個(gè)人信息、用戶歷史數(shù)據(jù)進(jìn)行綜合分析來(lái)確定場(chǎng)景中所包含的要素。當(dāng)然,場(chǎng)景中的要素在預(yù)測(cè)時(shí)并不是全部需要的,而是在對(duì)用戶進(jìn)行預(yù)測(cè)時(shí),根據(jù)預(yù)測(cè)目的,智能選取場(chǎng)景中的部分相關(guān)要素作為預(yù)測(cè)引擎的輸入,從而完成對(duì)用戶的預(yù)測(cè)。隨著研究的不斷進(jìn)行,場(chǎng)景中的要素會(huì)不斷完善。在表3中列出了場(chǎng)景知識(shí)中的部分構(gòu)成要素。

個(gè)人信息數(shù)據(jù):包括用戶相關(guān)個(gè)人信息,包括性別、年齡等。

動(dòng)態(tài)行為數(shù)據(jù):動(dòng)態(tài)行為數(shù)據(jù)是用戶的此次瀏覽電子商務(wù)網(wǎng)站所產(chǎn)生的行為數(shù)據(jù),其中蘊(yùn)含著大量能夠表明用戶此次瀏覽目的的相關(guān)信息。因此將動(dòng)態(tài)行為數(shù)據(jù)作為預(yù)測(cè)引擎的主要輸入之一。

用戶個(gè)人歷史數(shù)據(jù):用戶個(gè)人歷史數(shù)據(jù)當(dāng)中蘊(yùn)含可以對(duì)預(yù)測(cè)用戶行為產(chǎn)生影響的知識(shí)。比如,在知識(shí)圖中有這樣一條規(guī)則年齡( X,20 ~ 35 歲),年薪( X,60000~80000元) →( 購(gòu)買( X,攝像機(jī)) ),但是大多數(shù)客戶往往不會(huì)在個(gè)人信息當(dāng)中填寫自己的年齡、收入、購(gòu)買力、教育水平等,這就需要我們通過(guò)分析用戶個(gè)人歷史信息數(shù)據(jù)來(lái)獲得用戶的這些信息。

2)預(yù)測(cè)引擎

預(yù)測(cè)引擎是預(yù)測(cè)子系統(tǒng)的核心組成部分,他接受預(yù)測(cè)子系統(tǒng)傳輸?shù)挠脩魣?chǎng)景對(duì)用戶行為進(jìn)行預(yù)測(cè)。具體工作原理如下:預(yù)測(cè)子系統(tǒng)接受用戶行為數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理,參考存儲(chǔ)在HBase中的用戶場(chǎng)景要素表,獲取場(chǎng)景要素相對(duì)應(yīng)的數(shù)據(jù),從而構(gòu)建用戶場(chǎng)景;預(yù)測(cè)子系統(tǒng)將構(gòu)建好的用戶場(chǎng)景以及預(yù)測(cè)意圖傳輸給預(yù)測(cè)引擎,預(yù)測(cè)引擎推理獲得此次的預(yù)測(cè)意圖,根據(jù)此次的預(yù)測(cè)意圖推理匹配獲得最適合的預(yù)測(cè)模型,這里的預(yù)測(cè)模型可能是一個(gè)設(shè)計(jì)好的預(yù)測(cè)模型,也可能是一系列的規(guī)則集合,這要根據(jù)所設(shè)計(jì)的匹配函數(shù)(公式)的值來(lái)確定,通過(guò)對(duì)模型的計(jì)算獲得 最終的預(yù)測(cè)結(jié)果。這里所有的推理、函數(shù)和公式的獲取等都是與知識(shí)圖交互的結(jié)果。

1.3 體系結(jié)構(gòu)

KDBCBAPS平臺(tái)的體系結(jié)構(gòu)圖如圖3所示:

綜上所述,下面我們分別從知識(shí)服務(wù)、預(yù)測(cè)模塊、大數(shù)據(jù)計(jì)算與存儲(chǔ)模塊三方面對(duì)本系統(tǒng)進(jìn)行描述。

知識(shí)重構(gòu)相關(guān)組件。知識(shí)重構(gòu)相關(guān)組件主要功能是知識(shí)的構(gòu)建以及知識(shí)庫(kù)的學(xué)習(xí)更新。再開(kāi)構(gòu)建階段對(duì)選取的知識(shí)庫(kù)通過(guò)相關(guān)算法、工具進(jìn)行知識(shí)修剪和調(diào)整以滿足本系統(tǒng)的需求,為了最大程度的保證修剪和調(diào)整的重要性,我們會(huì)適當(dāng)采用專家干預(yù)的方式,保證核心本體的正確性。由于本系統(tǒng)的知識(shí)庫(kù)是不斷學(xué)習(xí)的,因此知識(shí)重構(gòu)相關(guān)組件既包含構(gòu)建組件,又包含知識(shí)學(xué)習(xí)跟新組件。

數(shù)據(jù)預(yù)處理組件。數(shù)據(jù)預(yù)處理組件主要是針對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理工作,包括缺失值處理、噪聲數(shù)據(jù)處理等工作。

Hbase日志數(shù)據(jù)庫(kù)。主要用來(lái)存儲(chǔ)用戶行為日志的預(yù)處理結(jié)果。

數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建組件。構(gòu)建符合我們應(yīng)用要求的數(shù)據(jù)倉(cāng)庫(kù)是后期數(shù)據(jù)分析的關(guān)鍵??紤]到電商行業(yè)相關(guān)數(shù)據(jù)都是海量數(shù)據(jù)文件,本系統(tǒng)基于Hive構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),因此數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建組件包括的內(nèi)容很多,除了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建的相關(guān)組件,包括前期的數(shù)據(jù)清理、數(shù)據(jù)變換、裝入等。還有一些與Hive相關(guān)的內(nèi)容需要考慮。

Hive數(shù)據(jù)倉(cāng)庫(kù)。電子商務(wù)交易數(shù)據(jù)倉(cāng)庫(kù),主要作為后續(xù)的數(shù)據(jù)挖掘分析的數(shù)據(jù)來(lái)源之一。

知識(shí)獲取組件。對(duì)電子商務(wù)網(wǎng)站產(chǎn)生的相關(guān)數(shù)據(jù)進(jìn)行挖掘分析,獲取蘊(yùn)含在其中的相關(guān)知識(shí),加入到知識(shí)緩存數(shù)據(jù)庫(kù)中。

知識(shí)緩存數(shù)據(jù)庫(kù)。用于暫時(shí)存儲(chǔ)知識(shí)獲取組件和知識(shí)重構(gòu)組件學(xué)習(xí)而來(lái)的知識(shí),起到一個(gè)緩存的功能,知識(shí)緩存數(shù)據(jù)庫(kù)作為知識(shí)圖的唯一知識(shí)來(lái)源。

知識(shí)電子商務(wù)領(lǐng)域知識(shí)圖。對(duì)引擎獲取的知識(shí)進(jìn)行有效的組織和管理,并作為引擎對(duì)用戶行為進(jìn)行預(yù)測(cè)的唯一知識(shí)源。

知識(shí)融合組件。將知識(shí)緩存數(shù)據(jù)庫(kù)中的知識(shí)加入到知識(shí)圖中。

知識(shí)庫(kù)檢索組件。作為知識(shí)圖外與外界應(yīng)用交互的唯一接口。完成對(duì)知識(shí)圖的增刪改查等操作,增強(qiáng)模塊見(jiàn)獨(dú)立性的同時(shí),也能增加安全性。

用戶場(chǎng)景構(gòu)建。根據(jù)用戶的實(shí)時(shí)瀏覽行為構(gòu)建用戶此時(shí)的用戶需求。

預(yù)測(cè)引擎。根據(jù)用戶預(yù)測(cè)場(chǎng)景,從知識(shí)圖中獲取知識(shí)來(lái)完成對(duì)用戶行為的預(yù)測(cè)

2 應(yīng)用

本系統(tǒng)旨在提供對(duì)電子商務(wù)客戶實(shí)時(shí)多維度行為預(yù)測(cè),比如預(yù)測(cè)用戶下一步可能訪問(wèn)的網(wǎng)頁(yè)、預(yù)測(cè)用戶能夠接受的商品價(jià)格、預(yù)測(cè)用戶要買哪一類商品等等。本部分選取預(yù)測(cè)用戶將要買哪一類商品這一行為維度來(lái)說(shuō)明KDBCBAPS的工作原理。

本文實(shí)時(shí)獲取了用戶在N分鐘內(nèi)對(duì)本項(xiàng)目所依托的陶瓷電商網(wǎng)站的瀏覽行為,在這N分鐘內(nèi),此用戶進(jìn)行了共計(jì)20次的網(wǎng)頁(yè)瀏覽動(dòng)作。針對(duì)我們要預(yù)測(cè)用戶將要買哪一類商品這一行為,我們對(duì)20次瀏覽過(guò)程中所涉及網(wǎng)頁(yè)進(jìn)行預(yù)處理,預(yù)測(cè)子系統(tǒng)根據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)HBASE中的場(chǎng)景要素表瀏覽數(shù)據(jù)中提取了相應(yīng)的場(chǎng)景構(gòu)造數(shù)據(jù),本實(shí)驗(yàn)所構(gòu)建的用戶場(chǎng)景見(jiàn)表4,由于本系統(tǒng)作為電商網(wǎng)站的后臺(tái)應(yīng)用,因此有關(guān)商品的分類可以直接提取。

預(yù)測(cè)引擎根據(jù)相關(guān)知識(shí)獲得本次預(yù)測(cè)的意圖,判斷意圖規(guī)則如下:

上述規(guī)則表明:如果意圖x和知識(shí)圖中類Intention的意圖子類y名稱相似度(相似度計(jì)算為公式1)為1,即名稱相同。由于輸入預(yù)測(cè)引擎的意圖名稱、用戶場(chǎng)景中的要素名稱在知識(shí)圖中都有一致的,無(wú)重復(fù)的節(jié)點(diǎn)與之相對(duì)應(yīng),因此采用名稱相似度作為節(jié)點(diǎn)映射的方法,在這里我們?nèi)∠嗨贫鹊弥禐?節(jié)點(diǎn)。相似度公式如下:

其中稱為的編輯距離,編輯距離越小相似性越大,相對(duì)應(yīng)在我們的公式中,sim之越大說(shuō)明相似性越大,如:給出“Same_Name”和“SameName”,則

通過(guò)規(guī)則1,預(yù)測(cè)引擎獲得了此次的預(yù)測(cè)意圖y,y中包含多個(gè)預(yù)測(cè)模型,我們定義了匹配函數(shù)(match_function,見(jiàn)公式2),匹配函數(shù)的作用是用來(lái)計(jì)算用戶場(chǎng)景要素與模型變量的差異性,我們選擇差異性最小,也就是匹配函數(shù)最小的的模型來(lái)作為本次預(yù)測(cè)的預(yù)測(cè)模型。并根據(jù)模型中的變量種類選擇模型的變量的輸入。

本次預(yù)測(cè)所選取的預(yù)測(cè)模型中采用興趣度的概念來(lái)反映用戶此次購(gòu)買意圖,參考文獻(xiàn)[9]并使用數(shù)據(jù)挖掘方法挖掘分析用戶對(duì)商品的瀏覽時(shí)間T、瀏覽次數(shù)N之間與用戶對(duì)此商品興趣度之間的關(guān)系,我們得出了如下模型:

其中公式(1)是用戶對(duì)單個(gè)商品的興趣模型,公式(2)是用戶對(duì)某類商品的興趣模型,通過(guò)上述公式的計(jì)算我們預(yù)測(cè)此用戶想要購(gòu)買紫砂茶具。通過(guò)對(duì)用戶此次購(gòu)買過(guò)程的跟蹤,發(fā)現(xiàn)此用戶此次確實(shí)購(gòu)買了紫砂茶具中宜興紫砂套裝<富貴在天>。

3 結(jié)論

文中針對(duì)目前用戶行為分析及預(yù)測(cè)方面不足,提出了基于知識(shí)驅(qū)動(dòng)的用戶行為分析及預(yù)測(cè)引擎,實(shí)現(xiàn)了對(duì)用戶行為的智慧化預(yù)測(cè)。由于目前計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,電商網(wǎng)站的用戶行為數(shù)據(jù)已成大數(shù)據(jù)級(jí)別,文中尚未對(duì)引擎中的大數(shù)據(jù)處理做詳細(xì)介紹,將在后續(xù)的文章中進(jìn)行詳細(xì)的介紹。

參考文獻(xiàn):

[1] Sismeiro C, Randolph E. Bucklin. Modeling purchase Behavior at an E-Commerce website[J]. A Conditional Probability Approach,2002.

[2] Wendy W. Moe, Peter S. Fader. Dynamic Conversion Behavior at E-Commerce Sites[J]. Marketing at the University of Texas,2003(5).

[3] Manavoglu E, Pavlov D, Giles C.L. Probabilistic User Behavior Models[C]. Proc. of the 3rd IEEE International Conference on Data Mining (ICDM). Melbourne, IEEE, 2003:203-210.

[4] Pavlov D. Sequence Modeling with Mixtures of Conditional Maximum Entropy Distributions[C].Proc. of the 3rd IEEE International Conference on Data Mining (ICDM). Melbourne, IEEE, 2003:251-258.

[5] 王毅, 王鎖柱, 杜華. 基于馬爾可夫鏈的電子商店顧客行為預(yù)測(cè)模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(4):906-908.

[6] 黨小超, 郝占軍, 王筱娟. 模糊加權(quán)Markov鏈的用戶行為預(yù)測(cè)[J]. 蘭州大學(xué)學(xué)報(bào),2011(2):110-115.

[7] Dong X L, Strohmann T, Sun S, et al. Knowledge vault: Aweb-scale approach to probabilistic knowledge fusion[C]. In KDD, 2014.

[8] Ashutosh Saxena, Ashesh Jain, Ozan Sener. RoboBrain:Large-Scale Knowledge Engine for Robots[J]. arXiv:1412.0691v1 [cs.AI],2014(12).

猜你喜歡
知識(shí)庫(kù)本體電子商務(wù)
Abstracts and Key Words
對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
《電子商務(wù)法》如何助力直銷
電子商務(wù)
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
關(guān)于加快制定電子商務(wù)法的議案
跨境電子商務(wù)中的跨文化思考
《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究