国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用戶訪問模式中數(shù)據(jù)挖掘的模型與算法

2019-12-02 22:56王志俊
電子技術(shù)與軟件工程 2019年13期
關(guān)鍵詞:數(shù)據(jù)挖掘商家對象

文/王志俊

近年來,電子商務(wù)的快速發(fā)展,使企業(yè)紛紛將目光投入到電子商務(wù)領(lǐng)域中,越來越多的企業(yè)開始在Web中建立相應(yīng)的商品目錄,用戶可利用瀏覽器來隨時隨地的瀏覽這些商品目錄,并可在瀏覽器中進行商品訂購和網(wǎng)上支付。在Web服務(wù)器中存儲著大量用戶和商家的交互信息,這些信息包括用戶的瀏覽信息、用戶的登記信息等,這些交互信息是按照日志的形式存儲于數(shù)據(jù)庫中的,而商家需要從數(shù)據(jù)庫中對這些信息進行挖掘,以此找出用戶的行為規(guī)律性,這對于提高商家的市場銷售量具有重大意義。本文便針對該問題對用戶訪問模式中數(shù)據(jù)挖掘模型及算法進行研究,以便于幫助企業(yè)更加高效的從海量的顧客數(shù)據(jù)與日志數(shù)據(jù)中挖掘到所需的潛在客戶群體,使企業(yè)能夠根據(jù)這些知識來制定合理的促銷策略。

1 用戶訪問模式中的數(shù)據(jù)挖掘模型

1.1 E-OEM模型

為了使數(shù)據(jù)挖掘更加有效,需要對服務(wù)器的應(yīng)用邏輯、用戶瀏覽路徑乃至Web頁面的拓?fù)浣Y(jié)構(gòu)進行全方位的考慮,并以此對OEM模型進行擴展,使其成為E-OEM模型。

定義1.對于某個對象S來說,其包括標(biāo)識id與值val兩個組成部分,其中標(biāo)識id(S)能夠?qū)臻g中的對象進行標(biāo)志,該標(biāo)志具有唯一性。而對象值val(S)則可采用原子形式與引用形式來表示,這兩種形式可分別表示為val (S)= {l 1 : d 1 ,… ,l m : d m }與val (S)= {l 1 : id(S1) ,… ,l n : id(Sn ) },在原子形式中,li與di分別表示屬性與基本數(shù)據(jù)類型的屬性值,而引用形式中,lj與Sj則分別表示屬性與對象,Sj對象的引用為id(Sj)。

定義2,分別設(shè)定屬性與對象為li與Si,且i=0,1,...,n,如果i= 0,1,… ,n中的(l i : id(S i ) )∈ val (S i- 1 )值無論為多少均是成立的,則對象S0中的p為起始點,而對象Sn中的p為終止點,也就是說Si中含有路徑p??赏ㄟ^有向圖來表示E-OEM模型,其結(jié)點為對象標(biāo)識,其值中各對象對(l i : id(Si))的引用均包括一條帶標(biāo)號的li的有向邊相對應(yīng)。當(dāng)圖中有環(huán)時,則E-OEM圖有環(huán)。

定義3 對象空間是由大量可訪問且相互獨立的對象所構(gòu)成的,各個對象均可通過E-OEM模型來描述,因此可通過對對象空間內(nèi)的對象信息進行構(gòu)造,以此充當(dāng)領(lǐng)域知識來為數(shù)據(jù)挖掘提供指導(dǎo)。

1.2 E-OEM模型中的相關(guān)問題

在E-OEM模型中,其URL函數(shù)可指定為文檔對象或其對象標(biāo)識,對象空間中的各個函數(shù)值均具有唯 一性,并且還可從中得到對象的元信息、拓?fù)湫畔⑴c一般信息。此外,考慮到各個用戶在瀏覽時,其信息都是在日志表中進行統(tǒng)一登記的,因此在應(yīng)用數(shù)據(jù)挖掘技術(shù)時必須要對商家和用戶間的事務(wù)標(biāo)定問題進行解決。

2 用戶訪問模式中數(shù)據(jù)挖掘算法研究

2.1 頻繁訪問模式挖掘算法

相比于頻繁序列模式,頻繁訪問模式有很多共通之處,但其不同之處在于用戶在瀏覽時存在的不確定性,這也造成不同用戶在訪問模式上大致相同,但其內(nèi)部細節(jié)卻有所不同,因此如果采用頻繁序列模式,反而會因算法的敏感度過大而造成模式數(shù)量大幅增加,因此難以適用。為了使該問題得到解決,需要將路徑相似度引入到用戶訪問模式之中,考慮到序列眾多并且前綴存在許多重復(fù),因此需要采用與Hash樹相似的方法來對其序列進行檢索與存儲,通過在掃描事務(wù)數(shù)據(jù)庫時對Hash樹進行建立與調(diào)成,然后對不同模式的支持度進行計算,即可獲得頻繁訪問模式的Hash樹結(jié)構(gòu)。為了避免匹配樹寬度過大,同時也為了便于并行處理數(shù)據(jù)分塊,還要在不同匹配樹中利用兩層Hash來散轉(zhuǎn)訪問模式。

2.2 潛在客戶群挖掘算法

通常來說,可利用負(fù)事務(wù)數(shù)據(jù)庫D-的聚類及分類過程來描述潛在客戶群挖掘過程。可通過Kean聚類算法對特定模式下D-所具有的相似關(guān)系進行計算,頻繁訪問模式下的數(shù)據(jù)挖掘結(jié)果便是初始K個聚類中心,當(dāng)然業(yè)務(wù)人員可以自行指定,按照路徑相似關(guān)系來確定模式相似關(guān)系,當(dāng)模式為P1 = 〈p 11 - p12 … - p1n 〉及 P2 = 〈p 21 - p22 … - p2n 〉時,可進行以下定義,即

Sim-Pattern(p1,p2)= |{pi |sim path( pi1 ,pi2)) ≥ min sim}|/n

由此便可得到P1與P2這兩個模式的相似度,如果Sim-Pattern(p1,p2)超過自定義的閾值,自定義閾值為 MIN SIM [0,1],這時可認(rèn)為P1與P2模式具有相似關(guān)系。

3 結(jié)語

總而言之,商家在電子商務(wù)戰(zhàn)略制定中必須要運用數(shù)據(jù)挖掘技術(shù)從海量的數(shù)據(jù)中找到潛在客戶群,以此探尋更加高效的用戶訪問模式,這對于商家做出正確的商業(yè)決策具有重要意義。本文采用E-OEM模型,從服務(wù)器應(yīng)用邏輯、用戶瀏覽路徑和頁面拓?fù)浣Y(jié)構(gòu)等多個方面,對不同用戶訪問模式下的數(shù)據(jù)挖掘模型及其算法進行了研究,從而為企業(yè)在電子商務(wù)發(fā)展中提供了行之有效的數(shù)據(jù)挖掘技術(shù)手段。

猜你喜歡
數(shù)據(jù)挖掘商家對象
神秘來電
中國人不騙中國人
商家出售假冒商品,消費者獲十倍賠償
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于熵的快速掃描法的FNEA初始對象的生成方法
區(qū)間對象族的可鎮(zhèn)定性分析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
易淘食進駐百度錢包中小商家盼低費率
基于GPGPU的離散數(shù)據(jù)挖掘研究
始兴县| 泰州市| 越西县| 昌都县| 郸城县| 克山县| 榕江县| 抚远县| 区。| 潍坊市| 米林县| 吕梁市| 鄱阳县| 武宣县| 柞水县| 深水埗区| 进贤县| 沂源县| 莆田市| 拜泉县| 延边| 镇远县| 浏阳市| 福清市| 崇明县| 巴林左旗| 和静县| 东平县| 张掖市| 长沙市| 岳普湖县| 贵阳市| 全椒县| 剑川县| 盐城市| 洪江市| 甘泉县| 门源| 乌鲁木齐县| 四平市| 辽中县|