文/王志俊
近年來,電子商務(wù)的快速發(fā)展,使企業(yè)紛紛將目光投入到電子商務(wù)領(lǐng)域中,越來越多的企業(yè)開始在Web中建立相應(yīng)的商品目錄,用戶可利用瀏覽器來隨時隨地的瀏覽這些商品目錄,并可在瀏覽器中進行商品訂購和網(wǎng)上支付。在Web服務(wù)器中存儲著大量用戶和商家的交互信息,這些信息包括用戶的瀏覽信息、用戶的登記信息等,這些交互信息是按照日志的形式存儲于數(shù)據(jù)庫中的,而商家需要從數(shù)據(jù)庫中對這些信息進行挖掘,以此找出用戶的行為規(guī)律性,這對于提高商家的市場銷售量具有重大意義。本文便針對該問題對用戶訪問模式中數(shù)據(jù)挖掘模型及算法進行研究,以便于幫助企業(yè)更加高效的從海量的顧客數(shù)據(jù)與日志數(shù)據(jù)中挖掘到所需的潛在客戶群體,使企業(yè)能夠根據(jù)這些知識來制定合理的促銷策略。
為了使數(shù)據(jù)挖掘更加有效,需要對服務(wù)器的應(yīng)用邏輯、用戶瀏覽路徑乃至Web頁面的拓?fù)浣Y(jié)構(gòu)進行全方位的考慮,并以此對OEM模型進行擴展,使其成為E-OEM模型。
定義1.對于某個對象S來說,其包括標(biāo)識id與值val兩個組成部分,其中標(biāo)識id(S)能夠?qū)臻g中的對象進行標(biāo)志,該標(biāo)志具有唯一性。而對象值val(S)則可采用原子形式與引用形式來表示,這兩種形式可分別表示為val (S)= {l 1 : d 1 ,… ,l m : d m }與val (S)= {l 1 : id(S1) ,… ,l n : id(Sn ) },在原子形式中,li與di分別表示屬性與基本數(shù)據(jù)類型的屬性值,而引用形式中,lj與Sj則分別表示屬性與對象,Sj對象的引用為id(Sj)。
定義2,分別設(shè)定屬性與對象為li與Si,且i=0,1,...,n,如果i= 0,1,… ,n中的(l i : id(S i ) )∈ val (S i- 1 )值無論為多少均是成立的,則對象S0中的p為起始點,而對象Sn中的p為終止點,也就是說Si中含有路徑p??赏ㄟ^有向圖來表示E-OEM模型,其結(jié)點為對象標(biāo)識,其值中各對象對(l i : id(Si))的引用均包括一條帶標(biāo)號的li的有向邊相對應(yīng)。當(dāng)圖中有環(huán)時,則E-OEM圖有環(huán)。
定義3 對象空間是由大量可訪問且相互獨立的對象所構(gòu)成的,各個對象均可通過E-OEM模型來描述,因此可通過對對象空間內(nèi)的對象信息進行構(gòu)造,以此充當(dāng)領(lǐng)域知識來為數(shù)據(jù)挖掘提供指導(dǎo)。
在E-OEM模型中,其URL函數(shù)可指定為文檔對象或其對象標(biāo)識,對象空間中的各個函數(shù)值均具有唯 一性,并且還可從中得到對象的元信息、拓?fù)湫畔⑴c一般信息。此外,考慮到各個用戶在瀏覽時,其信息都是在日志表中進行統(tǒng)一登記的,因此在應(yīng)用數(shù)據(jù)挖掘技術(shù)時必須要對商家和用戶間的事務(wù)標(biāo)定問題進行解決。
相比于頻繁序列模式,頻繁訪問模式有很多共通之處,但其不同之處在于用戶在瀏覽時存在的不確定性,這也造成不同用戶在訪問模式上大致相同,但其內(nèi)部細節(jié)卻有所不同,因此如果采用頻繁序列模式,反而會因算法的敏感度過大而造成模式數(shù)量大幅增加,因此難以適用。為了使該問題得到解決,需要將路徑相似度引入到用戶訪問模式之中,考慮到序列眾多并且前綴存在許多重復(fù),因此需要采用與Hash樹相似的方法來對其序列進行檢索與存儲,通過在掃描事務(wù)數(shù)據(jù)庫時對Hash樹進行建立與調(diào)成,然后對不同模式的支持度進行計算,即可獲得頻繁訪問模式的Hash樹結(jié)構(gòu)。為了避免匹配樹寬度過大,同時也為了便于并行處理數(shù)據(jù)分塊,還要在不同匹配樹中利用兩層Hash來散轉(zhuǎn)訪問模式。
通常來說,可利用負(fù)事務(wù)數(shù)據(jù)庫D-的聚類及分類過程來描述潛在客戶群挖掘過程。可通過Kean聚類算法對特定模式下D-所具有的相似關(guān)系進行計算,頻繁訪問模式下的數(shù)據(jù)挖掘結(jié)果便是初始K個聚類中心,當(dāng)然業(yè)務(wù)人員可以自行指定,按照路徑相似關(guān)系來確定模式相似關(guān)系,當(dāng)模式為P1 = 〈p 11 - p12 … - p1n 〉及 P2 = 〈p 21 - p22 … - p2n 〉時,可進行以下定義,即
Sim-Pattern(p1,p2)= |{pi |sim path( pi1 ,pi2)) ≥ min sim}|/n
由此便可得到P1與P2這兩個模式的相似度,如果Sim-Pattern(p1,p2)超過自定義的閾值,自定義閾值為 MIN SIM [0,1],這時可認(rèn)為P1與P2模式具有相似關(guān)系。
總而言之,商家在電子商務(wù)戰(zhàn)略制定中必須要運用數(shù)據(jù)挖掘技術(shù)從海量的數(shù)據(jù)中找到潛在客戶群,以此探尋更加高效的用戶訪問模式,這對于商家做出正確的商業(yè)決策具有重要意義。本文采用E-OEM模型,從服務(wù)器應(yīng)用邏輯、用戶瀏覽路徑和頁面拓?fù)浣Y(jié)構(gòu)等多個方面,對不同用戶訪問模式下的數(shù)據(jù)挖掘模型及其算法進行了研究,從而為企業(yè)在電子商務(wù)發(fā)展中提供了行之有效的數(shù)據(jù)挖掘技術(shù)手段。