于晶+趙志杰
摘要:為了解決傳統(tǒng)電子商務(wù)知識獲取瓶頸問題,本文提出了一種改進(jìn)的基于差別矩陣的屬性約簡算法,將其應(yīng)用于電子商務(wù)消費(fèi)行為預(yù)測條件屬性集約簡中,并對產(chǎn)生的規(guī)則進(jìn)行提取和約簡,得到了一種新的基于粗糙集理論的電子商務(wù)消費(fèi)行為預(yù)測方法。算例表明該方法預(yù)測效果良好。
關(guān)鍵詞:粗糙集;電子商務(wù);消費(fèi)行為預(yù)測
中圖分類號:F71336 文獻(xiàn)標(biāo)識碼:A
一、引言
隨著網(wǎng)民的日漸增多,全球加入到電子商務(wù)購物熱潮的人數(shù)持續(xù)增長。龐大的網(wǎng)民蘊(yùn)含的是巨大的商業(yè)契機(jī), 2013年,歐洲電商交易總額達(dá)到4 969億美元,我國電商銷售總額突破10萬億元。Forrester Research研究公司預(yù)測,隨著移動網(wǎng)絡(luò)的廣泛使用,2014年電子網(wǎng)絡(luò)購物消費(fèi)總額將會再上一個新臺階,以重大節(jié)慶作為瘋狂購物的潮流將成為主流。為在巨大的市場份額中分得一杯羹,電商企業(yè)們也是使出渾身解數(shù)。但先知先覺,更加充分、科學(xué)地挖掘顧客購買特性,并對其消費(fèi)行為進(jìn)行準(zhǔn)確預(yù)測,從而制定有針對性的營銷模式,開辟新的市場,保持顧客忠誠,是電商企業(yè)獲得成功的重要路徑。
與傳統(tǒng)實(shí)體店購物明顯不同,電商購物行為具有多樣性與不穩(wěn)定性。電商購物環(huán)境下,顧客獲得信息更加具有主觀自主選擇性。一個設(shè)計(jì)再精美的購物網(wǎng)站,如果顧客沒有光顧,就沒有市場!一件再怎么物美價(jià)廉的商品,如果顧客沒有瀏覽,也不可能為企業(yè)創(chuàng)造商機(jī)。因此,如何設(shè)計(jì)開發(fā)電商購物平臺,在消費(fèi)者與企業(yè)不具備面對面信息交流的情況下,讓顧客主動地選擇本企業(yè)的產(chǎn)品是我們需要關(guān)注的。電子商務(wù)平臺就是為了方便商家與消費(fèi)者的溝通,支持消費(fèi)者網(wǎng)上購物活動而建立的商業(yè)站點(diǎn)。網(wǎng)站信息呈現(xiàn)的方式和網(wǎng)站模塊組織模式,會對消費(fèi)者產(chǎn)生很強(qiáng)的刺激作用,影響消費(fèi)者的購買決策和購買行為。如何利用這一信息界面吸引并影響消費(fèi)者是網(wǎng)絡(luò)營銷的關(guān)鍵。
有關(guān)網(wǎng)絡(luò)營銷顧客消費(fèi)行為的特征以及預(yù)測,相當(dāng)多的學(xué)者做出了較為突出的貢獻(xiàn)。何明升(2002)研究了網(wǎng)絡(luò)消費(fèi)方式的內(nèi)在結(jié)構(gòu)及其形成機(jī)理。羅新星等(2003)把粗糙集理論的數(shù)據(jù)挖掘方法應(yīng)用于電子商務(wù)中。金玲玲等(2012)探索了基于差別函數(shù)的屬性約簡算法在電子商務(wù)中的應(yīng)用。但這些研究在把粗糙集理論應(yīng)用到電子商務(wù)中時,沒有考慮到電子商務(wù)消費(fèi)數(shù)據(jù)的不可得性與局限性。于是,有相當(dāng)多的學(xué)者對粗糙集理論的改進(jìn)算法提出了很好的建議。王明娜(2002)提出了一種改進(jìn)的粗糙集數(shù)據(jù)挖掘方法。張艷榮(2012)把改進(jìn)的粗糙集理論應(yīng)用于森林病蟲害預(yù)測。王燕(2007)在其碩士論文中探索了基于粗糙集的屬性約簡研究。
在上述研究的基礎(chǔ)上,本文將以電子商務(wù)消費(fèi)個體背景為基礎(chǔ),從信息學(xué)的角度審視電子商務(wù)顧客消費(fèi)行為的全過程以及影響消費(fèi)者購買決策的因素。由于電子商務(wù)消費(fèi)行為相關(guān)的知識量比較大,為了能夠快速、準(zhǔn)確地從雜亂無章的海量數(shù)據(jù)中挖掘潛在的有利用價(jià)值的信息并用于電子商務(wù)消費(fèi)行為的預(yù)測中,本文將粗糙集理論應(yīng)用于電子商務(wù)消費(fèi)行為的預(yù)測過程之中。通過對電子商務(wù)消費(fèi)行為的相關(guān)數(shù)據(jù)進(jìn)行收集、完備化和離散化,本文提出了一種改進(jìn)的基于差別矩陣的屬性約簡算法,并基于此算法對電子商務(wù)消費(fèi)行為的條件屬性集進(jìn)行約簡,從而對產(chǎn)生的規(guī)則進(jìn)行提取與約簡,得出了一種新的基于粗糙集理論的電子商務(wù)消費(fèi)行為預(yù)測方法。
二、粗糙集理論
(一 )粗糙集的下近似集和上近似集
K=(U,S)為給定的知識庫,U表示論域,S為U上的等價(jià)關(guān)系簇,則XU和U上的一個等價(jià)關(guān)系R∈IND(K),子集X關(guān)于知識R的上近似和下近似的定義分別為:
R(X)={x|(x∈U)Λ([x]R∩X≠)}
R(X)={x|(x∈U)Λ([x]RX)}
集合X的上近似、下近似和邊界域如圖1所示。
其中,U為論域,表示整個區(qū)域包含的元素;論域在等價(jià)關(guān)系R下的分類模式U/R表示圖1中的所有方格組成的集合; R為等價(jià)關(guān)系,圖中為劃分整個區(qū)域的橫豎線。
(二)知識約簡
知識庫中的知識并不是同等重要的,有些知識是冗余的。知識約簡是將一些無關(guān)或多余的特征丟掉,在不影響其原有的分析預(yù)測功能的前提下,將信息量減少,即在不影響原知識分類的情況下,將n維信息空間{x1,x2,…,xn}減小為m維{x1,x2,…,xm}(m 以下為約簡與核的定義,它們是知識約簡中兩個最基本、最重要的概念。 對于知識庫K=(U,S)和K中的一個等價(jià)關(guān)系族PS,任意的GP,若G是獨(dú)立的,且 IND(G)=IND(P),則稱G是P的一個約簡,記為G∈RED(P)。其中,P的全體約簡組成的集合用RED(P)表示。 令P為一個等價(jià)關(guān)系族PS,R∈P,如果INDP=INDP-{R}成立,則稱R為P中不必要的;對給定的知識庫K=(U,S)和知識庫中的一個等價(jià)關(guān)系族PS,對任意的R∈P,若R滿足INDP-{R}≠INDP,則稱R為P中必要的。P中所有必要關(guān)系組成的集合稱為P的核,記作CORE(P)。 (三)知識表達(dá)系統(tǒng) 在智能數(shù)據(jù)處理中,知識表達(dá)占據(jù)極其重要的地位。知識表達(dá)系統(tǒng)是粗糙集理論中主要的知識表示方法,其基本成分是研究對象的集合。我們可以采用指定對象的基本特征和屬性來進(jìn)行描述,表示為S=(U,A,V,f),通常用S=(U,A)來代替。其中,U表示對象的非空有限集合,即為論域;A表示屬性的非空有限集合,即為屬性集;V=∪a∈AVa,Va表示屬性a的值域;f為U×A→V是一個信息函數(shù),其為每一個對象的每個屬性賦予一個信息值,即a∈A,x∈U,f(x,a)∈Va。這樣定義的知識表達(dá)系統(tǒng)可以方便地用表格表達(dá)來實(shí)現(xiàn)。知識的表格方法可以看成一種特殊的形式語言,它用符號表達(dá)等價(jià)關(guān)系,這樣的數(shù)據(jù)表成為知識表達(dá)系統(tǒng)。
表1即為一個知識表達(dá)系統(tǒng),可以看到全體論域U=(x1,x2,x3,x4,x5,x6),全體屬性集合為A=(p1,p2,p3,p4,p5),此外,設(shè)VP1=(0,1),VP2=(0,1),VP3=(0,1),VP4=(0,1),VP5=(0,1),這樣就構(gòu)成了一個知識表達(dá)系統(tǒng)。
(四)決策表
若知識表達(dá)系統(tǒng)S=(U,A,V,f),其中A=C∪D,C∩D=,C表示條件屬性集,D表示決策屬性集。決策表是具有條件屬性和決策屬性的知識表達(dá)系統(tǒng),如表2所示。
(五)屬性重要度
每一個決策表中的屬性在做決策和數(shù)據(jù)分類時,其角色是不一樣的,所起到的作用也不盡相同。為了更好地計(jì)算這種屬性的重要度,我們可以采取的方法是逐一去掉每個屬性,進(jìn)而檢測這個決策系統(tǒng)在做決策和分類時,是否會因?yàn)橐频袅诉@個屬性而發(fā)生明顯的改變。如果去掉該屬性后,整個系統(tǒng)的決策發(fā)生了明顯的改變,那么這個屬性就具有相當(dāng)?shù)闹匾?,?jì)算的重要值越大,表明該屬性越不可刪除;反之計(jì)算的重要值越小,其刪除該屬性的可能性越大。下面用正區(qū)域概念來表達(dá)這種思想:關(guān)于由屬性集C引入的分類,其屬性子集B′B的意義就是重要度的描述,用這種差來表示:dB′-B(c)=rB(c)-rB′-B(c),該式表明,如果去掉這個屬性子集B′,用屬性B的方法分類個體,其正區(qū)域是如何被影響的。若B′是一個屬性,則說明丟掉這個屬性,其正區(qū)域是如何被改變的。
(六)區(qū)分矩陣和區(qū)分函數(shù)
設(shè)知識表達(dá)系統(tǒng)S=(U,A,V,f),U=n·S的區(qū)分矩陣是一個n×n矩陣,其任一元素為:
三、基于粗糙集的電子商務(wù)消費(fèi)行為預(yù)測
粗糙集作為一種數(shù)據(jù)處理的分析方法,可在保持知識分類能力不變的情況下,通過對知識進(jìn)行約簡,得出問題的分類或決策規(guī)則(張宇、韓春怡,2007)。故本文將粗糙集理論應(yīng)用到電子商務(wù)顧客消費(fèi)行為的預(yù)測中,利用約簡算法刪除冗余的條件屬性,對電子商務(wù)消費(fèi)行為的條件屬性集進(jìn)行約簡,得到必要的條件屬性集;利用改進(jìn)的消費(fèi)行為預(yù)測的規(guī)則約簡算法對電子商務(wù)消費(fèi)行為預(yù)測的規(guī)則進(jìn)行提取并進(jìn)行約簡,得出電子商務(wù)顧客消費(fèi)行為的決策規(guī)則。
基于粗糙集理論的電子商務(wù)顧客消費(fèi)行為預(yù)測具體操作過程如圖2所示,主要包括以下幾個步驟:(1)通過對電子商務(wù)消費(fèi)數(shù)據(jù)的收集、完備化及離散化,完成對電子商務(wù)顧客消費(fèi)行為預(yù)測基本數(shù)據(jù)的預(yù)處理;(2)去掉電子商務(wù)顧客消費(fèi)行為的冗余數(shù)據(jù)信息,完成對顧客消費(fèi)行為預(yù)測的條件屬性集的約簡;(3)通過對電子商務(wù)顧客消費(fèi)行為預(yù)測的規(guī)則進(jìn)行提取與約簡,得出必要的消費(fèi)行為預(yù)測規(guī)則集;(4)通過計(jì)算規(guī)則的置信度與覆蓋度,進(jìn)行規(guī)則過濾,得到電子商務(wù)消費(fèi)行為預(yù)測的決策規(guī)則。
(一)模型構(gòu)建與算例
1.粗糙集理論模型
利用粗糙集理論對電子商務(wù)消費(fèi)行為預(yù)測數(shù)據(jù)進(jìn)行分析之前,首先要對數(shù)據(jù)進(jìn)行預(yù)處理,收集有效數(shù)據(jù),建立電子商務(wù)消費(fèi)行為預(yù)測信息表。將所有的消費(fèi)行為預(yù)測數(shù)據(jù)匯總到一個信息系統(tǒng)里,其可以用二維表來表示。信息表的行對應(yīng)各對象及其各屬性的值,列對應(yīng)各屬性及各對象的屬性值。進(jìn)而將需要處理的數(shù)據(jù)放在匯總的信息表里。
本文根據(jù)電子商務(wù)消費(fèi)行為預(yù)測過程以及預(yù)測的特點(diǎn),建立了電子商務(wù)消費(fèi)行為預(yù)測知識表,進(jìn)而構(gòu)建電子商務(wù)消費(fèi)行為預(yù)測體系。在此之前,將顧客消費(fèi)行為預(yù)測的參數(shù)值匯總到一個知識表之中。匯總后的電子商務(wù)消費(fèi)行為預(yù)測信息表的格式如表3所示。
2.算例原始數(shù)據(jù)選取和離散化處理
本文以電商網(wǎng)絡(luò)平臺記錄的顧客特征作為應(yīng)用實(shí)例來介紹粗糙集理論在電子商務(wù)消費(fèi)行為預(yù)測中的應(yīng)用。經(jīng)過優(yōu)選,選出相關(guān)程度較好的3個購買因子 ,即顧客年齡、教育水平和收入,以此作為條件屬性,研究2005~2013年某電子商務(wù)平臺顧客購買產(chǎn)品特性,并推測未來該電商平臺顧客購買產(chǎn)品的特性。論域?yàn)閁{X1,X2 … X6},其中X1,X2 … X6,分別表示2005-2013年,所在行的值為對應(yīng)的各項(xiàng)指標(biāo);屬性集為A={C,D},C= {r1,r2,r3 }為條件屬性集,D=syggg00則是決策屬性集,其中r1、r2、r3為顧客年齡、顧客教育水平和月平均收入。原始數(shù)據(jù)見表4。
根據(jù)粗糙集理論的要求對各個屬性的數(shù)值進(jìn)行離散化。對每組數(shù)據(jù)采取高、中、低分類,高用Y表示,中用H表示,低用N表示。年齡分為高、中、低3個等級,40歲以上為高,20-40歲為中,20歲以下為低;教育水平分為高、中、低3個等級,碩士及以上為高,大學(xué)(本科、專科)為中,高中及以下為低;收入水平(月收入) 也分為3個等級,10 000元以上為高,5 000-10 000元為中,5 000元以下為低;購買商品類別為1和2類。初始決策見表5。
(二)條件屬性集的約簡
1.約簡算法描述
采用差別矩陣方法對屬性集進(jìn)行約簡??紤]到差別矩陣中如果含有單屬性元素,則不能求出約簡的決策表,因此本文對電子商務(wù)顧客消費(fèi)行為條件屬性集的約簡采用一種改進(jìn)的基于差別矩陣的屬性約簡算法。該算法首先通過計(jì)算決策屬性對條件屬性的依賴度來對決策表中的數(shù)據(jù)進(jìn)行初步處理,再充分利用差別矩陣的優(yōu)點(diǎn),快速計(jì)算決策表的核,并依據(jù)屬性的重要度及約簡可信度的值,獲取合理規(guī)則。算法描述如下:
(1)輸入K={U,C∪D,V,f}。
(2)計(jì)算條件屬性a的依賴度γa(D)(a∈C),若γa(D)=0,C=C-{a}。
(3)對γa(D)≠0的條件屬性集,寫出Mn×n(K)=(cij)n×n的下三角矩陣,其中i,j=1,2,…,n。
cij={α|(α∈C)∧(fα(xi)≠fα(xj))},
fD(xi)≠fD(xj),,fD(xi)≠fD(xj)∧
fC(xi)=fC(xj),-,fD(xi)=fD(xj)。endprint
(4)對差別矩陣進(jìn)行搜索,若矩陣中的所有元素的值均不等于,則轉(zhuǎn)至(4);若矩陣中有元素的值為,則退出。
(5)對差別矩陣進(jìn)行搜索,并將其所有單屬性元素賦給COREC(D),輸出COREC(D)={α|(α∈C)∧(cij,((cij∈Mn×n(K))∧(cij={α})))}。
(6) 得出包含相對D核的所有可能的屬性組合,如果滿足cij∈Mn×n(K),當(dāng)cij≠時, B∩cij≠; B獨(dú)立。則將其賦值給REDC(D),并遍歷所有包含相對D核的屬性組合。
(7)輸出REDC(D),計(jì)算REDC(D)中的屬性的重要性σCD(a)=γC(D)-γC-{a}(D) 。其中,a∈C,若σCD(a)>09,則RED′C (D)COREC (D)∪a,遍歷REDC(D)中所有的屬性組合,計(jì)算RED′C (D)的可信度。
(8) 輸出RED′C (D),算法結(jié)束。
2.算例約簡
對論域進(jìn)行劃分,可得如下等價(jià)類 :U/C={X1, X2, X3, X4, X5, X6}根據(jù)上述等價(jià)類,我們求取以下指標(biāo):
YH的下近似:apr(Yn)={{n2 }, {n3},{n8}}
YH的上近似: {{n2 },{n3 }, {n8},{n4,n5,n6,n9}}
YL的下近似:apr(YL)= {{n1}, {n7}}
YL的上近似: {{n1}, {n7}, {n4,n5,n6,n9} }
計(jì)算得到:YL的分類精度=3/7=043,YH的分類精度=2/6=033 ,其分類質(zhì)量=5/9=056。
由屬性a1對論域進(jìn)行劃分,我們可以得到其等價(jià)類如下:U/a1={X1,X2,X3,,X4,X5,X6},其中:X1={n1,n3,n8},X2={n2,n4,n5,n6,n9},X3={n7},YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9}
從以上分析可以看到,屬性a1的分類質(zhì)量小于總的分類質(zhì)量,則說明屬性年齡不是約簡。
由屬性a1、a2對論域進(jìn)行劃分,可得如下等價(jià)類 :U/C={X1, X2, X3, X4, X5, X6};其中:X1={n1},X2={n2},X3={n3, n8},X4={n4,n5,n6,n9},X5={n7};YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9},分類質(zhì)量=5/9=056,與整個屬性集的分類質(zhì)量相同,因此屬性子集{a1,a2}是約簡。
由屬性a1、a3對論域進(jìn)行劃分,可得如下等價(jià)類:U/C={X1, X2, X3, X4, X5, X6},其中:X1={n1},X2={n2},X3={n3},X4={n4,n5,n6,n9},X5={n7},X6={n8};YL={n2,n3,n4,n5,n6,n8},YH={n1,n7,n9},分類質(zhì)量=5/9=056,與整個屬性集的分類質(zhì)量相同。因此,屬性子集{a1,a3}是約簡。同理可求得屬性子集{a2,a3}也為約簡。
(三)規(guī)則的提取
1.規(guī)則的提取說明
以上述消費(fèi)記錄為例,對產(chǎn)生的規(guī)則進(jìn)行提取與約簡得到的規(guī)則如下:
(教育)且(收入)(購買類別);
(年齡)且(收入)(購買類別)。
其中,消費(fèi)行為預(yù)測的規(guī)則約簡采用的算法描述如下:
(1)輸入K′={U,C∪D,V,f}。
(2)B0=COREC(D),A=C-B0={β1,β2,…,βm}(βi∈A,m≤card(C),i=1,2,…,m),根據(jù)屬性的重要度排序,分別求取OA,Tl+1(OA)和OTl+1(OA)(0≤l≤m),posB0(D)和posC(D)。
(3)判斷相等性。若相等,則輸出B0=min{REDC(D)},轉(zhuǎn)至(11);否則轉(zhuǎn)至(4)。
(4)設(shè)i=1,flag=0,Z,B,B0。
(5)設(shè)Y=OTi(OA)。
(6)取y∈Y,BB0∪{y},計(jì)算posB(D),然后判斷posB(D)與posC(D)是否相等,若posB(D)=posC(D),且flag=0,則Z=B,flag=1;若card(U/Z)>card(U/B),則Z=B,flag=0。
(7)Y=Y-{y}。
(8)如果Y≠,轉(zhuǎn)至(6)。
(9)如果flag=1,則min{REDC(D)}=Z,轉(zhuǎn)(11)。
(10)i=i+1,如果i≤m,轉(zhuǎn)至(5)。
(11)輸出min{REDC(D)},算法結(jié)束。
2.結(jié)果分析
由約簡{a1,a3}構(gòu)造的規(guī)則如下所示:
a1=Y,并且a3=N,則d=N,即在百分百的置信度下,年齡較高,并且收入較低的人會更多地購買1類產(chǎn)品。
a1=H,并且a3=N,則d=Y,即在百分百的置信度下,年齡居中,并且收入較低的人會更多地購買2類產(chǎn)品。
a1=Y,并且a3=Y,則d=Y,即在百分百的置信度下,年齡較高,并且收入較高的人會更多地購買1類產(chǎn)品。
a1=Y,并且a3=H,則d=Y,即在百分百的置信度下,年齡較高,并且收入居中的人會更多地購買1類產(chǎn)品。
a1=N,即在百分百的置信度下,年齡較低人會更多地購買2類產(chǎn)品。
通過上述過程可知,在電子商務(wù)消費(fèi)行為分析中,可在知識系統(tǒng)分類能力不變的前提下,對不必要的屬性進(jìn)行約簡,再對規(guī)則進(jìn)行提取與約簡,最后得出確定性的規(guī)則,這樣企業(yè)可以很清晰地知道哪些屬性是需要深刻掌握的,哪些屬性并不能明顯地影響到顧客的購買行為,以避免企業(yè)在制定電子商務(wù)營銷決策時對這些屬性投入過多的精力。通過粗糙集電子商務(wù)消費(fèi)行為的預(yù)測,我們可以幫助企業(yè)制定更加契合實(shí)際的電子商務(wù)營銷決策,把有限的人、財(cái)、物用于提供更加具有競爭力的產(chǎn)品,從而滿足顧客需求,創(chuàng)造最大化的顧客價(jià)值。
四、結(jié)論
本文采用了一種改進(jìn)的基于差別矩陣的屬性約簡算法對電子商務(wù)消費(fèi)行為預(yù)測條件屬性集進(jìn)行約簡,并對產(chǎn)生的規(guī)則進(jìn)行提取與約簡,得出了一種新的基于粗糙集理論的電子商務(wù)消費(fèi)行為預(yù)測方法,該方法取得較好的實(shí)際效果。
參考文獻(xiàn):
[1] 張宇,韓春怡.電子商務(wù)環(huán)境下營銷渠道的管理[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,9(1):109-112.
[2] 張艷榮.基于粗糙集理論的森林病蟲害預(yù)測模型與算法的研究[D].哈爾濱:東北林業(yè)大學(xué),2012.
[3] 王燕. 基于粗糙集的屬性約簡研究[D].成都:四川師范大學(xué),2007.
[4] 金玲玲,朱紫焱,蘇莉.基于差別函數(shù)的屬性約簡算法在電子商務(wù)中的應(yīng)用[J].軟件導(dǎo)刊,2012,9(12):47-49.endprint
(4)對差別矩陣進(jìn)行搜索,若矩陣中的所有元素的值均不等于,則轉(zhuǎn)至(4);若矩陣中有元素的值為,則退出。
(5)對差別矩陣進(jìn)行搜索,并將其所有單屬性元素賦給COREC(D),輸出COREC(D)={α|(α∈C)∧(cij,((cij∈Mn×n(K))∧(cij={α})))}。
(6) 得出包含相對D核的所有可能的屬性組合,如果滿足cij∈Mn×n(K),當(dāng)cij≠時, B∩cij≠; B獨(dú)立。則將其賦值給REDC(D),并遍歷所有包含相對D核的屬性組合。
(7)輸出REDC(D),計(jì)算REDC(D)中的屬性的重要性σCD(a)=γC(D)-γC-{a}(D) 。其中,a∈C,若σCD(a)>09,則RED′C (D)COREC (D)∪a,遍歷REDC(D)中所有的屬性組合,計(jì)算RED′C (D)的可信度。
(8) 輸出RED′C (D),算法結(jié)束。
2.算例約簡
對論域進(jìn)行劃分,可得如下等價(jià)類 :U/C={X1, X2, X3, X4, X5, X6}根據(jù)上述等價(jià)類,我們求取以下指標(biāo):
YH的下近似:apr(Yn)={{n2 }, {n3},{n8}}
YH的上近似: {{n2 },{n3 }, {n8},{n4,n5,n6,n9}}
YL的下近似:apr(YL)= {{n1}, {n7}}
YL的上近似: {{n1}, {n7}, {n4,n5,n6,n9} }
計(jì)算得到:YL的分類精度=3/7=043,YH的分類精度=2/6=033 ,其分類質(zhì)量=5/9=056。
由屬性a1對論域進(jìn)行劃分,我們可以得到其等價(jià)類如下:U/a1={X1,X2,X3,,X4,X5,X6},其中:X1={n1,n3,n8},X2={n2,n4,n5,n6,n9},X3={n7},YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9}
從以上分析可以看到,屬性a1的分類質(zhì)量小于總的分類質(zhì)量,則說明屬性年齡不是約簡。
由屬性a1、a2對論域進(jìn)行劃分,可得如下等價(jià)類 :U/C={X1, X2, X3, X4, X5, X6};其中:X1={n1},X2={n2},X3={n3, n8},X4={n4,n5,n6,n9},X5={n7};YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9},分類質(zhì)量=5/9=056,與整個屬性集的分類質(zhì)量相同,因此屬性子集{a1,a2}是約簡。
由屬性a1、a3對論域進(jìn)行劃分,可得如下等價(jià)類:U/C={X1, X2, X3, X4, X5, X6},其中:X1={n1},X2={n2},X3={n3},X4={n4,n5,n6,n9},X5={n7},X6={n8};YL={n2,n3,n4,n5,n6,n8},YH={n1,n7,n9},分類質(zhì)量=5/9=056,與整個屬性集的分類質(zhì)量相同。因此,屬性子集{a1,a3}是約簡。同理可求得屬性子集{a2,a3}也為約簡。
(三)規(guī)則的提取
1.規(guī)則的提取說明
以上述消費(fèi)記錄為例,對產(chǎn)生的規(guī)則進(jìn)行提取與約簡得到的規(guī)則如下:
(教育)且(收入)(購買類別);
(年齡)且(收入)(購買類別)。
其中,消費(fèi)行為預(yù)測的規(guī)則約簡采用的算法描述如下:
(1)輸入K′={U,C∪D,V,f}。
(2)B0=COREC(D),A=C-B0={β1,β2,…,βm}(βi∈A,m≤card(C),i=1,2,…,m),根據(jù)屬性的重要度排序,分別求取OA,Tl+1(OA)和OTl+1(OA)(0≤l≤m),posB0(D)和posC(D)。
(3)判斷相等性。若相等,則輸出B0=min{REDC(D)},轉(zhuǎn)至(11);否則轉(zhuǎn)至(4)。
(4)設(shè)i=1,flag=0,Z,B,B0。
(5)設(shè)Y=OTi(OA)。
(6)取y∈Y,BB0∪{y},計(jì)算posB(D),然后判斷posB(D)與posC(D)是否相等,若posB(D)=posC(D),且flag=0,則Z=B,flag=1;若card(U/Z)>card(U/B),則Z=B,flag=0。
(7)Y=Y-{y}。
(8)如果Y≠,轉(zhuǎn)至(6)。
(9)如果flag=1,則min{REDC(D)}=Z,轉(zhuǎn)(11)。
(10)i=i+1,如果i≤m,轉(zhuǎn)至(5)。
(11)輸出min{REDC(D)},算法結(jié)束。
2.結(jié)果分析
由約簡{a1,a3}構(gòu)造的規(guī)則如下所示:
a1=Y,并且a3=N,則d=N,即在百分百的置信度下,年齡較高,并且收入較低的人會更多地購買1類產(chǎn)品。
a1=H,并且a3=N,則d=Y,即在百分百的置信度下,年齡居中,并且收入較低的人會更多地購買2類產(chǎn)品。
a1=Y,并且a3=Y,則d=Y,即在百分百的置信度下,年齡較高,并且收入較高的人會更多地購買1類產(chǎn)品。
a1=Y,并且a3=H,則d=Y,即在百分百的置信度下,年齡較高,并且收入居中的人會更多地購買1類產(chǎn)品。
a1=N,即在百分百的置信度下,年齡較低人會更多地購買2類產(chǎn)品。
通過上述過程可知,在電子商務(wù)消費(fèi)行為分析中,可在知識系統(tǒng)分類能力不變的前提下,對不必要的屬性進(jìn)行約簡,再對規(guī)則進(jìn)行提取與約簡,最后得出確定性的規(guī)則,這樣企業(yè)可以很清晰地知道哪些屬性是需要深刻掌握的,哪些屬性并不能明顯地影響到顧客的購買行為,以避免企業(yè)在制定電子商務(wù)營銷決策時對這些屬性投入過多的精力。通過粗糙集電子商務(wù)消費(fèi)行為的預(yù)測,我們可以幫助企業(yè)制定更加契合實(shí)際的電子商務(wù)營銷決策,把有限的人、財(cái)、物用于提供更加具有競爭力的產(chǎn)品,從而滿足顧客需求,創(chuàng)造最大化的顧客價(jià)值。
四、結(jié)論
本文采用了一種改進(jìn)的基于差別矩陣的屬性約簡算法對電子商務(wù)消費(fèi)行為預(yù)測條件屬性集進(jìn)行約簡,并對產(chǎn)生的規(guī)則進(jìn)行提取與約簡,得出了一種新的基于粗糙集理論的電子商務(wù)消費(fèi)行為預(yù)測方法,該方法取得較好的實(shí)際效果。
參考文獻(xiàn):
[1] 張宇,韓春怡.電子商務(wù)環(huán)境下營銷渠道的管理[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,9(1):109-112.
[2] 張艷榮.基于粗糙集理論的森林病蟲害預(yù)測模型與算法的研究[D].哈爾濱:東北林業(yè)大學(xué),2012.
[3] 王燕. 基于粗糙集的屬性約簡研究[D].成都:四川師范大學(xué),2007.
[4] 金玲玲,朱紫焱,蘇莉.基于差別函數(shù)的屬性約簡算法在電子商務(wù)中的應(yīng)用[J].軟件導(dǎo)刊,2012,9(12):47-49.endprint
(4)對差別矩陣進(jìn)行搜索,若矩陣中的所有元素的值均不等于,則轉(zhuǎn)至(4);若矩陣中有元素的值為,則退出。
(5)對差別矩陣進(jìn)行搜索,并將其所有單屬性元素賦給COREC(D),輸出COREC(D)={α|(α∈C)∧(cij,((cij∈Mn×n(K))∧(cij={α})))}。
(6) 得出包含相對D核的所有可能的屬性組合,如果滿足cij∈Mn×n(K),當(dāng)cij≠時, B∩cij≠; B獨(dú)立。則將其賦值給REDC(D),并遍歷所有包含相對D核的屬性組合。
(7)輸出REDC(D),計(jì)算REDC(D)中的屬性的重要性σCD(a)=γC(D)-γC-{a}(D) 。其中,a∈C,若σCD(a)>09,則RED′C (D)COREC (D)∪a,遍歷REDC(D)中所有的屬性組合,計(jì)算RED′C (D)的可信度。
(8) 輸出RED′C (D),算法結(jié)束。
2.算例約簡
對論域進(jìn)行劃分,可得如下等價(jià)類 :U/C={X1, X2, X3, X4, X5, X6}根據(jù)上述等價(jià)類,我們求取以下指標(biāo):
YH的下近似:apr(Yn)={{n2 }, {n3},{n8}}
YH的上近似: {{n2 },{n3 }, {n8},{n4,n5,n6,n9}}
YL的下近似:apr(YL)= {{n1}, {n7}}
YL的上近似: {{n1}, {n7}, {n4,n5,n6,n9} }
計(jì)算得到:YL的分類精度=3/7=043,YH的分類精度=2/6=033 ,其分類質(zhì)量=5/9=056。
由屬性a1對論域進(jìn)行劃分,我們可以得到其等價(jià)類如下:U/a1={X1,X2,X3,,X4,X5,X6},其中:X1={n1,n3,n8},X2={n2,n4,n5,n6,n9},X3={n7},YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9}
從以上分析可以看到,屬性a1的分類質(zhì)量小于總的分類質(zhì)量,則說明屬性年齡不是約簡。
由屬性a1、a2對論域進(jìn)行劃分,可得如下等價(jià)類 :U/C={X1, X2, X3, X4, X5, X6};其中:X1={n1},X2={n2},X3={n3, n8},X4={n4,n5,n6,n9},X5={n7};YL={n2,n3,n4,n5,n6, n8},YH={n1, n7, n9},分類質(zhì)量=5/9=056,與整個屬性集的分類質(zhì)量相同,因此屬性子集{a1,a2}是約簡。
由屬性a1、a3對論域進(jìn)行劃分,可得如下等價(jià)類:U/C={X1, X2, X3, X4, X5, X6},其中:X1={n1},X2={n2},X3={n3},X4={n4,n5,n6,n9},X5={n7},X6={n8};YL={n2,n3,n4,n5,n6,n8},YH={n1,n7,n9},分類質(zhì)量=5/9=056,與整個屬性集的分類質(zhì)量相同。因此,屬性子集{a1,a3}是約簡。同理可求得屬性子集{a2,a3}也為約簡。
(三)規(guī)則的提取
1.規(guī)則的提取說明
以上述消費(fèi)記錄為例,對產(chǎn)生的規(guī)則進(jìn)行提取與約簡得到的規(guī)則如下:
(教育)且(收入)(購買類別);
(年齡)且(收入)(購買類別)。
其中,消費(fèi)行為預(yù)測的規(guī)則約簡采用的算法描述如下:
(1)輸入K′={U,C∪D,V,f}。
(2)B0=COREC(D),A=C-B0={β1,β2,…,βm}(βi∈A,m≤card(C),i=1,2,…,m),根據(jù)屬性的重要度排序,分別求取OA,Tl+1(OA)和OTl+1(OA)(0≤l≤m),posB0(D)和posC(D)。
(3)判斷相等性。若相等,則輸出B0=min{REDC(D)},轉(zhuǎn)至(11);否則轉(zhuǎn)至(4)。
(4)設(shè)i=1,flag=0,Z,B,B0。
(5)設(shè)Y=OTi(OA)。
(6)取y∈Y,BB0∪{y},計(jì)算posB(D),然后判斷posB(D)與posC(D)是否相等,若posB(D)=posC(D),且flag=0,則Z=B,flag=1;若card(U/Z)>card(U/B),則Z=B,flag=0。
(7)Y=Y-{y}。
(8)如果Y≠,轉(zhuǎn)至(6)。
(9)如果flag=1,則min{REDC(D)}=Z,轉(zhuǎn)(11)。
(10)i=i+1,如果i≤m,轉(zhuǎn)至(5)。
(11)輸出min{REDC(D)},算法結(jié)束。
2.結(jié)果分析
由約簡{a1,a3}構(gòu)造的規(guī)則如下所示:
a1=Y,并且a3=N,則d=N,即在百分百的置信度下,年齡較高,并且收入較低的人會更多地購買1類產(chǎn)品。
a1=H,并且a3=N,則d=Y,即在百分百的置信度下,年齡居中,并且收入較低的人會更多地購買2類產(chǎn)品。
a1=Y,并且a3=Y,則d=Y,即在百分百的置信度下,年齡較高,并且收入較高的人會更多地購買1類產(chǎn)品。
a1=Y,并且a3=H,則d=Y,即在百分百的置信度下,年齡較高,并且收入居中的人會更多地購買1類產(chǎn)品。
a1=N,即在百分百的置信度下,年齡較低人會更多地購買2類產(chǎn)品。
通過上述過程可知,在電子商務(wù)消費(fèi)行為分析中,可在知識系統(tǒng)分類能力不變的前提下,對不必要的屬性進(jìn)行約簡,再對規(guī)則進(jìn)行提取與約簡,最后得出確定性的規(guī)則,這樣企業(yè)可以很清晰地知道哪些屬性是需要深刻掌握的,哪些屬性并不能明顯地影響到顧客的購買行為,以避免企業(yè)在制定電子商務(wù)營銷決策時對這些屬性投入過多的精力。通過粗糙集電子商務(wù)消費(fèi)行為的預(yù)測,我們可以幫助企業(yè)制定更加契合實(shí)際的電子商務(wù)營銷決策,把有限的人、財(cái)、物用于提供更加具有競爭力的產(chǎn)品,從而滿足顧客需求,創(chuàng)造最大化的顧客價(jià)值。
四、結(jié)論
本文采用了一種改進(jìn)的基于差別矩陣的屬性約簡算法對電子商務(wù)消費(fèi)行為預(yù)測條件屬性集進(jìn)行約簡,并對產(chǎn)生的規(guī)則進(jìn)行提取與約簡,得出了一種新的基于粗糙集理論的電子商務(wù)消費(fèi)行為預(yù)測方法,該方法取得較好的實(shí)際效果。
參考文獻(xiàn):
[1] 張宇,韓春怡.電子商務(wù)環(huán)境下營銷渠道的管理[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,9(1):109-112.
[2] 張艷榮.基于粗糙集理論的森林病蟲害預(yù)測模型與算法的研究[D].哈爾濱:東北林業(yè)大學(xué),2012.
[3] 王燕. 基于粗糙集的屬性約簡研究[D].成都:四川師范大學(xué),2007.
[4] 金玲玲,朱紫焱,蘇莉.基于差別函數(shù)的屬性約簡算法在電子商務(wù)中的應(yīng)用[J].軟件導(dǎo)刊,2012,9(12):47-49.endprint