韓龍
摘要:隨著目前互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,電子商務(wù)這種商業(yè)模式已經(jīng)逐漸取代傳統(tǒng)的商業(yè)模式,電子商務(wù)帶來(lái)的商機(jī)對(duì)現(xiàn)今社會(huì)經(jīng)濟(jì)結(jié)構(gòu)的影響也越來(lái)越大。電子商務(wù)的蓬勃發(fā)展和規(guī)模壯大,導(dǎo)致WEB服務(wù)器中儲(chǔ)存了海量的訪問(wèn)信息和各種用戶數(shù)據(jù)。如何從這些海量的數(shù)據(jù)中挖掘出有價(jià)值的信息,就成了現(xiàn)今電子商務(wù)網(wǎng)站系統(tǒng)的首要任務(wù)。
關(guān)鍵詞:電子商務(wù);數(shù)據(jù)挖掘;算法
1引言
電子商務(wù)是指利用互聯(lián)網(wǎng),通過(guò)數(shù)字化電子信息傳送的方式進(jìn)行的商業(yè)活動(dòng)或者商業(yè)信息的交流,目前已經(jīng)產(chǎn)生了各種各樣的電子商務(wù)形式,例如網(wǎng)上購(gòu)物、網(wǎng)上銀行、網(wǎng)上付賬、電子票據(jù)交換、網(wǎng)上招商廣告等等。電子商務(wù)有它獨(dú)特的特色優(yōu)勢(shì):電子商務(wù)不受時(shí)間和地域的限制,只要能夠上網(wǎng),無(wú)論什么時(shí)間、身處何地,即使足不出戶也能夠通過(guò)網(wǎng)絡(luò)時(shí)刻關(guān)注商業(yè)行情,進(jìn)行買賣交易和商業(yè)活動(dòng);電子商務(wù)還大大降低了商家的運(yùn)營(yíng)成本,不再像傳統(tǒng)商業(yè)那樣需要實(shí)體店鋪,也不需要銷售員工和店員,可以直接通過(guò)網(wǎng)絡(luò)進(jìn)貨、銷售,減少倉(cāng)儲(chǔ)、節(jié)省出大量的人力、物力和財(cái)力,因此電子商務(wù)的經(jīng)營(yíng)方式更受到廣大商家的青睞。
電子商務(wù)網(wǎng)站系統(tǒng)里面經(jīng)常會(huì)用到數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘是一種使用廣泛的價(jià)值信息提取技術(shù)。它的根本含義是從大量的、無(wú)規(guī)則的、不完全的并且伴隨絕大多數(shù)垃圾信息的數(shù)據(jù)中篩選出對(duì)自己有用的、有價(jià)值的信息。而目前存儲(chǔ)于WEB上的各種關(guān)聯(lián)電子商務(wù)的數(shù)據(jù)信息量十分龐大,這些信息還有著動(dòng)態(tài)性和不確定性,更是加大了提取有價(jià)值信息的難度。如果想從中獲取對(duì)自己有用的信息,需要通過(guò)WEB數(shù)據(jù)挖掘?qū)π畔⑦M(jìn)行有效的篩選和提取,最終獲得所需的價(jià)值信息。
2WEB數(shù)據(jù)挖掘在電子商務(wù)中的實(shí)際應(yīng)用
目前隨著電子商務(wù)的蓬勃發(fā)展,商家對(duì)于市場(chǎng)競(jìng)爭(zhēng)也變得越來(lái)越激烈。對(duì)于商家來(lái)說(shuō),掌握任何買家的相關(guān)信息都有可能帶來(lái)一次絕好的商機(jī)。例如商家如果能夠從海量的WEB數(shù)據(jù)中發(fā)現(xiàn)買家的興趣愛(ài)好、購(gòu)買需求、價(jià)值取向等信息,就可以隨時(shí)靈活的改變自己的銷售策略,使產(chǎn)品的種類、價(jià)格更能迎合消費(fèi)者的心理,取得更大的經(jīng)濟(jì)利益。而目前使用的WEB數(shù)據(jù)挖掘技術(shù)的目的都是為了獲得這樣的實(shí)際意義。WEB數(shù)據(jù)挖掘技術(shù)的應(yīng)用在目前來(lái)看主要有幾個(gè)方面,一是建立一些智能化的產(chǎn)品搜索引擎,通過(guò)WEB數(shù)據(jù)挖掘技術(shù)來(lái)找出顧客的興趣愛(ài)好,從顧客以往的消費(fèi)記錄和瀏覽信息中分析出顧客的一些特點(diǎn),提供適合顧客的一些服務(wù),提高顧客對(duì)商務(wù)網(wǎng)站的滿意度;二是在WEB客戶訪問(wèn)信息中進(jìn)行數(shù)據(jù)挖掘可以發(fā)現(xiàn)潛在的客戶群體,獲得更多潛在的客戶市場(chǎng);三可以通過(guò)WEB數(shù)據(jù)挖掘?qū)蛻舻脑L問(wèn)信息和訪問(wèn)模式進(jìn)行分析,通過(guò)客戶的使用習(xí)慣、興趣愛(ài)好和消費(fèi)習(xí)慣等信息來(lái)優(yōu)化網(wǎng)站結(jié)構(gòu),使網(wǎng)站組織結(jié)構(gòu)更加合理,符合客戶的使用習(xí)慣,增加客戶再次訪問(wèn)的幾率。而這些都是WEB數(shù)據(jù)信息進(jìn)行數(shù)據(jù)挖掘所帶來(lái)的好處和實(shí)際利益。因此說(shuō)在電子商務(wù)中進(jìn)行WEB數(shù)據(jù)挖掘所帶來(lái)潛在的經(jīng)濟(jì)收益是十分客觀的。
3電子商務(wù)挖掘系統(tǒng)的邏輯架構(gòu)
WEB數(shù)據(jù)挖掘技術(shù)如果應(yīng)用在電子商務(wù)活動(dòng)中,可以獲得大量有用的商業(yè)信息,給電子商務(wù)網(wǎng)站帶來(lái)豐厚的商業(yè)價(jià)值,因此如何使電子商務(wù)網(wǎng)站在海量的WEB信息中挖掘出這些商機(jī),讓W(xué)EB挖掘系統(tǒng)的功能變得更加強(qiáng)大、挖掘信息效率更高、實(shí)時(shí)性更好,這些就是電子商務(wù)挖掘系統(tǒng)的重點(diǎn)研究課題?;谄毡閼?yīng)用的電子商務(wù)系統(tǒng),這里給出了一般的邏輯架構(gòu):首先邏輯架構(gòu)的最外層模塊是系統(tǒng)的WEB界面、圖形操作界面和命令操作界面,這些都是管理者負(fù)責(zé)設(shè)計(jì)、修改、管理的可視化功能界面,可以根據(jù)需要對(duì)網(wǎng)站的界面、結(jié)構(gòu)和內(nèi)容信息隨時(shí)進(jìn)行修改。內(nèi)部數(shù)據(jù)挖掘模塊是數(shù)據(jù)挖掘、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)處理的內(nèi)部組件構(gòu)成,主要負(fù)責(zé)從各類數(shù)據(jù)信息中截取挑選數(shù)據(jù),并把挖掘轉(zhuǎn)換出的數(shù)據(jù)輸送到數(shù)據(jù)庫(kù),并處理掉垃圾信息,最后的數(shù)據(jù)模塊就是網(wǎng)站的后臺(tái)數(shù)據(jù)庫(kù)管理模塊,負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和備份。在這個(gè)邏輯架構(gòu)中,最重要的部分就是數(shù)據(jù)挖掘模塊,是否能夠挖掘出有價(jià)值的信息、對(duì)信息進(jìn)行數(shù)據(jù)挖掘的效率是否夠快就變得尤為重要,畢竟搶先一步獲得商機(jī)就意味著巨額的利潤(rùn)。為了提高效率在數(shù)據(jù)挖掘過(guò)程中會(huì)應(yīng)用到各種不同的算法,應(yīng)用得比較多的有Apriori算法和K-means聚類算法。下面來(lái)具體介紹一下這2種算法以及改進(jìn)的方法。
4Apriori算法及其改進(jìn)
Apriori算法是在1994年由R.Agrawal和R.Srikant提出的布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性算法。Apriori算法思想是通過(guò)使用了數(shù)據(jù)項(xiàng)頻集理論,對(duì)關(guān)系數(shù)據(jù)庫(kù)經(jīng)過(guò)一定次數(shù)的遍歷,最終篩選出符合關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集,這些頻繁項(xiàng)集則是數(shù)據(jù)挖掘算法的中心數(shù)據(jù)。Apriori算法的挖掘過(guò)程大致可以分為2步:第1步是搜索出符合關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集,這些頻繁項(xiàng)集需要滿足本身的所具有的支持度要大于選定的最小支持度的項(xiàng)集;第2步是找出頻繁項(xiàng)集之間的關(guān)聯(lián)規(guī)則。但是Apriori算法在實(shí)際應(yīng)用中有一個(gè)明顯的缺陷,那就是在選出備用的候選項(xiàng)集時(shí)會(huì)浪費(fèi)大量的時(shí)間,因?yàn)槊看芜x取候選項(xiàng)集時(shí)都需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行一次遍歷搜索,如果在遍歷搜索過(guò)程中產(chǎn)生大量的候選項(xiàng)目集時(shí),需要遍歷產(chǎn)生的時(shí)間就會(huì)大大增加,這樣就降低了算法的效率。針對(duì)5:Apriori算法這個(gè)缺點(diǎn),提出了算法的改進(jìn),改進(jìn)的方面主要是為了提高算法的效率并且讓產(chǎn)生的頻繁項(xiàng)集更加準(zhǔn)確。Apriori算法的改進(jìn)可以分為4步:第1步,根據(jù)信息數(shù)據(jù)庫(kù)的信息量大致分為若干個(gè)數(shù)據(jù)量相等的模塊。第2步,對(duì)劃分的這些模塊各自進(jìn)行頻繁項(xiàng)集的搜索工作,最終每一個(gè)模塊將得到一個(gè)頻繁項(xiàng)目集。第3步,通過(guò)算法的篩選,去掉這個(gè)頻繁項(xiàng)目集中包含錯(cuò)誤信息的項(xiàng)集,形成一個(gè)最終的適合所有數(shù)據(jù)的候選頻繁項(xiàng)目集。第4步,把產(chǎn)生的候選頻繁項(xiàng)目集應(yīng)用于整個(gè)數(shù)據(jù)庫(kù),計(jì)算出候選項(xiàng)目集中項(xiàng)目的實(shí)際支持度,最后確定出Apriori算法需要的頻繁項(xiàng)目集。這樣改進(jìn)的好處就是頻繁項(xiàng)目集的選取不再需要對(duì)數(shù)據(jù)庫(kù)中所有數(shù)據(jù)進(jìn)行遍歷,節(jié)約了算法大量的時(shí)間,而且通過(guò)先找出潛在頻繁項(xiàng)目集進(jìn)行對(duì)比計(jì)算的方法,可以提高算法頻繁項(xiàng)集選取的精確度。
5K-means聚類算法及其改進(jìn)
K-means聚類算法是數(shù)據(jù)挖掘中使用比較廣泛的經(jīng)典算法。它主要的功能是為了研究檢測(cè)數(shù)據(jù)對(duì)象之間的差異度,通過(guò)差異度的比較篩選出符合目標(biāo)要求的中心元素。K-means聚類算法的核心算法是:從待選的所有數(shù)據(jù)信息中隨意挑選出一定數(shù)量的數(shù)據(jù)作為最開(kāi)始的聚類元素中心,起始數(shù)據(jù)的挑選具有隨機(jī)性。然后通過(guò)具體的關(guān)聯(lián)規(guī)則算法計(jì)算出余下的全部數(shù)據(jù)與中心數(shù)據(jù)的相異度,根據(jù)相異度的平均值確定新的中心元素,一直到所有元素都被劃分到所選出的聚類集合當(dāng)中為止。但是這種算法還是有一定的缺陷的。缺陷主要有2點(diǎn):一是由于初始的聚類中心K個(gè)元素是隨機(jī)選取的,有一定的隨機(jī)性,那么再重新確定K個(gè)聚類中心就需要大量的時(shí)間重新計(jì)算。二是在選取好K個(gè)聚類中心后還有可能產(chǎn)生孤立點(diǎn)的因素,可能會(huì)造成篩選結(jié)果的偏差,這樣還需要對(duì)產(chǎn)生的聚類結(jié)果進(jìn)行檢測(cè)分析,避免孤立點(diǎn)的情況出現(xiàn)。針對(duì)于這2種情況,對(duì)K-means聚類算法進(jìn)行改進(jìn):首先在選取K個(gè)聚類中心的時(shí)候,可以使用模糊算法的理論,用模糊算法的C均值算法對(duì)K的數(shù)量進(jìn)行計(jì)算劃分,可以把所有信息數(shù)據(jù)看做是模糊算法中的整體類,信息數(shù)據(jù)之間的差異度看作是針對(duì)于這個(gè)類的隸屬關(guān)系,每個(gè)數(shù)據(jù)項(xiàng)與整個(gè)類之間的隸屬關(guān)系通過(guò)計(jì)算能得出一個(gè)[0,1]范圍的隸屬度。最后通過(guò)所有數(shù)據(jù)的隸屬度的平均值來(lái)確定聚類中心數(shù)量K的值。在計(jì)算所有數(shù)據(jù)與聚類中心隸屬度的時(shí)候,可以通過(guò)隸屬度值的大小來(lái)判斷所選取的聚類中心是否是孤立點(diǎn),如果計(jì)算出的隸屬度大,說(shuō)明選取的兩個(gè)聚類是相異度很大的區(qū)域,是高質(zhì)量的區(qū)域,符合挑選的要求,如果隸屬度值比較小,說(shuō)明選取的聚類中心相異度小,那么這兩個(gè)區(qū)域本身有可能是孤立點(diǎn),就需要重新劃分聚類中心。通過(guò)改進(jìn)的方法可以使K-means聚類算法在選取聚類中心K值時(shí)降低計(jì)算的時(shí)間復(fù)雜度,而且選取的數(shù)值K比較準(zhǔn)確,不會(huì)像傳統(tǒng)算法那樣具有隨機(jī)性、不確定性,選取的K值也更加合理、降低了由于K值選取錯(cuò)誤帶來(lái)的對(duì)計(jì)算結(jié)果的影響。
6結(jié)語(yǔ)
WEB數(shù)據(jù)挖掘算法的研究對(duì)電子商務(wù)的發(fā)展具有重要的實(shí)際意義,可以通過(guò)對(duì)WEB訪問(wèn)所產(chǎn)生的數(shù)據(jù)信息進(jìn)行篩選查找,進(jìn)而得到有價(jià)值的商業(yè)信息和客戶信息,直接給網(wǎng)站的經(jīng)營(yíng)者帶來(lái)巨額的經(jīng)濟(jì)利益。本文針對(duì)數(shù)據(jù)挖掘中常用的Apriori算法和K-means聚類算法進(jìn)行改進(jìn),使算法變得更加完善,提高了WEB數(shù)據(jù)挖掘技術(shù)的應(yīng)用效率,也提升了數(shù)據(jù)信息的應(yīng)用效率。