雷志強(qiáng)
摘 要 隨著我國(guó)改革開放及社會(huì)主義市場(chǎng)經(jīng)濟(jì)的快速發(fā)展,互聯(lián)網(wǎng)技術(shù)的發(fā)展促進(jìn)了電子商務(wù)的繁榮,進(jìn)一步推動(dòng)了我國(guó)經(jīng)濟(jì)的快速發(fā)展。數(shù)據(jù)挖掘技術(shù)是一種先進(jìn)的科學(xué)技術(shù),對(duì)于電子商務(wù)的數(shù)據(jù)處理具有重要作用。
關(guān)鍵詞 數(shù)據(jù)挖掘技術(shù) 特點(diǎn) 挖掘方法
中圖分類號(hào):F713.3 文獻(xiàn)標(biāo)識(shí)碼:A
1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘主要是指從大量不完全的、模糊的、有噪聲的、隨機(jī)的原始數(shù)據(jù)中提取其中較為隱秘的、人們不知道但具有潛在作用知識(shí)及信息的高級(jí)處理過程。通過有效的數(shù)據(jù)挖掘,可以將這些潛在的有用信息發(fā)掘出來,幫助企業(yè)在已有經(jīng)驗(yàn)的基礎(chǔ)上對(duì)未來進(jìn)行預(yù)測(cè),以有效提高企業(yè)的市場(chǎng)決策力,為企業(yè)構(gòu)建核心性的競(jìng)爭(zhēng)優(yōu)勢(shì),同時(shí)還可以幫助專家從大量的數(shù)據(jù)研究中獲得規(guī)律,以有效提高科學(xué)研究的效率,從而更好地服務(wù)于企業(yè)的應(yīng)用實(shí)踐。
數(shù)據(jù)挖掘是一個(gè)循環(huán)往復(fù)的過程,主要包括數(shù)據(jù)準(zhǔn)備、建立模型、評(píng)估模型、解釋模型、運(yùn)用模型、鞏固模型等,通過采取嚴(yán)格的觀察與分析過程,以有效促進(jìn)數(shù)據(jù)挖掘技術(shù)應(yīng)用的有效性,從而不斷提高電子商務(wù)的應(yīng)用質(zhì)量。數(shù)據(jù)挖掘技術(shù)如路徑分析技術(shù)、聚類分析技術(shù)、關(guān)聯(lián)規(guī)則挖掘技術(shù)、分類分析技術(shù)等在電子商務(wù)發(fā)展中廣泛應(yīng)用,對(duì)于更好地促進(jìn)網(wǎng)站瀏覽量的提升,發(fā)掘潛在客戶并吸引新客戶起到了較大的幫助作用。
2數(shù)據(jù)挖掘在電子商務(wù)中的特點(diǎn)
(1)面向電子商務(wù)挖掘的任務(wù)更多表現(xiàn)在客戶關(guān)系管理方面。由于電子商務(wù)借助 Internet的力量讓企業(yè)和客戶之間的交流變得十分方便,因此,更多的需求是如何讓企業(yè)利用這些頻繁的交流,敏捷地把握客戶的動(dòng)態(tài),改進(jìn)企業(yè)與客戶交流的方式或提出新的交流內(nèi)容等。
(2)電子商務(wù)自身是一個(gè)信息化十分完全的系統(tǒng),它們累積的數(shù)據(jù)一般就存儲(chǔ)在電子商務(wù)數(shù)據(jù)庫內(nèi),用戶能十分方便地獲取這些數(shù)據(jù),因此對(duì)于電子商務(wù)的數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備階段的工作相對(duì)容易。
(3)電子商務(wù)領(lǐng)域的數(shù)據(jù)挖掘的目的通常是對(duì)電子商務(wù)系統(tǒng)的改進(jìn),比如給客戶推出個(gè)性化頁面、把用戶最感興趣的信息放在首頁或挖掘出哪些產(chǎn)品比較受歡迎等。
3數(shù)據(jù)挖掘在電子商務(wù)中的主要應(yīng)用
(1)關(guān)聯(lián)規(guī)則挖掘技術(shù)
關(guān)聯(lián)分析的目的就是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,從而找到客戶對(duì)網(wǎng)站上各個(gè)文件之間訪問的相互關(guān)系,即發(fā)現(xiàn)其關(guān)聯(lián)規(guī)則。挖掘發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則往往是指支持度超過預(yù)設(shè)閾值的一組訪問網(wǎng)頁,這些網(wǎng)頁之間可能并不存在直接的引用關(guān)系。例如:采用Apriori算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則有可能發(fā)現(xiàn)訪問包含電子產(chǎn)品的頁面用戶和訪問有關(guān)體育用品的網(wǎng)頁的用戶之間存在一定的聯(lián)系。
(2)序列模式
發(fā)現(xiàn)序列模式能夠便于電子商務(wù)的管理者預(yù)測(cè)客戶的訪問模式,提供客戶個(gè)性化的服務(wù)。網(wǎng)站管理員可將訪問者按瀏覽模式分類,在頁面上只展示具有該瀏覽模式的訪問者經(jīng)常訪問的鏈接,而用一個(gè)"更多內(nèi)容"指向其他未被展示的內(nèi)容。當(dāng)訪問者瀏覽到某頁面時(shí),檢查他的瀏覽所符合的序列模式,并在顯眼位置提示"訪問該頁面的人通常接著訪問"的若干頁面。在Web上序列模式挖掘問題上,由于其數(shù)據(jù)源和需要挖掘的模式的特殊性,許多問題仍有待解決。如訪問序列的集成,用戶對(duì)感興趣的序列模式上的約束表達(dá)及帶約束的序列模式挖掘算法等。
(3)分類技術(shù)
分類技術(shù)主要是根據(jù)用戶群的特征挖掘用戶群的訪問特征。在Web數(shù)據(jù)挖掘中,分類技術(shù)可以根據(jù)訪問這些用戶而得到個(gè)人信息或共同訪問模式得出訪問某一服務(wù)器文件的用戶特征。另外,通過用戶注冊(cè)表和在線調(diào)查表也可以得到用戶的一些特征。分類可以采用監(jiān)督學(xué)習(xí)算法,如決策樹技術(shù)、貝葉斯分類法。
(4)聚類規(guī)則法
聚類分析法不同于分類規(guī)則,其輸入集是一組未標(biāo)定的記錄,也就是說此時(shí)輸入的記錄還沒有進(jìn)行任何分類。其目的是根據(jù)一定的規(guī)則,合理地劃分記錄集合,并用顯式和隱式的方法描述不同的類別,目前已開發(fā)出很多的聚類分析工具。在電子商務(wù)中通過聚類具有相似瀏覽行為的客戶,使管理員更多的了解客戶,提供更適合、使客戶更滿意的服務(wù)。例如,有一些客戶這段時(shí)間經(jīng)常瀏覽"furniture"、"electrical equipment",經(jīng)過分析這些客戶被聚類為一組即將結(jié)婚的客戶,對(duì)他們的服務(wù)就該有別于其他聚類客戶,這樣Web可自動(dòng)給這個(gè)特定的顧客聚類發(fā)送新產(chǎn)品信息郵件,為這個(gè)顧客聚類動(dòng)態(tài)改變一個(gè)特殊的站點(diǎn)等。
(5)路徑分析技術(shù)
路徑分析技術(shù)是 Web 應(yīng)用挖掘中特有的數(shù)據(jù)挖掘技術(shù),能夠用于發(fā)現(xiàn)網(wǎng)站中用戶的頻繁查找路徑,對(duì)于其他一些和路徑相關(guān)的信息則都可以通過實(shí)行路徑分析得到。用戶在訪問站點(diǎn)的過程中會(huì)形成瀏覽路徑,而通過對(duì)瀏覽路徑進(jìn)行分析并從中挖掘潛在知識(shí)的過程就是路徑模式挖掘。此過程主要分為三個(gè)步驟:首先將瀏覽過程中每個(gè)站點(diǎn)組成序列以構(gòu)成原始路徑,其次獲得最大的引用序列,最后確定最大的引用序列。通過采用路徑分析技術(shù),電子商務(wù)網(wǎng)站能夠?qū)δ愁愋偷挠脩魧?duì)電子網(wǎng)站頻繁訪問的路徑進(jìn)行分析和判定,這些路徑在一定程度上代表了用戶在瀏覽網(wǎng)站頁面過程中所形成的習(xí)慣和順序。通過將與客戶訪問信息相關(guān)的商品信息進(jìn)行直接鏈接處理,可以幫助客戶更好、更快地達(dá)到自己想要訪問的頁面。這樣,電子商務(wù)網(wǎng)站就能夠在消費(fèi)者心中樹立良好的印象,以有效提高消費(fèi)者的忠誠(chéng)度,并對(duì)潛在的消費(fèi)者形成吸引,并有效延長(zhǎng)消費(fèi)者在網(wǎng)站訪問的時(shí)間,提高消費(fèi)者再次訪問網(wǎng)站的幾率。最后對(duì)客戶的消費(fèi)行為及反饋情況進(jìn)行挖掘分析,能夠根據(jù)消費(fèi)者的需求進(jìn)一步優(yōu)化網(wǎng)站設(shè)計(jì),以不斷提高網(wǎng)站的訪問質(zhì)量。
參考文獻(xiàn)
[1] 伍粵山.Web 數(shù)據(jù)挖掘初探[J].數(shù)據(jù)庫與信息管理,2006,2.
[2] 寧彬.Web數(shù)據(jù)挖掘綜述[J].網(wǎng)絡(luò)與安全技術(shù),2006,2.