范麗萍
摘 要 介紹web主動數(shù)據(jù)挖掘技術(shù)對于網(wǎng)絡廣告的重要性,對網(wǎng)絡使用數(shù)據(jù)挖掘模式的情況進行分析,針對挖掘模式工作多且事務識別不夠準確,提出新的解決方法從網(wǎng)絡廣告的邏輯結(jié)構(gòu)、模式挖掘所需的數(shù)據(jù)結(jié)構(gòu)等方面研究主動數(shù)據(jù)收集技術(shù)。
關(guān)鍵詞 數(shù)據(jù)挖掘 網(wǎng)絡廣告 數(shù)據(jù)收集
中圖分類號:TP393 文獻標識碼:A
1網(wǎng)絡廣告和Web挖掘
網(wǎng)絡廣告是隨著國際互聯(lián)網(wǎng)的發(fā)展而逐步興起的,它具有傳統(tǒng)媒介廣告所有優(yōu)點,又具有傳統(tǒng)媒介所無法比擬的優(yōu)勢。網(wǎng)絡廣告主要有傳播對象面廣、表現(xiàn)手段豐富多彩、內(nèi)容種類繁多,信息面廣、精確性強等特點。
網(wǎng)絡廣告所具有的四個本質(zhì)特征,網(wǎng)絡廣告需要依附于有價值的信息和服務載體;網(wǎng)絡廣告的核心思想在于引起用戶關(guān)注和點擊;網(wǎng)絡廣告具有強制性和用戶主導性的雙重屬性;網(wǎng)絡廣告應體現(xiàn)出用戶、廣告客戶和網(wǎng)絡媒體三者之間的互動關(guān)系。
數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展而逐步完善起來的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識。
數(shù)據(jù)挖掘技術(shù)在網(wǎng)路廣告上的應用,正是為了更加有效的掌握信息,服務于顧客,數(shù)據(jù)挖掘技術(shù)的路徑分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、分類規(guī)則的發(fā)現(xiàn)、聚類分析等方法,可以應用于發(fā)現(xiàn)潛在顧客、改進站點鏈接結(jié)構(gòu)設計、對顧客進行聚類分級從而分析組中顧客的共同特征,并為相應的顧客提供優(yōu)質(zhì)個性化服務,使顧客在瀏覽信息時有針對性,節(jié)省時間成本、精神成本、體力成本等,最終使總顧客成本得以降低。
Web數(shù)據(jù)有三種類型:HTML標記的Web文檔數(shù)據(jù),Web文檔內(nèi)連接的結(jié)構(gòu)數(shù)據(jù)和用戶訪問數(shù)據(jù)。按照對應的數(shù)據(jù)類型,Web挖掘可以分為三類:(1)Web內(nèi)容挖掘:就是從Web文檔或其描述中篩選知識的過程。(2)Web結(jié)構(gòu)挖掘:就是從Web的組織結(jié)構(gòu)和鏈接關(guān)系中推導知識。它的目的是通過聚類和分析網(wǎng)頁的鏈接,發(fā)現(xiàn)網(wǎng)頁的結(jié)構(gòu)和有用的模式,找出權(quán)威網(wǎng)頁。(3)Web使用記錄挖掘:就是指通過挖掘存儲在Web上的訪問日志,來發(fā)現(xiàn)用戶訪問Web頁面的模式及潛在客戶等信息的過程。
Web使用挖掘,它通過挖掘Web日志記錄來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析和探究Web日志記錄中的規(guī)律,可以識別電子商務的潛在客戶,增強對最終用戶的因特網(wǎng)信息服務的質(zhì)量和交付,并改進Web服務器系統(tǒng)的性能和結(jié)構(gòu)。
2網(wǎng)路廣告中使用數(shù)據(jù)挖掘技術(shù)存在的問題
2.1目前Web使用挖掘的狀況
網(wǎng)絡信息挖掘技術(shù)主要分為三個階段:數(shù)據(jù)準備、挖掘操作、結(jié)果表達。就數(shù)據(jù)準備而言,網(wǎng)絡廣告主所需的數(shù)據(jù)主要來自兩個方面:一方面是用戶的背景信息,這部分信息主要來自于用戶的登記表;而另外一部分數(shù)據(jù)主要來自用戶的點擊流,這部分數(shù)據(jù)主要用于考察用戶的行為表現(xiàn)。人們在訪問某網(wǎng)站的同時,便提供了個人對網(wǎng)站內(nèi)容的反饋信息:點擊了哪一個鏈接,在哪里瀏覽時間最多,用了哪個搜索項、總體瀏覽時間、個人姓名和住址等。所有這些信息都被保存在一個數(shù)據(jù)庫中,生成大量的記錄文件和登記表,利用這些數(shù)據(jù)進行分析、挖掘,充分了解用戶的喜好、購買模式,不僅可以使網(wǎng)站設計出滿足不同用戶群體需要的個性化網(wǎng)頁,增加競爭力,而且可以為廣告主提出行之有效的廣告方案,實現(xiàn)商家渴望的個性化市場營銷。
目前幾乎所有的Web使用挖掘,都是從服務器端的日志記錄和用戶的個人信息中自動發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解系統(tǒng)的訪問模式以及用戶的行為模式,從而做出預測性分析。
這種數(shù)據(jù)挖掘模式,挖掘之前工作量巨大繁重。首先,數(shù)據(jù)清洗(data cleaning)解決“臟數(shù)據(jù)(dirty data)”問題,消解數(shù)據(jù)中的不一致性,并將多個數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一成一個數(shù)據(jù)存儲。然后,事務識別中,用戶Session的識別問題是一個難點。如多個用戶訪問同一頁面,在Proxy服務器日志中可能只列出一次;同時Internet服務提供商如采用動態(tài)分配IP將使得用戶識別變得困難。最后,還要將數(shù)據(jù)集成到數(shù)據(jù)庫中。
2.2解決方法及其優(yōu)點
我們將上述基于日志的Web挖掘中的數(shù)據(jù)收集方法稱為被動數(shù)據(jù)收集。不難看出為了得到模式挖掘的輸入數(shù)據(jù),經(jīng)過了很多的步驟,而且更重要的是結(jié)果有些并不一定準確。
現(xiàn)在我們提出主動的數(shù)據(jù)收集方法,也就是通過JsP頁面中的JavaBean調(diào)用用于數(shù)據(jù)收集的java包中的類,并傳入Web服務器已經(jīng)構(gòu)造好的Request和Response對象,然后將用戶Session信息保存到數(shù)據(jù)庫,并在瀏覽器端添加用戶信息的Cookie。
這樣做的優(yōu)點有:(1)不用進行數(shù)據(jù)清洗。最后保存到數(shù)據(jù)庫中的信息,不會包括對一些非主頁面請求的信息,如,不會包括對圖片的請求;因為不存在多個數(shù)據(jù)源,所以也不存在數(shù)據(jù)的不一致性。(2)不用進行費時而且不準確的事務識別。因為Web服務器將為我們做這些工作,而且是在用戶訪問時做,它所識別的Session幾乎是完全正確。(3)不用進行數(shù)據(jù)集成。因為用戶瀏覽完頁面之后,數(shù)據(jù)就已經(jīng)持久化到數(shù)據(jù)庫中了。(4)可以識別多個Session來自同一臺主機。因為我們放置了Cookie在瀏覽器端。(5)留有和主商務邏輯的接口。也就是可以將事務識別的Session和主商務邏輯中的客戶聯(lián)系起來,即使用戶在不同的機器登陸。(6)一個瀏覽器端有多個客戶登陸,也可進行一定的Session和客戶之間的對應。
本文通過討論數(shù)據(jù)挖掘工具及其實現(xiàn)模式,結(jié)合當前web使用挖掘的問題,提出了解決方法,以期使網(wǎng)絡廣告充分利用數(shù)據(jù)挖掘技術(shù),真正提高網(wǎng)絡廣告的投放效果。
參考文獻
[1] 周曦.數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡營銷中的作用[J].電腦知識與技術(shù),2011(11).