耿向華,譚晶晶
(鄭州旅游職業(yè)學(xué)院 旅游商貿(mào)系,河南 鄭州 450009)
個(gè)性化旅游線路的設(shè)計(jì),已成為目前旅游消費(fèi)者對(duì)旅游產(chǎn)品的熱點(diǎn)需求.用Apriori優(yōu)化算法來(lái)產(chǎn)生旅游商務(wù)系統(tǒng)中的消費(fèi)模式,可滿(mǎn)足消費(fèi)者的個(gè)性化需要.
圖1 旅游商務(wù)系統(tǒng)數(shù)據(jù)挖掘模型圖Fig.1 Travel business system data mining model
數(shù)據(jù)挖掘技術(shù)在實(shí)際應(yīng)用中應(yīng)處理好三個(gè)環(huán)節(jié),一是原始數(shù)據(jù)的處理,二是模式庫(kù)的建立與表示,三是算法的應(yīng)用.結(jié)合常用旅游商務(wù)系統(tǒng)的特點(diǎn),本研究設(shè)計(jì)了一個(gè)基于數(shù)據(jù)挖掘的個(gè)性化旅游電子商務(wù)系統(tǒng)框架,整體上仍采用B/S結(jié)構(gòu),結(jié)構(gòu)模型如圖1所示.其中,后臺(tái)的功能主要是利用前臺(tái)收集的數(shù)據(jù)運(yùn)用數(shù)據(jù)挖掘算法找出相應(yīng)的規(guī)則,前臺(tái)的功能主要是利用后臺(tái)提供的規(guī)則模型對(duì)旅游消費(fèi)者進(jìn)行個(gè)性化的消費(fèi)模式推薦.后臺(tái)模塊和前臺(tái)模塊的處理過(guò)程大致上是一致的,前臺(tái)和后臺(tái)相互作用,保證了旅游商務(wù)系統(tǒng)呈現(xiàn)給用戶(hù)的信息是實(shí)時(shí)的、最新的和合理的.
圖2 后臺(tái)系統(tǒng)結(jié)構(gòu)圖Fig.2 The structure of the system
由于該模型實(shí)現(xiàn)了前臺(tái)和后臺(tái)的分離,所以能夠應(yīng)對(duì)海量的數(shù)據(jù)信息,提高了個(gè)性化旅游商務(wù)系統(tǒng)的伸縮能力和實(shí)時(shí)響應(yīng)速度.再則,由于引入了Web挖掘技術(shù),即使Web站點(diǎn)的內(nèi)容變化比較頻繁,也能提供高質(zhì)量的個(gè)性化服務(wù).
后臺(tái)模塊主要負(fù)責(zé)數(shù)據(jù)的預(yù)處理和Web挖掘,為個(gè)性化查詢(xún)提供支持,其系統(tǒng)結(jié)構(gòu)如圖2所示.
(1)數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)
在個(gè)性化旅游商務(wù)系統(tǒng)中,每一步都需要從數(shù)據(jù)庫(kù)中檢索相應(yīng)的數(shù)據(jù),如景區(qū)景點(diǎn)基本信息數(shù)據(jù)庫(kù)、用戶(hù)信息數(shù)據(jù)庫(kù)和訂單信息數(shù)據(jù)庫(kù)等.
(2)數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理主要對(duì)Web使用數(shù)據(jù)、Web內(nèi)容數(shù)據(jù)和Web結(jié)構(gòu)數(shù)據(jù)進(jìn)行各種處理,從而為后續(xù)的Web挖掘提供可以直接處理的數(shù)據(jù)源.通過(guò)關(guān)聯(lián)規(guī)則挖掘獲取用戶(hù)的訪問(wèn)特征,由于數(shù)據(jù)預(yù)處理和Web挖掘歷時(shí)比較長(zhǎng),不能滿(mǎn)足個(gè)性化旅游商務(wù)系統(tǒng)的實(shí)時(shí)性要求,所以將這兩項(xiàng)操作置于后臺(tái)進(jìn)行,挖掘結(jié)果可供前臺(tái)模塊的查詢(xún)引擎直接引用.
(3)模式分解
模式是系統(tǒng)能夠產(chǎn)生個(gè)性化服務(wù)的重要基礎(chǔ),而模式分析的職能就是運(yùn)用數(shù)據(jù)挖掘的方法生成個(gè)性化查詢(xún)需要的模式.
圖3 前臺(tái)系統(tǒng)結(jié)構(gòu)圖Fig.3 The system structure diagram
前臺(tái)模塊獲取的最終目的是為用戶(hù)提供高質(zhì)量的個(gè)性化查詢(xún)服務(wù),所以在線部分的設(shè)計(jì)對(duì)整個(gè)個(gè)性化商務(wù)系統(tǒng)至關(guān)重要,其模塊示意圖如圖3所示.
對(duì)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)使用Apriori算法來(lái)完成關(guān)聯(lián)規(guī)則的挖掘,把挖掘到的關(guān)聯(lián)規(guī)則寫(xiě)入規(guī)則庫(kù).前臺(tái)模塊的作用就是通過(guò)Web端直接為旅游消費(fèi)者服務(wù),它能夠記錄用戶(hù)訪問(wèn)的基本信息作為模塊的輸入數(shù)據(jù).在消費(fèi)者不知情的情況下,不需要他們提供其他信息即可為旅游消費(fèi)者提供服務(wù),也不會(huì)造成個(gè)人信息的泄露.
數(shù)據(jù)挖掘在Web中的應(yīng)用主要有三種:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web應(yīng)用挖掘.其中,Web應(yīng)用挖掘主要是通過(guò)對(duì)訪問(wèn)者行為模式數(shù)據(jù)的研究,從中獲取更有價(jià)值的信息,所以在旅游商務(wù)系統(tǒng)中游客個(gè)性化消費(fèi)模式的研究主要屬于Web應(yīng)用挖掘的研究.當(dāng)前Web數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)問(wèn)題便是Web應(yīng)用挖掘,它能有效地將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)活動(dòng)中,使電子商務(wù)獲得更好的發(fā)展.
旅游商務(wù)系統(tǒng)中可供應(yīng)用挖掘的數(shù)據(jù)量極大,但僅從優(yōu)化消費(fèi)者消費(fèi)模式的角度而言,主要可以從如下幾個(gè)方面進(jìn)行挖掘:
(1)訪問(wèn)日志數(shù)據(jù)信息
訪問(wèn)日志信息是進(jìn)行數(shù)據(jù)挖掘時(shí)最可信賴(lài)的數(shù)據(jù)源.消費(fèi)者在訪問(wèn)每一個(gè)旅游商務(wù)系統(tǒng)時(shí),都會(huì)在Web服務(wù)器端留下相應(yīng)的日志數(shù)據(jù),它詳細(xì)記錄了用戶(hù)的各種訪問(wèn)信息,并且它們一般都有通用的格式,比如目前比較流行的W3C格式.
(2)查詢(xún)數(shù)據(jù)信息
查詢(xún)數(shù)據(jù)是旅游電子商務(wù)系統(tǒng)中獲取挖掘數(shù)據(jù)的另一個(gè)主要數(shù)據(jù)來(lái)源,主要指消費(fèi)者在旅游商務(wù)系統(tǒng)上進(jìn)行查詢(xún)操作時(shí),產(chǎn)生在Web服務(wù)器的典型數(shù)據(jù)信息,如用于記錄用戶(hù)狀態(tài)或訪問(wèn)路徑的Cookie信息,但如果用戶(hù)不接受Cookie,這部分就無(wú)意義可言.
(3)用戶(hù)訂單信息
該類(lèi)信息主要來(lái)源于消費(fèi)者通過(guò)旅游商務(wù)系統(tǒng)產(chǎn)生的各類(lèi)訂單,如旅游產(chǎn)品訂單、賓館和餐飲訂單等.
(4)用戶(hù)注冊(cè)信息
該部分主要是指消費(fèi)者訪問(wèn)旅游電子商務(wù)系統(tǒng)時(shí),所填寫(xiě)的系統(tǒng)設(shè)計(jì)人員事先設(shè)定好的表單信息,主要記錄了用戶(hù)的基本情況.
該系統(tǒng)數(shù)據(jù)檢測(cè)建模的樣本數(shù)據(jù)為隨機(jī)抽取的旅游商務(wù)系統(tǒng)的客戶(hù)數(shù)據(jù),主要是用戶(hù)信息表、訂單信息表及套餐信息表.數(shù)據(jù)挖掘的數(shù)據(jù)格式為SQL Server表結(jié)構(gòu).各表概況信息如表1所示.
表1 數(shù)據(jù)源原始樣本表概況Tab.1 The data source original sample surface profiles
預(yù)處理是數(shù)據(jù)挖掘過(guò)程中必不可少的階段.對(duì)于數(shù)據(jù)挖掘而言,必須保證輸入數(shù)據(jù)的正確性,同時(shí)需要將現(xiàn)實(shí)中各式各樣的數(shù)據(jù)加工處理后才可以被挖掘算法應(yīng)用,所以需要抽取有用的數(shù)據(jù).數(shù)據(jù)預(yù)處理主要就是用來(lái)完成修補(bǔ)現(xiàn)實(shí)世界數(shù)據(jù)的不完整或不一致,剔除噪聲數(shù)據(jù),將現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為挖掘算法可用的格式,抽取有用的數(shù)據(jù)等工作.
本次挖掘中所用到的關(guān)鍵屬性主要包括users表中的客戶(hù)號(hào)、性別、年齡、收入;Tc_orders表中的客戶(hù)號(hào)、訂單號(hào)、旅游套餐編號(hào);Tc_info表中的旅游套餐編號(hào)及具體景點(diǎn)景區(qū)信息.在SQL Server環(huán)境下,Users表與Tc_orders通過(guò)客戶(hù)號(hào)聯(lián)系在一起,Tc_orders表與Tc_info表通過(guò)旅游套餐編號(hào)連在一起,并通過(guò)如下連接語(yǔ)句獲取有用的數(shù)據(jù)信息:
(1)Select users.客戶(hù)號(hào),users.性別,users.年齡,users.月收入,Tc_orders.訂單號(hào),Tc_orders.旅游套餐編號(hào) into cursor table info1 FROM users,Tc_orders
where users.客戶(hù)號(hào)= Tc_orders.客戶(hù)號(hào)
(2)Select info1.性別,info1.年齡,info1.月收入,info1.訂單號(hào),Tc_info.套餐編號(hào),Tc_info.線路信息
From info1, Tc_info
where info1.訂單編號(hào)=Tc_info.訂單編號(hào)
into table hz_info
hz_info表的部分內(nèi)容如圖4所示.
圖4 hz_info表的部分內(nèi)容截圖Fig.4 The part of hz_info table
分析hz_info表的結(jié)果會(huì)發(fā)現(xiàn),基本信息相近的消費(fèi)者所選取的消費(fèi)模式存在一定的相似之處. 我們從上面數(shù)據(jù)中選取出年齡在30~40歲、月收入在3 000~5 000元的消費(fèi)者的交易信息,形成事務(wù)數(shù)據(jù)庫(kù)sw_db.查詢(xún)語(yǔ)句偽代碼如下:
圖5 Sw_db表的部分內(nèi)容截圖Fig.5 The part of Sw_db table
Select hz_info.訂單號(hào),hz_info.線路信息
FROM hz_info
where 年齡在30~40歲and 收入在3 000~5 000元
into table sw_db
部分查詢(xún)結(jié)果如圖5所示.
數(shù)據(jù)轉(zhuǎn)換是將事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)換成適合挖掘的形式,本研究將sw_db事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)化為十進(jìn)制信息形式.訂單號(hào)從數(shù)值1開(kāi)始依次編號(hào),線路中的每個(gè)景點(diǎn)信息用一個(gè)十進(jìn)制數(shù)來(lái)表示,相同的景點(diǎn)用相同的數(shù)字表示,轉(zhuǎn)換后的事務(wù)數(shù)據(jù)庫(kù)zh_db部分內(nèi)容如表2所示.
表2 轉(zhuǎn)換后的事務(wù)數(shù)據(jù)庫(kù)zh_db部分信息Tab.2 The converted transaction database part zh_db information
采用Apriori優(yōu)化算法對(duì)轉(zhuǎn)換后的事務(wù)數(shù)據(jù)庫(kù)zh_db進(jìn)行處理,便可產(chǎn)生個(gè)性化消費(fèi)模式,算法主要步驟如下:
(1)系統(tǒng)初始化;
圖6 個(gè)性化消費(fèi)模式系統(tǒng)挖掘主界面Fig.6 Personalized consumption pattern system of mining main interface
(2)調(diào)用自定義函數(shù) getSubSet(t) //求出zh_db事務(wù)數(shù)據(jù)庫(kù)中任一交易的所有非空子集.t為zh_db事務(wù)數(shù)據(jù)庫(kù)中的任一訂單號(hào);
(3)把步驟二產(chǎn)生的所有非空子集匯總成數(shù)據(jù)庫(kù)sw1_db;
(4)調(diào)用函數(shù)getSubTDB(sw1_db) //對(duì)sw1_db數(shù)據(jù)庫(kù)進(jìn)行掃描,更新各交易子集的支持度;
(5)調(diào)用函數(shù)getPf(sw2_db) // sw2_db為第四步產(chǎn)生的數(shù)據(jù)庫(kù).
個(gè)性化消費(fèi)模式挖掘系統(tǒng)主界面如圖6所示.
假定輸入的最小支持度為0.7,則系統(tǒng)產(chǎn)生的頻繁項(xiàng)集及關(guān)聯(lián)規(guī)則分別如圖7和圖8所示.
圖7 頻繁項(xiàng)集產(chǎn)生結(jié)果圖Fig.7 The result of frequent itemsets
圖8 關(guān)聯(lián)規(guī)則產(chǎn)生結(jié)果圖Fig.8 The result of association rules
上述幾條規(guī)則的含義如下:
(1)選擇景點(diǎn)1,2的旅游消費(fèi)者可能會(huì)同時(shí)選擇景點(diǎn)4,其可信度為85%.
(2)選擇景點(diǎn)2,23的旅游消費(fèi)者可能會(huì)同時(shí)選擇景點(diǎn)9,其可信度為76%.
(3)選擇景點(diǎn)10的旅游消費(fèi)者可能會(huì)同時(shí)選擇景點(diǎn)2,其可信度為91%.
(4)選擇景點(diǎn)20,21的旅游消費(fèi)者可能會(huì)同時(shí)選擇景點(diǎn)42,其可信度為78%.
(5)選擇景點(diǎn)11的旅游消費(fèi)者可能會(huì)同時(shí)選擇景點(diǎn)22,45,其可信度為87%.
由以上的運(yùn)行結(jié)果可知,當(dāng)年齡在30~40歲、月收入在3 000~5 000元的消費(fèi)者在進(jìn)行旅游模式查詢(xún)時(shí),可以將{{1,2,4},{23,2,9},{10,2},{21,20,42},{11,22,45}}所代表的旅游線路作為個(gè)性化消費(fèi)模式向其推薦.
參考文獻(xiàn):
[1] 陳冬林,聶規(guī)劃,劉平峰.基于知識(shí)網(wǎng)格的電子商務(wù)推薦系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2006,23(12):307-309.
[2] 齊曉峰.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)管理中的應(yīng)用研究[D].阜新:遼寧工程技術(shù)大學(xué),2006.
[3] 賀紅,徐寶文.Web信息系統(tǒng)的安全隱患與網(wǎng)絡(luò)管理員對(duì)策[J].計(jì)算機(jī)工程與應(yīng)用,2005(18):151-153.
[4] 李秋丹.數(shù)據(jù)挖掘相關(guān)算法的研究與實(shí)現(xiàn)[D].大連:大連理工大學(xué),2004.