摘要:在介紹關(guān)聯(lián)規(guī)則概念和常用算法的基礎(chǔ)上,文章討論了數(shù)據(jù)挖掘技術(shù)在影院會(huì)員信息管理系統(tǒng)中應(yīng)用的必要性,找到兩者的結(jié)合點(diǎn),探索如何在會(huì)員管理系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)。重點(diǎn)分析了關(guān)聯(lián)規(guī)則Apriori算法應(yīng)用到會(huì)員管理模塊中,對(duì)已有數(shù)據(jù)進(jìn)行分析挖掘,提出數(shù)據(jù)所隱藏的有價(jià)值的信息,為指導(dǎo)和輔助影院管理決策提供參考。
關(guān)鍵詞:信息管理系統(tǒng);數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;支持度;置信度
一、關(guān)聯(lián)規(guī)則及算法概述
若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘技術(shù)用于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中屬性之間的有趣聯(lián)系,旨在尋找在同一事件中出現(xiàn)的不同項(xiàng)的相關(guān)性。關(guān)聯(lián)規(guī)則技術(shù)適用于購(gòu)物籃分析,可以找出潛在的令人感興趣的產(chǎn)品組合,從大量的事務(wù)記錄中發(fā)現(xiàn)潛在的關(guān)聯(lián)關(guān)系,幫助管理者做出正確的商務(wù)決策。
最典型的例子就是“啤酒和尿布”的故事,在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,超市也發(fā)現(xiàn)一些規(guī)律,在購(gòu)買嬰兒尿布的年輕父親們中,有30%-40%的人同時(shí)要買一些啤酒。超市隨后對(duì)貨架擺放做了調(diào)整,把尿布和啤酒放在了一起,增加了銷售額。
Apriori算法是一種最有影響的挖掘布爾型關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。Apriori使用一種稱作逐層搜索的迭代方法,經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法是兩步走算法Apriori,即連接步和剪枝步。
算法使用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),即頻繁項(xiàng)集的所有非空子集必為頻繁項(xiàng)集(稱為下封閉特性)。利用這一性質(zhì)可以有效的壓縮搜索空間,使用一種稱作逐層搜索的迭代方法,k-項(xiàng)集用于探索k+1-項(xiàng)集來(lái)逐層的找到所有用戶感興趣的頻繁項(xiàng)集。具體地說(shuō),首先尋找1-頻繁項(xiàng)集L1,利用1-頻繁項(xiàng)集L1兩兩組合產(chǎn)生 2-候選項(xiàng)集C2,在C2中尋找2-頻繁項(xiàng)集L2,再利用2-頻繁項(xiàng)集L2中有重疊部分的兩頻繁項(xiàng)集的兩兩組合產(chǎn)生3-候選項(xiàng)集C3,依次下去直到某個(gè)CK+1為空。該算法能夠快速、有效的挖掘出數(shù)據(jù)庫(kù)中蘊(yùn)含的用戶感興趣的頻繁項(xiàng)集,進(jìn)而產(chǎn)生用戶想要的關(guān)聯(lián)規(guī)則,
二、Apriori算法在影院資料管理系統(tǒng)中的應(yīng)用
?。ㄒ唬┻\(yùn)用Apriori算法確定會(huì)員選擇電影間的關(guān)聯(lián)關(guān)系
根據(jù)中的會(huì)員購(gòu)買影票及預(yù)選電影的數(shù)據(jù),挖掘數(shù)據(jù)間的關(guān)聯(lián)規(guī)則,確定會(huì)員所選電影間的關(guān)聯(lián)關(guān)系,為宣傳規(guī)劃,電影時(shí)間安排提供依據(jù)。
?。ǘ┐_定數(shù)據(jù)挖掘的類型
假定全域是電影總局影片提供商可提供的電影的集合,則每個(gè)影片有一個(gè)布爾變量,表示該影片的有無(wú)。每個(gè)選擇影片序列則可用一個(gè)布爾向量表示??梢苑治霾紶栂蛄浚玫椒从畴娪邦l繁關(guān)聯(lián)的觀賞模式。這些模式可以用關(guān)聯(lián)規(guī)則的形式表示,因此,可以確定:要找出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,可以通過挖掘會(huì)員資料管理數(shù)據(jù)庫(kù)中觀看電影的關(guān)聯(lián)規(guī)則。因?yàn)橹恍杩紤]會(huì)員所選電影的單維數(shù)據(jù),本文采用的方法是:先使用Apriori算法找出頻繁項(xiàng)集,再由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。
?。ㄈ┻^程
1、確定數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)—會(huì)員資料管理數(shù)據(jù)庫(kù)(Movi_mangeDB)中的會(huì)員選擇影片和預(yù)選影片數(shù)據(jù),包括影片名稱(movi_name)以及放映時(shí)間(movi-time)。
2、通過如下關(guān)系查詢,收集任務(wù)相關(guān)的數(shù)據(jù)集。
3、確定最小支持度閾值min_sup。
4、使用Apriori找出頻繁項(xiàng)集。
假定選中的元組數(shù)為9,即D=9,元組標(biāo)識(shí)符TID表示,按字典次序存放。
5、由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。
L=