国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多維關(guān)聯(lián)規(guī)則挖掘在煙草行業(yè)中的應(yīng)用探索

2022-05-08 03:01:32
科技創(chuàng)新與應(yīng)用 2022年12期
關(guān)鍵詞:數(shù)據(jù)項謂詞項集

楊 勇

(紅云紅河集團昆明卷煙廠,云南 昆明 650000)

煙草行業(yè)是我國國民經(jīng)濟的重要支柱產(chǎn)業(yè)之一,為國家建設(shè)和社會發(fā)展提供了重要的支撐和保障作用。對煙草企業(yè)來說,每年有大量的生產(chǎn)、銷售數(shù)據(jù)可供參考和研究,如何利用現(xiàn)有的煙草信息資源來挖掘和掌握市場規(guī)律和消費特性,是煙草企業(yè)信息化建設(shè)的重要內(nèi)容之一。目前,市場狀態(tài)瞬息萬變,相關(guān)信息和數(shù)據(jù)也是大規(guī)模的、動態(tài)的、連續(xù)變化的,傳統(tǒng)統(tǒng)計分析方法已經(jīng)很難滿足現(xiàn)實需要;而大多數(shù)生產(chǎn)數(shù)據(jù)、銷售信息、消費行為的多維屬性尤為明顯。因此,通過多維規(guī)則挖掘算法對卷煙生產(chǎn)、銷售數(shù)據(jù)進行分析和探索,運用數(shù)字化、信息化方式幫助煙草企業(yè)實現(xiàn)高質(zhì)量發(fā)展,打造以大數(shù)據(jù)為核心驅(qū)動要素的產(chǎn)業(yè)體系,為高質(zhì)量發(fā)展提供有力支撐,做到精準(zhǔn)規(guī)劃、精準(zhǔn)發(fā)力、精準(zhǔn)營銷。

1 關(guān)聯(lián)規(guī)則挖掘算法

1.1 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘(Data Mining)[1]定義是由U.M.Fayyad等人提出的:它是從大型數(shù)據(jù)集中提取出人們感興趣的知識(這些數(shù)據(jù)集可能是不完全的、有噪聲的、不確定的、各種形式存儲的),這些知識是先前未知的、對決策有潛在價值的且是隱含的,數(shù)據(jù)挖掘所提取的知識常用概念、規(guī)則、規(guī)律和模式等形式進行表示。簡單來說,數(shù)據(jù)挖掘就是指從大型復(fù)雜數(shù)據(jù)中提取和挖掘知識,以滿足人們某些實際應(yīng)用需求。

一個典型的數(shù)據(jù)挖掘過程應(yīng)該包括7個步驟[2],如圖1所示。

圖1 數(shù)據(jù)挖掘的主要過程

1.2 關(guān)聯(lián)規(guī)則簡介

定義1[1]數(shù)據(jù)項與數(shù)據(jù)集:設(shè)I={i1,i2,……,im}是m個不同的項目集合,每一個ik(k=1,2,……,m)稱為數(shù)據(jù)項(Item),數(shù)據(jù)項的集合I稱為數(shù)據(jù)項集(Item set),簡稱為項集,項個數(shù)稱為數(shù)據(jù)項集的長度。長度為k的數(shù)據(jù)項集稱為k維數(shù)據(jù)項集,簡稱為k-項集(k-Item set)。

定義2事務(wù):事務(wù)T(Transaction)是數(shù)據(jù)項集I上的一個子集,表示為TI。每個事務(wù)均通過唯一的標(biāo)識符TID與之相聯(lián),不同事務(wù)全集構(gòu)成全體事務(wù)集D(或事務(wù)數(shù)據(jù)庫)。

定義3數(shù)據(jù)項集的支持度:設(shè)X為項集,B為數(shù)據(jù)庫D中包含X的數(shù)量,A為數(shù)據(jù)庫D中包含的所有事務(wù)的數(shù)量,則數(shù)據(jù)項集X的支持度(Support)為:

項集X的支持度Support(X)表示項集X的出現(xiàn)次數(shù)在事務(wù)數(shù)據(jù)庫中所占的比例。

定義4關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則可以表示為R:X→Y,其中X?I,Y?I,且X∩Y=?,它表示如果項集X在某一事務(wù)中出現(xiàn),必然會導(dǎo)致項集Y也會在同一事務(wù)中出現(xiàn)。X稱為規(guī)則的先決條件(前項),Y稱為規(guī)則的結(jié)果(后項)。

定義5關(guān)聯(lián)規(guī)則的支持度:對于關(guān)聯(lián)規(guī)則R:X→Y,其中X?I,Y?I,且X∩Y=?。規(guī)則R的支持度是指數(shù)據(jù)庫D中同時包含項集X和項集Y的數(shù)量與所有項集數(shù)量之比。

定義6關(guān)聯(lián)規(guī)則的置信度:對于關(guān)聯(lián)規(guī)則R:X→Y,其中X?I,Y?I,且X∩Y=?。規(guī)則R的置信度(Confidence)表示為:

即指數(shù)據(jù)庫D中出現(xiàn)項集X的時候,項集Y也同時出現(xiàn)的概率。

定義7最小支持度和頻繁項集最小支持度(Minimum support):表示事先規(guī)定的發(fā)現(xiàn)關(guān)聯(lián)規(guī)則時數(shù)據(jù)項必須滿足的最小支持閾值,它表示數(shù)據(jù)項集在某種意義下的最低重要性或者重復(fù)性,記為min_sup。當(dāng)滿足最小支持度的時候,項集才可能出現(xiàn)在關(guān)聯(lián)規(guī)則中,支持度大于最小支持度的數(shù)據(jù)項集稱為頻繁項集或者強項集(Large item set);小于最小支持度的項集稱為非頻繁項集或者弱項集(Small item set)。

定義8最小置信度:最小置信度(Minimum confidence)表示關(guān)聯(lián)規(guī)則必須滿足的最小可信度,記為min_conf,它表示關(guān)聯(lián)規(guī)則的最低可信任性和可靠性。

定義9強關(guān)聯(lián)規(guī)則:如果Support(R)≥min_sup且Confidence(R)≥min_conf,則稱關(guān)聯(lián)規(guī)則R:X→Y,為強關(guān)聯(lián)規(guī)則。

1.3 關(guān)聯(lián)規(guī)則挖掘的主要流程

關(guān)聯(lián)規(guī)則挖掘主要包括以下2個步驟:

第一步,發(fā)現(xiàn)頻繁項集(Frequent Item set):找出所有支持度大于或等于最小支持度的項集(Item set)或者屬性集。

第二步,生成關(guān)聯(lián)規(guī)則(Rules):通過頻繁項集找到那些置信度大于最小置信度的強關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則挖掘的基本工作流程如圖2所示。

圖2 關(guān)聯(lián)規(guī)則挖掘的基本流程

2 多維關(guān)聯(lián)規(guī)則挖掘

2.1 多維關(guān)聯(lián)規(guī)則的概念

多維關(guān)聯(lián)規(guī)則是指數(shù)據(jù)挖掘過程中涉及到多個謂詞或者多個屬性的關(guān)聯(lián)規(guī)則挖掘,這是根據(jù)關(guān)聯(lián)規(guī)則所涉及到的數(shù)據(jù)的屬性或維度來進行區(qū)分的[1]。

多維關(guān)聯(lián)規(guī)則又可細(xì)分為維間關(guān)聯(lián)規(guī)則(inter-dimensional association rule)和混合維關(guān)聯(lián)規(guī)則(hybriddimensional rule),這里我們把每個不同的謂詞或?qū)傩苑Q作維,以此用來對關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)復(fù)雜程度做劃分。

例如:Buys(X,“computer”)→Buys(X,“software”)中只涉及到Buys一個謂詞,因此該規(guī)則就是單維關(guān)聯(lián)規(guī)則,也可稱為維內(nèi)關(guān)聯(lián)規(guī)則,即它包含單個不同謂詞(Buys)或維的多次出現(xiàn)。

Age(X,“30-39”)^income(X,“40K-50K”)→Buys(X,“computer”)則是涉及Age、income和Buys 3個維度的關(guān)聯(lián)規(guī)則,因此我們稱這種涉及2個或者多個謂詞或維的關(guān)聯(lián)規(guī)則為多維關(guān)聯(lián)規(guī)則。

多維關(guān)聯(lián)規(guī)則中僅出現(xiàn)1次的謂詞稱為不重復(fù)謂詞,我們通常把具有不重復(fù)謂詞或?qū)傩缘亩嗑S關(guān)聯(lián)規(guī)則稱作維間關(guān)聯(lián)規(guī)則,如規(guī)則:Age(X,“30-39”)^income(X,“40K-50K”)→Buys(X,“computer”)。如果在多維關(guān)聯(lián)規(guī)則中具有重復(fù)的謂詞,即它包含某些多次出現(xiàn)的謂詞,則稱這種關(guān)聯(lián)規(guī)則為混合維關(guān)聯(lián)規(guī)則,如規(guī)則Age(X,“30-39”)^income(X,“40K-50K”)^Buys(X,“software”)→Buys(X,“computer”)。

2.2 挖掘多維關(guān)聯(lián)規(guī)則的方法

2.2.1 將屬性靜態(tài)離散化[3]

這種方法需要預(yù)先定義概念分層,挖掘之前將量化屬性離散化,數(shù)值屬性的值可以用區(qū)間標(biāo)號替換,同時,需要時可將分類屬性泛化到較高的概念層。我們可以將每一個屬性值看做一個項集,搜索所有相關(guān)屬性來找出所有的頻繁謂詞集。一般情況下,可以對單維關(guān)聯(lián)規(guī)則挖掘算法進行改進來提高挖掘效率。

2.2.2 挖掘量化關(guān)聯(lián)規(guī)則[3]

為了滿足某種挖掘標(biāo)準(zhǔn),我們可以在挖掘過程中進行數(shù)值屬性的動態(tài)離散化,主要方法是使用關(guān)聯(lián)規(guī)則聚類系統(tǒng)ARCS來將量化屬性用2-D柵格來映射那些滿足分類條件的屬性,然后搜索柵格發(fā)現(xiàn)點簇產(chǎn)生關(guān)聯(lián)規(guī)則。

2.2.3 挖掘基于距離的關(guān)聯(lián)規(guī)則

根據(jù)數(shù)據(jù)點之間的距離來進行動態(tài)屬性離散化量化,是基于距離的關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵,它緊扣區(qū)間的數(shù)據(jù)語義[4],不允許數(shù)值的近似操作?;诰嚯x的關(guān)聯(lián)規(guī)則挖掘算法是針對數(shù)據(jù)分布的不均勻性和局部稠密性導(dǎo)致量化規(guī)則無法緊扣屬性間數(shù)據(jù)語義的缺陷進行改進的。該方法主要通過2次遍歷算法來挖掘這類關(guān)聯(lián)規(guī)則挖掘:第一次遍歷數(shù)據(jù)項集所在的數(shù)據(jù)庫,使用聚類方法找出區(qū)間或簇;第二次再次遍歷數(shù)據(jù)庫,搜索頻繁的且同時出現(xiàn)的簇組,從而以此得到基于距離的關(guān)聯(lián)規(guī)則。

3 多維關(guān)聯(lián)規(guī)則挖掘在煙草行業(yè)中的應(yīng)用探索

隨著信息化的發(fā)展,目前在卷煙零售和批發(fā)市場中,銷售數(shù)據(jù)越來越全面,已經(jīng)包含了購買者“所在地區(qū)、年齡、職業(yè)、收入、所購買卷煙品牌、價位、規(guī)格”等多維度信息,這對多維關(guān)聯(lián)規(guī)則挖掘算法在煙草行業(yè)的應(yīng)用提供了基礎(chǔ)數(shù)據(jù)支持。同時,我們可以針對品牌信息維度細(xì)分到包裝顏色(條包、小包)、煙支粗細(xì)、長短、濾棒規(guī)格(普通、復(fù)合、中空、中空復(fù)合等)、轉(zhuǎn)接紙顏色、水松紙顏色、焦油含量、香氣、吸味等專業(yè)層面的信息,從而幫助我們進行更深層次的數(shù)據(jù)挖掘。

考慮到實際應(yīng)用中會涉及到混合維關(guān)聯(lián)規(guī)則挖掘,因此本文提出2種方法來進行混合維關(guān)聯(lián)規(guī)則挖掘:

(1)針對具有重復(fù)謂詞的多維關(guān)聯(lián)規(guī)則,如果每一個事務(wù)的重復(fù)謂詞部分包含內(nèi)容基本相同,僅是具體數(shù)據(jù)內(nèi)容不同的時候,則可以選擇在數(shù)據(jù)預(yù)處理過程中進行屬性分離,見表1。

表1 混合維關(guān)聯(lián)規(guī)則數(shù)據(jù)實例1

經(jīng)過數(shù)據(jù)預(yù)處理得到的結(jié)果見表2。這樣即可采用關(guān)聯(lián)規(guī)則(多維)進行挖掘。

表2 混合維關(guān)聯(lián)規(guī)則數(shù)據(jù)處理結(jié)果

(2)如果每行的重復(fù)謂詞部分包括不同的數(shù)據(jù)內(nèi)容時,見表3,則可在進行關(guān)聯(lián)規(guī)則挖掘的同時,針對重復(fù)謂詞部分進行2次單維關(guān)聯(lián)規(guī)則挖掘,從而實現(xiàn)混合維關(guān)聯(lián)規(guī)則的挖掘,2種方法視具體情況選定。

表3 混合維關(guān)聯(lián)規(guī)則數(shù)據(jù)實例2

通過采用多維關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法,用大量消費者的個人喜好信息和購買習(xí)慣數(shù)據(jù)進行綜合分析,勾勒出不同地區(qū)、不同時期的消費者的用戶畫像,為產(chǎn)品設(shè)計、新品研發(fā)、區(qū)域個性化定制、營銷策略、經(jīng)營措施、管理決策等提供支持。

例如:通過多維關(guān)聯(lián)規(guī)則挖掘能得到“2020年,某地30-35歲中等收入人群喜歡價位在40-60元、紅色簡約包裝、中支煙、84 mm、中空復(fù)合濾棒、焦油含量8 mg、清香”等,對產(chǎn)品區(qū)域定制、個性化定制、新品研發(fā)等方面提供參考。

4 結(jié)束語

綜上所述,通過多維關(guān)聯(lián)規(guī)則對卷煙生產(chǎn)數(shù)據(jù)、銷售數(shù)據(jù)進行挖掘,能夠針對大量消費者的個人喜好信息和購買習(xí)慣數(shù)據(jù)進行綜合分析,勾勒出不同地區(qū)不同時期的消費者的用戶畫像,為煙草行業(yè)的產(chǎn)品設(shè)計、新品研發(fā)[5]、區(qū)域個性化定制、營銷策略、經(jīng)營措施、管理決策等提供支持。

猜你喜歡
數(shù)據(jù)項謂詞項集
被遮蔽的邏輯謂詞
——論胡好對邏輯謂詞的誤讀
黨項語謂詞前綴的分裂式
西夏研究(2020年2期)2020-06-01 05:19:12
一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計與實現(xiàn)
甘肅科技(2020年19期)2020-03-11 09:42:42
非完整數(shù)據(jù)庫Skyline-join查詢*
基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實現(xiàn)
也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項集的快速挖掘算法
計算機工程(2014年6期)2014-02-28 01:26:12
多數(shù)據(jù)項請求的多信道并行廣播調(diào)度算法
一種新的改進Apriori算法*
长阳| 津市市| 洪湖市| 抚宁县| 泽普县| 武定县| 凤庆县| 朝阳县| 宜良县| 海门市| 平罗县| 西充县| 富裕县| 镇雄县| 孟州市| 阳朔县| 大埔区| 河北省| 南澳县| 望谟县| 清涧县| 元朗区| 房产| 灵寿县| 出国| 麟游县| 黔西| 米林县| 蓬莱市| 汤原县| 博兴县| 平顺县| 丹寨县| 二连浩特市| 建始县| 莆田市| 南溪县| 通渭县| 读书| 曲麻莱县| 金湖县|