張迎錄,伍鐵軍,楊開(kāi)永
(1.南京航空航天大學(xué)機(jī)電學(xué)院,江蘇南京 210016)
(2.紅云紅河(煙草)集團(tuán)有限責(zé)任公司昆明卷煙廠生產(chǎn)一部,云南昆明 650000)
基于Apriori算法的煙片生產(chǎn)設(shè)備參數(shù)分析
張迎錄1,伍鐵軍1,楊開(kāi)永2
(1.南京航空航天大學(xué)機(jī)電學(xué)院,江蘇南京 210016)
(2.紅云紅河(煙草)集團(tuán)有限責(zé)任公司昆明卷煙廠生產(chǎn)一部,云南昆明 650000)
工業(yè)生產(chǎn)過(guò)程中產(chǎn)生的大量數(shù)據(jù),它們蘊(yùn)含著許多與生產(chǎn)設(shè)備、生產(chǎn)過(guò)程相關(guān)的規(guī)律性。為了挖掘出隱含在數(shù)據(jù)中的潛在規(guī)律,以SQL Server 2005軟件為工具,以煙草企業(yè)實(shí)際數(shù)據(jù)為原型,選擇Apriori算法對(duì)數(shù)據(jù)進(jìn)行分析處理。結(jié)果顯示,煙片大片率受打輥1實(shí)時(shí)頻率和風(fēng)機(jī)1實(shí)時(shí)頻率影響最大,煙片中片率受打輥2實(shí)時(shí)頻率影響最大。經(jīng)現(xiàn)場(chǎng)調(diào)試驗(yàn)證,該結(jié)果具有較高的準(zhǔn)確性和可靠性。
煙草設(shè)備;數(shù)據(jù)挖掘;參數(shù)分析;關(guān)聯(lián)規(guī)則
近年來(lái),數(shù)據(jù)挖掘引起了工業(yè)生產(chǎn)領(lǐng)域的極大關(guān)注,其主要原因是工業(yè)生產(chǎn)過(guò)程中產(chǎn)生了大量的數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換為有用的知識(shí)。但人工很難理解這些數(shù)據(jù)并分析他們之間的關(guān)系,更不能及時(shí)地總結(jié)和預(yù)測(cè)。數(shù)據(jù)挖掘一般是指利用各種分析方法與技術(shù),將過(guò)去所積累的大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)進(jìn)行分析、歸納與整合,找出隱藏在數(shù)據(jù)中的信息,如趨勢(shì)、特征及相關(guān)性的過(guò)程,也就是從數(shù)據(jù)中挖掘信息或知識(shí)[1]。
關(guān)聯(lián)規(guī)則是形如A→B的蘊(yùn)含表達(dá)式,其中A?B,B?I,并且A∩B=Φ。規(guī)則A→B的度量包括支持度(support)和置信度(confidence)。支持度是D中事務(wù)包含A∪B的百分比,表示這條規(guī)則在所有事務(wù)中有多大的代表性和適用性。置信度是D中包含A事務(wù)的同時(shí)也包含B事務(wù)的百分比,是確定B在包含A的事務(wù)中出現(xiàn)的頻率,表示規(guī)則在數(shù)據(jù)集上的可靠性。支持度和置信度可用如下公式表示:
式中:support_count表示支持度計(jì)數(shù);N表示數(shù)據(jù)集的事務(wù)數(shù)。
大于最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的任務(wù)就是找出數(shù)據(jù)集中隱藏的強(qiáng)規(guī)則。此外很多學(xué)者提出了重要性或興趣度的概念,重要性的計(jì)算公式如下:
“在A條件下發(fā)生B的概率”高于“在沒(méi)有A的條件下發(fā)生B的概率”時(shí),重要性數(shù)值大于0,且指標(biāo)越大,則代表規(guī)則越顯著。反之重要性小于0,則代表A對(duì)B的發(fā)生有抑制作用。
Apriori算法[3]是關(guān)聯(lián)規(guī)則領(lǐng)域的經(jīng)典算法,該算法由美國(guó)學(xué)者R.Agrawal等在1993年提出,是一種從大規(guī)模數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則的有效方法[4],目前已獲得廣泛的應(yīng)用。生成頻繁項(xiàng)集的Apriori算法描述如下[5]:
輸入:數(shù)據(jù)集D;最小支持度閾值min_sup輸出:D中的頻繁項(xiàng)集L
本文以煙草企業(yè)現(xiàn)場(chǎng)實(shí)際生產(chǎn)數(shù)據(jù)為研究對(duì)象,采用煙草企業(yè)生產(chǎn)線上一年的生產(chǎn)數(shù)據(jù),共1 381條原始數(shù)據(jù)記錄,如圖1所示,包括溫度、水分、設(shè)備參數(shù)等13項(xiàng)影響煙片率變化的參數(shù)。對(duì)歷史數(shù)據(jù)進(jìn)行深入分析研究,找出數(shù)據(jù)之間的規(guī)律,挖掘出那些與煙片率大小變化有較強(qiáng)關(guān)聯(lián)的參數(shù)。
圖1 原始數(shù)據(jù)圖
3.1 數(shù)據(jù)預(yù)處理
a.工業(yè)生產(chǎn)過(guò)程中產(chǎn)生的很多數(shù)據(jù)是有缺陷的,因此首先需要進(jìn)行數(shù)據(jù)清理,只保留符合實(shí)際情況的正確數(shù)據(jù)。主要解決的問(wèn)題有:空缺值、錯(cuò)誤數(shù)據(jù)、噪聲等。
b.對(duì)數(shù)據(jù)進(jìn)行離散化處理。關(guān)聯(lián)規(guī)則算法不接受連續(xù)屬性,因?yàn)樗且粋€(gè)計(jì)數(shù)引擎,用于計(jì)數(shù)離散屬性狀態(tài)的相關(guān)性,使用時(shí)必須對(duì)挖掘模型中的連續(xù)屬性離散化。通過(guò)對(duì)數(shù)據(jù)庫(kù)編程,將最近一次數(shù)據(jù)記錄和上一次數(shù)據(jù)記錄依次進(jìn)行對(duì)比,數(shù)值升高的設(shè)為H,降低的設(shè)為L(zhǎng),不變的設(shè)為S。如圖2所示。
3.2 使用Apriori算法挖掘數(shù)據(jù)
a.將數(shù)據(jù)從access數(shù)據(jù)庫(kù)導(dǎo)入到SQL Server 2005數(shù)據(jù)庫(kù),如圖3所示。
b.搭建數(shù)據(jù)挖掘環(huán)境,設(shè)置算法參數(shù),生成項(xiàng)集和關(guān)聯(lián)規(guī)則,如圖4和圖5所示。
c.實(shí)驗(yàn)結(jié)果分析。
企業(yè)生產(chǎn)過(guò)程中煙片質(zhì)量主要是以煙片的大中片率進(jìn)行衡量。本研究主要分析出影響煙片大中片率變化的主要設(shè)備參數(shù),挖掘出來(lái)的規(guī)則根據(jù)關(guān)聯(lián)的重要性和概率強(qiáng)度來(lái)排序。
圖2 離散化后的數(shù)據(jù)表
圖3 將數(shù)據(jù)導(dǎo)入SQL Server數(shù)據(jù)庫(kù)
圖4 挖掘出的大片率規(guī)則
圖5 挖掘出的中片率規(guī)則
由圖4可見(jiàn),關(guān)聯(lián)最強(qiáng)規(guī)則是:打輥1實(shí)時(shí)頻率=L,風(fēng)機(jī)1實(shí)時(shí)頻率=L→大片率=H。打輥1實(shí)時(shí)頻率=L,風(fēng)機(jī)2實(shí)時(shí)頻率=L→大片率=H。也就是說(shuō)打輥1實(shí)時(shí)頻率降低并且風(fēng)機(jī)1實(shí)時(shí)頻率降低,或者打輥1實(shí)時(shí)頻率降低并且風(fēng)機(jī)2實(shí)時(shí)頻率降低時(shí),大片率升高是必然的。由圖4可知,打輥1實(shí)時(shí)頻率=H時(shí)→大片率=L這條規(guī)則也具有很強(qiáng)的關(guān)聯(lián)重要度和概率強(qiáng)度,該規(guī)則表明打輥1實(shí)時(shí)頻率升高時(shí),大片率多數(shù)情況是降低的。綜合分析可知大片率受打輥1實(shí)時(shí)頻率影響最大。
同理,由圖5可得,中片率受打輥2實(shí)時(shí)頻率影響最大。
根據(jù)煙草企業(yè)生產(chǎn)線上的現(xiàn)場(chǎng)數(shù)據(jù),分析出相關(guān)生產(chǎn)設(shè)備參數(shù)對(duì)煙片率的影響,挖掘出影響煙片大中片率的主要設(shè)備參數(shù)。結(jié)果顯示,煙片大片率主要受打輥1實(shí)時(shí)頻率和風(fēng)機(jī)1、2實(shí)時(shí)頻率影響,煙片中片率主要受打輥2實(shí)時(shí)頻率影響。研究結(jié)果表明,數(shù)據(jù)挖掘技術(shù)在生產(chǎn)領(lǐng)域可以發(fā)現(xiàn)很多隱藏的、不為人知的規(guī)律性知識(shí),為生產(chǎn)線進(jìn)一步調(diào)整、修正工藝參數(shù)提供了重要的參考,也為其他企業(yè)在相關(guān)參數(shù)分析方面提供借鑒。
[1]謝邦昌.商務(wù)智能與數(shù)據(jù)挖掘Microsoft SQL Server應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2008.
[2]蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實(shí)踐[M].北京:電子工業(yè)出版社,2011.
[3]熊平.數(shù)據(jù)挖掘算法與Clementime實(shí)踐[M].北京:清華大學(xué)出版社,2011.
[4]Agrawal R,Srikant R.Fast Algorithms for Mining Association Rules in Large Databases[C]//Proceedings of the 20th International Conference on Very Large Databases(VLDB'94),Santiago,Chile,1994:487 -499.
[5]郭秀娟.基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的研究[D].長(zhǎng)春:吉林大學(xué),2004.
Research on Operating Parameters of Tobacco Flake Production Equipment Based on Apriori Algorithm
ZHANG Yinglu1,WU Tiejun1,YANG Kaiyong2
(1.Nanjing University of Aeronautics and Astronautics,Jiangsu Nanjing,210016,China)
(2.Hongyun Honghe(Tobacco)Group Co.,Ltd.,Yunnan Kunming,650000,China)
In the industrial production process,the production line produces a large amount of real- time field data,which contains a lot of knowledge associated with the production equipment and production process.In order to excavate the potential rules hidden in the data,it uses the enterprise actual data as the prototype based on SQL Server 2005 software,and chooses Apriori algorithm to analyze the data.The result of the study shows that the real-time frequency of NO.1 roll and NO.1 fan has the greatest influence on the rate of large size tobacco flake and that the real-time frequency of NO.2 roll has the greatest influence on the rate of middle size tobacco flake.The field test and adjustment prove that the result has very good accuracy and reliability.
Tobacco Equipment;Data Mining;Parameter Analysis;Association Rule
TP391.4
A
2095-509X(2013)11-0018-04
10.3969/j.issn.2095-509X.2013.11.005
2013-09-16
張迎錄(1987—),男,山東日照人,南京航空航天大學(xué)碩士研究生,主要研究方向?yàn)閿?shù)字化產(chǎn)品開(kāi)發(fā)。
機(jī)械設(shè)計(jì)與制造工程2013年11期