王麗芳 李麗萍 丁姍
紅云紅河煙草(集團(tuán))有限責(zé)任公司紅河卷煙廠
卷煙生產(chǎn)過程由制絲、卷接、包裝等多個環(huán)節(jié)構(gòu)成,而制絲生產(chǎn)過程是卷煙加工的重要階段,其生產(chǎn)過程中每個工序工藝參數(shù)都會對卷煙感官質(zhì)量、化學(xué)成分產(chǎn)生一定的影響[1]。目前,針對制絲工藝參數(shù)的變化對卷煙感官質(zhì)量的影響研究已較多,但系統(tǒng)的制絲工藝參數(shù)對卷煙感官質(zhì)量影響的重要性度量相對欠缺。本文針對我廠紅河A品牌卷煙感官質(zhì)量評價采用隨機森林分類的方法,挖掘卷煙感官質(zhì)量制絲生產(chǎn)影響因素,并對其影響重要性排序,作為卷煙產(chǎn)品品質(zhì)提升的研究依據(jù),確定制絲加工參數(shù)優(yōu)化和試驗研究的方向。
為掌握紅河A品牌卷煙感官質(zhì)量現(xiàn)狀,調(diào)取2019年3月份共23批成品煙支感官質(zhì)量評吸綜合得分結(jié)果,繪制其I-MR控制圖。
圖1 紅河A品牌感官質(zhì)量得分的I-MR控制圖
從圖可以看出,紅河A品牌各批次間感官質(zhì)量綜合打分有較大波動,說明紅河A品牌各批次間的感官質(zhì)量的確存在差異。為驗證評吸員感官質(zhì)量評價的準(zhǔn)確性及各評吸員之間感官質(zhì)量評價是否存在差異,隨機抽取四名評吸員,對不同樣品評吸的再現(xiàn)性、重復(fù)性做一致性檢驗,結(jié)果顯示各評吸員自身、評吸員之間、評吸員與標(biāo)準(zhǔn)的一致性較好,證明測量系統(tǒng)可用,卷煙感官質(zhì)量差異來源于卷煙本身,卷煙感官質(zhì)量制絲生產(chǎn)影響因素的挖掘不可或缺。
紅河A品牌卷煙正式投入生產(chǎn)后,我廠針對每一批次卷煙開展在線針對性評吸,因此本文選擇紅河A牌號為研究對象,探索制絲生產(chǎn)過程卷煙感官質(zhì)量的影響因素。數(shù)據(jù)來源于年度內(nèi)紅河A品牌共139個批次卷煙在線針對性評吸結(jié)果,從我廠制造執(zhí)行系統(tǒng)(MES)調(diào)取各批次對應(yīng)生產(chǎn)全過程共26個可控加工參數(shù)數(shù)據(jù),并依據(jù)集團(tuán)數(shù)據(jù)截取規(guī)則對過程異常數(shù)據(jù)進(jìn)行了處理 。
隨機森林是集成學(xué)習(xí)的重要方法,由Breiman(2001)提出,其分類和bagging 分類非常類似,即從原始訓(xùn)練樣本集N中有放回的重復(fù)抽取n個觀測值作為自助法樣本(bootstrap sample),根據(jù)這個新樣本建造一個(分類)決策樹。在建造樹的過程中并不用所有的變量當(dāng)候選拆分變量,而是隨機地挑選部分變量來競爭拆分變量,這樣,不僅僅是每棵樹所用的數(shù)據(jù)是隨機抽取的, 而且每個節(jié)點的拆分變量的選擇都是隨機的。
隨機森林是用隨機方式建立一個森林,森林里面有很多決策樹,每一棵決策樹之間是沒有關(guān)聯(lián)的。當(dāng)輸入新的樣本時,就讓森林中的每一棵決策樹分別進(jìn)行判斷,并用票選法決定預(yù)測的結(jié)果。隨機森林分類的交叉驗證的綜合結(jié)果即OOB誤差估計,通過其OOB可知模型誤判率及準(zhǔn)確率。
隨機森林能夠處理觀測值很少,或自變量高階交互作用及自變量相關(guān)的問題,在現(xiàn)有算法中,其精度是無可比擬的,且隨機森林在分類的應(yīng)用中可以計算出不同變量屬性的重要性,是卷煙感官質(zhì)量影響因素挖掘方法的必然之選。
首先在R軟件下,對全部變量及其觀測值用randomForest()進(jìn)行擬合,計算其擬合精度,分類結(jié)果顯示,隨機森林OOB誤差估計為15.83%。預(yù)測類錯判主要在A-B和B-C之間,沒有A-C之間的錯判。由于制絲生產(chǎn)過程卷煙感官質(zhì)量評價主要用于生產(chǎn)過程改善,不用于標(biāo)樣定值,此處OOB誤差估計已滿足實際需要。
圖2 隨機森林?jǐn)M合的變量部分依賴圖
通過隨機森林?jǐn)M合的變量部分依賴圖可以看出,各變量在因變量的取值上的影響很不一樣。比如最不重要的變量X4僅僅在很小的范圍和Y有關(guān), 而有些變量則是全方位的,據(jù)隨機森林Gini指數(shù)繪制變量重要性的Pareto圖,并根據(jù)二八原則找到17個關(guān)鍵變量。
圖3 變量重要性的Pareto圖
為驗證模型有效性,在R軟件下使用predict()函數(shù)對模型進(jìn)行交叉驗證,輸出均方誤差(NMSE)為0.0139669。
本文基于隨機森林方法及系統(tǒng)理論,構(gòu)建了卷煙感官質(zhì)量制絲生產(chǎn)影響因素挖掘模型,通過對紅河A品牌多個批次生產(chǎn)數(shù)據(jù)進(jìn)行分析,研究結(jié)論及建議如下:
1.制絲全過程各個工段都存在對卷煙感官質(zhì)量產(chǎn)生影響的因素,而在二八原則找出的17個關(guān)鍵影響因素中,葉絲處理段工藝參數(shù)占比最多,由此證明葉絲處理段的影響力舉足輕重。在實際生產(chǎn)過程中,葉絲處理段可調(diào)節(jié)參數(shù)較多、設(shè)備可調(diào)節(jié)范圍較廣,因此為實現(xiàn)卷煙感官質(zhì)量的穩(wěn)定和提升,可針對葉絲處理段過程控制穩(wěn)定性做進(jìn)一步探索。
2.本文僅在卷煙感官質(zhì)量制絲生產(chǎn)影響因素的挖掘上做了拋磚引玉,在測試范圍內(nèi)對部分關(guān)鍵參數(shù)進(jìn)行了重要性度量。鑒于制絲連續(xù)生產(chǎn)的特點,其生產(chǎn)過程參數(shù)牽一發(fā)而動全身,在針對卷煙感官質(zhì)量的改善過程中,可能對其物料消耗、物理指標(biāo)、化學(xué)指標(biāo)等產(chǎn)生影響。因此,如何對制絲生產(chǎn)過程參數(shù)做綜合調(diào)控、實現(xiàn)精益生產(chǎn),還需進(jìn)一步研究。
3.隨機森林分類方法在在分析定性變量時具有顯著優(yōu)勢,是一種有效的分類方法,隨著條件的日益成熟以及大數(shù)據(jù)的推廣,預(yù)測精度也會越來越高。因此,立足于滿足消費者的消費習(xí)慣和需求,并結(jié)合實際生產(chǎn)現(xiàn)狀,可有針對性的將本方法進(jìn)一步推廣應(yīng)用到制絲生產(chǎn)工藝參數(shù)優(yōu)化、過程穩(wěn)定性控制及其加工效果的探索和改善中,以此提高顧客對卷煙產(chǎn)品的滿意度,提高產(chǎn)品市場競爭力。