王滎 卓亮 何林洋 謝正全 張暉
摘要:煙草制絲過程中煙絲的加水量對制絲質(zhì)量起著重要的作用,而影響加水量的因素眾多。為了定量研究各影響因素對生絲水分的影響程度,通過對綿陽卷煙廠生絲水分歷史數(shù)據(jù),運用多種機器學(xué)習(xí)樹模型算法進行學(xué)習(xí),并對結(jié)果進行對比分析。分析結(jié)果表明,不同模型所獲得的預(yù)測精度存在差別,在現(xiàn)有數(shù)據(jù)上極端梯度提升樹獲得了最高的預(yù)測精度。通過極端梯度提升樹模型計算了各影響因素對生絲水分的影響程度。
關(guān)鍵詞: 生絲水分;極端梯度提升樹;機器學(xué)習(xí);樹模型;特征重要性
中圖分類號:TP181? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)04-0010-02
煙絲含水率是卷煙生產(chǎn)過程中最重要的質(zhì)量參數(shù)之一,只有含水率在正常范圍內(nèi)的煙絲才允許包裝出廠。制絲過程中水分主要由潤葉加料工序和烘絲工序決定,烘絲工序需要潤葉加料工序生絲含水率在規(guī)定范圍內(nèi)的同時穩(wěn)定一致,才能精確控制烘絲的時間和強度,生產(chǎn)出合格的煙絲,因此潤葉加料工序加水量對生絲含水率影響極大[1-3]。目前生絲潤葉加料工段總加水量的控制通常采用人工方式根據(jù)經(jīng)驗進行調(diào)控,由于多班制的影響,難免因為班與班、人與人之間判定和操作不一致,以及外部環(huán)境不穩(wěn)定性導(dǎo)致生絲含水率不佳的情況發(fā)生。而影響生絲水分的因素較多,包含儲葉溫濕度,加水量等可控因素和外部天氣情況、儲葉時間等不可控因素,人工調(diào)控潤葉加料工段總加水量高度依賴操作工個人經(jīng)驗,存在一定難度,缺乏穩(wěn)定性與精確性,并且不能快速應(yīng)對外部環(huán)境的變化。本文采用綿陽卷煙廠制造執(zhí)行系統(tǒng)(Manufacturing Execution System,MES)系統(tǒng)中提取的近三年生絲水分數(shù)據(jù)采用機器學(xué)習(xí)方法進行模型構(gòu)建,將不同模型的預(yù)測結(jié)果與實際數(shù)據(jù)進行對比,進而確定影響生絲水分的因素。
機器學(xué)習(xí)是從數(shù)據(jù)中發(fā)現(xiàn)知識的技術(shù),近年來由于其在圖像識別、語音識別上的進展而廣受關(guān)注。對已標注的數(shù)據(jù),根據(jù)標記是數(shù)值型數(shù)據(jù)或離散型數(shù)據(jù)分為回歸和分類算法。本研究的主要目標是對潤葉加料工段總加水量這一數(shù)值型數(shù)據(jù)進行預(yù)測和分析,采用回歸算法。常用的回歸算法有線性回歸、支持向量回歸、深度回歸、基于樹的回歸算法等。本項目不僅需要獲得較高的預(yù)測精度,同時也需要對預(yù)測的結(jié)果進行評估,需要模型具有可解釋性。因此,本項目選擇回歸樹算法來建立模型,對潤葉加料工段總加水量進行預(yù)測?;貧w樹的另一個優(yōu)點是可以在高精度預(yù)測的同時,獲得特征對結(jié)果的重要性影響程度,從而幫助理解各影響因素的影響程度。
1 相關(guān)工作
由于生絲水分預(yù)測和控制對煙絲質(zhì)量影響的重要性,目前已經(jīng)有卷煙生產(chǎn)企業(yè)開展了生絲水分影響因素分析工作。金發(fā)崗等對制絲生產(chǎn)過程數(shù)據(jù)通過隨機森林進行特征選擇,使用差分進化優(yōu)化的極限學(xué)習(xí)機進行含水率預(yù)測 [2]。李自娟等采用神經(jīng)網(wǎng)絡(luò)和多元回歸模型建立烘絲出口水分預(yù)測模型[3]。鐘文焱等采用Pearson相關(guān)分析的方法,確定烘絲機入口含水率的主要影響因素,并用神經(jīng)網(wǎng)絡(luò)算法和多元回歸分析方法建立含水率預(yù)測模型,保障制絲過程中烘絲機入口含水率的穩(wěn)定性[4]。劉穗君等對松散回潮數(shù)據(jù)通過回歸分析建立統(tǒng)計模型,并通過自適應(yīng)學(xué)習(xí)進行含水率精確控制[5]。何毅等采用梯度提升樹對煙草回潮機出料含水率進行了預(yù)測[6]。
這些研究工作表明,烘絲的出口水分主要受入口水分影響,因此控制好生絲的水分對最終制成煙絲質(zhì)量影響重大。由于生絲需要在倉庫中存儲4小時~36小時才檢測出口水分,本質(zhì)上生絲水分控制系統(tǒng)屬于大滯后控制系統(tǒng),而大滯后系統(tǒng)的控制對控制界來講一直是一個難題。傳統(tǒng)的大滯后控制采用斯密斯預(yù)估,其缺點是需要控制對象的精確數(shù)學(xué)模型,而對生絲水分控制系統(tǒng)來講,其影響因素太多,很難建立精確數(shù)學(xué)模型。各煙廠開展的相關(guān)工作主要采用各種統(tǒng)計方法找到自變量和因變量的線性模型,或是采用神經(jīng)網(wǎng)絡(luò)建立預(yù)測模型。與本文最相似的工作是文獻[2]和文獻[6],他們也采用樹模型來對生絲水分進行預(yù)測,本文與他們最重要的區(qū)別是本文采用了包括隨機森林、梯度提升樹在內(nèi)的多種樹學(xué)習(xí)模型并對預(yù)測精度進行了比較,在此基礎(chǔ)上確定了精度最高的模型,并用其進行特征分析。
2 數(shù)據(jù)預(yù)處理
2.1 數(shù)據(jù)介紹
本文數(shù)據(jù)來自從MES系統(tǒng)中提取的四川中煙工業(yè)有限責任公司綿陽卷煙廠“利群(新版)”牌號煙葉2017年6月至2020年5月生絲水分歷史數(shù)據(jù)。三年總共有近6000條(一批次為一條)生絲水分歷史數(shù)據(jù),共186個維度,主要包括松散回潮、潤葉加料、Sirox增溫增濕、烘絲、摻配加香五個生產(chǎn)環(huán)節(jié)。本項目考慮烘絲前的水分預(yù)測,所以只選用了松散回潮、潤葉加料、Sirox增溫增濕三個環(huán)節(jié)的數(shù)據(jù),具體屬性如圖1所示。
其中多個數(shù)據(jù)存在子屬性未包括在圖1中,分別為均值、標準偏差(Standard Deviation, SD)、過程能力指數(shù)(Process Capability Index,CPK)、合格率四個子屬性,為了數(shù)據(jù)分析的方便性,本文只采用各屬性的均值進行計算。模型預(yù)測值為潤葉加料工段的累積加水量。
2.2 數(shù)據(jù)預(yù)處理算法
生絲水分原始數(shù)據(jù)存在部分數(shù)據(jù)記錄缺失(如潤葉加料工段的貯葉時間等屬性的數(shù)據(jù)未存入數(shù)據(jù)庫),每批次數(shù)據(jù)也存在部分缺漏,同時數(shù)據(jù)表里部分特征對生絲水分加水量無影響。所以在數(shù)據(jù)預(yù)處理過程中,先合并所有批次的數(shù)據(jù),并對有缺失屬性的數(shù)據(jù)項進行了刪除。處理后的數(shù)據(jù)包括25個維度,它們是:“松散回潮皮帶秤實時流量均值”“松散回潮出口水分均值”“松散回潮出口溫度均值”“松散回潮回風溫度均值”“潤葉加料皮帶秤實時流量均值”“潤葉加料入口水分均值”“潤葉加料出口水分均值”“潤葉加料出口溫度均值”“潤葉加料料液實時流量均值”“潤葉加料累計加料量”“潤葉加料料液溫度均值”“潤葉加料瞬時精度均值”“潤葉加料累計精度”“Sirox增溫增濕皮帶秤實時流量均值”“Sirox入口水分均值”“Sirox入口水分SD”“Sirox蒸汽薄膜閥開度均值”“Sirox蒸汽減壓閥后壓力均值”“Sirox出口溫度均值”“整絲率”“碎絲率”“填充值”“純凈度”“儲葉房溫度”“儲葉房濕度”。
2.3數(shù)據(jù)標準化
由于數(shù)據(jù)特征量級、量綱均不一致,而不一致的量綱對機器學(xué)習(xí)算法具有較大影響,需要對特征數(shù)量級進行歸一化。筆者使用的歸一化計算公式如式(1)所示。
x=(x-maxx)/(maxx-minx)? ? ? ? ? ? ? ? ? (1)
歸一化后所有數(shù)據(jù)被縮放至0~1區(qū)間,再輸入到算法模型中進行學(xué)習(xí)預(yù)測。
3 特征選擇
3.1 模型選擇
將數(shù)據(jù)集按9:1比例隨機分為訓(xùn)練集和測試集,訓(xùn)練集用來訓(xùn)練模型,測試集用來評估訓(xùn)練好的模型。將訓(xùn)練集輸入給不同算法進行訓(xùn)練,通過網(wǎng)格搜索和交叉驗證尋找機器學(xué)習(xí)模型的最優(yōu)參數(shù),網(wǎng)格搜索用于系統(tǒng)遍歷多種參數(shù)組合,其目的是搜尋模型中的最優(yōu)超參數(shù),再通過交叉驗證確定最佳參數(shù)。
本文分別采用了回歸樹(Classification And Regression Trees, CART)[7]、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)[8]、隨機森林[9]、極端梯度提升樹(Extreme Gradient Boosting, XGBoost)[10]、Lightgbm[11]、Catboost[12] 六種基于樹的回歸算法建模,對比預(yù)測精度,選取精度最高的模型。
各模型在測試集上預(yù)測精度結(jié)果如表1所示。從表1可以看出,在六種樹模型中,XGBoost的精度最高,因此筆者選擇Xgboost來具體分析特征間的關(guān)系。
3.2 特征重要性分析
使用XGboost計算出的特性影響權(quán)重如圖2所示。從圖2可以看出,潤葉加料入口水分均值的特征影響權(quán)重占比超過45%,仍占主要影響地位;儲葉房溫濕度、潤葉加料出口水分、松散回潮出口水分、松散回潮出口溫度和松散回潮累計加水量的特征影響權(quán)重占比占據(jù)重要影響地位。
4 結(jié)論
為掌握制絲工序中各影響因素對生絲水分的影響情況,本文對數(shù)據(jù)進行了預(yù)處理并篩選特征,通過使用回歸樹、GBDT、隨機森林、XGBoost、Lightgbm、Catboost多種常用樹學(xué)習(xí)模型對歷史數(shù)據(jù)的預(yù)測精度進行研究。通過對比選取的六個樹模型預(yù)測精度,選取精度最高的Xgboost作為本項目研究模型。
通過特征重要性計算和特征相關(guān)性分析,可以知道潤葉加料入口水分均值對總加水量影響最大,潤葉加料出口水分均值占據(jù)重要影響,潤葉加料累計加料量、潤葉加料皮帶秤累計值、松散回潮皮帶秤累計值、潤葉加料瞬時精度均值、潤葉加料出口水分、松散回潮出口水分和松散回潮出口溫度分別占據(jù)較為重要的影響。
參考文獻:
[1] 范羿,王錫瑩,何曉瑩,等.煙絲風送過程含水率變化趨勢研究[J].云南化工,2020,47(8):74-76.
[2] 金發(fā)崗,王雅琳,張鵬程,等.隨機森林和DE-ELM的烘絲機入口含水率預(yù)測[J].控制工程,2020,27(3):532-539.
[3] 李自娟,劉博,高楊,等.卷煙制絲環(huán)節(jié)關(guān)鍵工序水分預(yù)測模型的建立與檢驗[J].食品與機械,2020,36(10):190-195,205.
[4] 鐘文焱,陳曉杜,馬慶文,等.基于多因素分析的烘絲機入口含水率預(yù)測模型的建立與應(yīng)用[J].煙草科技,2015,48(5):67-73.
[5] 劉穗君,王玉芳,李超,等.基于統(tǒng)計回歸分析的松散回潮出口含水率精準控制系統(tǒng)[J].煙草科技,2017,50(3):88-93.
[6] 何毅,李斌,普軼,等.基于梯度提升樹的煙草回潮機出料含水率預(yù)測[J].軟件,2020,41(6):151-157.
[7] 1Breiman L, Friedman J H, Olshen R A, et al. Classification and Regression? Trees[M]. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.
[8] Friedman J H.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001,29(5):1189-1232.
[9] Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
[10] Chen T Q,Guestrin C.XGBoost:a scalable tree boosting system[C]//KDD '16:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2016:785-794.
[11] Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting? decision tree[C]. Advances in neural information processing systems, 2017 : 3146- 3154.
[12] Dorogush A V,Ershov V,Gulin A.CatBoost:gradient boosting with categorical features support[J]. arXiv preprint arXiv:2018:1810-11363.
收稿日期:2021-10-15
基金項目:四川中煙工業(yè)科研項目“基于數(shù)據(jù)相關(guān)性分析的生絲水分控制智能決策系統(tǒng)”(202005)
作者簡介: 王滎(1986—),女,四川樂山人,工程師,本科,主要研究方向為工業(yè)自動化及智能制造;卓亮(1984—),男,四川綿陽人,工程師,碩士,主要研究方向為工業(yè)自動化;何林洋(1985—),男,四川綿陽人,工程師,本科,主要研究方向為工業(yè)自動化及儀器儀表;謝正全(1977—),男,吉林德惠人,工程師,碩士,主要研究方向為軟件工程;張暉(1972—),男,安徽宿松人,教授, 博士,主要研究方向為大數(shù)據(jù)技術(shù)。