江 倫 滿 奕,2,* 李繼庚 洪蒙納 孟子薇 朱小林
(1.華南理工大學(xué)制漿造紙工程國家重點(diǎn)實(shí)驗(yàn)室,廣東廣州,510640;2.深圳新益昌科技股份有限公司,廣東深圳,518000)
產(chǎn)品質(zhì)量是制造業(yè)發(fā)展的生命線,是支撐經(jīng)濟(jì)轉(zhuǎn)型升級(jí)的基石。在造紙企業(yè)中,在高產(chǎn)量高車速下紙張生產(chǎn)時(shí)引發(fā)各種質(zhì)量問題,如依靠上漿定量對(duì)于紙張松厚度的控制,依靠刮刀起皺對(duì)于紙張吸水性的控制等變得更加具有挑戰(zhàn)性,間接導(dǎo)致產(chǎn)品質(zhì)量問題日益突出,同時(shí)消費(fèi)者對(duì)于紙張質(zhì)量要求的不斷提高也給企業(yè)生產(chǎn)帶來了巨大挑戰(zhàn)。在“中國制造2025”堅(jiān)持以創(chuàng)新驅(qū)動(dòng)、質(zhì)量為先、綠色發(fā)展、結(jié)構(gòu)優(yōu)化、人才為本的基本方針[1],以及我國在制造業(yè)的數(shù)字化、網(wǎng)絡(luò)化和智能化取得明顯進(jìn)展的大背景下,基于數(shù)據(jù)驅(qū)動(dòng)的智能制造將是企業(yè)未來質(zhì)檢以及提高產(chǎn)品質(zhì)量、優(yōu)化生產(chǎn)過程、節(jié)能降耗的重要方向[2-3]。
目前,造紙企業(yè)采取的質(zhì)檢方式為先產(chǎn)后檢和抽檢兩種相結(jié)合的方式。其中,先產(chǎn)后檢基于儀器質(zhì)檢。該檢測(cè)方式存在滯后性,不僅會(huì)導(dǎo)致產(chǎn)品質(zhì)量得不到及時(shí)的反饋,且生產(chǎn)過程無法實(shí)現(xiàn)閉環(huán)控制,基于數(shù)據(jù)驅(qū)動(dòng)模型的優(yōu)化控制將無法實(shí)施[4]。該檢測(cè)方式嚴(yán)重依賴人工經(jīng)驗(yàn),致使產(chǎn)品質(zhì)量波動(dòng),生產(chǎn)原材料資源浪費(fèi)[5]。抽檢的方式使得企業(yè)對(duì)紙張質(zhì)量的檢測(cè)達(dá)不到100%覆蓋(目前某企業(yè)原紙質(zhì)檢覆蓋率約在25%),存在大量質(zhì)檢遺漏而導(dǎo)致潛在的原紙質(zhì)量問題。因此,對(duì)造紙企業(yè)紙張質(zhì)量進(jìn)行精確的在線預(yù)測(cè)是亟需解決的問題。
影響產(chǎn)品質(zhì)量的因素有很多,如漿料的纖維形態(tài)對(duì)紙張質(zhì)量影響較大,張美娟等人[6]研究表明細(xì)小纖維含量影響纖維間的結(jié)合力,進(jìn)而影響紙張的抗張強(qiáng)度;彭金勇等人[7]指出纖維粗度對(duì)紙張的松厚度有重要影響;Trepanier[8]指出纖維長度、扭結(jié)纖維百分比對(duì)紙張抗張強(qiáng)度、柔軟度和松厚度影響較大。制漿過程中的磨漿工藝對(duì)紙張質(zhì)量影響也較大,Samira等人[9]概述了磨漿對(duì)纖維結(jié)構(gòu)和性質(zhì)的影響,主要表現(xiàn)在纖維潤脹(包含纖維內(nèi)部潤脹和外部潤脹)、細(xì)小纖維化、纖維變短以及纖維表面的結(jié)晶度和化學(xué)成分的變化,最終影響紙張的物理指標(biāo)。紙機(jī)工藝過程中的流送、成形等流程,通過影響纖維之間的結(jié)合力和纖維的排列分布,來影響紙張的抗張強(qiáng)度、柔軟度等[10]。其中漿料纖維形態(tài)又是影響紙張質(zhì)量的關(guān)鍵變量[11],且長纖維和短纖維的用量直接關(guān)系到原料成本[12]。但在企業(yè)實(shí)際生產(chǎn)過程中無法實(shí)時(shí)在線獲取漿料纖維形態(tài)。
決策樹是機(jī)器學(xué)習(xí)中最流行的分類和回歸方法之一[13],其中,梯度增強(qiáng)決策樹(GBDT)不僅在實(shí)際應(yīng)用取得了很大的成功,同時(shí)在各種機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘挑戰(zhàn)中也取得了很大的成功[14]。GBDT 對(duì)于異常值的魯棒性強(qiáng),可高效地處理噪聲,且泛化能力強(qiáng),模型靈活性高,由于其靈活的損失函數(shù)機(jī)制使得GBDT 可以處理任何數(shù)據(jù)驅(qū)動(dòng)任務(wù),且處理速度快,效果好,模型有很好的解釋性[15]。因此越來越多地用于解決非線性、多參數(shù)估計(jì)和預(yù)測(cè)問題[2]。造紙過程是典型非線性、時(shí)變性、不確定性、復(fù)雜性和滯后性的過程工業(yè)[16],采用GBDT 建立紙張質(zhì)量軟測(cè)量的數(shù)據(jù)模型,不僅可以解決上述問題,還可以克服機(jī)理建模的困難,有效地對(duì)產(chǎn)品質(zhì)量進(jìn)行預(yù)測(cè)。
為解決對(duì)造紙企業(yè)離線質(zhì)檢工作量大,紙張關(guān)鍵物理指標(biāo)無法在線實(shí)時(shí)軟測(cè)量的問題,本課題利用基于機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)算法,建立精確的質(zhì)量在線軟測(cè)量模型。模型以原料纖維形態(tài)數(shù)據(jù)、漿料配比數(shù)據(jù)、磨漿工藝參數(shù)為初始輸入,利用纖維形態(tài)軟測(cè)量模型預(yù)測(cè)磨后纖維形態(tài)數(shù)據(jù)[17],然后結(jié)合關(guān)鍵紙機(jī)工藝參數(shù),建立紙張質(zhì)量軟測(cè)量模型,實(shí)現(xiàn)對(duì)紙張抗張強(qiáng)度、柔軟度及松厚度的實(shí)時(shí)在線軟測(cè)量。不僅能夠提前預(yù)測(cè)產(chǎn)品質(zhì)量、降低產(chǎn)品不合格率、減少質(zhì)量波動(dòng),并在此基礎(chǔ)上節(jié)約原材料,降低企業(yè)生產(chǎn)成本;還可以省去人工檢測(cè)費(fèi)用及設(shè)備成本,并克服生產(chǎn)上質(zhì)檢工作的滯后性問題,對(duì)以后基于數(shù)據(jù)驅(qū)動(dòng)優(yōu)化生產(chǎn)工藝下的智能制造有極為重要的現(xiàn)實(shí)意義。
對(duì)紙張抗張強(qiáng)度、柔軟度和松厚度進(jìn)行軟測(cè)量,主要包括利用磨后纖維形態(tài)軟測(cè)量模型[17]對(duì)磨后漿料纖維形態(tài)進(jìn)行軟測(cè)量,然后結(jié)合造紙過程工藝數(shù)據(jù),基于GBDT 算法,建立紙張質(zhì)量軟測(cè)量模型。該方法主要包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、磨后漿料纖維形態(tài)軟測(cè)量、建立質(zhì)量軟測(cè)量模型及模型驗(yàn)證。建立紙張質(zhì)量軟測(cè)量模型的技術(shù)路線如圖1所示。
圖1 質(zhì)量軟測(cè)量模型技術(shù)路線圖
本研究首先獲取某造紙企業(yè)實(shí)際生產(chǎn)中每軸原紙的漿料配比、質(zhì)量檢測(cè)數(shù)據(jù)(抗張強(qiáng)度、柔軟度及松厚度)以及生產(chǎn)周期內(nèi)的磨漿機(jī)工藝數(shù)據(jù)和紙機(jī)工藝數(shù)據(jù)。然后進(jìn)行數(shù)據(jù)的預(yù)處理,即先剔除缺失值、恒定值等不真實(shí)的數(shù)據(jù),再將質(zhì)檢數(shù)據(jù)與造紙工藝數(shù)據(jù)匹配。接下來利用磨后纖維形態(tài)軟測(cè)量模型[17],輸入模型所需要的漿料配比、磨漿機(jī)通過量、濃度及功率,來軟測(cè)量磨漿后的纖維形態(tài)。最后結(jié)合特征選擇紙機(jī)工藝數(shù)據(jù),基于GBDT 算法建立紙張質(zhì)量軟測(cè)量模型,實(shí)現(xiàn)對(duì)紙張抗張強(qiáng)度、松厚度和柔軟度指標(biāo)的軟測(cè)量。為了驗(yàn)證所建紙張質(zhì)量軟測(cè)量模型的真實(shí)有效性,再次提取現(xiàn)場(chǎng)數(shù)據(jù)對(duì)所建模型進(jìn)行驗(yàn)證,可表明本研究最終所建立的紙張質(zhì)量軟測(cè)量模型精度高且泛化能力好,具有良好的應(yīng)用性。
考慮到紙張生產(chǎn)過程中存在間歇性設(shè)備(如磨漿機(jī))、間歇性容器(如上漿池),導(dǎo)致其是一個(gè)非常復(fù)雜的非線性、時(shí)延性和不確定性過程,普通的模型難以準(zhǔn)確對(duì)該過程進(jìn)行較好擬合。GBDT 算法結(jié)合了回歸樹和增強(qiáng)算法框架,通過迭代降低模型的殘差,有很強(qiáng)的非線性處理能力和預(yù)測(cè)能力[18]。另外模型擁有強(qiáng)大的損失函數(shù),對(duì)于輸入變量的異常處理能力和魯棒性強(qiáng),可高效地處理噪聲[19],因此本研究采用GBDT算法對(duì)紙張質(zhì)量進(jìn)行預(yù)測(cè),具體步驟如下。
(1) 確定目標(biāo)函數(shù)。首先確定輸入變量X =[x1,…xp]n·p和輸出變量Y。
查找裂變特征j和裂變節(jié)點(diǎn)s的目標(biāo)公式如公式(1)所示。
式中,yi為實(shí)際輸出變量,c1、c2為擬合輸出變量。
式中,F(xiàn)(x,P)為總體模型函數(shù),h(x,αm)為第m個(gè)基礎(chǔ)回歸樹函數(shù),m = 1,2…M 為回歸樹棵樹,βm為第m棵回歸樹權(quán)重,αm是第m棵回歸樹內(nèi)的參數(shù)。
式中,m = 1,2…M為回歸樹棵樹,α1是第1棵回歸樹內(nèi)的參數(shù),βm為第m 棵回歸樹權(quán)重,h(x,αm)為第m 個(gè)基礎(chǔ)回歸樹函數(shù),F(xiàn)m(x)為前m 個(gè)模型函數(shù),F(xiàn)m-1(x)為前m - 1個(gè)函數(shù)。
GBDT 算法采用梯度下降法求極小值,最大下降梯度方向是損失函數(shù)在當(dāng)前模型Fm-1下的負(fù)梯度方向,計(jì)算如公式(6)所示[14]。
本研究采集了某造紙廠實(shí)際生產(chǎn)數(shù)據(jù)作為建模的數(shù)據(jù)基礎(chǔ)(來自企業(yè)MES 系統(tǒng)數(shù)據(jù))。主要包含從業(yè)務(wù)數(shù)據(jù)庫提取漿料配比數(shù)據(jù)、磨漿工藝數(shù)據(jù)及質(zhì)檢數(shù)據(jù),采集頻率為每軸紙的相關(guān)數(shù)據(jù),從生產(chǎn)過程數(shù)據(jù)庫提取造紙工藝數(shù)據(jù),采集頻率為每分鐘的相關(guān)數(shù)據(jù)。本研究所展示的數(shù)據(jù)均為脫敏處理后的數(shù)據(jù)。
由于在造紙實(shí)際過程中,當(dāng)生產(chǎn)出現(xiàn)停產(chǎn)(如突發(fā)斷紙)或者停機(jī)狀態(tài)及制造執(zhí)行系統(tǒng)(MES)網(wǎng)絡(luò)通信異常時(shí),大部分?jǐn)?shù)據(jù)是零值或者空缺值,一些計(jì)量儀器還會(huì)顯示最終時(shí)刻的計(jì)量值(即出現(xiàn)恒定值異常)。故本研究首先剔除這些非真實(shí)有效數(shù)據(jù),以提高數(shù)據(jù)的可利用性,保證不會(huì)影響后期數(shù)據(jù)建模的模型精度。另外對(duì)于企業(yè)而言,不可能做到對(duì)生產(chǎn)的全部原紙產(chǎn)品進(jìn)行所有質(zhì)量指標(biāo)的檢測(cè),而是對(duì)部分原紙產(chǎn)品軸紙末端采樣進(jìn)行全檢和非全檢混合的模式。在生產(chǎn)上,生產(chǎn)一軸紙約需1~2 h,針對(duì)軸紙末端的檢測(cè)僅是下軸時(shí)刻1 min 內(nèi)的質(zhì)檢指標(biāo)值,故還要匹配到這1 min 內(nèi)的紙機(jī)工藝參數(shù),即根據(jù)質(zhì)檢數(shù)據(jù)中每一軸紙的軸號(hào)信息,結(jié)合卷紙長度指標(biāo),對(duì)采樣原紙質(zhì)檢數(shù)據(jù)進(jìn)行生產(chǎn)時(shí)序上的匹配,以完成紙機(jī)工藝參數(shù)與質(zhì)檢數(shù)據(jù)的逐一匹配,為后續(xù)建模做數(shù)據(jù)基礎(chǔ)。
本研究具體的數(shù)據(jù)預(yù)處理方式如下:對(duì)于存在缺失的數(shù)據(jù)(如磨漿機(jī)功率缺失、非全檢數(shù)據(jù))進(jìn)行刪除;對(duì)于工藝參數(shù)與質(zhì)檢數(shù)據(jù)的匹配,首先導(dǎo)出卷紙長度數(shù)據(jù),剔除缺失值及恒定值,然后從中提取所有最大值即所有卷紙末端時(shí)刻點(diǎn)的卷紙長度值,該時(shí)刻點(diǎn)就是質(zhì)檢點(diǎn)時(shí)刻,最后匹配上該時(shí)刻的紙機(jī)工藝參數(shù)值,即得到同一時(shí)刻上質(zhì)檢數(shù)據(jù)與工藝數(shù)據(jù)的完整建模數(shù)據(jù)。本研究建模數(shù)據(jù)和驗(yàn)證數(shù)據(jù)分別采集于某造紙廠2018 年4 月1 日至2018 年10 月31 日和2018 年12 月15 日至2019 年2 月11 日兩個(gè)時(shí)間段內(nèi)的生產(chǎn)數(shù)據(jù),經(jīng)上述預(yù)處理、數(shù)據(jù)匹配后共計(jì)建模有效數(shù)據(jù)580組64維,驗(yàn)證數(shù)有效數(shù)據(jù)123組64維。
在建立紙張質(zhì)量軟測(cè)量模型之前,還需要先通過磨后纖維形態(tài)軟測(cè)量模型[17]軟測(cè)量磨后纖維形態(tài)數(shù)據(jù),即將預(yù)處理好的原料纖維形態(tài)、漿料配比及磨漿功率、流量和濃度數(shù)據(jù)輸入到該模型,模型輸出磨后纖維形態(tài)數(shù)據(jù)。接著針對(duì)獲取的預(yù)處理過的紙機(jī)工藝特征,作建模前的相關(guān)性分析和排序,選取對(duì)質(zhì)量指標(biāo)影響較大的紙機(jī)工藝特征,避免特征太多增加模型的復(fù)雜度,同時(shí)剔除無關(guān)變量影響。相關(guān)性分析選擇結(jié)果如圖2所示。相關(guān)性分析可以發(fā)現(xiàn)兩個(gè)變量之間的相關(guān)性程度,相關(guān)系數(shù)在[-1,1]上,正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),且絕對(duì)值越大相關(guān)性越強(qiáng),相關(guān)系數(shù)大于0.4,則表示關(guān)系緊密。本研究均選取相關(guān)系數(shù)絕對(duì)值大于0.4 的紙機(jī)工藝特征,即圖2 中各縱坐標(biāo)所示的特征變量。
針對(duì)特征選擇后的580組數(shù)據(jù),劃分80%訓(xùn)練數(shù)據(jù)集和20%測(cè)試集,訓(xùn)練集用來訓(xùn)練模型參數(shù),測(cè)試集用來測(cè)試所訓(xùn)練的模型精度?;贕BDT 算法,分別建立紙張抗張強(qiáng)度軟測(cè)量模型、柔軟度軟測(cè)量模型和松厚度軟測(cè)量模型,抗張強(qiáng)度軟測(cè)量模型輸入包含7種磨后漿料纖維形態(tài)(纖維平均長度、纖維平均寬度、扭結(jié)纖維百分比、斷尾纖維百分比、纖維平均粗度、細(xì)小纖維含量(按長度)和分絲帚化率)及上述特征分析所選的圖2(a)中特征,模型輸出為紙張抗張強(qiáng)度值。柔軟度軟測(cè)量模型輸入為上述7種磨后漿料纖維形態(tài)及圖2(b)中特征,模型輸出為紙張柔軟度值。松厚度軟測(cè)量模型輸入為上述7種磨后漿料纖維形態(tài)及圖2(c)中特征,模型輸出為松厚度值。
圖2 紙張各指標(biāo)相特征選擇結(jié)果
對(duì)于模型參數(shù),GBDT 算法主要有損失函數(shù)、每棵樹深度、弱回歸樹棵樹和學(xué)習(xí)率4 個(gè)參數(shù)需要選擇。損失函數(shù)常用的主要有最小二乘、最小絕對(duì)值差值、Huber 損失和分位數(shù)損失,結(jié)合本研究數(shù)據(jù)波動(dòng)較大,而Huber 損失函數(shù)對(duì)異常值的抗干擾能力強(qiáng),因此本研究選用Huber損失函數(shù)。然后確定每棵樹深度,在數(shù)據(jù)量不大的情況下,樹深度一般在3~6之間選取,樹深度較高很容易導(dǎo)致模型過擬合[18],即模型過度學(xué)習(xí)訓(xùn)練集特征導(dǎo)致對(duì)新數(shù)據(jù)的預(yù)測(cè)效果變差,表現(xiàn)在訓(xùn)練誤差降低而測(cè)試誤差反而增加。接著確定弱回歸樹棵樹,在10、100、1000 三個(gè)數(shù)量級(jí)上選取范圍,為了找到最佳值,使用網(wǎng)格搜索方法[20],以10(或50) 為增量搜索確定。最后確定學(xué)習(xí)率,在0.001、0.01、0.1 數(shù)量級(jí)上選取,然后逐步縮小范圍,直至在保證模型沒有過擬合的前提下測(cè)試誤差最低,即為模型最佳參數(shù)。3 種質(zhì)量軟測(cè)量模型參數(shù)的最佳值如表1所示。模型的測(cè)試結(jié)果如圖3所示。
表1 GBDT算法模型參數(shù)的最佳值
圖3 紙張各指標(biāo)質(zhì)量軟測(cè)量模型測(cè)試結(jié)果
由表1 及圖3 可知,測(cè)試數(shù)據(jù)中預(yù)測(cè)值與實(shí)際值擬合的R2非常高,模型對(duì)實(shí)際數(shù)據(jù)的波動(dòng)性呈現(xiàn)較好的預(yù)測(cè)能力。另外,抗張強(qiáng)度、柔軟度、松厚度模型的平均相對(duì)誤差分別為:7.21%、7.38% 和3.50%,模型精度良好。
為驗(yàn)證模型的穩(wěn)定性和泛化能力,本研究選用了現(xiàn)場(chǎng)的不同數(shù)據(jù),來驗(yàn)證模型的有效性。所以再次從上述造紙企業(yè)MES 上采集另一時(shí)間段內(nèi)數(shù)據(jù)進(jìn)行模型的驗(yàn)證,按照建模時(shí)數(shù)據(jù)的處理方式得到對(duì)應(yīng)123組數(shù)據(jù),輸入到模型,輸出為原紙的抗張強(qiáng)度、柔軟度和松厚度指標(biāo),驗(yàn)證結(jié)果如圖4所示。
圖4 紙張各指標(biāo)質(zhì)量軟測(cè)量模型驗(yàn)證結(jié)果
由圖4 可知,紙張抗張強(qiáng)度的平均相對(duì)誤差為6.87%,相比建模時(shí)精度提高4.71%;柔軟度的平均相對(duì)誤差為6.88%,相比建模時(shí)精度提高6.77%;松厚度的平均相對(duì)誤差為3.12%,相比建模時(shí)精度提高10.86%。模型對(duì)新驗(yàn)證數(shù)據(jù)的預(yù)測(cè)結(jié)果精度高,泛化能力強(qiáng),表明本研究所建模型真實(shí)有效,且滿足生產(chǎn)上的實(shí)時(shí)質(zhì)檢誤差需求,可以用于實(shí)際生產(chǎn)中。
本研究針對(duì)造紙企業(yè)紙張關(guān)鍵物理指標(biāo)進(jìn)行軟測(cè)量,基于機(jī)器學(xué)習(xí)的梯度增強(qiáng)決策樹(GBDT)算法,采集造紙企業(yè)實(shí)時(shí)生產(chǎn)過程數(shù)據(jù),建立造紙企業(yè)質(zhì)量在線軟測(cè)量模型及驗(yàn)證。結(jié)果發(fā)現(xiàn),基于GBDT算法建立的質(zhì)量在線軟測(cè)量模型精度良好,滿足質(zhì)檢誤差需求。在采集新數(shù)據(jù)驗(yàn)證后,紙張抗張強(qiáng)度、柔軟度、松厚度的平均相對(duì)誤差分別為6.87%、6.88%和3.12%,表明模型精度泛化能力良好,且有較高的應(yīng)用價(jià)值,可以為生產(chǎn)上監(jiān)督異常、穩(wěn)定產(chǎn)品質(zhì)量及優(yōu)化操作工藝提供價(jià)值依據(jù)。