陰艷超 施成娟 鄒朝普 劉孝保
1.昆明理工大學(xué)機(jī)電工程學(xué)院,昆明,6505002.昆船智能技術(shù)股份有限公司,昆明,650051
流程制造具有生產(chǎn)連續(xù)性強(qiáng)、工序間參數(shù)耦合復(fù)雜、原料成分波動(dòng)頻繁等特點(diǎn)。保障流程產(chǎn)品質(zhì)量穩(wěn)定的關(guān)鍵是如何在最短時(shí)間內(nèi)感知工藝過程和產(chǎn)品質(zhì)量的各種變化,并通過調(diào)整運(yùn)行參數(shù)和工藝參數(shù)來保證生產(chǎn)全流程的整體高效運(yùn)行,因此,研究精準(zhǔn)、快速和高效的生產(chǎn)質(zhì)量預(yù)測(cè)方法是提高流程產(chǎn)品質(zhì)量和資源利用率的核心。
近年來,國(guó)內(nèi)外學(xué)者對(duì)流程產(chǎn)品質(zhì)量的預(yù)測(cè)方法進(jìn)行了有益的探索。針對(duì)車間生產(chǎn)數(shù)據(jù)的關(guān)聯(lián)挖掘,梁強(qiáng)等[1]利用灰度關(guān)聯(lián)分析和熵值法,將多目標(biāo)問題轉(zhuǎn)化為關(guān)于灰色關(guān)聯(lián)度的單目標(biāo)問題;胡嘉蕊等[2]應(yīng)用核主成分分析提取核主成分,實(shí)現(xiàn)了多輸出模型的降維。支持向量機(jī)回歸(support vector regression,SVR)模型[3-5]、反向傳播人工神經(jīng)網(wǎng)絡(luò)(back propagation artificial neural networks,BPANN)[6-7]、深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)[8]都是以數(shù)據(jù)驅(qū)動(dòng)為基礎(chǔ)來探索高維非線性映射關(guān)系的經(jīng)典模型,在諸多場(chǎng)景中得到了廣泛應(yīng)用,但這些方法容易受到專家經(jīng)驗(yàn)及獨(dú)立處理時(shí)間點(diǎn)的限制,提取的參數(shù)特征存在偏失。
隨著硬件算力的提高,深度學(xué)習(xí)在時(shí)間序列預(yù)測(cè)領(lǐng)域中的應(yīng)用備受關(guān)注,國(guó)內(nèi)外的研究主要集中在深度學(xué)習(xí)模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體結(jié)構(gòu)[9-11]通過引入循環(huán)反饋結(jié)構(gòu)來處理輸入序列間前后關(guān)聯(lián)的問題,即提取出前后時(shí)刻不斷更替的時(shí)序信息,但該方法無法解決長(zhǎng)距離信息依賴問題。為解決上述問題,很多學(xué)者展開了混合神經(jīng)網(wǎng)絡(luò)的研究,通過聚集不同神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)來彌補(bǔ)單一神經(jīng)網(wǎng)絡(luò)的不足。何彥等[12]結(jié)合堆疊自動(dòng)編碼器和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的優(yōu)點(diǎn),從高維數(shù)據(jù)中提取低維特征并完成時(shí)序預(yù)測(cè)。ZHANG等[13]將卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)相結(jié)合,旨在有效地將特征提取、融合和回歸相結(jié)合,最終實(shí)現(xiàn)預(yù)測(cè)。QI等[14]通過搭建卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)數(shù)據(jù)的自適應(yīng)特征提取,并將提取出的特征作為支持向量回歸模型的輸入,避免了人工特征提取和特征選擇的局限性。
上述基于深度學(xué)習(xí)的方法在生產(chǎn)質(zhì)量預(yù)測(cè)上取得了諸多成果。實(shí)際應(yīng)用中,生產(chǎn)過程是由不同產(chǎn)線構(gòu)成的,而不同產(chǎn)線獲取的數(shù)據(jù)量各不相同,存在小樣本數(shù)據(jù)集的可能,且不同產(chǎn)線都需要對(duì)模型進(jìn)行重新訓(xùn)練。這在模型訓(xùn)練過程中會(huì)導(dǎo)致以下問題:樣本數(shù)據(jù)集過小時(shí)不足以獲得完整的工藝特征信息;樣本數(shù)據(jù)集過大時(shí)訓(xùn)練時(shí)間較長(zhǎng),難以及時(shí)進(jìn)行生產(chǎn)質(zhì)量的在線預(yù)測(cè)。
遷移學(xué)習(xí)具有計(jì)算成本低、學(xué)習(xí)樣本小[15-16]等優(yōu)點(diǎn),因此本文基于遷移學(xué)習(xí)的思想,提出一種新的車間工藝質(zhì)量在線預(yù)測(cè)模型。首先構(gòu)建出一種能有效利用工藝參數(shù)和歷史質(zhì)量指標(biāo)時(shí)序信息的質(zhì)量預(yù)測(cè)模型。利用遷移學(xué)習(xí)解決其他產(chǎn)線數(shù)據(jù)不足、難以精準(zhǔn)建模,以及模型運(yùn)行時(shí)間長(zhǎng)、難以支持在線預(yù)測(cè)等問題。
流程生產(chǎn)主要通過傳感器、智能終端、控制系統(tǒng)獲取設(shè)備運(yùn)行參數(shù)、工藝參數(shù)、質(zhì)量指標(biāo)等包含不同維度特征信息的生產(chǎn)數(shù)據(jù)。制絲工藝生產(chǎn)中的松散回潮工序?qū)?yīng)的生產(chǎn)數(shù)據(jù)包括主蒸汽壓力、工作蒸汽壓力、工藝用水壓力、壓縮空氣壓力、篩板加熱蒸汽壓力、回風(fēng)風(fēng)門開度、排潮風(fēng)門開度和滾筒轉(zhuǎn)速等工藝參數(shù),以及出料含水率、出料溫度兩個(gè)質(zhì)量指標(biāo)。實(shí)際應(yīng)用中,設(shè)備運(yùn)行參數(shù)與工藝參數(shù)的關(guān)聯(lián)關(guān)系和時(shí)序依賴關(guān)系特征難以獲取,致使敏感工藝和運(yùn)行參數(shù)無法及時(shí)調(diào)控,進(jìn)而無法保障生產(chǎn)質(zhì)量的穩(wěn)定。
傳統(tǒng)的工藝質(zhì)量預(yù)測(cè)模型無法提取工藝數(shù)據(jù)的時(shí)序特性,因而本文借助序列到序列(sequence to sequence, Seq2Seq)的布局,提出基于時(shí)間卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)框架來預(yù)測(cè)工藝質(zhì)量。在Seq2Seq模型中引入卷積結(jié)構(gòu)表示和捕捉工藝數(shù)據(jù)的關(guān)聯(lián)模式,構(gòu)建工藝時(shí)間序列的依賴關(guān)系,以解決Seq2Seq模型的深度特征提取不全和前序特征覆蓋的問題。
設(shè)流程車間任一工序中的質(zhì)量指標(biāo)序列Y=(y1,y2,…,yT)∈RT,工藝參數(shù)的運(yùn)行時(shí)序數(shù)據(jù)可展開表達(dá)為
(1)
式中,xt為N個(gè)工藝參數(shù)在時(shí)刻t(t=1,2,…,T)下的數(shù)據(jù),xt=(xt,1,xt,2, …,xt,N);xm為第m(m=1,2,…,N)個(gè)工藝參數(shù)T個(gè)歷史時(shí)刻的時(shí)間序列,xm=(x1,m,x2,m,…,xT,m)T。
本文模型是基于序列到序列的學(xué)習(xí)框架,通過綜合運(yùn)用車間工藝參數(shù)特征信息和歷史工藝質(zhì)量時(shí)序信息來預(yù)測(cè)工藝質(zhì)量,具體操作如下:首先,通過編碼器中的時(shí)間卷積神經(jīng)網(wǎng)絡(luò)(temporal convolution neural network,TCN)和時(shí)序注意力機(jī)制聯(lián)合提取工藝參數(shù)中的關(guān)聯(lián)時(shí)序信息;隨后,整合解碼器中的殘差長(zhǎng)短期記憶(long short term memory, LSTM)網(wǎng)絡(luò)來學(xué)習(xí)表達(dá)歷史工藝質(zhì)量中的時(shí)序信息,最終實(shí)現(xiàn)復(fù)雜工況下產(chǎn)品質(zhì)量的精準(zhǔn)預(yù)測(cè)。將本文模型簡(jiǎn)記為DTCN_A模型,且將模型的整體函數(shù)記為FDTCN_A,則工藝質(zhì)量預(yù)測(cè)值
(2)
實(shí)際的流程生產(chǎn)中,不同工序設(shè)備運(yùn)行的變化會(huì)導(dǎo)致生成的實(shí)時(shí)數(shù)據(jù)集與參與模型訓(xùn)練的樣本集有所差別,因此利用離線數(shù)據(jù)訓(xùn)練得到的工藝質(zhì)量預(yù)測(cè)模型難以精準(zhǔn)預(yù)測(cè)各種未知工況下的質(zhì)量指標(biāo),且預(yù)測(cè)模型在很多情況下無法重新學(xué)習(xí)。針對(duì)上述問題,利用不同設(shè)備、操作條件或產(chǎn)線下加工工序的相似性,引入遷移學(xué)習(xí),提出一種適用于深度TCN的有效遷移學(xué)習(xí)方式,即將源域中的有用知識(shí)遷移到目標(biāo)域,利用遷移學(xué)習(xí)來自適應(yīng)跟蹤設(shè)備運(yùn)行參數(shù)和工藝參數(shù)的變化,實(shí)現(xiàn)不同產(chǎn)線下的模型自適應(yīng)訓(xùn)練及車間工藝質(zhì)量的在線預(yù)測(cè)。
借助Seq2seq學(xué)習(xí)結(jié)構(gòu)的深度TCN時(shí)序注意力網(wǎng)絡(luò)模型是一種端到端的深度神經(jīng)網(wǎng)絡(luò)模型,適合學(xué)習(xí)和表達(dá)時(shí)間序列的潛在深度特征,并最終實(shí)現(xiàn)預(yù)測(cè)。如圖1所示,本文提出的深度學(xué)習(xí)架構(gòu)模型包括3個(gè)部分:基于擴(kuò)張因果卷積網(wǎng)絡(luò)的編碼器、時(shí)序注意力機(jī)制和基于殘差LSTM網(wǎng)絡(luò)的解碼器。整體模型的輸入包括工藝參數(shù)和歷史質(zhì)量指標(biāo)。在模型DTCN_A的編碼器中,深度TCN通過構(gòu)建擴(kuò)張因果卷積來捕獲工藝參數(shù)中的長(zhǎng)時(shí)期依賴關(guān)系;時(shí)序注意力機(jī)制用于加強(qiáng)關(guān)鍵生產(chǎn)時(shí)刻的信息表達(dá),削弱冗余時(shí)刻信息;解碼器利用殘差LSTM網(wǎng)絡(luò)來挖掘工藝質(zhì)量的時(shí)序信息,最后綜合模型提取工藝參數(shù)的關(guān)聯(lián)時(shí)序信息和工藝質(zhì)量的時(shí)序信息來預(yù)測(cè)當(dāng)前時(shí)刻的質(zhì)量指標(biāo)。
車間工藝質(zhì)量預(yù)測(cè)等時(shí)序問題需要利用歷史時(shí)段的工藝數(shù)據(jù)進(jìn)行建模預(yù)測(cè),而不能僅依賴于當(dāng)前時(shí)刻的工藝參數(shù)或歷史時(shí)段的工藝質(zhì)量,需要綜合考慮工藝參數(shù)與工藝質(zhì)量之間的關(guān)聯(lián)時(shí)序特征和工藝質(zhì)量?jī)?nèi)部蘊(yùn)含的時(shí)序信息。傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò)中,同一層的不同單元之間沒有連接,故無法包含工藝參數(shù)內(nèi)部蘊(yùn)含的時(shí)序信息。LSTM網(wǎng)絡(luò)、門控循環(huán)單元(gated recurrent unit, GRU)網(wǎng)絡(luò)等循環(huán)神經(jīng)網(wǎng)絡(luò)利用內(nèi)部存儲(chǔ)單元固化“記憶”,并以序列演進(jìn)方式遞歸更新,學(xué)習(xí)數(shù)據(jù)序列特征。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)通過卷積計(jì)算形成“記憶”,但這些深度學(xué)習(xí)方法均存在長(zhǎng)距離記憶問題。
針對(duì)該問題,本文利用TCN挖掘工藝因果卷積特性的同時(shí),有效分析車間工藝多源信息。采用擴(kuò)張因果卷積提高長(zhǎng)時(shí)間跨度記憶單元的處理效率,以高效提取工藝參數(shù)的特征信息。網(wǎng)絡(luò)只對(duì)歷史數(shù)據(jù)進(jìn)行順序讀取,摒棄了對(duì)未來數(shù)據(jù)的信息解讀,可有效解決信息泄漏的問題。由圖1中的編碼器模塊可知,通過增加卷積核和擴(kuò)張系數(shù)來堆疊多個(gè)擴(kuò)張卷積,可使網(wǎng)絡(luò)獲得更大的感受野,即使用較少的層級(jí)來捕獲序列中的長(zhǎng)時(shí)間依賴關(guān)系,并保證訓(xùn)練時(shí)長(zhǎng)。
編碼器模塊中,輸入數(shù)據(jù)為工藝參數(shù)X,即由N個(gè)相關(guān)工藝參數(shù)、總時(shí)間跨度為S的時(shí)間序列數(shù)據(jù)構(gòu)成的S×N的矩陣。輸入數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)層中的卷積(卷積核大小為k,擴(kuò)張系數(shù)為d)濾波后,輸出P為N個(gè)特征圖(圖2),其中,特征圖P(s)是由序列元素與卷積濾波f:{0,1,…,k-1}擴(kuò)張卷積運(yùn)算得到的,具體計(jì)算公式為
圖2 一層多維擴(kuò)張卷積流程簡(jiǎn)化圖
(3)
式中,*表示卷積運(yùn)算;f(i)表示第i個(gè)濾波器;xs-di為與卷積核相乘的對(duì)應(yīng)的序列元素;s表示擴(kuò)張卷積中的第s個(gè)神經(jīng)元。
經(jīng)過多層卷積、壓縮操作后,工藝信息存在丟失或失真的可能,故引入殘差鏈接方式,使網(wǎng)絡(luò)能夠跨層傳輸原始數(shù)據(jù)中的關(guān)聯(lián)信息,最大限度地關(guān)聯(lián)融合高階特征與原始低階特征,完善工藝特征信息。
每個(gè)殘差塊包括直接映射部分和殘差部分,其表達(dá)式為
(4)
式中,zn為第n層卷積層蘊(yùn)含的依賴信息;C(·)表示擴(kuò)張卷積操作,即直接映射部分;R(·)表示跨層進(jìn)行殘差映射操作。
本文模型中的編碼器模塊由多層卷積核并行構(gòu)成,以提取深層次特征信息。模塊通過組合多個(gè)通用殘差塊對(duì)工藝數(shù)據(jù)進(jìn)行多維度的特征提取。以殘差塊為組件,每個(gè)組件中,擴(kuò)張因果卷積、權(quán)值規(guī)范化、激活函數(shù)依次排列。
為聚焦時(shí)間步長(zhǎng)中的關(guān)鍵時(shí)刻,引入時(shí)序注意力機(jī)制對(duì)序列各歷史時(shí)刻攜帶的時(shí)序信息分配注意力權(quán)重,從而提高提取關(guān)鍵時(shí)刻信息的能力。時(shí)序注意力機(jī)制的輸入為TCN輸出的關(guān)聯(lián)特征信息{h1,h2,…,hT},計(jì)算出前t個(gè)時(shí)刻獲取的時(shí)序注意力權(quán)重lj,t,并使用softmax函數(shù)對(duì)其進(jìn)行歸一化,得到時(shí)間注意力權(quán)重
(5)
將t時(shí)刻的時(shí)間注意力權(quán)重βt與TCN輸出的隱藏狀態(tài)ht點(diǎn)乘,得到綜合時(shí)序信息狀態(tài)
(6)
式中,lt為線性變化后的時(shí)序注意力權(quán)重向量,lt=L(Wht+b);L(·)表示激活函數(shù),用以增強(qiáng)特征差異;W、b分別為可訓(xùn)練權(quán)重矩陣和計(jì)算時(shí)序注意力權(quán)重的偏置向量;T為時(shí)間窗口大小。
為有效整合提取的工藝參數(shù)和歷史質(zhì)量指標(biāo)的特征信息,解碼器采用殘差LSTM神經(jīng)網(wǎng)絡(luò)Resnet-LSTM,并添加全連接層以適應(yīng)最終質(zhì)量指標(biāo)的輸出要求。解碼器首先利用LSTM網(wǎng)絡(luò)挖掘出工藝質(zhì)量Yt的時(shí)序特征信息,再通過殘差網(wǎng)絡(luò)對(duì)提取出的信息進(jìn)行更深層次的學(xué)習(xí),最后協(xié)同由編碼器提取的工藝參數(shù)潛在深度特征輸出Ht,得到當(dāng)前時(shí)刻的預(yù)測(cè)輸出:
(7)
其中,r(·)表示Resnet-LSTM網(wǎng)絡(luò)函數(shù),用于提取工藝質(zhì)量時(shí)序信息。
Resnet-LSTM結(jié)構(gòu)見圖1中的解碼器部分,增加的神經(jīng)網(wǎng)絡(luò)層級(jí)易引發(fā)梯度消失和梯度彌散。利用殘差鏈接能有效消除這兩個(gè)問題,并減少模型參數(shù),提高訓(xùn)練效率,提取更深層次的復(fù)雜信息。因此在殘差網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,利用LSTM提取歷史質(zhì)量指標(biāo)序列中的時(shí)序信息,再用批量歸一化來投影由上層網(wǎng)絡(luò)得到的時(shí)序信息,并使用ReLU激活函數(shù)進(jìn)行非線性處理。最后,添加Dense層以保證輸出相同維度的張量,得到歷史工藝參數(shù)的潛在深層關(guān)聯(lián)時(shí)序信息。
如圖3所示,LSTM結(jié)構(gòu)采用門控輸出的方式控制信息的取舍,即輸入門it、遺忘門ft、輸出門ot和兩種時(shí)間狀態(tài)(ct和隱層的輸出ht),下標(biāo)t表示t時(shí)刻。
圖3 LSTM結(jié)構(gòu)圖
t時(shí)刻網(wǎng)絡(luò)的輸出結(jié)果為
(8)
式中,σ(·)表示Sigmoid激活函數(shù);bα為偏差,α∈{i,f,c,o,h};⊙表示矩陣的哈達(dá)瑪積。
假設(shè)給定輸入數(shù)據(jù)x=(x1,x2,…,xs),其中,s為時(shí)間步長(zhǎng),最后得到的輸出為
(9)
不同產(chǎn)線的物料、設(shè)備狀態(tài)和環(huán)境參數(shù)等不盡相同,因此不同產(chǎn)線需要不同的模型或模型參數(shù)。實(shí)際運(yùn)行中,生產(chǎn)方式或設(shè)備參數(shù)調(diào)整導(dǎo)致該場(chǎng)景的樣本與原始訓(xùn)練樣本存在較大差異時(shí),預(yù)訓(xùn)練出的模型參數(shù)不適用于當(dāng)前的生產(chǎn)條件,通過預(yù)訓(xùn)練模型得到的特征難以準(zhǔn)確預(yù)測(cè)出質(zhì)量指標(biāo)。因此本文引入遷移學(xué)習(xí),首先在源域數(shù)據(jù)中構(gòu)建出工藝質(zhì)量預(yù)測(cè)模型(用來學(xué)習(xí)工藝數(shù)據(jù)蘊(yùn)含的特征知識(shí)),然后在目標(biāo)域的學(xué)習(xí)任務(wù)中,利用遷移學(xué)習(xí)共享預(yù)測(cè)模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),并根據(jù)具體的任務(wù)需求調(diào)整剩余的網(wǎng)絡(luò)參數(shù),使得目標(biāo)域的數(shù)據(jù)集不僅能繼承源域中的學(xué)習(xí)表達(dá)能力,還能實(shí)現(xiàn)自身網(wǎng)絡(luò)模型的再訓(xùn)練,自適應(yīng)地調(diào)整網(wǎng)絡(luò)參數(shù),滿足預(yù)測(cè)任務(wù)需求。
不同產(chǎn)線的相同工序具有相似性,因此利用深度神經(jīng)網(wǎng)絡(luò)模型挖掘工藝數(shù)據(jù)的深層次特征,并對(duì)挖掘出的特征進(jìn)行遷移學(xué)習(xí),提出適合不同產(chǎn)線的工藝質(zhì)量預(yù)測(cè)方法。將本文構(gòu)建出的深度神經(jīng)網(wǎng)絡(luò)模型作為預(yù)訓(xùn)練模型,模型的編碼網(wǎng)絡(luò)部分挖掘工藝參數(shù)間的關(guān)聯(lián)時(shí)序關(guān)系,解碼網(wǎng)絡(luò)部分解析質(zhì)量指標(biāo)的歷史時(shí)序關(guān)系,因此需要分析預(yù)訓(xùn)練模型的不同網(wǎng)絡(luò)部分對(duì)目標(biāo)域數(shù)據(jù)的特征挖掘能力,通過凍結(jié)全部特征提取網(wǎng)絡(luò)和預(yù)訓(xùn)練模型參數(shù)初始化來實(shí)現(xiàn)模型參數(shù)的共享,其中,全部特征提取網(wǎng)絡(luò)包括綜合編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)。因此遷移學(xué)習(xí)可定義為:微調(diào)模型網(wǎng)絡(luò)、凍結(jié)編碼層、凍結(jié)全部特征提取層。為驗(yàn)證遷移學(xué)習(xí)是對(duì)模型的有效改進(jìn),需對(duì)目標(biāo)域中其他產(chǎn)線的工藝過程進(jìn)行重新建模學(xué)習(xí)。構(gòu)建的模型網(wǎng)絡(luò)結(jié)構(gòu)與預(yù)訓(xùn)練模型網(wǎng)絡(luò)結(jié)構(gòu)相同,但在目標(biāo)域數(shù)據(jù)中進(jìn)行模型訓(xùn)練即重新訓(xùn)練。4種遷移學(xué)習(xí)方式的具體說明如下。
重新訓(xùn)練(Mode1):預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)不變,隨機(jī)初始化所有層的網(wǎng)絡(luò)參數(shù),在目標(biāo)域中重新劃分?jǐn)?shù)據(jù)集,利用新的測(cè)試集訓(xùn)練模型。
微調(diào)模型網(wǎng)絡(luò)(Mode2):將預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)全部遷移至新模型,即將預(yù)訓(xùn)練模型的參數(shù)作為新模型參數(shù)的初始值。
凍結(jié)編碼層(Mode3):共享預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)和編碼器的參數(shù),隨機(jī)初始化剩余網(wǎng)絡(luò)參數(shù)。
凍結(jié)全部特征提取層(Mode4):預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)、編碼器及解碼器的網(wǎng)絡(luò)參數(shù)不變,隨機(jī)初始化全連接層參數(shù)。
為區(qū)別Mode3和Mode4的模型結(jié)構(gòu),繪制出兩種遷移模型結(jié)構(gòu),如圖4所示。
(a)Mode3的遷移學(xué)習(xí)結(jié)構(gòu) (b)Mode4的遷移學(xué)習(xí)結(jié)構(gòu)
利用DTCN_A模型訓(xùn)練某產(chǎn)線的離線數(shù)據(jù),學(xué)習(xí)歷史數(shù)據(jù)得到較為完整的工藝深層特征,同時(shí)保存預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)。不同的產(chǎn)線需要訓(xùn)練出不同的質(zhì)量預(yù)測(cè)模型,為縮短運(yùn)行時(shí)間并保證質(zhì)量預(yù)測(cè)的準(zhǔn)確率,利用遷移學(xué)習(xí)將預(yù)訓(xùn)練模型中的結(jié)構(gòu)和參數(shù)運(yùn)用至不同產(chǎn)線的工藝質(zhì)量預(yù)測(cè)模型。通過對(duì)比以上4種遷移策略,選擇出最佳模型遷移方法,并構(gòu)造出適應(yīng)不同產(chǎn)線的最佳預(yù)測(cè)模型,工藝過程質(zhì)量自適應(yīng)預(yù)測(cè)流程如圖5所示。
圖5 工藝過程質(zhì)量自適應(yīng)預(yù)測(cè)流程
為驗(yàn)證模型的有效性,本文以某制絲生產(chǎn)線為例進(jìn)行實(shí)驗(yàn)驗(yàn)證。該制絲過程根據(jù)不同葉組配方進(jìn)行模塊分組加工,其中,模塊1包含A線、B線、C線(薄板干燥)和D線。部分產(chǎn)線生產(chǎn)工藝順序如圖6所示,煙葉處理過程中,松散回潮工序的質(zhì)量指標(biāo)對(duì)制絲的最終成品質(zhì)量具有重大影響,因此每條產(chǎn)線需重點(diǎn)關(guān)注松散回潮工序。
圖6 制絲工藝圖
制絲過程中,每6 s采集一次樣本數(shù)據(jù)并將其存入MES數(shù)據(jù)庫(kù)。從MES數(shù)據(jù)庫(kù)提取不同產(chǎn)線2021年3月—9月的穩(wěn)態(tài)生產(chǎn)數(shù)據(jù)并進(jìn)行分析。本文通過分析松散回潮工序來驗(yàn)證模型的預(yù)測(cè)性能,為盡可能獲取工序的深度隱藏特征,選取樣本數(shù)據(jù)量最大的產(chǎn)線即模型1中的C線。C線采集的39 000條數(shù)據(jù)包括靜態(tài)參數(shù)、工藝參數(shù)和質(zhì)量指標(biāo),其中,靜態(tài)參數(shù)是指設(shè)備或來料的固有屬性,無法對(duì)其進(jìn)行調(diào)節(jié);工藝參數(shù)是影響生產(chǎn)質(zhì)量的關(guān)鍵要素,一般分為有價(jià)值調(diào)節(jié)參數(shù)和無價(jià)值調(diào)節(jié)參數(shù)。無價(jià)值調(diào)節(jié)參數(shù)大多是設(shè)備運(yùn)行的設(shè)定值,在實(shí)際生產(chǎn)中不調(diào)整,因此本文只分析有價(jià)值工藝參數(shù)與質(zhì)量指標(biāo)的關(guān)聯(lián)信息,預(yù)測(cè)模型的輸入與輸出如表1所示。
表1 松散回潮設(shè)備性能參數(shù)表
料頭、料尾、停機(jī)斷料處易出現(xiàn)異常值,且不同生產(chǎn)批次之間的數(shù)據(jù)存在差異,因此將數(shù)據(jù)劃分成時(shí)序矩陣時(shí),要保證輸入模型的時(shí)序矩陣數(shù)據(jù)是同一批次數(shù)據(jù)。各個(gè)參數(shù)的數(shù)量級(jí)不同,因此需要對(duì)采集的原始數(shù)據(jù)進(jìn)行預(yù)處理(異常值處理、批次劃分和數(shù)據(jù)歸一化)。采用3σ準(zhǔn)則檢測(cè)并刪除工藝數(shù)據(jù)中的異常值,同時(shí)使用min-max線性函數(shù)對(duì)工藝參數(shù)和質(zhì)量指標(biāo)進(jìn)行歸一化:
(10)
式中,Xnew為歸一化后的工藝數(shù)據(jù);Xi為原工藝數(shù)據(jù),i=1,2,…,N;N為原工藝數(shù)據(jù)的樣本量;Xmin、Xmax分別為單一工藝數(shù)據(jù)中的最小值和最大值。
在不改變?cè)瓟?shù)據(jù)分布的情況下,將工藝數(shù)據(jù)全部映射到[0,1]范圍內(nèi)。
網(wǎng)絡(luò)訓(xùn)練及優(yōu)化均以Dell DESKTOP-VI4SR6N 服務(wù)器為硬件平臺(tái),處理器為Intel Core i7-8650U,內(nèi)存為64GB,顯卡為UHD Graphics。采用 Python語言,在Keras深度學(xué)習(xí)框架下以Tensorflow為后端構(gòu)建DTCN_A神經(jīng)網(wǎng)絡(luò)模型,并通過損失函數(shù)和Adam優(yōu)化器來訓(xùn)練模型。建模中,訓(xùn)練集和測(cè)試集的比例為7∶3。對(duì)不同的網(wǎng)絡(luò)模型進(jìn)行50次訓(xùn)練,使用各性能指標(biāo)均值評(píng)估分析模型性能。
采用有監(jiān)督的學(xué)習(xí)方式進(jìn)行模型訓(xùn)練。訓(xùn)練過程中,誤差損失衰減并趨于平穩(wěn)時(shí)模型停止訓(xùn)練。誤差損失Floss的計(jì)算公式為
(11)
將平均絕對(duì)誤差E1和均方根誤差E2作為評(píng)估模型預(yù)測(cè)性能的指標(biāo)。利用參考擬合優(yōu)度R2判斷模型的擬合效果,它們的公式分別為
(12)
(13)
(14)
基于深度TCN的預(yù)測(cè)模型參數(shù)設(shè)置如下:時(shí)間步長(zhǎng)s=10,迭代次數(shù)為200,學(xué)習(xí)率為0.002,擴(kuò)張因果卷積的卷積核大小為2;解碼器LSTM網(wǎng)絡(luò)中的隱藏元個(gè)數(shù)q=10。
DTCN_A模型中的編碼器深度挖掘工藝參數(shù),卷積過程中的層數(shù)對(duì)挖掘程度具有重大影響,因此設(shè)置不同的網(wǎng)絡(luò)層數(shù)來探索其對(duì)模型性能的影響(表2)。由表2可知,隨著編碼器層數(shù)的增加,對(duì)數(shù)據(jù)的潛在時(shí)序關(guān)聯(lián)關(guān)系的挖掘更深入;編碼器層數(shù)為7時(shí)的預(yù)測(cè)模型性能最佳。由圖7可見,出料含水率和出料溫度的預(yù)測(cè)值與真實(shí)值之間相差的數(shù)值均小于0.2。
表2 松散回潮DTCN_A模型中不同編碼器層數(shù)的模型性能
(a)出料含水率
4.2.1消融實(shí)驗(yàn)
本文通過消融實(shí)驗(yàn)來驗(yàn)證模型網(wǎng)絡(luò)結(jié)構(gòu)對(duì)提高預(yù)測(cè)精度的有效性,消融實(shí)驗(yàn)的對(duì)比模型有TCN、殘差LSTM網(wǎng)絡(luò)、TCN+殘差LSTM網(wǎng)絡(luò)(TCN_L)、注意力機(jī)制+殘差LSTM網(wǎng)絡(luò)(A_LSTM)。在相同條件下訓(xùn)練上述模型,結(jié)果如表3、圖8和圖9所示。由表3可以看出,TCN_L的預(yù)測(cè)效果較優(yōu)于TCN和殘差LSTM網(wǎng)絡(luò),A_LSTM的預(yù)測(cè)效果優(yōu)于殘差LSTM網(wǎng)絡(luò),這說明混合模型能提取更豐富的特征信息。TCN_L與A_LSTM都能提高模型的預(yù)測(cè)精度,因此本文在序列到序列的學(xué)習(xí)結(jié)構(gòu)下結(jié)合TCN、殘差LSTM網(wǎng)絡(luò)和注意力機(jī)制,提出DTCN_A網(wǎng)絡(luò)模型。實(shí)驗(yàn)證明DTCN_A的預(yù)測(cè)效果優(yōu)于TCN_L和A_LSTM,驗(yàn)證了DTCN_A在網(wǎng)絡(luò)結(jié)構(gòu)上的有效性。
表3 消融實(shí)驗(yàn)的結(jié)果
(a)TCN模型
4.2.2對(duì)比驗(yàn)證
(1)模型精度對(duì)比。為驗(yàn)證模型的預(yù)測(cè)效果,將傳統(tǒng)回歸方法(線性回歸和多項(xiàng)式回歸)、支持向量機(jī)回歸(SVR-LINEAR、SVR-POLY和SVR-RBF)、DNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN、LSTM和GRU)、TCN、Seq2Seq按照模型挖掘特征的完整性劃分成淺層學(xué)習(xí)模型、基層深度學(xué)習(xí)模型和深度模型,將平均絕對(duì)誤差E1和均方根誤差E2作為上述模型的評(píng)估分析指標(biāo)。由表4可知, DTCN_A模型具有較好的預(yù)測(cè)性能和穩(wěn)定性。相較于淺層學(xué)習(xí)模型,DTCN_A模型能提取數(shù)據(jù)中的時(shí)序信息;相較于深度學(xué)習(xí)模型,DTCN_A模型可以較為全面地獲得工藝數(shù)據(jù)中潛在的深層時(shí)序關(guān)聯(lián)特征,進(jìn)一步減小預(yù)測(cè)誤差。
表4 不同預(yù)測(cè)模型的預(yù)測(cè)結(jié)果
(2)穩(wěn)定性驗(yàn)證。為進(jìn)一步驗(yàn)證DTCN_A模型的穩(wěn)定性,在考慮預(yù)測(cè)精度的前提下,計(jì)算DNN、RNN、LSTM、GRU、Seq2Seq和DTCN_A在50次模型訓(xùn)練下的平均絕對(duì)誤差和均方根誤差的最大值、最小值、極差和標(biāo)準(zhǔn)差。如表5所示,DTCN_A預(yù)測(cè)測(cè)試集數(shù)據(jù)的質(zhì)量指標(biāo)時(shí),性能指標(biāo)的變化幅度略小于DNN、RNN、LSTM、GRU和Seq2Seq,這體現(xiàn)了DTCN_A在穩(wěn)定性上的優(yōu)勢(shì)。
表5 50次模型訓(xùn)練的預(yù)測(cè)模型性能指標(biāo)
4.2.3泛化性驗(yàn)證
車間工藝質(zhì)量預(yù)測(cè)中,模型的泛化能力是重要指標(biāo)。為測(cè)試DTCN_A模型的泛化能力,將該模型應(yīng)用至一級(jí)加料工序(多輸出工序)和加香工序(單輸出工序)。
一級(jí)加料工序的質(zhì)量指標(biāo)與松散回潮相同,但有11個(gè)工藝參數(shù),將相同條件下收集的33 000條數(shù)據(jù)組成數(shù)據(jù)集Ⅰ。加香工序的質(zhì)量指標(biāo)為出料含水率,關(guān)鍵工藝參數(shù)有5個(gè),將相同條件下收集的37 000條數(shù)據(jù)組成數(shù)據(jù)集Ⅱ。
模型DTCN_A對(duì)數(shù)據(jù)集Ⅰ和Ⅱ的泛化能力測(cè)試結(jié)果如表6所示,DTCN_A的預(yù)測(cè)結(jié)果和真實(shí)值的擬合曲線圖10、圖11。預(yù)訓(xùn)練模型在數(shù)據(jù)集Ⅰ和Ⅱ下的預(yù)測(cè)精度均在97%以上,說明本文構(gòu)建的模型具備一定的泛化能力,能適應(yīng)不同的場(chǎng)景。
表6 預(yù)訓(xùn)練模型的泛化能力測(cè)試結(jié)果
(a)出料含水率
圖11 加香工序的出料含水率預(yù)測(cè)值與真實(shí)值
4.3遷移學(xué)習(xí)策略效果對(duì)比
通過重新訓(xùn)練、微調(diào)模型參數(shù)、凍結(jié)編碼層和凍結(jié)全部特征提取層4種特征遷移方式來更新訓(xùn)練模型,可提高模型預(yù)測(cè)的準(zhǔn)確率、縮短運(yùn)行時(shí)間。以松散回潮工序?yàn)槔?將不同產(chǎn)線的松散回潮工序的數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)(每組數(shù)據(jù)集的樣本數(shù)目不同),每種遷移學(xué)習(xí)策略均使用ADAM算法調(diào)整神經(jīng)網(wǎng)絡(luò)各層的參數(shù)。通過對(duì)比不同遷移學(xué)習(xí)策略下測(cè)試集的準(zhǔn)確性和模型更新訓(xùn)練時(shí)間(見表7、表8)來選擇最佳的遷移學(xué)習(xí)策略。
表7 A產(chǎn)線松散回潮工序不同遷移學(xué)習(xí)策略的結(jié)果
表8 B產(chǎn)線松散回潮工序不同遷移學(xué)習(xí)策略的結(jié)果
由表7、表8可知,在相同的訓(xùn)練條件下,重新訓(xùn)練(Mode1)的預(yù)測(cè)未達(dá)到滿意效果,這是由于無法從有限的訓(xùn)練樣本找出深度工藝關(guān)聯(lián)特征。凍結(jié)全部特征提取層遷移學(xué)習(xí)方式(Mode4)的預(yù)測(cè)效果最佳,且模型訓(xùn)練時(shí)間較Mode1短,這是因?yàn)镸ode4完全繼承了原有模型的結(jié)構(gòu)和參數(shù),能較為完整地提取深度潛在特征。預(yù)訓(xùn)練模型也存在不理想的預(yù)測(cè)結(jié)果,為此將預(yù)模型迭代次數(shù)改為100,對(duì)預(yù)測(cè)效果不佳的預(yù)訓(xùn)練模型進(jìn)行模型遷移,預(yù)測(cè)結(jié)果如表9、表10所示。
表9 預(yù)訓(xùn)練模型迭代次數(shù)為100時(shí)A產(chǎn)線的預(yù)測(cè)結(jié)果
表10 預(yù)訓(xùn)練模型迭代次數(shù)為100時(shí)B產(chǎn)線的預(yù)測(cè)結(jié)果
由表9、表10可以看出,采用凍結(jié)編碼層特征的遷移策略(Mode3)預(yù)測(cè)的結(jié)果最優(yōu),這說明迭代次數(shù)為100的DTCN_A模型中,編碼器能提取較為完整的工藝參數(shù)關(guān)聯(lián)時(shí)序特征信息,但解碼器的特征提取能力不足,需要通過模型的自適應(yīng)訓(xùn)練和參數(shù)更新來達(dá)到滿意的預(yù)測(cè)效果,因此模型的訓(xùn)練時(shí)間較Mode4長(zhǎng)。與Mode1相比,Mode4在保證模型精度的同時(shí),也大大縮短了模型的訓(xùn)練時(shí)間。Mode2將C產(chǎn)線松散回潮模型的參數(shù)作為其他產(chǎn)線訓(xùn)練模型參數(shù)的初始值,繼承預(yù)模型中的有價(jià)值信息較少。Mode4完全采用預(yù)訓(xùn)練模型中的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),也繼續(xù)使用預(yù)訓(xùn)練模型的無用信息,導(dǎo)致無法挖掘目標(biāo)域數(shù)據(jù)中的工藝特征信息。由此可見,Mode3不僅能繼承歷史數(shù)據(jù)的有價(jià)值信息,還能消除預(yù)訓(xùn)練模型的缺陷,進(jìn)一步提高型更新速度和預(yù)測(cè)性能,使其在較短時(shí)間內(nèi)提高模型預(yù)測(cè)精度,如圖12、圖13所示。
(a)出料含水率
(a)出料含水率
流程型車間工藝數(shù)據(jù)具有復(fù)雜的時(shí)序關(guān)聯(lián)特征,結(jié)合TCN與序列到序列的學(xué)習(xí)結(jié)構(gòu),構(gòu)建了質(zhì)量預(yù)測(cè)的深層模型DTCN_A,實(shí)現(xiàn)了對(duì)工藝數(shù)據(jù)特征的深層學(xué)習(xí)和表達(dá)。DTCN_A模型的編碼器通過TCN模型捕捉工藝參量數(shù)據(jù)中的長(zhǎng)時(shí)間依賴信息,通過嵌套時(shí)序注意力機(jī)制重點(diǎn)聚焦關(guān)鍵工藝時(shí)刻的信息,提高模型的長(zhǎng)時(shí)距離表達(dá)能力。DTCN_A模型的解碼器采用殘差LSTM網(wǎng)絡(luò)模型提取歷史質(zhì)量指標(biāo)的時(shí)序特征信息,訓(xùn)練后的模型能有效利用時(shí)序關(guān)聯(lián)性開展單輸出和多輸出的質(zhì)量預(yù)測(cè)。某生產(chǎn)線的實(shí)測(cè)數(shù)據(jù)仿真實(shí)驗(yàn)表明,質(zhì)量預(yù)測(cè)模型DTCN_A具備良好的總體預(yù)測(cè)精度和個(gè)體誤差控制能力,明顯優(yōu)于SVR、RNN和Seq2Seq等預(yù)測(cè)方法。
基于提出的模型DTCN_A,針對(duì)流程型車間多產(chǎn)線的加工特性,提出了知識(shí)遷移的有效策略。2條生產(chǎn)線的仿真實(shí)驗(yàn)證明,模型DTCN_A預(yù)測(cè)效果良好時(shí),將該模型中的整體網(wǎng)絡(luò)結(jié)構(gòu)和全部特征提取層的參數(shù)遷移至目標(biāo)域中,可以有效繼承模型DTCN_A對(duì)深層潛在特征信息的提取能力;模型DTCN_A預(yù)測(cè)效果不佳時(shí),采用共享該模型的網(wǎng)絡(luò)結(jié)構(gòu)和編碼器參數(shù)是一種有效的遷移學(xué)習(xí)方式,該方法不僅可以繼承模型DTCN_A中提取深度特征的能力,同時(shí)還能根據(jù)目標(biāo)域數(shù)據(jù)與源域數(shù)據(jù)間的差異進(jìn)行模型的自適應(yīng)訓(xùn)練,與模型重新訓(xùn)練相比,可以大幅度縮短樣本仿真時(shí)間、提高模型預(yù)測(cè)精度。