孫少聰,徐楊,曹斌
(1.貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025;2.中鋁智能科技發(fā)展有限公司,浙江 杭州 311100)
在新型工業(yè)化道路戰(zhàn)略的帶動下,“堅(jiān)持以信息化帶動工業(yè)化,以工業(yè)化促進(jìn)信息化”的指導(dǎo)思想,大型鋁電解廠生產(chǎn)管理由人力、手動為主的模式向自動化和智能化模式的轉(zhuǎn)變已勢在必行[1]。鋁電解生產(chǎn)是一個(gè)大延遲、多變量耦合和非線性的過程[2]。其中關(guān)于電解槽出鋁量預(yù)測問題就受到各種復(fù)雜的因素影響,如設(shè)備環(huán)境,工藝參數(shù),人工經(jīng)驗(yàn)等。因此如何從現(xiàn)有采集的大量數(shù)據(jù)利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù),建立準(zhǔn)確的預(yù)測模型提高預(yù)測的準(zhǔn)確性和科學(xué)性,對企業(yè)的“降本增效”具有重要意義。
目前已有部分結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法對出鋁量預(yù)測進(jìn)行研究,減少專家知識和經(jīng)驗(yàn)對電解槽出鋁量的影響,其中文獻(xiàn)[3]提出了一種基于電解槽出鋁量預(yù)測的聚類算法,實(shí)現(xiàn)了電解槽出鋁量的參數(shù)特征提取;文獻(xiàn)[4]將循環(huán)卷積神經(jīng)網(wǎng)絡(luò)LSTM算法,運(yùn)用在電解槽出鋁量預(yù)測和氟化鋁添加量的預(yù)測問題上,并且開發(fā)了一套鋁電解槽出鋁量預(yù)測可視化系統(tǒng);文獻(xiàn)[5]設(shè)計(jì)了一種自適應(yīng)果蠅優(yōu)化算法,通過機(jī)器學(xué)習(xí)支持向量回歸機(jī)對電解槽出鋁量進(jìn)行預(yù)測;文獻(xiàn)[6]將多層感知機(jī)MLP應(yīng)用在出鋁量的預(yù)測;文獻(xiàn)[7]文中提出一種改進(jìn)的ID3算法,應(yīng)用回歸分析計(jì)算各條件屬性影響出鋁量的權(quán)重,對鋁電解數(shù)據(jù)庫中包含的出鋁量專家知識和經(jīng)驗(yàn)進(jìn)行知識表示和自動推理,輔助工藝管理人員做出科學(xué)判斷,提高生產(chǎn)智能管理水平。上述研究對電解槽出鋁量預(yù)測方面都提供了一定的參考價(jià)值,但是目前對于電解槽出鋁量預(yù)測問題依然很難應(yīng)用于實(shí)際生產(chǎn)。
綜上,本文提出了一種基于隨機(jī)森林特征選擇的雙向長短期時(shí)間序列網(wǎng)絡(luò)(RF-BiLSTM)進(jìn)行電解槽出鋁量預(yù)測,通過特征選擇、優(yōu)化模型參數(shù),以及多個(gè)對比實(shí)驗(yàn)表明RF-BiLSTM在電解槽出鋁量預(yù)測準(zhǔn)確度方面取得不錯(cuò)的效果,并在實(shí)際的生產(chǎn)數(shù)據(jù)中驗(yàn)證了模型有效性,為鋁電解槽出鋁量預(yù)測提供一定的參考價(jià)值。
皮爾遜相關(guān)系數(shù)法是一種準(zhǔn)確度量兩個(gè)變量之間的關(guān)系密切程度的統(tǒng)計(jì)學(xué)的方法[8]。皮爾遜相關(guān)系數(shù)的變化范圍為-1到1。系數(shù)的值為1或者-1意味著主指標(biāo)和特征值可以很好的由直線方程來描述,所有的數(shù)據(jù)點(diǎn)都很好的落在一條直線上,1表示特征值隨著主指標(biāo)的增加而增加,-1表示特征值隨著主指標(biāo)的增加而減少。系數(shù)的絕對值值越接近0意味著二者之間線性關(guān)系越弱,為0則表示二者沒有線性關(guān)系,Pearson計(jì)算原理公式如下:
(1)
式中:r表示相關(guān)系數(shù),X表示主指標(biāo),Y為特征值。
隨機(jī)森林(random forests, RF)是由多棵決策樹集成的有監(jiān)督的學(xué)習(xí)算法,在決策樹的訓(xùn)練過程中隨機(jī)選擇特征,最終通過投票來表決最優(yōu)結(jié)果[9]。隨機(jī)森林算法簡單,因?yàn)槠浜唵胃咝У姆诸愋阅?在特征選擇問題中往往是較好的選擇。隨機(jī)森林利用袋外數(shù)據(jù)(out of bag, OOB)誤差計(jì)算特征變量相對重要性,對海量高維數(shù)據(jù)進(jìn)行剔除冗余特征進(jìn)行特征篩選。假設(shè)有bootstrap樣本k=2,3…,K,K表示訓(xùn)練樣本的個(gè)數(shù),每個(gè)樣本有N維特征,特征重要性排序的計(jì)算步驟如下:
1) 初始化k=1,創(chuàng)建決策樹Tk。
4) 對于k=2,3…,K重復(fù)步驟1~步驟3。
5) 特征Xj的重要性度量Pj通過公式(2)計(jì)算。
6)對Pj降序排列,得到特征重要性排序。
(2)
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)模型[10],時(shí)間序列在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中無法被處理,而RNN在長期的時(shí)間序列任務(wù)上會出現(xiàn)梯度爆炸和梯度消失的問題。LSTM的出現(xiàn)較好的解決了RNN在時(shí)序數(shù)據(jù)長期依賴性預(yù)測的問題。LSTM相較于RNN在其結(jié)構(gòu)上新增了門限,具體包括遺忘門、輸入門和輸出門,這些門限有選擇的讓信息進(jìn)行記憶和遺忘[11]。LSTM網(wǎng)絡(luò)神經(jīng)元結(jié)構(gòu)如圖1所示。
圖1 LSTM網(wǎng)絡(luò)神元結(jié)構(gòu)
每個(gè)神經(jīng)元具有獨(dú)特的門結(jié)構(gòu)[12]用于維持和控制狀態(tài),同時(shí)接收兩個(gè)輸入,即上一時(shí)刻的輸出值ht-1和本時(shí)刻輸入xt,兩個(gè)參數(shù)首先進(jìn)入遺忘門,得到?jīng)Q定舍棄的信息后再進(jìn)入輸入門,得到重要信息以及當(dāng)前時(shí)刻的神經(jīng)元狀態(tài),最后由遺忘門和輸入門的輸出值進(jìn)行組合,得到分別的長時(shí)和短時(shí)信息,最后存儲操作即下一個(gè)神經(jīng)元的輸入。遺忘門公式如公式(3)所示:
ft=σ(Wf·[ht-1,xt]+bf)
(3)
輸入門及t時(shí)刻的神經(jīng)元狀態(tài)方程如公式(4)~(6):
it=σ(Wi·[ht-1,xt]+bi)
(4)
(5)
(6)
輸出門公式如公式(7)~(8):
ot=σ(Wo·[ht-1,xt]+bo)
(7)
ht=ot·tanh(ct)
(8)
本文所用的BiLSTM模型是在LSTM基礎(chǔ)上增加了反向LSTM,由前向LSTM和后向LSTM組合而成[13],它可以通過同時(shí)處理過去和未來的信息來更好地理解序列中的上下文,兩個(gè)單元的輸出將被拼接在一起,形成最終的輸出。因此BiLSTM在時(shí)間序列預(yù)測任務(wù)中具有更強(qiáng)的建模能力。在模型訓(xùn)練階段,BiLSTM可以利用前向和后向的信息對的時(shí)間序列進(jìn)行建模,預(yù)測階段直接輸出前向LSTM的結(jié)果。BiLSTM模型結(jié)構(gòu)圖如圖2所示。
圖2 BiLSTM模型結(jié)構(gòu)圖
BiLSTM每一級隱藏層狀態(tài)組合過程如公式(9)所示。
(9)
本文搭建的模型主要分為三個(gè)部分,數(shù)據(jù)特征提取與數(shù)據(jù)劃分、模型隱藏層、預(yù)測輸出層,模型訓(xùn)練過程如圖3所示。首先進(jìn)行數(shù)據(jù)分析和清洗刪除缺失過多的特征列,將原始的數(shù)據(jù)進(jìn)行相關(guān)性析,對數(shù)據(jù)進(jìn)行MinMaxScaler標(biāo)準(zhǔn)化公式處理,標(biāo)準(zhǔn)化原理如公式(10)所示。
圖3 模型結(jié)構(gòu)圖
(10)
式中:Xmax、Xmin為數(shù)列的最大值和最小值;Xstd為最終的規(guī)范化數(shù)值。本文采用的是歸一化處理。
對BiLSTM模型的批尺寸、網(wǎng)絡(luò)層數(shù)和學(xué)習(xí)率進(jìn)行調(diào)優(yōu)。尋找較優(yōu)的超參數(shù)組合,進(jìn)行模型的訓(xùn)練,Adam優(yōu)化器進(jìn)行權(quán)值更新,ReLu激活函數(shù)提高函數(shù)計(jì)算能力,DropOut防止過擬合,訓(xùn)練Loss為平均相對誤差(MSE),以獲取最小Loss值為目標(biāo)對模型進(jìn)行訓(xùn)練和優(yōu)化。
訓(xùn)練好的模型對劃分的測試集數(shù)據(jù)進(jìn)行預(yù)測,并對數(shù)據(jù)進(jìn)行逆變化操作,輸出預(yù)測值。
數(shù)據(jù)采集自貴州某鋁廠34臺電解槽共120天的槽控機(jī)監(jiān)控?cái)?shù)據(jù)和人工采集的每日真實(shí)鋁電解槽生產(chǎn)的日報(bào)表數(shù)據(jù),共3 814條數(shù)據(jù),部分嚴(yán)重缺失數(shù)據(jù)直接作了刪除處理。
搜集到的相關(guān)日報(bào)和運(yùn)行參數(shù)包括日期、槽號、鋁水平、氧化鋁濃度、電解質(zhì)水平、電解溫度、分子比、電解溫度、氟化鋁下料量、平均電壓、設(shè)定電壓、工作電壓、下料間隔(設(shè)定NB)以及出鋁指示量等23項(xiàng)重要信息。通過分析和觀察分子比,陰極壓降和氧化鋁濃度數(shù)據(jù)缺失過多,因此后續(xù)模型建模和訓(xùn)練不再考慮這三個(gè)參數(shù)。
表1列出搜集到的部分?jǐn)?shù)據(jù)。
表1 廠區(qū)內(nèi)某電解槽連續(xù)5天收集的日報(bào)表數(shù)據(jù)
為了體現(xiàn)基于RF的特征選擇在電解槽出鋁量預(yù)測問題上的優(yōu)越性,本文將Pearson相關(guān)性分析法作為對比。此次相關(guān)性分析將電解槽出鋁量作為被解釋變量,其他特征作為解釋變量。
3.2.1 Pearson相關(guān)性分析
首先利用Pearson系數(shù)對所有變量進(jìn)行劃分得出解釋變量對于被解釋變量的影響系數(shù)的排序結(jié)果,選取影響系數(shù)較高的前六位解釋變量。Pearson相關(guān)性分析結(jié)果如圖4所示。
圖4 Pearson相關(guān)性分析結(jié)果
由于Pearson相關(guān)性分析只能通過分析出鋁量和某個(gè)特征(兩者)之間的線性關(guān)系,也無法確定更高維度特征的因果關(guān)系,出鋁量的影響分析涉及復(fù)雜的非線性因果關(guān)系,為了增加特征選擇的可對比性,本文采用Pearson特征選擇的結(jié)果影響系數(shù)較高的前六位解釋變量:鋁水平、多點(diǎn)鋁水平、氟化鋁下料量、設(shè)定NB、工作電壓以及硅作為后續(xù)模型的輸入特征。
3.2.2 隨機(jī)森林相關(guān)性分析
森林進(jìn)行特征重要性分析出相關(guān)系數(shù)得分熱圖,結(jié)果如圖5所示。
圖5 隨機(jī)森林相關(guān)性分析結(jié)果
相對于Pearson特征選擇,隨機(jī)森林特征選擇可以更好的捕捉出鋁量與其他特征之間的非線性關(guān)系,也可以同時(shí)考慮高維特征數(shù)據(jù)數(shù)據(jù)之間的因果性。根據(jù)隨機(jī)森林的分析結(jié)果,選取影響系數(shù)較高的前六位解釋變量:氟化鋁下料量、鋁水平、溫度、設(shè)定電壓、工作電壓以及電解質(zhì)水平作為后續(xù)模型的輸入特征。
考慮到模型的超參數(shù)會對模型訓(xùn)練效果和速度產(chǎn)生影響。本文對針對模型的批尺寸,網(wǎng)絡(luò)層數(shù)采用了網(wǎng)格化搜索的方式進(jìn)行優(yōu)化。訓(xùn)練設(shè)置為200輪,神經(jīng)元個(gè)數(shù)為128,為了簡化訓(xùn)練避免模型損失過早收斂,設(shè)置了早停機(jī)制(模型訓(xùn)練10輪后評價(jià)指標(biāo)沒有優(yōu)化就停止訓(xùn)練),通過實(shí)驗(yàn)結(jié)果選擇較優(yōu)的超參數(shù)組合。
3.3.1 批尺寸調(diào)優(yōu)
批尺寸(batchSize)是每次輸入進(jìn)模型的時(shí)間序列長度,是模型每次運(yùn)算的數(shù)據(jù)大小以及數(shù)據(jù)之間關(guān)聯(lián)的程度反應(yīng)。batchSize決定了梯度下降的方向,過大容易導(dǎo)致梯度局部最優(yōu)解,過小導(dǎo)致模型收斂時(shí)間漫長,影響模型的訓(xùn)練精確性。合適的batchSize可以為模型帶來有效的提升。因此為研究不同batchSize對模型的影響,本文采取三種不同的取值方式,分別對比了24、48和64的效果。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同批尺寸訓(xùn)練結(jié)果
三種batchSize在訓(xùn)練結(jié)果上相差無幾,但是當(dāng)batchSize為64時(shí),在時(shí)間上和效果上略優(yōu)于24和48,因此本實(shí)驗(yàn)?zāi)P偷腷atchSize選擇為64。
3.3.2 網(wǎng)絡(luò)層數(shù)調(diào)優(yōu)
網(wǎng)絡(luò)層數(shù)(numLayers)越大代表模型的層數(shù)越多,模型的擬合能力越強(qiáng),但是往往越多的層數(shù)會帶來更復(fù)雜的運(yùn)算,更長的訓(xùn)練時(shí)間,同時(shí)可能會出現(xiàn)過擬合的現(xiàn)象。因此為研究不同numLayers對模型的影響,本文比較了2、3和4層的效果。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同網(wǎng)絡(luò)層數(shù)訓(xùn)練結(jié)果
根據(jù)試驗(yàn)結(jié)果表明三種numLayers在訓(xùn)練結(jié)果上,當(dāng)numLayers為2層時(shí)模型在訓(xùn)練效果和懸鏈速度上均是最優(yōu),因此本實(shí)驗(yàn)?zāi)P偷膎umLayers選擇為2層。
為了更好的說明RF-BiLSTM在電解槽出鋁量預(yù)測問題上的優(yōu)越性。本文將不同的特征選擇(ALL,Pearson)和不同的模型隱藏層結(jié)構(gòu)(RNN,單向LSTM,GRU),來進(jìn)行對比驗(yàn)證。將數(shù)據(jù)集按照 6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集、測試集。并使用相同的超參數(shù)進(jìn)行了實(shí)驗(yàn)。同時(shí)為了對比文獻(xiàn)[4]以及文獻(xiàn)[6]中做的工作,在評價(jià)指標(biāo)中引入了平均絕對誤差(MAE),模型訓(xùn)練結(jié)果如表4所示。
表4 不同模型和特征模型訓(xùn)練結(jié)果
根據(jù)訓(xùn)練的模型對劃分的測試集進(jìn)行測試,選取了測試集最后50條數(shù)據(jù)進(jìn)行繪制預(yù)測效果圖。各個(gè)模型在不同的特征選擇下擬合的結(jié)果如圖6~圖8所示,圖9展示了BiLSTM模型在不同特征選擇下的對比。
圖6 全部特征不同模型的預(yù)測結(jié)果
圖7 Pearson特征選擇不同模型預(yù)測結(jié)果
圖8 RF特征選擇不同模型預(yù)測結(jié)果
表4展示了不同模型以及不同特征選擇之間的誤差對比,BiLSTM預(yù)測效果要明顯優(yōu)于其他三種結(jié)構(gòu)的模型。其中Pearson特征選擇的實(shí)驗(yàn)結(jié)果在LSTM、GRU和BiLSTM模型上表現(xiàn)不如不做特征選擇,RF特征選擇在降低了模型特征維度的情況下仍然對模型的訓(xùn)練效果有不同程度的提升。
模型預(yù)測結(jié)果根據(jù)圖6~圖8顯示,RNN、LSTM、GRU和BiLSTM模型都可以在整體趨勢上反映出出鋁量的變化,而BiLSTM在預(yù)測效果上明顯優(yōu)于其他模型。根據(jù)圖9所示,對比不同的特征選擇上的預(yù)測效果,基于RF特征選擇的BiLSTM在降低特征維度的情況下仍取得了略優(yōu)于其他兩種特征選擇 的結(jié)果,驗(yàn)證了RF特征選擇的有效性。
為了驗(yàn)證本文提出的電解槽出鋁量預(yù)測模型可靠性和適用性,本文選擇了Pytorch學(xué)習(xí)框架作為學(xué)習(xí)模型后端,搭建了在線訓(xùn)練平臺,對RF-BiLSTM模型實(shí)行了增量化訓(xùn)練,不斷根據(jù)新的數(shù)據(jù)進(jìn)行模型的權(quán)值更新,給出一天后的預(yù)測結(jié)果,給鋁廠工作人員提供參考。如圖10所示,模型在2726號槽上50條數(shù)據(jù)進(jìn)行提前一天的預(yù)測結(jié)果。
圖10 2726號電解槽預(yù)測結(jié)果
將訓(xùn)練好的模型用于2726號電解槽出鋁量預(yù)測,輸入數(shù)據(jù)后模型自動計(jì)算誤差,誤差統(tǒng)計(jì)后平均絕對誤差為4.2,在2726號電解槽上驗(yàn)證了模型的有效性。
1)訓(xùn)練過程中,模型訓(xùn)練的效果受到模型的批尺寸、網(wǎng)絡(luò)層數(shù)的選擇所影響,合適的超參數(shù)為提高模型的訓(xùn)練效果。本實(shí)驗(yàn)提出的RF-BiLSTM以批尺寸為64,網(wǎng)絡(luò)層數(shù)為2層為較優(yōu)選擇。
2)以貴州某鋁廠34臺電解槽共120天3 814條數(shù)據(jù)為模型初始訓(xùn)練、驗(yàn)證和測試。對比不同模型的預(yù)測效果,RF-BiLSTM平均誤差為0.017,平均絕對誤差為2.373,優(yōu)于文獻(xiàn)[4]的25.21和文獻(xiàn)[6]的35.8。
3)使用RF-BiLSTM電解槽出鋁量預(yù)測模型在貴州某鋁廠的2726號電解槽進(jìn)行可靠性檢驗(yàn),完成超前一天出鋁量預(yù)測,預(yù)測結(jié)果絕對誤差在4.2,驗(yàn)證了模型的有效性,實(shí)驗(yàn)結(jié)果表明RF-BiLSTM在為鋁電解槽出鋁量預(yù)測問題提供了一定的參考價(jià)值。