郭 久 俊
(廣東工業(yè)大學(xué) 廣東 廣州 510006)
硅材料是電子產(chǎn)業(yè),太陽能光伏電池等產(chǎn)業(yè)的最重要的材料,從某種意義上來說,硅材料是影響國家未來在新能源領(lǐng)域的利益和地位的戰(zhàn)略資源。以太陽能產(chǎn)業(yè)為例,多晶硅生產(chǎn)為該產(chǎn)業(yè)鏈中的關(guān)鍵,其能耗占整個產(chǎn)業(yè)鏈的35%左右,而多晶硅的生產(chǎn)過程中,還原爐的能耗占到了70%。多晶硅生產(chǎn)過程的能源是按需供給,如果出現(xiàn)能源泄露或者設(shè)備異常,會造成生產(chǎn)中斷和能源浪費,影響企業(yè)的利益,甚至?xí)斐砂踩鹿?,因此對于還原爐的能耗預(yù)測有很大的研究價值。
關(guān)于多晶硅生產(chǎn)過程中還原爐能耗的研究只是從技術(shù)上提高工藝水平,改進設(shè)備,并進行模擬仿真。聶陟楓[1]采用了計算流體力學(xué)和計算傳熱學(xué)方面比較權(quán)威和廣泛應(yīng)用的ANSYS Fluent軟件對改良西門子法多晶硅還原過程的輻射傳熱過程進行模擬計算,對多晶硅生產(chǎn)的還原過程的降耗有一定的參考意義。李國棟等[2]利用Gibbs自由能最小原理,對SiHC13法生產(chǎn)電子級多晶硅的過程進行模擬,提出用Cl2部分氧化使體系能量耦合的新工藝,優(yōu)化了操作參數(shù),很大程度上降低了能耗。呂鵬飛等[3]也對SiHC13還原體系進行模擬分析。這些研究為三氯氫硅還原過程的優(yōu)化和節(jié)能研究提供了參考。楊志國[4]通過對多晶硅還原工藝設(shè)計要點進行分析,闡述了多晶硅還原各生產(chǎn)操作單元的最優(yōu)化的控制參數(shù)以及控制方式。同時還一并提出了利用多晶硅還原沉積反應(yīng)多余的熱能副產(chǎn)工業(yè)級飽和蒸汽,供給多晶硅生產(chǎn)裝置的其他單元使用,最大限度地降低能耗的一種途徑,減少生產(chǎn)成本。梁志武等[5]基于 Gibbs 最小自由能[6]原理,考慮到生產(chǎn)成本和副產(chǎn)物的處理,利用 Aspen Plus 軟件中的Gibbs 反應(yīng)器,對西門子法工藝中還原工序的反應(yīng)條件及加入二氯二氫硅進行模擬優(yōu)化,與傳統(tǒng)工藝相比,提高了產(chǎn)率,降低了能耗。
基于前面的研究可知,盡管目前對多晶硅生產(chǎn)工藝中還原工序的節(jié)能優(yōu)化的研究已取得一定的研究成果,但是國內(nèi)外的學(xué)者大都從還原爐系統(tǒng)、化學(xué)、熱力學(xué)等角度對還原工序的節(jié)能優(yōu)化進行研究分析,而并沒有從還原工序能耗預(yù)測的角度進行節(jié)能研究。由于多晶硅生產(chǎn)的影響因素不僅與相關(guān)的工藝參數(shù)有關(guān),還與時間序列有關(guān)系,因此本文采用改進的長短期循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM(Long Short-Term Memory)作為預(yù)測模型,LSTM模型不僅很大程度上改善了RNN的梯度消失和爆炸問題[7-8],而且在時間序列的研究領(lǐng)域取得了很大的進步。文獻(xiàn)[9]基于LSTM的發(fā)電機組污染物排放預(yù)測研究取得了不錯的效果,文獻(xiàn)[10]基于LSTM-RNN模型預(yù)測鐵水硅含量預(yù)測取得了不錯的效果,文獻(xiàn)[11]基于LSMT-GARCH混合模型來預(yù)測股票價格,但是目前尚未發(fā)現(xiàn)將LSTM用于多晶硅生產(chǎn)能耗預(yù)測研究。本文提出了LSTM-Adaboost模型,結(jié)合某企業(yè)還原工序的實際能耗數(shù)據(jù)建立預(yù)測模型,并完成了能耗預(yù)測。
首先要對能耗影響因素進行主成分分析,減少影響因素之間的多重共線問題,本文采用PCA降維技術(shù)進行主成分分析,其核心思想是在信息保存最完整的情況下對高維變量進行降維,即把輸入的一組特征重新組合成新的無關(guān)的特征來代替原來的特征,經(jīng)過PCA降維后,保留了大部分原來的信息,而且維度減少[12-13]。PCA主要步驟如下:
假設(shè)有n個樣本,每個樣本有m個特征,則原始數(shù)據(jù)用矩陣表示為:
(1)
(1) 當(dāng)處理不同取值范圍的特征值時,通常將數(shù)值歸一化,消除因為數(shù)值差別過大帶來的影響,將原始數(shù)據(jù)的矩陣形式X歸一化,如下:
(2)
(2) 建立相關(guān)矩陣R,計算特征值和特征向量,即:
R=(X*)TX*/(n-1)
(3)
(3) 根據(jù)式(3)可求得矩陣R的特征值,并根據(jù)其特征值確定主成分的個數(shù)k:
(4)
式中:取η=0.9,則k個主成分中包含了絕大部分信息。
機器學(xué)習(xí)研究中的一個新的方向是深度學(xué)習(xí),是一種建立、模擬人類思維,通過分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人類大腦的機制來分析和解釋數(shù)據(jù)。LSTM[14]是一種特殊的RNN網(wǎng)絡(luò)[15-16],增加了長短記憶功能,即當(dāng)前隱藏層的狀態(tài)通過前一時刻的隱藏層的狀態(tài)來更新,因而保持了模型的持久性。如圖1所示,在某一時刻t,它的隱藏層ht的輸入除了包含當(dāng)前的輸入xt之外,還有來自(t-1)時刻的信息ht-1,同理ht對(t+1)時刻的隱藏層產(chǎn)生影響,這是因為這種機制,LSTM可以有效的解決長期依賴問題。
圖1 LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖
1.2.1 LSTM核心算法
在神經(jīng)網(wǎng)絡(luò)中,每一個遞歸神經(jīng)網(wǎng)絡(luò)中都有重復(fù)模塊鏈。標(biāo)準(zhǔn)RNN網(wǎng)絡(luò)中的結(jié)構(gòu)很簡單,其模塊鏈只有一個tanh層。LSTM模型在RNN模型的基礎(chǔ)上加入了“記憶細(xì)胞”,使得LSTM模型可以在很長的時間內(nèi)存儲訪問信息,因而可以緩解梯度消失問題。LSTM模型包括三個門和一個記憶單元,如圖2所示,分別是輸入門、輸出門、遺忘門和Cell。這三個門采用sigmoid函數(shù)來保證得到最佳參數(shù)。通過不同的函數(shù)來計算某一時刻隱藏層的狀態(tài)。
圖2 LSTM神經(jīng)元結(jié)構(gòu)
設(shè)輸入的序列為(x1,x2,…,xt),隱藏層狀態(tài)為(h1,h2,…,ht),則在t時刻有:
ft=f(Whfht-1+Wxfxt+bf)
(5)
it=f(Whiht-1+Wxixt+bi)
(6)
ot=f(Whoht-1+Wxoxt+bo)
(7)
ht=ot⊙tanh(ct)
(8)
ct=ft⊙ct-1+i⊙f(Whcht-1+Wxcxt+bc)
(9)
式中:it、ft、ot分別代表input門、forget門和output門,⊙表示矩陣點乘,ct代表cell單元的狀態(tài),xt表示輸入層的輸入向量,b表示各層的偏差向量,W代表對應(yīng)的連接權(quán)重,f(*) 表示激活函數(shù),有sigmoid和tanh兩種激活函數(shù)。
進一步推廣得到t時刻input門、forget門、output門的輸入向量以及輸出向量:
(10)
(11)
(12)
1.2.2 引入正則化項
正則化[17]項是一種懲罰函數(shù),為了防止避免過擬合,對模型向量進行“懲罰”。正則化本質(zhì)上是一種先驗信息。比較常見的有L1、L2正則,當(dāng)正則取不同的范數(shù),模型則有不同的泛化能力,其中L1正則有助于生成一個稀疏的權(quán)值矩陣,L2正則會針對被估計的參數(shù)進行壓縮,但是并不能將其壓縮到零,因此不會產(chǎn)生稀疏的矩陣,可以防止過擬合。
本文引入L2正則,對LSTM網(wǎng)絡(luò)中的權(quán)重進行正則化處理,提升模型的泛化能力。模型如下:
(13)
1.2.3Adaboost算法
Adaboost算法[18]通過綜合多個弱預(yù)測算法來構(gòu)建精度較高的強學(xué)習(xí)算法,從而提高泛化能力。Adaboost算法對于預(yù)測誤差比較大的樣本和預(yù)測性能好的預(yù)測器更加重視,并提高訓(xùn)練效果強的預(yù)測器的權(quán)重,此外,降低訓(xùn)練效果差的預(yù)測器的權(quán)重。算法初始化時,每個樣本有相同的權(quán)重。具體步驟如下:
1) 初始化權(quán)值:
(14)
并訓(xùn)練弱預(yù)測器zt(x),其中Xt(i)表示在第t次迭代中樣本的權(quán)重,n為樣本總數(shù)。
2) 計算該預(yù)測器在樣本下的誤差:
(15)
3) 更新樣本權(quán)重:
(16)
分類器權(quán)重:
Wt=ln(1/βt)
(17)
式中:βt=εt/(1-εt),Qt是歸一化因子。
4) 重復(fù)迭代,直到迭代次數(shù)為M結(jié)束。
5) 得到強預(yù)測器:
(18)
本文將LSTM神經(jīng)網(wǎng)絡(luò)作為弱預(yù)測器,使用Adaboost算法對若預(yù)測器組合得到強預(yù)測器,并構(gòu)建LSTM-Adaboost預(yù)測模型對還原爐能耗進行預(yù)測。
預(yù)測模型如圖3所示,主要包括數(shù)據(jù)預(yù)處理和LSTM-Adabosst模型建立兩個部分。
圖3 主成分碎石圖
實驗使用Python 3.6編程語言,LSTM模型由Keras框架實現(xiàn),實驗環(huán)境為Linux。LSTM-Adaboost構(gòu)建步驟如下:
1) 查閱相關(guān)資料分析還原爐工藝,通過PCA主成分分析,獲得還原工序影響因素的主要因素,由圖3可知,當(dāng)主成分的個數(shù)為7時,η≥0.9。因此將這7個因素歸一化后作為特征輸入到預(yù)測模型。影響因素如下:生產(chǎn)周期、產(chǎn)品規(guī)格、氣流速度、H2的摩爾分?jǐn)?shù)、硅表面溫度、還原尾氣溫度、還原爐年限等。
2) 確定輸入層、輸出層。X={xi|i=1,2,…,n},其中xi為多晶硅生產(chǎn)的能耗影響因素,輸出為未來某一時間段的能耗預(yù)測值。
3) LSTM模型設(shè)置2層隱藏層,1層輸入層,其中隱藏層每層有300個神經(jīng)元,激活函數(shù)為tanh函數(shù)和sigmoid函數(shù),初始學(xué)習(xí)率為1/1 000。
4) 根據(jù)損失函數(shù)獲得輸出誤差,通過隨機梯度下降法尋找最小值,結(jié)合Adaboost算法調(diào)節(jié)樣本權(quán)重,并不斷更新LSTM中的參數(shù),直到收斂。
5) 得到LSTM強預(yù)測模型,完成預(yù)測。
6) 采用RMSE和MRE進行誤差判定,RMSE的值越小說明模型的泛化能力越強。
(19)
LSTM-Adaboost模型的構(gòu)建流程如圖4所示。
圖4 基于LSTM-Adaboost的能耗預(yù)測模型流程圖
實驗數(shù)據(jù)來源于某多晶硅企業(yè)的實際能耗數(shù)據(jù),該企業(yè)opc采集程序每30 s采集一次數(shù)據(jù),每日的能耗總和數(shù)據(jù)可以通過opc采集程序得知。本文從能耗樣本中去除異常點后得到510組能耗數(shù)據(jù),其中420組能耗數(shù)據(jù)作為訓(xùn)練樣本,剩余的90組作為測試樣本,用于驗證模型的精度。部分能耗數(shù)據(jù)如表1所示。
表1 部分能耗數(shù)據(jù)
表2給出了部分的實驗數(shù)據(jù),以及不同對比模型的預(yù)測結(jié)果和誤差。本文采用的對比模型為能耗預(yù)測中常用的BP模型和LSTM模型,通過表2可以看出,LSTM-Adaboost模型的預(yù)測誤差均小于LSTM和BP網(wǎng)絡(luò)的誤差,結(jié)果更接近真實數(shù)據(jù),相對誤差較小。
表2 不同模型預(yù)測結(jié)果及誤差比較
圖5是分別采用BP模型、LSTM模型和提出的LSTM-Adaboost模型對還原工序能耗預(yù)測的曲線圖。由圖5可以看到,BP模型和LSTM模型對實際能耗曲線擬合得并不是很好,相反LSTM-Adaboost可以很好地擬合能耗變化曲線,實現(xiàn)準(zhǔn)確預(yù)測??梢猿醪降贸鼋Y(jié)論,改進的LSTM網(wǎng)絡(luò)模型能有效降低誤差,提高能耗預(yù)測的準(zhǔn)確性。三種模型的預(yù)測結(jié)果對比如表3所示。
圖5 預(yù)測結(jié)果對比圖
模型RMSE平均誤差LSTM-Adabooost3.851.39%LSTM模型11.562.67%BP模型26.525.53%
由表3可知,LSTM-Adaboost模型預(yù)測的平均誤差為1.39%,低于LSTM模型和BP模型。為了進一步比較BP模型、LSTM模型、LSTM-Adaboost模型的效果,給出各個模型的誤差曲線,如圖 6所示。通過對比可以得出,LSTM-Adaboost模型預(yù)測值的誤差均小于另外兩種模型。通過分析可知,Adaboos算法對LSTM模型進行訓(xùn)練,得到了預(yù)測效果更好的預(yù)測器,一方面保留了LSTM模型的非線性映射和時間序列依賴的問題,另一方面Adaboost算法根據(jù)錯誤率來調(diào)節(jié)權(quán)值,增強了LSTM的泛化能力,提高了預(yù)測的準(zhǔn)確率。
圖6 誤差對比圖
針對多晶硅生產(chǎn)過程中還原工序能耗問題,本文首先通過PCA算法,根據(jù)多晶硅能耗數(shù)據(jù)的特性,對影響特征進行主成分分析,提取出要的影響因素。然后結(jié)合LSTM算法,提出了LSTM-Adaboost網(wǎng)絡(luò)模型,提高了多經(jīng)過生產(chǎn)過程中還原過程能耗預(yù)測的精度,并結(jié)合企業(yè)的能耗數(shù)據(jù),對模型進行驗證。實驗結(jié)果表明,該模型有效降低了預(yù)測的誤差。但是相較于另外兩種模型,該模型的訓(xùn)練耗時較多。