賀彥林,田業(yè),顧祥柏,徐圓,朱群雄
(1 北京化工大學信息科學與技術(shù)學院,北京100029; 2 智能過程系統(tǒng)工程教育部研究中心,北京100029;3中石化煉化(集團)股份有限公司,北京100101)
近年來,隨著化工生產(chǎn)過程的日益復雜,生產(chǎn)過程數(shù)據(jù)也逐漸趨于高復雜、高非線性等特征,傳統(tǒng)的基于化工機理建模的方法已經(jīng)無法處理當下復雜的化工系統(tǒng)。神經(jīng)網(wǎng)絡(luò)技術(shù)作為一種新的數(shù)據(jù)驅(qū)動方法,其具有很強的非線性映射和學習能力,降低模型對機理的依賴,從數(shù)據(jù)的角度建立更加精確的模型,目前已經(jīng)廣泛應用于各個領(lǐng)域[1-3],其衍生出了多種神經(jīng)網(wǎng)絡(luò)模型,如誤差反向傳播神經(jīng)網(wǎng)絡(luò)[4](BP),多層感知器模型[5](MLP)等。然而,BP 網(wǎng)絡(luò)和MLP 網(wǎng)絡(luò)的層數(shù)和節(jié)點數(shù)選取缺少理論依據(jù),導致網(wǎng)絡(luò)在計算復雜性和計算量上有一定難度,同時BP算法收斂速度緩慢。函數(shù)連接神經(jīng)網(wǎng)絡(luò)(functional link neural network,F(xiàn)LNN)[6-8]作為一種新型神經(jīng)網(wǎng)絡(luò)被Pao[9]提出,其網(wǎng)絡(luò)結(jié)構(gòu)簡單,模型參數(shù)較少,具有非常好的非線性逼近能力。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作對比,函數(shù)連接神經(jīng)網(wǎng)絡(luò)只有輸入層和輸出層,沒有隱藏層,因此函數(shù)連接神經(jīng)網(wǎng)絡(luò)計算量更小,訓練速度更快,目前已經(jīng)廣泛應用于建模[10-11]、預測[12-13]、分類[14-15]等領(lǐng)域。
然而,隨著工業(yè)系統(tǒng)規(guī)模的擴大,生產(chǎn)過程數(shù)據(jù)也越來越復雜,該網(wǎng)絡(luò)存在一些局限性,經(jīng)過函數(shù)連接神經(jīng)網(wǎng)絡(luò)擴展之后的數(shù)據(jù)維數(shù)和復雜度會更高,這大大提高了網(wǎng)絡(luò)的計算量,從而降低網(wǎng)絡(luò)的學習速度。同時由于FLNN 的權(quán)值求解方法采用的是梯度下降法,該方法的缺點是容易陷入局部極值,這會降低函數(shù)連接神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)精度。正則化是一種通過修正網(wǎng)絡(luò)權(quán)值,從而有效解決高計算量以及局部極值問題的方法。該方法根據(jù)其自身的數(shù)學理論基礎(chǔ),充分利用輸入與輸出之間的關(guān)系,對輸出代價函數(shù)進行約束,使代價函數(shù)的解最優(yōu)化,同時由于約束參數(shù)的影響,使其一定程度上能夠克服局部極值和過擬合問題[16-17]。函數(shù)連接神經(jīng)網(wǎng)絡(luò)通過使用正則化方法計算得來的權(quán)值來進行學習,在網(wǎng)絡(luò)計算速度和精度上都有了提高。
由此,本文提出用正則化方法[18-21]來作為函數(shù)連接神經(jīng)網(wǎng)絡(luò)(FLNN)的權(quán)值更新方法,減少原始網(wǎng)絡(luò)的計算量,提高模型精度和計算速度,改善了局部極值帶來的影響,最終建立一種基于正則化的函數(shù)連接神經(jīng)網(wǎng)絡(luò)模型(regularization based functional link neural network,RFLNN)。為驗證該網(wǎng)絡(luò)模型的有效性,首先采用UCI 數(shù)據(jù)庫中的Real estate valuation 數(shù)據(jù)對其進行驗證;隨后將所提出的模型應用于HDPE生產(chǎn)過程建模。
函數(shù)連接神經(jīng)網(wǎng)絡(luò)采用函數(shù)擴展的方式,對原始輸入進行擴展,使原始輸入轉(zhuǎn)化到另外一個空間,將增強后的模式作為網(wǎng)絡(luò)輸入層的輸入,通過這種方法來更好地處理非線性問題。該神經(jīng)網(wǎng)絡(luò)由輸入層和輸出層構(gòu)成,沒有隱含層,因此相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)計算量更小,訓練速度更快。
FLNN結(jié)構(gòu)圖如圖1所示。
圖1 常規(guī)FLNN結(jié)構(gòu)Fig.1 Structure of the FLNN model
建立FLNN模型的具體步驟為:
(1)設(shè)n維輸入向量:X =(x1,x2,…,xn)。
(2)對n維輸入向量進行函數(shù)擴展[22-23],擴展函數(shù)可選擇如cos(πx),sin(πx),cos(2πx),sin(2πx),…,設(shè)g(·)為擴展函數(shù),經(jīng)過擴展得到N維輸入向量g(x) =(g1(x),g2(x),…,gN(x))。
(3)設(shè)W 為神經(jīng)網(wǎng)絡(luò)的權(quán)值向量:W =(w1,w2,…,wn)T,將擴展后的輸入向量與權(quán)值向量加權(quán)求和,得輸出層的輸入向量,即S =∑gw。S經(jīng)過激活函數(shù)f(·)處理,則得到該神經(jīng)網(wǎng)絡(luò)的輸出Y。
(4)將計算得出的網(wǎng)絡(luò)實際輸出Y 與期望輸出d 對比,求得誤差函數(shù)e(t)。通過誤差函數(shù)e(t)的變化來對權(quán)值向量W 進行調(diào)整,直到滿足神經(jīng)網(wǎng)絡(luò)精度要求,或者學習次數(shù)終止為止。多次調(diào)整得來的權(quán)值即為FLNN的網(wǎng)絡(luò)模型參數(shù)。
常規(guī)FLNN 權(quán)值更新的方法一般是BP 算法[24-25],將神經(jīng)網(wǎng)絡(luò)的實際輸出量與期望輸出量差值的平方和最小化作為神經(jīng)網(wǎng)絡(luò)的學習目標,數(shù)學公式為[26]
權(quán)值更新公式為
其中,η為學習率;t為固定時延。
將FLNN 網(wǎng)絡(luò)應用到化工過程建模中,不可避免會遇到一些問題。
(1)FLNN 自身權(quán)值更新采用的是BP 算法,而BP 算法通過使用梯度下降法來求解誤差函數(shù)E 的最小值,而這種方法的缺點[27-29]是容易陷入局部極值,同時BP 算法也容易出現(xiàn)過擬合的問題,因而會導致模型精度降低、收斂速度慢等問題。
(2)由于FLNN 采用的是先將原始數(shù)據(jù)進行增強擴展,而化工數(shù)據(jù)的高維度和高復雜化,會導致擴展之后的數(shù)據(jù)更加復雜,因而大大提高網(wǎng)絡(luò)計算量,降低網(wǎng)絡(luò)的計算速度和精度。
為了克服這些問題,本文結(jié)合正則化的方法,對FLNN 網(wǎng)絡(luò)的權(quán)值參數(shù)進行優(yōu)化,通過使用正則化方法求得的權(quán)值,作為網(wǎng)絡(luò)的訓練最終結(jié)果,從而提高網(wǎng)絡(luò)的性能。
由于目前化工過程的日益復雜,過程數(shù)據(jù)也趨于高維化和復雜化,這導致常規(guī)的FLNN 在處理這些數(shù)據(jù)時,出現(xiàn)訓練速度偏慢、網(wǎng)絡(luò)精度低的問題。本文采用正則化的方法,對FLNN 進行權(quán)值參數(shù)的優(yōu)化改進,不僅在計算速度上有了提升,而且網(wǎng)絡(luò)精度也有一定的提高。
正則化方法[30]其目的是通過將神經(jīng)網(wǎng)絡(luò)代價函數(shù)最小問題的求解限制在一個壓縮子集中,利用正則化項平衡模型的網(wǎng)絡(luò)偏差,控制輸出的權(quán)值范圍,從而提高網(wǎng)絡(luò)的穩(wěn)定性。其經(jīng)驗公式為L=E+λF。其中,L 為正則化代價函數(shù),E 為神經(jīng)網(wǎng)絡(luò)損失函數(shù),λ為正則化參數(shù),F(xiàn)為正則化項。
下面對經(jīng)驗公式各項進行具體的說明。
(1)損失函數(shù) 該函數(shù)用E 表示,設(shè)xi為訓練樣本;訓練輸出,即逼近函數(shù)為f(xi);標準損失函數(shù)表達如下
其中,di為訓練的期望輸出。
(2)正則化項 用F 表示,根據(jù)逼近函數(shù),將正則化項定義為
其中,D是線性微分算子,包含損失函數(shù)解的問題的先驗知識,因此D的選取與所解的問題有關(guān),它使正則化問題的解穩(wěn)定,使解滿足連續(xù)性要求。
(3)正則化代價函數(shù) 令正則化代價函數(shù)為L,結(jié)合式(4)中損失函數(shù)和式(5)中正則化項,L 最終表達為
其中,λ 是正則化參數(shù),通常為正實數(shù),用來控制正則化項F 和代價函數(shù)L 的最終解。當λ→0 時,則代價函數(shù)L 最小點問題的求解是無約束的,完全由樣本確定最終解;當λ→∞時,則表明樣本是不可靠的,代價函數(shù)L最小點問題的求解是不存在的;因此,通過訓練樣本和先驗知識,選擇一個合適的λ值,對求解L(xi)起很大的作用。本文選取的正則化參數(shù)λ=0.1。
正則化問題的解就是使代價函數(shù)L 最小化,根據(jù)微分的規(guī)則,對代價函數(shù)L(xi)進行Frechet 微分,有
其中,h(x)是一個固定的關(guān)于向量x 的函數(shù);為了簡化表示,用h來代替h(x)。
根據(jù)微分規(guī)則,對于h ∈x 集合,代價函數(shù)L(xi)有極值點的必要條件是
其中,d(E,h)與d(F,h)分別是損失函數(shù)E(x)和正則化項函數(shù)F(x)的Frechet微分。
代價函數(shù)L(x)的Frechet微分結(jié)果如下
根據(jù)Green恒等式,可以將式(9)改寫為
最終計算得
由Green函數(shù)的連續(xù)性可知
其中,fλ(x)為代價函數(shù)L(x)的最小解在經(jīng)過N個Green 函數(shù)的線性疊加;G(x,ξ)是關(guān)于x 的Green函數(shù),ξ為定值。
對式(13)化簡可得
令權(quán)值
則
將式(15)、式(16)寫成矩陣形式
其中,fλ、d、G、W 分別為fλ(x)、di、G(xj,xi)、wi的矩陣表達。
式(17)、式(18)相消可得
其中,I為N × N的單位矩陣。
當矩陣(G + λI)是正定矩陣時,權(quán)值W 可表示為
由于式(20)求解權(quán)值的解局限于權(quán)值W、Green函數(shù)G、期望輸出d 是相同維數(shù)的,因此為了得到通用解W,引入N × N的對稱陣G0,使得
得權(quán)值的最終解為
本文提出基于正則化的函數(shù)連接神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
圖2 RFLNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of R-FLNN model
給定網(wǎng)絡(luò)訓練樣本集合S,S 中包含K 組高維數(shù)據(jù)S ={(Xk,Yk)|k = 1,2,…,K; Xk∈RL; Yk∈RJ},其中每個訓練樣本的輸入含有L個屬性,輸出含有J個屬性。對于訓練樣本S,建立RFLNN模型如下。
(1)數(shù)據(jù)預處理:由于數(shù)據(jù)中各個變量的量綱不一定相同,使得數(shù)據(jù)與數(shù)據(jù)之間沒有可比性,因此需要對給定的輸入樣本數(shù)據(jù)進行歸一化處理,本文設(shè)定的歸一化范圍為(0.1,0.9),歸一化函數(shù)為
(2)函數(shù)擴展:選擇擴展函數(shù)對歸一化后的數(shù)據(jù)進行函數(shù)擴展,增強數(shù)據(jù)的非線性,本文選用的擴展函數(shù)有正弦函數(shù)g1(·)、余弦函數(shù)g2(·)、Sigmoid函數(shù)g3(·)。通過擴展,提高輸入數(shù)據(jù)的維度,擴展后的數(shù)據(jù)變?yōu)镹維網(wǎng)絡(luò)輸入變量
數(shù)據(jù)集變化為S'={(Xn,Yk)|Xn∈RI; Yk∈RJ;n = 1,2,…,N; k =1,2,…,K},其中RI是經(jīng)過函數(shù)擴展之后的新輸入樣本集合,RJ保持不變。
(3)建立RFLNN 模型,以擴展后的數(shù)據(jù)Xn作為輸入層的輸入,通過正則化方法求解出輸入層與輸出層之間的連接權(quán)值
其中,Yk為FLNN 網(wǎng)絡(luò)的期望輸出,Yk∈RJ,n =1,2,…,N; k = 1,2,…,K。
(4)訓練:對RFLNN模型進行訓練,將訓練得出的最終數(shù)據(jù)yi進行反歸一化,并計算實際輸出與期望輸出的相對誤差。反歸一化公式為
(5)泛化:利用泛化樣本的數(shù)據(jù)對訓練好的RFLNN 網(wǎng)絡(luò)進行驗證,計算網(wǎng)絡(luò)泛化的期望輸出和實際輸出之間的相對誤差。算法流程圖如圖3所示。
利用UCI 數(shù)據(jù)庫中的Real estate valuation 數(shù)據(jù)集以及化工行業(yè)HDPE 的生產(chǎn)數(shù)據(jù)對所提出的RFLNN模型進行驗證,并與傳統(tǒng)FLNN對比。
為初步驗證此方法的可行性和有效性,本文采用UCI 數(shù)據(jù)庫中的Real estate valuation 數(shù)據(jù)集對所提出的RFLNN 模型進行測試,Real estate valuation數(shù)據(jù)是一個對房地產(chǎn)估價的數(shù)據(jù)集,有6 個輸入屬性和1 個輸出屬性,共414 組數(shù)據(jù),隨機分為訓練數(shù)據(jù)(總數(shù)據(jù)的三分之二)和泛化數(shù)據(jù)(總數(shù)據(jù)的三分之一)。
圖3 RFLNN網(wǎng)絡(luò)算法流程Fig.3 Flowchart of R-FLNN algorithm
設(shè)置網(wǎng)絡(luò)的輸入層和輸出層節(jié)點數(shù)為6和1,傳統(tǒng)FLNN 網(wǎng)絡(luò)的學習因子設(shè)為0.1,迭代次數(shù)為1000次。將數(shù)據(jù)分別作為RFLNN 和傳統(tǒng)FLNN 的輸入,得到網(wǎng)絡(luò)訓練的殘差分布,如圖4所示。
圖4 網(wǎng)絡(luò)訓練過程的殘差分布Fig.4 Residual error distribution of real estate valuation data training examples with two models
從圖4 可以看出,網(wǎng)絡(luò)訓練得出的輸出與真實值相近,可以說明網(wǎng)絡(luò)有效性和可行性。
對網(wǎng)絡(luò)的實際輸出與真實值進行對比,計算出訓練階段和泛化階段的平均相對誤差,比對結(jié)果如表1所示。由表1 的對比結(jié)果可以看出,RFLNN 相對傳統(tǒng)FLNN 訓練和泛化平均相對誤差都有降低,說明RFLNN 網(wǎng)絡(luò)泛化能力更強,精度更高,在局部極值和過擬合問題方面處理地較好。
表1 UCI數(shù)據(jù)集模型建模時間和精度對比Table 1 Performance comparisons of models for estate valuation data
3.2.1 HDPE 簡介 高密度聚乙烯(high density polyethylene,HDPE),是一種結(jié)晶度高、非極性的熱塑性樹脂,主要用于生產(chǎn)薄膜、管材等塑料產(chǎn)品。生產(chǎn)高密度聚乙烯采用的是德國Basell 的Hostalen低壓淤漿工藝進行懸浮聚合,該裝置主要以乙烯為原料,1-丁烯為共聚單體,用氫氣調(diào)節(jié)分子量,通過將乙烯、1-丁烯、氫氣、催化劑等連續(xù)加入聚合反應器內(nèi),控制好聚合物的質(zhì)量,從而生產(chǎn)高密度的聚乙烯。因此,為了生產(chǎn)高密度的聚乙烯,控制好聚合物的質(zhì)量,對國內(nèi)外相關(guān)企業(yè)在減小損失和生產(chǎn)成本方面起積極作用。
依據(jù)工業(yè)機理和經(jīng)驗知識,確定輸入變量為15、輸出變量為1的樣本數(shù)據(jù)集,其中樣本數(shù)據(jù)集的輸入變量是主要影響聚合物質(zhì)量的15個因素,輸出變量為密度指數(shù)。通過對現(xiàn)場采集數(shù)據(jù),并對數(shù)據(jù)進行融合、濾波、去干擾等預處理后,共采取135 組生產(chǎn)數(shù)據(jù),隨機選取90組數(shù)據(jù)(總數(shù)據(jù)的三分之二)作為訓練數(shù)據(jù),其余45組數(shù)據(jù)(總數(shù)據(jù)的三分之一)作為泛化數(shù)據(jù),傳統(tǒng)FLNN 學習因子為0.1,迭代次數(shù)為1000次,傳統(tǒng)FLNN 和RFLNN 輸入層和輸出層節(jié)點數(shù)分別為15和1。
3.2.2 訓練結(jié)果對比 圖5為網(wǎng)絡(luò)訓練的輸出和真實值對比圖,圖6是網(wǎng)絡(luò)訓練的殘差分布。
圖5 網(wǎng)絡(luò)訓練的輸出和真實值的對比Fig.5 Comparisons of training examples with two models
圖6 網(wǎng)絡(luò)訓練的殘差分布Fig.6 Residual error distribution of training examples with two models
從網(wǎng)絡(luò)訓練輸出與真實值的對比圖及殘差分布圖可以看出,RFLNN 網(wǎng)絡(luò)訓練輸出更加接近真實值,RFLNN網(wǎng)絡(luò)訓練的平均相對誤差是0.0156%,而傳統(tǒng)FLNN網(wǎng)絡(luò)訓練的平均相對誤差是0.0214%,相對誤差較小,說明訓練過程中RFLNN網(wǎng)絡(luò)模型更精確。從訓練時間角度可以看出,RFLNN 網(wǎng)絡(luò)訓練時間為0.0024 s,傳統(tǒng)FLNN 網(wǎng)絡(luò)訓練時間為0.3918 s,訓練時間明顯縮短,說明RFLNN 網(wǎng)絡(luò)計算量降低,收斂速度更快。
3.2.3 泛化結(jié)果對比 圖7為網(wǎng)絡(luò)泛化的輸出和真實值對比圖,圖8為網(wǎng)絡(luò)泛化的殘差分布圖。
RFLNN 網(wǎng)絡(luò)的泛化平均相對誤差是0.0365%,而FLNN網(wǎng)絡(luò)泛化的平均相對誤差是0.0505%,由此說明RFLNN網(wǎng)絡(luò)泛化精度更高。
FLNN 和RFLNN 網(wǎng)絡(luò)應用于HDPE 過程建模在訓練和泛化所花時間,以及平均相對誤差比對結(jié)果如表2所示。
圖7 網(wǎng)絡(luò)泛化的輸出與真實值的對比圖Fig.7 Comparisons of testing examples with two models
圖8 網(wǎng)絡(luò)泛化的殘差分布Fig.8 Residual error distribution of testing examples with two models
表2 工業(yè)建模應用時間和精度對比Table 2 Comparisons of model performance for HDPE samples
通過表2 可以看出,RFLNN 網(wǎng)絡(luò)訓練和泛化的平均相對誤差都有所降低,說明了本文提出的RFLNN 網(wǎng)絡(luò)模型精度更高,泛化能力更強,且在保證模型精度的情況下,RFLNN網(wǎng)絡(luò)收斂速度更快。
針對復雜的化工過程建模問題,本文提出了一種基于正則化的函數(shù)連接神經(jīng)網(wǎng)絡(luò)模型,此模型是在傳統(tǒng)的FLNN 網(wǎng)絡(luò)模型的基礎(chǔ)上,通過對權(quán)值更新的算法進行優(yōu)化,利用正則化方法計算權(quán)值的優(yōu)越性,從而改善網(wǎng)絡(luò)處理數(shù)據(jù)的性能,提高網(wǎng)絡(luò)的學習速度和精度。為了驗證所提模型的有效性,本文選取UCI 標準數(shù)據(jù)Real estate valuation 以及HDPE 生產(chǎn)過程數(shù)據(jù)進行仿真實驗。仿真結(jié)果表明,本文所提出的基于正則化的FLNN 模型相比于傳統(tǒng)的FLNN 模型,具有收斂速度快、模型精度高、泛化能力強的優(yōu)點,且能夠有效避免局部極值和過擬合的問題,為復雜石化過程建模提供新思路。