孫茂偉,楊慧中(江南大學(xué)教育部輕工過程先進控制重點實驗室,江蘇 無錫 214122)
?
基于改進Bagging算法的高斯過程集成軟測量建模
孫茂偉,楊慧中
(江南大學(xué)教育部輕工過程先進控制重點實驗室,江蘇 無錫 214122)
摘要:為提高對工況復(fù)雜的工業(yè)過程進行軟測量建模的模型精度和泛化能力,提出了一種基于改進Bagging算法的高斯過程集成軟測量建模方法。該算法采用高斯過程回歸算法建立集成學(xué)習(xí)模型的基學(xué)習(xí)器,并在Bagging算法對訓(xùn)練樣本重采樣生成基學(xué)習(xí)器訓(xùn)練子集的基礎(chǔ)上,采用基于正則化互信息的特征排序指標(biāo)進行基學(xué)習(xí)器的輸入特征抽取,實現(xiàn)有監(jiān)督的特征擾動,從而改善學(xué)習(xí)器的差異度。待測樣本進行軟測量估計時,根據(jù)各高斯過程基學(xué)習(xí)器輸出的方差自適應(yīng)地選擇基學(xué)習(xí)器進行集成輸出。采用工業(yè)雙酚A生產(chǎn)裝置反應(yīng)器的現(xiàn)場數(shù)據(jù)建模仿真,結(jié)果表明該方法是有效的。
關(guān)鍵詞:算法;軟測量;模型;高斯過程;反應(yīng)器
2015-07-30收到初稿,2016-01-10收到修改稿。
聯(lián)系人:楊慧中。第一作者:孫茂偉(1990—),男,碩士研究生。
Received date: 2015-07-30.
Foundation item: supported by the National Natural Science Foundation of China (61273070) and the Project Funded by the Priority Academic Program Development of Jiangsu Higher Education Institutions.
____軟測量技術(shù)[1-2]是對工業(yè)過程中難以直接測量的重要變量進行在線估計的常用方法,其中建模方法是軟測量技術(shù)的核心內(nèi)容。隨著現(xiàn)代工業(yè)水平的發(fā)展和提高,過程對象越來越復(fù)雜,通常存在多工況、非線性等問題,因此在建立軟測量模型時,對模型描述過程特性的能力要求越來越高,通??梢圆捎眉蓪W(xué)習(xí)多模型建模[3-4]或基于聚類的多模型建模[5-6]等方法提高模型的泛化性能和估計精度。
集成學(xué)習(xí)算法是機器學(xué)習(xí)領(lǐng)域的一個熱點,該算法通過將一系列有差異的基學(xué)習(xí)器進行組合,以提高單一學(xué)習(xí)器的泛化能力。各基學(xué)習(xí)器具有較高的精確度并且存在較大差異是集成學(xué)習(xí)算法有效集成的關(guān)鍵[7]。目前已有的集成學(xué)習(xí)算法很多,Bagging算法[8-9]是其中比較常用的一種算法,可提高學(xué)習(xí)算法的泛化能力,對于因訓(xùn)練樣本集較小變化可能導(dǎo)致學(xué)習(xí)結(jié)果發(fā)生較大變化的學(xué)習(xí)算法具有比較明顯的改善效果。例如文獻[10]將Bagging算法與高斯過程算法相結(jié)合,提高了單一高斯過程軟測量模型的泛化性能。為提高集成學(xué)習(xí)模型中基學(xué)習(xí)器的差異度,文獻[11]在基學(xué)習(xí)器建模時增加了基學(xué)習(xí)器的輸入特征擾動,且有監(jiān)督的輸入特征擾動能夠提高基學(xué)習(xí)器的模型精度,進而提高集成學(xué)習(xí)模型的估計精度。特征選擇能夠去除冗余特征,提取關(guān)鍵特征,有助于提高學(xué)習(xí)器的學(xué)習(xí)效果[12]。特征選擇的實現(xiàn)通常先要衡量特征之間的相關(guān)性,相關(guān)系數(shù)局限于對變量間線性關(guān)系的描述,而互信息能夠衡量兩個變量之間的線性或非線性相關(guān)關(guān)系。目前,基于互信息或正則化互信息的特征選擇方法很多,例如文獻[13]提出的mRMR方法以及文獻[14]提出的NMIFS方法,均已成功應(yīng)用于分類問題中。因此本文通過基于正則化互信息的特征選擇從集成模型基學(xué)習(xí)器的原始輸入特征集中選擇輸入特征,從而實現(xiàn)有監(jiān)督的基學(xué)習(xí)器輸入特征擾動,有效地提高集成學(xué)習(xí)模型的估計精度。
高斯過程回歸(Gaussian process regression,GPR)是一種具有嚴(yán)格統(tǒng)計學(xué)習(xí)理論基礎(chǔ)的機器學(xué)習(xí)方法,該方法與人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)、支持向量機(support vector machine,SVM)相比,具有超參數(shù)自適應(yīng)獲取、輸出具有概率意義等優(yōu)點[15-16],已經(jīng)在軟測量等許多領(lǐng)域廣泛應(yīng)用。如文獻[17]采用一種基于高斯過程回歸和貝葉斯決策的組合建模方法對某雙酚A生產(chǎn)裝置建立了具有較高估計精度的軟測量模型。
為提高對復(fù)雜工業(yè)過程軟測量建模的模型精度和泛化能力,改善Bagging算法中基學(xué)習(xí)器的差異度,本文提出了一種改進Bagging算法的高斯過程集成軟測量建模方法。該算法將基于正則化互信息的特征選擇方法引入Bagging集成學(xué)習(xí)軟測量建模中,通過定義基于正則化互信息的特征排序指標(biāo)從原始輸入特征集中有監(jiān)督地抽取與模型輸出變量相關(guān)度大且冗余度小的特征作為基學(xué)習(xí)器的輸入特征,增加學(xué)習(xí)器間的差異度;將高斯過程回歸作為基學(xué)習(xí)器建模算法,并在集成輸出時利用高斯過程回歸基學(xué)習(xí)器的輸出方差自適應(yīng)地選擇合適的基學(xué)習(xí)器集成輸出。采用來自工業(yè)雙酚A生產(chǎn)裝置現(xiàn)場的數(shù)據(jù)進行建模仿真。
高斯過程回歸模型是一種非參數(shù)概率模型,能將待測樣本進行輸出估計并給出估計方差。高斯過程由均值函數(shù)和協(xié)方差函數(shù)唯一確定。
設(shè)訓(xùn)練樣本集為D={(xi,yi)},i=1,2,…,n,xi∈Rm為m維輸入變量,y∈R為輸出變量。對于待測樣本xt,高斯過程回歸模型的預(yù)測分布是n個訓(xùn)練樣本以及待測樣本xt所形成的n+1維的聯(lián)合高斯分布,其均值為
方差為
式中,k(xt)=[C(xt,x1),C(xt,x2),…,C(xt,xn)]T為待測樣本的輸入與訓(xùn)練樣本輸入之間的協(xié)方差向量;矩陣K(n×n)為訓(xùn)練樣本間的協(xié)方差矩陣,矩陣元素為兩個訓(xùn)練樣本的輸入變量之間的協(xié)方差Ki,j=C(xi,xj),i,j=1,2,…,n; k(xt,xt)=C(xt,xt)為待測樣本輸入和其本身的協(xié)方差;y=[yt,y2,…,yn]T為訓(xùn)練樣本的輸出向量。本文采用徑向基函數(shù)作為高斯過程的協(xié)方差函數(shù)
式中,v0為先驗知識的總體度量,v1為服從高斯分布的噪聲方差,dij為Kronecker算子。采用極大似然法優(yōu)化協(xié)方差函數(shù)的參數(shù)q=(v0,w1,w2,…,wm,v1),從而獲得高斯過程模型的最優(yōu)超參數(shù)。對于式(3)所示的協(xié)方差函數(shù),訓(xùn)練樣本的對數(shù)似然函數(shù)為
在優(yōu)化過程中,通過求取式(4)的極大似然來調(diào)整超參數(shù)q。設(shè)q為在合理范圍內(nèi)的隨機數(shù),然后通過共軛梯度迭代方法搜索獲得超參數(shù)的最優(yōu)值。得到最優(yōu)超參數(shù)后,則可根據(jù)式(1)、式(2)估計待測樣本輸出的均值與方差。
Bagging集成學(xué)習(xí)算法包括基學(xué)習(xí)器建模和基學(xué)習(xí)器的組合輸出兩個部分。
設(shè)訓(xùn)練樣本集為D={(xi,yi)},i=1,2,…,n,xi∈Rm為m維輸入變量,y∈R為輸出變量。Bagging集成學(xué)習(xí)算法通過放回隨機抽樣技術(shù)(Bootstrapping取樣)生成集成模型中的基學(xué)習(xí)器。Bootstrapping取樣的基本思想是通過從原始訓(xùn)練樣本集D中有放回地隨機抽取樣本從而構(gòu)成與原始訓(xùn)練樣本集樣本數(shù)相同的訓(xùn)練子集。原始樣本集的部分樣本可能多次出現(xiàn)在訓(xùn)練子集中,同時也有部分樣本可能不出現(xiàn)。通過多輪Bootstrapping重取樣,可以獲得具有一定差異的訓(xùn)練子集{D1,D2,…,DN},利用這些存在差異的訓(xùn)練子集,采用某種學(xué)習(xí)算法訓(xùn)練獲得基學(xué)習(xí)器{f1,f2,…,fN}。因此Bagging算法中各個基學(xué)習(xí)器之間的差異性是由訓(xùn)練樣本集重采樣的隨機性和獨立性產(chǎn)生的。
基學(xué)習(xí)器的組合方式多種多樣,Bagging集成軟測量模型常用的組合輸出方法包括取各基學(xué)習(xí)器輸出均值或加權(quán)輸出等方法。Bagging集成學(xué)習(xí)算法結(jié)構(gòu)如圖1所示。
圖1 Bagging算法結(jié)構(gòu)Fig.1 Structure of Bagging algorithm
3.1基于正則化互信息的特征排序指標(biāo)
互信息是信息論中的重要概念,目前已經(jīng)廣泛應(yīng)用于變量的相關(guān)性評價和變量的選擇等問題上[18-19]。對于變量x和y,其互信息定義為
式中,p(x)和p(y)分別是變量x和y的邊緣概率密度函數(shù),p(x,y)為兩變量的聯(lián)合概率密度函數(shù)。I(x;y) ≥0并且其值越大,兩變量的相關(guān)性越大,當(dāng)I(x;y)=0時,表明兩變量不相關(guān)。
正則化互信息[20]是對互信息的歸一化處理,即正則化互信息的值在[0,1]之間。定義正則化互信息為
式中,H(x)和H(y)為變量的信息熵,其定義為
本文將基于正則化互信息的特征選擇方法引入集成學(xué)習(xí)軟測量建模中,用于實現(xiàn)基學(xué)習(xí)器的有監(jiān)督特征擾動。設(shè)軟測量模型原始輸入特征集為S,S中已排序的特征構(gòu)成集合S′。定義基于正則化互信息的特征排序指標(biāo)為
式中,x為原始輸入特征集S中待排序的特征,xS′為S′中的已排序特征,NS′為已排序特征的個數(shù);y為模型輸出變量。
式(8)中,NI(x;y)為待排序特征x與輸出變量y的正則化互信息,反映了x與輸出變量y之間的相關(guān)程度,該項值越大則相關(guān)度越大;項為待排序特征x與所有已排序特征的正則化互信息的平均值,表示x與已排序特征的信息冗余程度,其值越小則冗余度越小。因此,基于正則化互信息的特征排序指標(biāo)是表征輸入特征x與輸出變量y相關(guān)程度以及x與已排序特征冗余程度的綜合度量。進行基學(xué)習(xí)器的輸入特征抽取時,根據(jù)學(xué)習(xí)器原始輸入特征集中各特征對應(yīng)的排序指標(biāo)值,可對輸入特征進行優(yōu)先度排序,即指標(biāo)值J越大的特征越應(yīng)當(dāng)被優(yōu)先抽取。
3.2高斯過程集成軟測量建模
為提高Bagging算法中基學(xué)習(xí)器的差異度,本文采用基于正則化互信息的特征排序指標(biāo)對原始輸入特征集中的輸入特征進行特征抽取優(yōu)先度排序,實現(xiàn)基學(xué)習(xí)器的有監(jiān)督輸入特征擾動,使改進Bagging算法在提高基學(xué)習(xí)器間差異度的同時能夠提高基學(xué)習(xí)器的模型精度。設(shè)訓(xùn)練樣本集為D={(xi,yi)},i=1,2,…,n,xi∈Rm為第i個訓(xùn)練樣本的m維輸入向量,yi∈R為第i個訓(xùn)練樣本的輸出值。原始輸入特征集為S,包含m個輸入特征。基于改進Bagging算法的高斯過程集成軟測量建模過程如下。
(1)設(shè)置基學(xué)習(xí)器的個數(shù)為N。
(2)進行輸入特征抽取優(yōu)先度排序。計算原始輸入特征集S中每個輸入特征與輸出變量的正則化互信息并將正則化互信息值最大的輸入特征作為基學(xué)習(xí)器輸入特征抽取優(yōu)先度最高的特征,將其加入已排序輸入特征集S′(初始為空集)中,然后按照式(8)計算S中每個未排序輸入特征的特征排序指標(biāo)值,將指標(biāo)值最大的輸入特征作為第二優(yōu)先抽取的輸入特征并將其加入特征集S′。重復(fù)采用上述方法將原始特征集S中的m個輸入特征的抽取優(yōu)先度進行排序。
(3)采用Bootstrapping取樣方法從訓(xùn)練數(shù)據(jù)集D中進行重采樣得到基學(xué)習(xí)器訓(xùn)練子集D′,同時按照步驟(2)的特征抽取優(yōu)先度排序從原始輸入特征集中抽取優(yōu)先度最高的m′個輸入特征作為基學(xué)習(xí)器的輸入,其中m′在[2,m]之間隨機產(chǎn)生,然后采用高斯過程回歸算法建立基學(xué)習(xí)器。
(4)重復(fù)步驟(3)得到N個高斯過程基學(xué)習(xí)器{GP1,GP2,…,GPN}。
由于高斯過程回歸模型的輸出具有概率意義,不僅能夠給出待測樣本的輸出估計值,并且給出了估計的方差,輸出方差越小,表明估計值的可信度越高,因此在模型集成輸出時,本文采用了輸出方差最小的N′個基學(xué)習(xí)器進行集成輸出,從而提高集成軟測量模型的最終估計精度,即對待測樣本xt進行輸出估計時,集成模型輸出為
式中,GP′1~GP′N′為N個基學(xué)習(xí)器中輸出結(jié)果方差最小的N′個基學(xué)習(xí)器。算法結(jié)構(gòu)如圖2所示。
圖2 算法結(jié)構(gòu)Fig.2 Structure of algorithm
本仿真的數(shù)據(jù)來自某雙酚A(BPA)生產(chǎn)裝置中裂解重整回收單元的反應(yīng)器R802以及R802的前級反應(yīng)器R801。采用本文提出的基于改進Bagging算法的高斯過程集成軟測量建模方法對反應(yīng)器R802出口組分中的BPA含量進行軟測量建模。根據(jù)生產(chǎn)工藝及流程分析,選擇R801頂部苯酚流量、頂部溫度、底部溫度、出口BPA含量以及R802頂部溫度、R802底部溫度6個變量作為軟測量模型的輸入輔助變量,以反應(yīng)器R802出口組分中的BPA含量作為模型輸出主導(dǎo)變量。從現(xiàn)場取回180組R802出口組分BPA含量的人工分析值和與之對應(yīng)的輔助變量現(xiàn)場數(shù)據(jù)作為樣本數(shù)據(jù)集,其中120組用于模型訓(xùn)練,剩余60組用于模型效果測試??紤]到各變量由于量綱和單位不同會對建模精度產(chǎn)生影響,首先對樣本數(shù)據(jù)進行標(biāo)準(zhǔn)化處理然后再采用本文提出軟測量建模方法建立反應(yīng)器R802出口組分BPA含量的軟測量估計模型,考慮訓(xùn)練樣本集規(guī)模并根據(jù)多次實驗設(shè)置模型參數(shù)為:基學(xué)習(xí)器個數(shù)N=20,基學(xué)習(xí)器輸入特征個數(shù)m′∈{2,3,…,6},N′=5。
表1 模型仿真結(jié)果Table 1 Simulation result of models
為驗證本文方法的有效性,將本文方法模型的仿真結(jié)果與SVM單模型(表1中的方法1)、GP單模型(表1中的方法2)和增加無監(jiān)督特征擾動的基于Bagging算法的GP集成軟測量模型(表1中的方法3)進行比較,其中集成學(xué)習(xí)模型的仿真結(jié)果為50次仿真的平均值,結(jié)果如表1所示,本文方法和單模型方法的估計結(jié)果如圖3所示。
表1中均方根誤差(RMSE)、最大絕對誤差(MAXE)、平均絕對誤差(ME)的計算方法如下
通過表1和圖3的仿真結(jié)果可知,本文提出的基于改進Bagging算法的高斯過程集成軟測量建模方法的模型精度和泛化能力明顯優(yōu)于單一支持向量機模型和高斯過程模型;表1中方法3與本文算法的區(qū)別在于方法3中基學(xué)習(xí)器的輸入特征擾動是通過無監(jiān)督隨機抽取方式產(chǎn)生的,而本文算法通過基于正則化互信息的特征排序指標(biāo)實現(xiàn)有監(jiān)督輸入特征擾動,從而進一步提高了集成模型的模型精度。
圖3 測試集估計結(jié)果Fig.3 Estimation results of test data set
本文提出了一種基于改進Bagging算法的高斯過程集成軟測量建模方法。該方法以高斯過程回歸算法作為基學(xué)習(xí)器的學(xué)習(xí)算法,采用Bagging算法建立高斯過程集成軟測量模型。在Bagging算法重采樣產(chǎn)生訓(xùn)練子集的同時,通過基于正則化互信息的特征排序指標(biāo)實現(xiàn)有監(jiān)督的特征擾動,從而在增加基學(xué)習(xí)器之間的差異度的同時提高基學(xué)習(xí)器的估計精度;在集成輸出時,根據(jù)高斯過程基學(xué)習(xí)器輸出的方差信息選擇精確度高的基學(xué)習(xí)器進行組合輸出,從而提高集成學(xué)習(xí)模型的泛化能力和估計精度。采用來自工業(yè)雙酚A生產(chǎn)裝置的現(xiàn)場數(shù)據(jù)進行軟測量建模,仿真結(jié)果表明了算法的有效性。
References
[1] 曹鵬飛,羅雄麟. 化工過程軟測量建模方法研究進展 [J]. 化工學(xué)報,2013,64(3): 788-800. DOI: 10.3969/j.issn.0438-1157. 2013. 03.003. CAO P F,LUO X L. Modeling of soft sensor for chemical process [J]. CIESC Journal,2013,64(3): 788-800. DOI: 10.3969/j.issn.0438-1157. 2013.03.003.
[2] 王海寧,夏陸岳,周猛飛,等. 過程工業(yè)軟測量中的多模型融合建模方法 [J]. 化工進展,2014,33(12): 3157-3163. DOI: 10.3969/j.issn.1000-6613.2014.12.005. WANG H N,XIA L Y,ZHOU M F,et al. Multi-model fusion modeling method for process industries soft sensor [J]. Chemical Industry and Engineering Progress,2014,33(12): 3157-3163. DOI: 10.3969/j.issn. 1000-6613.2014.12.005.
[3] 周鑫,譚帥,楊琦,等. 基于Bagging集成的球團礦燒結(jié)過程混合模型 [J]. 控制工程,2015,22(3): 516-520. DOI: 10.14107/ j.cnki.kzgc.140039. ZHOU X,TAN S,YANG Q,et al. Modeling for pellets induration process based on Bagging method [J]. Control Engineering of China,2015,22(3): 516-520. DOI: 10.14107/j.cnki.kzgc.140039.
[4] 李毓,徐成賢. 修剪Bagging集成的方法及其應(yīng)用 [J]. 系統(tǒng)工程理論與實踐,2008,28(7): 105-110. DOI: 10.3321/j.issn: 1000-6788. 2008.07.014. LI Y,XU C X. A method for pruning Bagging ensembles and its applications [J]. Systems Engineering—Theory and Practice,2008,28(7): 105-110. DOI: 10.3321/j.issn:1000-6788.2008.07.014.
[5] 陳定三,楊慧中. 基于局部重構(gòu)融合流形聚類的多模型軟測量建模 [J]. 化工學(xué)報,2011,62(8): 2281-2286. DOI: 10.3969/j.issn. 0438-1157.2011.08.034. CHEN D S,YANG H Z. Multiple model soft sensor based on local reconstruction and fusion manifold clustering [J]. CIESC Journal,2011,62(8): 2281-2286. DOI: 10.3969/j.issn.0438-1157.2011.08.034.
[6] 呂業(yè),鄧玉俊,楊慧中. 基于類別特征提取的組合支持向量機模型 [J]. 化工學(xué)報,2011,62(8): 2164-2169. DOI: 10.3969/j.issn. 0438-1157.2011.08.013. Lü Y,DENG Y J,YANG H Z. Compositional support vector machine model based on feature extraction of categories [J]. CIESC Journal,2011,62(8): 2164-2169. DOI: 10.3969/j.issn.0438-1157.2011.08.013.
[7] 孫博,王建東,陳海燕,等. 集成學(xué)習(xí)中的多樣性度量 [J]. 控制與決策,2014,29(3): 385-395. DOI: 10.13195/j.kzyjc.2013.1334. SUN B,WANG J D,CHEN H Y,et al. Diversity measures in ensemble learning [J]. Control and Decision,2014,29(3): 385-395. DOI: 10.13195/j.kzyjc.2013.1334.
[8] 安睿. 基于Bagging的電力信息安全態(tài)勢分析系統(tǒng)的研究與實現(xiàn)[D]. 北京: 華北電力大學(xué),2012. AN R. Research and implementation on Bagging of electrical information security situation analysis system[D]. Beijing: North China Electric Power University,2012.
[9] 劉余霞,呂虹,胡濤,等. 基于Bagging集成學(xué)習(xí)的字符識別方法[J]. 計算機工程與應(yīng)用,2012,48(33): 194-196,211. DOI: 10.3778/j.issn.1002-8331.1207-0203. LIU Y X,Lü H,HU T,et al. Research on character recognition based on Bagging ensemble learning [J]. Computer Engineering andApplications,2012,48(33): 194-196,211. DOI: 10.3778/j.issn. 1002-8331.1207-0203.
[10] 李雅芹,楊慧中. 一種基于Bagging算法的高斯過程集成建模方法[J]. 東南大學(xué)學(xué)報(自然科學(xué)版),2011,41(S1): 93-96. DOI: 10.3969/j.issn.1001-0505.2011.S1.020. LI Y Q,YANG H Z. Ensemble modeling method based on Bagging algorithm and Gaussian process [J]. Journal of Southeast University (Natural Science Edition),2011,41(S1): 93-96. DOI: 10.3969/j.issn. 1001-0505. 2011.S1.020.
[11] 亓慧,王文劍,郭虎升. 一種基于特征選擇的SVM Bagging集成方法 [J]. 小型微型計算機系統(tǒng),2014,35(11): 2533-2537. QI H,WANG W J,GUO H S. An SVM Bagging ensemble learning algorithm based on feature selection [J]. Journal of Chinese Computer Systems,2014,35(11): 2533-2537.
[12] 徐峻嶺,周毓明,陳林,等. 基于互信息的無監(jiān)督特征選擇 [J].計算機研究與發(fā)展,2012,49(2): 372-382. XU J L,ZHOU Y M,CHEN L,et al. An unsupervised feature selection approach based on mutual information [J]. Journal of Computer Research and Development,2012,49(2): 372-382.
[13] PENG H C,LONG F H,DING C. Feature selection based on mutual information: criteria of Max-Dependency,Max-Relevance,and Min-Redundancy [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8): 1226-1238. DOI: 10.1109/TPAMI. 2005.159.
[14] ESTEVEZ P A,TESMER M,PEREZ C A,et al. Normalized mutual information feature selection [J]. IEEE Transactions on Neural Networks,2009,20(2): 189-201. DOI: 10.1109/TNN.2008.2005601.
[15] 何志昆,劉光斌,趙曦晶,等. 高斯過程回歸方法綜述 [J]. 控制與決策,2013,28(8): 1121-1129,1137. DOI: 10.13195/j.kzyjc. 2013.08.018. HE Z K,LIU G B,ZHAO X J,et al. Overview of Gaussian process regression [J]. Control and Decision,2013,28(8): 1121-1129,1137. DOI: 10.13195/j.kzyjc.2013.08.018.
[16] NI W D,TAN S K,NG W J,et al. Moving-window GPR for nonlinear dynamic system modeling with dual updating and dual preprocessing [J]. Industrial and Engineering Chemistry Research,2012,51(18): 6416-6428. DOI: 10.1021/ie201898a.
[17] 雷瑜,楊慧中. 基于高斯過程和貝葉斯決策的組合模型軟測量 [J].化工學(xué)報,2013,64(12): 4434-4438. DOI: 10.3969/j.issn.0438-1157. 2013.12.025. LEI Y,YANG H Z. Combination model soft sensor based on Gaussian process and Bayesian committee machine [J]. CIESC Journal,2013,64(12): 4434-4438. DOI: 10.3969/j.issn.0438-1157. 2013.12.025.
[18] 韓敏,劉曉欣. 基于Copula熵的互信息估計方法 [J]. 控制理論與應(yīng)用,2013,30(7): 875-879. DOI: 10.7641/CTA.2013.21262. HAN M,LIU X X. Mutual information estimation based on Copula entropy [J]. Control Theory and Applications,2013,30(7): 875-879. DOI: 10.7641/CTA.2013.21262.
[19] 范雪莉,馮海泓,原猛. 基于互信息的主成分分析特征選擇算法[J]. 控制與決策,2013,28(6): 915-919. FAN X L,F(xiàn)ENG H H,YUAN M. PCA based on mutual information for feature selection [J]. Control and Decision,2013,28(6): 915-919.
[20] 洪智勇,劉燦濤,鄧寶林. 基于二次Renyi熵的正則化互信息特征選擇方法 [J]. 計算機應(yīng)用,2010,30(5): 1273-1276. HONG Z Y,LIU C T,DENG B L. Normalized mutual information feature selection method based on Renyi’s quadratic entropy [J]. Journal of Computer Applications,2010,30(5): 1273-1276.
Gaussian process ensemble soft-sensor modeling based on improved Bagging algorithm
SUN Maowei,YANG Huizhong
(Key Laboratory of Advanced Process Control for Light Industry of Ministry of Education,Jiangnan University,Wuxi 214122,Jiangsu,China)
Abstract:In order to improve the accuracy and generalization ability of soft-sensor for complex industrial process,a Gaussian process ensemble soft-sensor modeling algorithm based on the improved bagging algorithm is proposed. This algorithm uses Gaussian process regression algorithm to build base learners and the resample method of bagging algorithm to form training subsets of base learners. A criteria for feature ordering base on normalized mutual information is proposed with selecting input features of base learners,which can implement supervised feature perturbance in the ensemble modeling for the sake of improving the diversity between base learners. When estimating the output of the test sample according to the output variances given by Gaussian process base learners,several base learners are selected adaptively to calculate the output of ensemble model. A soft-sensor modeling simulation using the data from the reactors of industrial Bisphenol-A production units shows the effectiveness of the algorithm.
Key words:algorithm; soft-sensor; model; Gaussian process; reactors
DOI:10.11949/j.issn.0438-1157.20151223
中圖分類號:TP 274
文獻標(biāo)志碼:A
文章編號:0438—1157(2016)04—1386—06
基金項目:國家自然科學(xué)基金項目(61273070);江蘇省高校優(yōu)勢學(xué)科建設(shè)工程資助項目。
Corresponding author:Prof. YANG Huizhong,yhz_jn@163.com