劉瑞蘭,劉樹云,戎舟,江兵,龐宗強(qiáng)
?
基于雙閾值A(chǔ)daBoost算法的4-CBA含量軟測(cè)量建模
劉瑞蘭,劉樹云,戎舟,江兵,龐宗強(qiáng)
(南京郵電大學(xué)自動(dòng)化學(xué)院,江蘇南京 210003)
針對(duì)PX氧化過程中4-CBA含量無法在線測(cè)量的問題,提出了一種基于雙閾值更新樣本權(quán)重的AdaBoost算法,該算法以BP神經(jīng)網(wǎng)絡(luò)作為弱學(xué)習(xí)器,采用輪盤賭方法根據(jù)樣本權(quán)重在訓(xùn)練樣本集中選擇部分樣本訓(xùn)練弱學(xué)習(xí)器,采用上一輪弱學(xué)習(xí)器的訓(xùn)練相對(duì)誤差絕對(duì)值來更新所有訓(xùn)練樣本的權(quán)重,在此基礎(chǔ)上,用雙閾值對(duì)樣本誤差范圍進(jìn)行劃分,然后用不同的權(quán)重因子與原來的樣本權(quán)值相乘實(shí)現(xiàn)樣本權(quán)值的二次更新。該過程降低了含有大誤差的樣本的權(quán)值,增加了較大誤差的樣本的權(quán)值,從而減小了在下一輪訓(xùn)練過程中選到異常樣本的概率。分別采用5種不同的方法并用實(shí)測(cè)的工業(yè)數(shù)據(jù)建立了4-CBA含量軟測(cè)量模型,仿真結(jié)果表明用提出的改進(jìn)AdaBoost算法建立的4-CBA含量軟測(cè)量模型,其預(yù)測(cè)誤差小于其他方法建立的模型誤差。
AdaBoost算法;軟測(cè)量;雙閾值;異常樣本;4-CBA含量;輪盤賭方法
精對(duì)苯二甲酸(purified terephthalic acid,PTA)是制造聚酯纖維和化工生產(chǎn)中重要的有機(jī)原料。對(duì)羧基苯甲醛(4-carboxy-benzaldchydc,4-CBA)是PTA生產(chǎn)過程中對(duì)二甲苯(paraxylene,PX)氧化反應(yīng)的副產(chǎn)物,為保證產(chǎn)品純度一般工業(yè)要求其含量為2.0~3.5 g·kg-1[1]。但PTA生產(chǎn)過程中涉及多元熱力學(xué)平衡,工藝流程復(fù)雜,按照常規(guī)方法難以精確測(cè)量并控制4-CBA含量。而4-CBA含量是反應(yīng)過程中主要產(chǎn)品質(zhì)量的重要指標(biāo),當(dāng)4-CBA含量不在要求范圍時(shí)會(huì)嚴(yán)重影響產(chǎn)品的質(zhì)量,本文將采用軟測(cè)量技術(shù)來解決4-CBA含量不能在線測(cè)量的問題。
軟測(cè)量技術(shù)的核心是建立軟測(cè)量模型。目前,有關(guān)4-CBA含量的軟測(cè)量建模方法主要分為機(jī)理建模方法[2-5]和基于數(shù)據(jù)驅(qū)動(dòng)的建模方法[6-13]。文獻(xiàn)[2]提出了一個(gè)基于實(shí)驗(yàn)小試結(jié)果的PX氧化反應(yīng)機(jī)理模型,并對(duì)反應(yīng)溫度、催化劑濃度、停留時(shí)間、反應(yīng)器尾氧濃度對(duì)反應(yīng)物濃度的影響進(jìn)行了研究。文獻(xiàn)[3]在文獻(xiàn)[2]的基礎(chǔ)上,對(duì)模型中的某些參數(shù)設(shè)置裝置因數(shù),并提出了改進(jìn)的LM (Levenberg-Marquardt)阻尼非線性最小二乘算法和工廠實(shí)測(cè)數(shù)據(jù)來辨識(shí)裝置因數(shù)。由于非線性最小二乘法對(duì)初始值比較敏感,文獻(xiàn)[4]提出了用支持向量機(jī)提取特征樣本、采用粒子群算法辨識(shí)裝置因數(shù)的4-CBA含量機(jī)理軟測(cè)量模型,避免了傳統(tǒng)方法對(duì)初始點(diǎn)和樣本的依賴。文獻(xiàn)[5]采用簡(jiǎn)化的機(jī)理模型,根據(jù)4-CBA含量和氧化反應(yīng)器進(jìn)料流量與第一結(jié)晶器空氣流量的非線性函數(shù)關(guān)系,結(jié)合優(yōu)生優(yōu)選進(jìn)化算法對(duì)模型的參數(shù)進(jìn)行估計(jì)。文獻(xiàn)[6]采用3層BP人工神經(jīng)網(wǎng)絡(luò)并結(jié)合LM學(xué)習(xí)規(guī)則建立了4-CBA含量的軟測(cè)量模型;文獻(xiàn)[7]利用貝葉斯方法,結(jié)合多項(xiàng)式線性基函數(shù),建立了4-CBA含量的軟測(cè)量模型;文獻(xiàn)[8-9]提出用模糊神經(jīng)網(wǎng)絡(luò)方法建立了4-CBA含量的軟測(cè)量模型;文獻(xiàn)[10]和[11]都采用最小二乘支持向量機(jī)方法建立4-CBA含量的軟測(cè)量模型,并分別用參數(shù)的自動(dòng)調(diào)整方式和稀疏化的方式提高模型的泛化性能;文獻(xiàn)[12]和[13]分別采用模糊支持向量機(jī)和偏最小二乘結(jié)合前向神經(jīng)網(wǎng)絡(luò)方法建立4-CBA含量的軟測(cè)量模型。由于機(jī)理模型本身包含了過程本質(zhì)的信息,因此模型的泛化性能較好。但是對(duì)于復(fù)雜的過程,機(jī)理模型建立比較困難?;跀?shù)據(jù)驅(qū)動(dòng)的方法建立軟測(cè)量模型則需要大量高質(zhì)量的訓(xùn)練樣本和合適的算法,基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的BP神經(jīng)網(wǎng)絡(luò)方法和模糊神經(jīng)網(wǎng)絡(luò)方法可能會(huì)出現(xiàn)過擬合現(xiàn)象。
應(yīng)用于軟測(cè)量建模的訓(xùn)練樣本都來自工廠的實(shí)測(cè)過程數(shù)據(jù)和分析數(shù)據(jù),樣本不可避免會(huì)存在誤差,有些甚至含有粗大誤差,含有粗大誤差的樣本會(huì)嚴(yán)重影響模型準(zhǔn)確度。針對(duì)這一問題,本文提出了雙閾值A(chǔ)daBoost(adaptive Boosting)算法,該算法以一個(gè)隱含層、隱含層節(jié)點(diǎn)數(shù)為2的簡(jiǎn)單的BP神經(jīng)網(wǎng)絡(luò)作為弱學(xué)習(xí)器,采用輪盤賭方法根據(jù)樣本權(quán)重在總的訓(xùn)練樣本集中選擇部分樣本訓(xùn)練弱學(xué)習(xí)器,并用弱學(xué)習(xí)器的相對(duì)訓(xùn)練誤差的絕對(duì)值來更新每個(gè)訓(xùn)練樣本的權(quán)重。在此基礎(chǔ)上,縮小含有粗大誤差的訓(xùn)練樣本權(quán)重,放大一些具有較大隨機(jī)誤差的訓(xùn)練樣本權(quán)重,這樣可以防止在第2輪以后的弱學(xué)習(xí)器學(xué)習(xí)中每次都選中具有粗大誤差的訓(xùn)練樣本。最后將本文提出的方法建立了PX 氧化過程中4-CBA含量的軟測(cè)量模型,比較了不同方法建立的軟測(cè)量模型的訓(xùn)練精度和預(yù)測(cè)精度。
AdaBoost.R算法是由Freund等[14]提出的應(yīng)用到回歸問題中的方法,Drucker[15]在AdaBoost.R的基礎(chǔ)上提出了改進(jìn)的AdaBoost.R2算法驗(yàn)證了回歸問題的適用性。2004年,Solomatine等[16]在AdaBoost.R算法的基礎(chǔ)上通過設(shè)置閾值提出了AdaBoost.RT算法用于回歸預(yù)測(cè)。Baumann等[17]通過設(shè)定閾值限定分類器來排除誤差較大的分類器,在訓(xùn)練時(shí)間上作了改進(jìn),提出SEAdaBoost算法;袁雙等[18]結(jié)合PCA降維方法來提高AdaBoost算法的訓(xùn)練速度;查翔等[19]提出了一種以均方根相對(duì)誤差為衡量標(biāo)準(zhǔn)的自適應(yīng)調(diào)整閾值的方法,提高了預(yù)測(cè)精度題;Zhang等[20]以每個(gè)弱學(xué)習(xí)器的統(tǒng)計(jì)誤差來自動(dòng)調(diào)節(jié)閾值,提高了算法的精度和速度;胡國(guó)勝[21]將加權(quán)的支持向量機(jī)作為弱學(xué)習(xí)器應(yīng)用于電力負(fù)荷預(yù)測(cè),提高了預(yù)測(cè)精度;劉慶華等[22]在高速公路交通事件檢測(cè)時(shí)選用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)弱學(xué)習(xí)器,降低了誤報(bào)率。
AdaBoost算法原理是將多個(gè)弱學(xué)習(xí)器多次訓(xùn)練并組合成強(qiáng)學(xué)習(xí)器。強(qiáng)學(xué)習(xí)器預(yù)測(cè)精度高于單一弱學(xué)習(xí)器[23]。BPNN-AdaBoost算法是將BP神經(jīng)網(wǎng)絡(luò)作為弱學(xué)習(xí)器,反復(fù)訓(xùn)練得到一組弱學(xué)習(xí)器,最后將這組弱學(xué)習(xí)器組合得到強(qiáng)學(xué)習(xí)器,其訓(xùn)練步驟如下[24-25]。
(1)確定輸入輸出樣本,初始化BP神經(jīng)網(wǎng)絡(luò)參數(shù),并設(shè)置迭代次數(shù)。給定一組訓(xùn)練樣本(,),其中∈R,∈,為輸入,為輸出。
(2)樣本預(yù)處理。將輸入輸出數(shù)據(jù)歸一化。
(3)初始化訓(xùn)練樣本的權(quán)重。給每個(gè)訓(xùn)練樣本設(shè)置初始權(quán)重1=1,并給每個(gè)訓(xùn)練樣本指定一個(gè)初始概率
其中,為訓(xùn)練樣本個(gè)數(shù)。
(4)訓(xùn)練弱學(xué)習(xí)器。將單一BP神經(jīng)網(wǎng)絡(luò)作為弱學(xué)習(xí)器進(jìn)行訓(xùn)練,計(jì)算弱學(xué)習(xí)器的相對(duì)誤差絕對(duì)值
其中,f(x)為第個(gè)弱學(xué)習(xí)器在訓(xùn)練輸入x時(shí)的估計(jì)值,y為訓(xùn)練樣本的實(shí)際值。
(5)計(jì)算第個(gè)弱學(xué)習(xí)器的訓(xùn)練平均損失函數(shù)值
其中
(4)
(6)計(jì)算弱學(xué)習(xí)器權(quán)重系數(shù),依據(jù)弱學(xué)習(xí)器平均損失函數(shù)計(jì)算弱學(xué)習(xí)器權(quán)值,計(jì)算公式為
從式(2)、式(3)和式(5)可以看出,所有樣本的相對(duì)誤差絕對(duì)值越小,弱學(xué)習(xí)器平均損失函數(shù)也越小,弱學(xué)習(xí)器權(quán)值越大。
(7)更新樣本權(quán)重和概率。
(7)
(8)判斷循環(huán)次數(shù)是否達(dá)到次,若達(dá)到則結(jié)束循環(huán)向下執(zhí)行,否則返回步驟(4)。
(9)合成強(qiáng)學(xué)習(xí)器,訓(xùn)練結(jié)束后得到一組弱學(xué)習(xí)器,將其組合成強(qiáng)學(xué)習(xí)器,組合算式為
其中
2.1 弱學(xué)習(xí)器訓(xùn)練樣本的選擇
本文提出了如下的方法選擇BP神經(jīng)網(wǎng)絡(luò)弱學(xué)習(xí)器的訓(xùn)練樣本,當(dāng)=1時(shí),用全部訓(xùn)練樣本集中的樣本訓(xùn)練弱學(xué)習(xí)器。當(dāng)>1時(shí),依據(jù)每個(gè)樣本的概率()采用輪盤賭的方法對(duì)樣本進(jìn)行重采樣。輪盤賭方法是由Holland[26]提出用于遺傳算法中按概率選擇個(gè)體的隨機(jī)方法,該方法類似于賭博游戲中的賭輪盤,群體中的每個(gè)個(gè)體的適應(yīng)度按比例轉(zhuǎn)化為選中概率,根據(jù)該概率將輪盤分成與個(gè)體數(shù)目相同的扇區(qū),扇區(qū)的大小與概率呈正比。旋轉(zhuǎn)這個(gè)輪盤,直到輪盤停止時(shí),看指針停止在哪一塊上,就選中與它對(duì)應(yīng)的那個(gè)個(gè)體,個(gè)體概率越大,被選中的機(jī)會(huì)越大。這種方法的好處是在迭代過程中訓(xùn)練樣本不一樣。但是隨著迭代的進(jìn)行,誤差絕對(duì)值大的樣本對(duì)應(yīng)的()也越大,被抽取作為下一輪訓(xùn)練樣本的概率越大,最后每次都有可能選中這些誤差大的樣本,導(dǎo)致所有的弱學(xué)習(xí)器近似相同。
2.2 雙閾值更新樣本權(quán)重
本文對(duì)式(6)更新樣本權(quán)重公式進(jìn)行了如下改進(jìn)
其中1,2,3分別為不同的權(quán)重調(diào)整因子,為更新樣本的權(quán)重,1、2取值在1附近,且2>3=1>1。當(dāng)訓(xùn)練樣本的誤差()大于2倍相對(duì)誤差絕對(duì)值均值時(shí),這部分樣本可以看成是具有粗大誤差的樣本,通過乘一個(gè)小于1的調(diào)整因子,縮小樣本權(quán)重,減小該樣本在下一輪訓(xùn)練弱學(xué)習(xí)器時(shí)被選中的概率。當(dāng)訓(xùn)練樣本的誤差()位于1倍和2倍相對(duì)誤差絕對(duì)值均值之間時(shí),這部分樣本可以看成是具有較大隨機(jī)誤差的樣本,通過乘一個(gè)大于1的調(diào)整因子,放大樣本的權(quán)重,提高該樣本在下一輪訓(xùn)練弱學(xué)習(xí)器時(shí)被選中的概率。值得指出的是,式(9)改變了樣本的權(quán)重,從而改變了式(7)的概率+1(),但是這種改變有的增加,有的減小,在迭代過程中對(duì)平均損失函數(shù)值有一定的影響,最終會(huì)導(dǎo)致弱學(xué)習(xí)器的權(quán)重不會(huì)出現(xiàn)較大的分散度。
為了驗(yàn)證提出的雙閾值BPNN_AdaBoost算法的有效性,選用通用函數(shù)=sin(p)/(p)+作為例子,其中訓(xùn)練輸入樣本∈[-4,4],為[-0.03,0.03]均勻分布的噪聲。訓(xùn)練樣本中有5個(gè)點(diǎn)加了粗大誤差,如圖1所示。分別采用本文提出的方法和經(jīng)典的BPNN_AdaBoost算法進(jìn)行了仿真實(shí)驗(yàn),其中弱學(xué)習(xí)器個(gè)數(shù)為5,弱學(xué)習(xí)器的隱含層節(jié)點(diǎn)數(shù)為10,隱含層數(shù)為1。
圖1顯示了兩種方法得到的模型的擬合值和預(yù)測(cè)值與對(duì)應(yīng)的實(shí)際值和真實(shí)值之間的比較曲線。圖2顯示了模型輸出值與真實(shí)值之間的相對(duì)誤差比較。從圖中可以看出,雙閾值方法得到的模型更能逼近函數(shù)的真實(shí)值。
4.1 PX氧化過程簡(jiǎn)介
PX氧化過程[27-29]是在反應(yīng)溫度為190℃左右,壓力為1.258 MPa,在醋酸鈷、醋酸錳等催化劑和溴化物促進(jìn)劑作用下以醋酸為溶劑,用空氣中的氧氣將PX氧化為TA (terephthalic acid,對(duì)苯二甲酸),并將TA溶于水后經(jīng)過逐級(jí)降溫,再固液分離干燥后得到PTA (purified terephthalic acid,精對(duì)苯二甲酸)的過程。PX氧化反應(yīng)過程中會(huì)出現(xiàn)3種中間產(chǎn)物:對(duì)甲基苯甲醛(-tolualdehyde, TALD)、對(duì)甲基苯甲酸(-toluic acid, PT)和4-CBA。而4-CBA是氧化反應(yīng)的主要副產(chǎn)物,是衡量產(chǎn)品的重要指標(biāo)。
4-CBA含量無法用常規(guī)的傳感器在線測(cè)量,而是通過實(shí)驗(yàn)室分析化驗(yàn)出來,化驗(yàn)時(shí)間比較長(zhǎng);同時(shí)由于化驗(yàn)成本較高,其采樣間隔較長(zhǎng),比如某工廠對(duì)4-CBA含量的采樣周期為8 h,每天固定在0點(diǎn),8點(diǎn)和16點(diǎn)采樣,因此一天最多只有3個(gè)滯后數(shù)小時(shí)的4-CBA含量的分析值。
4.2 軟測(cè)量模型輸入變量的選擇
影響4-CBA含量的因素較多,綜合文獻(xiàn)[4,11,30]選擇氧化反應(yīng)器物料進(jìn)料流量、氧化反應(yīng)器催化劑濃度、氧化反應(yīng)器溶劑、氧化反應(yīng)器液位、氧化反應(yīng)器溫度、氧化反應(yīng)器尾氧含量、第一結(jié)晶器溫度、第一結(jié)晶器尾氧含量、第三冷凝器排出水量、第四冷凝器排出水量、反應(yīng)生成的二氧化碳含量和反應(yīng)生成的一氧化碳含量共12個(gè)過程變量作為軟測(cè)量模型的輸入變量。
4.3 工業(yè)數(shù)據(jù)仿真結(jié)果
本文采用的數(shù)據(jù)來源于某化工廠,共收集了196組樣本,樣本按時(shí)間順序排列,取前面120組樣本作為訓(xùn)練總樣本,后面76組樣本作為驗(yàn)證樣本。
采用BP神經(jīng)網(wǎng)絡(luò)作為雙閾值A(chǔ)daBoost算法的弱學(xué)習(xí)器,所有神經(jīng)網(wǎng)絡(luò)弱學(xué)習(xí)器只有一個(gè)隱含層,輸入層節(jié)點(diǎn)個(gè)數(shù)為12,為了減少弱學(xué)習(xí)器的規(guī)模,選擇隱含層節(jié)點(diǎn)個(gè)數(shù)為2,弱學(xué)習(xí)器的個(gè)數(shù)為5。弱學(xué)習(xí)器的初始值均隨機(jī)賦值,采用輪盤賭方法根據(jù)樣本權(quán)重在訓(xùn)練樣本集中選擇80%以上的樣本訓(xùn)練弱學(xué)習(xí)器。1和2根據(jù)經(jīng)驗(yàn)分別選為0.78和1.1。
本文采用相對(duì)誤差絕對(duì)值的平均值作為模型的性能指標(biāo),具體計(jì)算公式為
式中,y為實(shí)際值,y′為估計(jì)值,是樣本個(gè)數(shù)。
為了驗(yàn)證本文提出的雙閾值BPNN_AdaBoost算法的性能,分別比較了雙閾值非輪盤賭BPNN_AdaBoost算法模型、非雙閾值輪盤賭BPNN_AdaBoost算法模型、非雙閾值非輪盤賭的BPNN_AdaBoost算法模型和單一的BP神經(jīng)網(wǎng)絡(luò)模型的性能,其中非輪盤賭表示所有訓(xùn)練樣本都參與弱學(xué)習(xí)器的學(xué)習(xí)。單一BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)為輸入層節(jié)點(diǎn)數(shù)12,隱含層節(jié)點(diǎn)數(shù)10。
在弱學(xué)習(xí)器的學(xué)習(xí)過程中,第3、第6、第103和第105號(hào)訓(xùn)練樣本的相對(duì)誤差絕對(duì)值均大于2倍的平均相對(duì)誤差。在沒有使用雙閾值改變樣本權(quán)重的BPNN_AdaBoost算法中,每次都被選中,而在雙閾值改變樣本權(quán)重的BPNN_AdaBoost算法中,只有1次被選中。
表1給出了不同方法的相對(duì)誤差絕對(duì)值的平均值,從表中可以看出,本文提出的雙閾值結(jié)合輪盤賭選擇訓(xùn)練樣本的BPNN_AdaBoost算法建立的軟測(cè)量模型的預(yù)測(cè)誤差(PE)最小,訓(xùn)練誤差(TE)最大,但是兩者數(shù)值較接近。這是因?yàn)殡p閾值法減小了粗大樣本的權(quán)重,在使用輪盤賭重采樣時(shí),這部分樣本被選中的概率變小,在5個(gè)弱學(xué)習(xí)器中,只有2個(gè)弱學(xué)習(xí)器使用了含有粗大誤差的樣本,由于含有粗差的樣本只用于少量的弱學(xué)習(xí)器的學(xué)習(xí),使得最終模型的預(yù)測(cè)誤差較小,沒有出現(xiàn)過擬合現(xiàn)象。從表1中還可以看出,輪盤賭方式選擇訓(xùn)練樣本時(shí)訓(xùn)練誤差都比較大,這是因?yàn)椴捎幂啽P賭的方式選擇訓(xùn)練樣本時(shí),實(shí)際上是在給定的120組訓(xùn)練樣本中依據(jù)每個(gè)樣本的權(quán)值選擇80%的樣本作為每輪弱學(xué)習(xí)器的訓(xùn)練樣本,沒有選中的樣本不參與弱學(xué)習(xí)器的訓(xùn)練,也就是說采用輪盤賭的方法實(shí)質(zhì)上是將總的訓(xùn)練樣本分成了訓(xùn)練樣本子集和測(cè)試樣本子集,因此總的訓(xùn)練誤差包含訓(xùn)練樣本子集的擬合誤差和測(cè)試樣本子集的測(cè)試誤差,導(dǎo)致總的訓(xùn)練誤差比較大。
從表1可以看出采用輪盤賭的方式訓(xùn)練的軟測(cè)量模型預(yù)測(cè)誤差相比而言較小。雖然從模型規(guī)模上看,本文由5個(gè)BP弱學(xué)習(xí)器組成的BPNN_AdaBoost強(qiáng)學(xué)習(xí)器軟測(cè)量模型(每個(gè)弱學(xué)習(xí)器結(jié)構(gòu)為12-2-1)和一個(gè)12-10-1的單一BP神經(jīng)網(wǎng)絡(luò)軟測(cè)量模型一樣,但是本文提出的方法建立的軟測(cè)量模型的預(yù)測(cè)效果是最好的。
表1 不同方法建立的4-CBA軟測(cè)量模型結(jié)果比較
BPNN_AdaBoost也可以看成是一種串行訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)的方法,在網(wǎng)絡(luò)規(guī)模相同的情況下,串行方法訓(xùn)練時(shí)間長(zhǎng),但是模型的預(yù)測(cè)效果與單一的BP神經(jīng)網(wǎng)絡(luò)相比要好得多。圖3分別顯示了本文提出的雙閾值方法建立的4-CBA含量軟測(cè)量模型和單一BP神經(jīng)網(wǎng)絡(luò)軟測(cè)量模型的擬合值、預(yù)測(cè)值和對(duì)應(yīng)的真實(shí)值的比較曲線。
本文以小規(guī)模BP神經(jīng)網(wǎng)絡(luò)為弱學(xué)習(xí)器,采用雙閾值BPNN_AdaBoost算法,通過增加調(diào)整因子的方式二次更新訓(xùn)練樣本的權(quán)值,使得模型訓(xùn)練不再僅專注誤差大的樣本。采用輪盤賭方法在訓(xùn)練樣本集中選擇部分樣本訓(xùn)練弱學(xué)習(xí)器,增加了弱學(xué)習(xí)器的多樣性。最后用本文提出的方法建立了4-CBA含量的軟測(cè)量模型,用工業(yè)數(shù)據(jù)仿真結(jié)果表明,用本文提出的方法與單一的BP神經(jīng)網(wǎng)絡(luò)模型相比,在不增加模型規(guī)模的情況下,預(yù)測(cè)效果提高了幾乎一個(gè)百分點(diǎn)。
[1] 冒永生, 楊開香, 王麗軍. PTA裝置氧化過程實(shí)時(shí)優(yōu)化與先進(jìn)控制[J]. 化工自動(dòng)化及儀表, 2012, 39(9): 1128-1132. MAO Y S, YANG K X, WANG L J. Real-time optimization and advanced control for pta oxidation process[J]. Control & Instruments in Chemical Industry, 2012, 39(9): 1128-1132.
[2] 王麗軍. PX氧化動(dòng)力學(xué)研究及氧化反應(yīng)器模擬[D]. 杭州: 浙江大學(xué), 2001. WANG L J. Studies on the kinetics of-xylene oxidation oxidation and the reactor simulation[D]. Hangzhou: Zhejiang University, 2001.
[3] 牟盛靜. 石化工業(yè)過程建模與優(yōu)化若干問題研究[D]. 杭州: 浙江大學(xué), 2004. MOU S J. The studies of process modeling and optimization in petrochemical industry[D]Hangzhou: Zhejiang University, 2004.
[4] 劉瑞蘭, 牟盛靜, 蘇宏業(yè), 等. 基于支持向量機(jī)和粒子群算法的軟測(cè)量建模[J]. 控制理論與應(yīng)用, 2006, 23(6): 895-900. LIU R L, MOU S J, SU H Y,Modeling soft sensor based on support vector machine and particle swarm optimization algorithms[J]. Control Theory and Applications, 2006, 23(6): 895-900
[5] 顏學(xué)峰, 余娟, 錢鋒. 基于自適應(yīng)偏最小二乘回歸的初頂石腦油干點(diǎn)軟測(cè)量[J]. 化工學(xué)報(bào), 2005, 56(8): 1151-1156. YANG X F, YU J, QIAN F. An evolution algorithm with select-best and prepotency operator and parameter estimation of 4-CBA model[J]. Journal of Chemical Industry and Engineering(China), 2005, 56(8): 1151-1156.
[6] 胡永有, 古勇, 蘇宏業(yè), 等. 基于BPANN的4-CBA軟測(cè)量模型研究[J]. 儀器儀表學(xué)報(bào), 2003, 24(3): 226-230. HU Y Y, GU Y, SU H Y,The research of 4-CBA soft- sensor model based on BPANN[J]. Chinese Journal of Scientific Instruments, 2003, 24(3): 226-230.
[7] 陳渭泉, 劉瑞蘭, 牟盛靜, 等. 基于貝葉斯方法的4-CBA含量的軟測(cè)量研究[J]. 化工自動(dòng)化及儀表, 2003, 30(5): 49-51. CHEN W Q, LIU R L, MOU S J,The research on soft sensor of the concentration of 4-CBA based on Bayesian approach[J]. Control & Instruments in Chemical Industry, 2003, 30(5): 49-51.
[8] LIU R L, SU H Y, MOU S J,. Fuzzy neural network model of 4-CBA concentration for industrial PTA oxidation process[J]. Chinese Journal of Chemical Engineering, 2004, 12(2): 234-239.
[9] DU W L, QIAN F, LIU M D,. 4-CBA soft sensor based on fuzzy CMAC neural networks[J]. Chinese Journal of Chemical Engineering, 2005, 13(3): 437-440.
[10] 鄭小霞, 錢鋒. 基于證據(jù)框架的最小二乘支持向量機(jī)在精對(duì)苯二甲酸生產(chǎn)中的應(yīng)用[J]. 化工學(xué)報(bào), 2006, 57(7): 1612-1616. ZENG X X, QIAN F. Application of least squares support vector machine within evidence framework in PTA process[J]. Journal of Chemical Industry and Engineering(China), 2006, 57(7): 1612- 1616.
[11] 劉瑞蘭, 徐艷, 戎舟. 基于稀疏最小二乘支持向量機(jī)的軟測(cè)量建模[J]. 化工學(xué)報(bào), 2015, 66(4): 1402-1407. LIU R L, XU Y, RONG Z. Modeling soft sensor based on sparse least square support vector machine[J]. CIESC Journal, 2015, 66(4): 1402-1407.
[12] ZANG Y, SU H Y, LIU R L. Fuzzy support vector regression model of 4-CBA concentration for industrial PTA oxidation process[J]. Chinese Journal of Chemical Engineering, 2005, 13(5): 642-648.
[13] 顏學(xué)峰. 基于MLFN-PLSR的PX氧化反應(yīng)組合建模方法[J]. 化工學(xué)報(bào), 2007, 58(1): 149-154. YAN X F. Delvelop-xylene oxidation reaction model based on MLFN_PLSR[J]. Journal of Chemical Industry and Engineering(China), 2007, 58(1): 149-154 .
[14] FREUND Y, SCHAPIRE R E. A decision-theoretic generation of online learning and an application to Boosting[J]. Journal of Computer and System Science, 1997, 55(1): 119-139.
[15] DRUCKER H. Improving regressor using Boosting techniques[C]//Proc. of the 13th Annual Conf. on Computational Learning Theory. San Francisco, 1997: 208-219.
[16] SOLOMATINE D P, SHRESTHA D L. AdaBoost.RT: a boosting algorithm for regression problem[C]//Proc. of the Int. Joint Conf. on Networks. Budapes, 2004: 1163-1168.
[17] BAUMANN F, ERNST K, EHLERS A,. Symmetry enhanced AdaBoost[C]//International Conference on Advances in Visual Computing. Springer-Verlag,2010: 286-295.
[18] 袁雙, 呂賜興. 基于PCA改進(jìn)的快速AdaBoost算法研究[J]. 科學(xué)技術(shù)與工程, 2015, 15(29): 62-67. YUAN S, Lü C X. Fast AdaBoost algorithm based on improved PCA[J]. Science Technology and Engineerring, 2015, 15 (29): 62-67.
[19] 查翔, 倪世宏, 張鵬. 關(guān)于AdaBoost.RT集成算法時(shí)間序列預(yù)測(cè)研究[J]. 計(jì)算機(jī)仿真, 2015, 32(9): 391-395. ZHA X, NI S H, ZHANG P. AdaBoost.RT intergrating prediction of time series based on adaptive and dynamic threshold[J]. Computer Simulation, 2015, 32(9): 391-395.
[20] ZHANG P B, YANG Z X. A novel AdaBoost framework with robust threshold and structural optimization[J]. IEEE Trans Cybem., 2016, (99): 1-13.
[21] 胡國(guó)勝. 基于加權(quán)支持向量機(jī)與AdaBoost集成的預(yù)測(cè)模型研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2012, 29(12): 280-281. HU G S. Study on forecasting model based on WSVR and AdaBoost[J]. Computer Applications and Software, 2012, 29(12): 280-281.
[22] 劉慶華, 丁文濤, 涂娟娟, 等. 優(yōu)化BP_AdaBoost算法及其交通事件檢測(cè)[J]. 同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015, 43(12): 1829-1833. LIU Q H, DING W T, TU J J,Improved BP_AdaBoost algorithm and its application in traffic incident detection[J]. Journal of Tongji University(Natural Science), 2015, 43(12): 1829-1833.
[23] HU W M, HU W, MAYBNK S. AdaBoost-based algorithm for network intrusion detection[J]. Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on, 2008, 238(2): 577-583.
[24] SHRESTHA D L, SOLOMATINE D P. Experiments with AdaBoost. RT, an improved boosting scheme for regression[J]. Neural Computation, 2006, 18(7): 1678-1710.
[25] DEVON K B, SVEN F C. A comparison of AdaBoost algorithms for time series forecast combination[J]. International Journal of Forecasting, 2016, 32(4): 1103-1119.
[26] HOLLAND J H. Adaptation in Natural and Aritificial Systems[M]. Ann. Arbor: University of Michigan Press, 1992: 126-137.
[27] 李希, 謝剛, 華衛(wèi)琦. PTA技術(shù)國(guó)產(chǎn)化的主要化學(xué)工程問題及其研究思路[J]. 聚酯工業(yè), 2001, 14(1): 1-7. LI X, XIE G, HUA W Q. Key problems and research program for PTA process domestic development[J]. Polyester Industry, 2001, 14(1): 1-7.
[28] 尹云華, 向陽, 刁磊, 等. PTA生產(chǎn)工藝及技術(shù)的研究進(jìn)展[J]. 化工工業(yè)與工程技術(shù), 2011, 32(5): 33-39. YIN Y H, XIANG Y, DIAO L,Research progress of PTA production technology[J]. Journal of Chemical Industry &Engineering, 2011, 32(5): 33-39.
[29] 黃浩. 中國(guó)PTA行業(yè)的發(fā)展和現(xiàn)狀[J]. 聚酯工業(yè), 2016, 29(1): 1-2. HUANG H. Development and current situation of PTA industry in China[J]. Polyester Industry, 2016, 29(1): 1-2.
[30] 劉瑞蘭, 戎舟. 工業(yè)PX氧化過程4-CBA含量的軟測(cè)量[J]. 信息與控制, 2014, 43(3): 339-343. LIU R L, RONG Z. A soft sensor for 4-CBA soncentration in industrial PX oxidation processes[J]. Information and Control, 2014, 43(3): 339-343.
Modeling soft sensor of 4-CBA concentration by AdaBoost algorithm with dual threshold technique
LIU Ruilan, LIU Shuyun, RONG Zhou,JIANG Bing,PANG Zongqiang
(College ofAutomation, Nanjing University of Post & Telecomomunication, Nanjing 210003, Jiangsu, China)
A modified AdaBoost algorithm with updating sample weight by dual threshold technique was proposed to model a soft sensor for estimating 4-CBA concentration, which could not be measured on-line in PX oxidation process. In this method, weak learners of BP neural networks were trained by part of samples selected by their weights and roulette wheel mechanism. The absolute values of last round training relative errors in weak learners were adopted to update weights of all training samples. Then, a second round updating on sample weights were completed by the product of original sample value and its weighting factor, which was defined by ratio of error range over dual thresholds. In the second updating process, weights were decreased for samples with gross errors but were increased for those with medium error. Consequently, probability of selecting outliers was reduced in following iteration of the training process. Five different methods were applied to model soft sensor of 4-CBA concentration with industrial data. Simulation results showed that the modified AdaBoost algorithm can improve soft sensor performance of 4-CBA concentration with predicting error less than that of other models.
AdaBoost algorithm; soft sensor; dual threshold technique; outliers; 4-CBA concentration; roulette wheel mechanism
10.11949/j.issn.0438-1157.20161609
TP 274
A
0438—1157(2017)05—2009—07
劉瑞蘭(1972—),女,博士,副教授。
國(guó)家自然科學(xué)基金項(xiàng)目(61203213)。
2016-11-14收到初稿,2017-02-08收到修改稿。
2016-11-14.
LIU Ruilan, liurl@njupt.edu.cn
supported by the National Natural Science Foundation of China (61203213).