童宗歌,陳夕松,王 鵬,胡云云
(1.東南大學(xué)自動化學(xué)院,南京 210096;2.南京富島信息工程有限公司)
煉化企業(yè)常采用原油與常壓蒸餾塔側(cè)線的輕質(zhì)油進(jìn)行換熱,經(jīng)常存在原油換熱器內(nèi)漏問題,特別是近年來我國加工的高硫高酸等原油日益增多[1],因腐蝕換熱管道導(dǎo)致原油污染側(cè)線輕質(zhì)油的現(xiàn)象更加嚴(yán)重。一般來說,不同輕質(zhì)油側(cè)線產(chǎn)品根據(jù)其性質(zhì)以及用途的不同,對于泄漏原油含量的容忍度也不一樣,例如相較于常二線餾分,石腦油對原油含量要求更低,原油質(zhì)量分?jǐn)?shù)甚至達(dá)10 μg/g以下。
輕質(zhì)油中原油檢測限越低,檢測速度越快,意味著可以越早地發(fā)現(xiàn)換熱裝置損壞并及時維護(hù),促進(jìn)煉化企業(yè)安全生產(chǎn)?,F(xiàn)有的原油泄漏監(jiān)測技術(shù)主要包括人工化驗法和光譜學(xué)分析法。人工化驗法雖然精確,但速度慢,不能及時發(fā)現(xiàn)泄漏并維護(hù)。常用的光譜學(xué)檢測方法有近紅外光譜法和拉曼光譜法,近紅外光譜對于痕量原油的檢測限為mg/g級,而此時油品雜質(zhì)已經(jīng)可以通過色澤明顯分辨。拉曼光譜基于拉曼散射效應(yīng),通過記錄拉曼散射光頻移可以得到和近紅外光譜類似的結(jié)構(gòu)信息[2]。拉曼散射效應(yīng)往往伴隨著熒光效應(yīng),拉曼光譜同時記錄著拉曼信號和熒光信號,而熒光信號的強(qiáng)度遠(yuǎn)超拉曼信號。在拉曼光譜檢測過程中,熒光信號往往被視為背景噪聲,需要使用物理方法、化學(xué)方法以及計算機(jī)算法消除拉曼譜圖中的熒光信號[3]。因此,本研究利用原油中重組分熒光效應(yīng)顯著的特點(diǎn)[4],實(shí)現(xiàn)拉曼信號分析輕質(zhì)油組分的同時利用熒光信號進(jìn)行痕量級別原油泄漏檢測。
熒光信號強(qiáng)度和痕量原油含量高度相關(guān),使用偏最小二乘法建立相應(yīng)的預(yù)測模型。建模使用的數(shù)據(jù)通常為經(jīng)過預(yù)處理的原始光譜數(shù)據(jù),光譜數(shù)據(jù)的波數(shù)點(diǎn)通常為數(shù)千個,高維數(shù)據(jù)會影響模型的運(yùn)算復(fù)雜度和收斂速率。此外,全波段光譜除了熒光信息也包含大量的噪聲,而熒光信息在波長上的分布并不均勻,由此導(dǎo)致偏最小二乘法的預(yù)測值偏移。煉化企業(yè)對于不同的側(cè)線產(chǎn)物中混入痕量原油的容忍度不同,對于換熱器維護(hù)的警報限也是因廠而異,因此,模型應(yīng)當(dāng)滿足對不同區(qū)間痕量原油的監(jiān)測并最大程度提升模型的預(yù)測精度。本研究在偏最小二乘法的基礎(chǔ)上使用3種特征提取優(yōu)化算法,即遺傳算法、隨機(jī)蛙跳算法和競爭自適應(yīng)重加權(quán)采樣算法,對拉曼光譜的譜段信息進(jìn)行提取,優(yōu)化模型的預(yù)測性能,以滿足煉化企業(yè)對痕量原油檢測指標(biāo)的要求。
本試驗使用上海如海光電科技有限公司生產(chǎn)的拉曼光譜儀,型號為SEED3000PLUS。該儀器包括光譜分析儀本體、785 nm拉曼探頭及光纖(RPB-785-1.5T-FS)、785 nm激光發(fā)射器以及拉曼信號增強(qiáng)支架(SH-L-EN)。
采用中國石化某企業(yè)3種常壓蒸餾塔塔頂石腦油與9種性質(zhì)不同的原油進(jìn)行調(diào)合,原油質(zhì)量分?jǐn)?shù)為100 μg/g,所得混合油樣品的拉曼光譜趨勢相近,譜峰位置相同,區(qū)別在于不同原油的拉曼譜峰強(qiáng)度不同。因此,針對痕量原油檢測,采用一種石腦油調(diào)配一種原油可以反映不同石腦油和不同原油組合的掃譜結(jié)果。
根據(jù)上述試驗結(jié)果選擇一組具有代表性的石腦油和原油進(jìn)行調(diào)合。由于不同煉化企業(yè)以及不同側(cè)線產(chǎn)物對于痕量原油的檢測要求不同,為了覆蓋不同的檢測范圍以及最大程度驗證拉曼光譜的檢測性能,配制原油質(zhì)量分?jǐn)?shù)分別為1,2,3,4,5,10,20,30,40,50,60,70,80,90,100 μg/g的原油與石腦油混合油樣品,其中每個原油含量配6組樣品,共計90個混合油樣品。使用拉曼光譜儀掃描90個樣品波數(shù)范圍為50~3 260 cm-1的拉曼光譜,試驗條件為:室溫,功率350 W,積分時間90 ms,平均采樣次數(shù)10次。將90個混合油樣品的拉曼光譜采用Savitzky-Golay 3次11點(diǎn)卷積平滑算法進(jìn)行平滑處理,處理后的光譜如圖1所示。
圖1 混合油樣品經(jīng)過平滑處理的拉曼光譜
在光譜分析過程中,將數(shù)據(jù)集劃分為校正集和測試集,校正集用于建立標(biāo)準(zhǔn)預(yù)測模型,測試集用于檢測模型的泛化能力。數(shù)據(jù)集的劃分對模型性能具有決定性影響,因此劃分中應(yīng)盡量保證數(shù)據(jù)選取的隨機(jī)性和代表性。
本試驗數(shù)據(jù)是人工調(diào)合油品的離散拉曼光譜數(shù)據(jù),由于調(diào)合油品按照15個固定原油含量配制,而拉曼光譜強(qiáng)度與痕量原油含量呈正相關(guān)關(guān)系,所得光譜數(shù)據(jù)具有相對固定的分布。因此在進(jìn)行數(shù)據(jù)集劃分時,為保證測試集分布均勻,按照以下方式采集測試集:①將數(shù)據(jù)集按照15個痕量原油含量分組,每組具有6個相同痕量原油含量的拉曼光譜數(shù)據(jù);②在每組數(shù)據(jù)中隨機(jī)抽取1個數(shù)據(jù)加入測試集,測試集由15個代表不同痕量原油含量的光譜數(shù)據(jù)組成。
對數(shù)據(jù)集進(jìn)行主成分(PCA)降維,得到第一主成分的貢獻(xiàn)率為93.25%,第二主成分的貢獻(xiàn)率為1.12%,足以代表數(shù)據(jù)集的關(guān)鍵信息。PCA降維下校正集與測試集二維分布見圖2。由圖2可知,測試集數(shù)據(jù)分布均勻。
圖2 PCA降維下校正集與測試集二維分布●—校正集; —測試集
偏最小二乘法是主成分回歸、典型相關(guān)分析與多元線性回歸的有機(jī)結(jié)合。該方法使用已知訓(xùn)練集的油品光譜陣和性質(zhì)陣計算出光譜采樣波數(shù)點(diǎn)與油品性質(zhì)的線性關(guān)系,進(jìn)而對待測油品性質(zhì)進(jìn)行預(yù)測。偏最小二乘法吸取了主成分回歸降維提取關(guān)鍵信息的優(yōu)點(diǎn),同時加強(qiáng)了光譜陣和性質(zhì)陣之間的聯(lián)系,從而保證獲得最佳的校正模型[5]。
使用偏最小二乘法對全波數(shù)段建模,根據(jù)其建模標(biāo)準(zhǔn),75個數(shù)據(jù)建模時主成分個數(shù)不得超過12個。因此,主成分?jǐn)?shù)取1~12之間的整數(shù),交叉驗證采用5折交叉驗證法,計算使用不同主元數(shù)的交叉驗證均方根誤差(RMSECV),最終選擇5個主成分。
遺傳算法是一種隨機(jī)全局搜索優(yōu)化方法,它模擬了自然選擇和遺傳中發(fā)生的復(fù)制、交叉和變異等現(xiàn)象。從初始種群出發(fā),通過隨機(jī)選擇、交叉和變異操作,產(chǎn)生一群更適合環(huán)境的個體,使群體進(jìn)化到搜索空間中越來越好的區(qū)域,通過不斷繁衍進(jìn)化,最后收斂到一群最適應(yīng)環(huán)境的個體,從而求得問題的優(yōu)化解[6]。根據(jù)遺傳算法的機(jī)理,染色體的基因過多不利于模型收斂,因此將光譜中波數(shù)50~3 260 cm-1的波段劃分成8個波數(shù)點(diǎn)一組的小區(qū)間,共計256個區(qū)間。初始種群個體數(shù)設(shè)置為200個,迭代次數(shù)設(shè)置為200次,染色體交叉概率為0.8,考慮到收斂速率和模型精度,將染色體基因變異概率設(shè)置為0.5,每個染色體可能變異的基因個數(shù)為50個。作為算子的偏最小二乘法回歸模型的主成分?jǐn)?shù)為5,驗證方法為 5折交叉驗證法?;谶z傳算法對譜段進(jìn)行優(yōu)化,統(tǒng)計每次迭代最優(yōu)個體基因,并根據(jù)每組基因出現(xiàn)的次數(shù)進(jìn)行降序排列;對特征變量從前到后進(jìn)行區(qū)間合并,并統(tǒng)計不同數(shù)量的波數(shù)段建模的RMSECV,結(jié)果如圖3所示。由圖3可知,該模型在前63個區(qū)間合并的光譜譜段建模的RMSECV最小,因此將該譜段光譜作為最優(yōu)譜段,共有504個波數(shù)點(diǎn)。
圖3 基于遺傳算法的譜段優(yōu)化結(jié)果
隨機(jī)蛙跳算法結(jié)合了隨機(jī)搜索和適者生存的思想,根據(jù)預(yù)設(shè)的隨機(jī)策略更新搜索子集,并統(tǒng)計每次迭代搜索到的最優(yōu)子集選擇的譜段,最后根據(jù)譜段出現(xiàn)的概率確定最終選取的譜段范圍[7]。將拉曼光譜中的每個波數(shù)點(diǎn)均作為特征變量,由于樣本個體的特征變量有2 048個,搜索空間很大,因此需要很高的迭代次數(shù)以保證該方法能夠收斂預(yù)測性能良好的譜段,綜合考慮預(yù)測精度和計算成本,并經(jīng)過試驗求證,最終將迭代次數(shù)設(shè)置為10 000次,初始訓(xùn)練集的變量數(shù)設(shè)置為10?;陔S機(jī)蛙跳算法對譜段進(jìn)行優(yōu)化,得到迭代10 000次各特征變量出現(xiàn)的頻率,根據(jù)頻率對特征變量進(jìn)行降序排列;對特征變量從前到后進(jìn)行區(qū)間合并,并統(tǒng)計不同數(shù)量的特征變量對模型預(yù)測能力的影響,結(jié)果見圖4。其中,作為算子的偏最小二乘法回歸模型的主成分?jǐn)?shù)為5,驗證方法為 5折交叉驗證法。由圖4可知,該模型的RMSECV隨著合并區(qū)間的擴(kuò)張先變小后增大。即隨著合并區(qū)間的擴(kuò)張,模型的預(yù)測性能提高;但當(dāng)擴(kuò)張到第93個波數(shù)點(diǎn)之后,繼續(xù)擴(kuò)張給模型引入了噪聲,模型的預(yù)測性能下降。因此,選擇排序后的前93個波數(shù)點(diǎn)作為最優(yōu)譜段。最優(yōu)譜段波數(shù)點(diǎn)分布如圖5所示。由圖5可知,所選波數(shù)點(diǎn)集中在拉曼波峰附近。
圖4 基于隨機(jī)蛙跳算法的譜段優(yōu)化結(jié)果
圖5 基于隨機(jī)蛙跳算法的最優(yōu)譜段波數(shù)點(diǎn)分布 —拉曼光譜; ■—被選擇的波數(shù)點(diǎn)
圖6 基于競爭自適應(yīng)重加權(quán)采樣算法的譜段優(yōu)化結(jié)果
競爭自適應(yīng)重加權(quán)采樣算法是結(jié)合蒙特卡洛采樣和重加權(quán)采樣方法,篩選出線性回歸模型中回歸系數(shù)絕對值大的特征,淘汰回歸系數(shù)絕對值小的特征,并通過交叉驗證評價經(jīng)過篩選重建后的模型預(yù)測性能[8]。該方法能夠搜索出與預(yù)測性質(zhì)最相關(guān)的特征變量,對應(yīng)光譜分析方向就是光譜的采樣波數(shù)點(diǎn),使用篩選后的光譜波數(shù)段建模,將提高模型的預(yù)測性能[9]。該方法在迭代過程中不斷淘汰權(quán)重較小的波數(shù)點(diǎn)直到波數(shù)點(diǎn)個數(shù)為0,在這個過程中監(jiān)測模型RMSECV的變化,并找到最優(yōu)的波數(shù)段。設(shè)置采樣次數(shù)為100次,作為算子的偏最小二乘法回歸模型的主成分?jǐn)?shù)為6,驗證方法為5折交叉驗證法。基于競爭自適應(yīng)重加權(quán)采樣算法的譜段優(yōu)化結(jié)果見圖6。由圖6可知:隨著迭代次數(shù)的增加,篩選的波數(shù)點(diǎn)數(shù)量減少;在迭代40次后,RMSECV呈現(xiàn)震蕩下降的狀態(tài),在迭代64次時最小,隨后又呈現(xiàn)出震蕩上升的趨勢;在迭代的過程中不斷有線性回歸模型的系數(shù)被歸零,即對應(yīng)的波數(shù)點(diǎn)被淘汰。在迭代初期,淘汰的波數(shù)點(diǎn)往往代表了數(shù)據(jù)的噪聲,模型的性能隨著噪聲過濾得到了提升;在迭代64次之后,一些含有預(yù)測信息的波數(shù)點(diǎn)也被淘汰,模型由于數(shù)據(jù)信息量不足而性能劣化。因此,選取RMSECV最小的第64次迭代使用的波數(shù)點(diǎn)作為最優(yōu)譜段,波數(shù)點(diǎn)的分布如圖7所示。
圖7 基于競爭自適應(yīng)重加權(quán)采樣算法的最優(yōu)譜段波數(shù)點(diǎn)分布 —拉曼光譜; ■—被選擇的波數(shù)點(diǎn)
分別采用全波段和3種選譜方法優(yōu)化后的譜段進(jìn)行偏最小二乘法建模,模型預(yù)測結(jié)果見圖8。由圖8可知:單獨(dú)使用偏最小二乘法建模(全波段法),模型的預(yù)測值接近實(shí)際值,但是仍有一定的偏差,需要進(jìn)一步優(yōu)化;3種選譜優(yōu)化方法中,競爭自適應(yīng)重加權(quán)采樣算法在1~5 μg/g的低原油質(zhì)量分?jǐn)?shù)區(qū)間以及10~100 μg/g的高原油質(zhì)量分?jǐn)?shù)區(qū)間的預(yù)測值偏差均明顯減小,能夠精確檢測質(zhì)量分?jǐn)?shù)為1~100 μg/g的痕量原油。因此,利用拉曼光譜的熒光背景去檢測煉化企業(yè)換熱設(shè)備痕量原油泄漏是完全可行的。
圖8 各算法模型的預(yù)測結(jié)果
全波段和3種選譜優(yōu)化算法的模型指標(biāo)如表1所示。由表1可知:全波段法使用2 048個波數(shù)點(diǎn)數(shù)據(jù)進(jìn)行建模;遺傳算法對波數(shù)點(diǎn)分區(qū)間進(jìn)行搜索優(yōu)化,優(yōu)選了504個波數(shù)點(diǎn);隨機(jī)蛙跳算法優(yōu)選了93個波數(shù)點(diǎn);競爭自適應(yīng)重加權(quán)采樣算法優(yōu)選了25個波數(shù)點(diǎn),其對波數(shù)點(diǎn)個數(shù)的篩選效果最為明顯。從模型的預(yù)測性能上看,3種選譜優(yōu)化方法均提高了模型預(yù)測精度,其中競爭自適應(yīng)重加權(quán)采樣算法的預(yù)測精度最高,預(yù)測均方根誤差(RMSEP)為1.567 4 μg/g,相比于全波段法,降低了27.99%。因此,競爭自適應(yīng)重加權(quán)采樣算法具有最突出的譜段優(yōu)化效果,在簡化預(yù)測模型的同時提高了模型的預(yù)測精度。組合采用競爭自適應(yīng)重加權(quán)采樣算法和偏最小二乘法進(jìn)行拉曼光譜痕量原油檢測,可減少訓(xùn)練數(shù)據(jù)的規(guī)模,簡化回歸模型的復(fù)雜度,能夠精確檢測質(zhì)量分?jǐn)?shù)1~100 μg/g的痕量原油。
表1 各算法模型的性能比較
提出了一種利用拉曼光譜熒光背景對常壓蒸餾塔塔頂石腦油中痕量原油雜質(zhì)進(jìn)行定量分析的方法,該方法通過偏最小二乘回歸建立了拉曼光譜強(qiáng)度與痕量原油的線性回歸模型。在偏最小二乘法的基礎(chǔ)上,使用遺傳算法、隨機(jī)蛙跳算法以及競爭自適應(yīng)重加權(quán)優(yōu)化算法對拉曼光譜的全譜段進(jìn)行選譜優(yōu)化,剔除拉曼光譜數(shù)據(jù)中的噪聲,在簡化回歸模型的同時提高模型的預(yù)測性能。結(jié)果發(fā)現(xiàn),競爭自適應(yīng)重加權(quán)算法的優(yōu)化效果最佳,可以精確檢測質(zhì)量分?jǐn)?shù)1~100 μg/g的痕量原油。煉化企業(yè)可以利用拉曼光譜的特性同時進(jìn)行常壓蒸餾塔塔頂石腦油性質(zhì)分析和痕量原油泄漏檢測,不僅可以節(jié)約成本,而且也符合當(dāng)前煉化企業(yè)加工高硫高酸原油的大環(huán)境。