S Zorb裝置原料油的聚類研究

2020-10-13 12:33歐陽福生趙明洋

石油煉制與化工 2020年10期

王杰，程順，劉松，歐陽福生，趙明洋

(1.華東理工大學(xué)化工學(xué)院石油加工研究所，上海 200237；2.中國石化上海高橋分公司)

催化裂化(FCC)汽油約占中國汽油總量的70%[1]。成品汽油中的硫主要來自FCC汽油，因此，如何降低FCC汽油硫含量從而滿足環(huán)保要求成為了一個亟需解決的問題。S Zorb工藝[2-4]以其良好的脫硫能力而成為FCC汽油脫硫的主要技術(shù)。該技術(shù)能在較低的辛烷值損失下生產(chǎn)硫質(zhì)量分?jǐn)?shù)低于10 μg/g的汽油，但在工業(yè)裝置運行過程中運行結(jié)果存在一定的波動，例如某S Zorb裝置4年運行的汽油辛烷值(RON)損失平均值為1.45個單位，大大高于同類裝置的平均指標(biāo)(RON損失0.6個單位)[5]，從而影響了企業(yè)經(jīng)濟效益。由于來自FCC裝置汽油性質(zhì)的波動，以及回?zé)挼牟缓细衩摿蚱彤a(chǎn)品比例和性質(zhì)的不確定性，使得S Zorb裝置的汽油原料性質(zhì)經(jīng)常會發(fā)生變化。在實際操作過程中，該裝置對原料油性質(zhì)的變化考慮較少，未能及時針對不同的汽油原料調(diào)整操作條件，因此較難降低汽油辛烷值損失。

聚類分析[6]是機器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識別等領(lǐng)域的重要組成內(nèi)容，它在無標(biāo)記樣本的條件下根據(jù)不同的準(zhǔn)則對數(shù)據(jù)進行分類，找到這些數(shù)據(jù)信息的內(nèi)部結(jié)構(gòu)和規(guī)律。由于同一類別的數(shù)據(jù)具有相似性，在數(shù)據(jù)分析過程中，可以將一個類別中的數(shù)據(jù)對象作為一個整體來處理，從而達到簡化數(shù)據(jù)、精確分析目標(biāo)的目的。傳統(tǒng)的聚類算法主要包括基于模型、劃分、密度和層次的聚類[7]。此外，針對更復(fù)雜多樣的數(shù)據(jù)來源，還有模糊聚類、綜合聚類等新的聚類算法[8]。目前未見針對S Zorb工藝原料油聚類分析研究的文獻報道。

本研究以某S Zorb裝置運行4年的FCC汽油原料性質(zhì)數(shù)據(jù)為基礎(chǔ)，以產(chǎn)品辛烷值損失最小為目標(biāo)，使用聚類算法建立原料油的聚類評價模型，將原料油性質(zhì)最為相近的聚為一類，并對每一類原料油的特征進行描述，以期為針對不同種類的S Zorb裝置原料油分別建立產(chǎn)品辛烷值預(yù)測模型，從而為尋找最佳操作條件來降低產(chǎn)品辛烷值損失提供指導(dǎo)。

1 數(shù)據(jù)收集

S Zorb工藝的目的是脫除FCC汽油中的微量硫化物，但在脫硫反應(yīng)過程中常常伴隨著烴類的化學(xué)反應(yīng)，其中以烯烴的臨氫飽和反應(yīng)為主，烴類的裂化、異構(gòu)化和芳構(gòu)化等反應(yīng)為輔[9]，因此產(chǎn)品汽油中烴類組成會發(fā)生變化，從而影響到產(chǎn)品汽油的辛烷值。可見，原料油中的飽和烴、芳烴和烯烴含量的變化均會影響到汽油的辛烷值；在研究如何降低辛烷值損失的同時，必須以保證S Zorb工藝的脫硫效果為前提；密度反映原料油的輕重，而原料油中的重組分會發(fā)生裂化反應(yīng)，從而影響產(chǎn)品辛烷值；溴值是有機化合物不飽和度的重要指標(biāo)，在臨氫條件下，不飽和烴會發(fā)生加成、異構(gòu)化反應(yīng)，從而影響產(chǎn)品汽油的辛烷值。因此，本研究采用飽和烴含量、烯烴含量、芳烴含量、硫含量、密度和溴值6個變量作為原料油聚類分析的變量。

本研究的聚類分析所需的原料油性質(zhì)數(shù)據(jù)采集自某S Zorb裝置的實驗室信息管理系統(tǒng)(LIMS)，采集時間為2015年6月1日至2019年4月16日，通過整理共得到117組樣本，原料油性質(zhì)分布見表1。

表1 原料油性質(zhì)分布

2 原料油聚類模型的建立

K-means算法理論可靠、算法簡單、收斂速率快并且對大數(shù)據(jù)集有較高的效率[10]。模糊聚類算法可以得到每個樣本屬于各個類別的不確定程度，應(yīng)用范圍廣泛[11]。本研究利用MATLAB編程平臺，分別采用K-means和模糊C均值聚類算法(FCM)來建立原料油性質(zhì)的聚類模型。

2.1 K-means算法聚類分析

K-means是一種被廣泛使用的基于劃分的聚類算法，它通過迭代不斷更新聚類中心，最終獲得最小化的誤差平方和(SSE)，其計算式為：

(1)

式中：Yi為第i類的樣本點；x為Yi中的一個數(shù)據(jù)點；mi為Yi的聚類中心。該算法的具體步驟是：

(1)確定最佳聚類數(shù)目kopt，即把數(shù)據(jù)分為k類。

(2)隨機選取k個數(shù)據(jù)點，作為k類數(shù)據(jù)的初始聚類中心。

(3)利用歐幾里得函數(shù)式(2)分別計算每個數(shù)據(jù)到各初始聚類中心的距離，根據(jù)就近原則進行數(shù)據(jù)分類，即數(shù)據(jù)離哪個聚類中心最近就被分為哪一類。

(2)

式中，xik和xjk分別表示第i個和第j個數(shù)據(jù)對象在屬性k上的取值。

(4)所有數(shù)據(jù)分好類后，重新計算每一類新的聚類中心。

(5)重復(fù)上述過程，直到滿足終止條件：沒有聚類中心再發(fā)生變化。

本研究先確定最佳聚類數(shù)目的上下限，令kmin=2，根據(jù)經(jīng)驗式(3)求得kmax=11(N為樣本數(shù)目)，然后通過綜合手肘法和輪廓系數(shù)法的結(jié)果來確定最佳聚類數(shù)目kopt。

(3)

手肘法的基本思路是：做出SSE隨k變化的圖形，找到圖中斜率突變的節(jié)點，即為kopt。由于節(jié)點處的圖形類似于手的肘部，所以稱之為手肘法。

輪廓系數(shù)法的基本思路是：使組內(nèi)距離最小，組間距離最大。求出不同k值所對應(yīng)的平均輪廓系數(shù)(S)后，找出最大S對應(yīng)的k值即為最佳聚類數(shù)目。根據(jù)Kaufman等提出的輪廓系數(shù)的相關(guān)概念[12]，平均輪廓系數(shù)的定義式為：

(4)

式中：Si為第i個樣本的輪廓系數(shù)；n為樣本總數(shù)。Si的定義式為：

(5)

式中：a(i)為樣本i和與其同屬一類的其他所有樣本之間的平均距離，b(i)為樣本i和與其不屬于一類的其他各個類中所有樣本的平均距離的最小值。a(i)和b(i)的定義式為：

(6)

(7)

式中：假設(shè)樣本i屬于第t類；nt表示第t類的樣本總數(shù)；p表示非t類；Yt、Yp分別表示第t類和非t類的樣本點；d(i，j)表示歐式空間中樣本i和j的歐式距離。

圖1為SSE隨k的變化。圖2為S隨k的變化。由圖1可見，當(dāng)k=3和k=5時，曲線的斜率變化較為明顯，但是均無顯著的肘部位置，需要結(jié)合平均輪廓系數(shù)法的結(jié)果來確定kopt。由圖2可見，k=9時所對應(yīng)的S最大。但當(dāng)k=9時，圖1的曲線斜率變化趨于平緩，說明k值已經(jīng)遠遠偏離kopt。綜合手肘法和輪廓系數(shù)法的分析結(jié)果，k=3時，圖1曲線的斜率變化較為明顯，圖2中對應(yīng)的S也較大，因此最終取kopt=3。

圖1 SSE隨k的變化

圖2 S隨k的變化

表2為kopt=3時每一類原料油聚類中心的原料性質(zhì)。由表2可以看出，聚類中心相互之間區(qū)分度較大的原料性質(zhì)是硫含量、飽和烴含量、烯烴含量和溴值，而溴值是表示有機化合物中不飽和程度的一種指標(biāo)，與烯烴含量成正相關(guān)關(guān)系，因此本研究選取硫含量、飽和烴含量和烯烴含量的高低來度量不同類別原料油性質(zhì)的差異。第1類原料油的烯烴含量最低，硫和飽和烴含量較高，因此可命名為低烯烴高硫高飽和烴原料油；第2類原料油的硫和飽和烴含量最低，烯烴含量最高，因此命名為低硫低飽和烴高烯烴原料油；第3類原料油的硫和飽和烴含量最高，烯烴含量較低，因此命名為高硫高飽和烴低烯烴原料油。

表2 kopt=3時每一類聚類中心(K-means)的原料性質(zhì)

圖3為溴值與芳烴含量之間的二維關(guān)系。由圖3可見：3類原料油數(shù)據(jù)點分布集中，分布區(qū)域相對獨立且具有較明顯界限，同時聚類中心分布也較分散；溴值在3類原料油中的分布存在較為明顯的梯度，可見溴值對最終聚類結(jié)果影響較大；芳烴含量從低到高在3類原料油中均有數(shù)據(jù)點分布，可見芳烴含量對最終的聚類結(jié)果影響不大。

圖3 K-means算法溴值與芳烴含量之間的二維關(guān)系●—第1類原料油； ▲—第2類原料油； ■—第3類原料油。較大標(biāo)記為聚類中心。圖4～圖8同

圖4為密度與烯烴含量之間的二維關(guān)系。由圖4可見：3類原料油數(shù)據(jù)點分布集中，分布區(qū)域相對獨立且具有較明顯界限，同時聚類中心分布也較分散；烯烴在3類原料油中的分布存在明顯的梯度，說明烯烴含量對最終的聚類結(jié)果影響較大；密度從低到高在3類原料油都有數(shù)據(jù)點，可見密度對最終的聚類結(jié)果影響不大。

圖4 K-means算法密度與烯烴含量之間的二維關(guān)系

圖5為烯烴含量、飽和烴含量與硫含量之間的三維關(guān)系。由圖5可見：與二維圖相比，三維圖中各類原料油數(shù)據(jù)點之間的界限更為明顯，數(shù)據(jù)點分布更為集中，聚類中心更加分散；烯烴分布結(jié)果與圖4一致；飽和烴含量與硫含量在3類原料油中的分布存在明顯的梯度，說明飽和烴含量與硫含量對最終的聚類結(jié)果影響均較大。

圖5 K-means算法烯烴含量、飽和烴含量與硫含量之間的三維關(guān)系

2.2 FCM算法聚類分析

傳統(tǒng)的聚類方法(如K-means算法)是一種非此即彼的、清楚的分類算法，但是自然界中有許多概念是模糊的，例如大小、老少、冷暖等，它們不能用簡單的是或否去表示。模糊聚類就是用以表示這種具有模糊屬性的數(shù)據(jù)集合。它將是或否，也就是集合{0，1}擴充為[0，1]，即將二值0和1推廣到無窮多值[13]。最常見的模糊聚類方法是FCM算法，該方法設(shè)計簡單、解決問題范圍廣，并且最終可以轉(zhuǎn)化為優(yōu)化問題而借助經(jīng)典數(shù)學(xué)的分線性規(guī)劃理論求解，且易于實現(xiàn)，因此，F(xiàn)CM算法得到了廣泛的應(yīng)用[8]。FCM算法的具體步驟為：

(1)初始化參數(shù)，包括模糊參數(shù)、聚類數(shù)目、隸屬度矩陣和終止條件。

(2)計算聚類中心ci。

(8)

式中：n為數(shù)據(jù)元素的個數(shù)；ci為第i類的聚類中心；μ為某數(shù)據(jù)元素對某一組的隸屬度；m為模糊加權(quán)指數(shù)；xj為第j個數(shù)據(jù)點。

(3)按式 (9) 計算目標(biāo)函數(shù)的值，如果目標(biāo)函數(shù)滿足終止條件則終止計算，否則繼續(xù)執(zhí)行步驟(4)。

(9)

式中：J為目標(biāo)函數(shù)；dik為第i個數(shù)據(jù)元素到第k個聚類中心的歐幾里得距離。

(4)按式 (10) 重新計算隸屬度矩陣，然后返回到步驟(2)。

(10)

最小聚類數(shù)cmin=2，最大聚類數(shù)也采用式(3)進行計算，得cmax=11。FCM算法的聚類參數(shù)設(shè)置值見表3。

表3 FCM算法主要參數(shù)

采用吳成茂等[14]提出的歸一劃分系數(shù)式(11)來確定最佳聚類數(shù)目copt。該準(zhǔn)則是在Bezdek準(zhǔn)則[式(12)]基礎(chǔ)上得到的。

(11)

(12)

式中：U為隸屬度矩陣；F(U；c)為劃分系數(shù)；GF(U；c)為歸一劃分系數(shù)。

按c從2到11運行MATLAB程序，得到相應(yīng)的GF(U；c)的值以及收斂迭代次數(shù)，結(jié)果見表4。由表4可以發(fā)現(xiàn)：隨c的增加，程序收斂次數(shù)也不斷增加；當(dāng)GF(U；c)取最大值時，其所對應(yīng)的c值即為最佳聚類數(shù)目，copt=3。

表4 FCM算法聚類結(jié)果

分別計算每個數(shù)據(jù)樣本對每一類原料油的隸屬度，結(jié)果見表5。以樣本1為例，它對第1，2，3類原料油的隸屬度分別為0.472 2，0.161 6，0.366 2，隸屬度之和為1，其中，對第1類原料油的隸屬度最大，因此樣本1被歸為第1類原料油。

表5 原料油樣本對于不同類別的隸屬度

表6為copt=3時每一類原料油聚類中心的原料性質(zhì)，與表2 中K-means聚類算法得到的聚類中心相比雖然略有差別，但是總體類似。同樣地，第1類原料油可命名為低烯烴高硫高飽和烴原料油；第2類原料油可命名為低硫低飽和烴高烯烴原料油；第3類原料油可命名為高硫高飽和烴低烯烴原料油。

表6 copt=3時每一類聚類中心(FCM)的原料性質(zhì)

圖6～圖8分別為FCM算法的溴值與芳烴含量，密度與烯烴含量，以及烯烴含量、飽和烴含量與硫含量的分布。由圖6～圖8可見，3類原料油數(shù)據(jù)點分布集中，分布區(qū)域相對獨立且具有較明顯界限，同時聚類中心分布也比較分散。溴值、烯烴含量、飽和烴含量和硫含量在3類原料油中的分布均存在較為明顯的梯度，可見溴值、烯烴含量、飽和烴含量和硫含量對最終聚類結(jié)果影響較大；芳烴含量和密度從低值到高值在3類原料油中均有數(shù)據(jù)點分布，可見芳烴含量和密度對最終的聚類結(jié)果影響不大。該結(jié)果與K-means算法的聚類結(jié)果一致。

圖6 FCM算法溴值與芳烴含量之間的二維關(guān)系

圖7 FCM算法密度與烯烴含量之間的二維關(guān)系

圖8 FCM算法烯烴含量、飽和烴含量與硫含量之間的三維關(guān)系

2.3 兩種聚類算法的結(jié)果比較

對比表2和表6列出的K-means和FCM聚類算法在最佳聚類數(shù)目時各類聚類中心的原料性質(zhì)可以看出，不同算法所對應(yīng)的每一類聚類中心重合度均較高。K-means和FCM聚類算法均將117組樣本分為3類，K-means算法的第1至第3類原料油的樣本數(shù)分別為38，38，41；FCM算法的第1至第3類原料油的樣本數(shù)分別為43，38，36。兩種聚類算法僅在5組樣本的分類結(jié)果上有差異，其余112組樣本的分類結(jié)果完全一致，這進一步說明了兩種聚類算法結(jié)果的一致性。

3 結(jié) 論

以某S Zorb裝置的原料油性質(zhì)數(shù)據(jù)為基礎(chǔ)，通過對工藝和反應(yīng)機理的分析，選取原料油性質(zhì)中的硫含量、飽和烴含量、烯烴含量、芳烴含量、密度和溴值6個聚類變量，采用MATLAB編程平臺，分別使用K-means和FCM聚類算法進行原料油聚類研究。結(jié)果表明，兩種聚類法均將原料油分為邊界比較明顯的3類，分類結(jié)果高度重合，聚類分析效果均較好，為針對每一類原料油建立相應(yīng)的汽油辛烷值預(yù)測模型，從而為尋找到使汽油辛烷值損失最小的操作條件打下良好基礎(chǔ)。