国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

復(fù)雜生產(chǎn)過程工況分類及預(yù)測(cè)模型研究
——以青霉素生產(chǎn)過程為例

2023-10-12 06:35劉觀華李香泉
關(guān)鍵詞:青霉素聚類建模

劉觀華,李香泉,夏 輝,劉 波

(景德鎮(zhèn)學(xué)院,江西 景德鎮(zhèn) 333400)

0 引言

青霉素濃度是青霉素工業(yè)生產(chǎn)過程中的重要指標(biāo),其生產(chǎn)過程中存在許多不確定因素,如溫度、濕度、pH值等,并且一些關(guān)鍵參數(shù)如葡萄糖濃度、菌絲濃度等在實(shí)際操作中沒有合適的在線檢測(cè)儀器,故而無法實(shí)現(xiàn)青霉素濃度的實(shí)時(shí)測(cè)量。因此,建立有效的青霉素濃度軟測(cè)量模型是十分迫切的[1-2]。

針對(duì)生產(chǎn)過程中青霉素濃度無法實(shí)時(shí)監(jiān)測(cè)的問題,國(guó)內(nèi)外學(xué)者做了大量的研究。文獻(xiàn)[2]提出了一種基于混沌最小二乘支持向量機(jī)的青霉素濃度預(yù)測(cè)方案,實(shí)驗(yàn)仿真表明混沌優(yōu)化算法具有良好的全局優(yōu)化性能以及較高的青霉素濃度預(yù)測(cè)精度。文獻(xiàn)[3]提出了基于“灰箱”建模的一種新的混合建模方法,先對(duì)過程進(jìn)行機(jī)理建模,然后針對(duì)實(shí)際生產(chǎn)過程中不可識(shí)別因素對(duì)機(jī)理模型結(jié)果的影響,采用了RBF神經(jīng)網(wǎng)絡(luò)加以解決,此方法對(duì)于青霉素發(fā)酵過程的青霉素濃度的預(yù)測(cè)取得了較好的效果。文獻(xiàn)[4]使用SVM方法建立了青霉素效價(jià)預(yù)估模型,實(shí)驗(yàn)證明該模型對(duì)青霉素發(fā)酵過程參數(shù)調(diào)整有良好的擬合效果,優(yōu)于神經(jīng)網(wǎng)絡(luò)(ANN)建模方法。文獻(xiàn)[5]以青霉素發(fā)酵過程生化機(jī)理模型產(chǎn)生的數(shù)據(jù)為樣本,訓(xùn)練RBF神經(jīng)網(wǎng)絡(luò),建立了基于RBF神經(jīng)網(wǎng)絡(luò)的發(fā)酵過程模型。文獻(xiàn)[6]提出了一種基于RF-IHHO-LSTM(隨機(jī)森林-改進(jìn)的Harris鷹群優(yōu)化-長(zhǎng)短期記憶)的新型混合軟測(cè)量模型方法,利用隨機(jī)森林對(duì)青霉素的輔助變量進(jìn)行特征選擇,然后對(duì)Harris鷹群優(yōu)化(HHO)算法進(jìn)行了改進(jìn)。文獻(xiàn)[7]提出了一種基于大數(shù)據(jù)特征分析的青霉素發(fā)酵過程多輸出軟測(cè)量建模方法,該方法將過程數(shù)據(jù)按順序劃分為若干個(gè)批次,然后,根據(jù)深度稀疏自編碼神經(jīng)網(wǎng)絡(luò)方法提取多變量、時(shí)變數(shù)據(jù)集的數(shù)據(jù)特征,實(shí)現(xiàn)了對(duì)多變量時(shí)間序列因素間關(guān)系的有效挖掘,并基于多輸出支持向量回歸方法建立多個(gè)針對(duì)不同預(yù)測(cè)目標(biāo)的軟測(cè)量模型;同時(shí)采用了改進(jìn)的黑洞算法對(duì)模型參數(shù)進(jìn)行優(yōu)化,提高了軟測(cè)量模型的預(yù)測(cè)性能。文獻(xiàn)[8]討論了工業(yè)抗生素補(bǔ)料分批發(fā)酵過程的經(jīng)驗(yàn)?zāi)P?采用線性模型、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)和混合線性——神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建模,提出了過程動(dòng)態(tài)建模和發(fā)酵樣本空間建模兩種抗生素發(fā)酵過程建模方法。

以上文獻(xiàn)的研究,均只考慮青霉素發(fā)酵過程的相關(guān)參數(shù)對(duì)于青霉素濃度的影響,缺少對(duì)相關(guān)工藝生產(chǎn)過程的分類處理,未從生產(chǎn)工況對(duì)青霉素濃度的影響上進(jìn)行分析。針對(duì)上述情況,本文擬對(duì)青霉素的工藝生產(chǎn)過程進(jìn)行分類,分別使用K-Means聚類算法與ISODATA算法進(jìn)行聚類分析,再對(duì)各類別的樣本進(jìn)行SVR建模,比較分析兩種聚類算法的結(jié)果,選擇準(zhǔn)確性好、穩(wěn)定性優(yōu)的算法建立分類模型和預(yù)測(cè)模型。最后,對(duì)基于青霉素發(fā)酵過程的數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證所提方法的有效性。

1 聚類算法及預(yù)測(cè)模型

本文的研究思路:首先采用K-Means聚類[9]和ISODATA聚類算法[10]進(jìn)行工況數(shù)據(jù)的分類處理;然后,針對(duì)各類別的工況數(shù)據(jù),采用SVR算法分別進(jìn)行預(yù)測(cè)模型的構(gòu)建。

1.1 K-Means聚類算法

K-Means聚類算法是由Steinhaus(1955)、Lloyd(1957)、Ball&Hall(1965)、Mc Queen(1967)分別在各自不同的科學(xué)研究領(lǐng)域獨(dú)立提出的[11-12],是一種基于距離的聚類算法。它的基本原理是:將數(shù)據(jù)集中的樣本點(diǎn)分為K個(gè)簇,通過不斷迭代使其滿足:簇內(nèi)的樣本點(diǎn)之間的距離最小、不同簇之間的距離最大。算法的過程為:選定初始K個(gè)質(zhì)心,之后對(duì)所有數(shù)據(jù)進(jìn)行處理,將每個(gè)樣本點(diǎn)分配到最近的聚類中心,并計(jì)算每個(gè)聚類的平均值。然后,將每個(gè)聚類的平均值作為新的聚類中心,重復(fù)分配與更新,直到聚類中心不再更新或達(dá)到最大迭代次數(shù)。最后將每個(gè)樣本點(diǎn)分配到最近的聚類中心,得到聚類結(jié)果。

K-Means中距離的計(jì)算公式為:

其中,Ck表示第k個(gè)簇,μk表示第k個(gè)簇的質(zhì)心,||x-μk||2表示樣本點(diǎn)x到質(zhì)心μk距離的平方。

K-Means的聚類效果主要依賴于距離的計(jì)算方法。當(dāng)前K-Means聚類算法支持三種不同的距離計(jì)算方法,分別是歐式距離、曼哈頓距離和切比雪夫距離,計(jì)算公式如(2)、(3)、(4)所示:

d(x,y)=max(|xi-yi|)

(4)

K-Means聚類算法選擇距離計(jì)算方法取決于數(shù)據(jù)集的特征。一般原則是,如果數(shù)據(jù)集中的樣本點(diǎn)具有較大的維度,則推薦使用歐式距離;如果數(shù)據(jù)集中的樣本點(diǎn)具有較小的維度,則推薦使用曼哈頓距離或切比雪夫距離。鑒于本文中樣本點(diǎn)的維度較大,因此,選擇歐氏距離作為距離的計(jì)算方法。

1.2 ISODATA聚類算法

ISODATA聚類算法是由Beazdek提出的一種聚類分析方法,可以獲得豐富的聚類信息,而且在計(jì)算過程中不需要過多的人工干預(yù)[13]。

ISODATA聚類算法是在K-Means聚類算法的基礎(chǔ)上,增加對(duì)聚類結(jié)果的“合并”和“分裂”兩個(gè)操作。當(dāng)聚類結(jié)果中某一類樣本數(shù)太少,或兩個(gè)類間的距離太近時(shí),進(jìn)行合并操作;當(dāng)聚類結(jié)果中某一類樣本數(shù)太多,或某個(gè)類樣本某個(gè)特征類內(nèi)方差太大時(shí),進(jìn)行分裂操作。該算法通過設(shè)定控制參數(shù)實(shí)現(xiàn)其自適應(yīng)聚類過程,其中控制參數(shù)有:預(yù)期的聚類中心數(shù)目K、每一聚類域中最少的樣本數(shù)θN、聚類域中樣本距離分布的標(biāo)準(zhǔn)差θS、兩聚類中心間的最小距離θc、一次迭代運(yùn)算中可以合并的聚類中心的最多對(duì)數(shù)L和迭代運(yùn)算的次數(shù)I。

ISODATA算法過程如下所示:

(1)選擇某些初始值。預(yù)選不同的參數(shù)指標(biāo),將所有的樣本按指標(biāo)分配到各聚類中心。

(2)計(jì)算各類樣本之間的距離指標(biāo)函數(shù)。

(3)依據(jù)參數(shù)指標(biāo)的閾值,對(duì)前一次獲得的聚類結(jié)果進(jìn)行分裂或合并操作,獲得新的聚類中心。

(4)重復(fù)(2)-(3)步驟,進(jìn)行迭代運(yùn)算,判斷聚類結(jié)果是否符合要求。若迭代次數(shù)結(jié)束或過程收斂,則運(yùn)算結(jié)束,得到聚類結(jié)果。

1.3 SVR模型

支持向量機(jī)(support vector machine,SVM)是近幾年發(fā)展起來的,是由Vapnik[14]根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出的一種全新高效的機(jī)器學(xué)習(xí)方法,有效解決了以往困擾很多學(xué)習(xí)方法的小樣本、非線性、過學(xué)習(xí)、高維數(shù)、局部極小點(diǎn)等實(shí)際問題,具有很強(qiáng)的推廣能力[4,15]。

支持向量機(jī)線性回歸(SVR)是一種基于SVM的機(jī)器學(xué)習(xí)算法,用于解決回歸問題。SVR算法的基本思想是:構(gòu)建模型來擬合數(shù)據(jù),求解參數(shù)確定能夠最大程度擬合數(shù)據(jù)的模型,從而得到最優(yōu)的結(jié)果[16]。SVR算法的應(yīng)用過程如下:

(1)構(gòu)建模型。根據(jù)給定的訓(xùn)練數(shù)據(jù),構(gòu)建一個(gè)線性模型y=w*x+b,其中,w和b分別表示模型的權(quán)重和偏置。

(2)求解模型。根據(jù)訓(xùn)練數(shù)據(jù),求解模型的參數(shù)w和b,使得模型能夠最大限度地?cái)M合數(shù)據(jù)。

(3)應(yīng)用模型。將建立的模型應(yīng)用于新的數(shù)據(jù),得到預(yù)測(cè)結(jié)果。

模型的擬合度和準(zhǔn)確性決定了SVR模型性能的優(yōu)劣,可以通過決定系數(shù)R2、均方根誤差RMSE及平方絕對(duì)誤差MAE等指標(biāo)來描述。R2計(jì)算公式如下:

其中,Var為方差,RMSE為均方根誤差。

R2越大(靠近1)時(shí),樣本中預(yù)測(cè)值和真實(shí)值誤差越小,表示回歸分析中自變量對(duì)因變量的解釋越好,即模型預(yù)測(cè)結(jié)果越準(zhǔn)確。

RMSE為均方根誤差,是回歸模型的典型指標(biāo),表示模型在預(yù)測(cè)中產(chǎn)生的誤差。

(6)

MAE為平方絕對(duì)誤差,用來衡量預(yù)測(cè)值與真實(shí)值之間的平均絕對(duì)誤差。

(7)

2 實(shí)驗(yàn)仿真

2.1 青霉素工藝生產(chǎn)數(shù)據(jù)

本實(shí)驗(yàn)采用的數(shù)據(jù)為文獻(xiàn)[17]中青霉素發(fā)酵過程仿真平臺(tái)產(chǎn)生的仿真數(shù)據(jù)。通過對(duì)青霉素工藝生產(chǎn)過程中的工況條件進(jìn)行分析,確定影響青霉素濃度的相關(guān)因素有:通氣速率X1(L/h)、溶解氧濃度X2(g/L)、生物濃度X3(g/L)、二氧化碳濃度X4(g/L)、酸堿度X5(Ph)、發(fā)酵罐溫度X6(K)和生成熱X7(kcal)。根據(jù)仿真平臺(tái)產(chǎn)生不同條件下的青霉素濃度X8(g/L),由此得到包含899組數(shù)據(jù)的仿真數(shù)據(jù)集如表1所示。

表1 仿真數(shù)據(jù)集

2.2 分類過程設(shè)計(jì)

2.2.1聚類簇?cái)?shù)

Gap準(zhǔn)則是一種用于確定K-Means聚類算法K值(聚類簇?cái)?shù))的方法,它可以用來評(píng)估不同K值下的聚類結(jié)果。Gap準(zhǔn)則的思想是:初始時(shí)隨著K值增大,聚類結(jié)果的輪廓系數(shù)會(huì)提高,但是當(dāng)K值增大到一定程度后,聚類結(jié)果的輪廓系數(shù)會(huì)出現(xiàn)明顯的下降,選擇此時(shí)的K值作為最佳聚類簇?cái)?shù)。本文采用Gap準(zhǔn)則來確定K-Means和ISODATA聚類算法的聚類簇?cái)?shù),對(duì)仿真數(shù)據(jù)集進(jìn)行處理,最佳聚類數(shù)的評(píng)估結(jié)果如圖1所示。

圖1 最佳聚類簇?cái)?shù)評(píng)估

由圖1可得:當(dāng)K值為6時(shí),聚類結(jié)果的輪廓系數(shù)達(dá)到峰值,因此設(shè)定聚類簇?cái)?shù)為6,即將仿真數(shù)據(jù)分為6類,對(duì)應(yīng)青霉素工業(yè)生產(chǎn)過程中6種不同的生產(chǎn)工況。

2.2.2K-Means與ISODATA聚類

確定最佳聚類簇?cái)?shù)后,分別應(yīng)用K-Means聚類算法和ISODATA聚類算法對(duì)仿真數(shù)據(jù)集進(jìn)行聚類,將聚類后的每類數(shù)據(jù)量進(jìn)行統(tǒng)計(jì),如圖2和圖3所示。采用ISODATA算法聚類時(shí),調(diào)整θN(每一聚類中心中最少的樣本數(shù),少于此數(shù)就不作為一個(gè)獨(dú)立的聚類)、θS(一個(gè)聚類中樣本距離分布的標(biāo)準(zhǔn)差)和θc(兩聚類中心之間的最小距離,如小于此數(shù),兩個(gè)聚類進(jìn)行合并)三個(gè)參數(shù)的值,每種狀態(tài)下分類的效果變化不大,最終選擇各類樣本數(shù)量差異最小的分類作為最終結(jié)果。

圖2 K-Means聚類的各類數(shù)據(jù)量

圖3 ISODATA聚類的各類數(shù)據(jù)量

對(duì)比圖2和圖3可知,K-Means聚類結(jié)果中,各類的樣本數(shù)目差異不大,各類數(shù)據(jù)量的分布較均衡;而ISODATA的聚類結(jié)果中,各類數(shù)據(jù)量差異較大。

2.3 SVR預(yù)測(cè)模型

2.3.1K-Means-SVR預(yù)測(cè)模型

針對(duì)K-Means聚類算法聚類后的六類數(shù)據(jù)(劃分的六種工況),采用SVR算法建立對(duì)應(yīng)的六個(gè)青霉素濃度預(yù)測(cè)模型,以決定系數(shù)R2、均方根誤差RMSE及平方絕對(duì)誤差MAE作為模型評(píng)價(jià)指標(biāo)來評(píng)估不同工況下預(yù)測(cè)模型的性能,結(jié)果如表2所示。

表2 k-means-SVR預(yù)測(cè)模型評(píng)價(jià)指標(biāo)

從表2中模型的R2、RMSE和MAE指標(biāo)可以看出所建模型的擬合度高,偏差較小,預(yù)測(cè)的準(zhǔn)確性較高。為了直觀地觀察擬合效果,隨機(jī)選取第6類,訓(xùn)練集和測(cè)試集的預(yù)測(cè)效果如圖4和圖5所示,從圖中可以看出模型擬合效果較好。

圖4 訓(xùn)練集預(yù)測(cè)結(jié)果

圖5 測(cè)試集預(yù)測(cè)結(jié)果

對(duì)各類數(shù)據(jù)集,使用Rand函數(shù)隨機(jī)抽取其中的數(shù)據(jù)構(gòu)成模型的訓(xùn)練集和測(cè)試集,進(jìn)行建模與預(yù)測(cè),多次進(jìn)行實(shí)驗(yàn),R2、RMSE、MAE等評(píng)價(jià)指標(biāo)的波動(dòng)較小,預(yù)測(cè)結(jié)果穩(wěn)定,說明該模型的可靠性較優(yōu)。

由以上分析可知:經(jīng)K-Means聚類算法聚類后的數(shù)據(jù)集進(jìn)行SVR建模預(yù)測(cè),其青霉素濃度的預(yù)測(cè)值和真實(shí)值相近,且重復(fù)實(shí)驗(yàn)預(yù)測(cè)的結(jié)果誤差小,預(yù)測(cè)結(jié)果可以解釋青霉素復(fù)雜工況生產(chǎn)過程中青霉素濃度的變化,能夠較好地說明不同工況(復(fù)雜工況)對(duì)于青霉素濃度預(yù)測(cè)的影響。

2.3.2ISODATA-SVR預(yù)測(cè)模型

針對(duì)ISODATA聚類算法聚類后的六類數(shù)據(jù)(劃分的六種工況),采用SVR算法建立對(duì)應(yīng)的六個(gè)青霉素濃度預(yù)測(cè)模型,以決定系數(shù)R2、均方根誤差RMSE及平方絕對(duì)誤差MAE作為模型評(píng)價(jià)指標(biāo)來評(píng)估不同工況下預(yù)測(cè)模型的性能,結(jié)果如表3所示。

表3 ISODATA-SVR預(yù)測(cè)模型評(píng)價(jià)指標(biāo)

對(duì)于ISODATA聚類后的各類數(shù)據(jù)分別建立的SVR模型,從表3中可以看出其RMSE和MAE較小,R2趨近于1,說明該模型偏差較小,模型的準(zhǔn)確性較高。對(duì)各類數(shù)據(jù)集,使用Rand函數(shù)隨機(jī)抽取其中的等比例數(shù)據(jù)構(gòu)成模型的訓(xùn)練集和測(cè)試集,反復(fù)進(jìn)行建模和預(yù)測(cè),每次的模型結(jié)果與評(píng)價(jià)指標(biāo)波動(dòng)較大,該模型的可靠性較差,不能有效說明不同工況(復(fù)雜工況)對(duì)于青霉素濃度預(yù)測(cè)的影響。

2.4 結(jié)果分析

對(duì)比K-Means聚類和ISODATA聚類兩種方法的結(jié)果,K-Means聚類的各類樣本數(shù)目較均衡,對(duì)后期的建模預(yù)測(cè)結(jié)果具有同樣水平的可解釋性;而ISODATA聚類的各類樣本數(shù)量不均衡,數(shù)量少的類,預(yù)測(cè)值不具備代表性。

再?gòu)腟VR建模后的預(yù)測(cè)結(jié)果來看,對(duì)K-Means聚類后的各類別樣本數(shù)據(jù)進(jìn)行建模預(yù)測(cè),其準(zhǔn)確性和可靠性通過檢驗(yàn);而對(duì)ISODATA聚類后的各類別樣本數(shù)據(jù)進(jìn)行建模預(yù)測(cè),檢驗(yàn)發(fā)現(xiàn)其準(zhǔn)確性稍低于K-Means的結(jié)果,但可靠性較差。因此確認(rèn)采用K-Means聚類方法進(jìn)行工況分類,之后采用SVR進(jìn)行建模預(yù)測(cè),得出聚類中心和六種類別下的青霉素濃度預(yù)測(cè)值如表4和表5所示。

表4 K-Means聚類中心

表5 六種類別下的青霉素濃度真實(shí)值及預(yù)測(cè)值

將六類簇中心和六種類別下的青霉素濃度進(jìn)行對(duì)應(yīng),可知要生產(chǎn)某種濃度的青霉素,需將生產(chǎn)過程中的各指標(biāo)值控制在相應(yīng)的水平。以第一類為例,要生產(chǎn)濃度為1.33870 g/L的青霉素,應(yīng)將通氣速率、溶解氧濃度、生物濃度、二氧化碳濃度、酸堿度、發(fā)酵罐溫度及生成熱分別控制在8.5953 L/h、1.1137 g/L、11.2160 g/L、2.2009 g/L、4.9986 Ph、297.9979 K、65.9245 kcal的水平上。

3 結(jié)語

本文以青霉素工藝生產(chǎn)過程為具體研究對(duì)象,探索了一種基于K-Means和SVM算法的復(fù)雜生產(chǎn)過程工況分類和預(yù)測(cè)模型。以青霉素工藝生產(chǎn)中的工況數(shù)據(jù)作為樣本,分別使用K-Means和ISODATA聚類兩種方法對(duì)工況進(jìn)行分類,然后分別進(jìn)行SVR建模預(yù)測(cè)。對(duì)比分類結(jié)果和預(yù)測(cè)結(jié)果,最后選擇K-Means聚類算法和SVR模型分別作為工況分類算法和青霉素濃度預(yù)測(cè)模型。通過分析各類的簇中心與各類別條件下的青霉素濃度值,掌握工況類別和青霉素濃度的對(duì)應(yīng)關(guān)系,為精準(zhǔn)控制青霉素生產(chǎn)過程提供指導(dǎo)。下一步,將考慮對(duì)青霉素工藝生產(chǎn)過程中的影響因素進(jìn)行深度挖掘和分析,通過完善指標(biāo)體系來提高分類結(jié)果和預(yù)測(cè)結(jié)果的準(zhǔn)確性以及模型的可靠性。

猜你喜歡
青霉素聚類建模
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
豬青霉素過敏怎么辦
細(xì)菌為何能“吃”青霉素
基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
不對(duì)稱半橋變換器的建模與仿真
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
青霉素的發(fā)明者—萊明
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
注射青霉素前為什么要做皮試?