張 進(jìn), 王貴成,2, 汪 瀅
(1.沈陽(yáng)化工大學(xué)院 信息工程學(xué)院, 遼寧 沈陽(yáng) 110142; 2.上海應(yīng)用技術(shù)大學(xué) 電氣與電子工程學(xué)院, 上海 201418)
基于模糊聚類的谷氨酸發(fā)酵過(guò)程故障診斷研究
張 進(jìn)1, 王貴成1,2, 汪 瀅1
(1.沈陽(yáng)化工大學(xué)院 信息工程學(xué)院, 遼寧 沈陽(yáng) 110142; 2.上海應(yīng)用技術(shù)大學(xué) 電氣與電子工程學(xué)院, 上海 201418)
結(jié)合谷氨酸發(fā)酵過(guò)程,給出模糊聚類故障診斷的方法和步驟,在獲取與掌握先驗(yàn)知識(shí)后,找到故障數(shù)據(jù)的聚類中心,運(yùn)用對(duì)比方法預(yù)判故障發(fā)生的先兆,達(dá)到故障診斷的目標(biāo).以谷氨酸發(fā)酵過(guò)程生產(chǎn)故障為例,仿真結(jié)果表明模糊聚類的中心值隨故障類別不同而不同,初步實(shí)現(xiàn)利用模糊聚類方法對(duì)樣本數(shù)據(jù)的多級(jí)故障診斷,診斷結(jié)果與實(shí)際情況相符.
模糊聚類; 發(fā)酵過(guò)程; 故障診斷; 模式識(shí)別
隨著科學(xué)技術(shù)水平的發(fā)展,谷氨酸發(fā)酵工業(yè)正逐漸向大型化和自動(dòng)化的方向發(fā)展,過(guò)程運(yùn)行狀態(tài)的監(jiān)測(cè)成為關(guān)鍵.在實(shí)際生產(chǎn)中,研究人員考慮從工藝采集數(shù)據(jù)中了解系統(tǒng)運(yùn)行的確切狀態(tài),最好在故障前期能及時(shí)發(fā)現(xiàn),并采取相應(yīng)措施,避免故障的發(fā)生.國(guó)內(nèi)外許多資料表明,開(kāi)展生產(chǎn)過(guò)程的監(jiān)控與故障診斷會(huì)帶來(lái)顯著的經(jīng)濟(jì)效應(yīng).現(xiàn)有故障診斷存在知識(shí)庫(kù)龐大、解決問(wèn)題能力局限、自動(dòng)獲取知識(shí)能力差等[1]問(wèn)題.近年來(lái),隨著數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)技術(shù)的興起,對(duì)聚類的研究被眾多領(lǐng)域所關(guān)注,聚類分析技術(shù)己被廣泛應(yīng)用于科學(xué)數(shù)據(jù)探測(cè)、信息管理、醫(yī)學(xué)診斷、生物技術(shù)、水質(zhì)分析、金融管理以及過(guò)程控制、模式識(shí)別和系統(tǒng)辨識(shí)等領(lǐng)域,具有廣闊的應(yīng)用前景.聚類分析同時(shí)又是一個(gè)具有挑戰(zhàn)性的領(lǐng)域,由于大型數(shù)據(jù)庫(kù)十分復(fù)雜,聚類算法必然要面對(duì)由此產(chǎn)生的計(jì)算需求,它的一些潛在應(yīng)用成為聚類分析研究的重點(diǎn)[2].因此,對(duì)于聚類分析特別是模糊聚類分析進(jìn)行研究具有非常重要的意義.本文結(jié)合谷氨酸發(fā)酵過(guò)程的生產(chǎn)實(shí)際,分析模糊聚類方法,實(shí)現(xiàn)生產(chǎn)過(guò)程一類故障狀態(tài)的診斷.
谷氨酸發(fā)酵過(guò)程是復(fù)雜的非線性系統(tǒng),其反應(yīng)過(guò)程極其復(fù)雜[3].鑒于發(fā)酵工業(yè)存在問(wèn)題的嚴(yán)峻性,迫切需要建立一種能與發(fā)酵過(guò)程特征相吻合、完整而又具有相同特性、實(shí)際操作簡(jiǎn)單的過(guò)程故障診斷技術(shù).一般情況下,利用現(xiàn)有數(shù)據(jù)庫(kù)和規(guī)則的模式多數(shù)已被故障診斷專家系統(tǒng)采用,而專家系統(tǒng)亟待解決的首要問(wèn)題是數(shù)據(jù)庫(kù)規(guī)則的有效獲取.由于模糊聚類算法的應(yīng)用,可以在數(shù)據(jù)自身所展現(xiàn)的信息中攫取知識(shí)并抽出所需信息,故而為解決專家系統(tǒng)獲取知識(shí)困難的問(wèn)題和處理含糊不清的知識(shí)提供了新的途徑.
模糊聚類算法是一種數(shù)據(jù)驅(qū)動(dòng)的軟計(jì)算方法,它可以分析特征變量相對(duì)于控制決策的重要程度,最終整理出簡(jiǎn)明的決策規(guī)范.基于這些特點(diǎn),將其應(yīng)用于生產(chǎn)過(guò)程故障診斷,可經(jīng)濟(jì)有效地解決谷氨酸發(fā)酵過(guò)程中一些難以解決的問(wèn)題.
一個(gè)基于模糊聚類的故障診斷過(guò)程可分成4個(gè)步驟:第1步要進(jìn)行信息的采集.信息采集的過(guò)程就是對(duì)處理對(duì)象的調(diào)查與了解,進(jìn)而從里面獲取需要的關(guān)鍵數(shù)據(jù)和重要資料.第2步要進(jìn)行信息的預(yù)先處理.信息預(yù)處理的過(guò)程相當(dāng)于除去外界干擾和差異,將原本的對(duì)象變成一種可以被隨時(shí)提取的計(jì)算機(jī)特征形式.第3步要進(jìn)行特征的提取.特征提取作用是為了把已經(jīng)獲取的材料數(shù)據(jù)進(jìn)一步的歸納整理從而去粗存精并找到本質(zhì)特征.第4步需要分類決策,運(yùn)用某一類的判別算法和判別規(guī)則對(duì)現(xiàn)有信息進(jìn)一步分類和辨識(shí),進(jìn)而獲得識(shí)別的結(jié)果,在這一過(guò)程中,需要考慮的是分類有效性.
文獻(xiàn)[4]中主要采用的是K-均值聚類算法,它是將數(shù)據(jù)點(diǎn)與原型之間的某種距離當(dāng)作優(yōu)化目標(biāo)函數(shù),通過(guò)函數(shù)求極值的算法取得迭代運(yùn)算的一個(gè)調(diào)整規(guī)則.該算法具有簡(jiǎn)單快速、適于處理大數(shù)據(jù)集等優(yōu)點(diǎn),在沒(méi)有任何先驗(yàn)知識(shí)的情況下,K-均值聚類狀態(tài)診斷模型能夠很好地區(qū)分故障數(shù)據(jù)和正常數(shù)據(jù),但它不能同時(shí)區(qū)分多種故障,并且該算法對(duì)初始值的選取依賴性極大,對(duì)于大的數(shù)據(jù)量,算法開(kāi)銷很大.所以本文應(yīng)用的是模糊C均值聚類算法,同時(shí)解決了以上問(wèn)題.
模糊C均值算法原理具有很強(qiáng)的代表性,很多其他的算法是在其基礎(chǔ)上添加約束條件或者操作步驟發(fā)展而來(lái)的,是基于對(duì)目標(biāo)函數(shù)的優(yōu)化基礎(chǔ)上的一種數(shù)據(jù)聚類方法[5].
模糊C均值算法(FCM)先初始化聚類中心(或者隸屬度矩陣),然后進(jìn)行迭代直至滿足設(shè)定的終止條件.具體步驟如下:
步驟1,初始化.令模糊加權(quán)指數(shù)m=2,聚類類別數(shù)C(2≤C≤n)、數(shù)據(jù)樣本點(diǎn)數(shù)量n、迭代停止閡值ε、最初的聚類中心值P(0),及迭代的次數(shù)l=0[6];
(1)
步驟3,聚類中心值的更新.
(2)
步驟4,若‖P(l+1)-P(l)‖<ε,則算法停止,否則轉(zhuǎn)到步驟(2).
式中:m>1是模糊系數(shù);U=uik是一個(gè)c×n的模糊劃分矩陣,uik是第k個(gè)樣本xk屬于第i類的隸屬度值;dik=‖xk-vi‖表示從樣本點(diǎn)xk到中心vi的距離.關(guān)于隸屬度的迭代公式是一個(gè)從點(diǎn)到集合的映射,在實(shí)際計(jì)算中通常采用如下的隸屬度更新公式:
(3)
模糊聚類可以用來(lái)間接地識(shí)別因果關(guān)系,基本思想是以現(xiàn)在的故障征兆群與以前的各次診斷的征兆情況對(duì)比[7],找出本次的故障與以前已確定的故障中哪次最為類似,就可認(rèn)為本次故障起因與以前類似故障的起因相像,因此可參考?xì)v史經(jīng)驗(yàn)來(lái)認(rèn)定當(dāng)前最可能的故障起因,從而取得較滿意的結(jié)論[8].
運(yùn)用模糊聚類算法的實(shí)現(xiàn)故障診斷,大體上可分為3大步驟:
步驟1,提取對(duì)象的特征.即把與對(duì)象x相關(guān)的各個(gè)特征從中提取出來(lái),同時(shí)把x在諸特征上的詳細(xì)數(shù)據(jù)測(cè)出來(lái);
步驟2,隸屬函數(shù)的建立.即先明確算法,再把隸屬于它的矩陣U初始化,Ai的隸屬度uAi(x)是x,并且依賴于x1,x2,…,xn.
步驟3,識(shí)別對(duì)象的判定.根據(jù)一定的規(guī)則識(shí)別判定對(duì)象x,找到其對(duì)應(yīng)的歸屬類型及其分類的行之有效性[9].
操作流程:首先選取特征變量建立樣本參數(shù)空間,對(duì)樣本的各特征值進(jìn)行標(biāo)準(zhǔn)化處理,確定聚類數(shù)C,模糊加權(quán)系數(shù)m,按約束條件初始化隸屬度矩陣設(shè)定一個(gè)任意小的迭代誤差閾值,然后不斷地計(jì)算更新模糊劃分矩陣和聚類中心,直到系統(tǒng)達(dá)到穩(wěn)定狀態(tài),迭代停止,輸出結(jié)果.
實(shí)驗(yàn)所用的數(shù)據(jù)全部來(lái)自于某味精廠生產(chǎn)車間的記錄數(shù)據(jù),此次研究的目標(biāo)為谷氨酸正常發(fā)酵與異常發(fā)酵的發(fā)酵液的質(zhì)量濃度.選取4個(gè)批次谷氨酸發(fā)酵過(guò)程的記錄數(shù)據(jù),其中有一個(gè)批次的谷氨酸發(fā)酵最終質(zhì)量濃度超過(guò)10 g/L,將其認(rèn)為是正常發(fā)酵.此外,還有3個(gè)批次的谷氨酸發(fā)酵最終質(zhì)量濃度沒(méi)有達(dá)到10 g/L,其最終結(jié)果的質(zhì)量濃度最大值僅有5.3 g/L,將其認(rèn)為是非正常發(fā)酵.3種非正常發(fā)酵故障情況分別是攪拌機(jī)故障引起的溶氧故障,氨水添加故障和染菌故障.表1和表2是原始正常數(shù)據(jù)和故障數(shù)據(jù).圖1是3種故障和正常情況下的分類結(jié)果.
表1 發(fā)酵過(guò)程30組正常數(shù)據(jù)
表2 15組故障數(shù)據(jù)
圖1 3種故障和正常情況下的分類結(jié)果
經(jīng)模糊聚類處理,最后得到的群中心值為:
37.4 8.8 0.4 16.1 4 000
37.3 7.4 0.3 14.3 3 400
35.3 7.0 0.1 15.4 2 800
37.3 8.6 0.2 12.1 3 400
迭代過(guò)程的遞歸循環(huán)次數(shù)為19,成本函數(shù)值為2.38,數(shù)據(jù)被準(zhǔn)確分為4類,得到的聚類中心被認(rèn)為是某種狀態(tài)的標(biāo)準(zhǔn)特征點(diǎn).截取其中30組數(shù)據(jù)進(jìn)行分析.隸屬度矩陣見(jiàn)表3.從表3可以看出:每組數(shù)據(jù)對(duì)各個(gè)聚類中心的隸屬度不同,以此形成了不同的故障群和正常狀況群劃分.每一組數(shù)據(jù)隸屬于某個(gè)狀態(tài)類的大小不同,可以反映出該數(shù)據(jù)更接近于那個(gè)狀態(tài).通過(guò)這個(gè)隸屬度矩陣也可以看出故障的嚴(yán)重程度.數(shù)據(jù)點(diǎn)對(duì)于故障中心的隸屬度越大,說(shuō)明發(fā)生故障的可能性就越大.比如第18組數(shù)據(jù)對(duì)聚類中心點(diǎn)4的隸屬度最高,為0.95,而對(duì)其他中心點(diǎn)的隸屬度都很小,說(shuō)明該點(diǎn)處發(fā)生染菌故障可能性很大,幾乎可以確定.與之相對(duì),第30組數(shù)據(jù)則對(duì)每一個(gè)中心點(diǎn)的隸屬度都在0.6以下,其中對(duì)染菌的中心點(diǎn)隸屬度又為最高是0.58,接近0.6.據(jù)此可以推斷該數(shù)據(jù)點(diǎn)處的狀態(tài)有可能是染菌初期,因?yàn)樗哂幸恍┤揪鸂顟B(tài)的相似信息.實(shí)驗(yàn)分析得出前,在表3中出現(xiàn)的3種故障有標(biāo)準(zhǔn)故障狀態(tài)集合的情況下,這種分類的方法可以快速的對(duì)數(shù)據(jù)進(jìn)行分類.
表3 多故障數(shù)據(jù)實(shí)驗(yàn)結(jié)果的隸屬度矩陣
下面通過(guò)染菌故障的診斷問(wèn)題來(lái)分析對(duì)比較大的狀態(tài)數(shù)據(jù)集合分多個(gè)聚類中心聚類的問(wèn)題.從生產(chǎn)過(guò)程中的染菌故障數(shù)據(jù)中隨機(jī)選取100組數(shù)據(jù),并加入50組正常數(shù)據(jù)同時(shí)輸入故障診斷模型.由于輸入數(shù)據(jù)較多,初始還不知道最佳分類數(shù)是多少,暫定分類數(shù)為2,得到結(jié)果的聚類圖如圖2所示,從隸屬度矩陣中選取40組數(shù)據(jù)進(jìn)行分析,如表4所示.
圖2 染菌故障分析結(jié)果
表4 模糊聚類數(shù)為2時(shí)染菌樣本數(shù)據(jù)隸屬度矩陣
聚類之后得到的聚類中心為
迭代過(guò)程的遞歸循環(huán)次數(shù)為26,成本函數(shù)值為21.6.從聚類結(jié)果可以看到隸屬度矩陣中的值很清楚地反映出數(shù)據(jù)點(diǎn)和聚類中心的關(guān)系:隸屬度越大,說(shuō)明數(shù)據(jù)點(diǎn)和這個(gè)數(shù)據(jù)類相似度越高,對(duì)應(yīng)該狀態(tài)發(fā)生的可能性越大,反之則越小.
從表4看到大部分?jǐn)?shù)據(jù)點(diǎn)能以較大的隸屬度歸于某一類中,但是有些數(shù)據(jù)點(diǎn)特征不明顯,它對(duì)于兩類的隸屬度值很接近,例如表4中第19組數(shù)據(jù),對(duì)于故障類的隸屬度為0.47,對(duì)于正常類的隸屬度為0.53,這個(gè)結(jié)果說(shuō)明它屬于兩類中間,不具有某種狀態(tài)的明顯特征,因此嘗試將聚類數(shù)目改為3,再來(lái)看一次聚類結(jié)果,如圖3所示.從隸屬度矩陣中選取30組數(shù)據(jù)來(lái)分析,如表5所示.
圖3 聚類中心數(shù)為3時(shí)的染菌故障樣本聚類結(jié)果
表5 聚類中心數(shù)為3時(shí)的染菌樣本數(shù)據(jù)隸屬度
聚類之后得到的聚類中心為
迭代過(guò)程的遞歸循環(huán)次數(shù)為78,成本函數(shù)值為45.7.從聚類結(jié)果可以看出:這次聚類的數(shù)據(jù)點(diǎn)給出更為合理的聚類.數(shù)據(jù)隸屬于某一類的隸屬度相對(duì)于另外的兩組有了比較大的區(qū)別,如第30組數(shù)據(jù)相對(duì)正常狀態(tài)的隸屬度為0.80,而相對(duì)于另外兩組的隸屬度分別為0.03,0.16,0.80相對(duì)0.03和0.16要大很多,說(shuō)明該數(shù)據(jù)點(diǎn)和這個(gè)聚類的特征相似度較高,發(fā)生的可能性大.反之發(fā)生的可能越小.基于此,可以提出診斷的處理模型,在生產(chǎn)中將故障源從數(shù)據(jù)群中提取出來(lái),然后將輸入進(jìn)來(lái)的待測(cè)數(shù)據(jù)和故障源中的數(shù)據(jù)進(jìn)行分類,得到結(jié)果距離哪個(gè)聚類中心最近,發(fā)生哪種故障的可能性也越大.這里分2個(gè)故障類就代表了2種情況,染菌前期和后期,染菌前期情況并不明顯,數(shù)據(jù)反映不劇烈,因此既不完全屬于正常的類,也不完全屬于染菌后期的標(biāo)準(zhǔn)故障類.
根據(jù)大量研究指出,文中所給出的模糊聚類研究方法對(duì)總體分析谷氨酸的發(fā)酵過(guò)程中出現(xiàn)的故障有明顯的效果,而且還減輕了診斷的工作任務(wù),減少了診斷時(shí)間.對(duì)于高維特征空間的故障數(shù)據(jù)信息和正常數(shù)據(jù)信息能夠很好地區(qū)分,對(duì)于多種故障信息和正常數(shù)據(jù)信息也有良好的聚類效果.對(duì)于染菌故障中大批量的數(shù)據(jù)處理,可以通過(guò)計(jì)算得到多個(gè)聚類中心,提取出染菌故障不同階段的特征信息;可以不依賴大量的先驗(yàn)知識(shí),只通過(guò)將生產(chǎn)過(guò)程采集來(lái)的數(shù)據(jù)同故障源數(shù)據(jù)對(duì)比分析即可得出結(jié)論.模糊聚類分析方法用于故障診斷尚有許多難題需要解決,例如用來(lái)分析的聚類樣板比較少,就會(huì)出現(xiàn)分析結(jié)果的精確率下降等一系列問(wèn)題;因此要與生產(chǎn)實(shí)際相結(jié)合,盡可能地在生產(chǎn)現(xiàn)場(chǎng)做大量故障記錄,豐富各類故障樣本,以提高判別的準(zhǔn)確率.
[1] FRANK P M.New Developments Using AI in Fault Diagnosis[J].Engineering Applications of Artificial Intelligence,1997,10(1):3-14.
[2] 陽(yáng)琳赟,王文淵.聚類融合方法綜述[J].計(jì)算機(jī)應(yīng)用研究,2005,22(12):8-10.
[3] 高敏杰,丁健,張?jiān)S,等.基于支持向量機(jī)和模糊推理的畢赤酵母發(fā)酵過(guò)程故障診斷[J].食品與生物技術(shù)學(xué)報(bào),2014,33(11):1182-1190.
[4] 廖松有.模糊C均值與K均值聚類算法及其并行化[D].太原:太原科技大學(xué)電子信息系,2013:43-55.
[5] 陳琳,何嘉.基于模糊聚類的粒子群優(yōu)化算法[J].西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,33(4):39-42.
[6] 劉曼蘭.永磁直流電機(jī)故障在線監(jiān)測(cè)與智能診斷的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué)電機(jī)與電器系,2007:92-93.
[7] 王清,潘宏俠,周傳剛.機(jī)械故障診斷技術(shù)現(xiàn)狀及趨勢(shì)[J].機(jī)械管理開(kāi)發(fā),2005,20(6):49-51.
[8] 曾輝.模糊邏輯在機(jī)械故障診斷中的應(yīng)用[D].燕山:燕山大學(xué)邏輯學(xué)系,2007:26-27.
[9] 陳凌.基于模糊聚類算法的圖像分割方法研究[D].江西:江西理工大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)系,2012:28-29.
Fault Diagnosis for Glutamic Acid Fermentation Process Based on Fuzzy Clustering
ZHANG Jin1, WANG Gui-cheng1,2, WANG Ying1
(1.Shenyang University of Chemical Technology, Shenyang 110142, China; 2.Shanghai Institute of Technology, Shanghai 201418, China)
Combined with glutamic acid fermentation process, the method and step of fault diagnosis of fuzzy clustering are given, especially after obtaining and mastering the prior knowledge, to find the clustering center of fault data, and using the contrast method to predict the fault omen and realize the goal of fault diagnosis.For glutamic acid fermentation process, process,production fault as an example,the simulation results show that the central value of fuzzy clustering is different with fault category.The multi-level fault diagnosis is realized by fuzzy clustering for sample data,and the diagnosis result is consistent with the actual situation.
fuzzy clustering; fermentation process; fault diagnosis; pattern recognition
2015-03-20
張進(jìn)(1992-),女,遼寧沈陽(yáng)人,碩士研究生在讀,主要從事智能控制算法的研究.
王貴成(1972-),男,遼寧撫順人,副教授,博士,主要從事復(fù)雜過(guò)程建模與控制研究.
2095-2198(2017)02-0182-06
10.3969/j.issn.2095-2198.2017.02.018
TP182
: A