陳韻安
(浙江省南海實(shí)驗(yàn)中學(xué),浙江舟山,316000)
隨著現(xiàn)代工業(yè)的發(fā)展,各種各樣的工業(yè)設(shè)備為人類的生產(chǎn)生活創(chuàng)造了巨大的利潤(rùn)和帶來(lái)了巨大的便利。與此同時(shí),工業(yè)設(shè)備的結(jié)構(gòu)也越來(lái)越復(fù)雜,這導(dǎo)致工業(yè)設(shè)備的故障診斷也越來(lái)越困難。
故障診斷問(wèn)題的目的是及時(shí)檢測(cè)出設(shè)備是否發(fā)生了故障,如果發(fā)生了故障則進(jìn)一步診斷出是何種故障。工業(yè)設(shè)備的故障診斷方法大體上可以分為基于解析模型的診斷方法、基于信號(hào)處理的診斷方法和基于人工智能的診斷方法等。其中基于解析模型的方法又可進(jìn)一步分為狀態(tài)估計(jì)診斷法、參數(shù)估計(jì)診斷法和一致性檢驗(yàn)診斷法等。這種方法的前提是對(duì)研究對(duì)象的機(jī)理模型具有比較深入的認(rèn)識(shí),然而在實(shí)際中這點(diǎn)往往很難做到,因?yàn)檠芯繉?duì)象的機(jī)理模型一般都非常復(fù)雜,很難得到準(zhǔn)確的數(shù)學(xué)表達(dá)式?;谛盘?hào)處理的診斷方法主要包括頻譜分析法、小波變換法等,它們的方法實(shí)現(xiàn)簡(jiǎn)單,能夠及時(shí)檢測(cè)出故障,但是對(duì)故障種類的診斷不是很準(zhǔn)確?;谌斯ぶ悄艿姆椒ㄖ饕ɑ趯<蚁到y(tǒng)的診斷方法、基于機(jī)器學(xué)習(xí)的方法等。專家系統(tǒng)故障診斷方法需要匯集眾多的專家知識(shí)形成知識(shí)庫(kù),然后利用知識(shí)庫(kù)進(jìn)行推理。在實(shí)踐中,獲取專家知識(shí)的過(guò)程比較困難,因此這種方法具有較大局限性?;跈C(jī)器學(xué)習(xí)的方法只依賴于歷史運(yùn)行數(shù)據(jù),通過(guò)正常的數(shù)據(jù)和包含各種故障的數(shù)據(jù)訓(xùn)練出一個(gè)機(jī)器學(xué)習(xí)模型,然后對(duì)新的數(shù)據(jù)進(jìn)行診斷。得益于機(jī)器學(xué)習(xí)理論方法的發(fā)展以及計(jì)算機(jī)性能的提升,這種方法得到了廣泛的應(yīng)用。例如,文獻(xiàn)[3]比較了不同的機(jī)器學(xué)習(xí)方法在對(duì)航空發(fā)動(dòng)機(jī)進(jìn)行故障診斷時(shí)的性能和準(zhǔn)確率。
本文提出的基于softmax回歸的故障診斷方法,是一種數(shù)據(jù)驅(qū)動(dòng)的多分類方法。它的基本原理是在概率的框架下,利用softmax函數(shù)估計(jì)出各類故障的概率模型,然后對(duì)新的數(shù)據(jù)點(diǎn)進(jìn)行分類診斷。在對(duì)新的數(shù)據(jù)點(diǎn)分類時(shí),可以根據(jù)最小錯(cuò)誤率的決策準(zhǔn)則,也可以根據(jù)最小風(fēng)險(xiǎn)的決策準(zhǔn)則。本文對(duì)softmax回歸、最小錯(cuò)誤率決策準(zhǔn)則、最小風(fēng)險(xiǎn)決策準(zhǔn)則的基本原理進(jìn)行了詳細(xì)闡述,并以某型航空發(fā)動(dòng)機(jī)的運(yùn)行數(shù)據(jù)為例子進(jìn)行實(shí)驗(yàn)驗(yàn)證,包含了數(shù)據(jù)歸一化和數(shù)據(jù)降維、利用訓(xùn)練集訓(xùn)練softmax回歸模型、利用最小錯(cuò)誤率決策準(zhǔn)則和最小風(fēng)險(xiǎn)決策準(zhǔn)則對(duì)測(cè)試集進(jìn)行分類評(píng)估。實(shí)驗(yàn)結(jié)果表明,本文提出的多類故障分類方法具有較高的準(zhǔn)確率和較強(qiáng)的實(shí)用性。
在介紹softmax回歸之前,我們將討論分類問(wèn)題中的最小錯(cuò)誤率決策準(zhǔn)則,并引入logistic函數(shù)和softmax函數(shù)分別對(duì)二分類問(wèn)題和多分類問(wèn)題進(jìn)行建模,實(shí)現(xiàn)最小錯(cuò)誤率準(zhǔn)則下的分類。同時(shí)在本章最后引入最小風(fēng)險(xiǎn)決策準(zhǔn)則,使得分類的總損失最小。
我們來(lái)研究一般情況下的分類問(wèn)題,假設(shè)有K種類別,記為 Y = {C1, C2,· ··,CK}。我們來(lái)計(jì)算在已知輸入樣本向量x(假設(shè)維數(shù)為d)的條件下,樣本屬于各類的概率P(Ck|x ),k= 1,2,···,K ,稱之為后驗(yàn)概率。將輸入樣本x判斷為Ck類時(shí)出錯(cuò)的概率可以表示為:
設(shè)決策規(guī)則為h∶X→Y,所有樣本的整體錯(cuò)誤率可以表示為:
最小錯(cuò)誤率決策準(zhǔn)則的目的是尋找合適的h(x)使得最小化式(2)。假設(shè)樣本都是獨(dú)立同分布的,則若對(duì)于每個(gè)樣本x,h(x)都能最小化錯(cuò)誤率 Pe(h(x )| x)的話,那么也就能最小化所有樣本的整體錯(cuò)誤率。因此,最小錯(cuò)誤率決策準(zhǔn)則下h(x)的選取標(biāo)準(zhǔn)為:
顯然,最小化錯(cuò)誤率等價(jià)于最大化后驗(yàn)概率,因此式(3)等價(jià)于:
在使用最小錯(cuò)誤率決策準(zhǔn)則進(jìn)行分類時(shí),首先要獲得各 類 后 驗(yàn) 概率 P(Ck|x)。在實(shí)際中, P(Ck|x)一 般 很 難直接獲得,需要利用有限的訓(xùn)練樣本盡可能準(zhǔn)確地估計(jì)出P(Ck|x)。我們接下來(lái)將分別對(duì)兩類分了問(wèn)題和多類分類問(wèn)題分別引入logistic函數(shù)和softmax函數(shù)來(lái)對(duì)后驗(yàn)概率P(Ck|x)建模。
從圈閉與有效烴源巖的位置關(guān)系看,除斷層溝通的構(gòu)造-巖性油氣藏外,已發(fā)現(xiàn)的孤立砂體巖性油氣藏均分布在有效烴源巖范圍內(nèi)或接觸有效烴源巖,處于有效烴源巖中心被其包裹的圈閉,其含油性要好于與烴源巖呈側(cè)向接觸的巖性圈閉,離有效烴源巖中心的距離越近,圈閉含油氣性越好,反之越差。
Logistic函數(shù)被廣泛應(yīng)用于二分類問(wèn)題中,其表達(dá)式為:
該函數(shù)的特點(diǎn)是:(1)值域?yàn)閇0,1],與概率的范圍剛好吻合;(2)在R上單調(diào)遞增;(3)對(duì)稱中心為(0,0.5)。
圖1 logistic函數(shù)圖像
在對(duì)兩類分問(wèn)題進(jìn)行分類時(shí),假設(shè)分類面是線性可分的,則分類的目的是尋找一個(gè)超平面 wTx+b= 0將兩類數(shù)據(jù)點(diǎn)分開(kāi)。將 wTx+b= 0作為一個(gè)整體代入logistic函數(shù),得:
記兩類分別為第0類和第1類,記作 Y= {0 ,1}。令q=f(x)表示第1類的概率,則第0類的概率為1-q。對(duì)于具有m個(gè)樣本的訓(xùn)練集,其概率分布列可表示為:
在logistic回歸中,式(7)中的q可以用式(6)中的h(x)替換,然后在訓(xùn)練集上利用極大似然估計(jì)的方法,求得其中的參數(shù)w和b。若對(duì)x和w添加一維 x0= 1,w0= b,則可將參數(shù)w和b統(tǒng)一寫(xiě)成參數(shù)θ。即對(duì)于具有m個(gè)樣本X和其觀測(cè)值Y,可以寫(xiě)出似然函數(shù):
對(duì)數(shù)似然函數(shù)為:
代價(jià)函數(shù)定義為:
Softmax回歸的原理和思路與logistic回歸很類似,區(qū)別在于softmax回歸是利用softmax函數(shù)來(lái)對(duì)對(duì)后驗(yàn)概率P(Ck|x)建模,后續(xù)的流程和logistic回歸相同。
假設(shè)總共有K個(gè)類別,輸入為d維的向量x,則對(duì)應(yīng)的Softmax函數(shù)形式如下:
對(duì)應(yīng)的似然函數(shù) ()Lθ 表示為:
對(duì)似然函數(shù) L(θ) 取對(duì)數(shù),可以得到所謂的對(duì)數(shù)似然函數(shù)l(θ):
代價(jià)函數(shù)為:
式(14)是一個(gè)凸函數(shù),可利用梯度下降法求得全局最小值點(diǎn)。梯度下降法求解時(shí)的梯度公式為:
梯度下降每一步的迭代更新公式為:
在分類問(wèn)題中,有時(shí)我們關(guān)心的是錯(cuò)誤率,而是分類出現(xiàn)錯(cuò)誤所造成的損失。舉例來(lái)說(shuō),在故障診斷問(wèn)題中,將正常的運(yùn)行狀態(tài)誤判為發(fā)生故障的運(yùn)行狀態(tài)和將故障狀態(tài)誤判為正常狀態(tài)所造成的損失是截然不同的。不同分類錯(cuò)誤造成的損失不同時(shí)的決策準(zhǔn)則,稱為最小風(fēng)險(xiǎn)決策準(zhǔn)則。
分類問(wèn)題的描述和符號(hào)定義與前面一致。記將Cj類的樣本x分類為Ci類時(shí)所產(chǎn)生的損失為ijλ,則將樣本x分類為Ci類的損失可以表示為:
設(shè)決策規(guī)則為h∶X→Y,所有樣本的期望總體損失為:
最小風(fēng)險(xiǎn)決策準(zhǔn)則可表示為:
為了驗(yàn)證前面的理論,我們以某型航空發(fā)動(dòng)機(jī)的運(yùn)行數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)流程圖如圖2所示。
該航空發(fā)動(dòng)機(jī)的原始運(yùn)行數(shù)據(jù)的輸入是13維的傳感器測(cè)量數(shù)據(jù),輸出是5種可能的類別:正常狀態(tài)、風(fēng)扇部件出現(xiàn)故障、壓氣機(jī)部件出現(xiàn)故障、高壓渦輪(簡(jiǎn)記為HPT)部件出現(xiàn)故障和低壓渦輪(簡(jiǎn)記為L(zhǎng)PT)部件出現(xiàn)故障。原始數(shù)據(jù)劃分為訓(xùn)練集(80%比例)和測(cè)試集(20%比例)。不同類別分類錯(cuò)誤時(shí)的損失表見(jiàn)表1。歸一化處理的目的是為了統(tǒng)一各位特征之間的量綱,以使得算法更快收斂,這里我們采用的是最大最小值歸一化;數(shù)據(jù)降維是為了提取出數(shù)據(jù)中的有用信息,丟棄無(wú)用信息,提高算法的效率和準(zhǔn)確性,這里我們采用的是線性判別分析(LDA)降維。
圖2 實(shí)驗(yàn)設(shè)計(jì)流程圖
表1 不同類別故障的錯(cuò)誤分類損失
我們?cè)跀?shù)據(jù)含有不同信噪比的噪聲的情況下,對(duì)比了最小錯(cuò)誤率決策和最小風(fēng)險(xiǎn)決策的結(jié)果,包括正確率和期望損失兩方面,如表2所示。
表2 不同信噪比下兩種決策準(zhǔn)則的正確率和期望損失對(duì)比結(jié)果
由表2可以看到,當(dāng)信噪比在40dB以下時(shí),最小錯(cuò)誤率決策與最小風(fēng)險(xiǎn)決策準(zhǔn)則都具有較高的正確率和較小的期望損失;當(dāng)數(shù)據(jù)含有噪聲時(shí),采用最小風(fēng)險(xiǎn)決策進(jìn)行故障診斷與最小錯(cuò)誤率準(zhǔn)則相比,雖然正確率可能會(huì)更低,但是總的期望損失更小。
工業(yè)設(shè)備的故障診斷問(wèn)題是一個(gè)很重要的問(wèn)題,故障診斷的準(zhǔn)確性影響著工業(yè)設(shè)備能否正常、安全運(yùn)行。本文將工業(yè)設(shè)備的故障診斷問(wèn)題描述為多分類問(wèn)題,并推導(dǎo)了最小化錯(cuò)誤率時(shí)的決策準(zhǔn)則;采用softmax函數(shù)對(duì)后驗(yàn)概率建模,并引入最小風(fēng)險(xiǎn)決策,考慮不同錯(cuò)誤分類的損失不同的情況;以某型航空發(fā)動(dòng)機(jī)運(yùn)行數(shù)據(jù)為研究對(duì)象,對(duì)比了在使用softmax回歸進(jìn)行故障診斷時(shí),最小錯(cuò)誤率決策準(zhǔn)則與最小風(fēng)險(xiǎn)決策準(zhǔn)則的區(qū)別。實(shí)驗(yàn)結(jié)果表明,當(dāng)噪聲比較小時(shí),最小錯(cuò)誤率決策與最小風(fēng)險(xiǎn)決策準(zhǔn)則都具有較高的正確率和較小的期望損失,能夠較為準(zhǔn)確地診斷出故障類型;當(dāng)數(shù)據(jù)含有噪聲時(shí),采用最小風(fēng)險(xiǎn)決策進(jìn)行故障診斷與最小錯(cuò)誤率準(zhǔn)則相比,雖然正確率可能會(huì)更低,但是總的期望損失更小,更符合實(shí)際需要。
此外,本文也有以下地方值得改進(jìn):
(1)softmax回歸本質(zhì)上是線性分類,當(dāng)數(shù)據(jù)集不存在線性分類面時(shí),分類結(jié)果可能會(huì)不理想,可以考慮引入神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)處理非線性分類問(wèn)題。
(2)可以將本論文的方法運(yùn)用到其他具體設(shè)備的故障診斷問(wèn)題上,以進(jìn)一步驗(yàn)證本文方法的有效性。