蘇連成,張光遠
(燕山大學 電氣工程學院,河北 秦皇島 066004)
在風電機組齒輪箱運行的過程中,內(nèi)部零件會相互接觸摩擦產(chǎn)生磨損顆粒,通過檢測齒輪箱油液中的磨??梢耘袛嗄チ5姆N類和分布情況,通過對磨粒種類及分布情況的檢測就可以判斷出風力發(fā)電機組齒輪箱當前的運行狀況和磨損狀態(tài)。研究表明大多數(shù)機械故障主要是由嚴重磨損或者有害磨損造成的,因此可以通過對齒輪箱磨粒的檢測來判斷設(shè)備磨損程度和換油時機[1]。
對磨粒類型的判斷需要使用圖像分析方法來提取分類特征,再通過分類方法進行形狀的分類。在過去的20年中,已經(jīng)提出了許多磨粒圖像的分析方法,例如:基本形狀因子分析、傅立葉分析和紋理分析[2-8]。文獻[2]基于傅立葉特征訓(xùn)練的神經(jīng)網(wǎng)絡(luò)根據(jù)磨粒輪廓邊界曲率信息對磨粒進行了分類,文獻[3]基于磨粒的紋理信息特征使用主成分分析和灰色關(guān)聯(lián)分析對嚴重滑動磨粒和疲勞磨粒進行了區(qū)分,文獻[4]基于BP神經(jīng)網(wǎng)絡(luò)根據(jù)磨粒形狀、大小和紋理中的7個特征對磨粒進行了分類?,F(xiàn)有的研究對磨粒分類的特征選取通常只考慮磨粒的形狀信息、輪廓信息或者紋理和顏色信息,很少對幾種信息進行綜合分析,考慮到本實驗樣本的主要成分為鐵,顏色為黑色,所以在現(xiàn)有研究的基礎(chǔ)上綜合考慮磨粒的形狀特征和邊緣細節(jié)特征更適合本實驗樣本的分類。
現(xiàn)有的分類方法大都使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)或者機器學習方法,例如文獻[2,4]使用神經(jīng)網(wǎng)絡(luò),文獻[3]使用主成分分析法。這些方法只在數(shù)據(jù)集比較大時才能具有比較理想的識別準確率,當面對較小的數(shù)據(jù)樣本時,分類準確率波動很大。因此,為了更準確地對風力發(fā)電機組齒輪箱磨粒進行分類,本文提出了一種綜合磨粒邊界信息和形狀信息的特征提取方法,并使用隨機森林算法對特征進行分類,結(jié)果表明相比單獨考慮形狀特征或者邊緣特征,使用本文提出的磨粒特征綜合選取方法對磨粒進行分類的準確度更高。
風力發(fā)電機組齒輪箱磨粒的分類具體流程包括:磨粒圖像采集、磨粒圖像處理、磨粒輪廓提取、形狀特征和輪廓特征特征提取、建立分類模型五個部分。分類流程如圖1所示。
磨粒分類過程可以分為以下幾個步驟:
1) 使用電子顯微鏡對磨粒圖像進行采集;
2) 對采集到磨粒圖形進行預(yù)處理,通過形態(tài)學處理,對磨粒圖像進行平滑處理,并去掉圖像中由于光線和雜質(zhì)產(chǎn)生的噪聲;
3) 提取圖像中所有輪廓,由于本文使用的樣本數(shù)據(jù)大小為75 μm左右,所以可以根據(jù)磨粒大小設(shè)定周長和面積閾值,對所有輪廓曲線進行面積和周長判斷,去掉濾波未去除的較大雜質(zhì)點,存儲符合要求的磨粒圖像;
4) 根據(jù)對磨粒形狀特征和輪廓特征的定義對磨粒輪廓圖像進行特征提??;
5) 使用提取的磨粒特征數(shù)據(jù)對分類模型進行訓(xùn)練。
磨粒圖像通過電子顯微鏡人工采集,由于磨粒樣本中會存在一些雜質(zhì)而且磨粒表面各個位置的反光度和外界光線也不同,所以在圖像中磨粒內(nèi)部和外部會出現(xiàn)一些噪聲干擾磨粒輪廓的提取,通過對圖像的預(yù)處理可以去除圖片中磨粒內(nèi)部和外部的噪聲干擾。磨粒圖像的預(yù)處理流程包括圖像的灰度化處理和平滑處理,處理流程如圖2所示。
1.1.1 圖像灰度化處理
電子顯微鏡采集的磨粒圖像是三通道的RGB圖像,RGB圖像能夠非常好地反映出磨粒圖像的顏色、細節(jié)和紋理信息。由于本文只需要考慮圖像的形狀和輪廓信息,所以只要把磨粒圖形轉(zhuǎn)換為單通道的灰度圖就能夠滿足需要,還能夠降低程序的復(fù)雜度、減少計算量并且提高程序的運行速度?;叶葓D像的像素值的范圍為0~255?;叶葓D可以根據(jù)RGB圖像的像素值按照一定規(guī)則進行轉(zhuǎn)換?;叶然幚矸椒?/p>
fgray=0.299fR+0.587fG+0.114fB,
(1)
式中,fR、fG、fB表示原三通道圖像像素點的每個像素值,fgray表示變換后的灰度值。
1.1.2 圖像的平滑處理
采集好的圖像內(nèi)部會存在很多干擾,例如磨粒外部的雜質(zhì)點和磨粒內(nèi)部的高亮點,所以需要使用濾波技術(shù)來降低圖像內(nèi)部的噪聲和平滑磨粒輪廓以便進行邊緣提取。本文采用高斯濾波來消除圖像在數(shù)字化過程中產(chǎn)生或混入的噪聲。高斯濾波是一種線性平滑濾波,可以過濾掉頻率較高的噪聲又不會對磨粒的輪廓產(chǎn)生過大的影響。其中每一個像素點的值都可以通過對本身和鄰域內(nèi)的其他像素值進行加權(quán)平均后得出,權(quán)重由高斯函數(shù)獲得。
由于磨粒圖像是離散的數(shù)據(jù),所以用到的高斯函數(shù)也需要進行離散化處理,高斯函數(shù)離散化之后是一個二維矩陣,通過與圖像數(shù)據(jù)進行卷積實現(xiàn)濾波效果,二維高斯函數(shù)為
(2)
將二維高斯函數(shù)離散化就得可以到高斯核,理論上離散后的高斯核是一個無限的模板,實際上高斯核一般只取距離中心一定范圍的離散值,其余部分都為0。本文使用3×3的高斯核,實驗表明相比于3×3的高斯核,5×5的高斯核雖然可以過濾掉更多噪聲干擾,但是會丟失磨粒的邊緣細節(jié),對輪廓點數(shù)、周長和面積的提取造成一定影響,因此,考慮到磨粒輪廓信息的準確性,本文使用3×3的高斯核,對于噪聲增加的問題會在1.2節(jié)進行解決。
平滑化處理后再將圖像進行二值化處理為磨粒輪廓提取做準備。圖像的磨粒圖像的預(yù)處理流程如圖3所示。
將圖像進行預(yù)處理之后,就需要提取磨粒的輪廓來采集磨粒的邊界信息和形狀信息。本文采用Canny算子來檢測磨粒的輪廓。Canny邊緣檢測有3個優(yōu)點:首先使用非極大抑制方法,保留了像素較大的點,具有一定的抗噪聲能力;其次使用雙閾值法對邊緣點進行選取,去除了圖像中的假邊緣點,具有更高的準確性;最后對邊緣像素周圍8鄰域像素進行檢測,判斷是否為邊緣點,可以獲得更連續(xù)準確的邊緣。圖4是使用Canny算子進行邊緣檢測的效果。
由于濾波時選用了3×3的高斯核,所以難以去除一些面積較大的雜質(zhì),在使用Canny算子提取輪廓后,會把磨粒圖像外部的雜質(zhì)輪廓一并提取,所以需要設(shè)定一個閾值來篩選符合要求的磨粒輪廓。鑒于本文研究的磨粒大小為75 μm左右,所以在提取輪廓后,對每一個輪廓進行周長和面積的計算,去除掉面積小于50像素或者周長小于300像素的輪廓,通過上述的篩選方法,則可以存儲圖片中所有的磨粒輪廓。
在對磨粒特征進行定義之前,需要對磨粒的中心點坐標進行確定,確定了磨粒中心點坐標,才能得到磨粒輪廓上的每個點的坐標,以便后續(xù)進行處理。對于得到的圖像來說坐標原點位于圖片的左上角,向右為x軸正方向,向下為y軸正方向。輪廓正上方的點是輪廓的第一個點,其他點的順序以順時針排列。為了方便后續(xù)數(shù)據(jù)的計算,磨粒的中心使用幾何中心(xc,yc),計算方式如下:
(3)
2.1.1 標準偏差的定義
為了更直觀地介紹本文定義的磨粒特征參數(shù),先將參考的磨粒形狀簡化為橢圓,記為等效分析磨粒,將等效分析磨粒的幾何中心作為坐標原點,根據(jù)等效分析磨粒的面積計算出橢圓的長短軸長度,并分別以長短半軸長度為半徑畫出兩個分析圓Cmin、Cmax(如圖5所示),適當分析等效分析磨粒上的點與Cmax上對應(yīng)點之間的徑向凹面偏差fRCD,就可以評估它們的偏差,基本分析可以如下所述進行:Cmin的半徑是從磨粒邊界到幾何中心的最小距離,而Cmax的半徑是最大距離。Cmin和Cmax圓心都與橢圓的幾何中心重合。因此磨粒邊界上的第i個點Ai的坐標即為(xi,yi),該點對應(yīng)的fRCD值記為δi,則
(4)
式中,R3為Cmax的半徑,xi,yi為Ai的橫縱坐標。
Fig.5 Schematic of wear particlefRCD
對于實際的磨粒圖像,可以通過繪制從幾何中心到等效分析磨粒和Cmax邊界對應(yīng)點的線段來確定fRCD的值,可以看出fRCD的值δi越小,意味磨粒輪廓上的每個點都與Cmax上對應(yīng)點的距離越短,即點Ai越接近圓Cmax。
考慮到大多數(shù)粒子的形狀是不規(guī)則的,它們的統(tǒng)計中位數(shù)的變化一般代表著不同的輪廓特征。因此,這些值的統(tǒng)計變化對于分析磨損顆粒的形狀和類型是有意義的。通常來說,如果中位數(shù)接近圓Cmax的半徑意味著磨粒形狀與圓Cmax的形狀非常接近,磨粒的形狀更接近圓形。對于局部fRCD值很大的樣本意味著磨粒形狀很大程度上偏離了圓Cmax,說明磨粒的形狀可能不對稱或者為水滴形。因此計算這些參數(shù)可以有效地分析和識別磨粒的幾何形狀,并且可以分析出導(dǎo)致這種幾何形狀出現(xiàn)的齒輪箱運行狀態(tài)。
如2.1中所述,fRCD值有助于比較和識別磨粒的特征并且能幫助確定磨損的類型,所以統(tǒng)計fRCD值的分布可以為確定磨粒不規(guī)則程度提供更完整的信息。在分析fRCD的值δi時,通常將它們的標準偏差σ規(guī)定如下:
(5)
其中,i=1,2,…,n(n是磨粒邊界點的總數(shù))。
2.1.2 邊緣規(guī)則度的定義
定義σ與顆粒面積AW的比率為邊緣規(guī)則度fRDA,根據(jù)顆粒形狀和輪廓在整體上的異常對磨粒進行分類。fRDA的值越小意味著磨粒的形狀和輪廓的異常越小,fRDA求法如下:
(6)
σ描述了磨粒邊緣的不規(guī)則度,而fRDA提供了磨粒的形狀特征的信息,這兩個特征都是用于定量分析磨粒特征的重要參數(shù)。但是σ沒有考慮到磨粒面積對磨粒邊緣不規(guī)則度的影響,一個σ比較大的磨粒,邊緣通常是較不規(guī)則的。但是如果某個磨粒的面積非常小,即使它的σ比較小,也可能有較高的邊緣不規(guī)則度。所以根據(jù)fRDA的定義,這種不規(guī)則度可以使用小顆粒的面積AW進一步放大,同樣也可以通過大顆粒的面積AW來適當稀釋。因此fRDA是一個可以用來衡量磨粒是否規(guī)則的參數(shù)。當與fRCD結(jié)合時,它是評估磨粒的獨特特征的另一個有意義的參數(shù)。
2.1.3 曲率的定義
(7)
由圖6和式(7)可以看出m的值越大平滑程度越好,但是如果選擇較大的m值,則可能無法反映曲線的原始精細特征。另一方面,如果m較小,則不會對曲率的采集產(chǎn)生足夠的平滑。因此,為特定樣本選擇合適的平滑因子非常重要?;舅枷胧沁x擇對應(yīng)于由輪廓包圍的360°角的固定比例的m值。實驗結(jié)果表明,兩個矢量的起始點之間間隔10°時,求取的曲率是相對優(yōu)秀的結(jié)果,因此,m的值由邊界點的數(shù)量和36的比值確定。
2.2.1 形狀規(guī)則度的定義
根據(jù)磨粒的輪廓,可由OpenCV提供的庫函數(shù)擬合得最小斜外接矩陣的4個頂點坐標,由此可計算出最小外接矩形的長Lp和寬Wp,所以為了評估磨粒的面積偏差,定義最小外接矩形和磨粒面積的比值fRCRA為
(8)
由于等效矩形區(qū)域Lp×Wp是一個足以包圍例子的包絡(luò),因此fRCRA的值可以用來確定磨粒和其最小斜外接矩形的接近程度,并且fRCRA的值永遠大于等于1。當fRCRA=1時,說明磨粒幾乎充滿了矩形,所以此時磨粒的形狀更接近矩形或規(guī)則的細長形。通過引入最大長度與最大寬度的磨??v橫比fRLW,可以進一步評估磨粒的細長程度。fRLW計算公式為
(9)
可以看出fRLW=1時表明磨粒接近正方形或圓形;fRLW>1時表明磨粒更接近矩形。
定義磨粒面積偏差fDWPA計算式為
(10)
式中,A1和A3分別為Cmin和Cmax的面積。
通過對Cmin和Cmax面積的計算,可以反映出磨粒的形狀。當A3-AW的值比較小時,意味著磨粒更接近圓形,此時的AW-A1也會比較小。通常來說,fDWPA的值越大表示磨粒更接近細長的橢圓形。
2.2.2 分形維數(shù)的定義
分形理論是研究自然界不規(guī)則和復(fù)雜現(xiàn)象的學科,自相似維數(shù)、盒計數(shù)維數(shù)和Hausdorff維數(shù)等都是分形理論中計算分形維數(shù)的常用方法,Hausdorff維數(shù)能夠較精確地計算分形維數(shù),所以本實驗采用Hausdorff維數(shù)對磨粒的分形維數(shù)進行計算。本實驗中磨粒的輪廓可以看成單個的不規(guī)則島形圖案,根據(jù)分形島的面積周長關(guān)系可以得出測定周界分形維數(shù)時,其計算方式為
(11)
其中,A為分形島的面積;P為分形島的周長;k為尺度常數(shù);D為面積分形維數(shù)[8]。
由式(11)可以推導(dǎo)出logP∝logA,因此使用式(11)可以計算單島的分形維數(shù)。當面積一定時,周長越長,則邊界越復(fù)雜,其分形維數(shù)也就越高,如圖7所示[9]。
現(xiàn)階段的研究[10-13]都會把磨粒類型按照3種方式分類。第一種為按照磨損類型把磨粒分為球形磨損、摩擦磨損、滑動磨損、切削磨損、斷裂和嚴重滑動磨損[13];第二種為根據(jù)形成機制把磨粒分為切割磨粒、疲勞磨粒、滑動磨粒和圓形磨粒等;第三種為根據(jù)磨粒形狀把磨粒分為邊緣規(guī)則磨粒、邊緣不規(guī)則磨粒、細長形磨粒和圓形磨粒[15]。前兩種通過假設(shè)特定的磨損過程會產(chǎn)生何種類型的顆粒來分類的,當僅考慮磨損模式時,這兩種假設(shè)是正確的。然而機器設(shè)備的磨損狀況很少只有單一的一種,不同的磨損情況和磨損類型也可能產(chǎn)生相同的磨粒。因此,將磨粒按照幾何類型進行統(tǒng)計分類,以便在不同場合中識別磨損模式的方法更適合于大量樣本分析。
這四種常見的幾何類型即邊緣規(guī)則磨粒、邊緣不規(guī)則磨粒、細長形磨粒和圓形磨粒(圖8),并且基于這四種幾何類型可以把磨粒的形成機制分成摩擦、疲勞、切割和嚴重粘附。在這四種類型的磨粒中,規(guī)則和不規(guī)則描述磨粒輪廓或邊緣,圓形和細長主要代表磨粒的幾何形狀,它們的情況反映設(shè)備的磨損狀況。表1總結(jié)了現(xiàn)有文獻[5,13-15]中按照上述參數(shù)規(guī)定的磨粒的幾何分類情況,該表把磨粒的幾何形狀和特征與其磨損類型相關(guān)聯(lián),并闡述了可能出現(xiàn)的磨損類型、形成機制和預(yù)期的設(shè)備維護操作。
本文按照上述規(guī)定建立了一個風電機組齒輪箱磨損顆粒的數(shù)據(jù)庫,包含495個磨粒圖像樣本,其中邊緣規(guī)則磨粒212個,邊緣不規(guī)則磨粒156個,細長形磨粒45個,圓形磨粒82個。將其用為本實驗中的分析對象。通過式(1)~(11)分別測定周長、面積、曲率、fRCD、σ、fRDA、fRCRA、fRLW、fDWPA和分形維數(shù)等特征。為了證明所提出的特征綜合提取方法能夠提高風電機組齒輪箱磨粒分類的準確性,本文將實驗樣本分為3組:組1單獨考慮磨粒的形狀信息,包含周長、面積、σ、fRDA和曲率5種特征;組2單獨考慮磨粒的邊緣信息,包含周長、面積、fRCRA、fRLW、fDWPA和分形維數(shù)6種特征;組3綜合考慮磨粒的形狀信息和邊緣信息包含全部的9種特征。每組數(shù)據(jù)包含495個磨粒樣本,其中397個用來訓(xùn)練隨機森林模型,98個用來測試模型的識別準確率。
隨機森林是通過集成學習的思想將多棵決策樹整合成森林的一種算法,它的基本單元是決策樹,它的本質(zhì)集成學習方法屬于機器學習的一個分支。同時隨機森林又是一種Bagging思想,對于一個輸入樣本,森林內(nèi)部的N棵樹會產(chǎn)生N個分類結(jié)果,隨機森林繼承了所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終輸出,所以它的準確率要比傳統(tǒng)決策樹更高。本文根據(jù)隨機森林的這一特點,建立模型的過程如下:
1) 對于大小為N的訓(xùn)練集,對于森林內(nèi)的每棵樹而言,隨機且有放回地從訓(xùn)練集抽取N個訓(xùn)練樣本作為該棵樹的訓(xùn)練集;
2) 如果每個樣本的特征維度為M,則制定一個常數(shù)m?M,隨機地從M個特征中選取m個特征子集,每次樹進行分裂時,從這m個特征中選擇最優(yōu)的;
3)每棵樹都盡最大程度生長,并且沒有剪枝過程。
通過隨機抽樣和隨機選取特征值使隨機森林不容易陷入過擬合并且有良好的抗噪能力。Gini指數(shù)又稱Gini不純度,表示樣本集合中隨機選中的一個樣本在子集中被分類錯誤的概率,本文使用Gini指數(shù)作為衡量標準計算特征重要性,節(jié)點m的Gini指數(shù)為
(12)
式中,K為類別個數(shù),pmk為節(jié)點m中隨機選取一個樣本屬于k類別的概率[18]。計算出來后,選擇Gini指數(shù)最小的那個特征作為最優(yōu)劃分特征。特別的當Gini指數(shù)為0時,表示一個節(jié)點中所有樣本都屬于同一個類別。
表1 磨粒形狀/輪廓類型、磨損模式和磨損嚴重程度的相關(guān)性Tab.1 Correlation of wear particles shape/contour type, wear pattern and wear severity
本實驗使用PyCharm搭配sklearn庫,通過調(diào)用sklearn庫中的RandomForestClassifier函數(shù)來完成隨機森林分類模型的構(gòu)建,RandomForestClassifier函數(shù)中參數(shù)n_estimators為每個模型中決策樹的數(shù)量,本實驗中將n_estimators設(shè)定為200,分別使用3組數(shù)據(jù)建立隨機森林分類模型,每組模型分別訓(xùn)練500次,得到每組數(shù)據(jù)的實驗次數(shù)和準確率的關(guān)系如圖9。
圖9中,綠色星形線為第一組只考慮邊界特征的分類準確率;藍色虛線為第二組只考慮形狀特征的分類準確率;紅色實線為第三組綜合邊界特征和形狀特征的分類準確率??梢钥闯?,第三組數(shù)據(jù)的準確率波動最小且準確率最高,平均準確率可達到85.52%,因此綜合考慮磨粒的邊界特征和形狀特征能有效提高磨粒識別的準確率。
同時測試集的98個磨粒中分別包含邊緣規(guī)則磨粒32個、邊緣不規(guī)則磨粒31個、細長磨粒12個和圓形磨粒23個。使用第三組數(shù)據(jù)的訓(xùn)練集進行建模,對測試集標簽進行檢測,在一次整體準確率為85.75%的實驗中,得到檢測磨粒樣本的標簽情況,如表2。
表2 隨機森林算法檢測結(jié)果Tab.2 Forecast results of random forest algorithm
表2中,橫向為對某種磨粒的檢測結(jié)果,例如使用模型對邊緣規(guī)則磨粒的特征進行檢測,檢測結(jié)果中有27個邊緣規(guī)則磨粒、2個邊緣不規(guī)則磨粒、0個細長磨粒和3個圓形磨粒。因此從表2中可以看出,模型對細長磨粒的識別準確率最高,達到100%,對邊緣規(guī)則磨粒、邊緣不規(guī)則磨粒和圓形磨粒的識別準確率分別為84.38%、83.87%和82.61%??梢钥闯鍪褂帽疚乃岢龅哪チL卣鬟x取方法可以有效地提高對磨粒類型的識別率,為后續(xù)根據(jù)磨粒種類確定設(shè)備運行狀態(tài)提供了很大幫助。
本文根據(jù)相關(guān)圖像處理方法和隨機森林算法研究了風電機組齒輪箱的磨粒分類問題。首先通過圖像處理的相關(guān)方法得到了磨粒的輪廓信息;隨后通過選取磨粒的邊界信息和形狀信息確定了周長、面積、曲率、σ、fRDA、fRCRA、fRLW、fDWPA和分形維數(shù)9個特征參數(shù),基于定量分析和實驗結(jié)果,證明這些特征參數(shù)能夠用來區(qū)分磨粒的特征和類型;最終采用隨機森林算法根據(jù)磨粒的形狀和輪廓分為4類,即邊緣規(guī)則磨粒、邊緣不規(guī)則磨粒、細長形磨粒和圓形磨粒,通過對比其他數(shù)據(jù)選擇方法,表明綜合分析磨粒的形狀特征和輪廓特征可以更準確地識別磨粒的類型。本文提出的綜合特征選取方法在風電機組齒輪箱磨粒分類的問題上確實有效,為以后分析風力發(fā)電機組齒輪箱的運行狀況及設(shè)備維護提供了重要幫助。