国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于集成支持向量機(jī)的故障診斷方法研究

2012-08-27 13:13:24王金彪
電光與控制 2012年2期
關(guān)鍵詞:雙重識(shí)別率分類(lèi)器

王金彪, 周 偉, 王 澍

(上海飛機(jī)設(shè)計(jì)研究院,上海 200235)

0 引言

近年來(lái),集成學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)研究熱點(diǎn),它通過(guò)訓(xùn)練多個(gè)基分類(lèi)器,并將結(jié)果按一定的方法進(jìn)行集成,可以顯著地提高分類(lèi)系統(tǒng)的泛化能力,許多學(xué)者對(duì)其進(jìn)行了廣泛的研究,許多學(xué)者開(kāi)始致力于研究集成學(xué)習(xí)的理論基礎(chǔ)和進(jìn)行算法設(shè)計(jì)[1-2]。

支持向量機(jī) (Support Vector Machines,SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的一種適合高維、小樣本數(shù)據(jù)分類(lèi)的學(xué)習(xí)器。和傳統(tǒng)的學(xué)習(xí)機(jī)器相比,它可以獲得和可利用樣本相匹配的學(xué)習(xí)能力,從而可以具有很好的推廣能力,在模式識(shí)別方面有很重要的應(yīng)用[3]。SVM具有較好的泛化能力和穩(wěn)定性(其結(jié)果不隨訓(xùn)練次數(shù)發(fā)生變化)。但是實(shí)際應(yīng)用中SVM也有一些缺點(diǎn):首先,SVM訓(xùn)練問(wèn)題實(shí)際上是一個(gè)凸二次優(yōu)化問(wèn)題,在解優(yōu)化問(wèn)題是采用了逼近算法,這會(huì)使結(jié)果不準(zhǔn)確;其次,SVM的性能很大程度上取決于核函數(shù)和模型參數(shù)的選擇,目前還沒(méi)有一個(gè)特別有效的方法可以準(zhǔn)確找到最優(yōu)參數(shù),這也會(huì)導(dǎo)致支持向量機(jī)的訓(xùn)練結(jié)果不是最優(yōu)的。

本文擬通過(guò)集成學(xué)習(xí)的方法來(lái)提高支持向量機(jī)的泛化能力,提高支持向量機(jī)的識(shí)別精度,并應(yīng)用到故障診斷中。

1 集成學(xué)習(xí)

1.1 概述

集成學(xué)習(xí)一般包含3個(gè)要素:基分類(lèi)器類(lèi)型、基分類(lèi)器生成方法和結(jié)論生成方法。常用的基分類(lèi)器有決策樹(shù)、K近鄰分類(lèi)器、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。基分類(lèi)器可以為同種類(lèi)型,也可以為不同類(lèi)型,分別稱(chēng)為同構(gòu)集成和異構(gòu)集成,其中同構(gòu)集成為研究重點(diǎn),異構(gòu)集成研究得較少。本文采用的基分類(lèi)器為支持向量機(jī)。同構(gòu)集成中基分類(lèi)器的生成方法主要有以下3大類(lèi)。

1)對(duì)訓(xùn)練集進(jìn)行處理。

如Breiman提出的Bagging方法,其思想是對(duì)訓(xùn)練集有放回地抽取訓(xùn)練樣本,從而為每一個(gè)基分類(lèi)器都構(gòu)造出一個(gè)跟訓(xùn)練集同樣大小但又各不相同的訓(xùn)練集,從而訓(xùn)練出不同的基分類(lèi)器,進(jìn)而構(gòu)建一個(gè)多分類(lèi)器系統(tǒng)[4]。

2)對(duì)數(shù)據(jù)特征進(jìn)行處理。

其思想為對(duì)于具有多特征的數(shù)據(jù)集,通過(guò)抽取不同的輸入特征子集分別進(jìn)行訓(xùn)練,從而獲得不同的基分類(lèi)器,把這些分類(lèi)器的分類(lèi)結(jié)果適當(dāng)整合能夠獲得比任何一個(gè)基分類(lèi)器的分類(lèi)精度都要高的分類(lèi)器,其中子空間法為其典型代表方法[5]。

3)通過(guò)隨機(jī)擾動(dòng)產(chǎn)生具有差異性的基分類(lèi)器。

隨機(jī)擾動(dòng)法的思想是在每個(gè)基分類(lèi)器的學(xué)習(xí)過(guò)程之中引入隨機(jī)擾動(dòng),使得學(xué)習(xí)出來(lái)的每個(gè)基分類(lèi)器都不同,如果基分類(lèi)器對(duì)隨機(jī)擾動(dòng)比較敏感,那么隨機(jī)擾動(dòng)法可以有效地產(chǎn)生多個(gè)不同的基分類(lèi)器。這種方法比較容易在人工神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)上進(jìn)行。對(duì)于人工神經(jīng)網(wǎng)絡(luò),使用后向傳遞算法來(lái)進(jìn)行學(xué)習(xí)的時(shí)候?qū)τ诿總€(gè)神經(jīng)網(wǎng)絡(luò)的初始權(quán)值進(jìn)行隨機(jī)分配,則產(chǎn)生的基分類(lèi)器會(huì)有很明顯的不同;又如,對(duì)于支持向量機(jī)集成,可以擾動(dòng)支持向量機(jī)模型中的核函數(shù)的參數(shù),進(jìn)而產(chǎn)生具有差異性的基分類(lèi)器。

1.2 集成學(xué)習(xí)的有效性

Hansen和Salamon經(jīng)過(guò)研究發(fā)現(xiàn),假設(shè)集成由N個(gè)獨(dú)立的基分類(lèi)器構(gòu)成,每個(gè)基分類(lèi)器的分類(lèi)錯(cuò)誤率為p,采用絕對(duì)多數(shù)投票法,當(dāng)參與集成的各基分類(lèi)器的錯(cuò)誤是不相關(guān)的,那么集成的誤差為[6]

當(dāng)基分類(lèi)器之間的錯(cuò)誤相關(guān)時(shí),相關(guān)系數(shù)為0≤α≤1,將模型簡(jiǎn)單化,假設(shè)各個(gè)基分類(lèi)器之間的錯(cuò)誤相關(guān)部分相同,那么集成后的誤差為

當(dāng)各個(gè)基分類(lèi)器的分類(lèi)錯(cuò)誤率均為p=0.2,相關(guān)系數(shù)為0,0.25,0.50,0.75,1 時(shí)(相關(guān)系數(shù)為0,即各基分類(lèi)器的錯(cuò)誤是完全不相關(guān);相關(guān)系數(shù)為1,即各基分類(lèi)器完全相同;相關(guān)系數(shù)越大意味著基分類(lèi)器之間的差異性越小),集成后的分類(lèi)錯(cuò)誤率如圖1所示。

圖1 集成分類(lèi)器錯(cuò)誤率與相關(guān)系數(shù)的關(guān)系Fig.1 The relationship of the error recognition rate and correlation coefficient

上述簡(jiǎn)化模型雖不能完全反映出集成后的錯(cuò)誤率與基分類(lèi)器間差異性的關(guān)系,但一定程度上表明了兩者的聯(lián)系,即通過(guò)集成學(xué)習(xí)得到的多分類(lèi)器系統(tǒng)對(duì)于基分類(lèi)器有一定的要求,否則多分類(lèi)器系統(tǒng)的泛化能力與單分類(lèi)器系統(tǒng)相比不一定能得到提高,基分類(lèi)器一般應(yīng)滿(mǎn)足以下兩個(gè)原則[7]:

1)基分類(lèi)器的精度應(yīng)達(dá)到一定要求,對(duì)太低的精度的基分類(lèi)器進(jìn)行集成不會(huì)有一個(gè)好的結(jié)果,但是基分類(lèi)器精度太高的話(huà),又會(huì)影響基分類(lèi)器之間的差異性;

2)各個(gè)基分類(lèi)器之間應(yīng)有一定的差異性,差異性是影響集成效果的重要因素,舉一個(gè)極端的例子來(lái)說(shuō),如果我們對(duì)10個(gè)相同的基分類(lèi)器進(jìn)行集成,顯而易見(jiàn),泛化能力不會(huì)有任何的提高,因?yàn)檫@10個(gè)基分類(lèi)器之間的差異性為零,這導(dǎo)致集成后沒(méi)有效果。

總之,基分類(lèi)器的精度越高、差異性越大,那么集成后的泛化能力越好,從圖1中可以看出,當(dāng)各個(gè)基分類(lèi)器相同時(shí)(即相關(guān)系數(shù)為1,差異性最小),集成后泛化能力沒(méi)有提高;隨著各個(gè)基分類(lèi)器之間差異性的增大(相關(guān)系數(shù)為0時(shí),差異性最大),集成后泛化能力提升越大。另外,從圖1中可以看出,隨著基分類(lèi)器個(gè)數(shù)的增多,集成誤差越來(lái)越小,當(dāng)基分類(lèi)器數(shù)達(dá)到15以后,集成后誤差變化不大;且隨著基分類(lèi)器個(gè)數(shù)的增多,模型也越復(fù)雜,訓(xùn)練、測(cè)試需要的時(shí)間也越多,因此本文在兩者之間取一個(gè)折衷,基分類(lèi)器數(shù)目取為15個(gè)。

1.3 支持向量機(jī)的穩(wěn)定性

本文采用的基分類(lèi)器為支持向量機(jī),經(jīng)典集成學(xué)習(xí)算法Bagging對(duì)于神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)有很好的提升作用,為了了解Bagging對(duì)支持向量機(jī)的作用,本文進(jìn)行了下述實(shí)驗(yàn),對(duì)于Image數(shù)據(jù)集,保持模型參數(shù)不變,分別隨機(jī)去除10%、20%、30%、40%、50%、60%、70%、80%、90%的數(shù)據(jù),形成9個(gè)新的數(shù)據(jù)集,每種情況下對(duì)數(shù)據(jù)集進(jìn)行了隨機(jī)劃分(按照6:4的比例,60%為訓(xùn)練集,40%為測(cè)試集),進(jìn)行了10次隨機(jī)劃分,支持向量機(jī)識(shí)別結(jié)果如圖2所示,神經(jīng)網(wǎng)絡(luò)識(shí)別結(jié)果如圖3所示。

圖2 SVM在Image數(shù)據(jù)集上的正確識(shí)別率Fig.2 The correct recognition rate of SVM

圖3 NN在Image數(shù)據(jù)集上的正確識(shí)別率Fig.3 The correct recognition rate of NN

為了更好地定性說(shuō)明問(wèn)題,對(duì)數(shù)據(jù)集進(jìn)行了100次隨機(jī)劃分(按照6:4的比例,60%為訓(xùn)練集,40%為測(cè)試集),計(jì)算了100次識(shí)別結(jié)果的正確識(shí)別率的均值和方差,如表1所示,方差即表征分類(lèi)器對(duì)數(shù)據(jù)變化的敏感程度。

表1 NN與SVM的穩(wěn)定性比較Table 1 The stability of NN and SVM

在表1中,在所有的去除率情況下,SVM的識(shí)別率均高于NN方法,且前者100次計(jì)算的方差遠(yuǎn)遠(yuǎn)小于后者,這說(shuō)明SVM相對(duì)于神經(jīng)網(wǎng)絡(luò)分類(lèi)器來(lái)說(shuō)是一種穩(wěn)定的分類(lèi)器,對(duì)數(shù)據(jù)擾動(dòng)不敏感,也就是說(shuō)它滿(mǎn)足了集成學(xué)習(xí)對(duì)基分類(lèi)器要求的第一個(gè)條件:基分類(lèi)器要有好的分類(lèi)精度,卻沒(méi)有滿(mǎn)足第二個(gè)條件——基分類(lèi)器要有較大的差異性。而B(niǎo)agging方法通過(guò)擾動(dòng)數(shù)據(jù)集,來(lái)形成不同的訓(xùn)練集,進(jìn)而來(lái)訓(xùn)練具有差異性的基分類(lèi)器,因而這種方法對(duì)穩(wěn)定性較差的分類(lèi)器算法如神經(jīng)網(wǎng)絡(luò)效果比較好,而對(duì)于穩(wěn)定性較好的SVM的泛化能力提升不大。

2 雙重?cái)_動(dòng)集成支持向量機(jī)

對(duì)于支持向量機(jī)集成,為了更好地?cái)U(kuò)大基分類(lèi)器的差異性,提高集成后的正確識(shí)別率,本文采用了同時(shí)擾動(dòng)數(shù)據(jù)特征和數(shù)據(jù)集的方法,來(lái)生成基分類(lèi)器,來(lái)達(dá)到提高基分類(lèi)器差異性的目的。

子空間法是一種通過(guò)擾動(dòng)特征來(lái)得到不同的訓(xùn)練集,進(jìn)而得到具有差異性的基分類(lèi)器的一種集成學(xué)習(xí)方法。其中的一個(gè)關(guān)鍵環(huán)節(jié)是:如何對(duì)特征進(jìn)行擾動(dòng)。本文將特征評(píng)估算法——Relief算法應(yīng)用到特征擾動(dòng)中,首先通過(guò)特征評(píng)估算法計(jì)算各個(gè)特征的權(quán)重,接著利用此權(quán)重向量,通過(guò)輪盤(pán)賭法產(chǎn)生一系列特征子集,進(jìn)而得到一系列不同的訓(xùn)練集,使得訓(xùn)練集具有差異性,最后得到一系列基分類(lèi)器,形成一個(gè)多分類(lèi)器系統(tǒng)。

Relief算法是從訓(xùn)練集中隨機(jī)選擇一個(gè)樣本R,然后從同類(lèi)樣本中尋找最近鄰樣本H,稱(chēng)為NearestHit,再?gòu)暮推洳煌?lèi)的樣本中尋找最近鄰樣本M,稱(chēng)為NearestMiss,然后對(duì)于每維特征,如果R和H在其上的距離小于R和M上的距離,則說(shuō)明此維特征對(duì)區(qū)分同類(lèi)和不同類(lèi)的最近鄰是有益的,則應(yīng)該增加該特征的權(quán)重;反之,如果R和H在其上的距離大于R和M上的距離,則說(shuō)明此維特征對(duì)區(qū)分同類(lèi)和不同類(lèi)的最近鄰是有害的,則應(yīng)該減小該特征的權(quán)重。Relief算法提出時(shí)針對(duì)于處理類(lèi)別數(shù)為兩類(lèi)的數(shù)據(jù)的分類(lèi)問(wèn)題,后來(lái)Kononenko擴(kuò)展了Relief算法得到了ReliefF算法,ReliefF可以解決多類(lèi)問(wèn)題以及回歸問(wèn)題。實(shí)際上故障診斷中分類(lèi)問(wèn)題一般為多類(lèi)分類(lèi),因此需要利用Relief擴(kuò)展后的算法ReliefF。ReliefF算法在處理多類(lèi)問(wèn)題時(shí),不是從所有不同類(lèi)樣本集合中統(tǒng)一選擇最近鄰樣本,而是從每個(gè)不同類(lèi)別的樣本集合中選擇最近鄰樣本,并且不是選擇一個(gè)最近鄰樣本,而是選擇k個(gè)最近鄰樣本[8-9]。ReliefF算法偽代碼如下所述。

通過(guò)上述RelidfF算法得到的權(quán)重向量,利用輪盤(pán)賭法進(jìn)行特征的選擇,雙重?cái)_動(dòng)集成支持向量機(jī)算法偽代碼如下所述。

3 試驗(yàn)驗(yàn)證

3.1 標(biāo)準(zhǔn)數(shù)據(jù)集驗(yàn)證

為了了解雙重?cái)_動(dòng)集成算法對(duì)支持向量機(jī)泛化能力的提升作用,本文對(duì)于雙重?cái)_動(dòng)集成支持向量機(jī)在標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。其中集成支持向量機(jī)中基分類(lèi)器個(gè)數(shù)為15,對(duì)于多類(lèi)識(shí)別問(wèn)題,采用一對(duì)一方法將兩類(lèi)支持向量機(jī)擴(kuò)展為多類(lèi)支持向量機(jī)。所有支持向量機(jī)核函數(shù)選為徑向基核函數(shù),最優(yōu)參數(shù)通過(guò)網(wǎng)格法得到。子空間集成支持向量機(jī)和支持向量機(jī)在測(cè)試集上的正確識(shí)別率如表2所示,均值和方差為算法重復(fù)100次的結(jié)果(每次對(duì)數(shù)據(jù)進(jìn)行按6:4的隨機(jī)劃分)。

表2 識(shí)別結(jié)果對(duì)比分析Table 2 Comparison of the recognition results

由表2可以看出,除了German數(shù)據(jù)集,在其他6個(gè)數(shù)據(jù)集上,雙重?cái)_動(dòng)集成SVM較SVM正確識(shí)別率都有不同程度的提高,并且方差都比SVM小,說(shuō)明雙重?cái)_動(dòng)集成支持向量機(jī)比SVM有更強(qiáng)的穩(wěn)定性,泛化能力較SVM有了提升。雙重?cái)_動(dòng)集成SVM在這6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的正確識(shí)別率比子空間集成SVM的正確識(shí)別率高,究其原因,是由于雙重?cái)_動(dòng)法采用了兩種機(jī)制對(duì)數(shù)據(jù)進(jìn)行了擾動(dòng),因此集成后結(jié)果較好。

3.2 故障數(shù)據(jù)驗(yàn)證

為驗(yàn)證雙重?cái)_動(dòng)集成支持向量機(jī)在故障診斷中的作用,對(duì)在立式試驗(yàn)臺(tái)上得到的正常狀態(tài)、不平衡狀態(tài)、碰磨狀態(tài)、半頻渦動(dòng)狀態(tài)4種試驗(yàn)數(shù)據(jù),進(jìn)行了分類(lèi)識(shí)別。

故障診斷第一步,通過(guò)時(shí)域特征提取和小波包特征提取方法對(duì)信號(hào)進(jìn)行分析,提取所需要的特征向量。對(duì)信號(hào)進(jìn)行了時(shí)域特征提取,分別提取了波形指標(biāo)、峰值指標(biāo)、脈沖指標(biāo)、裕度指標(biāo)、偏斜度指標(biāo)、峭度指標(biāo)以及峰峰值,作為特征向量中的7個(gè)參數(shù)。再加上由小波包分解得到的16個(gè)特征,總共23個(gè)特征組成一個(gè)樣本。從這4種狀態(tài)中總共提出500個(gè)樣本,其中正常狀態(tài)100個(gè)樣本,不平衡狀態(tài)200個(gè)樣本,碰磨狀態(tài)100 個(gè)樣本,半頻渦動(dòng)100 個(gè)樣本[10-11]。

故障診斷第二步,利用雙重?cái)_動(dòng)集成支持向量機(jī)和支持向量機(jī)對(duì)其進(jìn)行分類(lèi)識(shí)別,其中訓(xùn)練集為300個(gè)樣本,測(cè)試集為200個(gè)樣本,基分類(lèi)器個(gè)數(shù)為15個(gè),支持向量機(jī)核函數(shù)為徑向基核函數(shù),核函數(shù)參數(shù)通過(guò)網(wǎng)格法得到,識(shí)別結(jié)果如表3所示。試驗(yàn)結(jié)果表明,雙重?cái)_動(dòng)法提高了支持向量機(jī)的正確識(shí)別率。

表3 故障診斷結(jié)果對(duì)比分析Table 3 Comparison of the fault diagnosis results

4 結(jié)論

本文對(duì)集成學(xué)習(xí)方法在支持向量機(jī)上的應(yīng)用進(jìn)行了研究,通過(guò)模擬試驗(yàn)證明了支持向量機(jī)的穩(wěn)定性,說(shuō)明了傳統(tǒng)集成學(xué)習(xí)方法對(duì)其泛化能力提升有限,進(jìn)而提出了雙重?cái)_動(dòng)法。采用了適合的特征評(píng)估算法——ReliefF算法得到權(quán)重向量,進(jìn)而通過(guò)輪盤(pán)賭法得到子空間法所需要的特征子集,并與Bagging算法結(jié)合起來(lái),形成了雙重?cái)_動(dòng)法,在標(biāo)準(zhǔn)數(shù)據(jù)集及實(shí)際故障數(shù)據(jù)上進(jìn)行了試驗(yàn),結(jié)果表明,雙重?cái)_動(dòng)法較好地提升了支持向量機(jī)的泛化能力。

[1] DIETTERICH T G.Machine learning research:Four current directions[J].AI Magazine,1997,18(4):97-136.

[2] VALENTINI G,MASULLI F.Ensembles of learning machines[R].Neural Nets WIRN Vietri-02,Series Lecture Notes in Computer Sciences,2002.

[3] VAPNIK V.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].張學(xué)工,譯.北京:清華大學(xué)出版社,2000.

[4] BREIMAN L.Bagging predictors[J].Machine Learning,1996,24:123-140.

[5] ZHANG Y Q,RAJAPAKSE J C.Feature selection for ensemble learning and its application[M].New Jersey:John Wiley & Sons,2008.

[6] HANSEN L K,SALAMON P.Neural network ensembles[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,1990,12(10):993-1001.

[7] DIETTERICH T G.Ensemble learning[J].The Handbook of Brain Theory and Neural Networks,2002:1-9.

[8] KIRA K,RENDELL A A.The feature selection problem:Traditional methods and a new algorithm[C]//Proceedings of the Ninth National Conference on Artificial Intelligence,1992:129-134.

[9] KONONENKO.Estimation attributes:Analysis and extensions of RELIEF[J].Proceedings of the 1994 European Conference on Machine Learning,1994(784):171-182.

[10] 胡橋,何正嘉,張周鎖.基于提升小波包變換和集成支持向量機(jī)的早期故障智能診斷[J].機(jī)械工程學(xué)報(bào),2006(8):16-22.

[11] 張岐龍,單甘霖,段修生,等.基于小波支持向量機(jī)的模擬電路故障診斷[J].電光與控制,2010,17(5):66-69.

猜你喜歡
雙重識(shí)別率分類(lèi)器
自然與成長(zhǎng)的雙重變奏
基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
化解“雙重目標(biāo)”之困
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
BP-GA光照分類(lèi)器在車(chē)道線(xiàn)識(shí)別中的應(yīng)用
加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
高速公路機(jī)電日常維護(hù)中車(chē)牌識(shí)別率分析系統(tǒng)的應(yīng)用
“雙重打擊”致恐龍滅絕
云龙县| 永仁县| 巫溪县| 青川县| 漳州市| 汉中市| 姚安县| 台南市| 仁化县| 株洲县| 河曲县| 沂水县| 汾西县| 邵阳市| 周至县| 景宁| 河曲县| 苏尼特右旗| 洪雅县| 彭山县| 黔西县| 美姑县| 武汉市| 桐城市| 辽阳市| 墨脱县| 铜山县| 民丰县| 新龙县| 方城县| 沙雅县| 太仆寺旗| 博湖县| 长丰县| 海口市| 大关县| 徐水县| 体育| 新宾| 怀仁县| 廊坊市|