国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于加權(quán)合成少數(shù)類過采樣技術(shù)的故障診斷

2016-01-02 09:18韓志艷
關(guān)鍵詞:鄰域類別故障診斷

韓志艷,王 健

(渤海大學(xué)工學(xué)院,遼寧錦州 121000)

基于加權(quán)合成少數(shù)類過采樣技術(shù)的故障診斷

韓志艷,王 健

(渤海大學(xué)工學(xué)院,遼寧錦州 121000)

合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)是一種著名的過采樣方法,但是它沒有考慮樣本的分布和潛在的噪聲數(shù)據(jù)。為了改善SMOTE的性能,提出了加權(quán)合成少數(shù)類過采樣技術(shù)(Weighted Synthetic Minority Oversampling Technique,WSMOTE)。WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群,不同的群組擁有不同的采樣價(jià)值,然后根據(jù)采樣價(jià)值的不同加權(quán)合成樣本。WSMOTE在處理類別不平衡數(shù)據(jù)時(shí)具有優(yōu)異的性能,并在半導(dǎo)體制造過程的監(jiān)控?cái)?shù)據(jù)仿真中得到了驗(yàn)證。

故障診斷;類別不平衡;SMOTE;過采樣技術(shù)

0 引言

近年來,半導(dǎo)體制造工業(yè)一直保持較高的增長速度。半導(dǎo)體制造是一個(gè)非常復(fù)雜的生產(chǎn)過程,由數(shù)百個(gè)步驟構(gòu)成,其中晶元制造是其最關(guān)鍵的一步。晶元制造工藝包括一系列步驟,以在晶元表面覆蓋特殊的材料層。在這個(gè)復(fù)雜的過程中,一些很小的缺陷就可以使最終的產(chǎn)品測試失敗。因此,為了滿足半導(dǎo)體工藝的質(zhì)量要求,故障診斷與分類研究成為當(dāng)前的熱點(diǎn)問題[1]。

如今,隨著數(shù)據(jù)收集和采集技術(shù)被廣泛應(yīng)用于半導(dǎo)體制造過程中,如何使用大量的已收集到的數(shù)據(jù)來有效地描述生產(chǎn)過程,極大地促進(jìn)了基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷方法的研究工作。最近一些基于模式識(shí)別的故障診斷方法被提出以解決半導(dǎo)體制造過程中出現(xiàn)的非線性和多批次軌跡問題。例如,He等[2]提出在半導(dǎo)體工業(yè)的故障檢測中使用k-最近鄰(KNN)規(guī)則來完成故障分類。Verdier等[3]同樣應(yīng)用了KNN規(guī)則,但他們提出的方法使用自適應(yīng)馬氏距離來代替?zhèn)鹘y(tǒng)的歐幾里得距離。然而,在半導(dǎo)體故障診斷過程中的數(shù)據(jù)類別不平衡特性,給這些方法的應(yīng)用帶來了困難,由于與正常工況的數(shù)據(jù)相比,故障工況的數(shù)據(jù)常常難以獲取,所以工業(yè)現(xiàn)場中收集的監(jiān)測數(shù)據(jù)常常具有嚴(yán)重的類別不平衡特性。在這種情況下,傳統(tǒng)的分類器傾向于將數(shù)據(jù)歸類于多數(shù)類(正常工況),以得到更高的總體準(zhǔn)確率而忽視了少數(shù)類(故障工況)的準(zhǔn)確率。然而,在故障診斷中,最重視的往往是少數(shù)類(故障工況)的分類準(zhǔn)確率。在解決這一問題的方法中,重采樣技術(shù)最為常用,特別是合成少數(shù)類過采樣技術(shù)(SMOTE)引起了研究者的廣泛關(guān)注[4]。Chawla的實(shí)驗(yàn)研究表明,SMOTE能夠比其他采樣方法取得更好的效果[5]。該文在SMOTE的基礎(chǔ)上,提出了一種加權(quán)合成少數(shù)類過采樣技術(shù)(Weighted Synthetic Minority Oversampling Technic,WSMOTE),通過有選擇的過采樣少數(shù)類樣本來平衡兩類樣本在數(shù)量上的差距。

1 合成少數(shù)類過采樣技術(shù)

合成少數(shù)類過采樣技術(shù)(the Synthetic Minority Oversampling Technique,SMOTE)是一種主要的過采樣技術(shù),主要用來解決在分類問題中出現(xiàn)的樣本分布不均衡。該算法的思想是合成新的少數(shù)類樣本,以獲得均衡的樣本分布。合成策略是對每個(gè)少數(shù)類樣本x,搜索k個(gè)少數(shù)類最近鄰樣本;若向上采樣的倍率為n,則在其k個(gè)最近鄰樣本中隨機(jī)選擇n個(gè)樣本,記為y1,y2,…,yn;在少數(shù)類樣本x與yj(j=1,2,…,n)之間隨機(jī)線性插值,構(gòu)造新的少數(shù)類樣本pj。

其中,rand(0,1)表示(0,1)內(nèi)的一個(gè)隨機(jī)數(shù)。

圖1是一個(gè)SMOTE算法的范例。

如圖所示:xi為某一個(gè)少數(shù)類樣本,xi1,xi2,xi3,xi4分別為xi的四個(gè)近鄰,r1,r2,r3,r4為生成的四個(gè)新的人造數(shù)據(jù)。

2 加權(quán)合成少數(shù)類過采樣技術(shù)

SMOTE是一種著名的過采樣方法,但是它沒有考慮樣本的分布和潛在的噪聲數(shù)據(jù)。為了改善SMOTE的性能,文中提出了加權(quán)合成少數(shù)類過采樣技術(shù)(WSMOTE)。

由于基于流形假設(shè)的局部拓?fù)浣Y(jié)構(gòu)既受到類間的不平衡的影響又受到類內(nèi)不平衡的干擾,因此WSMOTE算法分別從類內(nèi)和類間兩個(gè)層面研究樣本的分布和潛在的噪聲影響。在本節(jié)中,類間不平衡是指樣本的多數(shù)類的數(shù)目不同于少數(shù)類的數(shù)目的情況;類內(nèi)不平衡是指同一類樣本是由許多不同的子群組成,而這些子群的重要性是不同的。

同SMOTE相似,WSMOTE通過產(chǎn)生合成樣本解決類間不平衡問題。在處理類內(nèi)不平衡時(shí),WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群再加權(quán)合成樣本來解決。

如圖2所示,點(diǎn)q和r分別是近鄰的類間樣本xq和xr,N(xq)和N(xr)是它們各自的近鄰,其對應(yīng)的鄰域并寫作 N(xq,xr),其中 N(xq,xr)=N(xq)∪N(xr)。顯然,xq和 xr的關(guān)系處于 N(xq,xr)的約束下。當(dāng)xq和xr是類內(nèi)近鄰樣本,鄰域并也可以用同樣的方式定義。

在鄰域并中,從局部類別分布上看,由于N(xq,xr)對xq和xr間關(guān)系的約束能分解為N(xq)和N(xr) 對xq和xr各自的約束。如果Nw(xr)≠?且Nb(xr)≠?,其中?是空集,Nw(xr)和Nb(xr)分別表示xr的類內(nèi)鄰域和類間鄰域,可以令xr是一個(gè)邊界樣本。如果樣本xr的近鄰都位于Nb(xr)里,即Nw(xr)≠?,這樣的樣本可以假定是孤立樣本。如果一個(gè)樣本被同類近鄰包圍,即Nb(xr)≠?,令xr是內(nèi)部樣本。因此,根據(jù)局部類別分布與樣本所屬類別的數(shù)據(jù)量大小,樣本可劃分到六個(gè)不同子集中:

ANy:由大類和中等類的孤立樣本所組成的噪聲樣本集;

ALmg:大類和中等類的邊界樣本集; ALin:大類和中等類的內(nèi)部樣本集; ASiso:小類的孤立樣本集; ASmg:小類的邊界樣本集; ASin:小類的內(nèi)部樣本集。

在樣本集中,每個(gè)樣本僅僅屬于一個(gè)集合,這六個(gè)子集的并集構(gòu)成了整個(gè)樣本集。圖2給出了特征空間的一個(gè)場景示例,其中方塊、圓塊和三角形分別代表大類、中等類和小類的樣本。樣本xq和xr分別受N(xq) 和N(xr)約束,xq和xr之間的關(guān)系受N(xq,xr)約束。根據(jù)樣本子集的定義,樣本可以如下歸類:ASin={a},ASmg=,ASiso={c},ALin={ALin1∪ALin2∪ALin3∪…},ALmg={ALmg1∪ALmg2∪ALmg3∪…},并且ANy={d,e}。

不同的局部分布類型對具有不同的采樣價(jià)值。內(nèi)部樣本代表了一個(gè)特定類別的典型屬性,所以可以看作標(biāo)準(zhǔn)樣本。和內(nèi)部樣本不同,邊界樣本在特征空間中離類間樣本很近,因此有更高的誤分可能性。因?yàn)楣铝颖九c異類樣本更相似,所以有最高的誤分可能性。因此,WSMOTE根據(jù)不同的策略選擇生成合成樣本。具體規(guī)則如下:算法隨機(jī)地從ASin集合中選擇樣本的k近鄰產(chǎn)生合成樣本,從ASmg集合中選擇樣本最近鄰產(chǎn)生合成樣本,對ASiso集合不合成任何樣本,移除ANy集合中的樣本。

3 仿真實(shí)驗(yàn)及結(jié)果分析

文中使用SECOM數(shù)據(jù)集驗(yàn)證WSMOTE算法的有效性。首先介紹了不平衡數(shù)據(jù)分類性能的評(píng)估方法。然后,簡要介紹了SECOM數(shù)據(jù)集。最后,分析了在SECOM數(shù)據(jù)集中獲得的仿真結(jié)果。

3.1 不平衡數(shù)據(jù)分類性能評(píng)估方法

在故障診斷實(shí)踐中,由于正常工況數(shù)據(jù)容易獲得,而故障工況數(shù)據(jù)難以獲得,導(dǎo)致訓(xùn)練數(shù)據(jù)廣泛存在類不平衡情形[6-8]。當(dāng)處理類分布不平衡數(shù)據(jù)時(shí),由于多數(shù)類占優(yōu)勢,分類邊界偏置于優(yōu)勢數(shù)據(jù),經(jīng)典分類算法面臨對少數(shù)類預(yù)測能力下降的問題,從而影響整體預(yù)測性能。

表1所示的混淆矩陣表達(dá)了樣例分類的分布情況?;煜仃囀怯?jì)算若干分類器性能度量的基礎(chǔ)。

對于兩類問題,通常稱少數(shù)類為正類,稱多數(shù)類為負(fù)類,正確率Acc和錯(cuò)誤率Err為:

正確率Acc和錯(cuò)誤率Err是常用的分類器性能度量,但是,這兩個(gè)度量對類不平衡敏感,過于偏置多數(shù)類。在處理不平衡數(shù)據(jù)時(shí),使用Acc或Err將會(huì)導(dǎo)致性能比較的錯(cuò)誤結(jié)果[9]。

以下度量由混淆矩陣派生,也是其他度量的基礎(chǔ):

真正率:

真負(fù)率:

假正率:

假負(fù)率:

顯然,分類器想要在兩個(gè)類別中均取得良好的分類性能,單靠其中某一個(gè)性能指標(biāo)是不能勝任的,需要把其中某些指標(biāo)結(jié)合起來,形成一種新的評(píng)價(jià)基準(zhǔn)。

3.2 SECOM數(shù)據(jù)集簡介

文中使用的SECOM數(shù)據(jù)集[10]是從真實(shí)的半導(dǎo)體制造生產(chǎn)線上獲取的相關(guān)數(shù)據(jù)。SECOM數(shù)據(jù)集包含2個(gè)文件,數(shù)據(jù)文件包含1 567個(gè)樣本,每個(gè)樣本包含591個(gè)特征,標(biāo)簽文件包含每個(gè)樣本的分類標(biāo)簽和采樣時(shí)間。如同多數(shù)采自工業(yè)現(xiàn)場的數(shù)據(jù),數(shù)據(jù)集中很多特征對應(yīng)著空值或常值,這一情況需要在數(shù)據(jù)預(yù)處理階段進(jìn)行處理。

3.3 結(jié)果和分析

在數(shù)據(jù)預(yù)處理階段,由于SECOM數(shù)據(jù)集中的某些特征包含空白值或常值,共刪除了137個(gè)特征,這些特征符合80%的數(shù)據(jù)記錄丟失或?yàn)槌V?,在剩余?54個(gè)特征中,使用10倍交叉驗(yàn)證技術(shù)驗(yàn)證用于比較的各種模型算法。所以,首先把SECOM數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集包含從原始數(shù)據(jù)集中隨機(jī)選擇的94個(gè)故障樣本和1 037個(gè)正常樣本,測試數(shù)據(jù)集包含250個(gè)樣本,其中,故障樣本104個(gè),正常樣本146個(gè)。WSMOTE中的ASin取值為3。

為了比較SMOTE+PCA(SPCA),WSMOTE+PCA (WPCA),SMOTE+FDA(SFDA),WSMOTE+FDA(WFDA),SMOTE+MFA(SMFA),WSMOTE+MFA(WMFA)的性能,在SECOM數(shù)據(jù)集分別使用它們進(jìn)行特征選擇,進(jìn)行對比研究。其中,SPCA,SFDA和SMFA是首先使用SMOTE進(jìn)行類別數(shù)據(jù)再平衡后再和主元分析(Principal Component Analysis,PCA)[11-13]、費(fèi)舍爾判別分析(Fisher Discriminant Analysis,F(xiàn)DA)[14]、邊際費(fèi)舍爾分析(Margin Fisher Analysis,MFA)[15]相結(jié)合產(chǎn)生的特征提取算法;WPCA,WFDA和WMFA是首先使用WSMOTE進(jìn)行類別數(shù)據(jù)再平衡后再和PCA,F(xiàn)DA和MFA相結(jié)合產(chǎn)生的特征提取算法。圖3分別比較了六種算法的多種性能指標(biāo)。

從圖3可以看出,在六種算法中,WFDA擁有最佳的分類性能,因?yàn)樗軌驖M足對一個(gè)好的特征選擇算法的期望,即擁有高的TPR,TNR和Acc,擁有低的FPR和FNR。而且,所有使用了WSMOTE算法的特征選擇方法在故障樣本的識(shí)別性能上均優(yōu)于使用SMOTE算法的特征選擇方法。它表明,WSMOTE算法可以通過有選擇地增加故障樣本的數(shù)量,改進(jìn)訓(xùn)練數(shù)據(jù)集的樣本多樣性,從而改善特征選擇算法的性能。但是,有時(shí)使用WSMOTE算法的模型會(huì)降低多數(shù)類(正常樣本)的分類性能,這是由于想在兩個(gè)類別中同時(shí)獲得更優(yōu)的性能是一件困難的事情,因此在實(shí)施這一算法時(shí)應(yīng)綜合考慮多方面因素。

4 結(jié)束語

在SMOTE的基礎(chǔ)上,提出WSMOTE算法用于解決故障診斷過程中因故障數(shù)據(jù)難以獲得而出現(xiàn)的數(shù)據(jù)類別不平衡問題。該算法分別從類內(nèi)和類間兩個(gè)層面研究樣本的分布和潛在的噪聲影響。同SMOTE相似,WSMOTE通過產(chǎn)生合成樣本解決類間不平衡問題。在處理類內(nèi)不平衡時(shí),WSMOTE通過引入鄰域并將樣本按照分布的不同劃分為不同的組群,不同的群組擁有不同的采樣價(jià)值,然后根據(jù)采樣價(jià)值的不同加權(quán)合成樣本來解決。WSMOTE在處理類別不平衡數(shù)據(jù)時(shí)具有優(yōu)異的性能,并在半導(dǎo)體制造過程的監(jiān)控?cái)?shù)據(jù)仿真中得到了驗(yàn)證。

[1] Bleakie A,Djurdjanovic D.Feature extraction,condition monitoring,and fault modeling in semiconductor manufacturing systems[J].Computers in Industry,2013,64(3):203-213.

[2] He Q P,Wang J.Fault detection using the k-Nearest neighbor rule for semiconductor manufacturing processes[J].IEEE Transactions on Semiconductor Manufacturing,2007,20(4): 345-354.

[3] Verdier G,F(xiàn)erreira A.Adaptive mahalanobis distance and knearest neighbor rule for fault detection in semiconductor manufacturing[J].IEEE Transactions on Semiconductor Manufacturing,2011,24(1):59-68.

[4] Chawla N V,Hall L O,Bowyer K W,et al.SMOTE:synthetic minority over sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.

[5] Chawla N V.C4.5 and imbalanced datasets:Investigating the effect of sampling method,probabilistic estimate,and decision tree structure[C]//Proceedings of the workshop on learning from imbalanced datasets.Washington D C:[s.n.],2003:17-23.

[6] Chawla N V.Data mining and knowledge discovery handbook [M].Berlin:Springer,2010:857-886.

[7] 王和勇,樊泓坤,姚正安.SMOTE和Biased-SVM相結(jié)合的不平衡數(shù)據(jù)分類方法[J].計(jì)算機(jī)科學(xué),2008,35(5):174-176.

[8] Cebe M,Gunduz-Demir C.Qualitative test-cost sensitive classification[J].Pattern Recognition Letters,2010,31(13): 2043-2051.

[9] Elazrneh W,Japkowicz N,Matwin S.Evaluating misclassifications in imbalanced data[C]//Proc of the 17th European conference on machine learnin.Berlin:Springer,2006:126-137.

[10]McCann M,Li Y,Maguire L.Causality challenge:benchmarking relevant signal components for effective monitoring and process control[C]//Proc of JMLR.Canada:[s.n.],2008: 277-288.

[11]Wang T,Xu H,Han J,et al.Cascaded h-bridge multilevel inverter system fault diagnosis using a PCA and multiclass relevance vector machine approach[J].IEEE Transactions on Power Electronics,2015,30(12):7006-7018.

[12]Ding S,Zhang P,Ding E,et al.On the application of PCA technique to fault diagnosis[J].Tsinghua Science and Technology,2010,15(2):138-144.

[13]Wang N,Yuan Z H,Wang D.Improving process fault detection and diagnosis using robust PCA and robust FDA[C]//Proc of WRI world congress on computer science and information engineering.USA:IEEE,2009:54-59.

[14]Tang X C,Yuan L.Monitoring and fault diagnosis using fisher discrimnant analysis[C]//Proc of the international conference on machine learning and cybernetics.USA:IEEE,2007:1100-1105.

[15]Tsang I W,Kocsor A,Kwok J T Y.Large-scale maximum margin discriminant analysis using core vector machines[J].IEEE Transactions on Neural Networks,2008,19(4):610-624.

Fault Diagnosis Method Based on Weighted Synthetic Minority Oversampling Technique

HAN Zhi-yan,WANG Jian
(College of Engineering,Bohai University,Jinzhou 121000,China)

The Synthetic Minority Oversampling Technique(SMOTE)is a famous oversampling method,whereas it doesn’t consider the distribution of samples and latent noises in the data.In order to improve the performance of SMOTE,a modified method,the Weighted Synthetic Minority Oversampling Technique(WSMOTE),is proposed.WSMOTE introduces the neighborhood union to classify the samples into several groups,and different groups have different importance.Then,WSMOTE generates synthetic sample according to the different importance.The proposed method has a better performance when dealing with class imbalance data and it is demonstrated through its application to the semiconductor wafer fabrication process.

fault diagnosis;class imbalance;SMOTE;oversampling technique

TP391.4

A

1673-629X(2016)09-0043-04

10.3969/j.issn.1673-629X.2016.09.010

2015-10-28< class="emphasis_bold">修回日期:20

2016-02-24< class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間:

時(shí)間:2016-08-23

國家自然科學(xué)基金資助項(xiàng)目(61403042,61503038);遼寧省教育科研計(jì)劃項(xiàng)目(L2013423)

韓志艷(1982-),女,博士,副教授,研究方向?yàn)榍楦凶R(shí)別、語音識(shí)別。

http://www.cnki.net/kcms/detail/61.1450.TP.20160823.1359.042.html

猜你喜歡
鄰域類別故障診斷
基于混合變鄰域的自動(dòng)化滴灌輪灌分組算法
基于包絡(luò)解調(diào)原理的低轉(zhuǎn)速滾動(dòng)軸承故障診斷
論陶瓷刻劃花藝術(shù)類別與特征
含例鄰域邏輯的薩奎斯特對應(yīng)理論
一起去圖書館吧
尖銳特征曲面點(diǎn)云模型各向異性鄰域搜索
數(shù)控機(jī)床電氣系統(tǒng)的故障診斷與維修
基于量子萬有引力搜索的SVM自駕故障診斷
江淮同悅純電動(dòng)汽車無倒檔故障診斷與排除
選相紙 打照片
曲靖市| 永嘉县| 紫金县| 岳阳市| 玉环县| 沙河市| 大城县| 伽师县| 榆中县| 扎兰屯市| 宝坻区| 永州市| 安多县| 清苑县| 滨海县| 靖边县| 广西| 镇江市| 新巴尔虎左旗| 简阳市| 安仁县| 云梦县| 莲花县| 彰化市| 滨州市| 新乐市| 紫金县| 含山县| 交口县| 津市市| 平山县| 古丈县| 辽宁省| 德昌县| 偃师市| 台东县| 永修县| 邵东县| 永安市| 肥东县| 蒙城县|