儲國平,韋春洲,鄒景明,尹國麗
(1.上海市數(shù)字化汽車車身工程重點(diǎn)實(shí)驗(yàn)室,上海 200240; 2.上汽通用五菱汽車股份有限公司,柳州 545007)
在汽車車身及其分總成和零件的測量數(shù)據(jù)中,個(gè)別測量值在時(shí)序上與其他數(shù)據(jù)有明顯差異,稱之為異常值。異常值產(chǎn)生的原因有兩種,一種由測量粗大誤差引起,如塞尺、面差尺手工測量時(shí)的讀數(shù)和填寫錯(cuò)誤,測量儀器的本身缺陷或操作失誤等;另一種由生產(chǎn)過程突變引起,如工人操作失誤,生產(chǎn)環(huán)境的突然改變等。異常值若不經(jīng)恰當(dāng)處理,會大大影響后續(xù)數(shù)據(jù)處理的精度。而在小樣本狀態(tài)下,異常值的檢出更需謹(jǐn)慎,因?yàn)閿?shù)據(jù)量較少,一個(gè)值對數(shù)據(jù)整體的影響更大,而且本身樣本量較少,不正確剔除將導(dǎo)致數(shù)據(jù)量不足,且會丟失重要信息。
常用的異常值判別準(zhǔn)則為基于統(tǒng)計(jì)的方法[1]有:奈爾檢驗(yàn)法、拉伊達(dá)3σ準(zhǔn)則、格拉布斯(Grubbs)準(zhǔn)則、狄克遜(Dixon)準(zhǔn)則、偏度-峰度檢驗(yàn)法等。文獻(xiàn)[2]中推導(dǎo)了特殊分布下的異常值檢測方法。文獻(xiàn)[3]中使用Outliar快速算法來檢測離群值,此方法需要大量數(shù)據(jù)作為計(jì)算依據(jù)。上述方法都要求數(shù)據(jù)為正態(tài)分布或者分布為已知。但是在車身檢測數(shù)據(jù)中,由于抽檢頻率低,過程為非平穩(wěn),導(dǎo)致在有些時(shí)域范圍內(nèi)數(shù)據(jù)的分布較為特殊且無法得出分布函數(shù)的數(shù)學(xué)形式[4];有些類型的測量數(shù)據(jù)受人為調(diào)整因素大,例如車門的間隙面差一般需要經(jīng)過手工調(diào)整,或者有些零件經(jīng)過人為篩選,導(dǎo)致此類數(shù)據(jù)并不服從正態(tài)分布。作為實(shí)例,表1列出采用Shapiro-Wilk正態(tài)分布檢驗(yàn)法[5]對車身和發(fā)動(dòng)機(jī)蓋零件多個(gè)間隙面差測量值的正態(tài)性檢驗(yàn)結(jié)果,每次取20個(gè)
表1 間隙面差數(shù)據(jù)正態(tài)性檢驗(yàn)結(jié)果
時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行檢驗(yàn)。
由表1可知,有40%左右的間隙面差值不服從正態(tài)分布,所以統(tǒng)計(jì)法有較大的局限性。
本文中提出了一種基于距離測度的小樣本車身檢測數(shù)據(jù)異常值的判別方法。每次僅須在時(shí)序上提取10個(gè)數(shù)據(jù)進(jìn)行異常值的判斷,符合小樣本的測量條件,無須預(yù)知數(shù)據(jù)分布情況,可有效處理小樣本(抽檢頻次低,非正態(tài)的車身檢測數(shù)據(jù))。針對距離測度方法的閾值確定困難問題,提出一種基于排序的閾值確定方法,并通過不同測量位置檢測值之間相關(guān)性的比較來區(qū)分由生產(chǎn)過程突變造成的異常值和由測量粗大誤差造成的異常值。
在異常值檢測時(shí),首先應(yīng)確定評價(jià)異常度的方法,即一個(gè)數(shù)據(jù)異常程度的度量值Fout。
為判定編號為i的間隙或面差在t時(shí)刻的測量值yi,t是否為異常值,在時(shí)序上向前取7個(gè)點(diǎn),向后取2個(gè)點(diǎn),總計(jì)10個(gè)測量值,即[yi,t-7,yi,t-6,yi,t-5,yi,t-4,yi,t-3,yi,t-2,yi,t-1,yi,t,yi,t+1,yi,t+2]
(1)
對上述數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化處理后得
(2)
計(jì)算xi,t與其他測量值的距離:
di,t+k=|xi,t-xi,t+k|(k=-7,-6,…,0,1,2)
(3)
對di,k值進(jìn)行升序排列,得出新序列Di,k,則xi,t異常程度的度量值為
(4)
稱Fout(i,t)為xi,t的異常度,F(xiàn)out(i,t)越大則表明異常程度越大。由式(3)和式(4)可知,M決定了多個(gè)異常值存在時(shí)的檢測能力。例如有xi,t=4.1mm,往前7往后2共取如下10個(gè)數(shù)據(jù)(單位mm):[-1.6,-1.2,-0.7,4.5,0.3,0.9,0.5,4.1,1.3,1.8]
第8個(gè)數(shù)據(jù)為待檢異常值xi,t=4.1mm,但是第4個(gè)數(shù)據(jù)4.5mm也是異常值,即該組數(shù)據(jù)中共存在兩個(gè)異常值,當(dāng)M=2時(shí),F(xiàn)out(i,t)=0.149 0;得出的結(jié)果是xt的異常度較小,說明此時(shí)多個(gè)異常值無法檢出;當(dāng)M=3時(shí),F(xiàn)out(i,t)=0.224 9;當(dāng)M=4時(shí),F(xiàn)out(i,t)=0.260 1,異常度已較高。進(jìn)一步可得出如下結(jié)論。
異常值的個(gè)數(shù)為N,當(dāng)M M不應(yīng)取得過大,否則易受噪聲數(shù)據(jù)影響,且會造成異常度比較時(shí),不同測量位置檢測值的Fout(i,t)相差很小。 在對車身檢測數(shù)據(jù)進(jìn)行處理時(shí),10個(gè)時(shí)間點(diǎn)的測量數(shù)據(jù)異常值不應(yīng)超過兩個(gè),否則視為由生產(chǎn)線故障造成的系統(tǒng)誤差,不屬于異常值范疇,所以選取M=3,可取得較好效果。 計(jì)算出某個(gè)間隙或面差在t時(shí)刻xt的異常度值后,還須判定是否為異常值。 本文中提出一種基于排序的異常值判定方法,通過對多個(gè)間隙多個(gè)時(shí)刻數(shù)據(jù)的異常度進(jìn)行排序,挑選出其中異常度較大的值,通過設(shè)置閾值Fc,當(dāng)Fout(i,t)>Fc時(shí)判定為異常值,或者選擇排序的前P個(gè)作為異常值。本節(jié)主要討論Fc的設(shè)定方法。 假設(shè)在某車型車身(或某分總成、某零件)的歷史數(shù)據(jù)中間隙檢測點(diǎn)總計(jì)有Z個(gè),在時(shí)序點(diǎn)上共有T個(gè)歷史檢測值,除去最后2個(gè)和最早7個(gè),計(jì)算每個(gè)數(shù)據(jù)的異常度Fout(i,t)(i=1,2,…,Z;t=8,…,T-2)。由于已經(jīng)進(jìn)行過標(biāo)準(zhǔn)化處理,所以相互之間具有可比性,對所有Fout(i,t)按升序排列,總數(shù)為Z×(T-9)。以該車型車身兩個(gè)月的間隙檢測數(shù)據(jù)為處理對象,排序后的編號為橫坐標(biāo),F(xiàn)out(i,t)為縱坐標(biāo),得出圖1。由圖1可知,在Fc線以上的點(diǎn)為異常度較高的測量數(shù)據(jù),軌跡存在明顯的拐點(diǎn),現(xiàn)在通過設(shè)置Fc將這些數(shù)據(jù)篩選出來。 對上述計(jì)算出的Fout(i,t)按異常度畫直方圖得圖2。由圖2可知,在0.2處頻數(shù)有明顯下降,經(jīng)過在某車型車身間隙實(shí)測數(shù)據(jù)中的反復(fù)驗(yàn)證微調(diào),最終取Fc=0.217。 得出Fc后,對于新測量的數(shù)據(jù),計(jì)算出Fout(i,t)與Fc比較就能分辨出異常值,而無須重新計(jì)算Fc。 同一類型的測量數(shù)據(jù)可共用Fc值,因?yàn)橥悪z測值的異常值產(chǎn)生原因相同,所以在新車型沒有歷史數(shù)據(jù)時(shí),可以使用以往車型的同類型數(shù)據(jù),但要求這些數(shù)據(jù)的測量方法相同,以往車型的生產(chǎn)線相似。對于不同類型的測量數(shù)據(jù)應(yīng)分別計(jì)算其Fc值。 因?yàn)闇y量時(shí)極少出現(xiàn)連續(xù)出錯(cuò)的情況,測量粗大誤差產(chǎn)生的異常值主要表現(xiàn)在異常值僅發(fā)生在某個(gè)間隙或面差處,而附近的間隙面差數(shù)據(jù)往往正常。 而生產(chǎn)過程突變造成的異常值應(yīng)歸類為系統(tǒng)誤差,所以在同一個(gè)時(shí)序點(diǎn)上會有多個(gè)相關(guān)性較高的間隙面差值同時(shí)出現(xiàn)異常值。 據(jù)此,區(qū)分方法如下。 (1) 對于一組新測量的數(shù)據(jù)yi,t,間隙面差總數(shù)仍為Z個(gè),在同一個(gè)時(shí)序點(diǎn)t0上從Z個(gè)數(shù)據(jù)中檢出K個(gè)異常值。 (2) 兩兩計(jì)算K個(gè)異常值的相關(guān)系數(shù):對于兩個(gè)間隙(面差)的異常點(diǎn),計(jì)算方法為先剔除這兩個(gè)異常點(diǎn),分別在兩點(diǎn)各自的時(shí)序上向后取4個(gè)數(shù)據(jù),向前取5個(gè)數(shù)據(jù)組成兩組數(shù)據(jù)X,Y,每組有9個(gè)數(shù)據(jù),計(jì)算相關(guān)系數(shù)為 (5) 若前5個(gè)數(shù)據(jù)中存在異常值,則把該異常點(diǎn)所在時(shí)序的兩點(diǎn)都剔除,向前取第6個(gè)數(shù)據(jù)遞補(bǔ)。當(dāng)ρXY≥0.5時(shí),表示兩組數(shù)據(jù)相關(guān),所以判定這兩個(gè)間隙面差間存在相關(guān)性,這兩個(gè)間隙面差的異常值都由生產(chǎn)過程突變造成。 (3) 若某個(gè)異常點(diǎn)在兩兩相關(guān)性計(jì)算中任一組的ρXY都小于0.5,則說明此異常點(diǎn)由測量原因造成。 表2為上述相同車型車身測試的一批左前照燈與發(fā)動(dòng)機(jī)蓋匹配1和2處(圖3)的間隙數(shù)據(jù)。該車型的間隙異常度閾值已經(jīng)計(jì)算出,適用于該車型車身的Fc=0.217。 表2 左前照燈與發(fā)動(dòng)機(jī)蓋間隙的測試數(shù)據(jù) mm 兩組間隙數(shù)據(jù)的第8個(gè)點(diǎn)為t時(shí)刻待檢測量值,y1,t=8.5mm,進(jìn)行標(biāo)準(zhǔn)化處理后,間隙1的待檢測量值異常度Fout(1,t)=0.342 8>Fc,判為異常值;y2,t=10.25mm,F(xiàn)out(2,t)=0.367 4>Fc,也判為異常值。 剔除掉異常點(diǎn)后計(jì)算剩余9個(gè)數(shù)據(jù)的相關(guān)性ρ12=0.773 5>0.5,所以可以推斷兩間隙的異常值是由生產(chǎn)過程突變,而不是測量粗大誤差造成的。有了這一結(jié)果,可快速對異常值來源進(jìn)行診斷,極大地提高了效率。 表3為上述相同車型車身測試的一批后門與側(cè)圍匹配3和4處(圖4)的面差數(shù)據(jù)。面差的異常度閾值由面差實(shí)際數(shù)據(jù)計(jì)算得出Fc1=0.245。本例的車型間隙與面差測量方法不同,所以面差異常度閾值須根據(jù)面差測量數(shù)據(jù)計(jì)算,與間隙異常度閾值不能通用。 表3 后門與側(cè)圍面差的測試數(shù)據(jù) mm 待檢面差測量值為x1,t=4.75mm,計(jì)算其異常度Fout(1,t)=0.440 5>Fc1,判為異常值;x2,t=1.5mm,F(xiàn)out(2,t)=0.088 3 提出一種適用于車身檢測數(shù)據(jù)特點(diǎn)的異常值判別方法,它對樣本量要求較低,且無須預(yù)先假設(shè)數(shù)據(jù)的統(tǒng)計(jì)分布特征,從而克服了傳統(tǒng)統(tǒng)計(jì)判別方法的缺點(diǎn)。在求得某一類型數(shù)據(jù)的Fc后,異常值的判別算法簡單有效。以車身前照燈與發(fā)動(dòng)機(jī)蓋的實(shí)測數(shù)據(jù)進(jìn)行了驗(yàn)證,表明該方法具有較好的實(shí)用價(jià)值,在某廠車身檢測數(shù)據(jù)異常值的處理中得到了應(yīng)用。 參考文獻(xiàn) [1] 王華.小樣本采樣條件下車身焊裝檢測數(shù)據(jù)分析與處理研究[D].上海:上海交通大學(xué),2003. [2] 樂立利.觀測數(shù)據(jù)的異常值統(tǒng)計(jì)檢驗(yàn)方法研究[D].長沙:中南大學(xué),2003. [3] 楊揚(yáng),沈紹嶸.白車身尺寸在線檢測的報(bào)警算法研究[C].全國質(zhì)量檢測年會會議論文,2009:37-41. [4] 朱堅(jiān)民,賓鴻贊.測量數(shù)據(jù)粗大誤差的非統(tǒng)計(jì)判別[J].華中理工大學(xué)學(xué)報(bào),2000,28(4):17-19. [5] Shapiro S S, Wilkm B. An Analysis of Variance Test for Normality (Complete Samples)[J]. Biometirka,1965,52:591-611.1.2 異常判定閾值
2 異常值產(chǎn)生原因判斷
3 應(yīng)用實(shí)例
3.1 前照燈與發(fā)動(dòng)機(jī)蓋間隙異常值判別
3.2 后門與側(cè)圍面差異常值判別
4 結(jié)論