田申琳,陳 濤,唐夢(mèng)南,楊 立
(武漢理工大學(xué) 機(jī)電工程學(xué)院,湖北 武漢 430070)
隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和云計(jì)算等新興技術(shù)在制造業(yè)的應(yīng)用不斷深入,加快了制造業(yè)自動(dòng)化進(jìn)程,促進(jìn)了各種遠(yuǎn)程監(jiān)測(cè)方法的產(chǎn)生,推動(dòng)了制造業(yè)智能化的發(fā)展,人類已經(jīng)由以機(jī)械化為特征的工業(yè)化社會(huì)走向以智能制造為特色的工業(yè)4.0時(shí)代[1]。這也導(dǎo)致數(shù)據(jù)的規(guī)模以驚人的速度不斷增長(zhǎng)。因此,為了促進(jìn)更好、更智能的生產(chǎn),研究人員必須獲取蘊(yùn)藏在這些數(shù)據(jù)中有價(jià)值的信息。然而,實(shí)際加工生產(chǎn)過(guò)程中的信息多以正常狀態(tài)為主,這往往會(huì)造成冗余數(shù)據(jù),不利于研究人員的分析,造成存儲(chǔ)成本的增加。因此,需要通過(guò)一個(gè)“劇烈”的過(guò)程將大數(shù)據(jù)轉(zhuǎn)換為小數(shù)據(jù)[2],探索一個(gè)數(shù)據(jù)處理的創(chuàng)新方法以降低對(duì)存儲(chǔ)空間的依賴,提高去重率,緩解分析壓力。
針對(duì)去重問(wèn)題,國(guó)內(nèi)外學(xué)者進(jìn)行了大量研究。羅恩韜[3]等設(shè)計(jì)了多維數(shù)據(jù)去重的聚類算法。Wegener等[4]等利用Web數(shù)據(jù)挖掘技術(shù)獲取有用信息,依靠數(shù)據(jù)分組和表間關(guān)聯(lián)性對(duì)數(shù)據(jù)進(jìn)行分組,降低數(shù)據(jù)冗余度。Kang[5]等提出結(jié)合函數(shù)依賴和多值依賴來(lái)解決數(shù)據(jù)冗余性問(wèn)題。但是,目前仍缺少針對(duì)機(jī)械領(lǐng)域特性的監(jiān)測(cè)數(shù)據(jù)去重方法研究。
大數(shù)據(jù)時(shí)代的到來(lái)使統(tǒng)計(jì)學(xué)得到了創(chuàng)新與發(fā)展,在進(jìn)行數(shù)據(jù)處理與一些模型評(píng)估時(shí),相關(guān)系數(shù)和決定系數(shù)得到了廣泛的應(yīng)用。
相關(guān)系數(shù)由英國(guó)統(tǒng)計(jì)學(xué)家Pearson首創(chuàng),因此稱為Pearson相關(guān)系數(shù),它是依據(jù)積差方法計(jì)算的,因此又稱為積差相關(guān)系數(shù)或積矩相關(guān)系數(shù),一般以兩變量與各自平均值的離差為基礎(chǔ),通過(guò)兩個(gè)離差相乘來(lái)反映兩變量之間的相關(guān)程度[6],其計(jì)算公式(二元相關(guān))為:
(1)
相關(guān)系數(shù)的絕對(duì)值越大,相關(guān)性越強(qiáng):相關(guān)系數(shù)越接近于1或-1,相關(guān)度越強(qiáng),相關(guān)系數(shù)越接近于0,相關(guān)度越弱。通常認(rèn)為0.8~1.0極強(qiáng)相關(guān),0.6~0.8強(qiáng)相關(guān),0.4~0.6中等程度相關(guān),0.2~0.4弱相關(guān),0.0~0.2極弱相關(guān)或無(wú)相關(guān)。
決定系數(shù)與相關(guān)系數(shù)相比除掉|r|=0和1的情況,決定了相關(guān)的密切程度,同時(shí)也可以防止對(duì)相關(guān)系數(shù)所表示的相關(guān)做夸張的解釋。它構(gòu)造一個(gè)不含單位,可以相互進(jìn)行比較,而且能直觀判斷擬合的優(yōu)劣。因此,在判斷模型擬合效果中應(yīng)用廣泛。其計(jì)算公式為:
(2)
數(shù)據(jù)清洗的主要任務(wù)就是對(duì)缺失值的處理和噪聲數(shù)據(jù)的過(guò)濾[7]。
目前,缺失值處理方法分為4種:①刪除法,即將缺少的記錄刪除。該方法簡(jiǎn)單、易行,但是會(huì)造成樣本量損失,容易丟棄隱藏信息,削弱統(tǒng)計(jì)功效。②均值插補(bǔ)法。當(dāng)數(shù)據(jù)為數(shù)值型,用平均值插補(bǔ)缺失值,當(dāng)數(shù)據(jù)為非數(shù)值型時(shí),用眾數(shù)插補(bǔ)缺失值。該方法簡(jiǎn)單,快捷,但前提是建立在完全隨機(jī)缺失的假設(shè)上,會(huì)造成變量的方差和標(biāo)準(zhǔn)差變小。③回歸插補(bǔ)法。利用回歸函數(shù)擬合數(shù)據(jù)從而對(duì)缺失值進(jìn)行插補(bǔ)。該方法利用盡可能多的信息,得到的缺失值可信度高,但是必須假設(shè)缺失值所在變量與其他變量存在線性關(guān)系,大多數(shù)這種關(guān)系是不存在的[8]。④極大似然估計(jì)法。通過(guò)觀察數(shù)據(jù)邊際分布推出未知參數(shù)。該方法的估計(jì)值具有一致性和有效性,但是很大情況下難以求解或?qū)懖怀鲇邢扌问降慕狻?/p>
噪聲數(shù)據(jù)過(guò)濾方法分為4種:①回歸法。用函數(shù)擬合數(shù)據(jù),通過(guò)回歸后的函數(shù)值替換原始數(shù)據(jù)值。需建立在穩(wěn)定數(shù)據(jù)變量基礎(chǔ)上,在分析多因素模型時(shí)去噪效果好,但易產(chǎn)生“偽回歸”。②均值平滑法。針對(duì)具有序列特征(正弦時(shí)序列)的變量,通過(guò)鄰近的數(shù)據(jù)均值來(lái)替換原始數(shù)據(jù)。該方法簡(jiǎn)單、快速,但易導(dǎo)致信號(hào)的細(xì)節(jié)和邊緣模糊。③離群點(diǎn)分析。通過(guò)聚類的方法篩選離群點(diǎn),并將其刪除。在數(shù)據(jù)和檢驗(yàn)類型充分的條件下才檢驗(yàn)有效,不能確保所有離群點(diǎn)被發(fā)現(xiàn)。④小波法。運(yùn)用函數(shù)逼近問(wèn)題,根據(jù)標(biāo)準(zhǔn)找出對(duì)原始數(shù)據(jù)的最佳逼近。具有較好的時(shí)頻特性,去相關(guān)性,并能很好地展示信號(hào)的非平穩(wěn)特征[9]。
在實(shí)際運(yùn)用中,由于生產(chǎn)設(shè)備會(huì)長(zhǎng)期處于正常工作狀態(tài),導(dǎo)致監(jiān)測(cè)數(shù)據(jù)蘊(yùn)含的信息重復(fù)率高,數(shù)據(jù)價(jià)值密度低,對(duì)存儲(chǔ)設(shè)備的消耗大,難以保證數(shù)據(jù)處理的時(shí)效性。并且機(jī)械大數(shù)據(jù)不僅僅具有大數(shù)據(jù)的共性,更有本領(lǐng)域的專業(yè)性,因此,設(shè)計(jì)了一種新的數(shù)據(jù)去重處理流程,如圖1所示。在進(jìn)行數(shù)據(jù)冗余量去重前,先進(jìn)行缺失值和噪聲數(shù)據(jù)的處理。在信號(hào)采集過(guò)程中運(yùn)用低通濾波技術(shù),可以很好地除去噪聲數(shù)據(jù),而采集的數(shù)據(jù)是機(jī)床主軸振動(dòng)信號(hào),數(shù)據(jù)間的線性關(guān)系差,故選均值插補(bǔ)法對(duì)缺失值進(jìn)行填充。
圖1 數(shù)據(jù)去重流程框圖
而通過(guò)決定系數(shù)R2對(duì)數(shù)據(jù)進(jìn)行初步清洗與提取所獲得的新數(shù)據(jù)集Tfi仍有很高的重復(fù)性。因此,先利用生成新數(shù)據(jù)的R2值對(duì)各個(gè)數(shù)據(jù)集進(jìn)行降序排序,然后選出最優(yōu)數(shù)據(jù)集Tfa(Tfa為R2最大的數(shù)據(jù)集),使最優(yōu)數(shù)據(jù)集Tfa依次與其他數(shù)據(jù)集Tfi(i≠a)進(jìn)行相關(guān)系數(shù)r計(jì)算,其判定值設(shè)為0.8,r>0.8表示測(cè)試數(shù)據(jù)集與該數(shù)據(jù)集重復(fù)性過(guò)高,則刪除數(shù)據(jù)集Tfi。再選擇第二優(yōu)的數(shù)據(jù)集Tfb與余下的數(shù)據(jù)集Tfi(i≠a,b)進(jìn)行相關(guān)系數(shù)r的計(jì)算,重復(fù)以上步驟,直至最后一個(gè)數(shù)據(jù)集。這樣通過(guò)R2被保留的大量數(shù)據(jù)中最優(yōu)的被選擇出來(lái),重復(fù)性多的被剔除,同時(shí)需要進(jìn)一步觀察研究的數(shù)據(jù)集也一并篩選出來(lái)。
某機(jī)械制造公司在生成過(guò)程中需要監(jiān)測(cè)機(jī)床、刀具及其他設(shè)備的運(yùn)行狀態(tài),迫切需要一個(gè)壓縮、篩選數(shù)據(jù)的預(yù)處理方法,為完成產(chǎn)業(yè)升級(jí)做準(zhǔn)備。為了解決該企業(yè)數(shù)據(jù)預(yù)處理問(wèn)題,采用筆者提出的基于決定系數(shù)與相關(guān)系數(shù)相結(jié)合的數(shù)據(jù)處理方法,為驗(yàn)證該方法的可行性,按采集單位時(shí)間對(duì)機(jī)床主軸空轉(zhuǎn)振動(dòng)數(shù)據(jù)進(jìn)行切片,并提取其中的6組數(shù)據(jù)進(jìn)行試驗(yàn)分析,具體數(shù)據(jù)如表1所示。其中:T11∽T16為1號(hào)傳感器數(shù)據(jù)集,T21∽T26為2號(hào)傳感器數(shù)據(jù)集。
對(duì)6組數(shù)據(jù)分別進(jìn)行決定系數(shù)R2值計(jì)算,試驗(yàn)結(jié)果如表2所示,從整體結(jié)果上看均滿足新數(shù)據(jù)的生成條件,但是第二組與第三組的R2值較低,是因?yàn)樵谇衅幚頃r(shí)對(duì)其采用了均值填充法,補(bǔ)充的缺省值過(guò)多。這類方法是通過(guò)把完整數(shù)據(jù)的算術(shù)平均值作為缺失數(shù)據(jù)的值,原理是在正態(tài)分布下,樣本均值是估算出的最佳的可能取值。而應(yīng)用均值填充法將會(huì)影響缺失數(shù)據(jù)與其他數(shù)據(jù)之間的相關(guān)性,進(jìn)而導(dǎo)致決定系數(shù)R2值的下降。
利用T1i和T2j原始數(shù)據(jù)集的均值生成新的數(shù)據(jù)集Tfi,如表3所示。將生成的新數(shù)據(jù)集分別對(duì)原數(shù)據(jù)集進(jìn)行決定系數(shù)R2值計(jì)算,從表2可和新數(shù)據(jù)集與原數(shù)據(jù)集的相關(guān)性很高,可以替代原始數(shù)據(jù)集。實(shí)現(xiàn)了將兩組數(shù)據(jù)合并成一組數(shù)據(jù),同時(shí)節(jié)省了存儲(chǔ)空間。
表2 R2值計(jì)算結(jié)果
表3 生成的新數(shù)據(jù)集
通過(guò)決定系數(shù)R2值對(duì)6組數(shù)據(jù)進(jìn)行降序排序,如表4所示。發(fā)現(xiàn)第一組的數(shù)據(jù)Tf 1為最優(yōu)數(shù)據(jù),作為相關(guān)系數(shù)式(1)中的x值,依次按順序?qū)f 6,Tf 5,Tf 4,Tf 3,Tf 2作為式(1)中的y值。通過(guò)計(jì)算得出,Tf 1與Tf 6、Tf 3的相關(guān)系數(shù)r值約為1,Tf 1與Tf 5、Tf 4、Tf 2的相關(guān)系數(shù)r值約為0.9,均大于設(shè)定值0.8,因此可以用數(shù)據(jù)集Tf 1代替其他5組數(shù)據(jù)集,從而將2 880條數(shù)據(jù)降低到480條。原始數(shù)據(jù)集1與原始數(shù)據(jù)集2在6個(gè)連續(xù)單位時(shí)間內(nèi)的均值分別為0.045 009與0.044 991,而新數(shù)據(jù)集擴(kuò)展6個(gè)連續(xù)單位時(shí)間后的均值為0.045 003,偏差量很小,該方法可行性強(qiáng)。
表4 排序結(jié)果
應(yīng)用實(shí)例表明,基于相關(guān)系數(shù)與決定系數(shù)相結(jié)合的監(jiān)測(cè)數(shù)據(jù)去重方法針對(duì)特定條件下監(jiān)測(cè)數(shù)據(jù)冗余情況,可高效地解決數(shù)據(jù)去重、篩選問(wèn)題,進(jìn)一步減少了對(duì)存儲(chǔ)空間的依賴,降低數(shù)據(jù)篩選難度,減少分析壓力。
為了解決機(jī)械生產(chǎn)過(guò)程中監(jiān)測(cè)數(shù)據(jù)冗余,重復(fù)性高的問(wèn)題,提出了基于相關(guān)系數(shù)與決定系數(shù)相結(jié)合的監(jiān)測(cè)數(shù)據(jù)清洗方法,并以某機(jī)械制造企業(yè)數(shù)據(jù)去重問(wèn)題實(shí)例進(jìn)行試驗(yàn)驗(yàn)證。結(jié)果表明,在機(jī)械生產(chǎn)監(jiān)測(cè)特定的條件下,基于相關(guān)系數(shù)與決定系數(shù)相結(jié)合的數(shù)據(jù)篩選方法能夠高效地解決數(shù)據(jù)去重、篩選的難題,減少對(duì)存儲(chǔ)空間的過(guò)分依賴,降低分析壓力。由于該方法對(duì)監(jiān)測(cè)環(huán)境以及數(shù)據(jù)采集系統(tǒng)的精確度要求苛刻,因此,在將來(lái)的工作中,將對(duì)該方法進(jìn)行完善,使其面向更廣泛的應(yīng)用場(chǎng)景。