唐思游,胡小鋒,劉穎超
(上海交通大學(xué) 機械與動力工程學(xué)院,上海 200240)
加工監(jiān)控數(shù)據(jù)被廣泛應(yīng)用于數(shù)據(jù)分析,依其結(jié)果做出的決策對產(chǎn)品質(zhì)量、成本控制、生產(chǎn)效率影響巨大。因此,符合標(biāo)準的數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析結(jié)果有效的先決條件。監(jiān)控數(shù)據(jù)無法獲取理論真值,難以對數(shù)據(jù)準確性進行量化評價,而定量的準確性評價是精準優(yōu)化的基礎(chǔ),從保證數(shù)據(jù)質(zhì)量出發(fā),進而保證數(shù)據(jù)分析的準確性和有效性。
近年來,國內(nèi)外許多學(xué)者致力于數(shù)據(jù)準確性的研究。武榮坤[1]提出趨勢預(yù)測法和回歸預(yù)測法分析統(tǒng)計數(shù)據(jù)可靠度;戚桂杰等[2]提出回歸分析法檢測污染數(shù)據(jù)和異常點;王華等[3]提出了邏輯規(guī)則檢驗、經(jīng)驗參數(shù)對比、相關(guān)指標(biāo)變動趨勢比對法;史曉貞等[4]針對橋梁健康監(jiān)測系統(tǒng)數(shù)據(jù)準確性分析提出了位置對比法和相關(guān)性分析法;NRMAN等[5]提出概率關(guān)系模型,用于業(yè)務(wù)流程中的數(shù)據(jù)準確性評估;GARCIA等[6]提出貝葉斯序列概率推斷法來提高動態(tài)測量數(shù)據(jù)的準確性;李勇[7]提出基于差分的分位數(shù)可疑數(shù)據(jù)檢測方法;成邦文等[8-9]提出了統(tǒng)計分布檢驗與基于統(tǒng)計分布的異常數(shù)值識別方法;RAMASWAMY等[10]提出循環(huán)嵌套、基于索引和劃分算法對數(shù)據(jù)集中的異常值進行識別;劉波等[11]等從規(guī)則度量關(guān)系及其相關(guān)分析的角度對數(shù)據(jù)準確性進評估與優(yōu)化;張福民等[12]基于蒙特卡洛仿真方法從測量不確定度角度對多儀器融合測量結(jié)果準確性進行評價。上述研究主要面向統(tǒng)計數(shù)據(jù)及實驗室環(huán)境下的數(shù)據(jù)準確性評價和異常數(shù)據(jù)識別,尚未有相關(guān)文獻針對實際加工現(xiàn)場的監(jiān)控數(shù)據(jù)進行數(shù)據(jù)準確性的量化評價。
數(shù)據(jù)準確性對數(shù)據(jù)分析效果影響方面,OSEI-BRYSON等[13]綜述了使用數(shù)據(jù)挖掘結(jié)果來支持決策時數(shù)據(jù)信息正確且準確的必要性以及劣質(zhì)數(shù)據(jù)對于數(shù)據(jù)挖掘項目的影響;STANG等[14]面向工單數(shù)據(jù)系統(tǒng),刪除低質(zhì)數(shù)據(jù)后進行工單延遲預(yù)測以驗證數(shù)據(jù)準確性的重要性;BLAKE等[15]以J48分類算法為對象研究了數(shù)據(jù)準確性、完整性、一致性、時效性以及問題復(fù)雜度對數(shù)據(jù)分析效果的影響。然而,上述研究不針對實際加工監(jiān)控數(shù)據(jù)準確性對數(shù)據(jù)分析效果的影響,且數(shù)據(jù)優(yōu)化過程改變了數(shù)據(jù)集大小。
本文提出一種基于測量不確定度的數(shù)據(jù)準確性量化評價方法,該方法可以針對無理論真值的加工監(jiān)控數(shù)據(jù)進行準確性量化評價。通過歐氏距離下局部敏感哈希技術(shù)(Locally Sensitive Hashing under Euclidean2, E2LSH)及k鄰近優(yōu)化算法(k-Nearest Neighbor, kNN)對數(shù)據(jù)準確性進行針對性的優(yōu)化。最終將優(yōu)化前后的數(shù)據(jù)用于基于相似性的銑刀剩余壽命預(yù)測,以驗證數(shù)據(jù)準確性進行量化評價及優(yōu)化的重要性和有效性。
在GB/T 25000.12—2017中對數(shù)據(jù)準確性定義為:特定使用周境中,數(shù)據(jù)具有準確表示一個概念或事件相關(guān)屬性真實值的屬性的程度[16]。監(jiān)控數(shù)據(jù)無法獲取理論真值從而無法定量計算數(shù)據(jù)準確性。測量不確定度表征被測量估計值的分散性,其值越小,數(shù)據(jù)質(zhì)量越高,使用價值越大[17]。因此,本文構(gòu)建測量不確定度法與數(shù)據(jù)準確性建立聯(lián)系,實現(xiàn)監(jiān)控數(shù)據(jù)準確性的量化評價,量化評價步驟如圖1所示。
(1)
表1 測量數(shù)據(jù)樣表
為消除數(shù)據(jù)的測量尺度與量綱影響,引入變異系數(shù)vpq:
(2)
(3)
式中r為調(diào)整比例,依據(jù)實際vpq分布而定。
(4)
建立準確性映射得到apq后,當(dāng)數(shù)據(jù)屬性A1,A2,…,Aj分別對應(yīng)權(quán)重ω1,ω2,…,ωj(賦權(quán)法詳見1.2節(jié)),則某條數(shù)據(jù)記錄的準確性為:
(5)
賦權(quán)法包括主觀賦權(quán)法和客觀賦權(quán)法。主觀賦權(quán)法包括層次分析法、專家咨詢法、二項系數(shù)法等;客觀賦權(quán)法包括變異系數(shù)法、熵值法、灰色關(guān)聯(lián)度法等[19]。層次分析法通過將復(fù)雜評價問題逐級拆解,使其具有可操作性,決策者可根據(jù)歷史經(jīng)驗和當(dāng)前問題動態(tài)調(diào)整屬性重要度,實現(xiàn)定性與定量分析相結(jié)合;變異系數(shù)法能客觀體現(xiàn)各數(shù)據(jù)屬性的內(nèi)在差異及特征,計算方法簡單高效。為準確客觀地賦權(quán),同時考慮主觀經(jīng)驗與樣本數(shù)據(jù)特征,本文選擇將層次分析法與變異系數(shù)法賦權(quán)結(jié)果平均,得到最終權(quán)重。
層次分析法將復(fù)雜問題分解為若干個有序的遞階子層級,在每層內(nèi)部請該領(lǐng)域?qū)<覍?shù)據(jù)屬性兩兩對比,構(gòu)建判斷矩陣。本文借助皮爾遜相關(guān)系數(shù)、動態(tài)層次聚類的關(guān)鍵因素挖掘[20]來構(gòu)建判斷矩陣。以表1為例,屬性Ap與Aq重要性比較結(jié)果為dpq,則判斷矩陣
(6)
判斷矩陣標(biāo)度標(biāo)準如表2所示。
表2 判斷矩陣標(biāo)度標(biāo)準
將D中元素按列歸一化:
(7)
將歸一化后的矩陣的同一行的各列相加:
(8)
將相加后的向量除以j即得權(quán)重向量:
(9)
計算最大特征根:
(10)
判斷矩陣D的一致性檢驗指標(biāo)(C.I.):
(11)
引入一致性比例(C.R.):
(12)
其中R.I.為隨機一致性指標(biāo),如表3所示。
表3 平均隨機一致性指標(biāo)R.I.
變異系數(shù)法基本思想是:在評價體系中,數(shù)據(jù)取值差異越大的屬性越能反映被評價單位的差距。為消除各數(shù)據(jù)屬性量綱不同產(chǎn)生的影響,引入權(quán)重變異系數(shù):
(13)
各項指標(biāo)權(quán)重為:
(14)
綜合層次分析法與變異系數(shù)法,最終權(quán)重為:
(15)
數(shù)據(jù)準確性優(yōu)化依賴于數(shù)據(jù)清洗,即通過檢測和消除實例級數(shù)據(jù)質(zhì)量問題提高數(shù)據(jù)質(zhì)量[21]。數(shù)據(jù)優(yōu)化應(yīng)綜合考慮優(yōu)化效果及效率,kNN精度高但計算復(fù)雜度高、數(shù)據(jù)集較大時優(yōu)化效率低。E2LSH適用于在海量高維數(shù)據(jù)中搜尋近似項,可彌補kNN的低執(zhí)行效率。本文將E2LSH及kNN結(jié)合,以實現(xiàn)高效、高精度數(shù)據(jù)準確性優(yōu)化[23]。
優(yōu)化思路為:監(jiān)控數(shù)據(jù)集為T,經(jīng)過數(shù)據(jù)準確性計算后選出待優(yōu)化數(shù)據(jù)集Q及無需優(yōu)化數(shù)據(jù)集V,通過E2LSH方法將數(shù)據(jù)v(v∈V)進行映射,建立哈希表,數(shù)據(jù)q(q∈Q)進行E2LSH映射后進行哈希表查詢,找出k個與q最臨近的點進行kNN優(yōu)化。
E2LSH基本思想:將原始特征空間中相鄰的兩個數(shù)據(jù)點通過相同的投影或者變換后,這兩個點具有較大概率仍然相鄰,原始特征空間中不相鄰的點具有較大概率仍不相鄰[25],即H={h:S→U},H是局部敏感的:對于任何v,q∈S,若v∈B(q,r1)則PrH[h(q)=h(v)]≥p1,若v?B(q,r2)則PrH[h(q)=h(v)]≤p2。其中:B(q,r)={v∈S|D(v,q)≤r};PrH為概率;p1>p2;r1 上述h為哈希函數(shù):ha,b(v):Rd→N為映射一個d維特征向量v到一個整數(shù)集, (16) 式中:a為一個d維特征向量,每一維是一個獨立選取的滿足P穩(wěn)定分布的隨機變量;b為[0,w]范圍內(nèi)的一個隨機數(shù);w表示當(dāng)a.v將高維向量映射到實軸后,將實軸以寬度w等分,并對每段區(qū)域從左至右標(biāo)號,將a.v映射后所在的區(qū)域標(biāo)號作為其哈希取值。w實際取值取決于數(shù)據(jù)集Q及V,一般取w=4[23]。 定義一個函數(shù)族G={g:S→Un},選取n個哈希函數(shù)hi∈H組成g(v)=(h1(v),…,hn(v));取整數(shù)L,從G中選取L個函數(shù)g1,…,gL;另外定義兩個哈希函數(shù)H1和H2,H1值作為哈希表索引,H2值作為鏈表中的關(guān)鍵值。具體形式如下: (17) (18) 其中:ri,li是隨機整數(shù);tablesize為哈希表長度;C為一個大的素數(shù),由計算機位數(shù)決定,例如32位機器取C=232-5,C的取值大小以滿足哈希函數(shù)進行高效計算而無需使用模運算為目標(biāo)[23]。 kNN中選取與待優(yōu)化點q距離最近的前k個點v1,…,vk,q的第i個維度的優(yōu)化值為: (19) 其中Dij為第i項與第j項的距離,本文取歐氏距離。 E2LSH_kNN算法步驟如圖4所示。 本文實驗平臺由某汽輪機廠提供,采用15把J1型輪槽銑刀對汽輪機轉(zhuǎn)子輪槽進行精銑削加工。采用PCI-2AE采集聲發(fā)射(Acoustic Emission, AE)信號,采樣頻率為1 MHz。加工現(xiàn)場如圖5所示。 樣本數(shù)據(jù)集包含由15把精銑刀加工的共計170條輪槽的監(jiān)控數(shù)據(jù),每條輪槽持續(xù)監(jiān)控得到10 000條數(shù)據(jù)記錄,每條數(shù)據(jù)記錄包含14種AE屬性:上升時間、計數(shù)、能量、幅值、平均頻率、均方根值、平均信號電平,峰值頻率、反算頻率、初始頻率、信號強度、絕對能量、中心頻率、峰頻。將每條輪槽的10 000條AE數(shù)據(jù)求平均后得到14個均值,170條輪槽共計得到2 380個均值。15把精銑刀加工的輪槽號如表4所示。 表4 15把精銑刀加工輪槽表 汽輪機轉(zhuǎn)子輪槽加工過程復(fù)雜、成本高、產(chǎn)品質(zhì)量要求嚴格,因此需決策最優(yōu)換刀時間。本文以基于相似性的銑刀剩余壽命預(yù)測算法[26]作為驗證算法,該算法適用于對監(jiān)控數(shù)據(jù)進行數(shù)據(jù)挖掘,并廣泛應(yīng)用于加工領(lǐng)域的刀具剩余壽命預(yù)測,通過對比分析優(yōu)化前后數(shù)據(jù)的預(yù)測結(jié)果來檢驗AE數(shù)據(jù)特征值準確性的優(yōu)化效果。 以計數(shù)、反算頻率和信號強度數(shù)據(jù)為例,計算結(jié)果如圖6所示,由圓心向外坐標(biāo)為準確率,外圈數(shù)字為輪槽號。計數(shù)、反算頻率和信號強度準確性集中在(0.945 00,0.950 00),最小值0.929 87為55號輪槽的計數(shù)屬性。 14個AE數(shù)據(jù)特征值的權(quán)重,計算結(jié)果如表5所示。 將AE數(shù)據(jù)特征值加權(quán)平均得到以輪槽為單位的準確性評價結(jié)果,如圖7所示,最低點0.895 95為58號輪槽,較次為43號輪槽,準確率為0.899 04,170條輪槽的準確率均值為0.916。 表5 AE數(shù)據(jù)特征值權(quán)重表 對評價結(jié)果進行分析以篩選待優(yōu)化數(shù)據(jù)。如圖6所示,圖中出現(xiàn)多處凹陷,凹陷分為絕對凹陷與相對凹陷。絕對凹陷處點的準確率低,數(shù)據(jù)有待優(yōu)化;相對凹陷處,其周圍點的準確率總體水平較高,僅在該點處產(chǎn)生輕微下凹,其準確性無需優(yōu)化。 根據(jù)上述原則,標(biāo)記2 380個準確性結(jié)果中所有的絕對凹陷點(稱為異常點)作為待優(yōu)化數(shù)據(jù)。異常點標(biāo)記方法為:從圓心開始向外逐點標(biāo)記,直到某點的準確率不再位于后8.4%就停止。8.4%為動態(tài)標(biāo)準,根據(jù)實際數(shù)據(jù)調(diào)整。該值過大造成數(shù)據(jù)過度優(yōu)化,過小則造成數(shù)據(jù)欠優(yōu)化。本文中所有輪槽的準確率均值為0.916,因此取8.4%作為標(biāo)記標(biāo)準。 刀具壽命預(yù)測以銑刀為單位,為便于選擇數(shù)據(jù)集進行優(yōu)化,以每條輪槽為單位統(tǒng)計包含5個及以上異常點的輪槽數(shù)(稱為異常輪槽),并以銑刀為單位統(tǒng)計每銑刀包含的異常輪槽數(shù),統(tǒng)計結(jié)果如表6所示,5號銑刀異常輪槽數(shù)高達9條,1、10號銑刀分別包含4條異常輪槽,14號銑刀包含3條異常輪槽,這4把銑刀的AE數(shù)據(jù)特征值準確性較差。 表6 15把精銑刀異常輪槽統(tǒng)計表 依據(jù)上述結(jié)果對AE數(shù)據(jù)特征值進行準確性優(yōu)化,建立兩個數(shù)據(jù)集D1,D2,每個數(shù)據(jù)集包含6把銑刀對應(yīng)的監(jiān)控數(shù)據(jù),將準確性較差的1、5、10、14號銑刀分別分配給兩個數(shù)據(jù)集,具體對應(yīng)銑刀號D1={5,6,7,8,10,15},D2={1,3,4,12,13,14}。每個數(shù)據(jù)集中,將異常點作為待優(yōu)化數(shù)據(jù),其余為非優(yōu)化數(shù)據(jù),非優(yōu)化數(shù)據(jù)用于建立哈希表,E2LSH_kNN優(yōu)化參數(shù)如表7所示。 表7 E2LSH_kNN算法結(jié)構(gòu) 將優(yōu)化前后的AE數(shù)據(jù)應(yīng)用于基于相似性的銑刀剩余壽命預(yù)測,用平均絕對誤差(MAE)和均方根誤差(RMSE)衡量預(yù)測結(jié)果,誤差單位為輪槽,即預(yù)測的與實際的銑刀可加工剩余輪槽數(shù)之間的差異。結(jié)果如表8所示,優(yōu)化后數(shù)據(jù)集1的MAE降低了0.309個輪槽,RMSE降低了0.355個輪槽,優(yōu)化百分比分別為32.95%與32.55%;數(shù)據(jù)集2的MAE降低了0.677個輪槽,RMSE降低了0.702個輪槽,優(yōu)化百分比分別為40.29%與36.51%。 表8 AE數(shù)據(jù)優(yōu)化前后銑刀剩余壽命預(yù)測算法結(jié)果對比 傳統(tǒng)監(jiān)控數(shù)據(jù)處理方法主要包括指數(shù)平滑去噪、基于距離的離群點處理、最小協(xié)方差估計和孤立森林,因此選上述方法對數(shù)據(jù)進行優(yōu)化處理并用于銑刀剩余壽命預(yù)測,結(jié)果如表9所示,其中方法1代表本文所提數(shù)據(jù)優(yōu)化方法。圖8表示各方法下MAE,RMSE的變化量,由表9及圖8可見,對于數(shù)據(jù)集1,各數(shù)據(jù)優(yōu)化方法均對預(yù)測誤差減小起到正向作用,其中方法1的效果至少3倍優(yōu)于其他方法;對于數(shù)據(jù)集2,只有方法1有效降低了預(yù)測誤差,而其余4種方法均對預(yù)測準確性起到負作用,且誤差增大量數(shù)值接近。 基于上述結(jié)果,方法1對不同數(shù)據(jù)集均有優(yōu)化效果,對初始數(shù)據(jù)集選取不敏感;其次,方法1對數(shù)據(jù)優(yōu)化的效果優(yōu)于其他4種方法,因方法1可在高維數(shù)據(jù)中分別針對單條記錄的每一維數(shù)據(jù)進行獨立分析,因此能精準選擇優(yōu)化數(shù)據(jù),避免過度優(yōu)化以保存原始數(shù)據(jù)特征。而指數(shù)平滑去噪雖可進行單維度數(shù)據(jù)處理,但平滑程度較難把控,易損失數(shù)據(jù)原始特征;其余3種方法對數(shù)據(jù)處理的最小單位為整條記錄,不能針對單維數(shù)據(jù)進行獨立分析,不可避免地產(chǎn)生過度優(yōu)化,甚至對預(yù)測效果產(chǎn)生負作用。綜上所述,本文提出了基于測量不確定度的數(shù)據(jù)準確性量化評價方法,并從數(shù)據(jù)質(zhì)量優(yōu)化的角度有效提升了銑刀剩余壽命預(yù)測的準確率,驗證了數(shù)據(jù)量化評價與優(yōu)化的重要性與必要性。 表9 5種數(shù)據(jù)優(yōu)化處理方法下銑刀剩余壽命預(yù)測誤差對比表 本文通過采集轉(zhuǎn)子輪槽AE數(shù)據(jù),構(gòu)建測量不確定度與數(shù)據(jù)準確性的聯(lián)系,結(jié)合E2LSH_kNN對數(shù)據(jù)準確性進行量化評價及優(yōu)化,使得銑刀剩余壽命預(yù)測算法準確性有效提升。同時,對比指數(shù)平滑去噪、基于距離的離群點處理、最小協(xié)方差估計與孤立森林優(yōu)化處理效果,驗證了測量不確定度法評價數(shù)據(jù)準確性的實用性和有效性,以及在數(shù)據(jù)分析前進行數(shù)值質(zhì)量評價和優(yōu)化的重要性和必要性。 本文測量不確定度法中以高斯函數(shù)進行準確性映射,在確定高斯函數(shù)參數(shù)時,需要實驗人員根據(jù)經(jīng)驗綜合考慮數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)獲取方式、數(shù)據(jù)使用途徑等條件。因此,如何綜合考慮各個因素,使得參數(shù)選擇更加合理、快速、體系化,以應(yīng)用于不同生產(chǎn)加工現(xiàn)場將是下一步需要研究的問題。3 應(yīng)用實例
4 結(jié)束語