加工監(jiān)控數(shù)據(jù)準確性量化評價及優(yōu)化研究

2022-04-04 05:19:58唐思游胡小鋒劉穎超

計算機集成制造系統(tǒng) 2022年3期

唐思游,胡小鋒,劉穎超

(上海交通大學(xué) 機械與動力工程學(xué)院，上海 200240)

0 引言

加工監(jiān)控數(shù)據(jù)被廣泛應(yīng)用于數(shù)據(jù)分析，依其結(jié)果做出的決策對產(chǎn)品質(zhì)量、成本控制、生產(chǎn)效率影響巨大。因此，符合標(biāo)準的數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析結(jié)果有效的先決條件。監(jiān)控數(shù)據(jù)無法獲取理論真值，難以對數(shù)據(jù)準確性進行量化評價，而定量的準確性評價是精準優(yōu)化的基礎(chǔ)，從保證數(shù)據(jù)質(zhì)量出發(fā)，進而保證數(shù)據(jù)分析的準確性和有效性。

近年來，國內(nèi)外許多學(xué)者致力于數(shù)據(jù)準確性的研究。武榮坤[1]提出趨勢預(yù)測法和回歸預(yù)測法分析統(tǒng)計數(shù)據(jù)可靠度；戚桂杰等[2]提出回歸分析法檢測污染數(shù)據(jù)和異常點；王華等[3]提出了邏輯規(guī)則檢驗、經(jīng)驗參數(shù)對比、相關(guān)指標(biāo)變動趨勢比對法；史曉貞等[4]針對橋梁健康監(jiān)測系統(tǒng)數(shù)據(jù)準確性分析提出了位置對比法和相關(guān)性分析法；NRMAN等[5]提出概率關(guān)系模型,用于業(yè)務(wù)流程中的數(shù)據(jù)準確性評估；GARCIA等[6]提出貝葉斯序列概率推斷法來提高動態(tài)測量數(shù)據(jù)的準確性；李勇[7]提出基于差分的分位數(shù)可疑數(shù)據(jù)檢測方法；成邦文等[8-9]提出了統(tǒng)計分布檢驗與基于統(tǒng)計分布的異常數(shù)值識別方法；RAMASWAMY等[10]提出循環(huán)嵌套、基于索引和劃分算法對數(shù)據(jù)集中的異常值進行識別；劉波等[11]等從規(guī)則度量關(guān)系及其相關(guān)分析的角度對數(shù)據(jù)準確性進評估與優(yōu)化；張福民等[12]基于蒙特卡洛仿真方法從測量不確定度角度對多儀器融合測量結(jié)果準確性進行評價。上述研究主要面向統(tǒng)計數(shù)據(jù)及實驗室環(huán)境下的數(shù)據(jù)準確性評價和異常數(shù)據(jù)識別，尚未有相關(guān)文獻針對實際加工現(xiàn)場的監(jiān)控數(shù)據(jù)進行數(shù)據(jù)準確性的量化評價。

數(shù)據(jù)準確性對數(shù)據(jù)分析效果影響方面，OSEI-BRYSON等[13]綜述了使用數(shù)據(jù)挖掘結(jié)果來支持決策時數(shù)據(jù)信息正確且準確的必要性以及劣質(zhì)數(shù)據(jù)對于數(shù)據(jù)挖掘項目的影響；STANG等[14]面向工單數(shù)據(jù)系統(tǒng)，刪除低質(zhì)數(shù)據(jù)后進行工單延遲預(yù)測以驗證數(shù)據(jù)準確性的重要性；BLAKE等[15]以J48分類算法為對象研究了數(shù)據(jù)準確性、完整性、一致性、時效性以及問題復(fù)雜度對數(shù)據(jù)分析效果的影響。然而，上述研究不針對實際加工監(jiān)控數(shù)據(jù)準確性對數(shù)據(jù)分析效果的影響，且數(shù)據(jù)優(yōu)化過程改變了數(shù)據(jù)集大小。

本文提出一種基于測量不確定度的數(shù)據(jù)準確性量化評價方法，該方法可以針對無理論真值的加工監(jiān)控數(shù)據(jù)進行準確性量化評價。通過歐氏距離下局部敏感哈希技術(shù)(Locally Sensitive Hashing under Euclidean2, E2LSH)及k鄰近優(yōu)化算法(k-Nearest Neighbor, kNN)對數(shù)據(jù)準確性進行針對性的優(yōu)化。最終將優(yōu)化前后的數(shù)據(jù)用于基于相似性的銑刀剩余壽命預(yù)測，以驗證數(shù)據(jù)準確性進行量化評價及優(yōu)化的重要性和有效性。

1 監(jiān)控數(shù)據(jù)準確性的量化計算及評價框架

1.1 基于測量不確定度的數(shù)據(jù)準確性計算

在GB/T 25000.12—2017中對數(shù)據(jù)準確性定義為：特定使用周境中，數(shù)據(jù)具有準確表示一個概念或事件相關(guān)屬性真實值的屬性的程度[16]。監(jiān)控數(shù)據(jù)無法獲取理論真值從而無法定量計算數(shù)據(jù)準確性。測量不確定度表征被測量估計值的分散性，其值越小，數(shù)據(jù)質(zhì)量越高，使用價值越大[17]。因此，本文構(gòu)建測量不確定度法與數(shù)據(jù)準確性建立聯(lián)系，實現(xiàn)監(jiān)控數(shù)據(jù)準確性的量化評價，量化評價步驟如圖1所示。

(1)

表1 測量數(shù)據(jù)樣表

為消除數(shù)據(jù)的測量尺度與量綱影響，引入變異系數(shù)vpq：

(2)

(3)

式中r為調(diào)整比例，依據(jù)實際vpq分布而定。

(4)

建立準確性映射得到apq后，當(dāng)數(shù)據(jù)屬性A1,A2,…,Aj分別對應(yīng)權(quán)重ω1,ω2,…,ωj(賦權(quán)法詳見1.2節(jié))，則某條數(shù)據(jù)記錄的準確性為：

(5)

1.2 數(shù)據(jù)屬性賦權(quán)

賦權(quán)法包括主觀賦權(quán)法和客觀賦權(quán)法。主觀賦權(quán)法包括層次分析法、專家咨詢法、二項系數(shù)法等；客觀賦權(quán)法包括變異系數(shù)法、熵值法、灰色關(guān)聯(lián)度法等[19]。層次分析法通過將復(fù)雜評價問題逐級拆解，使其具有可操作性，決策者可根據(jù)歷史經(jīng)驗和當(dāng)前問題動態(tài)調(diào)整屬性重要度，實現(xiàn)定性與定量分析相結(jié)合；變異系數(shù)法能客觀體現(xiàn)各數(shù)據(jù)屬性的內(nèi)在差異及特征，計算方法簡單高效。為準確客觀地賦權(quán)，同時考慮主觀經(jīng)驗與樣本數(shù)據(jù)特征，本文選擇將層次分析法與變異系數(shù)法賦權(quán)結(jié)果平均，得到最終權(quán)重。

層次分析法將復(fù)雜問題分解為若干個有序的遞階子層級，在每層內(nèi)部請該領(lǐng)域?qū)＜覍?shù)據(jù)屬性兩兩對比，構(gòu)建判斷矩陣。本文借助皮爾遜相關(guān)系數(shù)、動態(tài)層次聚類的關(guān)鍵因素挖掘[20]來構(gòu)建判斷矩陣。以表1為例，屬性Ap與Aq重要性比較結(jié)果為dpq，則判斷矩陣

(6)

判斷矩陣標(biāo)度標(biāo)準如表2所示。

表2 判斷矩陣標(biāo)度標(biāo)準

將D中元素按列歸一化：

(7)

將歸一化后的矩陣的同一行的各列相加：

(8)

將相加后的向量除以j即得權(quán)重向量：

(9)

計算最大特征根：

(10)

判斷矩陣D的一致性檢驗指標(biāo)(C.I.)：

(11)

引入一致性比例(C.R.)：

(12)

其中R.I.為隨機一致性指標(biāo),如表3所示。

表3 平均隨機一致性指標(biāo)R.I.

變異系數(shù)法基本思想是：在評價體系中，數(shù)據(jù)取值差異越大的屬性越能反映被評價單位的差距。為消除各數(shù)據(jù)屬性量綱不同產(chǎn)生的影響，引入權(quán)重變異系數(shù)：

(13)

各項指標(biāo)權(quán)重為：

(14)

綜合層次分析法與變異系數(shù)法，最終權(quán)重為：

(15)

2 監(jiān)控數(shù)據(jù)準確性優(yōu)化

數(shù)據(jù)準確性優(yōu)化依賴于數(shù)據(jù)清洗，即通過檢測和消除實例級數(shù)據(jù)質(zhì)量問題提高數(shù)據(jù)質(zhì)量[21]。數(shù)據(jù)優(yōu)化應(yīng)綜合考慮優(yōu)化效果及效率，kNN精度高但計算復(fù)雜度高、數(shù)據(jù)集較大時優(yōu)化效率低。E2LSH適用于在海量高維數(shù)據(jù)中搜尋近似項，可彌補kNN的低執(zhí)行效率。本文將E2LSH及kNN結(jié)合，以實現(xiàn)高效、高精度數(shù)據(jù)準確性優(yōu)化[23]。

優(yōu)化思路為：監(jiān)控數(shù)據(jù)集為T,經(jīng)過數(shù)據(jù)準確性計算后選出待優(yōu)化數(shù)據(jù)集Q及無需優(yōu)化數(shù)據(jù)集V,通過E2LSH方法將數(shù)據(jù)v(v∈V)進行映射，建立哈希表，數(shù)據(jù)q(q∈Q)進行E2LSH映射后進行哈希表查詢，找出k個與q最臨近的點進行kNN優(yōu)化。

E2LSH基本思想：將原始特征空間中相鄰的兩個數(shù)據(jù)點通過相同的投影或者變換后，這兩個點具有較大概率仍然相鄰，原始特征空間中不相鄰的點具有較大概率仍不相鄰[25]，即H={h:S→U}，H是局部敏感的：對于任何v,q∈S，若v∈B(q,r1)則PrH[h(q)=h(v)]≥p1，若v?B(q,r2)則PrH[h(q)=h(v)]≤p2。其中:B(q,r)={v∈S|D(v,q)≤r}；PrH為概率;p1>p2;r1

上述h為哈希函數(shù)：ha,b(v):Rd→N為映射一個d維特征向量v到一個整數(shù)集，

(16)

式中：a為一個d維特征向量，每一維是一個獨立選取的滿足P穩(wěn)定分布的隨機變量;b為[0,w]范圍內(nèi)的一個隨機數(shù);w表示當(dāng)a.v將高維向量映射到實軸后，將實軸以寬度w等分，并對每段區(qū)域從左至右標(biāo)號，將a.v映射后所在的區(qū)域標(biāo)號作為其哈希取值。w實際取值取決于數(shù)據(jù)集Q及V，一般取w=4[23]。

定義一個函數(shù)族G={g:S→Un}，選取n個哈希函數(shù)hi∈H組成g(v)=(h1(v),…，hn(v))；取整數(shù)L，從G中選取L個函數(shù)g1,…，gL；另外定義兩個哈希函數(shù)H1和H2，H1值作為哈希表索引，H2值作為鏈表中的關(guān)鍵值。具體形式如下：

(17)

(18)

其中：ri,li是隨機整數(shù)；tablesize為哈希表長度；C為一個大的素數(shù)，由計算機位數(shù)決定，例如32位機器取C=232-5，C的取值大小以滿足哈希函數(shù)進行高效計算而無需使用模運算為目標(biāo)[23]。

kNN中選取與待優(yōu)化點q距離最近的前k個點v1,…,vk，q的第i個維度的優(yōu)化值為：

(19)

其中Dij為第i項與第j項的距離，本文取歐氏距離。

E2LSH_kNN算法步驟如圖4所示。

3 應(yīng)用實例

本文實驗平臺由某汽輪機廠提供，采用15把J1型輪槽銑刀對汽輪機轉(zhuǎn)子輪槽進行精銑削加工。采用PCI-2AE采集聲發(fā)射(Acoustic Emission, AE)信號，采樣頻率為1 MHz。加工現(xiàn)場如圖5所示。

樣本數(shù)據(jù)集包含由15把精銑刀加工的共計170條輪槽的監(jiān)控數(shù)據(jù)，每條輪槽持續(xù)監(jiān)控得到10 000條數(shù)據(jù)記錄，每條數(shù)據(jù)記錄包含14種AE屬性：上升時間、計數(shù)、能量、幅值、平均頻率、均方根值、平均信號電平，峰值頻率、反算頻率、初始頻率、信號強度、絕對能量、中心頻率、峰頻。將每條輪槽的10 000條AE數(shù)據(jù)求平均后得到14個均值，170條輪槽共計得到2 380個均值。15把精銑刀加工的輪槽號如表4所示。

表4 15把精銑刀加工輪槽表

汽輪機轉(zhuǎn)子輪槽加工過程復(fù)雜、成本高、產(chǎn)品質(zhì)量要求嚴格，因此需決策最優(yōu)換刀時間。本文以基于相似性的銑刀剩余壽命預(yù)測算法[26]作為驗證算法，該算法適用于對監(jiān)控數(shù)據(jù)進行數(shù)據(jù)挖掘，并廣泛應(yīng)用于加工領(lǐng)域的刀具剩余壽命預(yù)測，通過對比分析優(yōu)化前后數(shù)據(jù)的預(yù)測結(jié)果來檢驗AE數(shù)據(jù)特征值準確性的優(yōu)化效果。

以計數(shù)、反算頻率和信號強度數(shù)據(jù)為例，計算結(jié)果如圖6所示，由圓心向外坐標(biāo)為準確率，外圈數(shù)字為輪槽號。計數(shù)、反算頻率和信號強度準確性集中在(0.945 00，0.950 00)，最小值0.929 87為55號輪槽的計數(shù)屬性。

14個AE數(shù)據(jù)特征值的權(quán)重，計算結(jié)果如表5所示。

將AE數(shù)據(jù)特征值加權(quán)平均得到以輪槽為單位的準確性評價結(jié)果，如圖7所示，最低點0.895 95為58號輪槽，較次為43號輪槽，準確率為0.899 04，170條輪槽的準確率均值為0.916。

表5 AE數(shù)據(jù)特征值權(quán)重表

對評價結(jié)果進行分析以篩選待優(yōu)化數(shù)據(jù)。如圖6所示，圖中出現(xiàn)多處凹陷，凹陷分為絕對凹陷與相對凹陷。絕對凹陷處點的準確率低，數(shù)據(jù)有待優(yōu)化；相對凹陷處，其周圍點的準確率總體水平較高，僅在該點處產(chǎn)生輕微下凹，其準確性無需優(yōu)化。

根據(jù)上述原則，標(biāo)記2 380個準確性結(jié)果中所有的絕對凹陷點(稱為異常點)作為待優(yōu)化數(shù)據(jù)。異常點標(biāo)記方法為：從圓心開始向外逐點標(biāo)記，直到某點的準確率不再位于后8.4%就停止。8.4%為動態(tài)標(biāo)準，根據(jù)實際數(shù)據(jù)調(diào)整。該值過大造成數(shù)據(jù)過度優(yōu)化，過小則造成數(shù)據(jù)欠優(yōu)化。本文中所有輪槽的準確率均值為0.916，因此取8.4%作為標(biāo)記標(biāo)準。

刀具壽命預(yù)測以銑刀為單位，為便于選擇數(shù)據(jù)集進行優(yōu)化，以每條輪槽為單位統(tǒng)計包含5個及以上異常點的輪槽數(shù)(稱為異常輪槽)，并以銑刀為單位統(tǒng)計每銑刀包含的異常輪槽數(shù)，統(tǒng)計結(jié)果如表6所示，5號銑刀異常輪槽數(shù)高達9條，1、10號銑刀分別包含4條異常輪槽，14號銑刀包含3條異常輪槽，這4把銑刀的AE數(shù)據(jù)特征值準確性較差。

表6 15把精銑刀異常輪槽統(tǒng)計表

依據(jù)上述結(jié)果對AE數(shù)據(jù)特征值進行準確性優(yōu)化，建立兩個數(shù)據(jù)集D1,D2,每個數(shù)據(jù)集包含6把銑刀對應(yīng)的監(jiān)控數(shù)據(jù)，將準確性較差的1、5、10、14號銑刀分別分配給兩個數(shù)據(jù)集，具體對應(yīng)銑刀號D1={5,6,7,8,10,15},D2={1,3,4,12,13,14}。每個數(shù)據(jù)集中，將異常點作為待優(yōu)化數(shù)據(jù)，其余為非優(yōu)化數(shù)據(jù)，非優(yōu)化數(shù)據(jù)用于建立哈希表，E2LSH_kNN優(yōu)化參數(shù)如表7所示。

表7 E2LSH_kNN算法結(jié)構(gòu)

將優(yōu)化前后的AE數(shù)據(jù)應(yīng)用于基于相似性的銑刀剩余壽命預(yù)測，用平均絕對誤差(MAE)和均方根誤差(RMSE)衡量預(yù)測結(jié)果，誤差單位為輪槽，即預(yù)測的與實際的銑刀可加工剩余輪槽數(shù)之間的差異。結(jié)果如表8所示，優(yōu)化后數(shù)據(jù)集1的MAE降低了0.309個輪槽，RMSE降低了0.355個輪槽，優(yōu)化百分比分別為32.95%與32.55%；數(shù)據(jù)集2的MAE降低了0.677個輪槽，RMSE降低了0.702個輪槽，優(yōu)化百分比分別為40.29%與36.51%。

表8 AE數(shù)據(jù)優(yōu)化前后銑刀剩余壽命預(yù)測算法結(jié)果對比

傳統(tǒng)監(jiān)控數(shù)據(jù)處理方法主要包括指數(shù)平滑去噪、基于距離的離群點處理、最小協(xié)方差估計和孤立森林，因此選上述方法對數(shù)據(jù)進行優(yōu)化處理并用于銑刀剩余壽命預(yù)測，結(jié)果如表9所示，其中方法1代表本文所提數(shù)據(jù)優(yōu)化方法。圖8表示各方法下MAE,RMSE的變化量，由表9及圖8可見，對于數(shù)據(jù)集1，各數(shù)據(jù)優(yōu)化方法均對預(yù)測誤差減小起到正向作用，其中方法1的效果至少3倍優(yōu)于其他方法；對于數(shù)據(jù)集2，只有方法1有效降低了預(yù)測誤差，而其余4種方法均對預(yù)測準確性起到負作用，且誤差增大量數(shù)值接近。

基于上述結(jié)果，方法1對不同數(shù)據(jù)集均有優(yōu)化效果，對初始數(shù)據(jù)集選取不敏感；其次，方法1對數(shù)據(jù)優(yōu)化的效果優(yōu)于其他4種方法，因方法1可在高維數(shù)據(jù)中分別針對單條記錄的每一維數(shù)據(jù)進行獨立分析，因此能精準選擇優(yōu)化數(shù)據(jù)，避免過度優(yōu)化以保存原始數(shù)據(jù)特征。而指數(shù)平滑去噪雖可進行單維度數(shù)據(jù)處理，但平滑程度較難把控，易損失數(shù)據(jù)原始特征；其余3種方法對數(shù)據(jù)處理的最小單位為整條記錄，不能針對單維數(shù)據(jù)進行獨立分析，不可避免地產(chǎn)生過度優(yōu)化，甚至對預(yù)測效果產(chǎn)生負作用。綜上所述，本文提出了基于測量不確定度的數(shù)據(jù)準確性量化評價方法，并從數(shù)據(jù)質(zhì)量優(yōu)化的角度有效提升了銑刀剩余壽命預(yù)測的準確率，驗證了數(shù)據(jù)量化評價與優(yōu)化的重要性與必要性。

表9 5種數(shù)據(jù)優(yōu)化處理方法下銑刀剩余壽命預(yù)測誤差對比表

4 結(jié)束語

本文通過采集轉(zhuǎn)子輪槽AE數(shù)據(jù)，構(gòu)建測量不確定度與數(shù)據(jù)準確性的聯(lián)系，結(jié)合E2LSH_kNN對數(shù)據(jù)準確性進行量化評價及優(yōu)化，使得銑刀剩余壽命預(yù)測算法準確性有效提升。同時，對比指數(shù)平滑去噪、基于距離的離群點處理、最小協(xié)方差估計與孤立森林優(yōu)化處理效果，驗證了測量不確定度法評價數(shù)據(jù)準確性的實用性和有效性，以及在數(shù)據(jù)分析前進行數(shù)值質(zhì)量評價和優(yōu)化的重要性和必要性。

本文測量不確定度法中以高斯函數(shù)進行準確性映射，在確定高斯函數(shù)參數(shù)時，需要實驗人員根據(jù)經(jīng)驗綜合考慮數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)獲取方式、數(shù)據(jù)使用途徑等條件。因此，如何綜合考慮各個因素，使得參數(shù)選擇更加合理、快速、體系化，以應(yīng)用于不同生產(chǎn)加工現(xiàn)場將是下一步需要研究的問題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡