王子豪
(徐州工程學(xué)院,江蘇 徐州 221018)
制造廠商需要抽樣檢測流水線上生產(chǎn)的產(chǎn)品,數(shù)據(jù)公司同樣也需要對自己的數(shù)據(jù)產(chǎn)品質(zhì)量進行把控。研究數(shù)據(jù)驅(qū)動的異常檢測與預(yù)警問題,對于生產(chǎn)企業(yè)來說可以及時發(fā)現(xiàn)產(chǎn)品或數(shù)據(jù)中的異常,從而修正偏差改善產(chǎn)品質(zhì)量,提高收益。此外,對于任何的分析,在數(shù)據(jù)預(yù)處理的過程中檢測數(shù)據(jù)中的異常值都是非常重要的一步。異常值會大幅度地改變數(shù)據(jù)分析和統(tǒng)計建模的結(jié)果。數(shù)據(jù)集中異常值有很多不利影響,會增加誤差差異,并降低統(tǒng)計測試的能力。研究數(shù)據(jù)驅(qū)動的異常檢測與預(yù)警問題,可以降低錯誤率,提高結(jié)果的準(zhǔn)確性。
在數(shù)據(jù)篩選方面通過因子分析的方法對題中所給數(shù)據(jù)進行篩選。根據(jù)已篩選的數(shù)據(jù)進行高斯分布分析,通過高斯分布進行再一次的篩選,將不滿足高斯分布的數(shù)據(jù)進行剔除,只保留滿足高斯分布的數(shù)據(jù)。
對篩選結(jié)果而來的數(shù)據(jù),運用Spss 軟件對數(shù)據(jù)進行可視化處理,本文采取繪制箱線圖的方法,求解得出結(jié)果,根據(jù)箱線圖所給的范圍,找出異常值存在的范圍,即確立離群點。將篩選結(jié)果導(dǎo)入Excel 中,利用Excel 標(biāo)選出離群點。
先考慮風(fēng)險性異常特點,對所篩選出來的離群點通過Excel進行縱向分析,以異常值持續(xù)時間為指標(biāo)篩選出異常值具有持續(xù)性特點的離群點。再在此基礎(chǔ)上對數(shù)據(jù)進行橫向分析,選取在同一時間出現(xiàn)異常的傳感器數(shù)量作為指標(biāo)篩選聯(lián)動性特點。橫向篩選結(jié)果的集合與縱向篩選結(jié)果的集合取交集,即為風(fēng)險性異常數(shù)據(jù)波動。
對數(shù)據(jù)進行高斯分布處理,根據(jù)高斯分布特點,本文發(fā)現(xiàn)不符合高斯分布的數(shù)據(jù)其波動性變化微小,故本題將這些變化微小的數(shù)據(jù)進行篩選剔除,保留滿足高斯分布的數(shù)據(jù)。
對篩選結(jié)果而來的數(shù)據(jù),運用Spss 軟件對數(shù)據(jù)進行可視化處理,本文采取繪制箱線圖的方法,刻畫離群點,將這些離群點在Excel 中標(biāo)出。
在此前模型的基礎(chǔ)上對風(fēng)險性異常數(shù)據(jù)進行量化評價方法,本題首先建立評價指標(biāo),指標(biāo)的建立采用窗口分析法,提取窗口中該異常數(shù)據(jù)與平均值的大小,分析出該窗口的方差、數(shù)據(jù)變化幅度并將其作為指標(biāo),然后建立評價模型,由于本題評價類型較為客觀,故選擇熵權(quán)法進行評價。
2.1.1 利用熵權(quán)法確定相關(guān)指標(biāo)的權(quán)重
熵權(quán)法是一種客觀賦權(quán)方法。在具體使用過程中,熵權(quán)法根據(jù)各個指標(biāo)的變異程度,利用信息熵計算出各個指標(biāo)的熵權(quán),再通過熵權(quán)對各個指標(biāo)的權(quán)重進行修正,由此得出的結(jié)果為較為客觀的指標(biāo)權(quán)重[2]。
(1)對問題一已篩選得出的風(fēng)險異常數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,如下式所建立的負(fù)向指標(biāo):
(2)求各個指標(biāo)的信息熵。根據(jù)信息論中信息熵的定義,一組數(shù)據(jù)的信息熵計算公式如下所示:
(3)確定各個指標(biāo)權(quán)重。根據(jù)信息熵計算公式,計算得出各個指標(biāo)的信息熵。通過信息熵計算各個指標(biāo)的權(quán)重,如下式所示:
2.1.2 對風(fēng)險性異常數(shù)據(jù)整體量化評價
為了避免權(quán)重計算時失去實際意義,采用將某時刻中的某一項指標(biāo)加權(quán)后與全時刻該指標(biāo)加權(quán)后的平均值進行比較。首先計算共計L 的全時刻指標(biāo)E 量化加權(quán)后的平均值,如下式所示:
由于在量化過程中,本題已經(jīng)確保了量化結(jié)果與風(fēng)險等級正相關(guān),故只需要將第X 個時刻的指標(biāo)E 與平均值E 作差,并用差值與平均值作比,即可作為該時刻該指標(biāo)的得分,如下式所示:
求出時刻全部指標(biāo)的總得分即為該醫(yī)院最終得分,如下式所示:
最后,用求出的Sx可較為公正且全面的衡量風(fēng)險異常數(shù)據(jù)時刻的風(fēng)險等級,將這L 個時刻所得最終得分降序排列,去排名靠前的五個時刻,通過計算得出具體結(jié)果。
建立在問題一篩選出來的數(shù)據(jù)的基礎(chǔ)上,進一步求出這些數(shù)據(jù)所占的權(quán)重。由于這里的權(quán)重需要偏客觀性,本文采用熵權(quán)法求權(quán)重。考慮到這些數(shù)據(jù)均為異常值數(shù)據(jù),所以先對數(shù)據(jù)進行逆向化量綱處理。
在模型建立中選取了均值和方差作為指標(biāo),并用Spss 求出該異常編號數(shù)據(jù)的均值和方差,運用主成分分析法在均值和方差之間提取了均值作為主要分析的成分,篩選出來的5 個異常時刻編號如下:
1929(8:02:15)、1131(4:42:45)、2470(10:17:30)、3082(12:50:30)、941(3:55:15)
對應(yīng)得機器編號為:3;69;62、74;54;69、84 對處理好的數(shù)據(jù)進行熵權(quán)法求權(quán)重,求得平均值、標(biāo)準(zhǔn)差。求解結(jié)果如表1 所示。
表1 平均值及標(biāo)準(zhǔn)差求解表
在步驟一、步驟二處理好數(shù)據(jù),并求得平均值、標(biāo)準(zhǔn)差之后,本文使用熵權(quán)法求解出相應(yīng)權(quán)重,使用Spss 軟件求出權(quán)重如表2 所示。
表2 熵權(quán)法計算權(quán)重結(jié)果匯總表
權(quán)重數(shù)據(jù)可視化如圖1 所示。
圖1 權(quán)重數(shù)據(jù)可視化圖
Step4:根據(jù)以上模型,得出最終5 個異常分值最高時刻對應(yīng)的異常傳感器編號排序如下:
62、74>69>3>54>69、84
本文對數(shù)據(jù)進行篩選與處理,篩選得出的數(shù)據(jù)通過繪制箱線圖,確定異常點的集合,在此基礎(chǔ)上再對異常點進行有無風(fēng)險性判斷。本題選取時間間隔與持續(xù)時間為異常點滿足風(fēng)險性條件下的指標(biāo),選取所有傳感器在同一時間出現(xiàn)異常點的個數(shù)為聯(lián)動性指標(biāo)。由此對數(shù)據(jù)進行縱向與橫向雙維度篩選分析,當(dāng)持續(xù)時間長且同時出現(xiàn)異常傳感器數(shù)量多時,即為風(fēng)險異常數(shù)據(jù)。
在前模型的基礎(chǔ)上,對風(fēng)險性異常數(shù)據(jù)進行量化評價,對各個指標(biāo)進行量化處理,確定指標(biāo)的權(quán)重,權(quán)重的確立要更加接近于持續(xù)性、聯(lián)動性等特點,由于評價目標(biāo)較為客觀,故可以在以上分析的基礎(chǔ)上利用熵權(quán)法確定權(quán)重,再為每一個傳感器計算出一個風(fēng)險性異常波動指數(shù)。對每一時刻所有傳感器的風(fēng)險性異常波動指數(shù)進行求和,選取最大的五個時刻,并記錄此時風(fēng)險性異常波動指數(shù)最大的傳感器。