尤祺,袁堂曉,汪惠芬
(南京理工大學(xué) 機(jī)械工程學(xué)院,江蘇 南京 210094)
在積累的工業(yè)大數(shù)據(jù)中,時(shí)間序列數(shù)據(jù)是最基本和最普遍的數(shù)據(jù)形式。對(duì)工業(yè)大數(shù)據(jù)進(jìn)行信息提取和價(jià)值發(fā)現(xiàn),前提是要擁有可靠準(zhǔn)確的高質(zhì)量數(shù)據(jù)。然而,由于數(shù)據(jù)來源的多樣性、機(jī)器設(shè)備本身的局限性、工業(yè)現(xiàn)場環(huán)境因素的干擾等情況,工業(yè)數(shù)據(jù)可能存在異?;蛉笔В率篃o法滿足進(jìn)一步分析應(yīng)用的需要。因此,建立可行的數(shù)據(jù)質(zhì)量評(píng)價(jià)、檢測、治理與持續(xù)改善的管理機(jī)制,是工業(yè)大數(shù)據(jù)的重要研究方向。
在數(shù)據(jù)質(zhì)量管理的研究領(lǐng)域,國外學(xué)者更關(guān)注管理框架和管理流程的研究。WANG R Y[1]提出的全面數(shù)據(jù)質(zhì)量管理方法,通過定義、測量、分析和改進(jìn)4個(gè)階段實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的循環(huán)管理。JEUSFELD M A等[2]提出的數(shù)據(jù)倉庫質(zhì)量方法,考慮到質(zhì)量概念的主觀性,根據(jù)不同的使用群體提供不同類別的質(zhì)量目標(biāo)。BATINI C等[3-4]提出完全數(shù)據(jù)質(zhì)量方法,可以應(yīng)用于結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。國內(nèi)對(duì)于數(shù)據(jù)質(zhì)量管理的研究更偏重于實(shí)際應(yīng)用。方幼林等[5]提出了數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量的度量和評(píng)價(jià)指標(biāo),并提出了數(shù)據(jù)質(zhì)量成熟度模型。楊青云等[6]基于數(shù)據(jù)可信性和可用性提出了一個(gè)數(shù)據(jù)質(zhì)量評(píng)估模型。顏宏文等[7]提出了一種基于云模型的電網(wǎng)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)估方法,以避免傳統(tǒng)方法的主觀隨意性。袁滿等[8]針對(duì)數(shù)據(jù)質(zhì)量維度與框架進(jìn)行了對(duì)比分析,為具體應(yīng)用提供了科學(xué)依據(jù)。周艷紅[9]以數(shù)據(jù)生命周期為研究視角,基于層次分析法和專家打分法建立大數(shù)據(jù)質(zhì)量評(píng)估模型。
雖然國內(nèi)外研究學(xué)者針對(duì)數(shù)據(jù)質(zhì)量管理提出了多種方法論和框架,強(qiáng)調(diào)數(shù)據(jù)清洗過程的自動(dòng)化和一次成功率,但在實(shí)際應(yīng)用中缺乏具體的執(zhí)行手段;不同領(lǐng)域內(nèi)數(shù)據(jù)質(zhì)量問題存在差異,對(duì)于工業(yè)時(shí)序數(shù)據(jù)質(zhì)量管理缺乏針對(duì)性的研究;數(shù)據(jù)清洗過程過于追求通用性,沒有將工業(yè)領(lǐng)域知識(shí)與之融合。本文針對(duì)工業(yè)時(shí)序數(shù)據(jù)特點(diǎn)進(jìn)行分析,對(duì)數(shù)據(jù)質(zhì)量評(píng)價(jià)和控制方法進(jìn)行集成與改進(jìn),給出了提升工業(yè)時(shí)序數(shù)據(jù)質(zhì)量的管理方法,最后通過實(shí)際數(shù)據(jù)集驗(yàn)證了質(zhì)量管理和提升的效果。
工業(yè)時(shí)序數(shù)據(jù)主要來自于工業(yè)現(xiàn)場的物聯(lián)網(wǎng)絡(luò)、生產(chǎn)制造裝備和各類自動(dòng)化系統(tǒng)等采集的數(shù)據(jù),具有來源廣泛、體量大、價(jià)值密度低等特點(diǎn)。由于器件系統(tǒng)故障、現(xiàn)場惡劣工況等影響,數(shù)據(jù)質(zhì)量問題廣泛存在,主要表現(xiàn)在以下幾個(gè)方面[10]。
1)數(shù)據(jù)失真和失準(zhǔn)。由于工業(yè)現(xiàn)場復(fù)雜環(huán)境因素的影響以及設(shè)備運(yùn)維保養(yǎng)不當(dāng)、缺乏有效的管理機(jī)制等原因,可能造成各類工業(yè)運(yùn)行數(shù)據(jù)出現(xiàn)數(shù)據(jù)失真和失準(zhǔn)問題。
2)時(shí)間序列周期異常。當(dāng)供電出現(xiàn)故障時(shí),元件功率的變化會(huì)影響數(shù)據(jù)采集頻率,造成時(shí)間序列周期發(fā)生短暫變化。
3)數(shù)據(jù)錯(cuò)列。當(dāng)數(shù)據(jù)采集器出現(xiàn)故障或是控制器發(fā)生收錄錯(cuò)誤時(shí),會(huì)出現(xiàn)部分?jǐn)?shù)據(jù)與其原本屬性無法對(duì)應(yīng)的錯(cuò)列問題。
此外,常見的工業(yè)時(shí)序數(shù)據(jù)質(zhì)量問題還包括數(shù)據(jù)冗余、數(shù)據(jù)誤采、數(shù)據(jù)不可識(shí)別、數(shù)據(jù)缺失、數(shù)據(jù)一致性差等。
不同的數(shù)據(jù)質(zhì)量問題具有不同的嚴(yán)重性和發(fā)生的可能性,本文為這些數(shù)據(jù)質(zhì)量問題建立了風(fēng)險(xiǎn)評(píng)估矩陣,如圖1所示。該評(píng)估矩陣是在綜合分析各類數(shù)據(jù)質(zhì)量問題的出現(xiàn)頻次、檢測和修正難度以及對(duì)后續(xù)數(shù)據(jù)分析應(yīng)用造成的影響的基礎(chǔ)上設(shè)計(jì)的。需要指出的是,風(fēng)險(xiǎn)評(píng)估矩陣中質(zhì)量問題的排列順序是基于經(jīng)驗(yàn)和判斷,可能會(huì)因?yàn)榘咐驊?yīng)用對(duì)象的不同而略有差異。
圖1 工業(yè)時(shí)序數(shù)據(jù)質(zhì)量問題風(fēng)險(xiǎn)評(píng)估矩陣
對(duì)數(shù)據(jù)質(zhì)量維度進(jìn)行定義和分析,是建立數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的前提和基礎(chǔ)。根據(jù)工業(yè)時(shí)序數(shù)據(jù)的特點(diǎn)和存在的質(zhì)量問題,結(jié)合相關(guān)研究[4],本文總結(jié)了適用于工業(yè)時(shí)序數(shù)據(jù)的數(shù)據(jù)質(zhì)量維度,如表1所示。其中,時(shí)效性和及時(shí)性是與時(shí)間相關(guān)的主要維度,表征了數(shù)據(jù)在有效性、更新頻率和穩(wěn)定性等方面的表現(xiàn);風(fēng)險(xiǎn)性則是依據(jù)風(fēng)險(xiǎn)評(píng)估矩陣對(duì)數(shù)據(jù)進(jìn)行評(píng)價(jià)。
表1 工業(yè)時(shí)序數(shù)據(jù)質(zhì)量維度
1)交互式數(shù)據(jù)清洗。原始數(shù)據(jù)中往往存在多種異常,過于追求并依靠自動(dòng)分析并不能很好地解決問題,由專業(yè)人員參與決策的交互式數(shù)據(jù)清洗模式才是符合實(shí)際的努力方向。
2)持續(xù)性數(shù)據(jù)管理。過于追求完美和一次成功率往往適得其反,原有的數(shù)據(jù)質(zhì)量問題解決了,還會(huì)有新的問題出現(xiàn)。應(yīng)當(dāng)把數(shù)據(jù)質(zhì)量管理視為數(shù)據(jù)生命周期內(nèi)的一項(xiàng)經(jīng)常性工作。
3)領(lǐng)域級(jí)數(shù)據(jù)修正。在數(shù)據(jù)質(zhì)量提升環(huán)節(jié),需要將數(shù)理知識(shí)與工業(yè)領(lǐng)域知識(shí)深度融合,依托工業(yè)知識(shí)推理決策進(jìn)行離群值和異常值的修正。
針對(duì)工業(yè)時(shí)序數(shù)據(jù)的特點(diǎn),結(jié)合目前的數(shù)據(jù)質(zhì)量管理架構(gòu)和方法,本文給出如圖2所示的工業(yè)時(shí)序數(shù)據(jù)質(zhì)量管理方法,從定義、評(píng)價(jià)、分析、提升和監(jiān)控5個(gè)流程環(huán)節(jié)持續(xù)改善數(shù)據(jù)質(zhì)量。
圖2 工業(yè)時(shí)序數(shù)據(jù)質(zhì)量管理方法
數(shù)據(jù)質(zhì)量定義通過需求分析和問題定義,明確對(duì)數(shù)據(jù)的質(zhì)量要求和檢測標(biāo)準(zhǔn),進(jìn)行風(fēng)險(xiǎn)評(píng)估和問題分級(jí),為評(píng)價(jià)環(huán)節(jié)提供方向和參考。數(shù)據(jù)質(zhì)量評(píng)價(jià)對(duì)每個(gè)質(zhì)量維度進(jìn)行定義與分析,從而建立完整的評(píng)價(jià)模型,通過綜合數(shù)據(jù)質(zhì)量在各維度的計(jì)算值得到評(píng)價(jià)結(jié)果,評(píng)價(jià)結(jié)果是數(shù)據(jù)質(zhì)量分析和提升的基礎(chǔ)。數(shù)據(jù)質(zhì)量分析針對(duì)不同特點(diǎn)和應(yīng)用場景的工業(yè)時(shí)序數(shù)據(jù)選擇合適的異常數(shù)據(jù)檢測方法,在參考評(píng)價(jià)結(jié)果的基礎(chǔ)上,檢測出數(shù)據(jù)中的重復(fù)值、缺失值、離群值和異常值。數(shù)據(jù)質(zhì)量提升通過與工業(yè)領(lǐng)域知識(shí)的深度融合,實(shí)現(xiàn)知識(shí)與數(shù)據(jù)混合驅(qū)動(dòng)的全方位數(shù)據(jù)清洗。數(shù)據(jù)質(zhì)量監(jiān)控通過對(duì)各個(gè)環(huán)節(jié)的可視化呈現(xiàn)和質(zhì)量問題的示蹤定位,達(dá)到輔助決策的目的。在提升數(shù)據(jù)質(zhì)量的過程中,隨著時(shí)間推移和數(shù)據(jù)演化,可能會(huì)有新的數(shù)據(jù)質(zhì)量問題出現(xiàn),因此需要持續(xù)的數(shù)據(jù)質(zhì)量管理,不斷發(fā)現(xiàn)和解決數(shù)據(jù)中的問題。
在數(shù)據(jù)質(zhì)量評(píng)價(jià)過程中,數(shù)據(jù)質(zhì)量維度權(quán)重的計(jì)算直接影響到評(píng)價(jià)模型的準(zhǔn)確度以及最終的評(píng)價(jià)結(jié)果。本文提出了一種基于層次分析法和熵值法相結(jié)合的主客觀組合賦權(quán)法,組合后的權(quán)重既能體現(xiàn)數(shù)據(jù)信息,又能反映專家意愿,兼顧了主觀權(quán)重和客觀權(quán)重的優(yōu)點(diǎn)。計(jì)算過程如下。
1)基于熵值法計(jì)算客觀權(quán)重:
(1)
式中:n為評(píng)價(jià)維度數(shù);ei表示第i個(gè)維度的熵值,計(jì)算公式為
(2)
式中:m為待評(píng)價(jià)樣本數(shù);pij表示第i個(gè)維度中第j個(gè)樣本值的比重,計(jì)算公式為
(3)
式中xij為第i個(gè)維度中第j個(gè)樣本的數(shù)值。
2)基于層次分析法計(jì)算主觀權(quán)重:
(4)
式中tij表示維度i對(duì)維度j的重要度,使用1~9比率標(biāo)度法進(jìn)行定義。
3)對(duì)以上兩種方法得出的權(quán)重計(jì)算綜合權(quán)重,對(duì)于某一維度i,其綜合權(quán)重為
(5)
最后結(jié)合數(shù)據(jù)在各維度的得分Si,計(jì)算出該數(shù)據(jù)集的總得分:
(6)
目前主流的時(shí)間序列異常檢測方法包括:基于統(tǒng)計(jì)的方法、基于距離的方法、基于密度的方法、基于約束的方法以及基于機(jī)器學(xué)習(xí)的方法[11-12]?;诮y(tǒng)計(jì)的方法根據(jù)數(shù)據(jù)在概率分布模型中的擬合情況來評(píng)估和提取時(shí)序趨勢(shì),但對(duì)于分布特征未知的數(shù)據(jù),這種先驗(yàn)假設(shè)存在較大的局限性?;诰嚯x的方法通過計(jì)算數(shù)據(jù)點(diǎn)之間的距離來檢測孤立點(diǎn),由于使用全局閾值,時(shí)間復(fù)雜度較高且不能處理不同密度區(qū)域的數(shù)據(jù)集?;诿芏鹊姆椒朔瞬煌芏葏^(qū)域的數(shù)據(jù)集混合造成的檢測錯(cuò)誤,但也具有較高的時(shí)間復(fù)雜度?;诩s束的方法根據(jù)數(shù)據(jù)變化的規(guī)則以及序列間的相關(guān)性來建立約束,通過約束規(guī)則來檢測和修復(fù)異常點(diǎn),但是對(duì)于規(guī)則變化較大的數(shù)據(jù)效果不理想。基于機(jī)器學(xué)習(xí)的方法將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的相關(guān)模型與工具應(yīng)用于異常數(shù)據(jù)檢測,模型復(fù)雜度更高,對(duì)于數(shù)據(jù)的預(yù)處理也有更高的要求。本文根據(jù)數(shù)據(jù)的不同應(yīng)用場景及其業(yè)務(wù)需求,給出推薦的異常數(shù)據(jù)檢測方法及其使用效果,見表2。
本文結(jié)合鄭州市的要素稟賦、區(qū)位特點(diǎn)、產(chǎn)業(yè)特征等內(nèi)部環(huán)境因素及國家戰(zhàn)略、宏觀經(jīng)濟(jì)發(fā)展等外部環(huán)境因素,深入探究鄭州市創(chuàng)新型社會(huì)建設(shè)的現(xiàn)狀和面臨的問題,并基于投入-產(chǎn)出視角建立一個(gè)相對(duì)全面的創(chuàng)新型城市建設(shè)評(píng)價(jià)指標(biāo)監(jiān)測系統(tǒng),從而為鄭州市有關(guān)決策部門制定和實(shí)施創(chuàng)新戰(zhàn)略與政策提供支持。
表2 工業(yè)時(shí)序數(shù)據(jù)異常檢測方法及效果分析
原始數(shù)據(jù)在經(jīng)過數(shù)據(jù)質(zhì)量分析之后,除了異常數(shù)據(jù)被檢測出來、正常數(shù)據(jù)被過濾出去以外,可能會(huì)出現(xiàn)如表3所示的正常數(shù)據(jù)被誤測為異常的假異常以及異常數(shù)據(jù)被誤測為正常的假正常的情況。此時(shí),在算法提升效果有限的情況下,可以融入領(lǐng)域?qū)<抑R(shí)對(duì)以上兩種情況進(jìn)行糾正,以免造成數(shù)據(jù)質(zhì)量的損失。
表3 數(shù)據(jù)質(zhì)量分析結(jié)果混淆矩陣
圖3所示的是知識(shí)與數(shù)據(jù)混合驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量提升過程?;旌向?qū)動(dòng)模型包括兩大部分:由專家知識(shí)的表達(dá)與約束規(guī)則界定融合成的領(lǐng)域知識(shí)庫以及基于同類型歷史數(shù)據(jù)進(jìn)行特征抽取得到的數(shù)據(jù)特征庫。當(dāng)接收來自上游模塊的異常數(shù)據(jù)時(shí),對(duì)異常特征進(jìn)行基于知識(shí)庫的模式分析和基于特征庫的查找匹配,然后針對(duì)異常數(shù)據(jù)中的重復(fù)值、缺失值、離群值和異常值進(jìn)行相應(yīng)的處理操作,從而實(shí)現(xiàn)修正真異常和假正常、糾正假異常的目標(biāo)。經(jīng)過質(zhì)量提升的數(shù)據(jù)將被抽取補(bǔ)充到該類數(shù)據(jù)的特征庫中,使得混合驅(qū)動(dòng)模型可以不斷學(xué)習(xí)新的經(jīng)驗(yàn),以增強(qiáng)模型的數(shù)據(jù)處理能力。
圖3 知識(shí)與數(shù)據(jù)混合驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量提升過程
本文基于長短期記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)建立了工業(yè)時(shí)序數(shù)據(jù)質(zhì)量分析方法。LSTM具有控制遺忘的結(jié)構(gòu)設(shè)計(jì),非常適合處理時(shí)序任務(wù)[13]。首先基于歷史數(shù)據(jù)對(duì)LSTM進(jìn)行訓(xùn)練,然后利用LSTM進(jìn)行時(shí)序數(shù)據(jù)預(yù)測,最后使用預(yù)測結(jié)果與實(shí)際數(shù)值的差值進(jìn)行異常區(qū)間的判斷。其中的關(guān)鍵步驟主要包括:
1)數(shù)據(jù)預(yù)處理。將原始數(shù)據(jù)按照公式(7)進(jìn)行歸一化,使處理后的數(shù)據(jù)映射到0~1之間。
(7)
式中:Xscaled為歸一化后的數(shù)據(jù);X為待處理數(shù)據(jù);Xmin為樣本的最小值;Xmax為樣本的最大值。
2)確定時(shí)間步長。時(shí)間步長是LSTM模型的一個(gè)關(guān)鍵參數(shù),會(huì)對(duì)模型運(yùn)算速度和預(yù)測精度產(chǎn)生影響,可以結(jié)合數(shù)據(jù)量大小和模型表現(xiàn)確定其大小。
3)確定節(jié)點(diǎn)數(shù)。根據(jù)經(jīng)驗(yàn)公式(8)和模型實(shí)際表現(xiàn)確定輸入層和隱藏層節(jié)點(diǎn)數(shù)。
(8)
式中:m為隱藏層節(jié)點(diǎn)數(shù);n為輸入層節(jié)點(diǎn)數(shù);l為輸出層節(jié)點(diǎn)數(shù);a為1~10之間的常數(shù)。
訓(xùn)練好模型之后,對(duì)數(shù)據(jù)進(jìn)行預(yù)測,并對(duì)預(yù)測值進(jìn)行歸一化的還原。最后,在專家知識(shí)與約束規(guī)則的界定分析下,確定異常數(shù)據(jù)點(diǎn)并修正。
在對(duì)數(shù)據(jù)質(zhì)量管理效果進(jìn)行分析驗(yàn)證的過程中,除了需要比較處理前后的數(shù)據(jù)質(zhì)量在評(píng)價(jià)模型中的得分表現(xiàn),還需要考量質(zhì)量提升后的數(shù)據(jù)是否提高了分析應(yīng)用的成功率。
本文以某地區(qū)的水泵系統(tǒng)數(shù)據(jù)集為例進(jìn)行分析。該數(shù)據(jù)集由52組傳感器數(shù)據(jù)和水泵系統(tǒng)狀態(tài)標(biāo)簽數(shù)據(jù)組成,每分鐘記錄一組數(shù)據(jù),共計(jì)141120組數(shù)據(jù)。傳感器數(shù)據(jù)記錄了水泵系統(tǒng)的壓力、溫度、流量等信息,水泵系統(tǒng)狀態(tài)標(biāo)簽包括正常與不正常兩種狀態(tài)。
選取部分傳感器數(shù)據(jù),依據(jù)領(lǐng)域知識(shí)和約束規(guī)則事先進(jìn)行異常數(shù)據(jù)的甄別和標(biāo)記,然后采用本文基于LSTM神經(jīng)網(wǎng)絡(luò)的方法對(duì)其進(jìn)行數(shù)據(jù)質(zhì)量分析與提升。圖4所示為部分?jǐn)?shù)據(jù)分析過程,圖中實(shí)線表示實(shí)際值,虛線表示預(yù)測值,將二者作差并結(jié)合專家知識(shí)以確定出異常值。
圖4 數(shù)據(jù)質(zhì)量分析過程示意圖
將分析結(jié)果與傳統(tǒng)的基于密度和基于統(tǒng)計(jì)的方法進(jìn)行對(duì)比,并設(shè)置對(duì)比項(xiàng)為精度(數(shù)據(jù)被正確識(shí)別的比例)、查準(zhǔn)率(識(shí)別為正常數(shù)據(jù)中真正正常數(shù)據(jù)的比例)以及查全率(數(shù)據(jù)中正常數(shù)據(jù)被正確識(shí)別的比例)。結(jié)合表3對(duì)于檢測結(jié)果的定義,給出各對(duì)比項(xiàng)的計(jì)算公式:
(9)
(10)
(11)
式中:A為精度;P為查準(zhǔn)率;R為查全率。
實(shí)驗(yàn)結(jié)果如表4所示。通過對(duì)比可以發(fā)現(xiàn),本文的方法在精度、查準(zhǔn)率和查全率等方面都具有不錯(cuò)的表現(xiàn),特別是精度和查全率,相較于傳統(tǒng)方法有了較大提升。
表4 不同方法對(duì)數(shù)據(jù)質(zhì)量分析結(jié)果的對(duì)比 單位:%
為了驗(yàn)證數(shù)據(jù)質(zhì)量管理的效果,本文基于Keras搭建神經(jīng)網(wǎng)絡(luò)模型,對(duì)該水泵系統(tǒng)進(jìn)行故障預(yù)測。如表5所示,經(jīng)過數(shù)據(jù)質(zhì)量分析與提升后,模型對(duì)于系統(tǒng)故障的預(yù)測準(zhǔn)確率由80.18%提升至90.38%,模型損失(二元交叉熵)由0.1982下降至0.0206,從而證明了數(shù)據(jù)質(zhì)量管理的有效性。
表5 數(shù)據(jù)質(zhì)量管理效果對(duì)比驗(yàn)證
本文梳理了工業(yè)時(shí)序數(shù)據(jù)質(zhì)量問題的主要表現(xiàn),引入風(fēng)險(xiǎn)評(píng)估機(jī)制以完善數(shù)據(jù)質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),給出了工業(yè)時(shí)序數(shù)據(jù)質(zhì)量管理方法。提出了一種基于LSTM神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)質(zhì)量分析方法,并通過實(shí)際數(shù)據(jù)集進(jìn)行了驗(yàn)證。后期研究需要將工業(yè)時(shí)序數(shù)據(jù)質(zhì)量管理方法模塊化、系統(tǒng)化,提高實(shí)用性,使其真正服務(wù)于工業(yè)大數(shù)據(jù)。