沈陽鼓風(fēng)機集團股份有限公司 張建茹 郭慶豐 閆強
華電福新能源股份有限公司甘肅分公司 李樂 趙禮永
機械設(shè)備集群大數(shù)據(jù)系統(tǒng)研究與應(yīng)用
沈陽鼓風(fēng)機集團股份有限公司 張建茹 郭慶豐 閆強
華電福新能源股份有限公司甘肅分公司 李樂 趙禮永
對設(shè)備進行連續(xù)的數(shù)據(jù)采集與儲存的基礎(chǔ)上,獲得反映設(shè)備狀態(tài)的數(shù)據(jù),系統(tǒng)通過對獲得的大數(shù)據(jù)進行處理以及研究,從而對設(shè)備的健康狀態(tài)進行一個合理的評估。為了有效地監(jiān)測機組異常變化以及進行機組狀態(tài)評估,必須選取合理的特征參量,并對這些參量進行監(jiān)控。通過結(jié)合自動設(shè)置報警門限以及與特征參量門限值相關(guān)聯(lián)的報警策略,實現(xiàn)了系統(tǒng)對機組的運行狀態(tài)監(jiān)測、異常識別、狀態(tài)評估,甚至是故障部位識別,建立智能診斷系統(tǒng)。
大數(shù)據(jù)采集與存儲 狀態(tài)監(jiān)測 數(shù)據(jù)分析 故障診斷 門限值。
傳統(tǒng)關(guān)系型數(shù)據(jù)庫已不能滿足互聯(lián)網(wǎng)應(yīng)用需求的情況下,開始出現(xiàn)一些針對結(jié)構(gòu)化、半結(jié)構(gòu)化甚至非結(jié)構(gòu)化數(shù)據(jù)的管理系統(tǒng)。在這些系統(tǒng)中,數(shù)據(jù)通常采用多副本的方式進行存儲,保證系統(tǒng)的可用性和并發(fā)性;采用較弱的一致性模型(如最終一致性模型),在保證低延時的用戶相應(yīng)的同時,維持復(fù)本之間的一致狀態(tài);并且都提供良好的負(fù)載平衡策略和容錯手段。
按照數(shù)據(jù)管理方式劃分,集中式數(shù)據(jù)管理系統(tǒng)和非集中式數(shù)據(jù)管理系統(tǒng)兩大類。
在信息時代,互聯(lián)網(wǎng)已經(jīng)成為了世界范圍內(nèi)最大的數(shù)據(jù)倉庫。如何快速地從這些海量數(shù)據(jù)中抽取出關(guān)鍵的信息用以提高互聯(lián)網(wǎng)應(yīng)用的質(zhì)量、用戶體驗等,已經(jīng)成為了互聯(lián)網(wǎng)企業(yè)之間競爭的關(guān)鍵技術(shù)問題。同時,大規(guī)模數(shù)據(jù)處理的研究,也是DISC應(yīng)用研究的關(guān)鍵問題。
解決大規(guī)模數(shù)據(jù)處理的方法就是并行計算。將大量數(shù)據(jù)分散到多個節(jié)點上,將計算并行化,利用多機的計算資源,從而加快數(shù)據(jù)處理的速度。目前,這種并行計算主要分為三大類,一類是廣泛應(yīng)用于高性能計算的MPI(Message Passing Interface,消息傳遞接口)技術(shù),一類是以Google/Yahoo為代表的互聯(lián)網(wǎng)企業(yè)興起的Map(映射)/Reduce(化簡)計算,一類是微軟提出的Dryad并行計算模型。
現(xiàn)行大數(shù)據(jù)有結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化之分,對于結(jié)構(gòu)化大數(shù)據(jù)(大規(guī)模樣本+高維變量),研究了大數(shù)據(jù)分類分析方法,主要包括:支持向量分位數(shù)回歸、神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸、L1 Logit回歸、大規(guī)模數(shù)據(jù)分位數(shù)回歸等。這些大數(shù)據(jù)分類分析方法,能夠準(zhǔn)確地識別機械設(shè)備運行工況,具體過程如下:
第一,收集所監(jiān)測機械設(shè)備歷年來的運行工況參數(shù),基于對其工況特點的統(tǒng)計分析,給出對其工況的合理分段(確定工況類別數(shù));
第二,根據(jù)正常工況下機械設(shè)備的功率、針對幅值等信號,將每一組工況參數(shù)分到不同的類中,形成帶有類別標(biāo)簽的樣本集;
第三,利用這些樣本訓(xùn)練支持向量分位數(shù)回歸、神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸、L1 Logit回歸、大規(guī)模數(shù)據(jù)分位數(shù)回歸等,得到相應(yīng)的模型(估計出模型參數(shù));
第四,將此模型應(yīng)用到機械設(shè)備,則可以通過輸入當(dāng)前的工況參數(shù)到此模型,模型會自動給出當(dāng)前工況的類別。
現(xiàn)實中,解釋變量和響應(yīng)變量之間的關(guān)系模式不一定是線性的,非線性關(guān)系即使存在,其函數(shù)形式也很難準(zhǔn)確確定,主要表現(xiàn)為:非線性函數(shù)fx1(X1)的形式很難選擇和設(shè)計。常見的做法是將非線性函數(shù)進行線性近似:局部多項式展開或B-樣條基函數(shù)展開,使用線性分位數(shù)回歸方法逼近非線性分位數(shù)回歸結(jié)果,局部多項式分位數(shù)回歸與B-樣條分位數(shù)回歸就是其中的典型代表?;蛘呖梢允褂梅菂?shù)方法解決非線性函數(shù)誤設(shè)問題,即建立非參數(shù)分位數(shù)回歸模型。
神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸(QRNN)由Taylor首次提出,是一種靈活的非參數(shù)的分位數(shù)回歸建模方法。分位數(shù)回歸神經(jīng)網(wǎng)絡(luò)將分位數(shù)回歸和神經(jīng)網(wǎng)絡(luò)的優(yōu)點相結(jié)合,表現(xiàn)出強大的功能:一方面,通過分位數(shù)回歸方法可以揭示解釋變量對響應(yīng)變量整個條件分布的影響;另一方面,通過神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以模擬解釋變量對響應(yīng)變量的非線性影響模式。
因此,由前文介紹,進一步考慮神經(jīng)網(wǎng)絡(luò)的分位數(shù)回歸問題,我們就可以得到神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸(QRNN)模型
式(29)
式中,權(quán)重向量W(ζ)與閾值向量b(ζ)都依賴于分位點ζ的變化。特別地,當(dāng)隱層轉(zhuǎn)換函數(shù)g(h)j和輸出層轉(zhuǎn)換函數(shù)g(o)都是等值函數(shù)時,QRNN模型就退化為線性分位數(shù)回歸模型。
在QRNN模型中,隱層節(jié)點的數(shù)目n決定了模型的復(fù)雜程度,Taylor(2000)給出其選擇準(zhǔn)則,可以采用K折交叉驗證法得到隱含層結(jié)點數(shù)目。K折交叉驗證法的基本思想是:將原始訓(xùn)練劃分成兩個部分,訓(xùn)練集與驗證集;將數(shù)據(jù)集分成大小相等的子集K份,每個子集分別作一次驗證集,其余K份子集作為訓(xùn)練集,因此,在一次K折交叉驗證法中,相對應(yīng)要建立K個模型,并且對這K個模型的驗證結(jié)果計算平均辨識率。理論上,K要足夠大,才能使得訓(xùn)練集樣本數(shù)足夠多,實踐中,K=10已經(jīng)足夠大。文中選擇K=5進行交叉驗證。
前文已經(jīng)定義過非對稱損失函數(shù)Pl(u),但是,該函數(shù)不是處處可微,它在原點處的倒數(shù)沒有定義。因此,我們可以考慮用一個處處可微的函數(shù)逼近代替。根據(jù)Chen(2007)在分位數(shù)回歸方法中使用的Huber(1981)準(zhǔn)則,可以構(gòu)建平滑算法逼近非對稱損失函數(shù)Pl(u)。
Huber準(zhǔn)則h( u)是 L1(絕對誤差)準(zhǔn)則和 L2(平方誤差)準(zhǔn)則的混合使用, L1準(zhǔn)則用于描述絕對值誤差項大于給定閾值ε的值,L2準(zhǔn)則用于描述絕對值誤差項小于給定閾值ε的值:
這個方程準(zhǔn)則提供了絕對誤差和平方誤差在原點處的平穩(wěn)過渡。Huber準(zhǔn)則可以被用來逼近損失函數(shù),新的逼近損失函數(shù)為
因此,此時標(biāo)準(zhǔn)的基于梯度的優(yōu)化算法可以被用于優(yōu)化模型參數(shù)。即QRNN模型的參數(shù)向量可以使用逼近損失函數(shù)
此外,為防止神經(jīng)網(wǎng)絡(luò)出現(xiàn)過度擬合現(xiàn)象,可以對QRNN模型的誤差項增加一個二次懲罰項,因此可有
估計得到。其中,λ為懲罰參數(shù)。
1)基本觀點與思想
振動信號是設(shè)備運行狀態(tài)的體現(xiàn),正常的設(shè)備其振動信號應(yīng)該服從某一特定的正態(tài)分布。當(dāng)設(shè)備產(chǎn)生異常,其振信號必將產(chǎn)生偏移,可以劃分為三種情況:第一,位置偏移,仍然服從正態(tài)分布;第二,位置不變,方差變大并且不服從正態(tài)分布;第三,位置偏移且不服從正態(tài)分布。為此,可以使用統(tǒng)計過程控制的基本方法與原理,對振動信號進行系統(tǒng)分析,判定其變動模式,進而推斷設(shè)備異常情況,給出智能報警機制。
2)EVMA控制圖
EWMA控制圖采用指數(shù)加權(quán)移動均值設(shè)置控制線,因而可以不受正態(tài)假定的限定、加之圖上的每個點包含著前面所有子組的信息,具有檢驗出過程均值小漂移的敏感性。
當(dāng)t無窮大時,為
接下來考慮EWMA統(tǒng)計量的平均運行長度ARL
其中,p為第一個點落在控制限外的概率。根據(jù)3□原則,p=0.0027,則ARL=370。然后根君3□原則,使受控ARL=370,選擇參數(shù)。
3)自適應(yīng)門限法
自適應(yīng)門限算法是當(dāng)連續(xù)超過門限值的時間區(qū)間的個數(shù)超過一定的設(shè)定時就報警的檢測算法。為了應(yīng)對觀測值周期性變動和長期趨勢,門限值以觀測值的均值為基礎(chǔ)進行自動調(diào)整。假設(shè)是相互獨立的觀測值序列,。xt是第t個時間區(qū)間(設(shè)備采樣區(qū)間)上的觀測值。將□t□1設(shè)定為門限值,考慮一個向上的幅度,設(shè)置報警條件為
式(10)
其中,□t□1是前t□1個時間區(qū)間上序列均值的估計,可以通過式(51)計算得到,門限值□t□1能夠隨著t的變化進行自動的調(diào)整。
直接運用上述算法會產(chǎn)生較高的誤報率,簡單的改進會改善上述算法的性能。設(shè)定一個值k,當(dāng)連續(xù)超過門限值的時間區(qū)間的個數(shù)大于或等于k時就報警,即
式(11)
其中,1k>。
上述算法的調(diào)整參數(shù)包括幅度參數(shù)□、EWMA的參數(shù)□、連續(xù)超過門限值的時間區(qū)間的個數(shù)k。
4)CUSUM方法
CUSUM算法是依賴于假設(shè)檢驗的異常點檢測算法,目的是當(dāng)異常點出現(xiàn)后盡快將它檢測出來。對該問題的精確統(tǒng)計描述如下:對某個正整數(shù)v,觀測值yyLy為獨立同分布變量,其共同分布為,而觀測值則是來自F1(y)的獨立同分布變量,。顯然,若v=n,則說明沒有異常點,所有觀測值均為獨立同分布變量。另一方面,若有異常點v<n,那檢測方法應(yīng)盡快發(fā)現(xiàn)異常點,并報警。
[1]賀興書.機械振動學(xué)[M].上海:上海交通大學(xué)出版社.1985.[2]鄭水英.設(shè)備故障診斷[M].北京:化學(xué)工業(yè)出版社.2006.
[3] 沈慶根.化工機械故障診斷技術(shù)[M].杭州:浙江大學(xué)出版社.2006.
[4]劉文藝.風(fēng)力發(fā)電機振動檢測與故障診斷研究[D].重慶:重慶大學(xué).2010.
[8]陳安華.旋轉(zhuǎn)機械若干非線性故障現(xiàn)象的分析與研究[D].長沙:中南工業(yè)大學(xué).1997.
[9]米勒P C.席倫W O,著.線性振動[M].曾子平.向豪英,等譯.天津:天津大學(xué)出版社.1989.
[10]黃文振.多跨轉(zhuǎn)子-軸承系統(tǒng)振動穩(wěn)定性試驗研究.機械工程學(xué)報.1995.31(5):34-38.
[11]鐘掘.機械非線性故障現(xiàn)象的描述.診斷與預(yù)測[J].世界科技研究與發(fā)展.1996.18(6):15-19.