陳百利,吳延軍,謝擁華
(廣東郵電職業(yè)技術學院,廣東 廣州 510630)
通信局站已實現(xiàn)了動環(huán)監(jiān)控系統(tǒng)的全面覆蓋,可通過監(jiān)控系統(tǒng)隨時掌控局站動力設備的運行狀況,及時發(fā)現(xiàn)動力設備故障,并進行派單和處理。另外,還可以利用獲取的實時數(shù)據(jù)和歷史數(shù)據(jù)綜合研判故障發(fā)生的原因。故障發(fā)生后再處理的方式故障維護周期長,運維費用高居不下,還可能因為無法盡快修復關鍵設備而給通信系統(tǒng)帶來停機風險。如果能夠提前預知設備的故障發(fā)生時間,就可以制定有效的維護和維修計劃,提前檢修設備,從而減少上述風險的發(fā)生,有效降低動力設備的運營成本。因此,可利用動環(huán)監(jiān)控系統(tǒng)已存儲的數(shù)據(jù)和人工智能技術,通過機器學習等方式建立動力設備故障預測方法,經(jīng)實際工況檢驗形成有效的動力設備故障預維護,以保障通信設備的運行安全。
預測性維護(簡稱PdM)是以狀態(tài)為依據(jù)的維護方式[1]。設備運行時對設備的一些關鍵參數(shù)進行周期性監(jiān)測和故障判斷,可預測設備將來的發(fā)展趨勢,并根據(jù)發(fā)展趨勢預先制定預測性維護和維修計劃,同時需確定設備處理的時間、內(nèi)容、方式以及必需的技術和物資支持等。
預測性維護將設備的狀態(tài)監(jiān)測、故障診斷、故障預測以及維護計劃等活動融為一體,帶來了一種全新的維護模式。利用工業(yè)生產(chǎn)數(shù)據(jù),借鑒相應的數(shù)據(jù)分析技術,預測設備的運行狀態(tài),從而進一步預測設備的潛在故障和威脅。
伴隨著“工業(yè)4.0”的發(fā)展、“新基建”戰(zhàn)略的提出、工業(yè)生產(chǎn)數(shù)據(jù)采集技術的日趨完善、計算機設備算力的增加、成本的降低以及智能分析技術的日趨成熟,工業(yè)生產(chǎn)設備的預測性維護逐漸成為工業(yè)界和學術界討論的熱門話題[2],越來越受到業(yè)界的重視。當今人工智能技術快速發(fā)展,促使AI技術廣泛應用于各行各業(yè),從而帶動了行業(yè)產(chǎn)業(yè)的不斷升級。得益于AI技術的發(fā)展,機器學習技術目前已成為工業(yè)設備預測性維護的前沿方向。
在國外,Srinath P[3]將機器學習技術應用于預測性維護,采集NASA引擎故障數(shù)據(jù),利用回歸模型預測剩余使用壽命(RUL),在減少維護頻率和減少設備維護時間等方面取得了良好的應用效果。Daniyan I[4]使用具有動態(tài)時間序列的人工神經(jīng)網(wǎng)絡預測軌道車輛車輪軸承的狀態(tài)和潛在故障,運用MATLAB環(huán)境中的Levenberg-Marquardt算法進行預處理和迭代訓練,預測未來的溫度變化和軸承的剩余使用壽命,獲得了有效的預測模型。Hardik A G[5]采用支持向量機和logistic回歸算法優(yōu)化相關參數(shù),探索和比較核基礎設施中可能發(fā)生的罕見事件。
在國內(nèi),張曼等[6]利用統(tǒng)計診斷方法預測性分析氣象站中不同劣化程度的蓄電池組,能很好地測試出蓄電池組在不同健康狀況下的電壓與內(nèi)阻值。黃飛飛[7]利用數(shù)據(jù)挖掘技術分析診斷油氣田集輸管線上壓縮機工況采集到的大量運行狀態(tài)數(shù)據(jù),實現(xiàn)了對設備的預測性維護。SUN J[8]將貝葉斯推導公式應用于飛機狀態(tài)的監(jiān)測系統(tǒng),能預先識別出飛機空調系統(tǒng)(ACS)的故障前兆。趙繼勝[9]采用遞歸神經(jīng)網(wǎng)絡RNN對電力生產(chǎn)設備的時序數(shù)據(jù)進行迭代建模,并結合用戶標記故障進行識別,實現(xiàn)了故障預判。
動環(huán)監(jiān)控系統(tǒng)實時采集通信局站的動力設備數(shù)據(jù),存儲了大量歷史數(shù)據(jù),這些數(shù)據(jù)一般按時間順序進行保存。從數(shù)學角度看,設備發(fā)生故障的概率和設備歷史運行數(shù)據(jù)構成了一組復雜的函數(shù)關系,可利用已有的時序數(shù)據(jù)找出運行數(shù)據(jù)與設備發(fā)生故障的關系。因此,可利用這些數(shù)據(jù),通過人工智能和大數(shù)據(jù)等技術實現(xiàn)對動力設備故障的預測及故障診斷,并給出切實可行的維護計劃和方案。此外,還能實現(xiàn)動力設備的精準運維和精細化管控,減少或避免由設備停機等故障給通信設施帶來的不可估量的損失,間接提高設備的使用壽命和系統(tǒng)的整體運維水平。
動環(huán)監(jiān)控系統(tǒng)中動力設備數(shù)據(jù)一般以關系型數(shù)據(jù)庫的形式進行保存。存儲格式一般以時間順序按站點、設備以及監(jiān)控點存儲,運行數(shù)據(jù)和告警數(shù)據(jù)單獨保存。進行故障預測訓練前,需梳理原始數(shù)據(jù)形成可以訓練的數(shù)據(jù)集。預測方案建立的過程如圖1所示。
圖1 故障預測方案建立的過程
圖1中,建立預測方案的大致步驟為“預處理原始數(shù)據(jù)→特征選擇→標準化處理→預測訓練→生成預測方案→方案驗證”。如果方案不能滿足實際要求,則需要對方案進行循環(huán)訓練,直到獲取到最終的優(yōu)化預測方案。最終的優(yōu)化預測方案建立后,在數(shù)據(jù)庫中進行持久化存儲,形成預測方案庫供實際系統(tǒng)調用。
2.1.1 原始數(shù)據(jù)預處理
數(shù)據(jù)庫中存儲的原始數(shù)據(jù)包括直流配電設備、交流配電設備、整流設備、空調設備以及蓄電池組等動力設備和環(huán)境的告警數(shù)據(jù)和運行數(shù)據(jù)。設備涉及的廠商和型號較多,采集的數(shù)據(jù)也較大[10]。在采集過程中,受傳感器采集精度和傳輸通信等多種因素影響,會存在準確性偏差、采集密度過梳或過密以及漏采等情況。因此,生成故障預測方案前需要對數(shù)據(jù)進行處理,即需要對原始數(shù)據(jù)進行預處理。預處理的主要內(nèi)容包括去除奇異點數(shù)據(jù)、補充缺失數(shù)據(jù)、數(shù)據(jù)重組以及數(shù)據(jù)抽取等。
去除奇異點包括去除噪聲??梢钥紤]采用基本的數(shù)據(jù)統(tǒng)計方法,如利用散點圖法或數(shù)據(jù)可視化方法識別可能代表噪聲的離群點。但是,注意不要去除設備故障點時刻的相關數(shù)據(jù)。此外,可以采用3標準差(平均值±標準差×3)方法。在實際運行中,一般可以多種方法混合使用。
動力設備數(shù)據(jù)的缺失主要是由從傳感器到監(jiān)控中心傳輸過程中的傳輸故障或前端采集設備故障引起的。傳感器需要通過前端采集設備預先保存數(shù)據(jù)。當傳輸故障恢復后,監(jiān)控中心可從前端采集設備存儲的數(shù)據(jù)中進行重采。監(jiān)控中心需要根據(jù)時序序列的特性及相關聯(lián)監(jiān)控點的特性進行補充,必要時可借助人工方式進行處理。
數(shù)據(jù)庫中各監(jiān)控點的存儲方式不統(tǒng)一,無法直接用來進行數(shù)據(jù)分析。因此,數(shù)據(jù)重組時需要將各監(jiān)控點的數(shù)據(jù)按照時間序列重新組織,按某個時間維度和多個監(jiān)控點對數(shù)據(jù)結構進行重定義。
數(shù)據(jù)抽取是將關系型數(shù)據(jù)庫中存儲的數(shù)據(jù)抽取成其他數(shù)據(jù)格式。一般需通過Pentaho Kettle等工具進行轉換,如使用MongoDB進行NoSQL數(shù)據(jù)庫中的數(shù)據(jù)抽取。
2.1.2 特征選擇
并不是所有的數(shù)據(jù)點都與故障相關。一般關鍵參數(shù)對整體狀態(tài)有著較大的影響[11-12],因此需要去除不相關的數(shù)據(jù),并選取重要的關鍵特征子集。由于與故障相關的監(jiān)控點不只一個,因此在特征選擇時可以考慮采用方差法[13]。具體地,計算每個特征的均值和方差,設定一個基礎閾值,當該維度的監(jiān)控點方差小于基礎閾值時,可以丟棄該特征。上述方法的關鍵問題是基礎閾值的判定,需結合預測方案的訓練和驗證進行統(tǒng)籌考慮。
考慮到動力設備各監(jiān)控點數(shù)據(jù)集的特征,還需要考慮單個監(jiān)控點的自相關特性,即某個時刻的預測會受到這個時刻之前數(shù)據(jù)的影響。Aremu O O[14]通過Kullback-Leibler散度度量,應用基于相關性的層次聚類和相對熵,生成了原始數(shù)據(jù)的低維特征子集。
2.1.3 標準化處理
分析數(shù)據(jù)前需要對數(shù)據(jù)進行標準化處理使數(shù)據(jù)指標化。處理時,為使標準化后的數(shù)據(jù)落于一個小的特定區(qū)間,可考慮采用歸一化處理方式。將數(shù)據(jù)統(tǒng)一映射到區(qū)間[0,1]上使用的數(shù)據(jù)歸一化的方法,有min-max標準化、log函數(shù)轉換以及z-score標準化等。
2.1.4 故障預測方案的訓練和驗證
設備的故障預測主要是指利用設備正常運行期間的特性預測設備的剩余使用壽命,可使用機器學習等技術進行設備故障預測方案的訓練。動力設備的數(shù)據(jù)屬于時間序列數(shù)據(jù),因為與故障相關的數(shù)據(jù)相對較少,所以建議采用邏輯回歸分析方法,即將均方根誤差作為衡量值,混合多種方法進行對比試驗后形成有效的預測方案。
2.1.5 工具的選擇
有很多非常方便的工具和算法庫支撐數(shù)據(jù)處理,如 H2O[15]、scikit-learn、NumPy以及 Pandas等。可充分利用這些已有的工具和算法庫進行數(shù)據(jù)的預處理、特征選擇、數(shù)據(jù)的標準化以及預測方案訓練,從而減少算法開發(fā)的難度。
在故障預測方案訓練的過程中,可以將實際工況中存儲的歷史運行數(shù)據(jù)備份到實驗環(huán)境中進行訓練,訓練完成后再應用于實際運行環(huán)境。
2.2.1 訓練過程
實驗中,可將存儲在數(shù)據(jù)庫中的運行數(shù)據(jù)分成兩部分,一部分用于故障預測訓練,另一部分用于方案驗證。某一種型號設備中某一類故障訓練的過程主要包括訓練集數(shù)據(jù)準備、預測訓練、方案驗證以及優(yōu)化訓練4個步驟。上述4個步驟完成后再重新進行預測訓練,形成一個訓練周期。訓練過程是一個不斷驗證和不斷優(yōu)化的循環(huán)過程。故障預測訓練過程如圖2所示。
2.2.2 預測訓練實驗環(huán)境方案
基于算力等原因,需要在實驗室中搭建私有云平臺為算力提供支撐。預測訓練的實驗環(huán)境方案如圖3所示。
圖3中的預測訓練實驗環(huán)境分為模擬局站、私有云平臺以及客戶端呈現(xiàn)3個部分。其中,底層的模擬局站用來模擬實際的局站動力設備,提供對局站動力設備運行數(shù)據(jù)和故障數(shù)據(jù)的模擬。設備模擬采集網(wǎng)關采集動力設備數(shù)據(jù),并將采集到的數(shù)據(jù)上傳給上層的云平臺。模擬數(shù)據(jù)可以補充預測訓練中原始數(shù)據(jù)的不足,也可以與已訓練好的預測方案及維護策略一起為決策者提供預維護決策建議。
圖2 故障預測訓練過程
圖3 預測訓練實驗環(huán)境示意圖
私有云平臺主要提供系統(tǒng)服務。系統(tǒng)服務包含采集管理服務、預測訓練服務、方案驗證服務以及能為上層應用提供接口的所有服務。根據(jù)私有云平臺提供的服務功能,私有云平臺可劃分成多個虛擬服務器,供需方調用。
數(shù)據(jù)采集服務可采集模擬局站動力設備運行狀態(tài)的數(shù)據(jù)。存儲管理服務可存取實際系統(tǒng)中備份出來的數(shù)據(jù)、模擬設備運行狀態(tài)數(shù)據(jù)的存儲以及在預測訓練完成后保存不同故障的預測方案。實體管理服務用來管理局站、設備以及監(jiān)控點等。性能管理服務通過抽取實驗數(shù)據(jù)和歷史數(shù)據(jù)進行初步的分析和統(tǒng)計。故障管理服務抽取相應的故障數(shù)據(jù),包括故障前發(fā)生的與故障相關的監(jiān)控點數(shù)據(jù)等。數(shù)據(jù)預處理服務可實現(xiàn)對原始的數(shù)據(jù)降噪、相關性分析以及歸一化處理等。預測訓練服務是方案的核心模塊,能夠根據(jù)不同的智能算法完成對設備故障預測方案的訓練和生成。方案驗證服務完成對已生成預測方案的實驗驗證。故障原因分析服務提供故障發(fā)生的原因,并為預測維護建議提供專家依據(jù)。預維護策略根據(jù)模擬的實時數(shù)據(jù)、故障預測方案以及故障原因分析提供的分析結論,最終生成維護決策建議以供決策者使用。會話管理服務用來接收客戶端對不同服務功能的請求。接口服務提供不同的服務接口,并對外提供相應的服務。
客戶端的呈現(xiàn)側主要用來呈現(xiàn)各種參數(shù)的設置和結果,包括預處理結果的輸出和呈現(xiàn)、預測算法的匹配設置和呈現(xiàn)、基本參數(shù)的設置、方案驗證結果呈現(xiàn)、統(tǒng)計分析結果的輸出以及相應的預測性維護決策建議,并能根據(jù)需要輸出其他內(nèi)容。
實驗環(huán)境中,已經(jīng)構建好的故障預測方案可生成預測方案庫并存儲在數(shù)據(jù)庫中。實際應用時,需要將預測方案部署在實際運行的環(huán)境中使用,實時接收動力設備和環(huán)境的運行數(shù)據(jù)。調用預測方案庫預測故障,實時給出預維護決策和建議。將實驗環(huán)境中產(chǎn)生的故障預測方案應用于實際運行環(huán)境的方案,如圖4所示。
圖4 故障預測在運行環(huán)境應用示意圖
2.3.1 預測性維護建議的生成
數(shù)據(jù)采集模塊用于采集不同型號動力設備的數(shù)據(jù)和環(huán)境數(shù)據(jù)。采集到的數(shù)據(jù)需要通過協(xié)議轉換成內(nèi)部結構進入消息隊列,其中告警和狀態(tài)數(shù)據(jù)將通過消息隊列轉出,運行數(shù)據(jù)直接存儲于NoSQL數(shù)據(jù)庫,如MongoDB。這兩部分數(shù)據(jù)將與實驗室訓練的預測方案庫進行匹配,當數(shù)據(jù)與預測方案相符合時,將根據(jù)預測方案給出預測性維護建議,并在客戶端進行呈現(xiàn)。
2.3.2 故障預測方案優(yōu)化更新
當故障發(fā)生后,實時判斷此故障與預測方案庫中故障是否相關。如果相關,則將此故障及相關的運行數(shù)據(jù)納入智能運算模塊進行故障預測方案的重構建,實現(xiàn)預測方案的修正和優(yōu)化。處理過程中,先將采集的數(shù)據(jù)通過預處理模塊進行處理,補充不完整的數(shù)據(jù),去除奇異數(shù)據(jù)和不相關數(shù)據(jù),然后利用對應的故障預測算法重新補充訓練。訓練完成后,更新已存在的預測方案庫,將其作為下次智能分析判斷的依據(jù)。
動力設備故障的預測需要充分利用動環(huán)監(jiān)控系統(tǒng)中已存儲的數(shù)據(jù)找到適合的算法進行有效訓練,從而為通信系統(tǒng)的穩(wěn)定運行服務。實現(xiàn)方案中,可采用預測方案的離線循環(huán)訓練和在線定期優(yōu)化調整相結合的方式,使故障預測更逼近實際工況。預測性維護可做到提前維護,提前預防,因此在減少設備故障的發(fā)生頻率和減少損失等方面發(fā)揮了重要作用。未來,在該方面仍需不斷實驗和驗證,充分利用機器學習技術,使技術在不斷發(fā)展的同時不斷完善。