陳 寧,何 新,吳智群
(西安熱工研究院有限公司,陜西 西安 710054)
隨著火電廠智能化改造的推廣,各種機(jī)器學(xué)習(xí)算法廣泛應(yīng)用在生產(chǎn)現(xiàn)場。數(shù)據(jù)清洗作為其流程中不可或缺的第一環(huán),是對(duì)分散控制系統(tǒng)(DCS)測點(diǎn)監(jiān)測原始數(shù)據(jù)的處理,一般包括對(duì)異常點(diǎn)剔除、對(duì)缺失點(diǎn)擬合、對(duì)含噪數(shù)據(jù)序列降噪和整體關(guān)聯(lián)性的排查等,即盡可能地剔除各種干擾,保證其干凈且可靠,這樣才能使算法應(yīng)用結(jié)果更加準(zhǔn)確可靠。
火電機(jī)組主要由燃燒系統(tǒng)、汽水系統(tǒng)、電氣系統(tǒng)和控制系統(tǒng)4大單元組成,生產(chǎn)流程中伴隨著燃料化學(xué)能、蒸汽熱能、機(jī)械能及電能之間頻繁轉(zhuǎn)換。從發(fā)電側(cè)來看,火電機(jī)組關(guān)聯(lián)龐雜的大型機(jī)電設(shè)備,宏觀上可認(rèn)為是一個(gè)分布式的復(fù)雜機(jī)電系統(tǒng)[1]。機(jī)組DCS測點(diǎn)得到的監(jiān)測序列,受復(fù)雜工況的影響夾雜著各種噪聲,使其看似無規(guī)則,實(shí)則卻是非線性確定性系統(tǒng)產(chǎn)生的隨機(jī)性波動(dòng),經(jīng)Poincare截面法定性分析,認(rèn)定是具有混沌特性的一維時(shí)間序列[2]。對(duì)于混沌時(shí)間序列的處理通常要放到相空間中進(jìn)行[3],相空間重構(gòu)技術(shù)(phase space reconstruction,PSR)能夠有效重建拓?fù)湟饬x上等價(jià)的原動(dòng)力系統(tǒng)高維相空間,根據(jù)Takens等人提出嵌入定理,m維嵌入相空間與原d維混沌時(shí)間序列間的約束條件為m≥2d+10[4],結(jié)合混沌吸引子的低維特性,原機(jī)電系統(tǒng)大多是低維動(dòng)力學(xué)系統(tǒng),產(chǎn)生的有用信號(hào)通常局限在低于d維的子空間[5],而噪聲信號(hào)則借由高維動(dòng)力學(xué)系統(tǒng)區(qū)別于有用信號(hào),分布在高于d維的子空間。降噪處理就是通過降維使位于高維空間中的噪聲信號(hào)被剔除,僅保留低維空間上的有用信號(hào)?,F(xiàn)有的非線性降維方法主要有核方法和流形學(xué)習(xí)方法,前者用核函數(shù)進(jìn)行內(nèi)積運(yùn)算,后者在流形中尋找嵌入[6-7]??紤]到“樣本外”(out of sample)問題,許多流形學(xué)者開始使用從高維到低維的線性映射[8-9],局部保持投影(locality preserving projection,LPP)建立在將拉普拉斯特征映射線性化的基礎(chǔ)上,但這又會(huì)引入混沌時(shí)間序列在流形中的非線性特性無法保留、鄰域內(nèi)最小化局部相似度后投影重合等問題[10]。
為此,本文采用余弦距離推導(dǎo)歐拉表示代替歐氏距離,并在投影時(shí)加入正交條件,旨在借鑒核函數(shù)降維方法保留原始數(shù)據(jù)流形中的非線性特性,通過分散臨近點(diǎn)投影解決鄰域內(nèi)投影過密集問題,消除它們之間的信息冗余,同時(shí)又能兼顧局部和全局的幾何特性[11-14],幾乎不需要先驗(yàn)知識(shí)。采用洛倫茲信號(hào)(加入噪聲)進(jìn)行仿真實(shí)驗(yàn),結(jié)合不同工況下火電機(jī)組DCS測點(diǎn)信號(hào)進(jìn)行實(shí)例驗(yàn)證,并與小波降噪、局部保持投影降噪比較,通過分析信噪比(SNR)、最大Lyapunov指數(shù)、頻譜及相圖證明本文降噪算法的泛化性和優(yōu)越性,套用到磨煤機(jī)狀態(tài)分析算法進(jìn)行數(shù)據(jù)清洗證明其即時(shí)性和精確性。
對(duì)于流形M上n維原始數(shù)據(jù)集X=[x1,x2, …,xm]∈Rm×n,其中xi∈Rn是第i個(gè)n維原始數(shù)據(jù),局部保持投影就是通過一個(gè)投影方向矩陣Al×n,把n維原始數(shù)據(jù)集(高維)映射為l維子空間(低維,l?n)Y=[y1,y2, …,yl]∈Rl×n,使得yi=ATxi[15]。首先構(gòu)造一個(gè)稀疏、對(duì)稱的權(quán)重矩陣Wij:
接著最小化目標(biāo)函數(shù)S(A):
可簡化為:
約束條件tr(ATXDXTA)=1,利用拉格朗日乘子法求最小值:
對(duì)于任意給定的2個(gè)向量xi、xj∈Rn,它們之間的余弦距離定義為:
式中:xi(k)、xj(k)分別代表向量xi、xj的第k個(gè)分量。 在歐拉表示下轉(zhuǎn)換為歐幾里得距離形式[17-19]:
坐標(biāo)延遲法通過嵌入維數(shù)m和時(shí)間延遲τ來構(gòu)造一維時(shí)間序列{x(n)}的m維相空間矢量:
時(shí)間延遲τ可以通過互信息法來選取,如果τ值選取的太小,則會(huì)使得相空間中坐標(biāo)分量上過于接近,造成各種距離上難以區(qū)分地相似,過密集被當(dāng)作堆疊或是冗余做修正處理;如果τ值選取太大,便會(huì)使得相空間中坐標(biāo)分量上分割開來,毫無相關(guān)性可言,丟失原始一維時(shí)間序列的混沌特性。由信息論可知,對(duì)于時(shí)間序列X=[x1,x2, …,xm]和Y=[y1,y2, …,ym],其信息熵可表示為:
結(jié)合互信息函數(shù)I(X,Y)=H(x)-H(X|Y)可推得I(X,Y)為:
套用到一維時(shí)間序列中{x(n)}及其延遲序列{x(n+τ)}中,顯然互信息是關(guān)于τ的函數(shù)其值越小所表達(dá)的含義是二者在鄰域內(nèi)最大程度地不相關(guān),于是選取任意小區(qū)間中讓I(X,Y)達(dá)到極小值時(shí)對(duì)應(yīng)的τ值作為延遲時(shí)間。
嵌入維數(shù)m可以通過偽最近鄰點(diǎn)改進(jìn)的Cao方法選取,如果m值選取的太小,混沌吸引子會(huì)產(chǎn)生堆疊甚至自相交,與原始吸引子在拓?fù)湟饬x上相去甚遠(yuǎn);如果m值選取的太大,各種混沌不變量會(huì)相應(yīng)地增大計(jì)算復(fù)雜度,同時(shí)放大噪聲的影響,丟失部分原始混沌時(shí)間序列的幾何特性[12]。將m維中最近鄰點(diǎn)距離與m+1維進(jìn)行比較:
在理想化的情況下,一維時(shí)間序列隨著嵌入維數(shù)m的增大,E(m+1)/E(m)總能在達(dá)到飽和后趨于平穩(wěn)從而得到最佳嵌入維數(shù)m的取值,然而在實(shí)際混沌時(shí)間序列下需要加入補(bǔ)充判斷準(zhǔn)則E*(m):
混沌時(shí)間序列內(nèi)部相關(guān)性會(huì)使E*(m+1)/E*(m)隨嵌入維數(shù)m產(chǎn)生變化,便于確認(rèn)是否達(dá)到飽和。
使用余弦距離的歐拉表示替代歐氏距離會(huì)涉及復(fù)數(shù)域,且在投影時(shí)加入了正交條件,故局部保持投影中求取目標(biāo)函數(shù)最小值S(A)min及對(duì)應(yīng)投影方向矩陣應(yīng)作相應(yīng)改動(dòng):
約束條件為i≠j時(shí)
本文降噪算法流程如圖1所示。
由圖1可見,降噪算法具體步驟為:
步驟1將重構(gòu)的混沌時(shí)間序列m維相空間中向量映射到歐拉表示的復(fù)雜空間中去,記為。
步驟2利用式(1)及(6)求出權(quán)重矩陣W。
步驟3通過定義對(duì)角矩陣代入L=D-W計(jì)算拉普拉斯矩陣L。
步驟4選取矩陣最小特征a1值λ1所對(duì)應(yīng)的特征向量a1作為投影方向向量,迭代出矩陣再次從最小特征值λ2入手求出其特征向量a2作為投影方向向量[14,17],重復(fù)上述步驟,依次類推直至得出投影方向矩陣A。
步驟5完成嵌入yi=ATxi實(shí)現(xiàn)降維。
洛倫茲系統(tǒng)是典型的混沌動(dòng)力學(xué)系統(tǒng),可用來仿真混沌時(shí)間序列進(jìn)行降噪實(shí)驗(yàn)[13],在加入高斯白噪聲后分別使用小波降噪、局部保持投影和本文算法實(shí)現(xiàn)降噪,通過比較分析時(shí)域波形、相空間軌跡及信噪比(ξSNR)來驗(yàn)證降噪效果。
洛倫茲方程為:
分析圖2—圖5,通過對(duì)比時(shí)域波形與相空間軌跡可以看出:小波降噪使得含有噪聲的洛倫茲信號(hào)變得平整,相空間軌跡也在一定程度上得以修復(fù),高頻噪聲雖有消除,但仍舊含有部分低頻噪聲;使用局部保持投影進(jìn)行降噪后,相空間整體流形結(jié)構(gòu)上修復(fù)較好,卻損失了原系統(tǒng)內(nèi)的非線性特性且沒能有效抑制高頻部分噪聲;本文算法降噪后相空間整體流形結(jié)構(gòu)基本上與原混沌動(dòng)力學(xué)系統(tǒng)相符,非線性特性也有所保留,對(duì)低頻和高頻部分的噪聲均實(shí)現(xiàn)了有效抑制,緩和了局部保持投影線性降維過程中的過密集問題。
表1為不同降噪方法降噪效果對(duì)比。采用信噪比ξSNR及均方誤差σMSE2個(gè)指標(biāo)來定量衡量3種算法降噪的效果。其中,信噪比反應(yīng)了消除噪聲還原有用信號(hào)的能力,信噪比越大有用信號(hào)相對(duì)噪聲強(qiáng)度來說占比越高;均方誤差表征了對(duì)原動(dòng)力學(xué)系統(tǒng)流形的修復(fù)能力,均方誤差越小整體流形結(jié)構(gòu)越平穩(wěn)。由表1可見:小波降噪側(cè)重于消除高頻部分噪聲,對(duì)系統(tǒng)的流形結(jié)構(gòu)沒有較好的修復(fù)作用;局部保持投影在降維過程中剔除了高維空間中的噪聲,僅保留低維空間上的有用信號(hào),可以有效平整混沌動(dòng)力學(xué)系統(tǒng)的流形結(jié)構(gòu),卻無法抑制高頻部分噪聲,原系統(tǒng)內(nèi)的非線性特性也沒能保留,在ξSNR= 15 dB的環(huán)境中降噪表現(xiàn)甚至略遜于傳統(tǒng)的小波方法;而本文方法借鑒了核函數(shù)降維特點(diǎn),對(duì)非線性特性加以保留,且通過新的距離定義分散臨近點(diǎn)投影,保持局部和全局的幾何特性,降噪效果在流形和頻域上均有提高。
表1 不同降噪方法降噪效果對(duì)比 Tab.1 Comparison of SNR values before and after noise reduction for different noise reduction methods
采用華能某電廠600 MW發(fā)電機(jī)組DCS監(jiān)測數(shù)據(jù)驗(yàn)證算法的泛化性與有效性,選取不同工況測點(diǎn)數(shù)據(jù)(表2):工況1為機(jī)組負(fù)荷372.95 MW,主蒸汽溫度為538.11 ℃;工況2為機(jī)組負(fù)荷為 536.27 MW,主蒸汽壓力為25.71 MPa;工況3為機(jī)組負(fù)荷223.31 MW,小汽輪機(jī)A軸向位移0.06 mm;工況4為機(jī)組負(fù)荷468.18 MW,脹差3.96 mm。
表2 DCS采集監(jiān)測序列 Tab.2 DCS collecting and monitoring sequence
分別用小波降噪、局部保持投影和本文方法進(jìn)行降噪處理,對(duì)比相空間二維相圖、低頻及高頻域降噪效果,選取混沌特性較為顯著的工況3測點(diǎn)時(shí)間序列信號(hào)降噪處理前后情況進(jìn)行展示(圖6)。在相空間重構(gòu)階段由互信息法得出τ=4,Cao方法得出嵌入維數(shù)后向下取值得到最大整數(shù)m=6。在降維階段利用G-P法計(jì)算關(guān)聯(lián)維數(shù)直到下降變緩?fù)V沟?,最終得出本征維數(shù)達(dá)到最佳降噪效果。
Lyapunov指數(shù)通常只需要簡化為計(jì)算最大Lyapunov指數(shù)就可以用來表征一個(gè)動(dòng)力學(xué)系統(tǒng)的混沌特性,在對(duì)初值敏感的前提下,Lyapunov指數(shù)通過衡量相空間中運(yùn)動(dòng)軌跡的指數(shù)式離散描述混沌特性,混沌吸引子在此基礎(chǔ)上不斷折疊發(fā)散,形成復(fù)雜結(jié)構(gòu)。選取最大Lyapunov指數(shù)作為定量研究相空間混沌不變量的指標(biāo),其值為正數(shù)表示序列具有混沌性,其值越大,代表著混沌特性越強(qiáng)烈。圖7為DCS信號(hào)經(jīng)過不同方法降噪前后的最大Lyapunov指數(shù),圖8為工況3測點(diǎn)經(jīng)過不同方法降噪前后的頻譜圖,圖9為經(jīng)不同方法降噪前后的信噪比。由圖8可見,原始信號(hào)在低頻段內(nèi)15 Hz附近及36.4 Hz處有較為明顯的噪聲分布,高頻段內(nèi)212.9 Hz處存在噪聲分布。
對(duì)比3種方法降噪后的頻譜:小波降噪屬于帶通濾波,能過濾掉高頻噪聲,但對(duì)于低頻噪聲則效果微弱且會(huì)對(duì)有用信號(hào)產(chǎn)生抑制效果;而局部保持投影更注重對(duì)整體動(dòng)力學(xué)流形結(jié)構(gòu)的修復(fù),有一定的去噪能力,但同樣對(duì)有用信號(hào)產(chǎn)生了負(fù)面的抑制效果,甚至未有效消除高頻段內(nèi)212.9 Hz處噪聲;本文方法不僅能消除高頻噪聲,還會(huì)在處理低頻噪聲時(shí)一定程度上保留更多的有用信號(hào),這一結(jié)論也在圖9中對(duì)信噪比的定量計(jì)算得到印證。
局部放大圖6,觀察二維相圖整體流形結(jié)構(gòu)的平整程度和對(duì)原動(dòng)力學(xué)系統(tǒng)的修復(fù)能力,結(jié)合圖7中通過最大Lyapunov指數(shù)定量對(duì)比的混沌特性(包括非線性、內(nèi)隨機(jī)性等),不難看出傳統(tǒng)的小波降噪幾乎不具備流形學(xué)上的修復(fù)能力;局部保持投影已經(jīng)能有效讓結(jié)構(gòu)雜亂無章的相空間一定程度上變得清晰平整,對(duì)原動(dòng)力學(xué)系統(tǒng)流形結(jié)構(gòu)起到修復(fù)作用;而本文方法進(jìn)一步讓相空間軌跡變得光滑,并保留了原本混沌時(shí)間監(jiān)測序列內(nèi)在特性(如非線性等)。整體而言,本文降噪方法在頻域及流形上,不僅能夠較好地修復(fù)相空間整體流形結(jié)構(gòu),使其變得清晰、平整、光滑,在過濾掉高、低頻噪聲的同時(shí)還能更多地保留有用信號(hào)及非線性特性。
對(duì)珠海某熱電公司磨煤機(jī)狀態(tài)分析時(shí)采用 長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)。選取數(shù)據(jù)樣本 103 680組,按照10折交叉驗(yàn)證完成模型的訓(xùn)練與測試,直接使用原始數(shù)據(jù)D0、清洗工具箱處理數(shù)據(jù)D1及本文降噪算法處理數(shù)據(jù)D23種情況下以準(zhǔn)確率及耗時(shí)作為指標(biāo)評(píng)價(jià)。圖10和圖11分別為不同數(shù)據(jù)清洗方法時(shí)模型準(zhǔn)確度和耗時(shí)對(duì)比。由圖10和圖11可見,增加數(shù)據(jù)清洗環(huán)節(jié)使訓(xùn)練的LSTM神經(jīng)網(wǎng)絡(luò)在預(yù)測準(zhǔn)確率上有較顯著提升,本文降噪算法進(jìn)行數(shù)據(jù)清洗又比通過清洗工具箱清洗數(shù)據(jù)得到神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確度更高,模型運(yùn)算速度更快。
本文在局部保持投影算法對(duì)DCS數(shù)據(jù)進(jìn)行降維去噪的基礎(chǔ)上,采用余弦距離推導(dǎo)出歐拉表示替代歐氏距離,并在投影時(shí)加入正交條件,旨在借鑒核函數(shù)降維方法保留原始數(shù)據(jù)流形中的非線性特性,通過分散臨近點(diǎn)投影解決鄰域內(nèi)投影過密集問題,消除信息冗余。將本文算法與傳統(tǒng)小波降噪、局部保持投影進(jìn)行對(duì)比分析,從流形和頻域兩方面驗(yàn)證效果。仿真和實(shí)際應(yīng)用結(jié)果表明,本文算法能夠較好地修復(fù)相空間整體流形結(jié)構(gòu),還原混沌動(dòng)力學(xué)系統(tǒng)的拓?fù)浣Y(jié)構(gòu),對(duì)低頻和高頻部分的噪聲均實(shí)現(xiàn)了有效抑制且能夠保留原始信號(hào)非線性特性,從預(yù)測結(jié)果的準(zhǔn)確率和耗時(shí)兩方面證明了本文降噪算法在數(shù)據(jù)清洗時(shí)的優(yōu)越性。