国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)實(shí)時(shí)流計(jì)算的高鐵轉(zhuǎn)向架數(shù)據(jù)過(guò)濾算法研究

2018-12-20 08:18:46彭清暢劉光俊
軟件 2018年11期
關(guān)鍵詞:軸溫交路轉(zhuǎn)向架

趙 珂,彭清暢,劉光俊

?

大數(shù)據(jù)實(shí)時(shí)流計(jì)算的高鐵轉(zhuǎn)向架數(shù)據(jù)過(guò)濾算法研究

趙 珂1,彭清暢2,劉光俊2

(1. 昆明理工大學(xué) 城市學(xué)院,云南 昆明 650051;2. 中車(chē)青島四方機(jī)車(chē)車(chē)輛股份有限公司,山東 青島 266111)

為解決高鐵轉(zhuǎn)向架數(shù)據(jù)過(guò)濾在大數(shù)據(jù)流計(jì)算中受多工況影響的計(jì)算效率低下和精準(zhǔn)度不高的問(wèn)題。在高鐵大數(shù)據(jù)實(shí)時(shí)流計(jì)算中使用多判據(jù)因子方差斜率算法進(jìn)行特征提取多工況數(shù)據(jù),并結(jié)合交路線(xiàn)上相應(yīng)GPS坐標(biāo)點(diǎn)上的權(quán)重參考值進(jìn)行數(shù)據(jù)過(guò)濾。通過(guò)高鐵實(shí)際項(xiàng)目運(yùn)行驗(yàn)證:該方法能有效降低數(shù)據(jù)干擾,提升數(shù)據(jù)過(guò)濾準(zhǔn)確率到95%以上,實(shí)現(xiàn)準(zhǔn)確監(jiān)控和預(yù)測(cè)高鐵轉(zhuǎn)向架故障,大幅降低了高鐵轉(zhuǎn)向架的檢修工作量,提高了檢修效率;同時(shí)能滿(mǎn)足實(shí)時(shí)流計(jì)算每秒上百萬(wàn)的計(jì)算效率。

高鐵;數(shù)據(jù)過(guò)濾;多判據(jù)因子;轉(zhuǎn)向架;流計(jì)算

0 引言

在高鐵、飛機(jī)等交通工具的高速運(yùn)行中,故障管理和檢測(cè)是系統(tǒng)運(yùn)行保障的重要環(huán)節(jié)[1],為監(jiān)測(cè)高速交通運(yùn)行設(shè)備的健康度需要進(jìn)行傳感器數(shù)據(jù)采集、數(shù)據(jù)解析、算法運(yùn)算、安全監(jiān)控、預(yù)測(cè)挖掘、分析統(tǒng)計(jì)等大數(shù)據(jù)處理。其中,在高鐵動(dòng)車(chē)組故障監(jiān)控和預(yù)測(cè)中轉(zhuǎn)向架、車(chē)輪等核心部件是系統(tǒng)健康運(yùn)行監(jiān)測(cè)系統(tǒng)的重要對(duì)象[2],動(dòng)車(chē)轉(zhuǎn)向架傳感器數(shù)據(jù)由于其外部的工況隨時(shí)在變化(如:京廣線(xiàn)的高鐵在夏天運(yùn)行過(guò)程中要經(jīng)過(guò)40℃~50℃的高溫,也會(huì)經(jīng)過(guò)10℃~20℃的低溫,溫濕度和海拔等也在隨車(chē)變化),采用單一軸溫閥值監(jiān)控系統(tǒng)運(yùn)行健康度,會(huì)導(dǎo)致錯(cuò)誤報(bào)警率較高。為提高系統(tǒng)監(jiān)測(cè)精度,需結(jié)合多系統(tǒng)多工況進(jìn)行大數(shù)據(jù)實(shí)時(shí)分析處理。在高實(shí)時(shí)性要求的設(shè)備安全監(jiān)控業(yè)務(wù)場(chǎng)景中,需要秒級(jí)完成海量數(shù)據(jù)運(yùn)算,這個(gè)過(guò)程首先需要對(duì)大數(shù)據(jù)中的高價(jià)值數(shù)據(jù)進(jìn)行快速、準(zhǔn)確地計(jì)算和監(jiān)控,并實(shí)時(shí)進(jìn)行清洗、容錯(cuò)處理。同時(shí)實(shí)時(shí)流計(jì)算的過(guò)濾算法需要簡(jiǎn)單、實(shí)用、高效,但簡(jiǎn)便的算法不能保障數(shù)據(jù)過(guò)濾精度,采用復(fù)雜的計(jì)算又需要更多的計(jì)算資源。

在大數(shù)據(jù)的流計(jì)算中,常用的數(shù)據(jù)過(guò)濾和數(shù)據(jù)特征提取方法有匹配過(guò)濾、偏最小二乘法、線(xiàn)性判斷分析等方法。羅元?jiǎng)Φ萚3]提出了基于有限狀態(tài)機(jī)的RFID流數(shù)據(jù)過(guò)濾與清理技術(shù);賈連鎖[4]提出的數(shù)據(jù)過(guò)濾方法是基于靜態(tài)匹配表的查找過(guò)濾;劉健男等[5]提出基于布隆過(guò)濾器的數(shù)據(jù)過(guò)濾方法以減少內(nèi)存的查詢(xún)時(shí)間,提高了流計(jì)算的實(shí)時(shí)性;但文獻(xiàn)[3-5]的數(shù)據(jù)過(guò)濾技術(shù)都不適用于多工況的實(shí)時(shí)大數(shù)據(jù)過(guò)濾處理。姜文超等[6]提出了一種基于相似度過(guò)濾的大數(shù)據(jù)保序匹配與檢索算法,主要適用于預(yù)測(cè)平穩(wěn)系統(tǒng),利用歸約后數(shù)據(jù)計(jì)算相似度后過(guò)濾,該方法不適用于突變數(shù)據(jù)檢測(cè)系統(tǒng)和故障數(shù)據(jù)預(yù)測(cè)。延婉梅[2]提出了基于網(wǎng)格LOF離群點(diǎn)檢測(cè)算法對(duì)動(dòng)車(chē)數(shù)據(jù)進(jìn)行清洗,這種算法適合在部件系統(tǒng)內(nèi)部進(jìn)行健康監(jiān)控,而無(wú)法達(dá)到故障預(yù)測(cè)的業(yè)務(wù)多工況因素分析要求。文獻(xiàn)[7-10]提出了幾種基于特征提取、分類(lèi)集成的聚類(lèi)算法識(shí)別高鐵工況數(shù)據(jù)的方法,但這些方法都是基于實(shí)驗(yàn)室的選擇,也是采用基于時(shí)間窗口的聚類(lèi)算法,在實(shí)際高鐵運(yùn)行系統(tǒng)中此類(lèi)方法都會(huì)影響流計(jì)算中的業(yè)務(wù)效果和計(jì)算效率。文獻(xiàn)[11-12]提出了魯棒性增量主成分的分析法,通過(guò)在線(xiàn)特征提取、滑動(dòng)窗口數(shù)據(jù)更新動(dòng)態(tài),針對(duì)過(guò)濾后的異常數(shù)據(jù)點(diǎn)進(jìn)行增量主成分的分析,實(shí)現(xiàn)了滿(mǎn)足大數(shù)據(jù)處理的實(shí)時(shí)性及一定精度的要求。文獻(xiàn)[13]提出了用權(quán)重法對(duì)主成分回歸分析進(jìn)行補(bǔ)償后動(dòng)態(tài)監(jiān)測(cè)數(shù)據(jù)的方法。這些方法不能解決高鐵軸溫多工況的數(shù)據(jù)有效過(guò)濾和精度要求。本文在大數(shù)據(jù)流計(jì)算中提取各種復(fù)雜工況數(shù)據(jù)特征,分析了上千列高鐵的轉(zhuǎn)向架軸溫異常數(shù)據(jù),采用離線(xiàn)訓(xùn)練得到的GPS坐標(biāo)參考值結(jié)合流計(jì)算中的多判據(jù)因子權(quán)重算法的方法,既能實(shí)現(xiàn)所有實(shí)時(shí)運(yùn)行的高鐵在多工況下的數(shù)據(jù)高效過(guò)濾處理,又能提高數(shù)據(jù)過(guò)濾的精度。

1 多工況實(shí)時(shí)數(shù)據(jù)特征

基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)采集發(fā)現(xiàn),高鐵在不同的天氣、海拔、速度、內(nèi)外溫度等多工況的情況下,轉(zhuǎn)向架傳感器軸溫?cái)?shù)據(jù)不定時(shí)出現(xiàn)數(shù)據(jù)幀跳變?nèi)绫?中溫度突變數(shù)據(jù)所示,跳變數(shù)據(jù)可能是傳感器故障引起,也可能是多工況導(dǎo)致的正常跳變數(shù)據(jù),或者是需要向系統(tǒng)報(bào)警的高價(jià)值有用數(shù)據(jù)。因在實(shí)時(shí)流計(jì)算中常出現(xiàn)數(shù)據(jù)幀跳變,如果采用較復(fù)雜算法會(huì)增加系統(tǒng)資源額外開(kāi)銷(xiāo),影響實(shí)時(shí)處理效率。

表1 轉(zhuǎn)向架軸溫?cái)?shù)據(jù)跳變示例

Tab.1 Example of jumping data of bogie axle temperature data

表1中采集的轉(zhuǎn)向架傳感器軸溫?cái)?shù)據(jù)樣本采集時(shí)間精確到200毫秒,正常軸溫?cái)?shù)據(jù)處于30~38℃,由于多工況與傳感器故障等情況的干擾,高鐵回庫(kù)后,檢修人員在實(shí)際業(yè)務(wù)數(shù)據(jù)論證后發(fā)現(xiàn)表1中溫度標(biāo)記為①③是錯(cuò)誤數(shù)據(jù);標(biāo)記為②是工況異常導(dǎo)致的轉(zhuǎn)向架傳感器溫度跳變,業(yè)務(wù)上屬于應(yīng)報(bào)警處理的數(shù)據(jù);標(biāo)記為④的是傳感器故障導(dǎo)致出錯(cuò)數(shù)據(jù),也屬于應(yīng)報(bào)警處理的數(shù)據(jù)??梢?jiàn)多工況實(shí)時(shí)數(shù)據(jù)具有數(shù)據(jù)量大、復(fù)雜性高、難辨識(shí)等特征,需要依據(jù)多工況業(yè)務(wù)經(jīng)驗(yàn)結(jié)合特定算法來(lái)辨識(shí)數(shù)據(jù)價(jià)值,不能采用單一算法或固定閾值進(jìn)行監(jiān)控處理。

2 過(guò)濾算法設(shè)計(jì)

多工況的實(shí)時(shí)數(shù)據(jù)過(guò)濾首先使用方差斜率算法,基于離線(xiàn)數(shù)據(jù)的主成分回歸分析訓(xùn)練的GPS坐標(biāo)多工況判據(jù)因子權(quán)重列表,在實(shí)時(shí)流計(jì)算中使用多工況權(quán)重算法進(jìn)行計(jì)算,才能滿(mǎn)足高鐵數(shù)據(jù)過(guò)濾的效率與精度要求。

2.1 多工況判據(jù)因子選擇

大數(shù)據(jù)平臺(tái)實(shí)時(shí)流計(jì)算需要采集上千個(gè)傳感器和開(kāi)關(guān)數(shù)據(jù),每個(gè)數(shù)據(jù)包含轉(zhuǎn)向架定子軸溫、小齒輪軸箱溫度、大齒輪箱溫度、速度、加速度、天氣溫度、軸振動(dòng)頻率、交流電壓、直流電壓、風(fēng)壓、海拔、GPS坐標(biāo)等多工況數(shù)據(jù)。判斷軸溫健康監(jiān)控?cái)?shù)據(jù),采用多判據(jù)因子實(shí)時(shí)權(quán)重的方法過(guò)濾工況干擾項(xiàng),其主要判據(jù)因子權(quán)重比例見(jiàn)表2。

表2 軸溫多判據(jù)因子權(quán)重表

Tab.2 Multi factor weighting table for axle temperature

在高速運(yùn)行的高鐵轉(zhuǎn)向架健康監(jiān)控中,由于列車(chē)線(xiàn)路不同、工況不同,導(dǎo)致每列動(dòng)車(chē)采集的傳感器軸溫有所差異,因此需要按照交路運(yùn)行的GPS坐標(biāo)點(diǎn)劃分交路點(diǎn)Ln和判據(jù)因子權(quán)重比UY才能進(jìn)行計(jì)算,一般動(dòng)車(chē)數(shù)據(jù)過(guò)濾選擇表2中前八個(gè)工況作為判據(jù)因子,高寒動(dòng)車(chē)需增加濕度和海拔判據(jù)因子權(quán)重。各個(gè)判據(jù)因子的權(quán)重比需要結(jié)合列車(chē)線(xiàn)路的實(shí)際路況,采用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)算法反復(fù)訓(xùn)練,并結(jié)合歷史數(shù)據(jù)經(jīng)驗(yàn)參考值得到合適的權(quán)重比以保證實(shí)時(shí)數(shù)據(jù)過(guò)濾的精準(zhǔn)度和設(shè)備監(jiān)控及健康預(yù)測(cè)管理的業(yè)務(wù)效果。

2.2 實(shí)時(shí)方差斜率算法

在計(jì)算資源有限的條件下,大數(shù)據(jù)流計(jì)算中選擇復(fù)雜的數(shù)據(jù)過(guò)濾算法會(huì)導(dǎo)致數(shù)據(jù)積壓,不能滿(mǎn)足實(shí)時(shí)監(jiān)控的秒級(jí)應(yīng)用。在實(shí)踐應(yīng)用對(duì)比以后,使用方差斜率算法結(jié)合實(shí)時(shí)軸溫監(jiān)控算法的主成分多判據(jù)因子計(jì)算,計(jì)算0與1兩個(gè)時(shí)間點(diǎn)的傳感器方差值與時(shí)間的斜率作為基礎(chǔ)判據(jù)主因子算法,如圖1所示。

圖1 方差斜率示意圖

2.3 離線(xiàn)權(quán)重訓(xùn)練

通過(guò)使用Flume方式采集離線(xiàn)全量數(shù)據(jù),并寫(xiě)入hadoop的hdfs,使用hive轉(zhuǎn)換成Map和Reduce的任務(wù)進(jìn)行傳感器數(shù)據(jù)包的合并、解析、split拆分、集合分類(lèi)、數(shù)據(jù)連續(xù)性稽核、最后根據(jù)交路GPS點(diǎn)的特征使用主成分權(quán)重算法得到實(shí)時(shí)流計(jì)算過(guò)濾所需要的權(quán)重值,計(jì)算流程見(jiàn)圖2。

圖2中實(shí)際運(yùn)行需要根據(jù)交路上的所有列車(chē)運(yùn)行的實(shí)際站臺(tái)、岔口、海拔、橋梁、隧道、彎道等交路特征選擇每日歸檔的全量工況數(shù)據(jù)才能進(jìn)行主成分回歸分析,并結(jié)合業(yè)務(wù)經(jīng)驗(yàn)反復(fù)訓(xùn)練和驗(yàn)證得到合理的權(quán)重值。交路特征變化小的情況下列車(chē)勻速運(yùn)行,其工況表現(xiàn)變化較小,但在遇不同交路特征時(shí)工況差異變化較大,因此需要將多工況離線(xiàn)權(quán)重值與交路線(xiàn)GPS坐標(biāo)點(diǎn)進(jìn)行標(biāo)注關(guān)聯(lián),實(shí)時(shí)流計(jì)算中直接根據(jù)GPS坐標(biāo)點(diǎn)讀取多工況權(quán)重值進(jìn)行數(shù)據(jù)過(guò)濾處理。

2.4 多工況權(quán)重算法

將表2中排名前幾位的工況判據(jù)因子作為主要因素用于計(jì)算實(shí)時(shí)多工況權(quán)重C0,見(jiàn)公式3:

圖2 離線(xiàn)經(jīng)驗(yàn)值大數(shù)據(jù)訓(xùn)練流程圖

在實(shí)時(shí)流計(jì)算中列車(chē)運(yùn)行到這個(gè)點(diǎn)的時(shí)候動(dòng)態(tài)選擇相應(yīng)的多個(gè)工況權(quán)重值,多工況的算子和權(quán)重標(biāo)注示例如圖3所示。

圖3 交路GPS坐標(biāo)Ln點(diǎn)判據(jù)因子與權(quán)重標(biāo)注圖

3 權(quán)重值擬合訓(xùn)練

3.1 訓(xùn)練方法

數(shù)據(jù)實(shí)時(shí)計(jì)算過(guò)程中如果使用海量多工況判據(jù)因子數(shù)據(jù),會(huì)導(dǎo)致計(jì)算效率低下。因此只能使用離線(xiàn)訓(xùn)練的多工況判據(jù)因子數(shù)據(jù)的過(guò)濾權(quán)重值,并需結(jié)合高鐵運(yùn)行工況樣本數(shù)據(jù)反復(fù)訓(xùn)練驗(yàn)證分析。項(xiàng)目通過(guò)高鐵1年離線(xiàn)數(shù)據(jù)經(jīng)過(guò)上百次的主成分回歸分析訓(xùn)練和修訂,得到能滿(mǎn)足實(shí)時(shí)流計(jì)算精度要求的判據(jù)因子權(quán)重值列表。

采用支持向量機(jī)(Support Vector Machine, SVM)算法訓(xùn)練模式[14-15]能發(fā)現(xiàn)數(shù)據(jù)的工況原因和機(jī)理原因,但很難保障數(shù)據(jù)過(guò)濾精度,因此只能將各種判據(jù)因子作為機(jī)器學(xué)習(xí)的算法訓(xùn)練方式,迭代補(bǔ)充判據(jù)因子算法,確保算法更加精準(zhǔn)、高效。

3.2 驗(yàn)證過(guò)程

訓(xùn)練驗(yàn)證數(shù)據(jù)過(guò)濾算法的有效性和高效性需要在流計(jì)算中固定算法處理邏輯,其驗(yàn)證程序?qū)崿F(xiàn)邏輯流程見(jiàn)圖4。

圖4 線(xiàn)路上GPS坐標(biāo)點(diǎn)的實(shí)時(shí)程序流程圖

實(shí)時(shí)采集列車(chē)運(yùn)行到交路GPS坐標(biāo)的傳感器數(shù)據(jù),采用大數(shù)據(jù)的流計(jì)算技術(shù),計(jì)算當(dāng)前數(shù)據(jù)T1與上包數(shù)據(jù)T0方差斜率。如果是高寒動(dòng)車(chē)交路線(xiàn)上,其天氣因子的權(quán)重將自動(dòng)排名靠前,根據(jù)圖4的程序流程得到多工況判據(jù)因子主成分回歸分析排名等權(quán)重值列表。最后計(jì)算相關(guān)因子權(quán)重占比,從而過(guò)濾出高價(jià)值的預(yù)判/預(yù)警/報(bào)警。

3.3 權(quán)重值列表訓(xùn)練

軸溫交路的權(quán)重經(jīng)驗(yàn)值是基于前一日的離線(xiàn)全量數(shù)據(jù),采用主成分回歸分析法[18]進(jìn)行訓(xùn)練,最小二乘法回歸算法主要用于主成分累計(jì)貢獻(xiàn)率的殘差推導(dǎo)。在不考慮長(zhǎng)編組和連掛的情況下,1列車(chē)8節(jié)車(chē)廂,每節(jié)車(chē)廂36個(gè)軸溫傳感器,以200毫秒1個(gè)數(shù)據(jù)包來(lái)計(jì)算,1天數(shù)據(jù)量=8節(jié)×36個(gè)×24小時(shí)×60分鐘× 60秒×5包/秒=1.244億個(gè)軸溫樣本,剔除檢修調(diào)試數(shù)據(jù)最少有幾千萬(wàn)的樣本,在進(jìn)行經(jīng)過(guò)離線(xiàn)大數(shù)據(jù)模型算法篩選后標(biāo)記進(jìn)交路的GPS坐標(biāo)上,形成交路的軸溫工況權(quán)重算法參考值數(shù)據(jù)。

為保障高鐵在不同工況的軸溫健康監(jiān)控的準(zhǔn)確率,需要對(duì)軸溫斜率算法和參考值進(jìn)行長(zhǎng)期訓(xùn)練與優(yōu)化,通過(guò)多輪算法與實(shí)際應(yīng)用論證,基于交路坐標(biāo)上采用主成分回歸分析算法訓(xùn)練多工況數(shù)據(jù)的累計(jì)貢獻(xiàn)率,通過(guò)降維后對(duì)多工況的不確定因素使用最小二乘法回歸進(jìn)行推導(dǎo)得到排名靠前的多工況因子權(quán)重列表。

步驟1:利用主成分回歸分析擬合1年內(nèi)所有列車(chē)在相同GPS點(diǎn)的軸溫與多工況因子數(shù)據(jù)集合。

對(duì)個(gè)自變量進(jìn)行主成分回歸分析,假設(shè)表2中軸溫相關(guān)的速度、加速度、外溫、海拔等個(gè)樣本值,聚合1年所有高鐵經(jīng)過(guò)這個(gè)GPS坐標(biāo)指標(biāo)集合為,得到所有坐標(biāo)的主成分累計(jì)貢獻(xiàn)值集合:

=,,,, …,(4)

公式4中代表GPS坐標(biāo)序號(hào),根據(jù)貢獻(xiàn)值排名得到因子的主成分列表,由于排名靠后的因子對(duì)軸溫的影響累計(jì)貢獻(xiàn)率比較低,因此在這個(gè)GPS點(diǎn)上不作選擇,而當(dāng)GPS坐標(biāo)發(fā)生變化時(shí),由線(xiàn)路特征和工況發(fā)生變化,其因子的選擇列表也會(huì)自動(dòng)根據(jù)累計(jì)貢獻(xiàn)率進(jìn)行調(diào)整。所有歷史數(shù)據(jù)進(jìn)行主成分回歸分析,并將所有主成分累計(jì)值進(jìn)行均值運(yùn)算,再進(jìn)行排名提取因子列表,這樣保證列車(chē)的主成分的因子成分貢獻(xiàn)率的穩(wěn)定性。

步驟2:采用最小二乘法回歸算法對(duì)因變量進(jìn)行多元線(xiàn)性回歸計(jì)算:

步驟3:流計(jì)算中將各個(gè)判據(jù)因子方差斜率與GPS坐標(biāo)的影響因子權(quán)重值列表進(jìn)行權(quán)重值占比擬合訓(xùn)練。對(duì)比分析業(yè)務(wù)故障機(jī)理原因,推導(dǎo)出合理的權(quán)重占比值列表,采用權(quán)重值之和大于90%以上的判據(jù)因子列表作為數(shù)據(jù)過(guò)濾條件。

4 驗(yàn)證與分析

全國(guó)兩千多列高鐵因建造時(shí)間不同,車(chē)上傳感器種類(lèi)不同、敏感性不同,采集的數(shù)據(jù)會(huì)存在差異。故每列車(chē)的機(jī)理模型還需根據(jù)具體列車(chē)特點(diǎn)推導(dǎo)、訓(xùn)練和驗(yàn)證。選擇京廣線(xiàn)上1列標(biāo)動(dòng)為例,根據(jù)交路工況特點(diǎn)在流計(jì)算中動(dòng)態(tài)調(diào)整機(jī)理模型,進(jìn)行數(shù)據(jù)和算法擬合驗(yàn)證故障預(yù)測(cè)效果。多工況機(jī)理模型需要采用高鐵運(yùn)行速度≥330 km/s的相同情況下,在固定的運(yùn)行交路進(jìn)行推導(dǎo)和驗(yàn)證。

4.1 單一算法與多工況權(quán)重算法對(duì)比

實(shí)驗(yàn)前期采用了很多單一算法進(jìn)行驗(yàn)證分析(如:同側(cè)軸溫均值算法,溫升斜率算法,線(xiàn)性回歸算法,小波分析算法等等)都很難提升精準(zhǔn)度和滿(mǎn)足業(yè)務(wù)部門(mén)要求的數(shù)據(jù)預(yù)測(cè),其系統(tǒng)實(shí)現(xiàn)的多工況單一算法機(jī)理分析如圖5、6所示。

圖5 軸溫與速度單一算法機(jī)理分析系統(tǒng)效果圖

圖6 多工況的單一算法機(jī)理分析系統(tǒng)效果圖

在圖5、6中是高鐵監(jiān)控與故障預(yù)測(cè)系統(tǒng)中流計(jì)算使用單一過(guò)濾算法的系統(tǒng)效果圖,單一算法只能對(duì)標(biāo)注點(diǎn)進(jìn)行監(jiān)控提示。因每種工況機(jī)理表現(xiàn)和數(shù)值都不一樣,單一算法無(wú)法進(jìn)行數(shù)據(jù)擬合和多工況因子針對(duì)性選擇,只能分析機(jī)理現(xiàn)象。單一算法的標(biāo)注提示后需要工程師通過(guò)業(yè)務(wù)經(jīng)驗(yàn)進(jìn)一步尋找故障發(fā)生時(shí)的機(jī)理原因,故障監(jiān)控/預(yù)測(cè)不夠準(zhǔn)確,也容易增加檢修工作量。

采用交路GPS坐標(biāo)的多工況權(quán)重分析能解決業(yè)務(wù)部門(mén)轉(zhuǎn)向架的數(shù)據(jù)分析難度,并有效提升效率。為驗(yàn)證算法的精準(zhǔn)性,使用多種機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比驗(yàn)證,其效果如表3所示。

表3 孤立森林模型估計(jì)結(jié)果

Tab.3 Estimation results of isolated forest models

在表3中采用3584例樣本,其中車(chē)載異常數(shù)25例。采用孤立森林算法過(guò)濾出567例異常數(shù)據(jù),One-Class SVM算法過(guò)濾出1934例異常數(shù)據(jù),Robust Covariance算法過(guò)濾出1134例異常數(shù)據(jù)。使用多工況權(quán)重算法僅過(guò)濾出40例異常數(shù)據(jù),進(jìn)一步通過(guò)業(yè)務(wù)確認(rèn)出全部25例真實(shí)異常數(shù)據(jù)。隨機(jī)派單的5例異常數(shù)據(jù)中,權(quán)重比例之和全部達(dá)到95%以上,回庫(kù)檢修部門(mén)核查原因是轉(zhuǎn)向架齒輪箱黃油過(guò)量導(dǎo)致軸溫與其它工況出現(xiàn)數(shù)據(jù)異常,屬于檢修不合規(guī)導(dǎo)致異常,轉(zhuǎn)向架正常沒(méi)有故障,清理過(guò)多黃油后故障隱患排除。

可見(jiàn)前三種機(jī)器學(xué)習(xí)算法過(guò)濾出較多的非標(biāo) 記異常數(shù)據(jù),采用多工況權(quán)重算法有效數(shù)據(jù)過(guò)濾提升明顯。

4.2 實(shí)時(shí)多工況權(quán)重算法驗(yàn)證

實(shí)時(shí)多工況權(quán)重算法在某列車(chē)某日16點(diǎn)48分52秒發(fā)生車(chē)載軸溫報(bào)警的情況下,車(chē)載軸溫預(yù)警分析如表4。

表4 軸溫預(yù)警故障數(shù)據(jù)

Tab.4 Axle temperature warning fault data

表4中為體現(xiàn)軸溫變化差異性,將數(shù)據(jù)按照30秒頻率進(jìn)行初步過(guò)濾對(duì)比,車(chē)上預(yù)警的控制策略是軸端溫度大于100℃,車(chē)載預(yù)警模型發(fā)出預(yù)警故障。異常溫度值只結(jié)合外溫、不間斷溫升、最大溫差、連續(xù)溫升等軸溫相關(guān)因子并不能準(zhǔn)確預(yù)測(cè)故障。軸溫故障預(yù)警需綜合多工況因素考慮分析。多工況權(quán)重?cái)M合多工況運(yùn)行到這個(gè)GPS坐標(biāo)點(diǎn)軸溫相關(guān)工況因子原始數(shù)據(jù)見(jiàn)表5。

針對(duì)列車(chē)運(yùn)行到16點(diǎn)48分52秒的數(shù)據(jù)表進(jìn)行實(shí)時(shí)流計(jì)算,參照離線(xiàn)主成分回歸訓(xùn)練的多工況權(quán)重值列表如表6。

根據(jù)業(yè)務(wù)權(quán)重?cái)?shù)據(jù)過(guò)濾規(guī)則,此時(shí)表6中多工況權(quán)重值合為62.84%<90%,流計(jì)算中報(bào)警過(guò)濾標(biāo)記為0。業(yè)務(wù)經(jīng)人工實(shí)際驗(yàn)證以后沒(méi)有故障,因此流計(jì)算中多工況權(quán)重算法計(jì)算結(jié)果是正確的,車(chē)載預(yù)警標(biāo)記為預(yù)警故障是不準(zhǔn)確的,實(shí)驗(yàn)證明使用多工況權(quán)重算法可以減少了檢修部門(mén)很多無(wú)效工作量。

表5 軸溫多工況原始變化表

Tab.5 Original table of axle temperature and multiple working conditions

表6 車(chē)上軸溫多工況權(quán)重算法驗(yàn)證表

Tab.6 Verification table of weight algorithm for axle temperature and multi working conditions

5 結(jié)論

在高鐵轉(zhuǎn)向架軸溫的大數(shù)據(jù)實(shí)時(shí)流計(jì)算中,數(shù)據(jù)過(guò)濾算法的精度受限于不同工況環(huán)境中的影響,本文采用多判據(jù)因子方差斜率算法結(jié)合離線(xiàn)主成分回歸分析訓(xùn)練的多工況權(quán)重值列表進(jìn)行實(shí)時(shí)流計(jì)算處理,得到以下結(jié)論:

(1)數(shù)據(jù)過(guò)濾計(jì)算效率既能滿(mǎn)足高鐵軸溫過(guò)濾的秒級(jí)性能指標(biāo)要求,又能從上千列高鐵全天9.96億條多工況傳感器數(shù)據(jù)中過(guò)濾出高價(jià)值數(shù)據(jù)。

(2)在實(shí)際項(xiàng)目運(yùn)行測(cè)試中轉(zhuǎn)向架健康監(jiān)控和預(yù)測(cè)數(shù)據(jù)的精準(zhǔn)度從85%提升到95%左右,有效減少了動(dòng)車(chē)的實(shí)時(shí)監(jiān)控運(yùn)營(yíng)誤判率,降低了10%的檢修運(yùn)維工作量。

因受集群規(guī)模和計(jì)算資源的影響,實(shí)時(shí)數(shù)據(jù)過(guò)濾的難度主要在于簡(jiǎn)單的算法在海量歷史數(shù)據(jù)中進(jìn)行在線(xiàn)計(jì)算很難實(shí)現(xiàn)簡(jiǎn)單高效的計(jì)算,實(shí)驗(yàn)發(fā)現(xiàn)數(shù)據(jù)量越大,算法復(fù)雜度和運(yùn)算效率是一對(duì)矛盾體,因此多工況的大數(shù)據(jù)過(guò)濾需要反復(fù)訓(xùn)練和調(diào)整算法,才能保障運(yùn)算效率和過(guò)濾精度。

[1] 張春. 基于大數(shù)據(jù)的動(dòng)車(chē)組故障關(guān)聯(lián)關(guān)系規(guī)則挖掘算法研究與實(shí)現(xiàn)[D]. 北京: 北京交通大學(xué), 2017

[2] 延婉梅. 動(dòng)車(chē)組大數(shù)據(jù)清洗關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 北京: 北京交通大學(xué), 2015.

[3] 羅元?jiǎng)? 姜建國(guó), 王思葉. 基于有限狀態(tài)機(jī)的RFID流數(shù)據(jù)過(guò)濾與清理技術(shù)[J]. 軟件學(xué)報(bào), 2014, 25(8): 1713-1728.

[4] 賈連鎖. 一種數(shù)據(jù)過(guò)濾方法: 中國(guó), 201610877127. 0[P]. 2016-12-21.

[5] 劉健男, 黃曉峰. 一種用于流計(jì)算的數(shù)據(jù)處理方法與設(shè)備: 中國(guó), 201410679749. 3[P]. 2016-06-22.

[6] 姜文超, 林德熙, 孫傲冰等. 一種新的基于相似度過(guò)濾的大數(shù)據(jù)保序匹配與檢索算法[J]. 計(jì)算機(jī)工程與科學(xué), 2017, 39(7): 1249-1256.

[7] 饒齊, 楊燕, 滕飛等. 基于多視圖加權(quán)聚類(lèi)集成的高速列車(chē)工況識(shí)別[J]. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào), 2018, 48(1): 35-41.

[8] 郭超, 楊燕江, 永全等. 基于多視圖分類(lèi)集成的高鐵工況識(shí)別[J]. 山東大學(xué)學(xué)報(bào)(工學(xué)版), 2017, 47(1): 7-14.

[9] 陳云風(fēng), 王紅軍, 楊燕. 基于聚類(lèi)集成的高鐵故障診斷分析[J]. 計(jì)算機(jī)科學(xué), 2015, 42(6): 233-238.

[10] B. Zhang, H. Wang, Y. Tang et al. Residual Useful Life Prediction for Slewing Bearing Based on Similarity under Different Working Conditions[J]. Experimental Techniques, 2018, 42(3): 215-227.

[11] 孔憲光, 章雄, 馬洪波等. 面向復(fù)雜工業(yè)大數(shù)據(jù)的實(shí)時(shí)特征提取方法[J]. 西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版) , 2016, 43(5): 70-74.

[12] Nicholas Tsagkarakis, Panos P. Markopoulos, George Skli-vanitis et al. L1-norm Principal-Component Analysis of Com-plex Data[J]. IEEE Transactions on Signal Processing, 2018, 66(12): 3256-3267.

[13] Zhengshun Fei, Kangling Liu. Online process monitoring for complex systems with dynamic weighted principal comp-onent analysis[J]. Chinese Journal of Chemical Engineering, 2016, 49(6): 775-786 .

[14] Xiaochen Zhang, Dongxiang Jiang, Te HanRotating et al. Rotating Machinery Fault Diagnosis for Imbalanced Data Based on Fast Clustering Algorithm and Support Vector Machine[J]. Journal of Sensors, 2017, 57(2): 1-15.

[15] Optimization of Multi Kenerl Parallel Support Vector Machine based on Hadoop[C]// PROCEEDINGS OF 2016 IEEE ADVANCED INFORMATION MANAGEMENT, COM-MU-NICATES, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE. New York: IEEE Press, 2016: 1602-1606.

[16] 楊連報(bào), 李平, 薛蕊等. 基于不平衡文本數(shù)據(jù)挖掘的鐵路信號(hào)設(shè)備故障智能分類(lèi)[J]. 鐵道學(xué)報(bào), 2018, 40(2): 60-66.

[17] 李兆興, 馬自堂等. 面向批量處理的大數(shù)據(jù)檢索過(guò)濾模型研究[J]. 計(jì)算機(jī)科學(xué), 2015, 42(9): 70-74.

[18] 王惠文, 王劼, 黃海軍. 主成分回歸的建模策略研究[J]. 北京航空航天大學(xué)學(xué)報(bào). 2008年6月(6): 661-664.

Data Filtering Algorithm for High Speed Bogie Based on Real-time Data Stream Computation

ZHAO Ke1, PENG Qing-chang2, LIU Guang-jun2

(1. City College, Kunming University of Science and Technology, Kunming 650051, China; 2. China Railway Rolling Stock Corporation Qingdao Sifang Co. LTD, Qingdao 266111, China)

In order to solve the problem of low efficiency and low accuracy of data filtering for high-speed railway bogie, which is affected by many working conditions in large data stream calculation. Multi-criterion factor variance slope algorithm is used to extract multi-condition data in the real-time stream calculation of high-speed railway large data, and the data is filtered by combining the weight reference values of the corresponding GPS coordinate points on the routing. Through the actual operation of high-speed rail projects, the method can effectively reduce data interference, improve the accuracy of data filtering to more than 95%, achieve accurate monitoring and prediction of high-speed rail bogie faults, greatly reduce the maintenance workload of high-speed rail bogies, and improve the maintenance efficiency. At the same time, it can satisfy the computation efficiency of real-time computation of millions of streams per second.

High-speed rail; Data filtering; Multiple criteria factor; Bogie; Stream computing

TP273.5

A

10.3969/j.issn.1003-6970.2018.11.021.

趙珂(1978-),女,碩士,講師,主要研究方向:信號(hào)與信息處理、大數(shù)據(jù)挖掘;劉光俊(1993-),男,本科,助理工程師,主要研究方向:數(shù)據(jù)統(tǒng)計(jì)分析,大數(shù)據(jù)挖掘;彭清暢(1985-),男,本科,信息工程師,主要研究方向:軟件工程、大數(shù)據(jù)架構(gòu)。

趙珂,彭慶暢,劉光俊. 大數(shù)據(jù)實(shí)時(shí)流計(jì)算的高鐵轉(zhuǎn)向架數(shù)據(jù)過(guò)濾算法研究[J]. 軟件,2018,39(11):88-95

猜你喜歡
軸溫交路轉(zhuǎn)向架
某型車(chē)轉(zhuǎn)向架軸溫監(jiān)測(cè)裝置研究
基于城際動(dòng)車(chē)組軸溫實(shí)時(shí)檢測(cè)系統(tǒng)的優(yōu)化設(shè)計(jì)
廣東科技(2021年2期)2021-03-06 09:46:56
20t軸重米軌轉(zhuǎn)向架裝用搖枕的研制
CR400BF 型動(dòng)車(chē)組達(dá)速交路軸溫變化規(guī)律研究
基于SPS模式的轉(zhuǎn)向架軸箱裝配線(xiàn)仿真研究
基于結(jié)構(gòu)應(yīng)力的轉(zhuǎn)向架構(gòu)架焊縫疲勞強(qiáng)度研究
基于光纖光柵溫度傳感的車(chē)輛軸溫監(jiān)測(cè)系統(tǒng)
淺談城市軌道乘務(wù)司機(jī)交路安排
大小交路模式下通信系統(tǒng)功能的聯(lián)調(diào)實(shí)現(xiàn)
地鐵信號(hào)系統(tǒng)既有線(xiàn)交路改造方案探討
乌什县| 永泰县| 昌吉市| 藁城市| 昂仁县| 会理县| 大连市| 民乐县| 都兰县| 三明市| 台前县| 八宿县| 苏州市| 滁州市| 麻城市| 天峨县| 禄劝| 科尔| 宁蒗| 五家渠市| 宁津县| 甘洛县| 义马市| 交口县| 会东县| 承德县| 竹溪县| 哈尔滨市| 平安县| 富源县| 威海市| 长子县| 崇阳县| 略阳县| 龙井市| 綦江县| 开远市| 六枝特区| 延安市| 旬邑县| 慈利县|