李鑫,史天運(yùn),常寶,馬小寧,劉軍
(1.中國(guó)鐵道科學(xué)研究院,研究生部,北京100081;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司,北京100081;3.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司,電子計(jì)算技術(shù)研究所,北京100081)
機(jī)車(chē)是鐵路客貨運(yùn)輸?shù)闹匾a(chǎn)工具[1],能否全面、準(zhǔn)確地掌握機(jī)車(chē)的質(zhì)量狀態(tài)將直接影響鐵路運(yùn)輸生產(chǎn)效率和安全管理水平。隨著各類(lèi)監(jiān)測(cè)檢測(cè)設(shè)備和信息管理系統(tǒng)的不斷投入,鐵路已積累了海量的機(jī)車(chē)數(shù)據(jù)[2]。如何將這些數(shù)據(jù)轉(zhuǎn)化為形象直觀,易于生產(chǎn)人員理解和使用的日常生產(chǎn)知識(shí),發(fā)揮數(shù)據(jù)的潛在價(jià)值,已成為機(jī)務(wù)大數(shù)據(jù)應(yīng)用的重要課題。
機(jī)車(chē)設(shè)備畫(huà)像作為鐵路機(jī)務(wù)安全大數(shù)據(jù)應(yīng)用的重要研究?jī)?nèi)容,致力于將分散、龐雜、難懂的數(shù)據(jù)轉(zhuǎn)變?yōu)橐撰@得、易理解、易分析的標(biāo)簽體系,從而客觀、精準(zhǔn)、形象地刻畫(huà)出機(jī)車(chē)質(zhì)量及安全狀態(tài)。借助機(jī)車(chē)標(biāo)簽體系開(kāi)展機(jī)車(chē)事故故障精準(zhǔn)分析和診斷,有助于防止“設(shè)備不穩(wěn)定狀態(tài)”導(dǎo)致的事故故障,提升機(jī)車(chē)安全預(yù)警能力。在此基礎(chǔ)上,通過(guò)對(duì)機(jī)車(chē)檢修方案實(shí)施個(gè)性化設(shè)計(jì),將支撐機(jī)車(chē)從“計(jì)劃?rùn)z修”向“差異化檢修”轉(zhuǎn)變,提高機(jī)車(chē)運(yùn)輸生產(chǎn)效率。同時(shí),機(jī)車(chē)標(biāo)簽體系可以輔助日常安全管理決策,提高機(jī)車(chē)質(zhì)量及安全管控水平。
目前,機(jī)車(chē)設(shè)備畫(huà)像研究尚處于起步階段,在實(shí)際應(yīng)用中仍面臨一些困難。一是大量數(shù)據(jù)仍堆積在各自的信息系統(tǒng)中,數(shù)據(jù)的深層價(jià)值利用不足;二是大量數(shù)據(jù)需要結(jié)合專(zhuān)業(yè)的數(shù)據(jù)處理知識(shí)才能被深入理解,無(wú)法被生產(chǎn)管理人員充分使用;三是數(shù)據(jù)挖掘算法的應(yīng)用較少,尚未構(gòu)建可行的機(jī)車(chē)標(biāo)簽體系,無(wú)法形成真實(shí)完整的機(jī)車(chē)畫(huà)像。
因此,本文運(yùn)用畫(huà)像及標(biāo)簽技術(shù),提出基于設(shè)備畫(huà)像的機(jī)車(chē)標(biāo)簽體系技術(shù)框架,形成完整的機(jī)車(chē)標(biāo)簽體系,并運(yùn)用改進(jìn)的K-means聚類(lèi)算法等標(biāo)簽獲取手段,在某鐵路局開(kāi)展實(shí)際應(yīng)用研究,取得了良好的應(yīng)用效果。
畫(huà)像研究是通過(guò)“打標(biāo)簽”的形式[3],將研究對(duì)象的基本屬性、行為特征等信息抽象成一個(gè)標(biāo)簽化的模型[4],易于人們理解且方便計(jì)算機(jī)處理分析。
設(shè)備畫(huà)像是借鑒用戶(hù)畫(huà)像[5]的概念,采集目標(biāo)設(shè)備的基本信息和在運(yùn)行過(guò)程中留下的各類(lèi)數(shù)據(jù),并將其轉(zhuǎn)換為畫(huà)像標(biāo)簽。通過(guò)構(gòu)造精準(zhǔn)、細(xì)粒度和結(jié)構(gòu)化的標(biāo)簽體系[6],形成設(shè)備的抽象畫(huà)像模型,進(jìn)而利用數(shù)據(jù)挖掘等方法,對(duì)設(shè)備狀態(tài)進(jìn)行有針對(duì)性的分析和研究。
鐵路機(jī)車(chē)設(shè)備畫(huà)像是設(shè)備畫(huà)像在鐵路機(jī)務(wù)專(zhuān)業(yè)的具體應(yīng)用,是將機(jī)車(chē)運(yùn)用、整備、檢修、專(zhuān)項(xiàng)整治等多個(gè)維度的海量數(shù)據(jù),按照一定的結(jié)構(gòu)精煉成機(jī)車(chē)的畫(huà)像標(biāo)簽,使機(jī)車(chē)數(shù)據(jù)表述更加規(guī)范化、形象化和可讀化,從而對(duì)機(jī)車(chē)的健康狀態(tài)實(shí)現(xiàn)精準(zhǔn)、科學(xué)、直觀地把控,降低機(jī)車(chē)數(shù)據(jù)的分析難度,推動(dòng)大數(shù)據(jù)技術(shù)與機(jī)車(chē)運(yùn)輸生產(chǎn)管理的深入結(jié)合。
標(biāo)簽是基于人為定義的規(guī)則,結(jié)合實(shí)際應(yīng)用而高度精煉的簡(jiǎn)潔、具體、形象化的特征標(biāo)識(shí)[7]。標(biāo)簽具有“人為定義”“語(yǔ)義化”“短文本”這3 個(gè)特點(diǎn)[8],即通過(guò)人為的概括或定義,以唯一性的語(yǔ)義說(shuō)明對(duì)應(yīng)標(biāo)簽的具體含義。設(shè)備的標(biāo)簽與設(shè)備畫(huà)像之間的關(guān)系如圖1所示。
圖1 設(shè)備標(biāo)簽與設(shè)備畫(huà)像關(guān)系結(jié)構(gòu)標(biāo)簽評(píng)價(jià)Fig.1 Relationship between equipment labels and equipment portrait
設(shè)備標(biāo)簽可分為“基本屬性類(lèi)標(biāo)簽”“動(dòng)態(tài)行為類(lèi)標(biāo)簽”“綜合評(píng)價(jià)類(lèi)標(biāo)簽”這3 類(lèi)[9]。基本屬性類(lèi)標(biāo)簽描述設(shè)備固有的、靜態(tài)的屬性,取值通常比較容易。動(dòng)態(tài)行為類(lèi)標(biāo)簽反映設(shè)備的運(yùn)轉(zhuǎn)狀態(tài)、養(yǎng)護(hù)情況、事故故障等動(dòng)態(tài)信息,體現(xiàn)設(shè)備的實(shí)時(shí)狀態(tài)。綜合評(píng)價(jià)類(lèi)標(biāo)簽則是根據(jù)設(shè)備的生產(chǎn)特點(diǎn)及制度規(guī)范總結(jié)歸納的具有評(píng)價(jià)性質(zhì)的信息。
機(jī)車(chē)標(biāo)簽體系的技術(shù)架構(gòu)以單臺(tái)機(jī)車(chē)為研究主體,由“數(shù)據(jù)采集層”“標(biāo)簽庫(kù)層”“標(biāo)簽應(yīng)用層”構(gòu)成,如圖2所示。
圖2 機(jī)車(chē)標(biāo)簽體系技術(shù)架構(gòu)Fig.2 Technical framework of locomotive label system
技術(shù)架構(gòu)以數(shù)據(jù)匯集為基礎(chǔ),以標(biāo)簽生成、優(yōu)化及管理為核心,以標(biāo)簽應(yīng)用為目標(biāo),利用大數(shù)據(jù)挖掘算法,整合機(jī)車(chē)各類(lèi)生產(chǎn)數(shù)據(jù),開(kāi)展機(jī)車(chē)標(biāo)簽體系的全生命周期管理,滿(mǎn)足機(jī)務(wù)專(zhuān)業(yè)相關(guān)的業(yè)務(wù)需求。
(1)數(shù)據(jù)采集層
數(shù)據(jù)采集層是以系統(tǒng)對(duì)接,數(shù)據(jù)錄入,批量導(dǎo)入等方式,采集機(jī)車(chē)相關(guān)的各類(lèi)數(shù)據(jù),為標(biāo)簽形成和優(yōu)化提供基礎(chǔ)數(shù)據(jù)來(lái)源。基本臺(tái)賬信息以靜態(tài)信息為主,數(shù)據(jù)內(nèi)容保持時(shí)間較長(zhǎng),數(shù)據(jù)采集比較容易。運(yùn)用信息、整備信息、檢修信息、專(zhuān)項(xiàng)整治信息和事故故障信息等數(shù)據(jù)為動(dòng)態(tài)生產(chǎn)信息,基本涵蓋了機(jī)務(wù)系統(tǒng)日常運(yùn)輸生產(chǎn)中的所有環(huán)節(jié),這些數(shù)據(jù)大多存儲(chǔ)于相應(yīng)的信息管理系統(tǒng)中,可以采用系統(tǒng)對(duì)接、人工轉(zhuǎn)儲(chǔ)等方式獲取。安全分析信息和質(zhì)量評(píng)價(jià)信息屬于綜合評(píng)價(jià)類(lèi)數(shù)據(jù),主要依據(jù)各項(xiàng)規(guī)章及行業(yè)專(zhuān)家意見(jiàn)獲得??珙I(lǐng)域信息則是與機(jī)車(chē)有關(guān)的其他專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù),如天氣信息、地理信息、線路信息、供電信息等。
(2)標(biāo)簽庫(kù)層
標(biāo)簽庫(kù)層是利用數(shù)據(jù)采集層所提供的各類(lèi)數(shù)據(jù),按照標(biāo)簽體系結(jié)構(gòu),生成能夠刻畫(huà)機(jī)車(chē)特征的各個(gè)標(biāo)簽。標(biāo)簽庫(kù)層包含“標(biāo)簽管理”“標(biāo)簽生成”“標(biāo)簽分析”“標(biāo)簽優(yōu)化”4個(gè)子層。
標(biāo)簽管理子層通過(guò)設(shè)計(jì)、審核、展示等多個(gè)標(biāo)簽管理環(huán)節(jié),全過(guò)程服務(wù)于標(biāo)簽的生成、存儲(chǔ)、評(píng)估、優(yōu)化和調(diào)整。標(biāo)簽生成子層通過(guò)數(shù)據(jù)提取、統(tǒng)計(jì)和挖掘等手段,利用數(shù)據(jù)采集層提供的各類(lèi)數(shù)據(jù),形成能夠反映機(jī)車(chē)真實(shí)狀態(tài)的特征標(biāo)識(shí),構(gòu)建機(jī)車(chē)設(shè)備畫(huà)像的3 級(jí)標(biāo)簽體系。標(biāo)簽分析子層是相關(guān)數(shù)據(jù)挖掘算法的集成,為標(biāo)簽生成、優(yōu)化和分析過(guò)程等提供算法支持。標(biāo)簽優(yōu)化子層是隨著數(shù)據(jù)的積累、業(yè)務(wù)的調(diào)整和生產(chǎn)制度的革新,通過(guò)與標(biāo)簽管理子層的實(shí)時(shí)聯(lián)動(dòng),運(yùn)用標(biāo)簽分析子層提供的相關(guān)分析算法,對(duì)標(biāo)簽體系進(jìn)行優(yōu)化和升級(jí)。
(3)標(biāo)簽應(yīng)用層
標(biāo)簽應(yīng)用層利用機(jī)車(chē)標(biāo)簽體系開(kāi)展機(jī)車(chē)畫(huà)像分析及應(yīng)用。首先,通過(guò)單臺(tái)機(jī)車(chē)畫(huà)像的實(shí)現(xiàn),全面、客觀、形象地刻畫(huà)機(jī)車(chē)的運(yùn)維特征和健康狀態(tài)。進(jìn)而,按照機(jī)車(chē)類(lèi)型、所屬站段、擔(dān)當(dāng)線路等,實(shí)現(xiàn)機(jī)車(chē)類(lèi)群的整體質(zhì)量把控。此外,還可以對(duì)機(jī)破、運(yùn)用故障、碎修、5 項(xiàng)專(zhuān)檢等關(guān)鍵標(biāo)簽進(jìn)行挖掘分析,以滿(mǎn)足故障處理、整備排班、更新改造等業(yè)務(wù)需要。
在有效地把握機(jī)車(chē)健康狀態(tài)的基礎(chǔ)上,還可以有針對(duì)性地調(diào)整機(jī)車(chē)的整備及檢修計(jì)劃,為機(jī)車(chē)由計(jì)劃性檢修向差異化檢修轉(zhuǎn)變,最終為實(shí)現(xiàn)狀態(tài)修提供必要的數(shù)據(jù)支撐和參考依據(jù)。同時(shí),易于理解的畫(huà)像標(biāo)簽及相關(guān)分析還可以支撐機(jī)車(chē)運(yùn)輸組織管理和安全輔助決策等需求,實(shí)現(xiàn)機(jī)車(chē)數(shù)據(jù)應(yīng)用與生產(chǎn)管理之間的良性閉環(huán)。
機(jī)車(chē)標(biāo)簽體系以單臺(tái)機(jī)車(chē)為基本單元,按照3級(jí)標(biāo)簽體系結(jié)構(gòu),綜合利用機(jī)車(chē)各類(lèi)生產(chǎn)數(shù)據(jù),產(chǎn)生完整的機(jī)車(chē)畫(huà)像標(biāo)簽。
(1)一級(jí)標(biāo)簽
機(jī)車(chē)的一級(jí)標(biāo)簽體現(xiàn)機(jī)車(chē)設(shè)備畫(huà)像的基本刻畫(huà)維度,是機(jī)車(chē)的共有特征,數(shù)量固定,形式統(tǒng)一,可以梳理為基本信息、運(yùn)用質(zhì)量、整備質(zhì)量、檢修質(zhì)量和質(zhì)量評(píng)價(jià)等維度,如表1所示。
表1 機(jī)車(chē)標(biāo)簽體系的一級(jí)標(biāo)簽Table 1 First class labels of locomotive label system
(2)二級(jí)標(biāo)簽
機(jī)車(chē)的二級(jí)標(biāo)簽是對(duì)一級(jí)標(biāo)簽的細(xì)化,體現(xiàn)機(jī)車(chē)標(biāo)簽體系的管理及分析維度,數(shù)量及形式基本固定,涵蓋基本特征、運(yùn)用特征、運(yùn)行故障、整備重點(diǎn)、檢修重點(diǎn)、專(zhuān)項(xiàng)整治、運(yùn)維停時(shí)、質(zhì)量評(píng)價(jià)、安全分析等多個(gè)方面。機(jī)車(chē)標(biāo)簽體系的二級(jí)標(biāo)簽如表2所示。
表2 機(jī)車(chē)標(biāo)簽體系的二級(jí)標(biāo)簽詳情T(mén)able 2 Second class labels of locomotive label system
(3)三級(jí)標(biāo)簽
三級(jí)標(biāo)簽是反映機(jī)車(chē)具體狀態(tài)的個(gè)性化特征,是對(duì)二級(jí)標(biāo)簽具體內(nèi)容的明確,兼具使用價(jià)值和統(tǒng)計(jì)分析價(jià)值,不同機(jī)車(chē)的三級(jí)標(biāo)簽具體內(nèi)容不盡相同。
機(jī)車(chē)的三級(jí)標(biāo)簽主要有以下幾種獲取方式:
一是直接獲取。這類(lèi)標(biāo)簽主要用來(lái)描述機(jī)車(chē)的固有屬性和基本特征,不需要過(guò)多的計(jì)算和處理便可以從數(shù)據(jù)庫(kù)中直接提取,如配屬時(shí)間、生產(chǎn)廠家、擔(dān)當(dāng)線別等。
二是統(tǒng)計(jì)計(jì)算。這類(lèi)標(biāo)簽通過(guò)簡(jiǎn)單的數(shù)量統(tǒng)計(jì)和邏輯運(yùn)算即可獲得,如故障類(lèi)別及對(duì)應(yīng)數(shù)量等,多存在于動(dòng)態(tài)行為類(lèi)標(biāo)簽中,體現(xiàn)機(jī)車(chē)質(zhì)量的實(shí)時(shí)狀態(tài)。
三是挖掘分析。這類(lèi)標(biāo)簽不能通過(guò)簡(jiǎn)單的計(jì)算獲得,需要運(yùn)用聚類(lèi)、分類(lèi)、預(yù)測(cè)、關(guān)聯(lián)分析等多種數(shù)據(jù)挖掘算法,綜合分析機(jī)車(chē)產(chǎn)生的各類(lèi)數(shù)據(jù),從而形成能夠抽象描述機(jī)車(chē)某一維度的標(biāo)簽信息。其中,聚類(lèi)分析方法應(yīng)用較多,在尚無(wú)法獲知標(biāo)簽具體內(nèi)容的類(lèi)別劃分時(shí),可以通過(guò)聚類(lèi)算法挖掘分析機(jī)車(chē)相應(yīng)數(shù)據(jù),得到準(zhǔn)確的標(biāo)簽類(lèi)別。
如上所述,機(jī)車(chē)的3級(jí)標(biāo)簽大多通過(guò)聚類(lèi)方法獲得,而經(jīng)典的K-means聚類(lèi)算法存在聚類(lèi)效果過(guò)于依賴(lài)初始化中心的問(wèn)題。通過(guò)改進(jìn)初始質(zhì)心的選取方式,可以改善聚類(lèi)效果,提高聚類(lèi)效率。
K-means 算法是基于距離的聚類(lèi)算法[10],采用距離作為相似性的評(píng)價(jià)指標(biāo),以最小化誤差函數(shù)為基礎(chǔ)將數(shù)據(jù)劃分為預(yù)先設(shè)定的K個(gè)類(lèi)別,每個(gè)類(lèi)別由距離靠近的對(duì)象組成,算法把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。K-means算法的基本流程如下:
Step 1 對(duì)于共有n個(gè)樣本的數(shù)據(jù)集U={x1,x2,…,xn} ,隨機(jī)選取K個(gè)樣本作為初始的聚類(lèi)質(zhì)心,表示為μi,其中,K≤n,i≤n,聚類(lèi)類(lèi)別表示為C={C1,C2,…,Ck} 。
Step 2 分別計(jì)算數(shù)據(jù)集中的每個(gè)樣本xi距離K個(gè)聚類(lèi)質(zhì)心的距離,并將該樣本劃分到距離最小的聚類(lèi)中心所對(duì)應(yīng)的類(lèi)中。
Step 3 當(dāng)遍歷所有樣本點(diǎn)后,重新計(jì)算每個(gè)類(lèi)別的聚類(lèi)質(zhì)心,作為下一次聚類(lèi)過(guò)程中所在類(lèi)別的新的中心點(diǎn),i≤K。
Step 4 重復(fù)Step 2 和Step 3,直到各個(gè)類(lèi)別的聚類(lèi)質(zhì)心不再變化。
對(duì)于歐式空間的樣本數(shù)據(jù),以平方誤差和eSSE作為聚類(lèi)的目標(biāo)函數(shù),并作為衡量不同聚類(lèi)效果的指標(biāo)[11],表示為樣本點(diǎn)x到所在聚類(lèi)類(lèi)別Ci的聚類(lèi)質(zhì)心μi間距離的平方和。當(dāng)eSSE值越小,表明聚類(lèi)類(lèi)別內(nèi)部的樣本越相似,最優(yōu)的聚類(lèi)結(jié)果應(yīng)使得eSSE達(dá)到最小值。
K-means 算法具有快速、高效的計(jì)算優(yōu)點(diǎn),但是,其聚類(lèi)效果容易受到初始質(zhì)心的影響陷入局部最優(yōu)??梢酝ㄟ^(guò)優(yōu)化初始質(zhì)心解決這一問(wèn)題。
為避免K-means 算法的聚類(lèi)效果陷入局部最優(yōu),選取初始質(zhì)心時(shí),質(zhì)心間的距離要盡可能的遠(yuǎn)。質(zhì)心優(yōu)化選取的基本思路為:
Step 1 從數(shù)據(jù)集U={x1,x2,…,xn} 中隨機(jī)選取一個(gè)樣本xi作為第1個(gè)聚類(lèi)質(zhì)心μ1。
Step 2 計(jì)算每個(gè)樣本與當(dāng)前選定的聚類(lèi)質(zhì)心的最短距離D(x),并作為樣本被選取為下一個(gè)聚類(lèi)質(zhì)心的權(quán)重值。某個(gè)樣本xi的D(xi)值越大,表示樣本xi被選取作為下一個(gè)聚類(lèi)中心的概率越大;選擇D(xi)最大的樣本點(diǎn)成為下一個(gè)聚類(lèi)質(zhì)心。
Step 3 重復(fù)Step 2直到選擇出K個(gè)聚類(lèi)質(zhì)心。
當(dāng)選取出K個(gè)初始質(zhì)心后,則轉(zhuǎn)入K-means算法中Step 2~Step 3。
盡可能最大化地增大初始質(zhì)心點(diǎn)之間的距離,能顯著地改善最終結(jié)果的誤差。雖然選取初始質(zhì)心時(shí)會(huì)多花費(fèi)一些時(shí)間,卻能提高聚類(lèi)過(guò)程的收斂速度和算法的穩(wěn)定性。
采用經(jīng)典的鳶尾花卉數(shù)據(jù)集(Iris Dataset),分析比較上述兩種算法的聚類(lèi)效果。K-means 算法的聚類(lèi)效果如表3所示,改進(jìn)初始質(zhì)心選取方式后的聚類(lèi)效果如表4所示。
表3 K-means算法對(duì)Iris數(shù)據(jù)集的聚類(lèi)效果Table 3 Clustering effect of K-means algorithm on Iris data set
表4 改進(jìn)的聚類(lèi)算法對(duì)Iris數(shù)據(jù)集的聚類(lèi)效果Table 4 Clustering effect of improved K-means algorithm on Iris data set
通過(guò)比較可知,改進(jìn)初始質(zhì)心的選取方式,聚類(lèi)的平均準(zhǔn)確率由62.67%提升到89.33%,準(zhǔn)確率和穩(wěn)定性均有較大幅度提升。
基于機(jī)車(chē)設(shè)備畫(huà)像標(biāo)簽體系和標(biāo)簽獲取方式,利用某鐵路局2019年全年積累的機(jī)車(chē)生產(chǎn)數(shù)據(jù),產(chǎn)生完整的機(jī)車(chē)畫(huà)像3級(jí)標(biāo)簽。
以該鐵路局2019年1月-12月共計(jì)59112條“機(jī)車(chē)整備時(shí)長(zhǎng)”數(shù)據(jù)為例,應(yīng)用K-means改進(jìn)算法,對(duì)機(jī)車(chē)“整備質(zhì)量”(一級(jí)標(biāo)簽)下的“整備時(shí)長(zhǎng)”(二級(jí)標(biāo)簽)進(jìn)行聚類(lèi)分析,形成相應(yīng)的3級(jí)標(biāo)簽類(lèi)別。
在進(jìn)行聚類(lèi)分析時(shí),首先需要確定聚類(lèi)類(lèi)別K的值。在尚不明確數(shù)據(jù)分布的情況下,往往較難確定某個(gè)3級(jí)標(biāo)簽的實(shí)際類(lèi)別數(shù)。因此,需要根據(jù)業(yè)務(wù)實(shí)際和歷史數(shù)據(jù),比較不同K值下的聚類(lèi)效果,選取適合的K值。
聚類(lèi)樣本總的eSSE值會(huì)隨著K值的增大而逐漸減小。當(dāng)K的取值偏小時(shí),eSSE值會(huì)隨著K的增大而快速降低;當(dāng)K的取值較大時(shí),eSSE值會(huì)隨著K的增大轉(zhuǎn)為緩慢下降的趨勢(shì)?!罢麄鋾r(shí)長(zhǎng)”的eSSE值與K值的關(guān)系如圖3所示。
圖3 某鐵路局機(jī)車(chē)整備時(shí)長(zhǎng)eSSE 值與K 值的關(guān)系Fig.3 Relationship between eSSE and K of clustering of locomotive maintenance time in a railway bureau
由圖3可知,當(dāng)K=4 時(shí),eSSE值開(kāi)始變?yōu)榫徛陆第厔?shì),因此,可以根據(jù)業(yè)務(wù)需要,將機(jī)車(chē)“整備時(shí)長(zhǎng)”下分為4 個(gè)3 級(jí)標(biāo)簽。具體聚類(lèi)結(jié)果如表5所示。
表5 某鐵路局機(jī)車(chē)整備時(shí)長(zhǎng)在K=4 時(shí)的聚類(lèi)結(jié)果Table 5 Clustering result of locomotive maintenance time of a railway bureau when K=4
根據(jù)聚類(lèi)結(jié)果,同時(shí)結(jié)合生產(chǎn)實(shí)際,可將標(biāo)簽1 記為“整備時(shí)長(zhǎng)正常”,表示整備作業(yè)時(shí)間符合作業(yè)規(guī)范要求;標(biāo)簽2 的數(shù)據(jù)量占比59.45%,可將這一特征記為“整備時(shí)長(zhǎng)略長(zhǎng)”,表示機(jī)車(chē)的整備時(shí)間基本符合作業(yè)需要,稍有耗時(shí);標(biāo)簽3則記為“整備時(shí)長(zhǎng)較長(zhǎng)”,表示整備作業(yè)時(shí)間已超出正常作業(yè)的時(shí)間規(guī)范;標(biāo)簽4 按照聚類(lèi)情況記為“整備時(shí)長(zhǎng)過(guò)長(zhǎng)”,表示整備作業(yè)時(shí)間過(guò)長(zhǎng),已影響到機(jī)車(chē)整備效率。
按照此方法,對(duì)全局的機(jī)車(chē)在“機(jī)車(chē)日走行”“機(jī)破件數(shù)”“碎修件數(shù)”“整備時(shí)長(zhǎng)”“性能試驗(yàn)問(wèn)題件數(shù)”等多個(gè)標(biāo)簽維度進(jìn)行聚類(lèi)分析,并對(duì)相應(yīng)的3級(jí)標(biāo)簽賦予具體內(nèi)容。
隨機(jī)選擇該局的1 臺(tái)機(jī)車(chē),通過(guò)直接提取、統(tǒng)計(jì)分類(lèi)、聚類(lèi)分析等方法,產(chǎn)生該臺(tái)機(jī)車(chē)具體的3級(jí)標(biāo)簽,形成完整的機(jī)車(chē)設(shè)備畫(huà)像標(biāo)簽體系,如圖4所示,其中出于數(shù)據(jù)安全考慮已對(duì)部分?jǐn)?shù)據(jù)做脫敏處理。
圖4 某鐵路局某臺(tái)機(jī)車(chē)的標(biāo)簽體系Fig.4 Label cluster of a locomotive in a railway bureau
結(jié)合該局的實(shí)際生產(chǎn)管理情況,以月度為時(shí)間單位,對(duì)機(jī)車(chē)的3 級(jí)標(biāo)簽進(jìn)行更新,得到機(jī)車(chē)不同月份的畫(huà)像標(biāo)簽。只需將更新數(shù)據(jù)與不同類(lèi)別的數(shù)據(jù)區(qū)間進(jìn)行比較,得到相應(yīng)的新的3級(jí)標(biāo)簽。此外,為保證聚類(lèi)結(jié)果的準(zhǔn)確有效,還應(yīng)該結(jié)合行業(yè)專(zhuān)家意見(jiàn)、業(yè)務(wù)應(yīng)用需要、數(shù)據(jù)積累情況、服務(wù)器處理能力等因素,及時(shí)調(diào)整機(jī)車(chē)3級(jí)標(biāo)簽的類(lèi)別劃分和含義描述,實(shí)現(xiàn)機(jī)車(chē)標(biāo)簽體系的全生命周期管理和動(dòng)態(tài)優(yōu)化。
本文針對(duì)鐵路機(jī)務(wù)專(zhuān)業(yè)在大數(shù)據(jù)應(yīng)用中的現(xiàn)實(shí)需要,提出運(yùn)用畫(huà)像及標(biāo)簽技術(shù),構(gòu)造客觀、全面的機(jī)車(chē)標(biāo)簽體系,通過(guò)機(jī)車(chē)設(shè)備畫(huà)像實(shí)現(xiàn)精準(zhǔn)的質(zhì)量分析及高效的安全管控。運(yùn)用機(jī)車(chē)設(shè)備畫(huà)像的概念及與標(biāo)簽的理論關(guān)系,針對(duì)機(jī)車(chē)質(zhì)量管理、差異化檢修、安全輔助決策等應(yīng)用場(chǎng)景,設(shè)計(jì)機(jī)車(chē)設(shè)備畫(huà)像標(biāo)簽體系技術(shù)架構(gòu),闡述技術(shù)架構(gòu)由數(shù)據(jù)采集到標(biāo)簽生成再到標(biāo)簽應(yīng)用的內(nèi)在邏輯和流程,以及標(biāo)簽體系的管理、分析及優(yōu)化方式;具體介紹機(jī)車(chē)標(biāo)簽體系的3 級(jí)結(jié)構(gòu)、標(biāo)簽類(lèi)型、標(biāo)簽內(nèi)容和獲取方法。特別針對(duì)聚類(lèi)標(biāo)簽的獲取方式,通過(guò)改進(jìn)K-means算法初始質(zhì)心的選取方法,將聚類(lèi)的準(zhǔn)確度由62.67%提升到89.33%。
在某鐵路局開(kāi)展機(jī)車(chē)設(shè)備畫(huà)像理論的實(shí)際應(yīng)用,獲得多個(gè)標(biāo)簽維度下具體的3 級(jí)標(biāo)簽內(nèi)容,形成完整的機(jī)車(chē)標(biāo)簽體系,實(shí)現(xiàn)為機(jī)車(chē)精準(zhǔn)畫(huà)像的目的,為開(kāi)展機(jī)車(chē)類(lèi)群畫(huà)像、指標(biāo)分析、運(yùn)維優(yōu)化和安全管控打下基礎(chǔ)。