王寧 柴雪松 李健超 馬學(xué)志 茅宇琳
1.中國鐵道科學(xué)研究院集團(tuán)有限公司 鐵道建筑研究所, 北京 100081; 2.中鐵科學(xué)技術(shù)開發(fā)有限公司, 北京 100081
在快速發(fā)展的5G、大數(shù)據(jù)應(yīng)用、人工智能等技術(shù)驅(qū)動下,鐵路智能化發(fā)展已成為當(dāng)前鐵路行業(yè)重點(diǎn)推進(jìn)的方向和目標(biāo)。無砟軌道被廣泛應(yīng)用于高速鐵路建設(shè),截至2021年底,我國高速鐵路無砟軌道營業(yè)里程已達(dá)3萬公里,約占高速鐵路營業(yè)里程的61%。業(yè)務(wù)信息系統(tǒng)變得愈加復(fù)雜,各種安全問題呈多元化、復(fù)雜化趨勢演變。
在高速鐵路智能化發(fā)展過程中,鐵路軌道安全保障能力的建設(shè)被高度重視。相關(guān)鐵路部門搭建了車載智能軌道巡檢系統(tǒng)、高速車載式軌道圖像巡視系統(tǒng)、無砟軌道表觀檢測小車、鋼軌探傷車等多個安全監(jiān)測檢測系統(tǒng),積累了海量的多源異構(gòu)監(jiān)測數(shù)據(jù)。相關(guān)業(yè)務(wù)人員利用數(shù)據(jù)驅(qū)動的知識工程與專家系統(tǒng)開展了數(shù)據(jù)分析,解決了諸多關(guān)鍵問題。但是,目前這些工作僅限于規(guī)則明確、邊界清晰、封閉性的應(yīng)用場景,過于依賴專家經(jīng)驗(yàn),難以應(yīng)對大數(shù)據(jù)時代規(guī)?;瘧?yīng)用的需求。
近年來,知識圖譜技術(shù)憑借語義豐富、解釋性強(qiáng)、結(jié)構(gòu)友好等技術(shù)優(yōu)勢,逐漸在各垂直領(lǐng)域得到應(yīng)用,這也為解決鐵路無砟軌道的傷損數(shù)據(jù)管理提供了新的解決思路。因此,本文基于當(dāng)前無砟軌道檢測數(shù)據(jù)信息化、數(shù)字化存在的問題,梳理當(dāng)前知識圖譜的發(fā)展?fàn)顩r;研究無砟軌道典型傷損的知識體系,借助知識圖譜的技術(shù)優(yōu)勢,以無砟軌道典型傷損狀態(tài)評估定級實(shí)際業(yè)務(wù)需求為導(dǎo)向,以鐵路無砟軌道檢測數(shù)據(jù)為驅(qū)動,深入開展面向無砟軌道典型傷損的知識圖譜設(shè)計與應(yīng)用研究,對無砟軌道典型傷損特征體系的多源信息資源進(jìn)行分析和整合,實(shí)現(xiàn)關(guān)聯(lián)存儲與快速檢索;加強(qiáng)研究的前瞻性,提高典型傷損資源的使用便利水平,支持分析識別算法的訓(xùn)練、驗(yàn)證及效果評價,支撐無砟軌道及高速鐵路隧道狀態(tài)安全評估技術(shù)快速發(fā)展。
2012年,谷歌公司發(fā)布了知識圖譜(Knowledge Graph)[1],提升了搜索引擎返回的答案質(zhì)量和用戶查詢的效率。知識圖譜是組織、存儲和管理大規(guī)模信息的前沿技術(shù),是由實(shí)體、概念、屬性和關(guān)系組成的知識庫,可實(shí)現(xiàn)對海量多源異構(gòu)動態(tài)數(shù)據(jù)的展示、融合分析、組織管理以及信息關(guān)聯(lián)搜索,提高一線工作人員的分析質(zhì)量和工作效率。知識圖譜按應(yīng)用范圍可劃分為通用和行業(yè)領(lǐng)域知識圖譜。
通用知識圖譜采用自底向上的方式構(gòu)建,數(shù)據(jù)大多為常識性知識,數(shù)據(jù)量大,覆蓋面廣。目前國內(nèi)外多個研究機(jī)構(gòu)建立了一些大規(guī)模通用知識圖譜。DBpedia知識圖譜[2]根據(jù)規(guī)則從維基百科中獲取了538萬個結(jié)構(gòu)化知識三元組;Wikidata知識圖譜[3]從維基百科中構(gòu)建了6 600萬個非結(jié)構(gòu)化知識三元組;YAGO知識圖譜[4]從多種數(shù)據(jù)源,獲取了約4.5億個知識三元組。
我國在知識圖譜方面也取得了諸多有價值的研究成果。其中,清華大學(xué)融合中英文維基、百度百科和互動百科,對各項知識進(jìn)行結(jié)構(gòu)化和跨語言鏈接,構(gòu)建了第一個大型中英文知識圖譜XLore[5];上海交通大學(xué)融合百度百科、互動百科及維基百科三大中文百科,抽取結(jié)構(gòu)化數(shù)據(jù)構(gòu)建了中文通用知識圖譜zhishi.me[6]。此外,百度知心、搜狗知立方以及復(fù)旦大學(xué)的圖數(shù)據(jù)管理實(shí)驗(yàn)室也相繼推出了中文知識圖譜。這些知識庫規(guī)模較大,涵蓋范圍廣,可提供智能搜索服務(wù)。
行業(yè)領(lǐng)域知識圖譜是為了輔助專業(yè)領(lǐng)域復(fù)雜分析應(yīng)用而單獨(dú)構(gòu)建的圖譜,一般采用自頂向下的方式構(gòu)建,有嚴(yán)格和豐富的數(shù)據(jù)格式,具有領(lǐng)域性和精準(zhǔn)度,涵蓋的實(shí)體具有較多的屬性且能匹配實(shí)際業(yè)務(wù)意義,廣泛地應(yīng)用于醫(yī)療、金融、電商、教育、科研、軍事等垂直領(lǐng)域。
隨著大數(shù)據(jù)和人工智能在鐵路上的業(yè)務(wù)開展,知識圖譜開始在鐵路領(lǐng)域中廣泛應(yīng)用。董興芝[7]提出面向智能高速鐵路安全保障的“知識圖譜+事件圖譜”雙譜融合的知識圖譜頂層架構(gòu),為構(gòu)建鐵路全域知識圖譜提供了理論和技術(shù)支持。李欣等[8]為了實(shí)現(xiàn)鐵路調(diào)度應(yīng)急預(yù)案數(shù)據(jù)的規(guī)范管理和有序存儲,構(gòu)建了鐵路調(diào)度應(yīng)急預(yù)案知識圖譜;郭婧娟等[9]運(yùn)用知識圖譜的方法系統(tǒng)梳理了軌道交通領(lǐng)域中建筑信息模型(Building Information Modeling,BIM)技術(shù)的應(yīng)用研究現(xiàn)狀。
翁湦元等[10]基于知識圖譜技術(shù),構(gòu)建了延伸服務(wù)產(chǎn)品知識圖譜。王普[11]構(gòu)建了高速鐵路應(yīng)急大數(shù)據(jù)知識圖譜,設(shè)計了面向云服務(wù)的高速鐵路應(yīng)急平臺總體框架。楊連報等[12]應(yīng)用文本大數(shù)據(jù)技術(shù),實(shí)現(xiàn)基于Elastic的非結(jié)構(gòu)化事故故障文本數(shù)據(jù)的存儲與檢索。彭麗宇[13]針對鐵路貨運(yùn)運(yùn)營風(fēng)險結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),構(gòu)建風(fēng)險知識庫體系。
知識圖譜技術(shù)在垂直領(lǐng)域的成熟應(yīng)用為構(gòu)建面向無砟軌道表觀典型傷損的知識圖譜積累了豐富的可借鑒經(jīng)驗(yàn)。
無砟軌道傷損信息中蘊(yùn)含大量軌道交通領(lǐng)域的專業(yè)名詞,領(lǐng)域性強(qiáng),但是結(jié)構(gòu)物傷損描述和認(rèn)知標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)之間的時空信息不同步、跨專業(yè)數(shù)據(jù)融合分析困難等問題增大了多源海量數(shù)據(jù)協(xié)同分析的難度;數(shù)據(jù)傳輸存儲管理和分析應(yīng)用模式仍以人工轉(zhuǎn)儲、單一存儲管理、單項數(shù)據(jù)分析為主,效率低下,及時性差;各類設(shè)備操作規(guī)程、事故預(yù)案、監(jiān)控處置方式等大量文本形式的知識均需進(jìn)行記憶和查詢,執(zhí)行效率較低,且操作經(jīng)驗(yàn)難以共享和傳承,故障處理的精確性和規(guī)范性很難得到保證。
為了解決無砟軌道傷損特征庫認(rèn)知不統(tǒng)一、海量傷損樣本組織與檢索困難等問題,在知識圖譜的整體架構(gòu)和構(gòu)建技術(shù)基礎(chǔ)上,基于本體元素定義-數(shù)據(jù)篩選清洗-圖像獲取標(biāo)注-圖像存儲及知識檢索的構(gòu)建流程,建立了高速鐵路無砟軌道典型傷損圖譜。其中,本體元素定義是通過本體構(gòu)建層次結(jié)構(gòu),提前將知識圖譜體系化;數(shù)據(jù)篩選清洗即對數(shù)據(jù)進(jìn)行挑選、格式冗余處理;圖像獲取標(biāo)注是從檢測系統(tǒng)中獲取有用的圖像數(shù)據(jù)并標(biāo)注處理,獲取編碼文件;圖譜存儲是以圖的形式將知識圖譜存儲在圖數(shù)據(jù)庫中,知識檢索是指實(shí)現(xiàn)對傷損的管理和快速檢索。
無砟軌道傷損知識圖譜主要分為模式層和數(shù)據(jù)層,如圖1所示。
圖1 無砟軌道傷損知識圖譜的構(gòu)建
模式層首先劃分本體體系,搭建知識圖譜框架,結(jié)合我國高速鐵路無砟軌道現(xiàn)行規(guī)范、運(yùn)營實(shí)際情況,研究無砟軌道傷損分類特征,對無砟軌道傷損信息中每個部件和傷損的屬性、結(jié)構(gòu)進(jìn)行規(guī)范化定義,確定無砟軌道和傷損標(biāo)準(zhǔn)化名稱,從而形成定義準(zhǔn)確、結(jié)構(gòu)清晰的無砟軌道傷損概念框架。
數(shù)據(jù)層根據(jù)數(shù)據(jù)標(biāo)注策略對獲取的圖片數(shù)據(jù)進(jìn)行清洗和標(biāo)注,并將標(biāo)注數(shù)據(jù)映射到構(gòu)建的無砟軌道傷損知識本體概念節(jié)點(diǎn)中,建立實(shí)體關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)模式層與數(shù)據(jù)層之間的映射。最后,利用圖數(shù)據(jù)庫有序存儲數(shù)據(jù),并設(shè)計實(shí)現(xiàn)數(shù)據(jù)庫的快速檢索,實(shí)現(xiàn)無砟軌道傷損知識圖譜的構(gòu)建。
通過調(diào)研各鐵路局站段關(guān)于無砟軌道及部件傷損的描述,梳理工務(wù)安全生產(chǎn)管理系統(tǒng)中的傷損名稱,根據(jù)無砟軌道輸入對象數(shù)據(jù)的類型、規(guī)模等信息完成業(yè)務(wù)建模。之后明確數(shù)據(jù)來源,結(jié)合現(xiàn)行標(biāo)準(zhǔn)規(guī)范中無砟軌道結(jié)構(gòu)及部件的定義和命名規(guī)則,研究確定無砟軌道結(jié)構(gòu)及部件標(biāo)準(zhǔn)化命名、典型傷損規(guī)范化名稱及各級傷損規(guī)范化描述,明確海量異構(gòu)數(shù)據(jù)的處理方式。
編碼是對編碼對象的屬性進(jìn)行規(guī)則化的過程。針對編碼對象的不同存在形式和不同結(jié)構(gòu)類型的屬性信息,根據(jù)編碼規(guī)范,可生成編碼文件。
編碼結(jié)構(gòu)可完全描述編碼對象的所有屬性,共4組11級若干字段。4組指的是字典碼、特征碼、信息碼和圖像碼。11級指的是對象種類、對象名稱、對象類型、對象類別、對象位置、定位信息、屬性特征、病害等級、順位信息、檢測信息和圖像信息。若干字段根據(jù)典型結(jié)構(gòu)物類別各自采用具體不同的定義。無砟軌道襯砌對象標(biāo)準(zhǔn)碼的組成架構(gòu)見圖2。無砟軌道節(jié)點(diǎn)屬性見表1。
表1 無砟軌道節(jié)點(diǎn)屬性
圖2 無砟軌道襯砌對象標(biāo)準(zhǔn)碼組成架構(gòu)
1)對象種類:包括無砟道床、鋼軌、扣件、無砟軌道設(shè)施。
2)對象名稱:主要包括裂縫、離縫、缺損、粉化、移位、鋼棒竄出、翻漿冒泥、失效、失穩(wěn)、磨耗、壓潰、壓陷(或凹陷)、波浪磨耗、接觸疲勞裂紋(剝離裂紋)及其引起的掉塊和疲勞斷裂、缺失、損壞、移位等。
3)對象類型:橫向裂縫、斜向裂縫、預(yù)裂縫、八字裂縫、豎向貫通裂縫、龜裂紋、裂損/龜裂掉塊、反射裂紋、拉裂、接縫離縫、砂漿層離縫、錨穴封端離縫、擋肩缺損、局部破損、上拱、彈條缺失等。
4)對象類別:CRTSⅠ型板式無砟道床、CRTSⅡ型板式無砟道床、CRTSⅢ型板式無砟道床、雙塊式無砟道床、道岔區(qū)軌枕埋入式無砟道床、道岔區(qū)板式無砟道床、50 kg/m鋼軌、60 kg/m鋼軌、75 kg/m鋼軌、WJ‐7型扣件、WJ‐8型扣件、W300‐1型扣件、SFC型扣件等。
5)對象位置:預(yù)應(yīng)力軌道板、普通軌道板/道岔板、軌枕/岔枕、混凝土擋肩、凸形擋臺、底座、水泥乳化瀝青砂漿層、凸形擋臺周圍填充樹脂、板間接縫、支承層、底座板、側(cè)向擋塊、自密實(shí)混凝土充填層、道床板、軌枕界面、找平層、鋼軌全長、軌身局部區(qū)域、夾板接頭、彈條、螺栓等。
6)定位信息:包括鐵路局名稱、工務(wù)段名稱、線路名稱、線路區(qū)間名稱、線別、行別、地段、軌道板編號、線路里程、相對里程、軌枕信息號、軌道板側(cè)、軌側(cè)、距線路中線距離、距軌道中線距離等。
7)屬性特征:包括平均寬度、最小寬度、最大寬度、指定點(diǎn)寬度、寬度等級、長度、深度、面積、面積比、形態(tài)、與軌道方向夾角、變形、影響范圍、弦長、幅值等。
8)病害等級:包括傷損等級、傷損關(guān)注程度、是否新增、是否發(fā)展、是否整治等。
9)順位信息:主要包括節(jié)段編號、通道號、傷損順位號、樣本順位號。
10)檢測信息:主要包括檢測設(shè)備、檢測時間、檢測人員。
11)圖像信息:主要包括圖像高度、圖像寬度、圖像通道數(shù)、像素尺度、圖像類型、圖像格式、圖像名稱、編碼文件名稱、標(biāo)注文件名稱、左上坐標(biāo)x、左上坐標(biāo)y、傷損長、傷損寬、傷損像素坐標(biāo)等。
編碼文件包括編碼對象的樣本圖像和屬性文件。命名方式為:檢測時間_無砟軌道編碼_對象名稱_對象類型_序號_圖像類型.后綴。
無砟軌道知識圖譜數(shù)據(jù)層是由實(shí)體-關(guān)系-實(shí)體三元組知識構(gòu)成的,其主要工作包括數(shù)據(jù)獲取與標(biāo)注、知識存儲、知識檢索等。對已有無砟軌道數(shù)據(jù)進(jìn)行標(biāo)注;通過構(gòu)建命名實(shí)體,獲取無砟軌道關(guān)鍵實(shí)體和關(guān)鍵信息構(gòu)成三元組知識;按照模式層定義好的概念框架,將三元組知識聯(lián)結(jié)起來并存儲到圖數(shù)據(jù)庫中,實(shí)現(xiàn)知識的快速檢索,最終形成無砟軌道典型傷損知識圖譜。
Synergy HT酶標(biāo)儀(美國BioTeK公司);Mini-PROTEAN Tetra蛋白電泳儀、Trans-Blot SD半干轉(zhuǎn)膜系統(tǒng)(美國Bio-rad公司);Direct-Q超純水儀(美國Millipore公司);5417R高速冷凍離心機(jī)(德國Eppendorf公司);IKA T18 basic勻漿器(德國ULTRATURRAX公司);AX70顯微照相系統(tǒng)(日本Olympus公司);ImageQuant LAS 4000全自動圖像分析系統(tǒng)(美國GE公司)。
1)數(shù)據(jù)獲取與標(biāo)注
無砟軌道典型傷損知識圖譜數(shù)據(jù)是基于海量高清圖片及典型病害樣本的,其中鋼軌和扣件數(shù)據(jù)主要來源于綜合巡檢車、鋼軌探傷車GX‐3型軌道巡檢系統(tǒng)等,無砟道床表觀傷損的數(shù)據(jù)來源于手推運(yùn)行式和電驅(qū)動運(yùn)行無砟道床表觀狀態(tài)智能檢測設(shè)備。此外,還包括人工現(xiàn)場作業(yè)手動拍攝圖片。無砟軌道表觀傷損及鋼軌扣件傷損的典型圖譜見圖3、圖4。
圖3 無砟軌道表觀傷損典型圖譜
圖4 無砟軌道鋼軌扣件傷損典型圖譜
基于無砟軌道傷損圖庫的組織架構(gòu),對于獲取的圖片數(shù)據(jù),根據(jù)標(biāo)注規(guī)范,采用人工或程序半自動的方式標(biāo)注成一組標(biāo)注文件。標(biāo)注是對編碼對象圖片進(jìn)行統(tǒng)一標(biāo)識的過程,最終實(shí)現(xiàn)無砟軌道海量傷損圖像的高效標(biāo)注及處理,構(gòu)建無砟軌道表觀典型傷損圖譜。該標(biāo)注處理過程中對編碼對象圖片進(jìn)行精細(xì)化、目標(biāo)化、字符化、結(jié)構(gòu)化的標(biāo)注處理,生成的標(biāo)注文件包含了編碼對象圖片所有的標(biāo)注內(nèi)容。標(biāo)注內(nèi)容通常以不同結(jié)構(gòu)和文件形式存在,但是都通過標(biāo)注文件進(jìn)行索引關(guān)聯(lián),以此實(shí)現(xiàn)通過編碼文件來索引全部編碼對象的屬性及標(biāo)注數(shù)據(jù)。
無砟軌道表觀傷損標(biāo)注類型包括裂縫、離縫和缺損。裂縫、離縫的標(biāo)注采用像素點(diǎn)涂覆的方式,根據(jù)邊緣特征和像素數(shù)量確定筆觸寬度,標(biāo)注內(nèi)容為像素坐標(biāo)、骨架坐標(biāo)及外接矩形。缺損(掉塊)的標(biāo)注采用閉合多邊形的方式,標(biāo)注內(nèi)容為頂點(diǎn)坐標(biāo)及外接矩形。對于不同對象采用類別索引進(jìn)行區(qū)分,對于非矩形框標(biāo)注的對象,使用不同顏色進(jìn)行示意,見圖5。
圖5 無砟軌道表觀傷損標(biāo)注示例
鋼軌扣件傷損標(biāo)注時,通過Labelimg專用標(biāo)注軟件,在鋼軌傷損區(qū)域進(jìn)行拉框標(biāo)注。傷損類別按照實(shí)際情況標(biāo)注。
對樣本圖片進(jìn)行標(biāo)注后,由于標(biāo)注程序各異,標(biāo)注文件格式包括JSON格式、XML格式、圖片格式、特定像素值灰度圖片或者任意自定義格式,編碼文件通過圖像碼的字段與標(biāo)注文件進(jìn)行關(guān)聯(lián)。
2)知識存儲和檢索
海量無砟軌道表觀傷損知識圖譜數(shù)據(jù)樣本存儲需要借助優(yōu)秀的數(shù)據(jù)庫平臺,完成數(shù)據(jù)的安全、完整和快速存儲,實(shí)現(xiàn)高效組織與檢索。
基于B/S架構(gòu),建立了包含傷損屬性、圖例組織形式、存儲結(jié)構(gòu)等信息的無砟軌道病害圖譜數(shù)據(jù)庫結(jié)構(gòu)框架。數(shù)據(jù)庫服務(wù)器采用多線程、空間占用小、存儲量大、安全性高的MySQL數(shù)據(jù)庫系統(tǒng)。根據(jù)編碼將數(shù)據(jù)存入數(shù)據(jù)庫中,然后對圖譜相應(yīng)字段構(gòu)建索引。數(shù)據(jù)搜索接口可實(shí)現(xiàn)按照索引類別對知識圖譜數(shù)據(jù)和文檔類數(shù)據(jù)進(jìn)行快速檢索。設(shè)計數(shù)據(jù)庫框架,以支撐數(shù)據(jù)處理、數(shù)據(jù)統(tǒng)計與分析以及數(shù)據(jù)的高效檢索,實(shí)現(xiàn)對無砟軌道傷損圖譜結(jié)構(gòu)化數(shù)據(jù)的索引構(gòu)建、檢索結(jié)果展現(xiàn)及集中存儲與管理。
如圖6所示,本文實(shí)現(xiàn)的無砟軌道表觀傷損圖譜數(shù)據(jù)庫管理平臺通過Web 服務(wù)器、數(shù)據(jù)庫服務(wù)器、圖像處理工作站和磁盤陣列存儲設(shè)備協(xié)同工作,從而實(shí)現(xiàn)對病害圖譜樣本的安全統(tǒng)一存儲、查詢及統(tǒng)計等。
圖6 數(shù)據(jù)庫平臺搭建
3)知識圖譜的應(yīng)用
智能識別算法優(yōu)劣依賴于樣本的數(shù)量和特征分布。目前該系統(tǒng)可以識別病害,但是識別精度還有待提高。隨著高速鐵路無砟軌道典型結(jié)構(gòu)物病害圖譜的研究以及海量病害特征庫的建立,可利用更深層的深度學(xué)習(xí)網(wǎng)絡(luò),進(jìn)一步提高識別精度和效果。
重點(diǎn)針對養(yǎng)護(hù)維修人員對無砟軌道傷損結(jié)構(gòu)物及其傷損的命名不規(guī)范、認(rèn)知標(biāo)準(zhǔn)不統(tǒng)一,以及檢測監(jiān)測數(shù)據(jù)種類繁多且規(guī)模大、存儲不規(guī)范等問題,通過對國內(nèi)外知識圖譜的調(diào)研和分析,本文采用知識圖譜構(gòu)建方法,打通數(shù)據(jù)壁壘,建立了高速鐵路無砟軌道典型傷損圖譜。研究了高速鐵路無砟軌道傷損特征庫海量圖片獲取、標(biāo)注、存儲、高效組織與快速檢索技術(shù),完成了模式層和數(shù)據(jù)層的體系構(gòu)建,實(shí)現(xiàn)海量異構(gòu)多源數(shù)據(jù)的協(xié)同分析、規(guī)范管理、有序組織存儲及應(yīng)用,充分挖掘和發(fā)揮海量無砟軌道檢測監(jiān)測數(shù)據(jù)在鐵路基礎(chǔ)設(shè)施管養(yǎng)修過程中潛藏的巨大價值
鐵路無砟軌道傷損特征庫涉及的信息種類繁多、類型復(fù)雜,今后還需對無砟軌道傷損特征庫數(shù)據(jù)關(guān)聯(lián)性開展深入研究,以提高鐵路無砟軌道傷損特征庫自主學(xué)習(xí)、關(guān)聯(lián)性分析水平,為鐵路無砟軌道傷損狀態(tài)評估和定級提供更加完備、有效的決策參考。