曾樹華 黃銀秀 黃昌兵
摘? 要:為解決鋼軌表面?zhèn)麚p檢測問題,提出一種少樣本條件下的鋼軌表面?zhèn)麚p檢測方法。首先,設計樣本隨機組合策略,擴充鋼軌表面?zhèn)麚p數(shù)據(jù)集規(guī)模;其次,引入遷移學習方法,在公開大規(guī)模數(shù)據(jù)集上進行遷移學習訓練,以獲得遷移學習能力,降低對鋼軌表面?zhèn)麚p樣本的需求數(shù)量;最后,加入通道自注意力機制,提高模型的訓練速度。實驗證明,該方法可有效提高鋼軌表面?zhèn)麚p的識別精度。
關鍵詞:少樣本;鋼軌表面?zhèn)麚p;遷移學習;注意力機制
中圖分類號:TP391.4;TP278 文獻標識碼:A 文章編號:2096-4706(2023)19-0134-04
A Method for Detecting Defects in Rail Damage Images with Few Samples
ZENG Shuhua1,2, HUANG Yinxiu3, HUANG Changbing1,2
(1.Hunan High Speed Railway Operation Safety Assurance Engineering Technology Research Center, Zhuzhou? 412006, China;
2.Hunan Vocational College of Railway Technology, Zhuzhou? 412006, China;
3.Hunan Chemical Vocational Technology College, Zhuzhou? 412006, China)
Abstract: To solve the problem of rail surface damage detection, a rail surface damage detection method with few samples is proposed. Firstly, design a sample random combination strategy to expand the scale of the rail surface damage dataset; secondly, introduce transfer learning methods and conduct transfer learning training on publicly available large-scale datasets to obtain transfer learning capabilities and reduce the demand amount for rail surface damage samples; finally, a channel self attention mechanism is added to improve the training speed of the model. Experiments have shown that this method can effectively improve the recognition accuracy of rail surface damage.
Keywords: few sample; rail surface damage; transfer learning; attention mechanism
0? 引? 言
傳統(tǒng)鋼軌圖像缺陷檢測方法關鍵步驟在圖像分割,主要方法有閾值分割、邊緣檢測和區(qū)域生長等。劉琴琴等[1]針對采集的鋼軌表面缺陷圖片灰度不均等問題,利用構(gòu)建的灰度均衡模型對鋼軌表面圖像中像素點的灰度值進行修正,再使用譜殘差模型與相位譜增強缺陷區(qū)域,最后引入Gabor濾波器濾波,分割提取缺陷區(qū)域,此方法能較多保留缺陷區(qū)域的邊緣細節(jié),但實現(xiàn)方法復雜。李曉梅等[2]為了降低實現(xiàn)方法的復雜度,提出將灰度對比圖和形態(tài)學重構(gòu)得到的背景圖相減,由此得到的差分圖,使用最大熵法進行分割,此法在保持一定精度的情況下降低了算法的復雜度。由于背景光照復雜等因素,固定的閾值很難取得理想的圖像分割效果,彭方進等[3]解決自適應閾值方法,采用迭代閾值分割法提取鋼軌表面的缺陷,利用缺陷區(qū)和背景區(qū)的平均值更新迭代的方法,增強了閾值分割的魯棒性。Shi等[4]針對重型鋼軌表面缺陷,通過在不同方向上添加六個模板來彌補Sobel算法在識別中的不足,提升了缺陷的識別率,邊緣檢測算法可以識別鋼軌表面缺陷的輪廓,但對缺陷內(nèi)部信息無法描述,故也有些學者嘗試利用區(qū)域生長法進行分割。
隨著深度學習方法的發(fā)展,不少學者使用深度學習的方法在鋼軌表面?zhèn)麚p圖像分割領域開展了一系列研究工作。劉孟軻等[5]提出以2層卷積神經(jīng)網(wǎng)絡來識別鋼軌表面的圓形、條形缺陷,實現(xiàn)了75%的檢出率;Faghih-Roohi等[6]設計了3層卷積層+最大池化層的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),其對缺陷鋼軌的識別率準確率可達到92.00%;Shang等[7](2018)采用基于Inception-v3結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡檢測缺陷鋼軌表面圖像,也得到92.08%的識別率,盡管這些方法精度較高,但在實踐中無法滿足缺陷定位和實時處理的要求。為了縮短檢測時間,F(xiàn)eng等[8]引入Mobile Net網(wǎng)絡,構(gòu)建了一個基于Mobile Net的骨干網(wǎng)和幾個新的檢測層的檢測網(wǎng)絡,使用兩種不同的Mobile Net架構(gòu)來評估缺陷檢測的性能;蘇燁等[9]進一步引入Faster R-CNN網(wǎng)絡進行鋼軌表面缺陷的檢測,實現(xiàn)了較高速度的檢測。Min等[10]在深度生成模型Soft-Intro-VAE(軟自省變分自動編碼器)的基礎上,提出了一種輕量級的語義分割架構(gòu)DR-VAE,在甘肅定西段100 km實驗鐵路表面缺陷的語義分割,將分割的準確度提升到96.40%。以上研究者在各自的測試數(shù)據(jù)集中都能取得不錯的效果,但在實際應用中其泛化能力不強,究其原因,是有缺陷的鋼軌圖像嚴重欠缺,通過數(shù)據(jù)增強后雖能擴大數(shù)據(jù)庫的規(guī)模,但實際上沒有解決過擬合問題和泛化難題。
元學習給少樣本情況提供了新的思路,元學習利用已有的大規(guī)模數(shù)據(jù)集進行網(wǎng)絡初始訓練,將得到的經(jīng)驗知識快速轉(zhuǎn)移到少樣本的新任務解決,從而加快學習新任務的學習速度,降低其對數(shù)據(jù)規(guī)模的依賴性。元學習通常有兩種思路,一種是通過先期大規(guī)模數(shù)據(jù)訓練,得到一個只需微調(diào)的模型,F(xiàn)inn等[11]提出了一種元學習算法,它與任何使用梯度下降的訓練模型兼容,在小樣本學習中取得了較好的效果。一種是通過先期大規(guī)模數(shù)據(jù)訓練,得到一個只需微調(diào)的初始化參數(shù),Nichol等[12]從一個任務分布中抽取許多任務來訓練元學習模型,得到一個僅需要微調(diào)的初始化參數(shù),加快了新任務的學習速率。本文引入元學習方法解決少樣本下鋼軌傷損圖像的語義分割問題,在公開大規(guī)模數(shù)據(jù)先期進行網(wǎng)絡訓練,將得到的參數(shù)遷移入新的學習中,以期加快訓練速度,降低對樣本的需要量。
1? 方法
1.1? 知識遷移學習
遷移就是為了加快任務A訓練的速度,先期在任務B中進行訓練,以訓練后的模型作為初始點,重新在任務A開始新的學習。通過從已學習的相關任務中轉(zhuǎn)移知識來改進學習的新任務,不僅可以降低訓練的任務量,而且可以解決少樣本數(shù)據(jù)難題。由于獲取鋼軌表面?zhèn)麚p圖片難度很大,且大數(shù)據(jù)標注成本高,故在本文中遷移學習。其學習過程如圖1所示,利用公開的已標注大數(shù)據(jù)庫對神經(jīng)網(wǎng)絡進行預先訓練,如圖1上半部分所示,保存神經(jīng)網(wǎng)絡的卷積層,并將訓練后得到的參數(shù)載入卷積層,即知識遷移,全連接層則由新任務的全連接層所取代,進而構(gòu)成新的訓練模型,如圖1下半部分所示。
1.2? 通道注意力特征提取網(wǎng)絡
1.2.1? 通道注意力機制
如前所述,本文采用知識遷移學習,需要文設計注意力網(wǎng)絡作為特征提取器,提取樣本特征的向量,注意力機制(Attention Module)是一種通用的思想和技術(shù),通過賦予不同的權(quán)重,把注意力集中到重要信息上,進而提高特征提取的準確性。在機器視覺領域常用的注意力機制主要有通道注意力機制和空間注意力機制兩種。本文采取通道注意力模型,模型圖如圖2所示。
通道注意力機制(Channel attention module)有別于空間注意力機制關注空間中的重要特征,而是主要關注通道中的重要特征。輸入特征由最大池化和平均池化得到最大池化特征和平均池化特征。將兩特征圖送入多層感知器MLP,以生成通道注意力Mc。其中通道注意力Mc按式(1)計算:
(1)
其中δ為sigmoid函數(shù),W0、W1分別為多層感知器權(quán)重。
1.2.2? 殘差神經(jīng)網(wǎng)絡
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡都是通過將一系列卷積層與池化層進行堆疊得到的,一般而言,網(wǎng)絡深度越深,越能提取深層次特征信息。但事實上,過深的網(wǎng)絡會帶來網(wǎng)絡“退化”問題:當網(wǎng)絡堆疊到一定深度時,反而會出現(xiàn)深層網(wǎng)絡比淺層網(wǎng)絡效果差的情況。針對網(wǎng)絡深度過深引起的退化問題,殘差網(wǎng)絡被提出,殘差網(wǎng)絡的基本思想是讓網(wǎng)絡的某些層的輸入不再僅依次連接上一層,而是人為添加shortcut隔層連接,上幾層的輸出疊加后F(X) + X作為下層的輸入,這種網(wǎng)絡模型也被稱為殘差模塊,殘差模塊如圖3所示。常用的殘差網(wǎng)絡有兩種,普通殘差模型和瓶頸殘差模型。普通殘差模型適合于層次較少的神經(jīng)網(wǎng)絡,其殘差模塊里有2個相同輸出通道數(shù)的3×3卷積層,每個卷積層后接BN層和ReLU激活函數(shù),然后將輸入直接加在最后的ReLU激活函數(shù)前。網(wǎng)絡層數(shù)較多時常用瓶頸殘差模塊,這種結(jié)構(gòu)由于其通道數(shù)較多,引入了1×1卷積層來調(diào)整輸入的通道數(shù),普通殘差模塊和瓶頸殘差模塊對比如圖4所示。
1.2.3? 通道注意力機制與殘差網(wǎng)絡融合
加入通道注意力網(wǎng)絡主要是為了生產(chǎn)通道注意力,在本文中使用ResNet34作為特征提取器的基本結(jié)構(gòu),并在其中加入通道自注意力。ResNet34網(wǎng)絡是一種比較簡單的ResNet網(wǎng)絡,如圖5所示,其總共有34層,由4大部分組成,包括輸入層、殘差模塊、全局平均池化層、全連接層4部分,其中輸入層64個大小為7×7的卷積核,實現(xiàn)低級特征的提?。缓诵氖侵虚g的殘差模塊,共計18個,每個殘差模塊由兩個大小為3×3的卷積核和一個跨層連接組成;全局平均池化層是在最后一個殘差模塊之后,其作用是將最后一個殘差的輸出進行平均池化,得到一個包含整個圖像信息的全局特征;再由全連接層將全局特征映射到類別分數(shù)上。將注意力模塊應用在ResNet網(wǎng)絡中每個殘差塊之后,還在Conv1卷積層后、池化層前加入注意力模塊。加入通道注意力機制的殘差塊結(jié)構(gòu)如圖6所示。
2? 實驗數(shù)據(jù)集與評價指標
2.1? 實驗數(shù)據(jù)集
為了驗證本算法的性能指標,本文利用ImageNet數(shù)據(jù)集進行遷移學習訓練,ImageNet數(shù)據(jù)集包含1 000種類別的數(shù)據(jù),通過不同類別數(shù)據(jù)的訓練,提高遷移學習能力。然后采用北京交通大學Li老師公開的鋼軌數(shù)據(jù)集RSDDs作為實驗數(shù)據(jù)集[13]。鋼軌數(shù)據(jù)集中包括兩大類數(shù)據(jù),第一類是從快車道捕獲的Type-I數(shù)據(jù)集,第二類是從普通/重型運輸軌道捕獲的Type-II數(shù)據(jù)集,兩個數(shù)據(jù)集的圖像大小規(guī)格不一致,為了統(tǒng)一大小規(guī)格,將其裁剪為統(tǒng)一規(guī)格:200×300像素,共計獲得300張圖片,其中有擦傷、掉塊、疤痕等傷損圖片150張,然后對數(shù)據(jù)集進行平移、縮放等數(shù)據(jù)增強操作,擴充數(shù)據(jù)集2 000張。選取其中的1 800張用作訓練集,200張組成測試集進行網(wǎng)絡訓練。鋼軌表面缺陷圖像如圖7所示。
2.2? 實驗過程與結(jié)果分析
2.2.1? 實驗一:批尺寸(Batch size)影響
Batch size表示訓練模型時一次所選取的樣本數(shù)量,是機器學習中一個重要參數(shù),其大小影響訓練速度和識別準確性,如果批尺寸過小,訓練時間長且花費時間多梯度震蕩嚴重,難以收斂;如果批尺寸過大,容易陷入局部極小值。本文分別設置批尺寸分別是8(綠)、16(紅)、32(藍)是模型的性能,結(jié)果如圖8所示。由圖8可見,綜合性能來看,在三個尺寸中,16為最合適Batch size值。
2.2.2? 實驗二:不同模型影響
分別利用ResNet34原型和加入注意力機制并使用遷移學習的ResNet34,其他參數(shù)設置相同,包括Batch size設置為16,初始學習率設置為0.000 1,迭代次數(shù)設置為30。對比兩種不同方式下的準確率,如表1所示。
由表1可見,加入注意力機制并使用遷移學習后,在其他實驗參數(shù)相同情況下,準確率提升超2%。
3? 結(jié)? 論
為解決鋼軌表面?zhèn)麚p樣本少造成的圖像識別難題,本文提出了一種少樣本條件下的鋼軌傷損圖像缺陷檢測方法,該方法引入遷移學習方法,在ImageNet數(shù)據(jù)集進行遷移學習訓練,以獲得遷移學習能力,降低對鋼軌表面?zhèn)麚p樣本的需求數(shù)量;以ResNet34網(wǎng)絡為基本網(wǎng)絡,并在其中加入通道自注意力,提高有用特征信息比重,降低無用特征信息比重,可進一步降低對樣本數(shù)量的依賴度,提高模型訓練速度。實驗證明相比傳統(tǒng)方法,本文方法在鋼軌表面?zhèn)麚p的識別中,識別精度有所提高。
參考文獻:
[1] 劉琴琴,周慧云,王興洲.基于灰度均衡模型聯(lián)合Gabor濾波器的鋼軌表面缺陷檢測方法 [J].表面技術(shù),2018,47(11):290-294.
[2] 李曉梅,顧桂梅,常海濤.基于灰度對比圖與最大熵的鋼軌圖像分割 [J].鐵道標準設計,2018,62(4):52-56.
[3] 彭方進.一種高魯棒性的鋼軌表面缺陷檢測算法 [J].中國機械工程,2019,30(3):266-270.
[4] SHI T,KONG J Y,WANG X D,et al. Improved Sobel algorithm for defect detection of rail surfaces with enhanced efficiency and accuracy [J].Journal of Central South University,2016,23(11):2867-2875.
[5] 劉孟軻,吳洋,王遜.基于卷積神經(jīng)網(wǎng)絡的軌道表面缺陷檢測技術(shù)實現(xiàn) [J].現(xiàn)代計算機:專業(yè)版,2017(29):65-69+77.
[6] FAGHIH-ROOHI S,HAJIZADEH S,N??EZ A,et al. Deep Convolutional Neural Networks for Detection of Rail Surface Defects [C]//2016 International Joint Conference on Neural Networks.Vancouver:IEEE,2016:2584-2589.
[7] SHANG L D,YANG Q S,WANG J N,et al. Detection of Rail Surface Defects Based on CNN Image Recognition and Classification [C]//2018 20th International Conference on Advanced Communication Technology.Chuncheon:IEEE,2018:45-51.
[8] FENG J H,YUAN H,HU Y Q,et al. Research on deep learning method for rail surface defect detection [J].IET Electrical Systems in Transportation,2020,10(4):436-442.
[9] 蘇燁,李筠,楊海馬,等.基于Faster R-CNN的鋼軌表面缺陷識別研究 [J].電子科技,2020,33(9):63-68.
[10] MIN Y Z,LI Y X. Self-Supervised Railway Surface Defect Detection with Defect Removal Variational Autoencoders [J].Energies,2022,15(10):1-15.
[11] FINN C,ABBEEL P,LEVINE S. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks [J/OL].arXiv:1703.03400 [cs.LG].[2023-03-03].https://arxiv.org/abs/1703.03400v1.
[12] NICHOL A,SCHULMAN J. Reptile:a Scalable Metal earning Algorithm [J/OL].arXiv:1803.02999[cs.LG].[2023-03-03].https://arxiv.org/abs/1803.02999v1.
[13] GAN J R,LI Q Y,WANG J Z,et al. A Hierarchical Extractor-Based Visual Rail Surface Inspection System [J].IEEE Sensors Journal,2017,17(23):7935?7944.
作者簡介:曾樹華(1980—),男,漢族,湖南衡陽人,教授,碩士,主要研究方向:機器視覺、智能控制;黃銀秀(1980—),女,漢族,湖南株洲人,副教授,碩士,主要研究方向:智能控制、網(wǎng)絡控制。黃昌兵(1987—),男,漢族,湖南衡陽人,講師,碩士,主要研究方向:無損檢測、軌道探傷。
收稿日期:2023-03-30
基金項目:湖南省自然科學基金(2020JJ7054)