周華平,鄭 銳
(安徽理工大學 計算機科學與工程學院,安徽 淮南 232001)
目前我國在煤礦開采、運輸以及人員調度過程中,有軌電機車的輔助運輸發(fā)揮著重要作用,但是礦井下環(huán)境復雜,電機車造成的人員安全事故頻發(fā),造成惡劣的社會影響,井下電機車無人駕駛技術成為今后發(fā)展的必然趨勢,而對列車前方軌道高效準確的識別,是實現無人駕駛技術的關鍵任務之一.煤礦井下環(huán)境復雜,軌道周圍時常有碎石、積水等障礙物,又因為井下缺少光照以及巷道內燈光照射不均勻,導致井下軌道圖像細節(jié)模糊、對比度低等特點,上述情況使得軌道檢測變得困難.使用攝像頭采集圖像進行軌道的實時語義分割可以協(xié)助電機車感知前方的巷道環(huán)境,使其具備行進方向上的環(huán)境感知能力,提高煤礦生產過程中的生產效率.
當前對于軌道檢測的研究,傳統(tǒng)方法主要是基于手工設計特征[1-3],對軌道圖像進行處理,手工提取軌道特征.但是手工設計軌道特征的檢測方法大部分只能實現在軌道環(huán)境較為理想的情況下的檢測工作,當實際情況較為復雜時,很難提取出軌道特征,并且無法在光照不均勻,軌道環(huán)境模糊的情況下進行檢測.因此傳統(tǒng)軌道檢測方法在環(huán)境復雜時具有局限性,無法適用于井下環(huán)境的軌道檢測工作.
近年來,隨著深度學習技術的快速發(fā)展,研究人員開始探索將深度學習技術引入軌道檢測領域,目前利用深度學習進行道路車道線檢測算法[4-8]的研究較多,其特征結構與軌道十分相似,而直接應用到軌道檢測的研究相對較少.Neven等[9]提出將每個車道視為一個實例,進行端到端訓練,將車道檢測問題轉化為實例分割問題,使車道檢測過程中遇到道路平面變化時具有魯棒性.Pan等[10]提出空間卷積神經網絡,將傳統(tǒng)的深度逐層卷積概括為特征映射中的逐片卷積,從而實現了一層中跨行、跨列的像素之間的信息傳遞,結果表明,神經網絡能夠學習結構之間的空間關系,顯著提高了性能.韓江洪等[11]提出在空間卷積神經網絡的基礎上,引入不同擴張率的擴張卷積,以此來改善網絡整體的感受野,從而提高對具有大尺度特點的軌道特征的檢測,然而由于計算量太大,無法滿足實時性要求.衛(wèi)星等[12]提出一種改進雙邊分割深度學習網絡,改進了原網絡的金字塔注意力模塊以及通道注意力融合模塊,實驗表明,檢測精度有一定的提升,可以有效識別軌道區(qū)域.
語義分割作為計算機視覺重要組成部分,如今已經廣泛應用到了人們生產生活當中,特別在無人駕駛等領域,越來越多的語義分割方法在實際的使用中得到檢驗,使其日益成熟,這些方法在許多城市街道圖像數據集上取得了良好的效果.Romera等[13]提出了一個能夠實時運行的深度架構,使用了剩余連接和分解卷積,以保持高效的同時保持較好的準確性.Mehta等[14]提出了一種基于擴張卷積的高效空間金字塔模塊(ESP),使其在計算、內存和精度方面都有高效的表現.Wu等[15]提出一種新的上下文引導網絡(CGNet),該網絡可以有效地學習局部特征和周圍上下文的聯(lián)合特征,通過周圍上下文特征進一步改進聯(lián)合特征,從而提高網絡的實時性和準確率.Li等[16]提出網絡從一個單一的輕量級骨干網絡出發(fā),通過子網絡和子級聯(lián)分別聚合鑒別特征,減少參數數量的同時,仍然獲得了足夠的感受野,增強了模型的學習能力,在速度和分割性能之間達到了平衡.BiSeNet( Bilateral Segmentation Network)[17]將分割任務分成兩個并行的模塊(空間路徑模塊和上下文路徑模塊),兼顧了高級特征和感受野的同時顯著提高了網絡的檢測速度.
綜上所述,由于基于手工設計特征的軌道檢測方法具有一定的局限性,煤礦井下軌道識別從最初采用手工設計特征的檢測方式逐漸開始采用深度學習技術.目前,利用深度學習技術的煤礦井下軌道檢測的研究不多,現有研究存在實時性較差以及沒有足夠重視軌道連續(xù)長條形這一特殊結構.雖然語義分割網絡BiSeNet具有良好的實時性,并在分類能力和感受野之間取得較好的平衡,但由于并行分支之間缺少信息交流,其在具有長條形結構特點的軌道檢測任務中不能達到最好的效果.
因此,本文提出一種適用于煤礦井下軌道檢測的改進BiSeNet實時語義分割網絡.首先描述改進后的分割網絡整體結構及其與原雙邊分割網絡之間的區(qū)別,重點闡述提出的子網絡特征融合模塊在上下文路徑中的作用.其次重點描述了用于將不同深度的特征進行聚合的子網絡特征融合模塊,詳細描述子網絡特征融合模塊的結構.最后進行實驗驗證,對采集的煤礦井下軌道圖像數據進行標注,制作煤礦井下軌道環(huán)境數據集,將改進網絡與原網絡以及現行2種代表性的語義分割網絡進行對比分析.
語義分割技術作為計算機視覺的主要任務之一,它是基于圖像的像素層面給圖像某些區(qū)域打上對應的語義標簽.近年來為實現語義分割實時性的要求,實時語義分割模型的加速取得一定進展,但目前主流的實時語義分割模型加速方法都是折中精度以求速度,如通過圖像處理,對原圖進行裁剪或直接改變原圖的尺寸,來限定網絡輸入大小,從而降低計算復雜度.盡管這些方法在提升網絡速度方面簡單而有效,但是空間細節(jié)的損失還是會影響檢測效果,尤其是邊界部分,從而導致度量和可視化的精度下降.
雙邊分割網絡(BiSeNet)包含兩個組件,分別是空間路徑(Spatial Path,SP)與上下文路徑(Context Path,CP),前者通過獲取更多的低級特征來解決深度網絡存在空間信息缺失問題,后者主要解決感受野縮小的問題.雙邊分割網絡如圖1所示.
圖1 雙邊分割網絡
改進BiSeNet的語義分割網絡模型總體結構也分為兩個分支:空間路徑(Spatial Path,SP)與上下文路徑(Context Path,CP).SP模塊用于獲取高分辨率特征圖,得到較為精確的空間信息.其結構由3層卷積層構成,每一層都包含一個步長為2的卷積層,然后進行批量標準化處理和ReLU非線性激活,經過此路徑輸出的圖像尺寸是原始圖像的1/8.
CP模塊使網絡獲得較大的感受野.為保證實時性,提高計算計算速率,主干網絡采用淺層殘差網絡(Residual Network-18,ResNet-18),作為輕量特征提取網絡,ResNet-18可以進行快速下采樣操作從而獲得較大感受野.改進BiSeNet的語義分割網絡模型如圖2所示.在實時雙邊語義分割網絡結構基礎上,針對井下軌道呈現長條形結構等特點,提出用于將不同深度的特征進行聚合的子網絡特征融合模塊,進一步對高級特征進行處理,使高級特征得到精煉,同時融合主干網絡各階段相同尺寸的特征圖,使上下文路徑模塊相對擁有更多低層特征和空域信息,保留軌道結構的空間細節(jié)信息,提升其對如軌道這種大尺度目標和精細結構邊緣的判斷能力.
圖2 網絡模型整體結構
子網絡特征融合模塊將主干網絡的輸出作為輸入,精煉特征同時進一步提升網絡性能,接著在子網絡特征融合模塊尾部追加一個全局平均池化層(Global Average Pooling,GAP)來獲取較大的感受野,之后使用注意力優(yōu)化模塊(Attention Refinement Module,ARM),ARM通過全局平均池化獲取原始圖像全局語境的基礎上,進一步計算注意力向量以指導特征學習,繼而通過雙線性插值上采樣,使特征圖尺寸與SP分路特征相同大小.通過特征融合模塊(Feature Fusion Module,FFM),連接空間路徑和上下文路徑輸出的特征,接著通過批歸一化平衡特征的尺度,將相連接的特征池化為一個特征向量,并計算一個權重向量,這一權重向量可以重新加權特征以實現結合SP與CP的特征輸出.
井下軌道具有長結構的形狀特點,對于此類形狀的檢測需要較大感受野以及更多的低層特征和空間信息.語義分割任務中,空域金字塔池化(SPP)模塊經常被用于解決高層特征,其被用于抽取高層語義上下文信息并提升感受野,然而,SPP模塊很耗費時間.
運用主干網絡輸出的上采樣結果代替高層操作,使用新增的子網絡特征融合模塊來融合主干網絡各階段特征,并精細化特征圖.子網絡采用與主干網絡相同的輕量級特征提取網絡,不同于SPP模型,子網絡使特征圖在較大分辨率下進行了細化,同時學習了亞像素的細節(jié).
如圖3所示,在主干網絡16倍下采樣之后,將其輸出的特征圖通過雙線性插值進行4倍上采樣,從而使輸出的特征圖尺寸與原圖像經過4倍下采樣的特征圖尺寸相同,之后通過橫向連接,將這些同尺寸的特征圖進行拼接得到320通道的圖片樣本,再通過一層尺寸為3×3,步長為1,邊緣像素填充為1的卷積層,將通道數量壓縮至64,從而輸入到子網絡特征融合模塊進行下一步的下采樣操作,也就是可以看作一個從粗尺度到細尺度的像素分類.
圖3 子網絡特征融合模塊
橫向連接在每一階段層級進行語義和空間信息的融合,也就是主干網絡的某個階段輸出是子網絡對應階段的輸入.子網絡之后的每一步結果都與主干網絡同一階段特征進行融合,并通過相應的卷積層來有效降低特征的通道數,使子網絡擁有更多的語義和空域信息.橫向連接可以看作是將粗尺度和精細尺度的特征表達進行聚合,通過將大小相同的層級結合起來,可以保持感受野和高維結構細節(jié)信息,有利于對軌道長條形結構特點的識別.
最后經過3次下采樣得到最終高級特征圖.子網絡特征融合模塊使上下文路徑可以在不增加過多計算成本的情況下充分利用分辨率較大的低層特征,傳遞融合了更多的空域信息來進行語義理解,從而在與空間路徑的結合時達到更好的效果,提升網絡對井下軌道這類大尺度目標的檢測能力.
為驗證改進網絡對井下環(huán)境圖像分割的有效性,通過統(tǒng)計平均交并比(Mean Intersection over Union,MIoU)、像素精度(Pixel Accuracy,PA)、平均像素精度(Mean Pixel Accuracy,MPA)3個指標來評價模型的綜合性能.假定圖像中分割類別有k+1類(包括k個目標類和1個背景類),pij(False Positives)表示本屬于i類但被預測為j類的像素數量,pji(False Negatives)表示本屬于j類但被預測為i類的像素數量,pii(True Positives)表示真實像素數量.
像素精度定義如下:
平均像素精度定義如下:
平均交并比定義如下:
其中:式(1)表示圖像中分類正確的像素點數和所有的像素點數的比例;式(2)表示每一類分類正確的像素點數和該類的所有像素點數的比例然后求平均值;式(3)表示圖像中預測區(qū)域和實際區(qū)域交集除以預測區(qū)域和實際區(qū)域的并集.
獲取井下電機車車頂前部的大華攝像儀視頻數據,通過smartplayer視頻播放軟件對視頻數據進行截取,可以得到井下巷道環(huán)境以及軌道圖像數據.過多單一場景下的圖像數據,會造成數據冗余、圖像差異性小等因素從而導致網絡泛化能力差,因此,在截取軌道圖像數據時,盡量截取多場景下、差異性大的軌道圖像,對截取到的光線過強或過弱的,以及模糊不清的圖像進行去除,避免對網絡訓練造成干擾.最后在總共256G的視頻數據中獲得1 500幀多場景、具有代表性、圖片大小為960×720的圖像數據.
使用標注軟件labelme對軌道圖像進行標注,根據井下巷道環(huán)境,數據集的圖像標注區(qū)域有左安全區(qū)、左導軌、中間區(qū)、右導軌和右安全區(qū),數據集標注區(qū)域如圖4所示,圖像其余未標注部分默認為背景.標注后圖像不同區(qū)域會被不同顏色覆蓋代表不同標簽,并記錄不同顏色RGB值及其所代表的標簽,標注色對應的RGB值如表1所示.將數據集按7∶2∶1的比例劃分訓練集、測試集和驗證集,其中訓練集有1 050張,測試集有300張,驗證集有150張.
圖4 井下軌道環(huán)境標注
表1 各類別對應標注色
改進BiSeNet的煤礦井下軌道檢測算法在win10+Intel(R)Core(TM)i7-9700 3.0GHz處理器+32GB內存+PyCharm+NVIDIATeslap100 16GB顯卡+CUDA10.2+opencv4.0的軟硬件平臺上使用在井下采集并標注后的列車前方軌道環(huán)境數據集進行訓練,采用resnet-18作為主干網絡并初始化參數,設置學習率為0.002 5,衰減率為0.995,訓練批次設置為1 000,批處理大小設置為12.
改進網絡和原網絡訓練過程中,在數據集上的平均交并比變化曲線如圖5所示,隨著迭代次數增加平均交并比逐漸升高然后趨于穩(wěn)定,最后原網絡的平均交并比穩(wěn)定在69.5%,改進網絡達到了72.6%.
圖5 實驗對比
為驗證改進網絡對井下軌道環(huán)境的圖像分割優(yōu)勢,將改進后算法與其他2種當前具有代表性語義分割網絡(DFANet,CGNet)在同一軌道圖像數據集下,采用相同的訓練參數進行訓練,并對訓練結果進行對比測試.
不同網絡在測試集中,對每一種分割目標的交并比測試結果統(tǒng)計如表2所示.
表2 不同方法對分割目標的交并比對比
對比不同方法在每一類分割目標上的交并比測試結果可知,改進網絡在所有分割目標上均取得最高的交并比,達到最好的效果.對左側安全區(qū)、右側安全區(qū)、中間區(qū)、左導軌和右導軌五種類別的語義分割,分別達到了71.7%、72.4%、75.6%、69.2%、66.4%和72.3%的交并比.因此改進網絡對井下軌道環(huán)境圖像中的各類目標檢測具有精度上的優(yōu)勢.
對4種網絡進行綜合對比測試,各網絡的平均交并比、像素進度、平均像素精度和檢測速率4個方面的表現結果如表3所示.
表3 不同方法性能指標對比
分析表3所展示的對比結果可以看出,在井下軌道環(huán)境圖像語義分割精度上,改進網絡在平均交并比、像素精度和平均像素精度上均具有明顯優(yōu)勢,例如與原BiSeNet相比,在平均交并比上提高了6.3%,在像素精度上提高了5.5%,在平均像素精度上提高了7.1%,總體精度上得到了明顯的提升.在檢測速率上,改進網絡檢測一幀圖像的平均時間需要23ms,幀率達到42幀/s,幀率略低于原BiSeNet,也低于對實時性特別優(yōu)化的DFANet網絡.實驗結果表明改進網絡在增加較少檢測時間的情況下,在檢測精度上相較于其他兩種實時語義分割網絡有較為明顯的提高,具有更好的分割效果.
針對井下軌道及軌道周圍環(huán)境檢測問題,提出了一種基于實時雙邊語義分割網絡的檢測網絡.該網絡在原網絡的結構基礎上,在其上下文路徑上添加了子網絡融合模塊,充分利用網絡內低級特征的同時進一步精細化特征圖.實驗結果表明,該網絡在采集到的井下軌道環(huán)境數據集上達到了72.8%的平均交并比,同時達到42幀/s的檢測速率,在檢測精度上相比于其他實時語義分割網絡具有明顯優(yōu)勢,基本滿足對井下軌道環(huán)境的實時語義分割.今后可以采用更高效的實時語義分割模型針對井下軌道環(huán)境進行改進,同時擴充井下軌道環(huán)境數據集,以達到更好的井下軌道檢測效果.