黃文豪
(長沙理工大學計算機與通信工程學院 湖南省長沙市 410114)
在建筑施工中,鋼筋計數是一個基礎任務,這涉及到施工過程中鋼筋的數量和位置,鋼筋的數量和位置對于建筑結構的穩(wěn)定性和安全性具有至關重要的作用。然而,傳統(tǒng)的手動計數方法存在著效率低下、易出錯等問題,尤其是在大規(guī)模和復雜的建筑工程中,計數難度更大。因此,研究一種高效、精確、自動化的鋼筋計數方法對于提高工作效率、降低人為誤差、提高工程質量具有重要意義。
本文針對我國大多數工地鋼筋計數現(xiàn)狀,提出了一種基于優(yōu)化后的Faster RCNN 為主的鋼筋計數算法模型,使用ResNet101 和ROI Align 分別替換原Faster RCNN 中的VGG16 與ROI pooling,并引入FPN 結構和CBAM 注意力機制,形成Faster RCNN+FPN+ResNet101檢測模型框架。與其它傳統(tǒng)方法相比,該方法具有更高的工作效率和更低的計數誤差,可為鋼筋計數工作帶來便利。
Faster RCNN 是一種先進的基于深度學習的兩階段目標檢測算法[9]。它的中心思維是將目標檢測分為兩個部分:候選區(qū)域提取和目標分類與定位。它采用了深度神經網絡來自動地提取圖像中的信息,并在此基礎上,通過回歸和分類器對每個候選區(qū)域進行分類和定位,這樣就可以確定目標在什么位置以及屬于什么類別。其網絡結構圖如圖1所示。
圖1:Faster RCNN 網絡結構圖
輸入的圖像通過CNN 網絡進行特征提取,獲得對應的特征信息圖。RPN 網絡會在圖上產生一系列的Anchors,這些Anchors 會與輸入的類別進行匹配并得到一組分數,基于這些得分將大量Anchors 舍棄,將適合的Anchors 調整成Proposals。得到一系列候選框后,采用一個分類器和一個回歸器來對每個候選區(qū)域進行類別的劃分和位置的確定,分類器用于確定候選區(qū)域中是否包含目標,回歸器用于精確定位目標的位置。
鋼筋成捆的端面圖中,由于鋼筋橫截面比較小,數量大且密度高,給檢測帶來了許多困難。結合這些特點,對Faster RCNN 以及檢測模型主要有以下改進:使用ResNet101 和ROI Align 分別替換原Faster RCNN 中的VGG16 與ROI pooling;利用FPN 結構來融合不同尺度下的圖片信息;對特征圖引入CBAM 注意力通道機制。
1.2.1 ResNet101
ResNet101 是一種深度神經網絡,它的深度有101層,主要特點是它使用了一種稱為殘差學習的技術,可以幫助網絡訓練更深的層數而不會出現(xiàn)梯度逐漸衰減的問題。對于小目標檢測任務,使用ResNet101 取代原算法中的特征信息提取部分,主要有以下優(yōu)勢:
特征提取能力強:能夠在不失去分辨率的情況下,逐層提取不同層次的特征。這對于鋼筋數量檢測任務非常有幫助,因為鋼筋端面都是比較小的目標,通常需要更加細致的特征提取才能夠識別出來。
支持多尺度檢測:可以很容易地實現(xiàn)多尺度檢測,經過在網絡中增加多個尺度的特征圖,可以檢測到不同尺度的目標。對于小目標檢測任務,這種多尺度的檢測方式可以更好地適應不同大小的目標。
魯棒性強:更加穩(wěn)定可靠,因為小目標往往容易被復雜的背景、噪聲和遮擋情況所干擾,而它可以處理一些鋼筋圖片背景較復雜、噪聲影響較大的情況。
1.2.2 FPN
FPN 是一種特征金字塔結構,它能夠在不同尺度下獲取圖片信息特征,從而識別不同大小的物體。FPN結構主要由兩部分組成:自下而上(bottom-up)的特征提取網絡和自上而下(top-down)的特征融合網絡。自下而上的特征提取網絡通常采用常見的卷積神經網絡(CNN)結構。自上而下的特征融合網絡則從高層特征圖開始,逐層向下生成一系列金字塔狀的特征圖,通過上采樣和融合的方式將高層語義信息和低層細節(jié)信息結合起來,得到尺度不同但語義信息豐富的特征圖。
在鋼筋檢測中引入FPN 結構具有以下優(yōu)勢:
多尺度特征提?。篎PN 可以同時獲取不同尺度的圖片信息,這使得網絡能夠更好地檢測鋼筋。因為小物體在圖像中往往是比較模糊的,需要在不同尺度下進行特征提取才能更準確地檢測。
聯(lián)合特征:FPN 通過跨層連接將不同層級的特征進行聯(lián)合,這種跨層連接的方式可以讓不同層級的特征進行信息交流和共享。
目標識別:FPN 可以在不同層級的特征圖上進行目標識別,這使得網絡能夠更好地檢測小物體,因為小物體往往不僅僅是在圖像中的某個位置出現(xiàn),還需要通過周圍的上下文信息進行識別。
1.2.3 CBAM 注意力模塊
CBAM 是一種用于卷積神經網絡的注意力機制,它能夠幫助神經網絡學習更好的特征,并提高分類和檢測任務的性能。CBAM 由通道注意力模塊和空間注意力模塊兩部分組成[5]。
通道注意力模塊用于自適應地選擇不同通道的特征圖,以幫助網絡學習更加準確和具有代表性的特征,計算公式如下:
式中,Mc為第c 個通道的全局平均特征圖,ac為第c 個通道的激活值,Mc'為第c 個通道的注意力特征圖,Mc''為所有通道的注意力特征圖的平均值,H 和W 分別為輸入特征圖的高度和寬度,fij,c為輸入特征圖中在位置(i,j)處的第c 個通道的特征值。
空間注意力模塊用于自適應地選擇不同位置的特征圖,以進一步提高網絡的表現(xiàn)力和準確性,計算公式如下:
式中,Ms與as分別為空間注意力模塊的特征圖和激活值,Ms'為空間注意力特征圖,f為輸入特征圖,W2和b2分別表示空間注意力模塊的權重和偏置,sigmoid為Sigmoid 激活函數。
最終CBAM 模塊的輸出結果為:
1.2.4 ROI Align
ROI Align 是一種用于在深度學習中處理圖像目標檢測的技術。首先,將圖像輸入卷積神經網絡獲取圖像信息特點,得到特征圖。接下來對每個ROI 進行如下處理:根據ROI 的坐標,在特征圖上定位ROI 的方位信息,再將ROI 均勻分成固定大小的格子,并在每個格子內插值計算出該格子內的特征值,這里采用的是雙線性插值,即在相鄰四個格點的值中加權插值得到目標點的值。最后,將得到的所有格子內的特征值拼接在一起作為輸出。
在Faster RCNN 中進行ROI 池化操作,會將ROI劃分成固定大小的網格,再對每個網格內的特征值進行池化操作。然而,這種方法會導致ROI 與特征圖之間的對齊問題,進而影響目標檢測的準確性。相比之下,ROI Align 則采用雙線性插值的方法,能夠更加精準地對齊特征圖中的像素。此外,ROI Align 的輸出是由多個格子內的特征值拼接而成,而不是簡單地選取一個最大值。因此,在Faster RCNN 中采用ROI Align 可以更準確地對齊ROI 與特征圖之間的像素,避免了ROI 池化操作中因對齊不準確而導致信息丟失的問題,從而提高了目標檢測的準確性。
硬件配置:內存為16GB,GPU 為NVIDIA RTX 3060,CPU 為Intel Core i9-11900K。
軟件環(huán)境:操作系統(tǒng)為Ubuntu 20.04.2 LTS, IDE為PyCharm2018.3.7,Python 版本為Python3.9,深度學習框架為TensorFlow 2.5,CUDA 版本為CUDA11.1,cuDNN 版本為cuDNN8.0。
通過手機拍攝、網絡上獲取等方式,最開始獲取了500 多張鋼筋端面圖片用于數據集的制作,每張圖片中包含大量的鋼筋。數據集部分樣本如圖2所示。
圖2:部分數據集樣本
隨后通過數據增強,如:翻轉、裁剪、鏡像等操作,將數據集擴充到了2000 多張。使用labelImg 對獲取到的鋼筋圖片進行標注,由于需要實現(xiàn)的是鋼筋數量檢測,所以標簽的類別就只有一個rebar,代表鋼筋。
為了證明所提出的改進后的鋼筋計數模型是有效的,進行了Faster RCNN 與一階段目標檢測算法YOLOv3 應用在鋼筋計數上面的比較,以及優(yōu)化后的鋼筋計數模型與原Faster RCNN 實驗的比較。改進比較采用的是逐步加入改進模塊與原算法實驗結果進行比較,實驗結果如表1所示。
表1:實驗結果對比
由實驗結果可以看到,對于鋼筋數量檢測,原Faster RCNN 比YOLOv3 的mAP 要高3.45%, 使用ResNet101 代替VGG16 作為特征提取網絡后,mAP 提升了3.45%,再引入FPN 結構后mAP 提升了1.72%,CBAM 注意力機制可使mAP 提升0.87%,采用ROI Align 來進行池化操作后使mAP 提升了1.72%。
在實驗過程中,YOLOv3 的檢測速度是要更快一些的,這是因為一階段目標檢測算法檢測速度快的特性,然而檢測的準確度還是Faster RCNN 更勝一籌。且在工地的鋼筋數量檢測實際場景中,這些速度方面的差異幾乎可忽略不計,而對于精度的要求反而更高。在改進模塊中,使用ResNet101 來作為特征提取網絡所帶來的改進是最明顯的,mAP 提升了3.45%,VGG16 只有16 層,而ResNet101 有101 層,具有更深的網絡結構,能夠更好地捕獲圖像中的一些細節(jié)信息。此外,ResNet101 采用了殘差學習的思想,可以更好地處理梯度逐漸衰弱和梯度爆炸的問題,從而提高了特征提取的效果。分別引入FPN、CBAM、ROI Align 改進模塊也從不同程度上提升了鋼筋數量檢測的精確度,最終改進后的方法比原Faster RCNN 的mAP 提升了7.76%,證明了提出的改進方法是切實有效的。鋼筋計數效果圖如圖3所示。
圖3:鋼筋計數效果圖
本文提出了一種基于改進Faster RCNN的鋼筋數量檢測方案,改進措施包括:使用ResNet101 和ROI Align分別替換原Faster RCNN 中的特征提取網絡VGG16 與池化層ROI pooling,利用ResNet101 更深的網絡結構以及殘差學習的思想,能夠更好地提取圖像中的信息,處理梯度爆炸的問題,使用ROI Align 代替原來的ROI 池化操作,通過更精細的插值方式,減少信息損失和不對齊的問題,從而增強了特征提取的效果;引入FPN 結構,融合不同尺度的特征信息,在不丟失物體的空間信息的情況下,提高對小目標物體的檢測精度;加入CBAM注意力機制,提高重要通道的表征能力,同時抑制不重要位置的干擾,增強了檢測的精度和魯棒性。
實驗結果表明,使用Faster RCNN 算法來進行鋼筋計數比使用一階段目標檢測算法,如YOLOv3,準確性要更高。改進后的鋼筋數量檢測模型相比于原Faster RCNN 來進行鋼筋計數的檢測結果有明顯的提升,mAP提升了7.76%,證明了該方法是有效的。
在實驗的過程中也發(fā)現(xiàn)了一個問題,對于目前所有的應用到鋼筋數量檢測的算法中,大部分在檢測鋼筋端面比較整齊,鋼筋擺放規(guī)則的圖片時,檢測效果比較良好。但是當應用到一些較復雜的環(huán)境中時,比如鋼筋端面長短不一,擺放雜亂,鋼筋上有遮擋等情況時,檢測效果會有所降低。如圖3 中,未檢測出的兩根鋼筋,一根處在圖片邊緣位置,且端面有變形,另一根在鋼筋的端面有一顆螺絲和鐵片遮擋。所以說,如何在復雜的環(huán)境下進行鋼筋的識別與檢測,這個問題還有待研究,也是目前存在方法有待改進的地方。