基于改進Faster RCNN的鋼筋數量檢測

2023-05-05 03:40:02黃文豪

電子技術與軟件工程 2023年2期

黃文豪

（長沙理工大學計算機與通信工程學院湖南省長沙市 410114）

在建筑施工中，鋼筋計數是一個基礎任務，這涉及到施工過程中鋼筋的數量和位置，鋼筋的數量和位置對于建筑結構的穩(wěn)定性和安全性具有至關重要的作用。然而，傳統(tǒng)的手動計數方法存在著效率低下、易出錯等問題，尤其是在大規(guī)模和復雜的建筑工程中，計數難度更大。因此，研究一種高效、精確、自動化的鋼筋計數方法對于提高工作效率、降低人為誤差、提高工程質量具有重要意義。

本文針對我國大多數工地鋼筋計數現(xiàn)狀，提出了一種基于優(yōu)化后的Faster RCNN 為主的鋼筋計數算法模型，使用ResNet101 和ROI Align 分別替換原Faster RCNN 中的VGG16 與ROI pooling，并引入FPN 結構和CBAM 注意力機制，形成Faster RCNN+FPN+ResNet101檢測模型框架。與其它傳統(tǒng)方法相比，該方法具有更高的工作效率和更低的計數誤差，可為鋼筋計數工作帶來便利。

1 檢測模型與改進

1.1 Faster RCNN原理結構

Faster RCNN 是一種先進的基于深度學習的兩階段目標檢測算法[9]。它的中心思維是將目標檢測分為兩個部分：候選區(qū)域提取和目標分類與定位。它采用了深度神經網絡來自動地提取圖像中的信息，并在此基礎上，通過回歸和分類器對每個候選區(qū)域進行分類和定位，這樣就可以確定目標在什么位置以及屬于什么類別。其網絡結構圖如圖1所示。

圖1：Faster RCNN 網絡結構圖

輸入的圖像通過CNN 網絡進行特征提取，獲得對應的特征信息圖。RPN 網絡會在圖上產生一系列的Anchors，這些Anchors 會與輸入的類別進行匹配并得到一組分數，基于這些得分將大量Anchors 舍棄，將適合的Anchors 調整成Proposals。得到一系列候選框后，采用一個分類器和一個回歸器來對每個候選區(qū)域進行類別的劃分和位置的確定，分類器用于確定候選區(qū)域中是否包含目標，回歸器用于精確定位目標的位置。

1.2 改進部分

鋼筋成捆的端面圖中，由于鋼筋橫截面比較小，數量大且密度高，給檢測帶來了許多困難。結合這些特點，對Faster RCNN 以及檢測模型主要有以下改進：使用ResNet101 和ROI Align 分別替換原Faster RCNN 中的VGG16 與ROI pooling；利用FPN 結構來融合不同尺度下的圖片信息；對特征圖引入CBAM 注意力通道機制。

1.2.1 ResNet101

ResNet101 是一種深度神經網絡，它的深度有101層，主要特點是它使用了一種稱為殘差學習的技術，可以幫助網絡訓練更深的層數而不會出現(xiàn)梯度逐漸衰減的問題。對于小目標檢測任務，使用ResNet101 取代原算法中的特征信息提取部分，主要有以下優(yōu)勢：

特征提取能力強：能夠在不失去分辨率的情況下，逐層提取不同層次的特征。這對于鋼筋數量檢測任務非常有幫助，因為鋼筋端面都是比較小的目標，通常需要更加細致的特征提取才能夠識別出來。

支持多尺度檢測：可以很容易地實現(xiàn)多尺度檢測，經過在網絡中增加多個尺度的特征圖，可以檢測到不同尺度的目標。對于小目標檢測任務，這種多尺度的檢測方式可以更好地適應不同大小的目標。

魯棒性強：更加穩(wěn)定可靠，因為小目標往往容易被復雜的背景、噪聲和遮擋情況所干擾，而它可以處理一些鋼筋圖片背景較復雜、噪聲影響較大的情況。

1.2.2 FPN

FPN 是一種特征金字塔結構，它能夠在不同尺度下獲取圖片信息特征，從而識別不同大小的物體。FPN結構主要由兩部分組成：自下而上（bottom-up）的特征提取網絡和自上而下（top-down）的特征融合網絡。自下而上的特征提取網絡通常采用常見的卷積神經網絡（CNN）結構。自上而下的特征融合網絡則從高層特征圖開始，逐層向下生成一系列金字塔狀的特征圖，通過上采樣和融合的方式將高層語義信息和低層細節(jié)信息結合起來，得到尺度不同但語義信息豐富的特征圖。

在鋼筋檢測中引入FPN 結構具有以下優(yōu)勢：

多尺度特征提?。篎PN 可以同時獲取不同尺度的圖片信息，這使得網絡能夠更好地檢測鋼筋。因為小物體在圖像中往往是比較模糊的，需要在不同尺度下進行特征提取才能更準確地檢測。

聯(lián)合特征：FPN 通過跨層連接將不同層級的特征進行聯(lián)合，這種跨層連接的方式可以讓不同層級的特征進行信息交流和共享。

目標識別：FPN 可以在不同層級的特征圖上進行目標識別，這使得網絡能夠更好地檢測小物體，因為小物體往往不僅僅是在圖像中的某個位置出現(xiàn)，還需要通過周圍的上下文信息進行識別。

1.2.3 CBAM 注意力模塊

CBAM 是一種用于卷積神經網絡的注意力機制，它能夠幫助神經網絡學習更好的特征，并提高分類和檢測任務的性能。CBAM 由通道注意力模塊和空間注意力模塊兩部分組成[5]。

通道注意力模塊用于自適應地選擇不同通道的特征圖，以幫助網絡學習更加準確和具有代表性的特征，計算公式如下：

式中，Mc為第c 個通道的全局平均特征圖，ac為第c 個通道的激活值，Mc'為第c 個通道的注意力特征圖，Mc''為所有通道的注意力特征圖的平均值，H 和W 分別為輸入特征圖的高度和寬度，fij,c為輸入特征圖中在位置(i,j)處的第c 個通道的特征值。

空間注意力模塊用于自適應地選擇不同位置的特征圖，以進一步提高網絡的表現(xiàn)力和準確性,計算公式如下：

式中，Ms與as分別為空間注意力模塊的特征圖和激活值，Ms'為空間注意力特征圖，f為輸入特征圖，W2和b2分別表示空間注意力模塊的權重和偏置，sigmoid為Sigmoid 激活函數。

最終CBAM 模塊的輸出結果為：

1.2.4 ROI Align

ROI Align 是一種用于在深度學習中處理圖像目標檢測的技術。首先，將圖像輸入卷積神經網絡獲取圖像信息特點，得到特征圖。接下來對每個ROI 進行如下處理：根據ROI 的坐標，在特征圖上定位ROI 的方位信息，再將ROI 均勻分成固定大小的格子，并在每個格子內插值計算出該格子內的特征值，這里采用的是雙線性插值，即在相鄰四個格點的值中加權插值得到目標點的值。最后，將得到的所有格子內的特征值拼接在一起作為輸出。

在Faster RCNN 中進行ROI 池化操作，會將ROI劃分成固定大小的網格，再對每個網格內的特征值進行池化操作。然而，這種方法會導致ROI 與特征圖之間的對齊問題，進而影響目標檢測的準確性。相比之下，ROI Align 則采用雙線性插值的方法，能夠更加精準地對齊特征圖中的像素。此外，ROI Align 的輸出是由多個格子內的特征值拼接而成，而不是簡單地選取一個最大值。因此，在Faster RCNN 中采用ROI Align 可以更準確地對齊ROI 與特征圖之間的像素，避免了ROI 池化操作中因對齊不準確而導致信息丟失的問題，從而提高了目標檢測的準確性。

2 實驗結果與分析

硬件配置：內存為16GB，GPU 為NVIDIA RTX 3060，CPU 為Intel Core i9-11900K。

軟件環(huán)境：操作系統(tǒng)為Ubuntu 20.04.2 LTS， IDE為PyCharm2018.3.7，Python 版本為Python3.9，深度學習框架為TensorFlow 2.5，CUDA 版本為CUDA11.1，cuDNN 版本為cuDNN8.0。

2.1 數據集制作

通過手機拍攝、網絡上獲取等方式，最開始獲取了500 多張鋼筋端面圖片用于數據集的制作，每張圖片中包含大量的鋼筋。數據集部分樣本如圖2所示。

圖2：部分數據集樣本

隨后通過數據增強，如：翻轉、裁剪、鏡像等操作，將數據集擴充到了2000 多張。使用labelImg 對獲取到的鋼筋圖片進行標注，由于需要實現(xiàn)的是鋼筋數量檢測，所以標簽的類別就只有一個rebar，代表鋼筋。

2.2 實驗優(yōu)化分析

為了證明所提出的改進后的鋼筋計數模型是有效的，進行了Faster RCNN 與一階段目標檢測算法YOLOv3 應用在鋼筋計數上面的比較，以及優(yōu)化后的鋼筋計數模型與原Faster RCNN 實驗的比較。改進比較采用的是逐步加入改進模塊與原算法實驗結果進行比較，實驗結果如表1所示。

表1：實驗結果對比

由實驗結果可以看到，對于鋼筋數量檢測，原Faster RCNN 比YOLOv3 的mAP 要高3.45%，使用ResNet101 代替VGG16 作為特征提取網絡后，mAP 提升了3.45%，再引入FPN 結構后mAP 提升了1.72%，CBAM 注意力機制可使mAP 提升0.87%，采用ROI Align 來進行池化操作后使mAP 提升了1.72%。

在實驗過程中，YOLOv3 的檢測速度是要更快一些的，這是因為一階段目標檢測算法檢測速度快的特性，然而檢測的準確度還是Faster RCNN 更勝一籌。且在工地的鋼筋數量檢測實際場景中，這些速度方面的差異幾乎可忽略不計，而對于精度的要求反而更高。在改進模塊中，使用ResNet101 來作為特征提取網絡所帶來的改進是最明顯的，mAP 提升了3.45%，VGG16 只有16 層，而ResNet101 有101 層，具有更深的網絡結構，能夠更好地捕獲圖像中的一些細節(jié)信息。此外，ResNet101 采用了殘差學習的思想，可以更好地處理梯度逐漸衰弱和梯度爆炸的問題，從而提高了特征提取的效果。分別引入FPN、CBAM、ROI Align 改進模塊也從不同程度上提升了鋼筋數量檢測的精確度，最終改進后的方法比原Faster RCNN 的mAP 提升了7.76%，證明了提出的改進方法是切實有效的。鋼筋計數效果圖如圖3所示。

圖3：鋼筋計數效果圖

3 總結

本文提出了一種基于改進Faster RCNN的鋼筋數量檢測方案，改進措施包括：使用ResNet101 和ROI Align分別替換原Faster RCNN 中的特征提取網絡VGG16 與池化層ROI pooling，利用ResNet101 更深的網絡結構以及殘差學習的思想，能夠更好地提取圖像中的信息，處理梯度爆炸的問題，使用ROI Align 代替原來的ROI 池化操作，通過更精細的插值方式，減少信息損失和不對齊的問題，從而增強了特征提取的效果；引入FPN 結構，融合不同尺度的特征信息，在不丟失物體的空間信息的情況下，提高對小目標物體的檢測精度；加入CBAM注意力機制，提高重要通道的表征能力，同時抑制不重要位置的干擾，增強了檢測的精度和魯棒性。

實驗結果表明，使用Faster RCNN 算法來進行鋼筋計數比使用一階段目標檢測算法，如YOLOv3，準確性要更高。改進后的鋼筋數量檢測模型相比于原Faster RCNN 來進行鋼筋計數的檢測結果有明顯的提升，mAP提升了7.76%，證明了該方法是有效的。

在實驗的過程中也發(fā)現(xiàn)了一個問題，對于目前所有的應用到鋼筋數量檢測的算法中，大部分在檢測鋼筋端面比較整齊，鋼筋擺放規(guī)則的圖片時，檢測效果比較良好。但是當應用到一些較復雜的環(huán)境中時，比如鋼筋端面長短不一，擺放雜亂，鋼筋上有遮擋等情況時，檢測效果會有所降低。如圖3 中，未檢測出的兩根鋼筋，一根處在圖片邊緣位置，且端面有變形，另一根在鋼筋的端面有一顆螺絲和鐵片遮擋。所以說，如何在復雜的環(huán)境下進行鋼筋的識別與檢測，這個問題還有待研究，也是目前存在方法有待改進的地方。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡