改進(jìn)SSD算法的多目標(biāo)檢測(cè)

2020-12-07 08:20馬原東羅子江倪照風(fēng)吳鳳嬌孫收余楊秀璋

計(jì)算機(jī)工程與應(yīng)用 2020年23期

馬原東，羅子江，倪照風(fēng)，徐斌，吳鳳嬌，孫收余，楊秀璋

1.貴州財(cái)經(jīng)大學(xué) 信息學(xué)院，貴陽 550025

2.北京盛開互動(dòng)科技有限公司，北京 100089

1 引言

近年來，隨著計(jì)算機(jī)處理能力的提升和人工智能浪潮的推進(jìn)，目標(biāo)檢測(cè)在人們?nèi)粘Ｉ钪邪缪葜絹碓街匾慕巧?。伴隨著目標(biāo)檢測(cè)的迅速發(fā)展，各種算法也不斷更新，目前主要的檢測(cè)算法可分為三類：（1）傳統(tǒng)目標(biāo)檢測(cè)算法。如Cascade[1]+HOG/DPM[2]+Haar/SVM[3]，該類方法通過直接提取HOG/DPM特征，并送入已訓(xùn)練好的分類器進(jìn)行分類，該類算法檢測(cè)速度慢，檢測(cè)性能較低。（2）基于候選區(qū)域的目標(biāo)檢測(cè)。該方法分兩步實(shí)現(xiàn)：①首先獲取每個(gè)像素點(diǎn)各自的特征，將兩個(gè)最為接近的特征組合，為避免邊界框之間的影響，設(shè)置不同閾值的檢測(cè)區(qū)域（Regions Of Interest，ROI）。 ② 采用SVM分類器和Logic函數(shù)計(jì)算損失，修正邊界，其中具有代表性的有 R-CNN[4]、Fast R-CNN[5]和 Faster R-CNN[6]等?；诤蜻x區(qū)域的檢測(cè)具有較高的精確度，但仍存在目標(biāo)檢測(cè)速度較慢，計(jì)算量較大等問題。（3）基于端對(duì)端學(xué)習(xí)的目標(biāo)檢測(cè)。該方法無需預(yù)先獲取候選框，直接采用卷積網(wǎng)絡(luò)提取圖像特征，網(wǎng)絡(luò)末端通過全連接層分別與分類損失和回歸損失連接，輸出對(duì)應(yīng)類別概率和位置信息，速度相對(duì)較快，具有代表性的有SSD[7]、YOLO[8]和Retina-Net，其中 SSD 算法是 Liu W 等人在 ECCV2016上提出的一種全新檢測(cè)算法，該算法在前向傳播過程中提取不同尺度下的特征圖，生成預(yù)選框送入網(wǎng)絡(luò)，并通過反向傳播更新參數(shù)，兼具高速和高識(shí)別率。SSD算法在目標(biāo)檢測(cè)[9-10]和目標(biāo)分類[11-12]中應(yīng)用同樣廣泛，其中，Li Haotian等人[13]提出一種基于特征金字塔融合SSD的小目標(biāo)檢測(cè)算法，該算法通過特征金字塔結(jié)構(gòu)將選定的多尺度特征層與尺度不變卷積層合并，提高小目標(biāo)檢測(cè)效率，但存在SSD 網(wǎng)絡(luò)結(jié)構(gòu)不統(tǒng)一、相對(duì)大目標(biāo)檢測(cè)魯棒性不足等問題；Liu Yi等人[14]提出一種具有前后幀指導(dǎo)的多目標(biāo)檢測(cè)算法，讓跨層的特征圖和網(wǎng)絡(luò)的側(cè)面輸出得到了充分利用，進(jìn)一步提升目標(biāo)檢測(cè)效率；陳幻杰[15]等人提出一種改進(jìn)的多尺度卷積特征目標(biāo)檢測(cè)方法，提高SSD模型對(duì)中目標(biāo)和小目標(biāo)的檢測(cè)精度。在多目標(biāo)檢測(cè)環(huán)境下，現(xiàn)有的算法已經(jīng)具有良好的檢測(cè)效果，但當(dāng)檢測(cè)環(huán)境較為復(fù)雜時(shí)，仍存在較高的誤檢、漏檢率。本文針對(duì)現(xiàn)有的多目標(biāo)檢測(cè)算法存在的不足以及SSD內(nèi)部的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)，提出一種改進(jìn)SSD算法的多目標(biāo)檢測(cè)，通過優(yōu)化SSD內(nèi)部網(wǎng)絡(luò)和提高訓(xùn)練樣本適用性的方式改善檢測(cè)性能；其中，采用修改網(wǎng)絡(luò)輸出并結(jié)合SENet[16]網(wǎng)絡(luò)添加抗旋轉(zhuǎn)卷積層（Anti Rotation Convolution，ARConv）來統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu)，加快模型收斂、減少漏檢；提出概率非極大值抑制算法（Probability-Non Maximum Suppression，P-NMS）和限制函數(shù)來優(yōu)化訓(xùn)練樣本，減少誤檢；測(cè)試階段提出單張圖片批量測(cè)試方法，有效提高模型召回率；在Caffe框架下實(shí)現(xiàn)該算法，實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有效性，相比傳統(tǒng)SSD 算法誤檢率、漏檢率明顯降低，模型魯棒性更強(qiáng)。

2 算法介紹

2.1 檢測(cè)算法性能比較

當(dāng)前主流算法可分為One-stage 和Two-stage 兩類，并且兩類算法在檢測(cè)速度和檢測(cè)性能上有著極為明顯的差距，其中，Two-stage 檢測(cè)速度整體偏慢；在精確度上Two-stage優(yōu)于YOLO，略低于SSD算法。SSD300在速度上比YOLO 快一倍，平均精確度（mean Average Precision，mAP）提高約15%，相比較于R-CNN 系列，速度提高7～2 000 倍，mAP 值提高約10%。具體對(duì)比結(jié)果如圖1 所示，SSD 算法整體效率明顯靠前，是目前應(yīng)用較為廣泛的目標(biāo)檢測(cè)算法。

圖1 不同檢測(cè)算法的性能比較

2.2 SSD網(wǎng)絡(luò)結(jié)構(gòu)

SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示，其中多分類單桿檢測(cè)器表明定位目標(biāo)和分類任務(wù)是在網(wǎng)絡(luò)的一次前向傳遞中完成，同時(shí)表明 SSD 屬于 One-stage 算法；MultiBox[17-18]邊界框回歸技術(shù)表明SSD 采用多框預(yù)測(cè)方式實(shí)現(xiàn)目標(biāo)檢測(cè)。

圖2 SSD網(wǎng)絡(luò)結(jié)構(gòu)

SSD 輸入圖片尺寸為300×300，檢測(cè)框架主要由兩部分構(gòu)成，第一部分為VGG-16[19]（骨干網(wǎng)絡(luò)可自由選擇如：MobileNet、ResNet）多層卷積提取特征得到Conv4_3的特征圖，該特征圖屬性為38×38×512；第二部分為多尺度檢測(cè)網(wǎng)絡(luò)，用于對(duì)骨干網(wǎng)絡(luò)獲取的特征進(jìn)行多尺度特征提取。圖2中SSD在經(jīng)過VGG16網(wǎng)絡(luò)后繼續(xù)經(jīng)過卷積分別生成19×19×1 024、10×10×512、5×5×256、3×3×256、1×1×256的特征圖，檢測(cè)時(shí)設(shè)置不同的寬高比生成候選框，囊括不同尺寸目標(biāo)，為后期目標(biāo)檢測(cè)和分類打下基礎(chǔ)。SSD 模型中特征提取采用逐層提取并抽象化的思想，運(yùn)用傳統(tǒng)卷積手段提取特征，并結(jié)合NMS生成對(duì)應(yīng)檢測(cè)框，雖然模型采用了不同卷積、不同尺度的特征數(shù)據(jù)進(jìn)行目標(biāo)檢測(cè)，但對(duì)于復(fù)雜場(chǎng)景變換、目標(biāo)旋轉(zhuǎn)等情況下仍存在誤檢、漏檢率，本文在傳統(tǒng)SSD 架構(gòu)的基礎(chǔ)上，采用ARConv卷積和P-NMS算法替代原有的操作，提升模型整體效率。

3 SSD優(yōu)化

3.1 網(wǎng)絡(luò)優(yōu)化

3.1.1 多輸入單輸出

為了便于網(wǎng)絡(luò)輸出，并且能夠?qū)崿F(xiàn)與其他模型、框架的統(tǒng)一，本文將SSD 算法中的Multibox 層進(jìn)行修改，使其支持多輸入單輸出模式。傳統(tǒng)的Multibox 獲取多個(gè)輸入，輸出兩個(gè)結(jié)果，并在同一層內(nèi)對(duì)兩個(gè)輸出進(jìn)行損失計(jì)算。具體公式如下：

式中，x表示單個(gè)候選框?qū)儆陬A(yù)測(cè)類的概率值，范圍在{0，1}內(nèi)，c表示置信度，l為預(yù)測(cè)框，g表示真實(shí)框，Lconf(x,c)、Lloc(x,l,g)分別為計(jì)算獲得的置信度損失值和定位損失值，α為拉格朗日乘子。傳統(tǒng)的SSD算法將獲取的多尺度特征送入Multibox層，并根據(jù)損失計(jì)算公式，輸出兩個(gè)對(duì)應(yīng)的特征集合，分別送入對(duì)應(yīng)的Lconf和Lloc損失公式，獲取最終值。該方法在算法設(shè)計(jì)上較為方便，但該網(wǎng)絡(luò)的設(shè)計(jì)與單輸出模型不同步，無法統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu)，并且現(xiàn)有的深度學(xué)習(xí)框架，大多不支持類似多輸入多輸出模式。本文改進(jìn)Multibox層，將多輸入多輸出方式修改為多輸入單輸出，即輸入多尺度特征值后輸出一個(gè)多維的特征集合，通過在Caffe 框架中添加slice 層（該層主要用于切分輸出數(shù)據(jù)）實(shí)現(xiàn)特征集合分類。slice 層根據(jù)輸入特征維度、正負(fù)檢測(cè)框?qū)傩?、?biāo)簽屬性、數(shù)量從輸出特征集合中為兩個(gè)損失函數(shù)分配不同的特征值，并獲取最終損失結(jié)果。算法思想如圖3 所示，（a）為傳統(tǒng)Multibox 層結(jié)構(gòu)，（b）為改進(jìn)后的多輸入單輸出模式，多尺度輸入數(shù)據(jù)經(jīng)過Multibox層計(jì)算之后得到一個(gè)輸出集合，將輸出結(jié)果送入slice 層，根據(jù)輸入和標(biāo)簽屬性分割所需數(shù)據(jù)。該方法能夠統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu)，使訓(xùn)練更清晰、流暢，并且讓網(wǎng)絡(luò)具有更強(qiáng)的可移植性，對(duì)不同的深度學(xué)習(xí)框架都有很好的適配效果。

圖3 多輸入單輸出結(jié)構(gòu)

3.1.2 ARConv抗旋轉(zhuǎn)卷積

深度學(xué)習(xí)中常見的數(shù)據(jù)擴(kuò)充方法包括鏡像、隨機(jī)裁剪、局部變形、原始圖像旋轉(zhuǎn)以及使用生成對(duì)抗網(wǎng)絡(luò)等。若大量采用此類數(shù)據(jù)擴(kuò)充方式，易造成訓(xùn)練集過大，訓(xùn)練難度增強(qiáng)、訓(xùn)練難收斂。本文在已有的數(shù)據(jù)擴(kuò)充方法上提出一種新穎的抗旋轉(zhuǎn)卷積層ARConv，該層以全新的網(wǎng)絡(luò)層的方式出現(xiàn)在網(wǎng)絡(luò)模型中，能夠降低訓(xùn)練后的模型對(duì)待測(cè)目標(biāo)旋轉(zhuǎn)的敏感度。ARConv 采用特征旋轉(zhuǎn)的方式，將高層卷積提取的信息送進(jìn)下一層或更深層的網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)，在減少目標(biāo)旋轉(zhuǎn)造成漏檢的同時(shí)，加快模型收斂。傳統(tǒng)的卷積層，主要用于特征的提取，公式如下：

圖4 ARConv結(jié)構(gòu)

分支右側(cè)首先將所有特征圖做歸一化處理，并獲取單個(gè)批次中第i個(gè)特征圖內(nèi)(1～m)個(gè)特征值組成的矩陣，與同樣歸一化處理后的i+1 個(gè)特征圖內(nèi)積；度量公式如下：

式中引入相鄰特征圖余弦值，以為基準(zhǔn)，采用內(nèi)積的方式獲取向量間余弦值，并通過公式（4）求得第i+1個(gè)特征圖的旋轉(zhuǎn)角度。之后將當(dāng)前位置的對(duì)應(yīng)角度輸入旋轉(zhuǎn)層；當(dāng)i=0 時(shí)，此時(shí)獲取的特征矩陣為保存的上一批次旋轉(zhuǎn)后的最后一個(gè)特征圖矩陣。不同角度的特征旋轉(zhuǎn)，可能會(huì)導(dǎo)致部分邊緣信息丟失；針對(duì)這一問題，分支左側(cè)引入單通道注意力機(jī)制，該機(jī)制可理解為從大量信息中有選擇地篩選出重要信息并聚焦，同時(shí)忽略大多數(shù)不重要信息；聚焦的過程體現(xiàn)在權(quán)重系數(shù)的計(jì)算上，權(quán)重越大表明該部分關(guān)注度越高。本文在訓(xùn)練中為每個(gè)通道賦予不同的權(quán)重值以建模通道的重要程度，加強(qiáng)對(duì)重要特征提取能力，降低因邊緣信息丟失造成的特征提取不充分，如圖5所示。

圖5 通道注意力機(jī)制

文中借鑒SENet[16]網(wǎng)絡(luò)的通道注意力機(jī)制和ResNeXt[20]的卷積分組方法，提出更適合ARConv 的Split Attention 機(jī)制，圖5 中單個(gè)批次中總共含有M個(gè)特征圖，每個(gè)特征圖內(nèi)包含m個(gè)通道，將特征圖連接后送入全局池化層，輸出對(duì)應(yīng)通道全局特征，之后接r-Softmax 賦予各通道不同的權(quán)重以建模通道的重要程度。假設(shè)給定輸入特征圖Y∈Rh×w×c，將特征圖沿輸入通道維度分成M組，用xi∈Rh×w×c表示各個(gè)分組，i∈{1,M}，其中每個(gè)xi含有m=c/M個(gè)通道。分組后的特征圖在框架中以特征向量xi=[a1,a2,…,am]形式存儲(chǔ)，其中每個(gè)通道am含有不同的特征響應(yīng)，利用不同通道間的相互關(guān)系，采用全局平均池化聚合每個(gè)通道，映射生成對(duì)應(yīng)通道的權(quán)重信息，其中權(quán)重的每個(gè)元素都由特征圖的空間維度h×w全局平均得到，公式如下：

式（5）中，Sc表示聚合后通道的輸出權(quán)值，在獲取單通道權(quán)值信息后加入BN 層（Batch Normalization，BN）調(diào)整輸出比例，并接PRelu 增加權(quán)重非線性信息，最后輸入r-Softmax 函數(shù)，將所有信息轉(zhuǎn)化為非負(fù)數(shù)并做歸一化，輸出各通道權(quán)值，其中⊕表示逐元素相加，?表示逐元素相乘。文中采用BN層和PRelu激活函數(shù)代替?zhèn)鹘y(tǒng)注意力機(jī)制的兩個(gè)全連接層和Sigmoid 函數(shù)，降低Split Attention 帶來的參數(shù)量，接著連接r-Softmax 函數(shù)避免權(quán)重逐元素相乘時(shí)引入更多噪音信息干擾特征提取，然后再與輸入模塊進(jìn)行跨通道整合讓淺層信息保留到深層網(wǎng)絡(luò)提升模型決策能力，輸出帶權(quán)值特征矩陣并結(jié)合角度信息旋轉(zhuǎn)特征。

（1）漏檢率分析。ARConv 層根據(jù)矩陣運(yùn)算后輸出特征圖的大小、特征數(shù)據(jù)在網(wǎng)絡(luò)中的存儲(chǔ)方式、特征向量的變化角度等進(jìn)行特征旋轉(zhuǎn)，并添加通道注意力機(jī)制，通過擬合多組權(quán)重向量來精細(xì)捕捉高層特征送入下一層卷積。通過不斷的學(xué)習(xí)使下一層卷積的輸入特征更具統(tǒng)一性，同時(shí)讓整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)能力增強(qiáng)，訓(xùn)練結(jié)果具備更強(qiáng)的魯棒性，同時(shí)降低因待測(cè)目標(biāo)旋轉(zhuǎn)而造成的漏識(shí)別。實(shí)驗(yàn)驗(yàn)證及注意力權(quán)重可視化結(jié)果表明，通道注意力機(jī)制賦予各通道不同權(quán)重值信息，在兼顧粗特征提取基礎(chǔ)上能夠進(jìn)一步提升待測(cè)目標(biāo)各成分間重要性的區(qū)分度，從而有助于復(fù)雜環(huán)境下的多目標(biāo)分類與提取。

（2）收斂性分析。添加ARConv層對(duì)淺層輸入特征進(jìn)行對(duì)應(yīng)角度的特征旋轉(zhuǎn)，使高層卷積獲取的特征值含有的旋轉(zhuǎn)屬性較少，學(xué)習(xí)難度降低，同時(shí)訓(xùn)練集中旋轉(zhuǎn)樣本數(shù)量可適量減少；加入單通道注意力機(jī)制，推導(dǎo)并制定出一整套類別權(quán)重計(jì)算方法，各個(gè)類別權(quán)重作為參數(shù)量與r-softmax 損失函數(shù)共同參與訓(xùn)練。類別權(quán)重信息的引入，可杜絕原始采樣所引入的隨機(jī)誤差，保證待測(cè)目標(biāo)的固有屬性。實(shí)驗(yàn)結(jié)果表明，該方法在改善目標(biāo)特征提取不平衡問題的同時(shí)，加速了訓(xùn)練階段模型整體的收斂速率。相同訓(xùn)練環(huán)境下，添加ARConv層網(wǎng)絡(luò)的訓(xùn)練集更少，收斂速度更快，有效縮短模型訓(xùn)練時(shí)間。多目標(biāo)檢測(cè)情況下，能夠有效解決訓(xùn)練樣本不夠豐富造成的模型無法識(shí)別旋轉(zhuǎn)目標(biāo)以及魯棒性不足的問題；同時(shí)還能增強(qiáng)模型學(xué)習(xí)能力降低漏檢率，加快模型收斂。

3.2 算法優(yōu)化

3.2.1 正負(fù)樣本限制

在多人物檢測(cè)中，若單張圖片中存在多個(gè)目標(biāo)，會(huì)導(dǎo)致檢測(cè)結(jié)果的正樣本框數(shù)量過多。傳統(tǒng)的SSD 算法只對(duì)負(fù)樣本的數(shù)量進(jìn)行選擇，忽略了正樣本數(shù)量過多導(dǎo)致負(fù)樣本數(shù)量過少的情況，經(jīng)過改進(jìn)后的SSD算法通過在網(wǎng)絡(luò)配置文件中設(shè)置超參數(shù)，判斷是否需要對(duì)正樣本的數(shù)量進(jìn)行限制，能夠解決由于正樣本過多而造成的誤識(shí)別情況。算法思想如下：根據(jù)網(wǎng)絡(luò)配置文件，確定正負(fù)樣本比例（本文設(shè)定為1∶3），并求出最大正樣本的數(shù)量，如式（6）所示：

式中，MPnum為最大正樣本數(shù)量，PBnum為先驗(yàn)框總數(shù)，（1+3）取值根據(jù)配置文件中的正負(fù)樣本比例設(shè)置；判斷正樣本數(shù)量是否超出限制，若數(shù)量正常，直接進(jìn)行下一步，若數(shù)量過多，隨機(jī)刪除部分正樣本數(shù)量（隨機(jī)刪除可保證樣本多樣性）刪除數(shù)量如下：

式中，Nnum表示負(fù)樣本數(shù)量，Pnum表示正樣本數(shù)量，Denum為需要?jiǎng)h除的正樣本數(shù)量。

3.2.2 P-NMS算法

多目標(biāo)檢測(cè)中，生成待測(cè)框集合之后，如何提取最優(yōu)框是衡量目標(biāo)檢測(cè)性能的關(guān)鍵。目前多采用非極大值抑制[21]（Non-Maximum Suppression，NMS）提取最優(yōu)框，傳統(tǒng)NMS 算法無法排除個(gè)別非目標(biāo)檢測(cè)區(qū)域出現(xiàn)單個(gè)誤檢框，因此本文提出P-NMS 算法對(duì)需要顯示的先驗(yàn)框集合進(jìn)行二次計(jì)算，用框的數(shù)量和概率來判斷該區(qū)域是否有檢測(cè)目標(biāo)，從而達(dá)到降低誤檢率的目的。

傳統(tǒng)NMS算法步驟如下：（1）對(duì)所有檢測(cè)框集合進(jìn)行降序排列，放入先驗(yàn)框集合Confidence中。（2）按置信度從大到小遍歷所有檢測(cè)框，單個(gè)檢測(cè)框分別與剩余所有框進(jìn)行交并比（Intersection-over-Union，IOU）[22]運(yùn)算，如果IOU大于某個(gè)閾值，則在Confidence集合中刪除該框位置，并將最大概率框放入集合MaxConfidence 中。（3）集合MaxConfidence 保留該圖片所有框的坐標(biāo)以及置信度，用于后續(xù)姿態(tài)分類。若存在單個(gè)檢測(cè)框誤檢情況，會(huì)導(dǎo)致Confidence 集合得分非常高，極易出現(xiàn)誤檢影響檢測(cè)整體性能。如圖6（a）表示傳統(tǒng)NMS處理之前效果，（b）表示NMS 處理之后效果，其中紅色表示該區(qū)域內(nèi)置信度最高的框，綠色表示與紅色框交并比大于閾值的預(yù)測(cè)框。

圖6 傳統(tǒng)NMS性能圖

如圖6（b）所示，傳統(tǒng)NMS 檢測(cè)后會(huì)出現(xiàn)左上角窗戶位置的紅色誤檢框，并且類似情況在檢測(cè)中常有發(fā)生，傳統(tǒng)算法無法排除此類框，針對(duì)該問題，本文提出P-NMS算法，具體步驟如下：（1）首先對(duì)先驗(yàn)框集合Confidence按置信度得分排序。（2）選取置信度較高的框，并與剩余框進(jìn)行IOU計(jì)算，當(dāng)IOU大于某個(gè)閾值，刪除該框，且在MaxConfidence 集合中對(duì)此計(jì)數(shù)。（3）MaxConfidence 集合保留目標(biāo)檢測(cè)框坐標(biāo)并對(duì)檢測(cè)框做數(shù)值統(tǒng)計(jì)（包括：每個(gè)目標(biāo)IOU大于閾值的數(shù)量、大于IOU閾值的集合中置信度最高檢測(cè)框坐標(biāo)以及該集合置信度得分總和）。（4）進(jìn)行平均置信度求值，當(dāng)該值大于設(shè)定的顯示閾值時(shí)，標(biāo)定該框?yàn)樽罱K目標(biāo)位置，具體如式（10）和（11）所示：

式中，num表示該框與其他所有剩余框進(jìn)行IOU 計(jì)算之后，IOU大于設(shè)定閾值的數(shù)量；MeanConfidence表示該集合內(nèi)平均置信度，根據(jù)檢測(cè)情況選擇不同的計(jì)算模式（包括平均概率模式和最大概率模式，文中選擇最大概率模式）。P-NMS不僅考慮置信度的大小，同時(shí)考慮待測(cè)目標(biāo)周圍檢測(cè)框數(shù)量。實(shí)際檢測(cè)中，不同目標(biāo)、不同網(wǎng)絡(luò)、不同環(huán)境下，設(shè)定的閾值也不相同，閾值具體設(shè)計(jì)思路如下：（1）首先根據(jù)訓(xùn)練結(jié)果統(tǒng)計(jì)檢測(cè)框的置信度得分，獲取得分最大值j和置信度眾數(shù)k確定閾值區(qū)間{k,j}。（2）統(tǒng)計(jì)單個(gè)目標(biāo)平均生成檢測(cè)框數(shù)量a，在閾值區(qū)間內(nèi)以0.1為間隔取不同的置信度值{c1,c2,…,cn}∈{k,j}，求取對(duì)應(yīng)閾值。（3）對(duì)閾值集合中的所有值分別進(jìn)行檢測(cè)框閾值判定并統(tǒng)計(jì)誤檢率，選取誤檢率最低時(shí)對(duì)應(yīng)的閾值c′n作為最終閾值。

改進(jìn)后的置信度比較如圖7所示，將圖6（b）中處理后的誤檢情況和準(zhǔn)確檢測(cè)框放大，其中圖7（a）為置信度得分為0.81的誤檢框，圖7（b）為置信度得分為0.83的正確檢測(cè)框，兩者得分很接近，難以通過閾值判定是否保留該框。由圖6（a）可知，圖7（a）位置只有一個(gè)預(yù)測(cè)框，圖7（b）周圍和該框IOU 大于閾值框數(shù)量有6 個(gè)，包括5個(gè)置信度較低的綠色框，1個(gè)置信度較高的紅色框。通過P-NMS公式計(jì)算兩張圖片的置信度分別為：

圖7 置信度比較

通過對(duì)比測(cè)試獲取此時(shí)的閾值為0.92，由此判定圖7（a）為誤檢框，并刪除該位置檢測(cè)框，框的數(shù)量越多，表明該區(qū)域出現(xiàn)目標(biāo)的可能性越大，最終Confidence越高，結(jié)果越可靠。實(shí)驗(yàn)結(jié)果表明，改進(jìn)后的P-NMS算法能有效減少誤檢率。

3.3 測(cè)試優(yōu)化

傳統(tǒng)檢測(cè)方法將單張待測(cè)圖片送入已訓(xùn)練好的網(wǎng)絡(luò)模型獲取檢測(cè)結(jié)果；測(cè)試過程中往往由于圖像縮放造成待測(cè)圖片失真，從而導(dǎo)致檢測(cè)效率下降。本文根據(jù)SSD算法及數(shù)據(jù)集特點(diǎn)，提出分塊測(cè)試算法。設(shè)計(jì)思路如下：（1）設(shè)置測(cè)試所需的分塊的數(shù)量parts（根據(jù)原圖大小和圖像輸入大小設(shè)定，本文將原圖分為5 個(gè)parts）。（2）將分塊后圖片縮放到網(wǎng)絡(luò)輸入尺寸。（3）對(duì)分塊后存儲(chǔ)的數(shù)據(jù)進(jìn)行循環(huán)讀取。（4）依次存入內(nèi)存，并進(jìn)行通道分離、歸一化操作。（5）批處理所有數(shù)據(jù)，分別輸出每個(gè)框的坐標(biāo)集合。（6）將每個(gè)框的坐標(biāo)反算到原圖的坐標(biāo)得到相對(duì)于原圖的真實(shí)坐標(biāo)。（7）使用P-NMS算法對(duì)所有框進(jìn)行合并。

由于計(jì)算機(jī)硬件以及內(nèi)存限制，SSD算法在進(jìn)行目標(biāo)檢測(cè)時(shí)，需要將原圖縮放至網(wǎng)絡(luò)輸入大小，在多目標(biāo)情況下，縮小后的圖片極易造成失真導(dǎo)致檢測(cè)能力較弱，因此本文提出單張圖片批量檢測(cè)方法在一定程度上解決了小目標(biāo)檢測(cè)難的問題，在耗費(fèi)少量測(cè)試時(shí)間前提下顯著提高了召回率。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集介紹

本文采用常用數(shù)據(jù)集PASCAL VOC集與自建人物屬性數(shù)據(jù)集（主要涉及教室、商場(chǎng)等多人物環(huán)境）組成混合訓(xùn)練集共同訓(xùn)練，其中訓(xùn)練集共874 523張，測(cè)試集共15 463張，涉及了各種姿態(tài)、光照、背景。數(shù)據(jù)集中人物包含各種表情、動(dòng)作和遮擋，高度貼合現(xiàn)實(shí)環(huán)境中的場(chǎng)景識(shí)別。該數(shù)據(jù)集包含權(quán)威數(shù)據(jù)集PASCAL VOC，并在權(quán)威數(shù)據(jù)集中添加自建的多類別數(shù)據(jù)集，不僅保證數(shù)據(jù)集的廣泛性和權(quán)威性，同時(shí)也增加目標(biāo)檢測(cè)的難度，讓實(shí)驗(yàn)更具挑戰(zhàn)性。為保證檢測(cè)算法的魯棒性，文中采用圖像增強(qiáng)的方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充，包括模擬光照變化、灰度變換、模糊處理等。

4.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)測(cè)試PC機(jī)環(huán)境：CPU選取Intel?Core?i7-4590，顯卡NVIDIA GTX 1080Ti，采用Visual Studio 2013，OpenCV2.4.8 和Caffe 框架實(shí)現(xiàn)改進(jìn)型SSD 算法的多目標(biāo)檢測(cè)。

4.3 檢測(cè)結(jié)果對(duì)比

4.3.1 定量分析

為了驗(yàn)證本文所提出的基于改進(jìn)SSD 算法的多目標(biāo)算法性能，本文將從mAP 值、誤檢率、漏檢率和參數(shù)量進(jìn)行對(duì)比實(shí)驗(yàn)。AP 值衡量模型在每個(gè)類別上的好壞，具體公式如下：

式中，TP為預(yù)測(cè)為正的正樣本，F(xiàn)N為預(yù)測(cè)為負(fù)的正樣本，F(xiàn)P為預(yù)測(cè)為正的負(fù)樣本，mAP 值為所有類別的Precision平均值；浮點(diǎn)運(yùn)算數(shù)用來量模型參數(shù)量。網(wǎng)絡(luò)主要采用原始SSD 300、傳統(tǒng)SSD 512與改進(jìn)后的網(wǎng)絡(luò)對(duì)比，在實(shí)驗(yàn)中確保各算法軟硬件環(huán)境的一致性，以及訓(xùn)練集、測(cè)試集的統(tǒng)一。訓(xùn)練參數(shù)如下：初始學(xué)習(xí)率0.001，權(quán)值衰減項(xiàng)為0.000 5，動(dòng)量為0.9，批次為64，采用隨機(jī)梯度下降算法更新參數(shù)。

傳統(tǒng)模型與本文所提出模型在測(cè)試集中整體性能對(duì)比結(jié)果如表1所示，其中+ARConv表示僅添加本文所提卷積層，SSD…（ours）表示添加ARConv 及P-NMS 算法，表1中分別對(duì)SSD 300及SSD 512做優(yōu)化前后的性能對(duì)比，從表1 中可以看出，雖然傳統(tǒng)SSD 300 和SSD 512 算法已經(jīng)有較理想的準(zhǔn)確率，且在PASCAL VOC測(cè)試集中mAP值分別達(dá)到77.3%和80.2%，但傳統(tǒng)算法漏檢率較高，這是由于網(wǎng)絡(luò)無法有效識(shí)別旋轉(zhuǎn)位置變換和復(fù)雜環(huán)境下的目標(biāo)并且模型的特征提取能力有限，在加入ARConv卷積層后，此時(shí)算法增強(qiáng)對(duì)目標(biāo)的識(shí)別能力，表中結(jié)果顯示SSD 300+ARConv 旋轉(zhuǎn)漏檢率降低0.47 個(gè)百分點(diǎn)，正面漏檢率降低0.11 個(gè)百分點(diǎn)，SSD 512+ARConv旋轉(zhuǎn)漏檢率降低0.48個(gè)百分點(diǎn)，正面漏檢率降低0.09 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了添加ARConv卷積能增強(qiáng)模型識(shí)別能力降低漏檢，其中ARConv旋轉(zhuǎn)機(jī)制增強(qiáng)旋轉(zhuǎn)目標(biāo)檢測(cè)力，注意力機(jī)制增強(qiáng)算法正面目標(biāo)檢測(cè)力。在模型性能方面，僅添加ARConv后該算法的mAP 值已超越傳統(tǒng)算法，表明對(duì)不同通道賦予不同的權(quán)值能夠輔助提升模型對(duì)目標(biāo)的表征能力提高模型檢測(cè)準(zhǔn)確性，從而進(jìn)一步影響下游相關(guān)特征提取效果；此外，實(shí)驗(yàn)過程中發(fā)現(xiàn)帶類別權(quán)重的注意力機(jī)制在保證模型性能的同時(shí)加速了訓(xùn)練過程的收斂速率。實(shí)際多人物測(cè)試環(huán)境下，通道注意力機(jī)制對(duì)待測(cè)目標(biāo)復(fù)雜環(huán)境中的信息具有較強(qiáng)的學(xué)習(xí)和捕捉能力，使得模型對(duì)多目標(biāo)檢測(cè)有更好的表征性能，而在此基礎(chǔ)上引入帶權(quán)學(xué)習(xí)的損失函數(shù)可進(jìn)一步提升模型在訓(xùn)練階段的擬合能力，從而提高目標(biāo)檢測(cè)效率、加快收斂。

表1 優(yōu)化對(duì)比結(jié)果

添加ARConv 卷積后帶來漏檢率降低的同時(shí)也引入更多誤檢框，模型分類難度增加，網(wǎng)絡(luò)誤檢率略有提高，此時(shí)添加P-NMS算法調(diào)整邊界框置信度判定方式，SSD 300（ours）相比SSD 300+ARConv誤檢率有明顯降低，與傳統(tǒng)SSD 300 相比誤檢率下降0.19 個(gè)百分點(diǎn)，此時(shí)模型達(dá)到誤檢率與漏檢率的平衡，SSD 512（ours）優(yōu)化后模型誤檢率同樣有所降低；在參數(shù)量方面，采用ARConv 卷積后 SSD 300 和 SSD 512 算法參數(shù)量整體低于傳統(tǒng)SSD算法，在提取圖像特征過程中運(yùn)算量降低，能有效提升算法的運(yùn)算速度，增強(qiáng)實(shí)時(shí)性；相比傳統(tǒng)的SSD 300 和SSD 512 本文所提的算法SSD 300（ours）、SSD 512（ours）mAP值分別提升2.4個(gè)百分點(diǎn)和1.9個(gè)百分點(diǎn)。通過實(shí)驗(yàn)結(jié)果可知，特征信息能夠在ARConv機(jī)制的作用下得到更好的捕捉和表達(dá)；待測(cè)框能夠在PNMS 算法下得到更好的篩查和過濾；實(shí)驗(yàn)結(jié)果驗(yàn)證了同時(shí)驗(yàn)證了添加ARConv 卷積以及P-NMS 算法能實(shí)現(xiàn)提升模型整體性能的設(shè)計(jì)目標(biāo)。

實(shí)驗(yàn)對(duì)比結(jié)果如圖8所示，輸入教室多人物視角下的待測(cè)圖片，將傳統(tǒng)SSD 300 與優(yōu)化后的SSD 300 做對(duì)比測(cè)試，網(wǎng)絡(luò)輸入是300×300，原始輸入圖片大小為1 920×1 080，圖8（a）中顯示傳統(tǒng)SSD 300 檢測(cè)過程中出現(xiàn)大量漏檢情況，部分人臉無法識(shí)別檢測(cè)效率較低；改進(jìn)后添加ARConv 卷積以及P-NMS 算法的SSD 300檢測(cè)效率明顯提升，誤檢情況也得到有效改善，對(duì)歪頭、側(cè)臉等難以識(shí)別的人臉區(qū)域都有較高的檢測(cè)率，相較于傳統(tǒng)SSD 300，優(yōu)化后模型檢測(cè)效率明顯提升。

圖8 檢測(cè)算法對(duì)比

4.3.2 定性測(cè)試

在定性對(duì)比實(shí)驗(yàn)中，同樣使用mAP 指標(biāo)來衡量網(wǎng)絡(luò)性能，選取SPP-net BB（ZF5）[23]、Fast R-CNN[24]、YOLO[8]、YOLOv2 228、SSD 300、SSD 512與改進(jìn)后的SSD 300、SSD 512算法進(jìn)行比較，表2顯示了各算法在相同環(huán)境下的性能。從表中結(jié)果能夠發(fā)現(xiàn)，改進(jìn)后的SSD 300（ours）迭代85 輪后達(dá)到收斂，迭代次數(shù)最少、收斂性較強(qiáng)，優(yōu)化后的 SSD 512（ours）算法相比SSD 512 收斂性同樣增強(qiáng)，這一驗(yàn)證結(jié)果表明本文所提算法能加速模型收斂速率，其原因在于各通道總體損失的貢獻(xiàn)得到平衡，因此一定程度上縮小了模型參數(shù)收斂空間，從而提升模型收斂速率。與其他測(cè)試算法對(duì)比，優(yōu)化后SSD 300（ours）在較少的迭代時(shí)間內(nèi)具有更高的mAP值，實(shí)際檢測(cè)速度達(dá)62 f/s，與相同領(lǐng)域的YOLO 算法相比在減少15 輪迭代的同時(shí)，檢測(cè)速度增加接近3 倍，mAP 值提升13.2 個(gè)百分點(diǎn)；與性能更為突出的YOLOv2 228 相比，檢測(cè)速度幾乎持平，但收斂更快，mAP值提升10.7個(gè)百分點(diǎn)；優(yōu)化后的SSD 512（ours）算法由于網(wǎng)絡(luò)限制，相比SSD 300收斂性略有下降，仍能達(dá)到對(duì)比算法的平均迭代水平，與YOLO 算法相比收斂性幾乎持平，但誤檢率下降近一半，mAP值提升15.6個(gè)百分點(diǎn)；與Two-stage領(lǐng)域的Fast R-CNN 算法相比，檢測(cè)速度提升近4 倍，mAP 高出 15.2 個(gè)百分點(diǎn)。SSD 300（ours）相較于傳統(tǒng)SSD 300 改進(jìn)后的算法在較少的迭代次數(shù)下具有理想的檢測(cè)性能、收斂性更強(qiáng)，其中誤檢率降低0.19 個(gè)百分點(diǎn)，檢測(cè)速度提升 16 f/s，mAP 提升 2.4 個(gè)百分點(diǎn)；SSD 512（ours）相比傳統(tǒng) SSD 512，在檢測(cè)速度、誤檢率、mAP值上同樣實(shí)現(xiàn)較為可觀的性能提升，誤檢率、mAP值在所有模型中達(dá)到最優(yōu)，但相比優(yōu)化后的SSD 300檢測(cè)速度和收斂性較弱，其原因在于SSD 512網(wǎng)絡(luò)模型更大，參數(shù)量更多，導(dǎo)致訓(xùn)練難度增強(qiáng)。結(jié)合表2 的對(duì)比結(jié)果可知，優(yōu)化后的SSD 算法增加大量候選檢測(cè)窗口、提升目標(biāo)檢測(cè)精度，對(duì)不同角度、不同環(huán)境的待測(cè)目標(biāo)檢測(cè)效果都有提升；對(duì)比所有算法，優(yōu)化后SSD 300 訓(xùn)練難度低、收斂性較強(qiáng)，同時(shí)具有理想的mAP 值，在所有算法中整體性能最優(yōu)；優(yōu)化后SSD 512由于網(wǎng)絡(luò)結(jié)構(gòu)的限制，收斂性和檢測(cè)速度低于SSD 300，但mAP值達(dá)到最優(yōu)、具有更低的誤檢、漏檢率，實(shí)際檢測(cè)性能較強(qiáng)。實(shí)驗(yàn)結(jié)果驗(yàn)證了改進(jìn)后的SSD 算法能夠降低模型訓(xùn)練時(shí)間，增強(qiáng)網(wǎng)絡(luò)收斂性，有效降低誤檢、漏檢率，整個(gè)模型具有更理想的檢測(cè)效果。

表2 各類檢測(cè)算法性能對(duì)比

5 結(jié)束語

本文基于原有SSD 算法在實(shí)際使用中存在的問題進(jìn)行改進(jìn)，使算法的網(wǎng)絡(luò)結(jié)構(gòu)更為統(tǒng)一、高效，同時(shí)在多目標(biāo)檢測(cè)中具有更高的召回率和更低的誤檢率，具體優(yōu)化如下：

（1）多輸入單輸出。為了增強(qiáng)算法移植性，本文將算法的多輸入多輸出，設(shè)計(jì)為類似于C語言的多輸入單輸出模式，使模型整體結(jié)構(gòu)更統(tǒng)一。

（2）ARConv。添加ARConv 能夠有效解決訓(xùn)練樣本不夠豐富造成的漏檢現(xiàn)象，并加快模型收斂。

（3）正負(fù)樣本限制。面對(duì)SSD 算法生成的正樣本較多導(dǎo)致誤識(shí)別增多，在樣本生成過程中對(duì)正樣本增加限制。

（4）P-NMS 算法。采用多框合并的方式對(duì)先驗(yàn)框進(jìn)行二次計(jì)算，用框的數(shù)量和概率來判斷該區(qū)域是否存在待測(cè)目標(biāo)降低誤檢率。

（5）單張圖片批量檢測(cè)。將單張測(cè)試圖片分塊處理，組合成同一批次輸入訓(xùn)練后的網(wǎng)絡(luò)，并行運(yùn)算。

實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性，相比以往的目標(biāo)檢測(cè)算法，效率明顯提升；與傳統(tǒng)SSD算法比較，能夠在較少的迭代時(shí)間內(nèi)，實(shí)現(xiàn)更高的mAP值，并且誤檢率明顯降低，魯棒性更強(qiáng)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡