馬原東,羅子江 ,倪照風(fēng),徐 斌,吳鳳嬌,孫收余 ,楊秀璋
1.貴州財(cái)經(jīng)大學(xué) 信息學(xué)院,貴陽 550025
2.北京盛開互動(dòng)科技有限公司,北京 100089
近年來,隨著計(jì)算機(jī)處理能力的提升和人工智能浪潮的推進(jìn),目標(biāo)檢測(cè)在人們?nèi)粘I钪邪缪葜絹碓街匾慕巧?。伴隨著目標(biāo)檢測(cè)的迅速發(fā)展,各種算法也不斷更新,目前主要的檢測(cè)算法可分為三類:(1)傳統(tǒng)目標(biāo)檢測(cè)算法。如Cascade[1]+HOG/DPM[2]+Haar/SVM[3],該類方法通過直接提取HOG/DPM特征,并送入已訓(xùn)練好的分類器進(jìn)行分類,該類算法檢測(cè)速度慢,檢測(cè)性能較低。(2)基于候選區(qū)域的目標(biāo)檢測(cè)。該方法分兩步實(shí)現(xiàn):①首先獲取每個(gè)像素點(diǎn)各自的特征,將兩個(gè)最為接近的特征組合,為避免邊界框之間的影響,設(shè)置不同閾值的檢測(cè)區(qū)域(Regions Of Interest,ROI)。 ② 采用SVM分類器和Logic函數(shù)計(jì)算損失,修正邊界,其中具有代表性的有 R-CNN[4]、Fast R-CNN[5]和 Faster R-CNN[6]等?;诤蜻x區(qū)域的檢測(cè)具有較高的精確度,但仍存在目標(biāo)檢測(cè)速度較慢,計(jì)算量較大等問題。(3)基于端對(duì)端學(xué)習(xí)的目標(biāo)檢測(cè)。該方法無需預(yù)先獲取候選框,直接采用卷積網(wǎng)絡(luò)提取圖像特征,網(wǎng)絡(luò)末端通過全連接層分別與分類損失和回歸損失連接,輸出對(duì)應(yīng)類別概率和位置信息,速度相對(duì)較快,具有代表性的有SSD[7]、YOLO[8]和Retina-Net,其中 SSD 算法是 Liu W 等人在 ECCV2016上提出的一種全新檢測(cè)算法,該算法在前向傳播過程中提取不同尺度下的特征圖,生成預(yù)選框送入網(wǎng)絡(luò),并通過反向傳播更新參數(shù),兼具高速和高識(shí)別率。SSD算法在目標(biāo)檢測(cè)[9-10]和目標(biāo)分類[11-12]中應(yīng)用同樣廣泛,其中,Li Haotian等人[13]提出一種基于特征金字塔融合SSD的小目標(biāo)檢測(cè)算法,該算法通過特征金字塔結(jié)構(gòu)將選定的多尺度特征層與尺度不變卷積層合并,提高小目標(biāo)檢測(cè)效率,但存在SSD 網(wǎng)絡(luò)結(jié)構(gòu)不統(tǒng)一、相對(duì)大目標(biāo)檢測(cè)魯棒性不足等問題;Liu Yi等人[14]提出一種具有前后幀指導(dǎo)的多目標(biāo)檢測(cè)算法,讓跨層的特征圖和網(wǎng)絡(luò)的側(cè)面輸出得到了充分利用,進(jìn)一步提升目標(biāo)檢測(cè)效率;陳幻杰[15]等人提出一種改進(jìn)的多尺度卷積特征目標(biāo)檢測(cè)方法,提高SSD模型對(duì)中目標(biāo)和小目標(biāo)的檢測(cè)精度。在多目標(biāo)檢測(cè)環(huán)境下,現(xiàn)有的算法已經(jīng)具有良好的檢測(cè)效果,但當(dāng)檢測(cè)環(huán)境較為復(fù)雜時(shí),仍存在較高的誤檢、漏檢率。本文針對(duì)現(xiàn)有的多目標(biāo)檢測(cè)算法存在的不足以及SSD內(nèi)部的網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),提出一種改進(jìn)SSD算法的多目標(biāo)檢測(cè),通過優(yōu)化SSD內(nèi)部網(wǎng)絡(luò)和提高訓(xùn)練樣本適用性的方式改善檢測(cè)性能;其中,采用修改網(wǎng)絡(luò)輸出并結(jié)合SENet[16]網(wǎng)絡(luò)添加抗旋轉(zhuǎn)卷積層(Anti Rotation Convolution,ARConv)來統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu),加快模型收斂、減少漏檢;提出概率非極大值抑制算法(Probability-Non Maximum Suppression,P-NMS)和限制函數(shù)來優(yōu)化訓(xùn)練樣本,減少誤檢;測(cè)試階段提出單張圖片批量測(cè)試方法,有效提高模型召回率;在Caffe框架下實(shí)現(xiàn)該算法,實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的有效性,相比傳統(tǒng)SSD 算法誤檢率、漏檢率明顯降低,模型魯棒性更強(qiáng)。
當(dāng)前主流算法可分為One-stage 和Two-stage 兩類,并且兩類算法在檢測(cè)速度和檢測(cè)性能上有著極為明顯的差距,其中,Two-stage 檢測(cè)速度整體偏慢;在精確度上Two-stage優(yōu)于YOLO,略低于SSD算法。SSD300在速度上比YOLO 快一倍,平均精確度(mean Average Precision,mAP)提高約15%,相比較于R-CNN 系列,速度提高7~2 000 倍,mAP 值提高約10%。具體對(duì)比結(jié)果如圖1 所示,SSD 算法整體效率明顯靠前,是目前應(yīng)用較為廣泛的目標(biāo)檢測(cè)算法。
圖1 不同檢測(cè)算法的性能比較
SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中多分類單桿檢測(cè)器表明定位目標(biāo)和分類任務(wù)是在網(wǎng)絡(luò)的一次前向傳遞中完成,同時(shí)表明 SSD 屬于 One-stage 算法;MultiBox[17-18]邊界框回歸技術(shù)表明SSD 采用多框預(yù)測(cè)方式實(shí)現(xiàn)目標(biāo)檢測(cè)。
圖2 SSD網(wǎng)絡(luò)結(jié)構(gòu)
SSD 輸入圖片尺寸為300×300,檢測(cè)框架主要由兩部分構(gòu)成,第一部分為VGG-16[19](骨干網(wǎng)絡(luò)可自由選擇如:MobileNet、ResNet)多層卷積提取特征得到Conv4_3的特征圖,該特征圖屬性為38×38×512;第二部分為多尺度檢測(cè)網(wǎng)絡(luò),用于對(duì)骨干網(wǎng)絡(luò)獲取的特征進(jìn)行多尺度特征提取。圖2中SSD在經(jīng)過VGG16網(wǎng)絡(luò)后繼續(xù)經(jīng)過卷積分別生成19×19×1 024、10×10×512、5×5×256、3×3×256、1×1×256的特征圖,檢測(cè)時(shí)設(shè)置不同的寬高比生成候選框,囊括不同尺寸目標(biāo),為后期目標(biāo)檢測(cè)和分類打下基礎(chǔ)。SSD 模型中特征提取采用逐層提取并抽象化的思想,運(yùn)用傳統(tǒng)卷積手段提取特征,并結(jié)合NMS生成對(duì)應(yīng)檢測(cè)框,雖然模型采用了不同卷積、不同尺度的特征數(shù)據(jù)進(jìn)行目標(biāo)檢測(cè),但對(duì)于復(fù)雜場(chǎng)景變換、目標(biāo)旋轉(zhuǎn)等情況下仍存在誤檢、漏檢率,本文在傳統(tǒng)SSD 架構(gòu)的基礎(chǔ)上,采用ARConv卷積和P-NMS算法替代原有的操作,提升模型整體效率。
3.1.1 多輸入單輸出
為了便于網(wǎng)絡(luò)輸出,并且能夠?qū)崿F(xiàn)與其他模型、框架的統(tǒng)一,本文將SSD 算法中的Multibox 層進(jìn)行修改,使其支持多輸入單輸出模式。傳統(tǒng)的Multibox 獲取多個(gè)輸入,輸出兩個(gè)結(jié)果,并在同一層內(nèi)對(duì)兩個(gè)輸出進(jìn)行損失計(jì)算。具體公式如下:
式中,x表示單個(gè)候選框?qū)儆陬A(yù)測(cè)類的概率值,范圍在{0,1}內(nèi),c表示置信度,l為預(yù)測(cè)框,g表示真實(shí)框,Lconf(x,c)、Lloc(x,l,g)分別為計(jì)算獲得的置信度損失值和定位損失值,α為拉格朗日乘子。傳統(tǒng)的SSD算法將獲取的多尺度特征送入Multibox層,并根據(jù)損失計(jì)算公式,輸出兩個(gè)對(duì)應(yīng)的特征集合,分別送入對(duì)應(yīng)的Lconf和Lloc損失公式,獲取最終值。該方法在算法設(shè)計(jì)上較為方便,但該網(wǎng)絡(luò)的設(shè)計(jì)與單輸出模型不同步,無法統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu),并且現(xiàn)有的深度學(xué)習(xí)框架,大多不支持類似多輸入多輸出模式。本文改進(jìn)Multibox層,將多輸入多輸出方式修改為多輸入單輸出,即輸入多尺度特征值后輸出一個(gè)多維的特征集合,通過在Caffe 框架中添加slice 層(該層主要用于切分輸出數(shù)據(jù))實(shí)現(xiàn)特征集合分類。slice 層根據(jù)輸入特征維度、正負(fù)檢測(cè)框?qū)傩?、?biāo)簽屬性、數(shù)量從輸出特征集合中為兩個(gè)損失函數(shù)分配不同的特征值,并獲取最終損失結(jié)果。算法思想如圖3 所示,(a)為傳統(tǒng)Multibox 層結(jié)構(gòu),(b)為改進(jìn)后的多輸入單輸出模式,多尺度輸入數(shù)據(jù)經(jīng)過Multibox層計(jì)算之后得到一個(gè)輸出集合,將輸出結(jié)果送入slice 層,根據(jù)輸入和標(biāo)簽屬性分割所需數(shù)據(jù)。該方法能夠統(tǒng)一網(wǎng)絡(luò)結(jié)構(gòu),使訓(xùn)練更清晰、流暢,并且讓網(wǎng)絡(luò)具有更強(qiáng)的可移植性,對(duì)不同的深度學(xué)習(xí)框架都有很好的適配效果。
圖3 多輸入單輸出結(jié)構(gòu)
3.1.2 ARConv抗旋轉(zhuǎn)卷積
深度學(xué)習(xí)中常見的數(shù)據(jù)擴(kuò)充方法包括鏡像、隨機(jī)裁剪、局部變形、原始圖像旋轉(zhuǎn)以及使用生成對(duì)抗網(wǎng)絡(luò)等。若大量采用此類數(shù)據(jù)擴(kuò)充方式,易造成訓(xùn)練集過大,訓(xùn)練難度增強(qiáng)、訓(xùn)練難收斂。本文在已有的數(shù)據(jù)擴(kuò)充方法上提出一種新穎的抗旋轉(zhuǎn)卷積層ARConv,該層以全新的網(wǎng)絡(luò)層的方式出現(xiàn)在網(wǎng)絡(luò)模型中,能夠降低訓(xùn)練后的模型對(duì)待測(cè)目標(biāo)旋轉(zhuǎn)的敏感度。ARConv 采用特征旋轉(zhuǎn)的方式,將高層卷積提取的信息送進(jìn)下一層或更深層的網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí),在減少目標(biāo)旋轉(zhuǎn)造成漏檢的同時(shí),加快模型收斂。傳統(tǒng)的卷積層,主要用于特征的提取,公式如下:
圖4 ARConv結(jié)構(gòu)
分支右側(cè)首先將所有特征圖做歸一化處理,并獲取單個(gè)批次中第i個(gè)特征圖內(nèi)(1~m)個(gè)特征值組成的矩陣,與同樣歸一化處理后的i+1 個(gè)特征圖內(nèi)積;度量公式如下:
式中引入相鄰特征圖余弦值,以為基準(zhǔn),采用內(nèi)積的方式獲取向量間余弦值,并通過公式(4)求得第i+1個(gè)特征圖的旋轉(zhuǎn)角度。之后將當(dāng)前位置的對(duì)應(yīng)角度輸入旋轉(zhuǎn)層;當(dāng)i=0 時(shí),此時(shí)獲取的特征矩陣為保存的上一批次旋轉(zhuǎn)后的最后一個(gè)特征圖矩陣。不同角度的特征旋轉(zhuǎn),可能會(huì)導(dǎo)致部分邊緣信息丟失;針對(duì)這一問題,分支左側(cè)引入單通道注意力機(jī)制,該機(jī)制可理解為從大量信息中有選擇地篩選出重要信息并聚焦,同時(shí)忽略大多數(shù)不重要信息;聚焦的過程體現(xiàn)在權(quán)重系數(shù)的計(jì)算上,權(quán)重越大表明該部分關(guān)注度越高。本文在訓(xùn)練中為每個(gè)通道賦予不同的權(quán)重值以建模通道的重要程度,加強(qiáng)對(duì)重要特征提取能力,降低因邊緣信息丟失造成的特征提取不充分,如圖5所示。
圖5 通道注意力機(jī)制
文中借鑒SENet[16]網(wǎng)絡(luò)的通道注意力機(jī)制和ResNeXt[20]的卷積分組方法,提出更適合ARConv 的Split Attention 機(jī)制,圖5 中單個(gè)批次中總共含有M個(gè)特征圖,每個(gè)特征圖內(nèi)包含m個(gè)通道,將特征圖連接后送入全局池化層,輸出對(duì)應(yīng)通道全局特征,之后接r-Softmax 賦予各通道不同的權(quán)重以建模通道的重要程度。假設(shè)給定輸入特征圖Y∈Rh×w×c,將特征圖沿輸入通道維度分成M組,用xi∈Rh×w×c表示各個(gè)分組,i∈{1,M},其中每個(gè)xi含有m=c/M個(gè)通道。分組后的特征圖在框架中以特征向量xi=[a1,a2,…,am]形式存儲(chǔ),其中每個(gè)通道am含有不同的特征響應(yīng),利用不同通道間的相互關(guān)系,采用全局平均池化聚合每個(gè)通道,映射生成對(duì)應(yīng)通道的權(quán)重信息,其中權(quán)重的每個(gè)元素都由特征圖的空間維度h×w全局平均得到,公式如下:
式(5)中,Sc表示聚合后通道的輸出權(quán)值,在獲取單通道權(quán)值信息后加入BN 層(Batch Normalization,BN)調(diào)整輸出比例,并接PRelu 增加權(quán)重非線性信息,最后輸入r-Softmax 函數(shù),將所有信息轉(zhuǎn)化為非負(fù)數(shù)并做歸一化,輸出各通道權(quán)值,其中⊕表示逐元素相加,?表示逐元素相乘。文中采用BN層和PRelu激活函數(shù)代替?zhèn)鹘y(tǒng)注意力機(jī)制的兩個(gè)全連接層和Sigmoid 函數(shù),降低Split Attention 帶來的參數(shù)量,接著連接r-Softmax 函數(shù)避免權(quán)重逐元素相乘時(shí)引入更多噪音信息干擾特征提取,然后再與輸入模塊進(jìn)行跨通道整合讓淺層信息保留到深層網(wǎng)絡(luò)提升模型決策能力,輸出帶權(quán)值特征矩陣并結(jié)合角度信息旋轉(zhuǎn)特征。
(1)漏檢率分析。ARConv 層根據(jù)矩陣運(yùn)算后輸出特征圖的大小、特征數(shù)據(jù)在網(wǎng)絡(luò)中的存儲(chǔ)方式、特征向量的變化角度等進(jìn)行特征旋轉(zhuǎn),并添加通道注意力機(jī)制,通過擬合多組權(quán)重向量來精細(xì)捕捉高層特征送入下一層卷積。通過不斷的學(xué)習(xí)使下一層卷積的輸入特征更具統(tǒng)一性,同時(shí)讓整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)能力增強(qiáng),訓(xùn)練結(jié)果具備更強(qiáng)的魯棒性,同時(shí)降低因待測(cè)目標(biāo)旋轉(zhuǎn)而造成的漏識(shí)別。實(shí)驗(yàn)驗(yàn)證及注意力權(quán)重可視化結(jié)果表明,通道注意力機(jī)制賦予各通道不同權(quán)重值信息,在兼顧粗特征提取基礎(chǔ)上能夠進(jìn)一步提升待測(cè)目標(biāo)各成分間重要性的區(qū)分度,從而有助于復(fù)雜環(huán)境下的多目標(biāo)分類與提取。
(2)收斂性分析。添加ARConv層對(duì)淺層輸入特征進(jìn)行對(duì)應(yīng)角度的特征旋轉(zhuǎn),使高層卷積獲取的特征值含有的旋轉(zhuǎn)屬性較少,學(xué)習(xí)難度降低,同時(shí)訓(xùn)練集中旋轉(zhuǎn)樣本數(shù)量可適量減少;加入單通道注意力機(jī)制,推導(dǎo)并制定出一整套類別權(quán)重計(jì)算方法,各個(gè)類別權(quán)重作為參數(shù)量與r-softmax 損失函數(shù)共同參與訓(xùn)練。類別權(quán)重信息的引入,可杜絕原始采樣所引入的隨機(jī)誤差,保證待測(cè)目標(biāo)的固有屬性。實(shí)驗(yàn)結(jié)果表明,該方法在改善目標(biāo)特征提取不平衡問題的同時(shí),加速了訓(xùn)練階段模型整體的收斂速率。相同訓(xùn)練環(huán)境下,添加ARConv層網(wǎng)絡(luò)的訓(xùn)練集更少,收斂速度更快,有效縮短模型訓(xùn)練時(shí)間。多目標(biāo)檢測(cè)情況下,能夠有效解決訓(xùn)練樣本不夠豐富造成的模型無法識(shí)別旋轉(zhuǎn)目標(biāo)以及魯棒性不足的問題;同時(shí)還能增強(qiáng)模型學(xué)習(xí)能力降低漏檢率,加快模型收斂。
3.2.1 正負(fù)樣本限制
在多人物檢測(cè)中,若單張圖片中存在多個(gè)目標(biāo),會(huì)導(dǎo)致檢測(cè)結(jié)果的正樣本框數(shù)量過多。傳統(tǒng)的SSD 算法只對(duì)負(fù)樣本的數(shù)量進(jìn)行選擇,忽略了正樣本數(shù)量過多導(dǎo)致負(fù)樣本數(shù)量過少的情況,經(jīng)過改進(jìn)后的SSD算法通過在網(wǎng)絡(luò)配置文件中設(shè)置超參數(shù),判斷是否需要對(duì)正樣本的數(shù)量進(jìn)行限制,能夠解決由于正樣本過多而造成的誤識(shí)別情況。算法思想如下:根據(jù)網(wǎng)絡(luò)配置文件,確定正負(fù)樣本比例(本文設(shè)定為1∶3),并求出最大正樣本的數(shù)量,如式(6)所示:
式中,MPnum為最大正樣本數(shù)量,PBnum為先驗(yàn)框總數(shù),(1+3)取值根據(jù)配置文件中的正負(fù)樣本比例設(shè)置;判斷正樣本數(shù)量是否超出限制,若數(shù)量正常,直接進(jìn)行下一步,若數(shù)量過多,隨機(jī)刪除部分正樣本數(shù)量(隨機(jī)刪除可保證樣本多樣性)刪除數(shù)量如下:
式中,Nnum表示負(fù)樣本數(shù)量,Pnum表示正樣本數(shù)量,Denum為需要?jiǎng)h除的正樣本數(shù)量。
3.2.2 P-NMS算法
多目標(biāo)檢測(cè)中,生成待測(cè)框集合之后,如何提取最優(yōu)框是衡量目標(biāo)檢測(cè)性能的關(guān)鍵。目前多采用非極大值抑制[21](Non-Maximum Suppression,NMS)提取最優(yōu)框,傳統(tǒng)NMS 算法無法排除個(gè)別非目標(biāo)檢測(cè)區(qū)域出現(xiàn)單個(gè)誤檢框,因此本文提出P-NMS 算法對(duì)需要顯示的先驗(yàn)框集合進(jìn)行二次計(jì)算,用框的數(shù)量和概率來判斷該區(qū)域是否有檢測(cè)目標(biāo),從而達(dá)到降低誤檢率的目的。
傳統(tǒng)NMS算法步驟如下:(1)對(duì)所有檢測(cè)框集合進(jìn)行降序排列,放入先驗(yàn)框集合Confidence中。(2)按置信度從大到小遍歷所有檢測(cè)框,單個(gè)檢測(cè)框分別與剩余所有框進(jìn)行交并比(Intersection-over-Union,IOU)[22]運(yùn)算,如果IOU大于某個(gè)閾值,則在Confidence集合中刪除該框位置,并將最大概率框放入集合MaxConfidence 中。(3)集合MaxConfidence 保留該圖片所有框的坐標(biāo)以及置信度,用于后續(xù)姿態(tài)分類。若存在單個(gè)檢測(cè)框誤檢情況,會(huì)導(dǎo)致Confidence 集合得分非常高,極易出現(xiàn)誤檢影響檢測(cè)整體性能。如圖6(a)表示傳統(tǒng)NMS處理之前效果,(b)表示NMS 處理之后效果,其中紅色表示該區(qū)域內(nèi)置信度最高的框,綠色表示與紅色框交并比大于閾值的預(yù)測(cè)框。
圖6 傳統(tǒng)NMS性能圖
如圖6(b)所示,傳統(tǒng)NMS 檢測(cè)后會(huì)出現(xiàn)左上角窗戶位置的紅色誤檢框,并且類似情況在檢測(cè)中常有發(fā)生,傳統(tǒng)算法無法排除此類框,針對(duì)該問題,本文提出P-NMS算法,具體步驟如下:(1)首先對(duì)先驗(yàn)框集合Confidence按置信度得分排序。(2)選取置信度較高的框,并與剩余框進(jìn)行IOU計(jì)算,當(dāng)IOU大于某個(gè)閾值,刪除該框,且在MaxConfidence 集合中對(duì)此計(jì)數(shù)。(3)MaxConfidence 集合保留目標(biāo)檢測(cè)框坐標(biāo)并對(duì)檢測(cè)框做數(shù)值統(tǒng)計(jì)(包括:每個(gè)目標(biāo)IOU大于閾值的數(shù)量、大于IOU閾值的集合中置信度最高檢測(cè)框坐標(biāo)以及該集合置信度得分總和)。(4)進(jìn)行平均置信度求值,當(dāng)該值大于設(shè)定的顯示閾值時(shí),標(biāo)定該框?yàn)樽罱K目標(biāo)位置,具體如式(10)和(11)所示:
式中,num表示該框與其他所有剩余框進(jìn)行IOU 計(jì)算之后,IOU大于設(shè)定閾值的數(shù)量;MeanConfidence表示該集合內(nèi)平均置信度,根據(jù)檢測(cè)情況選擇不同的計(jì)算模式(包括平均概率模式和最大概率模式,文中選擇最大概率模式)。P-NMS不僅考慮置信度的大小,同時(shí)考慮待測(cè)目標(biāo)周圍檢測(cè)框數(shù)量。實(shí)際檢測(cè)中,不同目標(biāo)、不同網(wǎng)絡(luò)、不同環(huán)境下,設(shè)定的閾值也不相同,閾值具體設(shè)計(jì)思路如下:(1)首先根據(jù)訓(xùn)練結(jié)果統(tǒng)計(jì)檢測(cè)框的置信度得分,獲取得分最大值j和置信度眾數(shù)k確定閾值區(qū)間{k,j}。(2)統(tǒng)計(jì)單個(gè)目標(biāo)平均生成檢測(cè)框數(shù)量a,在閾值區(qū)間內(nèi)以0.1為間隔取不同的置信度值{c1,c2,…,cn}∈{k,j},求取對(duì)應(yīng)閾值。(3)對(duì)閾值集合中的所有值分別進(jìn)行檢測(cè)框閾值判定并統(tǒng)計(jì)誤檢率,選取誤檢率最低時(shí)對(duì)應(yīng)的閾值c′n作為最終閾值。
改進(jìn)后的置信度比較如圖7所示,將圖6(b)中處理后的誤檢情況和準(zhǔn)確檢測(cè)框放大,其中圖7(a)為置信度得分為0.81的誤檢框,圖7(b)為置信度得分為0.83的正確檢測(cè)框,兩者得分很接近,難以通過閾值判定是否保留該框。由圖6(a)可知,圖7(a)位置只有一個(gè)預(yù)測(cè)框,圖7(b)周圍和該框IOU 大于閾值框數(shù)量有6 個(gè),包括5個(gè)置信度較低的綠色框,1個(gè)置信度較高的紅色框。通過P-NMS公式計(jì)算兩張圖片的置信度分別為:
圖7 置信度比較
通過對(duì)比測(cè)試獲取此時(shí)的閾值為0.92,由此判定圖7(a)為誤檢框,并刪除該位置檢測(cè)框,框的數(shù)量越多,表明該區(qū)域出現(xiàn)目標(biāo)的可能性越大,最終Confidence越高,結(jié)果越可靠。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的P-NMS算法能有效減少誤檢率。
傳統(tǒng)檢測(cè)方法將單張待測(cè)圖片送入已訓(xùn)練好的網(wǎng)絡(luò)模型獲取檢測(cè)結(jié)果;測(cè)試過程中往往由于圖像縮放造成待測(cè)圖片失真,從而導(dǎo)致檢測(cè)效率下降。本文根據(jù)SSD算法及數(shù)據(jù)集特點(diǎn),提出分塊測(cè)試算法。設(shè)計(jì)思路如下:(1)設(shè)置測(cè)試所需的分塊的數(shù)量parts(根據(jù)原圖大小和圖像輸入大小設(shè)定,本文將原圖分為5 個(gè)parts)。(2)將分塊后圖片縮放到網(wǎng)絡(luò)輸入尺寸。(3)對(duì)分塊后存儲(chǔ)的數(shù)據(jù)進(jìn)行循環(huán)讀取。(4)依次存入內(nèi)存,并進(jìn)行通道分離、歸一化操作。(5)批處理所有數(shù)據(jù),分別輸出每個(gè)框的坐標(biāo)集合。(6)將每個(gè)框的坐標(biāo)反算到原圖的坐標(biāo)得到相對(duì)于原圖的真實(shí)坐標(biāo)。(7)使用P-NMS算法對(duì)所有框進(jìn)行合并。
由于計(jì)算機(jī)硬件以及內(nèi)存限制,SSD算法在進(jìn)行目標(biāo)檢測(cè)時(shí),需要將原圖縮放至網(wǎng)絡(luò)輸入大小,在多目標(biāo)情況下,縮小后的圖片極易造成失真導(dǎo)致檢測(cè)能力較弱,因此本文提出單張圖片批量檢測(cè)方法在一定程度上解決了小目標(biāo)檢測(cè)難的問題,在耗費(fèi)少量測(cè)試時(shí)間前提下顯著提高了召回率。
本文采用常用數(shù)據(jù)集PASCAL VOC集與自建人物屬性數(shù)據(jù)集(主要涉及教室、商場(chǎng)等多人物環(huán)境)組成混合訓(xùn)練集共同訓(xùn)練,其中訓(xùn)練集共874 523張,測(cè)試集共15 463張,涉及了各種姿態(tài)、光照、背景。數(shù)據(jù)集中人物包含各種表情、動(dòng)作和遮擋,高度貼合現(xiàn)實(shí)環(huán)境中的場(chǎng)景識(shí)別。該數(shù)據(jù)集包含權(quán)威數(shù)據(jù)集PASCAL VOC,并在權(quán)威數(shù)據(jù)集中添加自建的多類別數(shù)據(jù)集,不僅保證數(shù)據(jù)集的廣泛性和權(quán)威性,同時(shí)也增加目標(biāo)檢測(cè)的難度,讓實(shí)驗(yàn)更具挑戰(zhàn)性。為保證檢測(cè)算法的魯棒性,文中采用圖像增強(qiáng)的方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,包括模擬光照變化、灰度變換、模糊處理等。
實(shí)驗(yàn)測(cè)試PC機(jī)環(huán)境:CPU選取Intel?Core?i7-4590,顯卡NVIDIA GTX 1080Ti,采用Visual Studio 2013,OpenCV2.4.8 和Caffe 框架實(shí)現(xiàn)改進(jìn)型SSD 算法的多目標(biāo)檢測(cè)。
4.3.1 定量分析
為了驗(yàn)證本文所提出的基于改進(jìn)SSD 算法的多目標(biāo)算法性能,本文將從mAP 值、誤檢率、漏檢率和參數(shù)量進(jìn)行對(duì)比實(shí)驗(yàn)。AP 值衡量模型在每個(gè)類別上的好壞,具體公式如下:
式中,TP為預(yù)測(cè)為正的正樣本,F(xiàn)N為預(yù)測(cè)為負(fù)的正樣本,F(xiàn)P為預(yù)測(cè)為正的負(fù)樣本,mAP 值為所有類別的Precision平均值;浮點(diǎn)運(yùn)算數(shù)用來量模型參數(shù)量。網(wǎng)絡(luò)主要采用原始SSD 300、傳統(tǒng)SSD 512與改進(jìn)后的網(wǎng)絡(luò)對(duì)比,在實(shí)驗(yàn)中確保各算法軟硬件環(huán)境的一致性,以及訓(xùn)練集、測(cè)試集的統(tǒng)一。訓(xùn)練參數(shù)如下:初始學(xué)習(xí)率0.001,權(quán)值衰減項(xiàng)為0.000 5,動(dòng)量為0.9,批次為64,采用隨機(jī)梯度下降算法更新參數(shù)。
傳統(tǒng)模型與本文所提出模型在測(cè)試集中整體性能對(duì)比結(jié)果如表1所示,其中+ARConv表示僅添加本文所提卷積層,SSD…(ours)表示添加ARConv 及P-NMS 算法,表1中分別對(duì)SSD 300及SSD 512做優(yōu)化前后的性能對(duì)比,從表1 中可以看出,雖然傳統(tǒng)SSD 300 和SSD 512 算法已經(jīng)有較理想的準(zhǔn)確率,且在PASCAL VOC測(cè)試集中mAP值分別達(dá)到77.3%和80.2%,但傳統(tǒng)算法漏檢率較高,這是由于網(wǎng)絡(luò)無法有效識(shí)別旋轉(zhuǎn)位置變換和復(fù)雜環(huán)境下的目標(biāo)并且模型的特征提取能力有限,在加入ARConv卷積層后,此時(shí)算法增強(qiáng)對(duì)目標(biāo)的識(shí)別能力,表中結(jié)果顯示SSD 300+ARConv 旋轉(zhuǎn)漏檢率降低0.47 個(gè)百分點(diǎn),正面漏檢率降低0.11 個(gè)百分點(diǎn),SSD 512+ARConv旋轉(zhuǎn)漏檢率降低0.48個(gè)百分點(diǎn),正面漏檢率降低0.09 個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了添加ARConv卷積能增強(qiáng)模型識(shí)別能力降低漏檢,其中ARConv旋轉(zhuǎn)機(jī)制增強(qiáng)旋轉(zhuǎn)目標(biāo)檢測(cè)力,注意力機(jī)制增強(qiáng)算法正面目標(biāo)檢測(cè)力。在模型性能方面,僅添加ARConv后該算法的mAP 值已超越傳統(tǒng)算法,表明對(duì)不同通道賦予不同的權(quán)值能夠輔助提升模型對(duì)目標(biāo)的表征能力提高模型檢測(cè)準(zhǔn)確性,從而進(jìn)一步影響下游相關(guān)特征提取效果;此外,實(shí)驗(yàn)過程中發(fā)現(xiàn)帶類別權(quán)重的注意力機(jī)制在保證模型性能的同時(shí)加速了訓(xùn)練過程的收斂速率。實(shí)際多人物測(cè)試環(huán)境下,通道注意力機(jī)制對(duì)待測(cè)目標(biāo)復(fù)雜環(huán)境中的信息具有較強(qiáng)的學(xué)習(xí)和捕捉能力,使得模型對(duì)多目標(biāo)檢測(cè)有更好的表征性能,而在此基礎(chǔ)上引入帶權(quán)學(xué)習(xí)的損失函數(shù)可進(jìn)一步提升模型在訓(xùn)練階段的擬合能力,從而提高目標(biāo)檢測(cè)效率、加快收斂。
表1 優(yōu)化對(duì)比結(jié)果
添加ARConv 卷積后帶來漏檢率降低的同時(shí)也引入更多誤檢框,模型分類難度增加,網(wǎng)絡(luò)誤檢率略有提高,此時(shí)添加P-NMS算法調(diào)整邊界框置信度判定方式,SSD 300(ours)相比SSD 300+ARConv誤檢率有明顯降低,與傳統(tǒng)SSD 300 相比誤檢率下降0.19 個(gè)百分點(diǎn),此時(shí)模型達(dá)到誤檢率與漏檢率的平衡,SSD 512(ours)優(yōu)化后模型誤檢率同樣有所降低;在參數(shù)量方面,采用ARConv 卷積后 SSD 300 和 SSD 512 算法參數(shù)量整體低于傳統(tǒng)SSD算法,在提取圖像特征過程中運(yùn)算量降低,能有效提升算法的運(yùn)算速度,增強(qiáng)實(shí)時(shí)性;相比傳統(tǒng)的SSD 300 和SSD 512 本文所提的算法SSD 300(ours)、SSD 512(ours)mAP值分別提升2.4個(gè)百分點(diǎn)和1.9個(gè)百分點(diǎn)。通過實(shí)驗(yàn)結(jié)果可知,特征信息能夠在ARConv機(jī)制的作用下得到更好的捕捉和表達(dá);待測(cè)框能夠在PNMS 算法下得到更好的篩查和過濾;實(shí)驗(yàn)結(jié)果驗(yàn)證了同時(shí)驗(yàn)證了添加ARConv 卷積以及P-NMS 算法能實(shí)現(xiàn)提升模型整體性能的設(shè)計(jì)目標(biāo)。
實(shí)驗(yàn)對(duì)比結(jié)果如圖8所示,輸入教室多人物視角下的待測(cè)圖片,將傳統(tǒng)SSD 300 與優(yōu)化后的SSD 300 做對(duì)比測(cè)試,網(wǎng)絡(luò)輸入是300×300,原始輸入圖片大小為1 920×1 080,圖8(a)中顯示傳統(tǒng)SSD 300 檢測(cè)過程中出現(xiàn)大量漏檢情況,部分人臉無法識(shí)別檢測(cè)效率較低;改進(jìn)后添加ARConv 卷積以及P-NMS 算法的SSD 300檢測(cè)效率明顯提升,誤檢情況也得到有效改善,對(duì)歪頭、側(cè)臉等難以識(shí)別的人臉區(qū)域都有較高的檢測(cè)率,相較于傳統(tǒng)SSD 300,優(yōu)化后模型檢測(cè)效率明顯提升。
圖8 檢測(cè)算法對(duì)比
4.3.2 定性測(cè)試
在定性對(duì)比實(shí)驗(yàn)中,同樣使用mAP 指標(biāo)來衡量網(wǎng)絡(luò)性能,選取SPP-net BB(ZF5)[23]、Fast R-CNN[24]、YOLO[8]、YOLOv2 228、SSD 300、SSD 512與改進(jìn)后的SSD 300、SSD 512算法進(jìn)行比較,表2顯示了各算法在相同環(huán)境下的性能。從表中結(jié)果能夠發(fā)現(xiàn),改進(jìn)后的SSD 300(ours)迭代85 輪后達(dá)到收斂,迭代次數(shù)最少、收斂性較強(qiáng),優(yōu)化后的 SSD 512(ours)算法相比SSD 512 收斂性同樣增強(qiáng),這一驗(yàn)證結(jié)果表明本文所提算法能加速模型收斂速率,其原因在于各通道總體損失的貢獻(xiàn)得到平衡,因此一定程度上縮小了模型參數(shù)收斂空間,從而提升模型收斂速率。與其他測(cè)試算法對(duì)比,優(yōu)化后SSD 300(ours)在較少的迭代時(shí)間內(nèi)具有更高的mAP值,實(shí)際檢測(cè)速度達(dá)62 f/s,與相同領(lǐng)域的YOLO 算法相比在減少15 輪迭代的同時(shí),檢測(cè)速度增加接近3 倍,mAP 值提升13.2 個(gè)百分點(diǎn);與性能更為突出的YOLOv2 228 相比,檢測(cè)速度幾乎持平,但收斂更快,mAP值提升10.7個(gè)百分點(diǎn);優(yōu)化后的SSD 512(ours)算法由于網(wǎng)絡(luò)限制,相比SSD 300收斂性略有下降,仍能達(dá)到對(duì)比算法的平均迭代水平,與YOLO 算法相比收斂性幾乎持平,但誤檢率下降近一半,mAP值提升15.6個(gè)百分點(diǎn);與Two-stage領(lǐng)域的Fast R-CNN 算法相比,檢測(cè)速度提升近4 倍,mAP 高出 15.2 個(gè)百分點(diǎn)。SSD 300(ours)相較于傳統(tǒng)SSD 300 改進(jìn)后的算法在較少的迭代次數(shù)下具有理想的檢測(cè)性能、收斂性更強(qiáng),其中誤檢率降低0.19 個(gè)百分點(diǎn),檢測(cè)速度提升 16 f/s,mAP 提升 2.4 個(gè)百分點(diǎn);SSD 512(ours)相比傳統(tǒng) SSD 512,在檢測(cè)速度、誤檢率、mAP值上同樣實(shí)現(xiàn)較為可觀的性能提升,誤檢率、mAP值在所有模型中達(dá)到最優(yōu),但相比優(yōu)化后的SSD 300檢測(cè)速度和收斂性較弱,其原因在于SSD 512網(wǎng)絡(luò)模型更大,參數(shù)量更多,導(dǎo)致訓(xùn)練難度增強(qiáng)。結(jié)合表2 的對(duì)比結(jié)果可知,優(yōu)化后的SSD 算法增加大量候選檢測(cè)窗口、提升目標(biāo)檢測(cè)精度,對(duì)不同角度、不同環(huán)境的待測(cè)目標(biāo)檢測(cè)效果都有提升;對(duì)比所有算法,優(yōu)化后SSD 300 訓(xùn)練難度低、收斂性較強(qiáng),同時(shí)具有理想的mAP 值,在所有算法中整體性能最優(yōu);優(yōu)化后SSD 512由于網(wǎng)絡(luò)結(jié)構(gòu)的限制,收斂性和檢測(cè)速度低于SSD 300,但mAP值達(dá)到最優(yōu)、具有更低的誤檢、漏檢率,實(shí)際檢測(cè)性能較強(qiáng)。實(shí)驗(yàn)結(jié)果驗(yàn)證了改進(jìn)后的SSD 算法能夠降低模型訓(xùn)練時(shí)間,增強(qiáng)網(wǎng)絡(luò)收斂性,有效降低誤檢、漏檢率,整個(gè)模型具有更理想的檢測(cè)效果。
表2 各類檢測(cè)算法性能對(duì)比
本文基于原有SSD 算法在實(shí)際使用中存在的問題進(jìn)行改進(jìn),使算法的網(wǎng)絡(luò)結(jié)構(gòu)更為統(tǒng)一、高效,同時(shí)在多目標(biāo)檢測(cè)中具有更高的召回率和更低的誤檢率,具體優(yōu)化如下:
(1)多輸入單輸出。為了增強(qiáng)算法移植性,本文將算法的多輸入多輸出,設(shè)計(jì)為類似于C語言的多輸入單輸出模式,使模型整體結(jié)構(gòu)更統(tǒng)一。
(2)ARConv。添加ARConv 能夠有效解決訓(xùn)練樣本不夠豐富造成的漏檢現(xiàn)象,并加快模型收斂。
(3)正負(fù)樣本限制。面對(duì)SSD 算法生成的正樣本較多導(dǎo)致誤識(shí)別增多,在樣本生成過程中對(duì)正樣本增加限制。
(4)P-NMS 算法。采用多框合并的方式對(duì)先驗(yàn)框進(jìn)行二次計(jì)算,用框的數(shù)量和概率來判斷該區(qū)域是否存在待測(cè)目標(biāo)降低誤檢率。
(5)單張圖片批量檢測(cè)。將單張測(cè)試圖片分塊處理,組合成同一批次輸入訓(xùn)練后的網(wǎng)絡(luò),并行運(yùn)算。
實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性,相比以往的目標(biāo)檢測(cè)算法,效率明顯提升;與傳統(tǒng)SSD算法比較,能夠在較少的迭代時(shí)間內(nèi),實(shí)現(xiàn)更高的mAP值,并且誤檢率明顯降低,魯棒性更強(qiáng)。