王一婷,張 柯,李 捷,郝宗波*,段 昶,朱 策
(1.電子科技大學信息與軟件工程學院,成都 610054;2.四川九洲電器集團有限責任公司,四川綿陽,621000;3.西南石油大學電氣信息工程學院,成都 610500;4.電子科技大學信息與通信工程學院,成都 611731)
(?通信作者電子郵箱zbhao@uestc.edu.cn)
圖像和視頻檢測一直是計算機視覺領(lǐng)域比較熱門的難題,深度學習的發(fā)展為目標檢測實現(xiàn)提供了一個可靠的解決途徑。YOLO(You Only Look Once)[1]正是一個基于深度學習的實時物體檢測系統(tǒng),從面世至今YOLO 一共有三個版本。YOLOv1[1]受到關(guān)注的原因是因為它具有非??斓臋z測速度。然而由于追求快速檢測,YOLOv1 不可避免地在其他方面做出了一些犧牲,比如YOLOv1 對于相互靠得很近的物體、很小的群體檢測效果不好,泛化能力也比較弱[2]。YOLOv2[3]與YOLOv1 相比較,具有了“Faster,Better,Stronger”的特點,但同時也具有一些缺點,比如仍然無法很好地識別小物體、使用softmax 分類器之后僅僅只支持單標簽對象等[3]。YOLOv3[4]與YOLOv2版本相比,使用logistic 分類器以支持多標簽對象,借鑒殘差網(wǎng)絡(luò)(Residual Network,ResNet)[5]得到了更好的基礎(chǔ)分類網(wǎng)絡(luò)Darknet-53,所以檢測速度和識別準確率都有所提高。
因此考慮到如果要對同一場景中同時出現(xiàn)的多尺度目標物體(如圖1 所示,飛機的尺度比遠處行人大數(shù)百倍)進行實時檢測,出于實時檢測的要求,選用YOLOv3 進行檢測無疑是非常合適的[6]。
圖1 包含超大超小目標的常規(guī)檢測圖Fig.1 Regular detection image with super-large and super-small objects
但是由于YOLOv3 在每個網(wǎng)格(grid)中僅預測兩個邊界框(Bounding Box),這種約束減少了對同一個目標的多次檢測,即使是對正常尺度范圍內(nèi)的物體進行檢測,YOLOv3 也具有識別物體位置精準性差、召回率低的缺點,所以想對同一場景中出現(xiàn)的超大超小物體進行很好的實時檢測,僅僅使用YOLOv3是無法滿足要求的[7]。
為了解決YOLOv3 不能對超大超小物體進行很好的檢測問題,本文對YOLOv3 進行了以下兩個方面的改進:1)針對同一場景出現(xiàn)的超大、超小目標,改進和設(shè)計了基于YOLOv3 框架的目標物體檢測方法,結(jié)合金字塔技術(shù),對不同尺度的目標物體在不同層提取特征,不同尺度的物體檢測在不同的特征層輸出;2)在訓練過程中,針對不同物體,采用動態(tài)交并比IoU(Intersection over Union,IoU)和獨立通道,較好地進行了超大超小目標物體的檢測。
物體檢測一直是計算機視覺領(lǐng)域中熱門經(jīng)典的研究方向,隨著深度學習的不斷發(fā)展,物體檢測也逐漸由傳統(tǒng)的方法轉(zhuǎn)向使用深度學習進行檢測的方法?;谏疃葘W習的物體檢測算法有效地提高了物體檢測的準確率與速度,主要可以分為兩大類:two-stage的算法和one-stage的算法。two-stage的算法主要是先由算法生成一系列作為樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)進行分類,這一類的算法主要包括:R-CNN(Regions with Convolution Neural Network features)[8]、Fast R-CNN(Fast R-CNN)[9]、Faster R-CNN(Faster Regions with Convolution Neural Network features)[10]等。而one-stage 的算法則不用產(chǎn)生候選框,直接將目標定位的問題轉(zhuǎn)化為回歸問題處理,這類算法主要包括:YOLO、SSD(Single Shot MultiBox Detector)[11]、CenterNet[12]等。兩類方法基礎(chǔ)原理的不同,導致了兩類算法性能的不同:twostage 的算法可以分步訓練共享檢測結(jié)果,所以在檢測準確率和定位精度上占有優(yōu)勢;而one-stage 的算法則由于能實現(xiàn)完整單次訓練共享特征,所以可以在保證一定正確率的前提下在算法速度上占有優(yōu)勢,做到真正意義上的實時效果[13]。
而在圖像分類這個問題上,深度學習的發(fā)展飛速,在ImageNet 的分類問題上top-5 的誤差從15%降到2%,這是一個在1 000 類圖像分類問題上超越人類分類能力的結(jié)果。但是在目標檢測問題上,最好的檢測器在COCO(Common Objects in COntext)數(shù)據(jù)集上,即使有50%的重合率,檢測準確率也只有62%。
待檢測目標在圖像中的大尺度變化范圍,尤其是小目標檢測是目標檢測諸多難點中最顯著的一個。在數(shù)據(jù)集ImageNet(物體分類)和COCO(物體檢測)中,中等尺度目標在圖像中的占比分別是0.554 和0.106,所以在COCO 中大部分目標在圖像中占據(jù)小于1%的面積,并且COCO 最小最大10%的目標在圖像中的占面積比分別是0.024和0.472(導致尺度相差近20 倍)。這種大尺度范圍的變化導致目標檢測極具挑戰(zhàn)性,需要深度卷積網(wǎng)絡(luò)具備非常好的尺度不變性和特征表征能力,然而檢測器一般都是在圖像分類數(shù)據(jù)庫上預訓練,再進行微調(diào)得到的,由于檢測和分類中的目標尺度差異很大,這又導致了一個大的領(lǐng)域遷移,因此超大超小物體檢測比物體分類要難很多。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像處理方面表現(xiàn)出極其優(yōu)異的性能,而深度卷積神經(jīng)網(wǎng)絡(luò)隨著層數(shù)的加深,性能會得到進一步的提升,但各層提取的特征和作用是不一樣的,低層提取的是比較精細的特征,如角點、邊緣、紋理等,高層提取的是抽象的特征,包含更多語義方面的信息。低層網(wǎng)絡(luò)提取的特征更加豐富,適合于提取細節(jié)信息,對小物體有較好的作用,同時對精確定位更有幫助,而高層網(wǎng)絡(luò)對大尺度物體具有更好的抽象效果。本文考慮如何在同一幀圖像中檢測小尺度物體與大尺度物體,比如在一個機場跑道環(huán)境下,近處的飛機和遠處的行人、汽車等,尺度會相差非常大,由于攝像頭分辨率有限,小尺度物體一旦與大尺度物體在同一幀中出現(xiàn)就會自動演化成超小尺度物體,同理,原本的大尺度物體也會成為超大尺度物體,如圖2所示。
此時如果識別超小尺度物體,如遠處的行人、汽車等,就從較低層網(wǎng)絡(luò)開始輸出,這樣做雖然看似特征不夠抽象,但是是有意義的。因為超小尺度物體在本幀圖像中本來像素占比就少,如果再經(jīng)過多層抽象(卷積、下采樣等),剩余的信息就更少,反而會把周圍背景的信息引入進來,從而難以得到滿意的效果。因此對于超小尺度物體,如遠處的行人目標,本文考慮將從更淺的低層網(wǎng)絡(luò)直接進行檢測;對尺度中等的物體,如遠處的汽車、卡車目標,從低層和中層網(wǎng)絡(luò)聯(lián)合檢測;對超大尺度的物體,如近處的飛機目標,從高層網(wǎng)絡(luò)特征進行檢測。
YOLOv3 網(wǎng)絡(luò)一共有106 層:其中第0 層到第74 層(前74層包含53 個卷積層)主要用于提取檢測目標特征;第75 層到第105 層為YOLO 網(wǎng)絡(luò)的特征交互層。其中,第75 層到第81層是小尺度YOLO層;將第79層的特征圖卷積進行上采樣后,再與第61層的中尺度特征圖進行合并卷積形成中尺度YOLO層;將第91 層的特征圖卷積進行上采樣后,再與第36 層的中尺度特征圖進行合并卷積形成大尺度YOLO 層。在訓練時,不同類別的樣本進入不同的通道,如超小尺度樣本的誤差在較淺層時,輸出分類和定位的誤差并反向更新前55 層的權(quán)重系數(shù);當遇到中等尺度的訓練樣本時,前83 層和95 層得到更新;遇到超大尺度樣本時,所有層的權(quán)重都得到更新。此外在網(wǎng)絡(luò)中,前55 層應(yīng)用所有Anchor 類型,即1∶3、3∶1 和1∶1(分別對應(yīng)飛機、行人和汽車類目標)都用到,三種類型的目標物體都被檢測;在55~95 層只用到對應(yīng)中等尺度樣本和超大尺度樣本Proposal 的Anchor 模板,最小尺度的目標不在55 層之后檢測;95層之后只應(yīng)用1∶3的超大尺度目標物體的Anchor,對應(yīng)于超大尺度目標。該改進可以使得超大尺度目標物體在更加抽象的粗粒度特征上進行分類,有利于對物體的識別,同時高層特征不會受超小尺度樣本的影響,更有利于超大尺度樣本的定位。
本文對于YOLO 網(wǎng)絡(luò)結(jié)構(gòu)的改進一方面保留了超小尺度物體更多的細節(jié)信息,另外一方面可以獲取更精準的定位精度,同時超小尺度樣本類別的提前輸出,使得訓練能夠更快地收斂。
因為本文考慮到超小檢測目標和超大檢測目標可能出現(xiàn)在同一場景中,且超大、超小目標在監(jiān)控區(qū)域內(nèi)尺度會隨著運動不斷變化,因此為了同時檢測大目標物體和小目標物體,在網(wǎng)絡(luò)的檢測器之前增加了空間金字塔層[14],該層可以針對同一物體的不同尺度提取特征并進行很好的學習。所以本文在YOLO 中增加了空間金字塔層[15],網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 改進的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Improved network structure
改進后的網(wǎng)絡(luò)架構(gòu)如圖4 所示,分別在三個檢測器之前增加空間金字塔,實現(xiàn)對每種目標的多尺度特征提取,對于尺度差異較大的物體有較強的魯棒性。
圖4 增加空間金字塔的YOLO結(jié)構(gòu)Fig.4 YOLO structure with spatial pyramid
在目標檢測的研究中,小尺度目標因為下述原因,檢測非常困難:1)小物體因為本身很小,小物體類別內(nèi)部尺度差異就非常大(小物體本身占據(jù)像素很少,導致計算尺度差異時分母很小,因此差異的比例非常大),要求檢測器的尺度不變性很強才能較好地檢測,而卷積神經(jīng)網(wǎng)絡(luò)本身不具備尺度不變性;2)小物體本身所占像素就少,經(jīng)過卷積和下采樣,到網(wǎng)絡(luò)的較深層時,有可能小物體的特征已經(jīng)被“淹沒”,也就無法檢測到該物體。
常見的檢測小目標物體和超大目標物體的方法主要有:1)使用CNN 中不同層的特征分別進行預測,淺層負責檢測小目標,深層負責檢測大目標;2)對低分辨率圖像進行上采樣,從而把分辨率低的圖像進行放大,隨之小尺度目標也被放大;3)使用膨脹卷積(Dilated/Deformable Convolution)來增加感受野,這可以使檢測器對尺度跨度大的問題適應(yīng)性更強;4)深淺層特征結(jié)合進行預測,使淺層特征結(jié)合深層的語義特征,如FPN(Feature Pyramid Networks for object detection)。
上述方法有時候也并不理想,如對圖像進行上采樣,雖然小尺度目標被放大了,中尺度、大尺度目標也同樣被增大,多尺度目標的特征比例并沒有變化,甚至可能增大到無法識別的地步,對訓練和識別都非常不利。
因此在訓練過程中,本文考慮結(jié)合圖像金字塔尺度歸一化的方法,對特大/特小目標物體進行縮放訓練。由于YOLO在訓練過程中,正負樣本是根據(jù)預測值和標注框的IoU 來區(qū)分的,特大和特小的目標物體IoU 都容易很小(如小目標物體整個物體都落入預測框中,但IoU 仍然可能很小,超大物體也可能存在類似情況),所以采用多尺度訓練的方法,即對圖像進行不同程度的采樣,從而保證目標物體都縮放到中等尺度大小,中等尺度物體在用ImageNet 預訓練過的模型上進行微調(diào)效果最好。
針對尺度相差非常大的場景目標,本文考慮采用三種尺度的樣本進行訓練,即原始尺寸、上采樣和下采樣三種尺度,上采樣主要負責小物體目標的檢測(如遠處跑道的汽車、小飛機和行人),下采樣樣本負責大尺度目標物體的檢測(如近處的大飛機)。在訓練時,上采樣對圖片進行放大,主要用于檢測小物體,圖片放大到1 040×1 040,ROI(Regions Of Interest)的寬度大于700 的樣本(大飛機)在權(quán)重更新時不進行反向傳播;下采樣主要負責超大物體的檢測,圖像分辨率縮小為160×160,ROI 小于10×10 的目標不參與反向更新(小目標物體);416×416 的圖像所有物體都參與訓練。網(wǎng)絡(luò)訓練架構(gòu)如圖5所示。
圖5 網(wǎng)絡(luò)訓練架構(gòu)Fig.5 Network training architecture
YOLOv3 在檢測小目標物體方面也做了改進,引入了FPN[12]的概念,F(xiàn)PN 是一種旨在提高準確率和速度的特征提取器,它取代了檢測器(如Faster R-CNN 中的特征提取器),并生成更高質(zhì)量的特征圖金字塔。
圖6 FPN網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 FPN network structure
FPN 由自下而上和自上而下路徑組成,其中自下而上的路徑是用于特征提取的常用卷積網(wǎng)絡(luò),空間分辨率自下而上地下降,當檢測到更高層的結(jié)構(gòu)時,每層的語義值增加。同時FPN 提供了一條自上而下的路徑,從語義豐富的層構(gòu)建高分辨率層的圖,雖然該重建層的語義較強,但是經(jīng)過所有的上采樣和下采樣之后,目標的位置不精確,而在重建層和相應(yīng)的特征圖之間添加橫向連接可以使得位置偵測更準確[12]。
正因為YOLOv3 應(yīng)用了FPN 的設(shè)計,使得整個網(wǎng)絡(luò)的識別能力取得了較大提升,但是通過對FPN進行分析后,發(fā)現(xiàn)對目標物體的檢測效果仍然擁有提升空間,主要的問題在于:YOLO 中一個柵格只能預測兩個物體,由于損失函數(shù)的存在,導致目標物體的檢測效果與理想中的效果仍然有一定的差距。
本文考慮到將對處于同一場景的超大超小目標同時進行檢測,且在檢測過程中檢測目標的尺度將處于動態(tài)變化中,以及給定的數(shù)據(jù)集中可能會出現(xiàn)有的類別數(shù)據(jù)多、有的類別數(shù)據(jù)少帶來的樣本不均衡問題。如果將IoU 設(shè)定為一個固定的值,那么可能出現(xiàn)部分訓練樣本的正負樣本差值過大,導致最后該分類所包含的特征過少、很難提取到足夠特征的情況,即便最后能得到分類模型,也容易產(chǎn)生過度依賴與過擬合問題,模型的泛化能力可能會無法保證。所以基于對以上情形的考慮,本文提出采用動態(tài)IoU的方案來解決問題。
動態(tài)的IoU,即當前的IoU 閾值會隨著當前訓練樣本的正負樣本的比例來動態(tài)地調(diào)整,如果當前批度中樣本的正樣本與負樣本的差異過大,則會動態(tài)地減小正樣本的IoU 閾值,這樣就會使得之前鄰近正樣本閾值附近的樣本直接變?yōu)檎龢颖尽_@樣動態(tài)地調(diào)整以后,正負樣本會逐漸地趨于平衡。
動態(tài)IoU 是在當前的樣本量中正樣本或負樣本的比例失調(diào)下使用,IoU的計算示意圖如圖7所示。
圖7 IoU計算示意圖Fig.7 Schematic diagram of IoU calculation
原始的IoU 計算是直接用交集除以并集,其中Area1、Area2和Area的面積計算式如式(1)所示:
在原始狀態(tài)下IoU 大于某個固定值才為正樣本,為了解決樣本不均衡的問題,設(shè)定了一個跟正負樣本比值相關(guān)的動態(tài)閾值,當IoU 大于這個值則對應(yīng)的樣本為正樣本,其計算式如式(3):
其中:Ki是第i個錨點所對應(yīng)的正樣本和負樣本的比值,;n是mini-batch中批度的大?。沪男枰诰W(wǎng)絡(luò)中動態(tài)地學習,使得模型中整個正負樣本的比例趨于1∶1,從而達到訓練樣本的均衡。
為驗證本文方法的有效性,將本文方法應(yīng)用于對機場環(huán)境下大飛機、小飛機、行人和汽車的檢測。本文實驗在綿陽南郊機場(Mianyang Nanjiao Airport,MNA)采集,攝像機位于機場跑道外側(cè)120 m 處,識別目標包括近處起降跑道上的大飛機、遠處滑翔跑道上的小飛機,以及更遠處的行人和汽車,如圖2所示,數(shù)據(jù)集如表1所示。
表1 超大超小物體識別使用數(shù)據(jù)集Tab.1 Datasets used for super-large and super-small object recognition
表1給出了在本文實驗中所用到的數(shù)據(jù)集,4個數(shù)據(jù)集均為視頻數(shù)據(jù)集,表1 類型一列指出了數(shù)據(jù)類型。所有的數(shù)據(jù)集(MNA01、MNA02、MNA03及MNA04),其視頻來源于2個攝像頭,主要拍攝了機場內(nèi)兩條跑道(一個起降跑道,一個滑翔跑道)上大飛機、小飛機、行人及汽車的移動狀況。由于是一個攝像頭需要同時拍攝4 種不同的檢測目標,并且隨著拍攝的進行,4 種不同的檢測目標均處在動態(tài)變化之中,包括4 種不同類別檢測目標的出現(xiàn)與消失,4 種不同類別的檢測目標與攝像頭的距離遠近造成的尺度變化。比如:隨著原本是大尺度檢測目標的大飛機隨著與攝像頭距離的拉遠從而變成小尺度檢測目標,原本是小尺度檢測目標的小飛機隨著與攝像頭距離的拉近從而變成大尺度檢測目標,4 種不同類別的檢測目標在移動中可能會出現(xiàn)重疊、相互遮擋等問題。這些復雜的數(shù)據(jù)集為超大超小目標檢測模型的訓練、測試帶來了巨大的挑戰(zhàn),對模型的泛化能力有著較高的要求。
本文實驗擬用YOLOv3 中的特征提取網(wǎng)絡(luò)Darknet-53 進行訓練,并且根據(jù)實際需求將會修改Darknet中的一些參數(shù)以便更好地訓練模型。Darknet-53 由一系列1×1 和3×3 的卷積層組成,一共有53 個卷積層。在本次實驗中,設(shè)置學習率為0.001,合適的學習率可以在保證收斂的前提下盡快收斂;設(shè)置滑動平均模型為0.9,在訓練的過程中不斷地對參數(shù)求滑動平均,可以更有效地保持穩(wěn)定性;設(shè)置權(quán)重衰減為0.000 5以防止過擬合;為了減輕內(nèi)存的壓力,將batch 和subdivision設(shè)置為8。經(jīng)測試發(fā)現(xiàn),對數(shù)據(jù)集進行5 000 次迭代后即獲得了最優(yōu)模型。
本文實驗輸入采用416×416,因此不同特征對應(yīng)的尺度是13×13、26×26、52×52,即每個網(wǎng)格會輸出3 個預測框,預測種類數(shù)為4,則輸出的維度為27。這樣可以在不影響檢測結(jié)果的前期下,有效減少網(wǎng)絡(luò)的運算量,同時提高檢測精度和檢測的速度。
本文實驗采集數(shù)據(jù)中遠處的小飛機長時間存在,近處跑道起降的大飛機速度較快,視頻中只有短暫的出現(xiàn),因此分析時分開討論。
首先是小飛機的檢測效果,從圖8 中可以看出,遠處的小飛機雖然距離遠,并且和背景非常相似,但本文方法可以很好地檢測出來。
小飛機用了10 598 幀圖像進行測試,能夠準確檢測到10 098 幀,識別率達到95.28%,經(jīng)過計算可以發(fā)現(xiàn)召回率(recall)能到達95.82%。
采用控制變量法,使用未經(jīng)修改的YOLOv3 對同樣的小飛機數(shù)據(jù)集進行測試,測試結(jié)果如圖9 所示,可以發(fā)現(xiàn)未經(jīng)修改的YOLOv3檢測不到遠處與背景十分相似的小飛機。
圖8 小飛機檢測效果Fig.8 Detection effects of small aircrafts
圖9 使用YOLOv3的小飛機檢測結(jié)果Fig.9 Small aircraft detection result using YOLOv3
由于大飛機在畫面中體積較大,所占的像素點很多,且離攝像頭距離非常近,可以更容易地被檢測出來。大飛機用了3 250幀圖像進行測試,能夠準確檢測到3 202幀,識別率達到98.52%,經(jīng)過計算可以發(fā)現(xiàn)recall能到達98.83%。
對于超大目標和超小目標來說,如果同一場景中同時具備超大和超小物體時,比如出現(xiàn)在起降跑道的大飛機和遠處跑道的行人及汽車,對檢測模型的挑戰(zhàn)更大,機場跑道的檢測情況如圖10所示。
圖10 多種尺度目標檢測效果Fig.10 Detection effects of multi-scale objects
從圖10 可以看到,在機場環(huán)境下出現(xiàn)了大飛機、小飛機、汽車和行人這4 種目標,遠處的小飛機和汽車可以被檢測到,但行人有漏檢情況,左側(cè)框旁邊站立有2 人,但只有1 個人被檢測出來,右側(cè)倉庫前面2 人未能檢測出來;大飛機只出現(xiàn)一部分時也可以被檢測到。如表2 所示,在本實驗中測試圖片7 315 張,出現(xiàn)大飛機1 716 張,可以識別出1 584 張,識別率為92.31%,經(jīng)過計算可以發(fā)現(xiàn)recall 約為92.47%。小飛機因為大飛機的遮擋,出現(xiàn)5 598 次,正確檢測出5 256 次,識別率93.89%,經(jīng)過計算可以發(fā)現(xiàn)recall 能到達98.72%。共有4 個行人出現(xiàn)在場景中,但有3 人一直未能檢測出來,可以被識別出的人在2 502 幀(其中40 幀該人被大飛機遮擋)圖像中被檢測出來913 幀,識別率36.49%,經(jīng)過計算可以發(fā)現(xiàn)recall 能到達78.71%(只評估該人,如果將另外自始至終未識別出來的人考慮進去,識別率只有9.1%)。由于汽車在畫面中一直被大飛機或者小飛機遮擋,只露出了非常小的一部分,導致一直不能被很好地檢測出來。
表2 超大超小物體檢測結(jié)果Tab.2 Detection results of super-large and super-small objects
本文也使用了原始的YOLOv3 網(wǎng)絡(luò)對同一個數(shù)據(jù)集進行訓練和檢測,用以進行對比實驗,其檢測結(jié)果如圖11所示。
從圖11中可以發(fā)現(xiàn),在整個檢測過程中,YOLOv3只檢測到了大飛機,檢測不到遠處的小飛機,說明YOLOv3 并不能很好地同時檢測超大尺度物體與超小尺度物體。在本實驗中測試圖片7 315 張,出現(xiàn)大飛機1 716 張,可以識別出1 452 次,誤檢198 次,漏檢66 次,識別率84.62%,經(jīng)過計算可以發(fā)現(xiàn)recall為88%。
圖11 使用常規(guī)的YOLOv3進行檢測的目標識別效果Fig.11 Object recognition effect using conventional YOLOv3
通過以上的實驗結(jié)果中可以看出,經(jīng)過在三個檢測器之前增加空間金字塔和使用動態(tài)IoU 改造的網(wǎng)絡(luò)結(jié)構(gòu)后,能夠?qū)崿F(xiàn)對每種目標的多尺度特征進行更好的提取以及解決樣本不平衡的問題。使用改進后的YOLOv3 網(wǎng)絡(luò)與原始的YOLOv3 網(wǎng)絡(luò)進行比較,可以發(fā)現(xiàn)改進后的網(wǎng)絡(luò)對于同時檢測尺度差異較大的不同類物體有更高的準確率。
本文首先利用圖像金字塔技術(shù)改進傳統(tǒng)的YOLOv3 框架,通過這一改進,在原始的YOLOv3 的結(jié)構(gòu)之上,再經(jīng)過三個檢測器之前增加三個針對不同尺度檢測目標的空間金字塔,使得改進后的網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地提取尺度差異較大的不同檢測目標的特征;其次,本文引入動態(tài)IoU 的概念,通過使用當前訓練樣本的正負樣本的比例來動態(tài)地調(diào)整IoU 閾值,解決了樣本不均衡的問題。實驗結(jié)果表明,本文方法在不增加時間開銷的情況下,能夠有效地提高對于不同尺度目標檢測的精確性。