李翠錦,瞿 中
(1.重慶工程學(xué)院 電子信息學(xué)院,重慶 400056;2. 重慶郵電大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,重慶 400065)
目標(biāo)檢測(cè)是車(chē)輛合理安全應(yīng)對(duì)復(fù)雜場(chǎng)景的關(guān)鍵技術(shù),也是計(jì)算機(jī)視覺(jué)研究熱點(diǎn)之一。傳統(tǒng)檢測(cè)方法盡管使用的特征較少,在時(shí)間效率上有很大的提高,但也有明顯的局限性和不準(zhǔn)確性。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在精度上顯著優(yōu)于傳統(tǒng)方法,成為了最新的研究熱點(diǎn),許多方法[1-12]被提出。其中Faster R-CNN算法精度高,可拓展性強(qiáng),近幾年很多論文也是基于該算法進(jìn)行改進(jìn)的。本文針對(duì)目前復(fù)雜交通環(huán)境下還存在多目標(biāo)檢測(cè)精度和速度不高等問(wèn)題,以特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN)為基礎(chǔ),提出了一種跨層融合多目標(biāo)檢測(cè)與識(shí)別算法,以提高目標(biāo)檢測(cè)精度和網(wǎng)絡(luò)泛化能力。
本文的主要貢獻(xiàn)如下:
1)采用ResNet101的五層基本架構(gòu),將空間分辨率上采樣2倍構(gòu)建自上而下的特征圖,按照元素相加的方式將上采樣圖和自下而上的特征圖合并,并構(gòu)建一個(gè)融合高層語(yǔ)義信息與低層幾何信息的特征層;為了降低上采樣產(chǎn)生的混疊效應(yīng),每個(gè)合并的特征圖后接一個(gè)3×3的卷積;最后,通過(guò)將富含語(yǔ)義信息的P3特征層上采樣,將富含幾何信息的P1特征層下采樣,采用像素相加的方式與P2特征層融合,通過(guò)一個(gè)3×3的卷積得到最終的特征層P0。
2)針對(duì)BBox回歸存在訓(xùn)練樣本不平衡問(wèn)題,選擇Efficient IOU Loss損失函數(shù),懲罰項(xiàng)將縱橫比的影響因子拆開(kāi)分別計(jì)算目標(biāo)框和錨框的長(zhǎng)和寬,包含重疊損失、中心距離損失、寬高損失三個(gè)部分,并結(jié)合Focal Loss提出一種改進(jìn)Focal EIOU Loss損失函數(shù)。
3)考慮復(fù)雜交通環(huán)境下的實(shí)際情況,通過(guò)人工標(biāo)注混合數(shù)據(jù)集進(jìn)行訓(xùn)練和大量測(cè)試。實(shí)驗(yàn)結(jié)果表明該模型在KITTI測(cè)試集上的平均檢測(cè)精度和速度比FPN分別提升2.4%和5 frame/s,在Cityscale測(cè)試集上平均檢測(cè)精度和速度比FPN提升了1.9%和4 frame/s。
面對(duì)多尺度目標(biāo)檢測(cè)問(wèn)題,常用的方案是根據(jù)原圖生成不同尺寸的特征圖來(lái)構(gòu)建圖像金字塔,不同尺寸的目標(biāo)在相應(yīng)的特征圖上進(jìn)行檢測(cè)。FPN在目標(biāo)檢測(cè)和識(shí)別中應(yīng)用廣泛,但是針對(duì)小目標(biāo)和遮擋目標(biāo)檢測(cè)精度有待提高,如圖1所示,遮擋汽車(chē)和遠(yuǎn)處汽車(chē)都未被識(shí)別。
圖1 FPN在Cityscapes數(shù)據(jù)集中的檢測(cè)結(jié)果
ResNet101網(wǎng)絡(luò)中主要用到了基礎(chǔ)ResNet結(jié)構(gòu)和瓶頸結(jié)構(gòu)兩個(gè)結(jié)構(gòu),基礎(chǔ)結(jié)構(gòu)一般用于層數(shù)小于30層,瓶頸結(jié)構(gòu)一般用于大于30層,可以減少網(wǎng)絡(luò)參數(shù)。基礎(chǔ)結(jié)構(gòu)的相加部分維度相同,其中expansion=1;而瓶頸結(jié)構(gòu)的維度不同,不能直接相加,需要進(jìn)行downsample處理后才可直接相加,其中expansion=4。
RPN(Region Proposal Network)是在Faster R-CNN結(jié)構(gòu)中首先提出,專門(mén)用來(lái)提取候選框。由于RPN輸入接卷積層后被高度抽象的特征圖Feature Maps,所以RPN不需要花費(fèi)時(shí)間在參數(shù)層特征提取上,因此RPN是一個(gè)比較輕量級(jí)的網(wǎng)絡(luò)。RPN由三部分組成:一是生成9個(gè)不同比例的Anchor boxes;二是分類,此處是二分類問(wèn)題,判斷前景還是背景;三是定位,通過(guò)NMS和偏移去重,輸出Proposal。
本文以FPN為基礎(chǔ),采用ResNet101的五層架構(gòu),將空間分辨率上采樣2倍構(gòu)建自上而下的特征圖,按照元素相加的方式將上采樣圖和自下而上的特征圖合并,并構(gòu)建一個(gè)融合高層語(yǔ)義信息與低層幾何信息的特征層,如圖2所示。該算法共分為四部分:一是任意大小任意角度圖像輸入,包括原始圖像和手工標(biāo)定圖像;二是基于ResNet101的跨層融合卷積神經(jīng)網(wǎng)絡(luò);三是用于提取候選框的RPN網(wǎng)絡(luò);四是用于分類和回歸的ROI網(wǎng)絡(luò),其中分類中為了提高檢測(cè)精度設(shè)置了改進(jìn)Focal EIOU Loss。
圖2 改進(jìn)FPN網(wǎng)絡(luò)總體框圖
本文采用ResNet-101構(gòu)建Bottom-up網(wǎng)絡(luò),如圖3所示。C5通過(guò)一個(gè)1×1的卷積層產(chǎn)生分辨率最低的特征圖,然后上采樣2倍,將上采樣特征圖與自上而下路徑的淺層特征圖合并。為了降低上采樣產(chǎn)生的混疊效應(yīng),每個(gè)合并的特征圖通過(guò)一個(gè)3×3的卷積產(chǎn)生最終的特征圖{P5,P4,P3,P2,P1},對(duì)應(yīng)于{C5,C4,C3,C2,C1}具有相同的空間大小,通過(guò)將富含語(yǔ)義信息的P3特征層上采樣(2×Upsample),將富含幾何信息的P1特征層下采樣(2×Pooling),采用像素相加的方式與P2特征層融合。最后將融合后的特征通過(guò)一個(gè)3×3的卷積得到最終的特征層P0。網(wǎng)絡(luò)各層像素值如圖3所示。
圖3 交叉融合卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
考慮到BBox的回歸存在訓(xùn)練樣本不平衡的問(wèn)題,即在一張圖像中回歸誤差小的高質(zhì)量錨框的數(shù)量遠(yuǎn)少于誤差大的低質(zhì)量樣本,質(zhì)量較差的樣本會(huì)產(chǎn)生過(guò)大的梯度影響訓(xùn)練過(guò)程,選擇EIOU損失函數(shù)。函數(shù)該懲罰項(xiàng)將縱橫比的影響因子拆開(kāi)分別計(jì)算目標(biāo)框和錨框的長(zhǎng)和寬,包含重疊損失、中心距離損失、寬高損失三個(gè)部分,前兩部分延續(xù)CIOU中的方法,但是寬高損失直接使目標(biāo)盒與錨盒的寬度和高度之差最小,使得收斂速度更快。在EIOU的基礎(chǔ)上結(jié)合Focal Loss提出一種改進(jìn)Focal EIOU Loss,從梯度的角度出發(fā),把高質(zhì)量的錨框和低質(zhì)量的錨框分開(kāi),如公式(1)~(4)所示:
LFocal-EIOU=IOUγLEIOU,
(1)
LEIOU=LCIOU+Ldis+Lasp,
(2)
(3)
(4)
計(jì)算CIOU損失函數(shù)的算法(算法1)偽代碼如下:
Input:box_1,box_2,width_1,width_2,height_1,height_2;
Output:Losses-ciou
1 def calculate_ciou(box_1,box_2):
2 calculate ciou
3 :param box_1:(x0,y0,x1,y1)
4 :param box_2:(x0,y0,x1,y1)
5 :return:value of ciou
6 width_1 = box_1[2]- box_1[0]height_1 = box_1[3]- box_1[1]area_1 = width_1 * height_1
7 width_2 = box_2[2]- box_2[0]height_2 = box_2[3]- box_2[1]area_2 = width_2 * height_2
8 center_x1 =(box_1[2]- box_1[0]) / 2 center_y1 =(box_1[3]- box_1[1]) / 2
9 center_x2 =(box_2[2]- box_2[0]) / 2 center_y2 =(box_2[3]- box_2[1]) / 2
10 p2 =(center_x2 - center_x1) ** 2 +(center_y2 - center_y1) ** 2
11 width_c = max(box_1[2],box_2[2]) - min(box_1[0],box_2[0])
12 height_c = max(box_1[3],box_2[3]) - min(box_1[1],box_2[1])
13 c2 = width_c ** 2 + height_c ** 2
14 left = max(box_1[0],box_2[0]) top = max(box_1[1],box_2[1]) bottom = min(box_1[3],box_2[3])
15 right = min(box_1[2],box_2[2])
16 area_intersection =(right - left) *(bottom - top) area_union = area_1 + area_2 - area_intersection
17 iou = float(area_intersection) / area_union
18 arctan = math.atan(float(width_2) / height_2) - math.atan(float(width_1) / height_1)
19 v =(4.0 / math.pi ** 2) *(arctan ** 2) alpha = float(v) /(1 - iou + v) ciou = iou - float(p2) / c2 - alpha * v
20 return ciou
算法中引入了Focal loss分類損失函數(shù),如公式(5)~(6)所示:
(5)
(6)
式(5)中:α為正負(fù)樣本平衡因子,實(shí)驗(yàn)證明α=2最優(yōu);p為y=1的概率。式(6)中:γ為難易樣本平衡因子。
基于以上二分類損失函數(shù),得出多分類樣本損失函數(shù)如公式(7)所示:
(7)
式中:p為候選框?yàn)檎龢颖镜母怕?p∈[0,1];γ為分類難易樣本平衡因子(γ>0),經(jīng)過(guò)多次測(cè)試,γ=0.95。當(dāng)p越接近正樣本閾值(0.7),分類難度越大,(1-p)γ1越大,對(duì)損失函數(shù)的貢獻(xiàn)也越大;p越接近1,分類難度越小,(1-p)γ1越接近0,對(duì)損失函數(shù)的貢獻(xiàn)度越小。
計(jì)算聚焦分類損失函數(shù)的算法(算法2)偽代碼如下:
Input:pred,target,weight,gamma,alpha
Output:loss_sum
1 def py_sigmoid_focal_loss(pred,target,weight=None,
2 gamma=2.0,alpha=0.25,reduction='mean',avg_factor=None):
3 pred_sigmoid = pred.sigmoid()
4 target =target.type_as(pred)
5 pt =(1 - pred_sigmoid) * target + pred_sigmoid *(1 - target)
6 focal_weight =(alpha * target +(1 - alpha) *
7 (1 - target)) *pt.pow(gamma)
8 loss =F.binary_cross_entropy_with_logits(
9 pred,target,reduction='none') * focal_weight
10 loss =weight_reduce_loss(loss,weight,reduction,avg_factor)
11 return loss_sum
針對(duì)本文所研究的問(wèn)題,為充分驗(yàn)證改進(jìn)Faster R-CNN模型的性能,使用了目前國(guó)際上流行的交通場(chǎng)景下的計(jì)算機(jī)視覺(jué)數(shù)據(jù)集Cityscapes數(shù)據(jù)集和KITTI數(shù)據(jù)集分別進(jìn)行訓(xùn)練和測(cè)試。
Cityscapes數(shù)據(jù)集則是由奔馳主推,提供無(wú)人駕駛環(huán)境下的圖像分割數(shù)據(jù)集,用于評(píng)估視覺(jué)算法在城區(qū)場(chǎng)景語(yǔ)義理解方面的性能。Cityscapes包含50個(gè)城市不同場(chǎng)景、不同背景、不同季節(jié)的街景,提供5 000張精細(xì)標(biāo)注的圖像、20 000張粗略標(biāo)注的圖像和30類標(biāo)注物體。
KITTI數(shù)據(jù)集由德國(guó)卡爾斯魯厄理工學(xué)院(Karlsruhe Institute of Technology)和豐田美國(guó)技術(shù)研究院(Toyota Research Institute)聯(lián)合創(chuàng)辦,是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景下的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù),每幅圖像中最多達(dá)15輛車(chē)和30個(gè)行人,還有各種程度的遮擋與截?cái)?。整個(gè)數(shù)據(jù)集由389對(duì)立體圖像和光流圖、39.2 km視覺(jué)測(cè)距序列以及超過(guò)200k 3D標(biāo)注物體的圖像組成,以10 Hz的頻率采樣及同步。
綜合考慮實(shí)際情況,本文在實(shí)驗(yàn)中對(duì)數(shù)據(jù)集的類別重新劃分為person、car、bus、bicycle、motorcycle 5類。在Cityscapes和KITTI數(shù)據(jù)集人工標(biāo)注訓(xùn)練樣本數(shù)量如表1所示。
表1 人工標(biāo)注數(shù)據(jù)集樣本數(shù)量
在深度學(xué)習(xí)中數(shù)據(jù)集質(zhì)量的高低直接影響最終檢測(cè)效果的好壞,同時(shí)由于網(wǎng)絡(luò)要充分學(xué)習(xí)待檢測(cè)目標(biāo)的特征,這便需要大量的樣本。本文實(shí)驗(yàn)所使用的數(shù)據(jù)集中bicycle、motorcycle、bus相對(duì)于機(jī)動(dòng)車(chē)較少,會(huì)導(dǎo)致過(guò)擬合問(wèn)題,且最終訓(xùn)練得到的檢測(cè)模型泛化能力差。針對(duì)這一問(wèn)題,本文在實(shí)驗(yàn)中采用混合數(shù)據(jù)集訓(xùn)練的方法,在Cityscapes數(shù)據(jù)集和KITTI數(shù)據(jù)集中分別增加VOC07數(shù)據(jù)集,人工標(biāo)注了包括bicycle、motorcycle、bus樣本訓(xùn)練集1 000幅圖像。最終選取Cityscapes+VOC2007數(shù)據(jù)集4 000幅圖像,KITTI+VOC2007數(shù)據(jù)集5 000幅圖像為訓(xùn)練數(shù)據(jù)集,分別選取2 000幅圖像為測(cè)試集。
本文所有實(shí)驗(yàn)都在Ubuntu 18.04和Convolutional Architecture,快速Feature embedded Caffe軟件環(huán)境下進(jìn)行的。硬件環(huán)境為i7 8700k,GPU為GTX 1070TI(8 GB內(nèi)存)。
為了驗(yàn)證多尺度融合、加權(quán)平衡多類交叉熵?fù)p失函數(shù)以及Soft-NMS對(duì)模型檢測(cè)性能高低的影響,本文訓(xùn)練流程分為以下五個(gè)步驟:
1)準(zhǔn)備好人工標(biāo)注的訓(xùn)練數(shù)據(jù)集Cityscapes、KITTI、VOC07;
2)使用Caffe框架定義訓(xùn)練和測(cè)試模型,并修改損失函數(shù)、Soft-NMS函數(shù)以及特征提取網(wǎng)絡(luò)相關(guān)代碼;
3)訓(xùn)練數(shù)據(jù)集使loss達(dá)到最大迭代次數(shù)或損失值小于閾值時(shí)停止訓(xùn)練,得到訓(xùn)練輸出模型Caffe-model的腳本文件;
4)使用Caffe-model模型初始化測(cè)試模型參數(shù),使用標(biāo)注好的測(cè)試數(shù)據(jù)集獲得最終的效果輸出圖;
5)評(píng)價(jià)模型從相應(yīng)的數(shù)據(jù)集中獲得輸出圖像,得到一些映射表、多種類別的平均精確度指標(biāo)以及涵蓋物體定位框的IOU置信度分值評(píng)估結(jié)果圖等。
如圖4所示,改進(jìn)FPN算法訓(xùn)練過(guò)程中總損失初始值為6.8,隨著迭代次數(shù)的增加,損失值急劇下降1.1左右,當(dāng)損失代價(jià)緩慢接近0.3時(shí)整個(gè)梯度趨于平滑。整個(gè)訓(xùn)練過(guò)程損失值在不斷下降,而且整個(gè)過(guò)程沒(méi)有上下振蕩的不利趨勢(shì),因此整個(gè)模型訓(xùn)練的網(wǎng)絡(luò)參數(shù)在改進(jìn)的FPN網(wǎng)絡(luò)結(jié)構(gòu)中都是最適宜參數(shù)值。
(a)Cityscapes
(b)KITTI圖4 訓(xùn)練過(guò)程中總損失函數(shù)
圖5所示為改進(jìn)Faster R-CNN算法各類目標(biāo)的P-R曲線,由于bus類別目標(biāo)比較大,容易檢測(cè),因此,bus類別的精度最高,為99.9%;而bicycle類別特征不好捕捉,尤其是正對(duì)拍攝點(diǎn)時(shí)特征更少,因此,bicycle類別的精度最低,為88.6%。
(a)Cityscapes
(b) KITTI圖5 5類目標(biāo)的P-R曲線
圖6為基于改進(jìn)的FPN網(wǎng)絡(luò)對(duì)Cityscapes數(shù)據(jù)集的目標(biāo)檢測(cè)和分類輸出效果圖,可以看出對(duì)于改進(jìn)的Faster R-CNN網(wǎng)絡(luò),當(dāng)多個(gè)目標(biāo)位于同一場(chǎng)景圖像時(shí),網(wǎng)絡(luò)仍然可以捕捉對(duì)象的特點(diǎn)和定位,IOU置信度可以達(dá)到超過(guò)0.9以上,而且物體對(duì)象也可以進(jìn)行準(zhǔn)確的分類。
圖6 在Cityscapes數(shù)據(jù)集下檢測(cè)和分類輸出效果
小目標(biāo)捕獲和遠(yuǎn)距離目標(biāo)定位也可以通過(guò)自己設(shè)置的分類函數(shù)得到更好的分?jǐn)?shù),相比于原來(lái)的Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu),在RPN網(wǎng)絡(luò)中輸出的結(jié)果充分利用了0.5 ~ 0.7之間的特征信息結(jié)果,輸出包含豐富的正樣本信息,剔除了大量的非對(duì)象信息,因此圖像目標(biāo)分類更加清晰和準(zhǔn)確。與原Faster R-CNN的輸出對(duì)象相比,基于改進(jìn)的Faster R-CNN網(wǎng)絡(luò)效果更接近于ground truth真實(shí)標(biāo)簽值。
如表2所示,改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)與Faster R-CNN網(wǎng)絡(luò)相比,采用Cityscapes+VOC07數(shù)據(jù)集上的5類目標(biāo)進(jìn)行訓(xùn)練。該數(shù)據(jù)集涵蓋了交通領(lǐng)域的多種場(chǎng)景,通過(guò)測(cè)試集上的類平均精度(mAP)和速度來(lái)測(cè)量性能。改進(jìn)FPN獲得了最高93.8%的mAP,比原Faster R-CNN高1.9個(gè)點(diǎn)。通過(guò)Cityscapes數(shù)據(jù)集訓(xùn)練,改進(jìn)的FPN網(wǎng)絡(luò)的mAP是87.7%,也高于原Faster R-CNN。這是因?yàn)楦倪M(jìn)的Faster R-CNN融合了多層的特征圖,可以使模型獲取更多的低層以及高層的圖像特征信息,提高了小目標(biāo)的檢測(cè)準(zhǔn)確率。
表2 不同算法在Cityscapes數(shù)據(jù)集下檢測(cè)精度
在改進(jìn)FPN網(wǎng)絡(luò)結(jié)構(gòu)中,采用本文網(wǎng)絡(luò)結(jié)構(gòu)在不同數(shù)據(jù)集下對(duì)檢測(cè)精度進(jìn)行了對(duì)比,結(jié)果如表3所示,可見(jiàn)在VOC+Cityscapes混合數(shù)據(jù)集下的檢測(cè)結(jié)果最好。
表3 本文網(wǎng)絡(luò)結(jié)構(gòu)在不同Cityscapes數(shù)據(jù)集下的檢測(cè)結(jié)果
為了驗(yàn)證多層融合和Soft-NMS對(duì)網(wǎng)絡(luò)模型性能的提升,本文對(duì)比了ResNet101與ResNet101 +1,3,5-cross,NMS與Soft-NMS對(duì)mAP的影響,結(jié)果如表4所示,可見(jiàn)ResNet101 +1,3,5-cross+Soft-NMS取得了最優(yōu)性能(mAP=93.8%)。
為了驗(yàn)證1、3、5層特征融合結(jié)果最優(yōu),本文基于ResNet101,在相同的方法和相同參數(shù)配置下,訓(xùn)練了5種網(wǎng)絡(luò)融合模型。首先,訓(xùn)練了兩層融合,分別為3、5層融合和1、3層融合;然后,訓(xùn)練了三層融合,分別為1、2、3層融合,3、4、5層融合,1、3、5層融合。從表5可以看出,在KITTI數(shù)據(jù)集中,1、3、5層融合性能最優(yōu)(mAP=86.2%)。
表5 不同層融合檢測(cè)結(jié)果對(duì)比
圖7展示了使用改進(jìn)的Faster R-CNN網(wǎng)絡(luò)模型在KITTI數(shù)據(jù)集上檢測(cè)結(jié)果,卷積特征提取網(wǎng)絡(luò)為ResNet101 +1,3,5-cross,訓(xùn)練數(shù)據(jù)集為VOC07+KITTI。每個(gè)輸出框都與一個(gè)類別標(biāo)簽通過(guò)Softmax評(píng)分得到[0,1]的值,這些圖像的得分閾值設(shè)為0.6。
圖7 在KITTI數(shù)據(jù)集下檢測(cè)和分類輸出效果
如表6和表7所示,改進(jìn)的Faster R-CNN網(wǎng)絡(luò)在KITTI數(shù)據(jù)集中,相比Fast R-CNN速度有所提升(14 frame/s),mAP比Fast R-CNN提高了7.5%,比Faster R-CNN提高了2.4%。
表6 不同網(wǎng)絡(luò)結(jié)構(gòu)在KITTI數(shù)據(jù)集下檢測(cè)精度
表7 本文網(wǎng)絡(luò)結(jié)構(gòu)在不同KITTI數(shù)據(jù)集下的檢測(cè)結(jié)果
本文提出了一種基于ResNet101的改進(jìn)FPN多目標(biāo)檢測(cè)與識(shí)別算法。實(shí)驗(yàn)結(jié)果和數(shù)據(jù)表明,與之前的基于ResNet101模板的Fast R-CNN、Faster R-CNN等神經(jīng)網(wǎng)絡(luò)相比,改進(jìn)的Faster R-CNN模型融合了低層和高層的圖像語(yǔ)義特征,使模型獲取了更多的信息,從而提高了目標(biāo)像素特征的定位精度,而且在劃分樣本的類別時(shí)改善了加權(quán)多分類交叉熵?fù)p失函數(shù);在錨框選擇時(shí)使用了Soft-NMS算法,提高了小目標(biāo)和遮擋目標(biāo)的檢測(cè)結(jié)果;此外,為了達(dá)到更好的檢測(cè)效果,人工標(biāo)注了混合數(shù)據(jù)集。
改進(jìn)的Faster R-CNN圖像目標(biāo)分類及識(shí)別模型在人工標(biāo)注的Cityscapes和KITTI數(shù)據(jù)集中平均精度有所提高,但針對(duì)更復(fù)雜場(chǎng)景(移動(dòng)目標(biāo)、天氣、光照以及人為因素改變等)來(lái)說(shuō)并不是最好的網(wǎng)絡(luò)模型,因此后期將深入研究生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[13-15]來(lái)解決更復(fù)雜交通場(chǎng)景下的目標(biāo)檢測(cè)和識(shí)別。