許德智 孫季豐 羅莎莎
摘 要:針對(duì)智能駕駛領(lǐng)域中需要在內(nèi)存受限的情況下得到高質(zhì)量的超分辨率圖像的問(wèn)題,提出一種基于權(quán)重八位二進(jìn)制量化的車載圖像超分辨率重建算法。首先,基于八位二進(jìn)制量化卷積設(shè)計(jì)信息壓縮模塊,減少內(nèi)部冗余,增強(qiáng)網(wǎng)絡(luò)內(nèi)信息流動(dòng),提高重建速率;然后,整個(gè)網(wǎng)絡(luò)由一個(gè)特征提取模塊、多個(gè)堆疊的信息壓縮模塊和一個(gè)圖像重建模塊構(gòu)成,并利用插值后超分辨率空間的信息與低分辨率空間重建后的圖像融合,在不增加模型復(fù)雜度的基礎(chǔ)上,提高網(wǎng)絡(luò)表達(dá)能力;最后,算法中整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)基于對(duì)抗生成網(wǎng)絡(luò)(GAN)框架進(jìn)行訓(xùn)練,使得到的圖片有更好主觀視覺(jué)效果。實(shí)驗(yàn)結(jié)果表明,所提算法的車載圖像重建結(jié)果的峰值信噪比(PSNR)比基于GAN的超分辨率重建(SRGAN)算法提高了0.22dB,同時(shí)其生成模型大小縮小為L(zhǎng)apSRN的39%,重建速度提高為L(zhǎng)apSRN的7.57倍。
關(guān)鍵詞:超分辨率重建;車載圖像;八位二進(jìn)制權(quán)重量化;對(duì)抗生成網(wǎng)絡(luò);信息壓縮模塊
中圖分類號(hào): TP391.4文獻(xiàn)標(biāo)志碼:A
Vehicle-based image super-resolution reconstruction based on
weight quantification and information compression
XU Dezhi*, SUN Jifeng, LUO Shasha
(School of Electronic and Information Engineering, South China University of Technology, Guangzhou Guangdong 510641, China)
Abstract: For the intelligent driving field, it is necessary to obtain high-quality super-resolution images under the condition of limited memory. Therefore, a vehicle-based image super-resolution reconstruction algorithm based on weighted eight-bit binary quantization was proposed. Firstly, the information compression module was designed based on the eight-bit binary quantization convolution, reducing the internal redundancy, enhancing the information flow in the network, and improving the reconstruction rate. Then, the whole network was composed of a feature extraction module, a plurality of stacked information compression modules and an image reconstruction module, and the information of the interpolated super-resolution space was fused with the image reconstructed by the low-resolution space, improving the network expression ability without increasing the complexity of the model. Finally, the entire network structure in the algorithm was trained based on the Generative Adversarial Network (GAN) framework, making the image have better subjective visual effect. The experimental results show that, the Peak Signal-to-Noise Ratio (PSNR) of the proposed algorithm for the reconstructed vehicle-based image is 0.22dB higher than that of Super-Resolution using GAN (SRGAN), its generated model size is reduced to 39% of that of the Laplacian pyramid Networks for fast and accurate Super-Resolution (LapSRN), and the reconstruction speed is improved to 7.57 times of that of LapSRN.
Key words: super-resolution reconstruction; vehicle-based image; eight-bit binary weight quantification; Generative Adversarial Networks (GAN); information compression module.
0 引言
隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像處理方向表現(xiàn)出明顯的優(yōu)勢(shì),深度學(xué)習(xí)在單幅圖像超分辨率重建(Single Image Super Resoluton, SISR)[1-2]領(lǐng)域得到越來(lái)越廣泛的應(yīng)用,基于深度學(xué)習(xí)的單幅圖像超分辨重建方法通過(guò)訓(xùn)練更深的網(wǎng)絡(luò)來(lái)獲得更好的重建效果。Dong等[3]提出的SRCNN(Super-Resolution Convolution Neural Network)是深度學(xué)習(xí)在超分辨率重建上的首次應(yīng)用,將深度學(xué)習(xí)引入到超分辨重建領(lǐng)域,僅僅使用了三個(gè)卷積層對(duì)雙三次插值后的圖像做非線性映射。Kim等[4]為簡(jiǎn)化訓(xùn)練提出了一個(gè)20層的卷積模型VDSR(image Super-Resolution using Very Deep convolution network),使用的殘差網(wǎng)絡(luò)結(jié)構(gòu)的思想特別適合用來(lái)解決超分辨問(wèn)題,可以說(shuō)影響了之后的深度學(xué)習(xí)超分辨率方法。Mao等[5]提出編碼殘差網(wǎng)絡(luò) (REsiDual coding,RED)算法采用對(duì)稱的卷積層反卷積層構(gòu)構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu),卷積層用來(lái)獲取圖像的抽象內(nèi)容,反卷積層用來(lái)放大圖像并恢復(fù)圖像細(xì)節(jié)。Lai等[6]提出LapSRN(Laplacian pyramid Networks for fast and accurate Super-Resolution),將低分辨率圖片直接作為輸入到網(wǎng)絡(luò),通過(guò)逐級(jí)放大,后一級(jí)于前一級(jí)之前參數(shù)共享,并利用前一級(jí)得到的結(jié)果,在減少計(jì)算量的同時(shí)有效提高了精度。Tai等[7]設(shè)計(jì)出更深的網(wǎng)絡(luò)結(jié)構(gòu)DRRN(Deep Recursive Residual Network),包含52層卷積,該算法采用單權(quán)重的遞歸學(xué)習(xí),每個(gè)遞歸模塊共享相同的權(quán)重,有效減少了模型的大小。Tong等 [8]提出的SRDenseNet(residual Dense Network for image Super-Resolution),引入稠密塊(DenseBlock)將每一層的特征都輸入給之后的所有層,使所有層的特征都串聯(lián)起來(lái),減輕梯度消失問(wèn)題,通過(guò)堆疊模塊加深網(wǎng)絡(luò)層來(lái)得到更好的表現(xiàn)。
相比傳統(tǒng)的殘差連接,信息壓縮模塊表現(xiàn)出更好的結(jié)果,網(wǎng)絡(luò)核心為多個(gè)級(jí)聯(lián)的信息壓縮模塊,該模塊如圖3所示,可簡(jiǎn)單將該模塊分為三部分:上層卷積、下層卷積和最后的壓縮模塊,其中每個(gè)卷積后面都帶有一個(gè)參數(shù)化修正線性單元(Parametric Rectified Linear Unit, PReLU)作為激活函數(shù),為了作圖的簡(jiǎn)潔本文將其省略。本文采用上文介紹的八位二進(jìn)制量化卷積(Quantitative Convolution,QConv)提取特征,該方法極大減少了模型計(jì)算量,降低網(wǎng)絡(luò)冗余。假設(shè)第i層卷積的特征圖維度為Di(i=1,2,…,6)。為保證模塊的信息的流通性,本文將維度等間距變化:
D3-D1=D1-D2=D6-D4=D4-D5=d(8)
其中:d表示為第一層與第二層卷積的特征圖維度差值,或第三層與第一層卷積特征圖維度差值,下層卷積與上層卷積維持相同的維度差異。對(duì)于上層卷積可將其輸出表示為:
Dk3=Cup(Xk-1)(9)
其中:Dk3為第k個(gè)模塊中上層卷積的輸出;為第k-1個(gè)模塊的輸出,同時(shí)作為第k個(gè)模塊的輸入; Cup為上層的卷積操作。對(duì)于上層卷積得到的輸出,可將其切分為2個(gè)部分,第一部分與輸入的特征圖拼接,可表示為:
fk1=C(S(Dk3,1/s), Xk-1)(10)
其中: fk1為拼接后的特征;C為特征圖拼接;S為特診圖切片。為特征圖切分,將Dk3得到特征的一部分用于與輸入特征拼接,切分比列為s,最終通過(guò)跳越連接與下層卷積得到的特征融合,剩下的部分作為下層卷積的輸入提取特征:
Dk6=Cdown(S(Dk3,1-1/s))(11)
其中: Dk6為下層卷積的輸出;Cdown為下層卷積操作。最后輸入經(jīng)過(guò)上層卷積與下層卷積后的總輸出為:
Fk=Dk6+f k1=Cdown(S(Cup(Xk-1),1-1/s))+
C(S(Cup(Xk-1), 1/s), Xk-1)(12)
其中:Fk為上下層卷積的最終輸出,該輸出使用局部的跳躍連接結(jié)合中間層特征與輸入層特征,最后將得到多層次特征傳遞給一個(gè)壓縮模塊,該模塊使用1×1的卷積核對(duì)Fk壓縮,特征圖的相加,在圖3中用a表示。
為了證明信息壓縮模塊的有效性,本文分別采用普通殘差卷積和信息壓縮模塊搭建18層的中間網(wǎng)絡(luò),保持其他參數(shù)不變的情況下,得到重建效果如圖4所示,從細(xì)節(jié)放大圖中可以看到:普通殘差模塊鼻梁處斑點(diǎn)分布不清晰,出現(xiàn)模糊塊,睫毛與睫毛間的間隙被過(guò)度平滑;而本文信息壓縮模塊重建得到的圖片,能很好重建斑點(diǎn)的分布,并且可以觀察到睫毛明顯的輪廓,最后重建得到的圖片邊界更加清晰、銳利,信息更加豐富。同時(shí)實(shí)驗(yàn)證明本文信息壓縮模塊可以在一定程度上減少參數(shù)數(shù)量,提高重建效率。
2.3 復(fù)雜度分析
對(duì)于單個(gè)信息壓縮模塊,每一層輸入維度為di(i=0,1,…,5),卷積核大小為k,則對(duì)于每一層的參數(shù)量可表示為:
k*k*di*di+1(13)
整個(gè)信息壓縮模塊的參數(shù)量(不包含1×1卷積)為:
如果用N表示所有參數(shù)所需要的內(nèi)存,則基于量化卷積后的參數(shù)僅需要N/4的內(nèi)存,極大降低了內(nèi)存占用。如果特征圖的輸入大小為F*F,則一個(gè)信息壓縮模塊的計(jì)算量為:
2.4 判別網(wǎng)絡(luò)
GAN模型中,判別網(wǎng)絡(luò)在訓(xùn)練過(guò)程中起到監(jiān)督作用,訓(xùn)練結(jié)束后,判別網(wǎng)絡(luò)不會(huì)參與重建過(guò)程。本文中判別網(wǎng)絡(luò)采
用級(jí)聯(lián)的VGG[17]的結(jié)構(gòu),每個(gè)卷中間每個(gè)卷積模塊后面都接一個(gè)BN層和Leaky ReLU單元,如圖5所示。
圖5中,k3n64s1表示卷積核為大小為3,輸出特征圖維度為64,步長(zhǎng)為1,經(jīng)過(guò)多次特征提取以及卷積下采樣后得到最后的輸出。
2.5 損失函數(shù)
基于CNN的超分辨率重建網(wǎng)絡(luò)大多采用均方誤差(Mean Squared Error, MSE)作為損失函數(shù),這樣雖然可以取得較高的峰值信噪比,但是得到圖片過(guò)于平滑,丟失細(xì)節(jié)。本文損失函數(shù)由三部分組成:均方差損失、感知損失和對(duì)抗損失,可表示為:
lSR=lSRMSE+lSRVGG+10-3 lSRGen(16)
其中:lSRMSE為均方差損失。該損失促使標(biāo)簽IHRx,y與生成樣本G(ILR)x,y對(duì)應(yīng)像素點(diǎn)間的均方誤差最小化:
其中:lSRVGG為感知損失,為了解決均方差損失缺少高頻信息,導(dǎo)致過(guò)度平滑的問(wèn)題,它將真實(shí)圖片與生成圖片卷積后的特征作比較。本文使用以訓(xùn)練好的VGG作為基礎(chǔ)網(wǎng)絡(luò),該損失如下:
其中:Wi, j、Hi, j表示VGG各自特征圖的維度; φi, j表示VGG中各層的映射關(guān)系。
lSRGen為對(duì)抗損失,基于訓(xùn)練樣本在判別器上的概率可將其定義為:
其中D表示判別網(wǎng)絡(luò)的映射關(guān)系。該函數(shù)使生成網(wǎng)絡(luò)得到的圖片以更大概率騙過(guò)判別器。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)所有訓(xùn)練或測(cè)試過(guò)程均在32GB內(nèi)存,英偉達(dá)1080Ti GPU的服務(wù)器上得到的結(jié)果。實(shí)驗(yàn)中使用了兩部分訓(xùn)練集:
第一部分為200張Berkeley Segmentation Dataset數(shù)據(jù)集和Yang使用的91張圖片,共291張作為訓(xùn)練集訓(xùn)練網(wǎng)絡(luò),并在Set5和Set14上驗(yàn)證模型效果。考慮到GPU顯存的限制,為了權(quán)衡計(jì)算復(fù)雜度與重建效果,經(jīng)過(guò)多輪調(diào)參,網(wǎng)絡(luò)最終使用72×72的圖像塊作為輸入,BatchSize設(shè)置為16,信息壓縮模塊中D1、d 、s參數(shù)分別設(shè)置為64、16、4,使用5個(gè)級(jí)聯(lián)的信息壓縮模塊,優(yōu)化器選擇為Adam優(yōu)化器,β1=0.9, β2=0.999,學(xué)習(xí)率為0.001。
車載視頻中含有大量高分辨率的真實(shí)道路圖像,信息復(fù)雜多樣,對(duì)車載圖像的重建有利于輔助智能駕駛。本文第二部分為車載視屏中得到的車載圖像數(shù)據(jù)集,共2000對(duì)不同分辨率圖片,其中1800對(duì)作為訓(xùn)練集,200張作為驗(yàn)證集。原圖像尺寸為1920×1080,圖片中包含大量復(fù)雜的語(yǔ)義信息,導(dǎo)致重建難度加大。在該部分本文使用第一部分得到的模型作為預(yù)訓(xùn)練模型,在此基礎(chǔ)上作微調(diào)。圖像塊的輸入尺寸為192×192,BatchSize設(shè)置為4,為充分利用數(shù)據(jù),對(duì)輸入數(shù)據(jù)作數(shù)據(jù)增強(qiáng),即隨機(jī)的水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、通道變換,其他參數(shù)不變。訓(xùn)練過(guò)程中,先使用Set14數(shù)據(jù)集預(yù)訓(xùn)練得到最好結(jié)果,然后使用本文訓(xùn)練集訓(xùn)練網(wǎng)絡(luò),當(dāng)網(wǎng)絡(luò)在連續(xù)10輪內(nèi)損失函數(shù)沒(méi)有下降時(shí)提前停止訓(xùn)練,保存最好的模型。
3.2 重建速率和模型大小
表1的結(jié)果為10張500×500的車載圖像放大3倍的平均重建速率。VDSR算法需要在插值后的SR空間提取特征,盡管網(wǎng)絡(luò)小,模型大小適中,但重建速率不高。DRRN基于遞歸的循環(huán)卷積,使用參數(shù)共享,盡管能得到較小的模型,但由于算法仍然在SR空間提取特征并且需要多次循環(huán)卷積,重建速率很慢。LapSRN將圖像逐級(jí)放大,在不同尺寸的特征圖上提取特征,盡管網(wǎng)絡(luò)更深,但重建速率確有顯著提高?;贕AN的超分辨率重建(Super-Resolution using GAN, SRGAN)算法基于LR空間提取特征,然后使用普通卷積模塊,網(wǎng)絡(luò)使用簡(jiǎn)單的堆疊,存在大量的冗余,模型較大。本文算法基于LR空間提取特征,并在幾個(gè)級(jí)聯(lián)的信息壓縮模塊中極大地減少計(jì)算量,相較于LapSRN,其生成模型大小縮小為L(zhǎng)apSRN的39%,重建速度提高為L(zhǎng)apSRN的7.57倍。
3.3 有參考質(zhì)量評(píng)估
根據(jù)文獻(xiàn)[18],基于GAN的超分辨重建算法在PSNR、結(jié)構(gòu)相似度(Structural Similarity, SSIM)[19]等客觀指標(biāo)往往比同類效果低,但是卻能得到更好的主觀效果,其主觀質(zhì)量得分遠(yuǎn)高于同類算法,因此本文僅與同類SRGAN作比較。由表2可以得到,本文算法與SRGAN相比在PSNR及SSIM上仍有一定的提升。
3.4 主觀質(zhì)量評(píng)估
主觀質(zhì)量評(píng)估是觀察者對(duì)于圖像主觀的視覺(jué)感受,在圖像超分辨重建任務(wù)中更高的PSNR或SSIM不一定代表更好主觀視覺(jué)效果,本節(jié)直接對(duì)比不同算法重建后圖片的主觀視覺(jué)效果。
由于車載圖像尺寸較大,圖像中包含大量道路信息和紋理結(jié)構(gòu),增大了重建難度。為了更加直觀地體現(xiàn)出重建前后圖像在細(xì)節(jié)方面的差異,本文將不同算法重建后圖像的局部放大后進(jìn)行對(duì)比。實(shí)驗(yàn)選取了不同圖片上交通告示牌、路邊建筑和道路裂縫等細(xì)節(jié)作為展示,如圖6。在交通告示牌中本文算法對(duì)于文字邊緣和色彩的飽和度上有很好的重建效果,不會(huì)產(chǎn)生模糊的邊界。對(duì)于建筑上的線條,其他算法會(huì)出現(xiàn)不連續(xù)的斷點(diǎn),而本文算法能很好重建出連續(xù)且清晰的線條。同樣本文算法對(duì)于道路裂紋也體現(xiàn)出很好的重建效果。
3.5 無(wú)參考質(zhì)量評(píng)估
參考文獻(xiàn)[20]所使用熵的比較方法,表3給出了本文重建算法重建前后熵和方差的變化。實(shí)驗(yàn)中隨機(jī)選取3組無(wú)參考圖片,每組20張,計(jì)算圖像在3倍超分辨率重建后的平均熵和方差,熵越大表示圖像信息越豐富。實(shí)驗(yàn)結(jié)果顯示,用本文算法重建后圖片熵有所提高,表明用該算法重建后圖像包含的信息更加豐富。
3.6 重建后對(duì)目標(biāo)檢測(cè)的影響
在目標(biāo)檢測(cè)任務(wù)中,分辨率越高、圖像越清晰往往可以得到更好的檢測(cè)效果,本部分將車載圖像通過(guò)本文網(wǎng)絡(luò)超分辨率重建(2倍)后,用于目標(biāo)檢測(cè)任務(wù),共使用1000張測(cè)試圖片,使用RetinaNet[21]目標(biāo)檢測(cè)器,手工統(tǒng)計(jì)圖片中目標(biāo)個(gè)數(shù)(行人和車輛)以及檢測(cè)到的目標(biāo)個(gè)數(shù),并計(jì)算識(shí)別率,重建前的平均識(shí)別率為75.54%,重建后識(shí)別率可提升到78.35%。圖7為超分辨率重建前后目標(biāo)檢測(cè)的結(jié)果比較,為了方便觀察本文將圖片放大到相同的大小。重建前后圖像質(zhì)量得到明顯的改善,輪廓邊緣更清晰。重建前會(huì)漏檢一些較小或不清晰的目標(biāo),而重建后可以檢測(cè)到之前漏檢的對(duì)象,如第一組圖片左下角的車輛和第二組圖片左上角的行人,同時(shí)檢測(cè)到目標(biāo)的置信度有輕微提升。
4 結(jié)語(yǔ)
本文基于八位二進(jìn)制量化和信息壓縮模塊設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),并采用GAN結(jié)構(gòu)訓(xùn)練網(wǎng)絡(luò),極大地減少了計(jì)算量,提高了重建效率;并結(jié)合局部和全局的殘差學(xué)習(xí),通過(guò)網(wǎng)絡(luò)學(xué)習(xí)LR空間中的高頻信息,直接與插值之后的SR空間信息相融合,使網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程更加輕松。最終的實(shí)驗(yàn)結(jié)果表明,與VDSR、LapSRN等深度學(xué)習(xí)方法相比,本文算法不僅可以得到更小的模型、更快的重建速率,同時(shí)重建的圖片能很好地恢復(fù)圖像細(xì)節(jié),達(dá)到良好的主觀視覺(jué)效果。但由于GAN訓(xùn)練的不穩(wěn)定性,本文算法在訓(xùn)練過(guò)程中有較大的波動(dòng),接下來(lái)可進(jìn)一步研究提高算法的穩(wěn)定性,且行車記錄儀中圖像具有連續(xù)性,可根據(jù)幀與幀之間的聯(lián)系進(jìn)一步提高算法的重建效果。
參考文獻(xiàn) (References)
[1]EFRAT N, GLASNER D, APARTSIN A, et al. Accurate blur models vs. image priors in single image super resolution [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2013: 2832-2839.
[2]張寧,王永成,張欣,等.基于深度學(xué)習(xí)的單張圖片超分辨率重構(gòu)研究進(jìn)展[J/OL].自動(dòng)化學(xué)報(bào)[2019-07-07].http://kns.cnki.net/kcms/detail/detail.aspx?doi=10.16383/j.aas.c190031.(ZHANG N, WANG Y C, ZHANG X, et al. A review of single image super-resolution based on deep learning [J/OL].? Acta Automatica Sinica [2019-07-07]. http://kns.cnki.net/kcms/detail/detail.aspx?doi=10.16383/j.aas.c190031.)
[3]DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8692. Cham: Springer, 2014: 184-199.
[4]KIM J, LEE J K, LEE K M. Accurate image super-resolution using very deep convolutional networks [C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1646-1654.
[5]MAO X, SHEN C, YANG Y. Image restoration using very deep convolutional encoder-decoder networks with symmetric skip connections [C] // Proceedings of the 2016 Annual Conference on Neural Information Processing Systems. La Jolla: Neural Information Processing Systems Foundation, 2016: 432-449.
[6]LAI W, HUANG J, AHUJA A, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5835-5843.
[7]TAI Y, YANG J, LIU Y. Image super-resolution via deep recursive residual network [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2790-2798.
[8]TONG T, LI G, LIU X, et al. Image super-resolution using dense skip connections [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4809-4817.
[9]COURBARIAUX M, BENGIO Y, DAVID J P. BinaryConnect: training deep neural networks with binary weights during propagations [C]// Proceedings of the 2015 Annual Conference on Neural Information Processing Systems. La Jolla: Neural Information Processing Systems Foundation, 2015: 3123-3131.
[10]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[11]袁昆鵬,席志紅.基于深度跳躍級(jí)聯(lián)的圖像超分辨率重建[J].光學(xué)學(xué)報(bào),2019,39(7):0715003-1-0715003-10.(YUAN K P, XI Z H. Image super resolution based on depth jumping cascade [J]. Acta Optica Sinica, 2019, 39(7): 0715003-1-0715003-10.)
[12]OODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Proceedings of the 2014 Annual Conference on Neural Information Processing Systems. La Jolla: Neural Information Processing Systems Foundation, 2014: 2672-2680.
[13]OHNSON J, ALAHI A, LI F. Perceptual losses for real-time style transfer and super- resolution [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9906. Cham: Springer, 2016: 694-711.
[14]RASTEGARI M, ORDONEZ V, REDMON J, et al. XNOR-Net: ImageNet classification using binary convolutional neural networks [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9908. Cham: Springer, 2016: 525-542.
[15]LIM B, SON S, KIM H, et al. Enhanced deep residual networks for single image super-resolution [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 1132-1140.
[16]IOFFE S, SZEGEDY S. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proceedings of the 2015 32nd International Conference on Machine Learning. New York: JMLR, 2015: 448-456.
[17]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2019-03-20]. https://arxiv.org/pdf/1409.1556.pdf.
[18]LEDIG C, THEIS L, HUSZR F, et al. Photo-realistic single image super-resolution using a generative adversarial network [C]// Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 105-114.
[19]WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[20]劉杰平,楊業(yè)長(zhǎng),韋崗.結(jié)合暗通道先驗(yàn)的單幅圖像快速去霧算法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,46(3):86-91.(LIU J P, YANG Y Z, WEI G. A fast single image dehazing algorithm based on dark channel prior [J]. Journal of South China University of Technology (Natural Science Edition), 2018, 46(3): 86-91.)
[21]LIN T Y, GOYAL P, GIRSHICK R. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2999-3007
This work is partially supported by the Science and Technology Research Project of Guangdong (x2dxB216005).
XU Dezhi, born in 1995, M. S. candidate. His research interests include machine learning, computer vision.
SUN Jifeng, born in 1962, Ph.D., professor. His research interests include machine learning, pattern recognition, computer vision.
LUO Shasha, born in 1994, M. S. candidate. Her research interests include computer vision, data mining.
收稿日期:2019-05-13;修回日期:2019-07-30;錄用日期:2019-07-31?;痦?xiàng)目:廣東省科技計(jì)劃項(xiàng)目(x2dxB216005)。
作者簡(jiǎn)介:許德智(1995—),男,湖北荊州人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué); 孫季豐(1962—),男,廣東廣州人,教授,博士生導(dǎo)師,博士,主要研究方向:機(jī)器學(xué)習(xí)、模式識(shí)別、計(jì)算機(jī)視覺(jué); 羅莎莎(1994—),女,江西吉安人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺(jué)、數(shù)據(jù)挖掘。
文章編號(hào):1001-9081(2019)12-3644-06 DOI:10.11772/j.issn.1001-9081.2019050804