趙瑞祥,暢海峰,白曉勇,彭銀銀,呂 武
(中船航??萍加邢挢?zé)任公司 信息產(chǎn)品部, 北京 100070)
無人船環(huán)境感知算法依賴高質(zhì)量圖像,如果觀感器獲取的圖像質(zhì)量不佳,會給后續(xù)的高級視覺任務(wù)產(chǎn)生嚴(yán)重的影響。在實際應(yīng)用過程中,光電傳感器所獲取的圖像會受到環(huán)境能見度、目標(biāo)背景光譜對比度和天氣狀況等因素影響。圖像對比度為圖像中明暗區(qū)域最亮的白和最暗的黑之間不同亮度層級的差距[1],在海面常見的雨、霧和低照度等環(huán)境條件下,光電傳感器捕獲的圖像較暗,對比度較低,導(dǎo)致圖像質(zhì)量退化[2],對后續(xù)的高級視覺任務(wù)造成不利影響。因此本文將對上述問題產(chǎn)生的圖像退化現(xiàn)象進行低對比度圖像增強技術(shù)的研究。
針對低對比度圖像增強技術(shù)的需求,本文研究了MSR(Multi-Scale Retinex)圖像增強算法。由于MSR 模型參數(shù)是人工設(shè)置的(一般為高斯核),沒有依賴實際的退化圖像數(shù)據(jù),因此算法對圖像的增強程度具有局限性。針對上述問題,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的MSSEN(Multi-Scale Squeeze and Excitation Networks)模型來進行低對比度圖像增強。首先,根據(jù)MSR 的結(jié)構(gòu),利用inception(多尺度特征圖)模塊[3]與res-block(殘差塊)模塊[4]構(gòu)建MSRN(Multi-Scale Retinex Networks)。其次,增加了多尺度模塊濾波器的尺度多樣性,使得算法從圖像的局部到全局都可以有更佳的增強效果。最后,對不同尺度的濾波器引入通道級的視覺注意力機制技術(shù),使得算法主動篩選出更佳的濾波器,從而達到更好的圖像增強效果。訓(xùn)練好的MSSEN 既可以單獨處理對比度圖像,也可以后續(xù)接入高級視覺任務(wù)的網(wǎng)絡(luò),2 個網(wǎng)絡(luò)共享權(quán)重,進行參數(shù)微調(diào)之后便可以端到端的在低對比度圖像上進行高級視覺任務(wù)。
對比度指圖像灰度反差的大小,其受入射光影響[1]。Retinex 理論認(rèn)為圖像可以分解為入射光部分與反射光部分[5],如圖1 所示。
上述的Retinex 成像原理將入射部分與反射部分分離開建模,可表示為:
其中:I(x,y)為觀察到的圖像;R(x,y)為物體反射特性;L(x,y)為入射光圖像。反射圖像是圖像的內(nèi)在屬性,應(yīng)該最大程度保留,而入射圖像影響了圖像像素的動態(tài)范圍與對比度,應(yīng)當(dāng)盡量去除。通常把反射圖像作為空間平滑圖像的估計,則有如下公式:
式中:log(·)函數(shù)用于平滑圖像。
根據(jù)單尺度Retinex(SSR)理論,可利用中心環(huán)繞函數(shù)輔助求解,其公式轉(zhuǎn)化為:
這里R(x,y)為輸出圖像,括號中 ?表示卷積運算,F(xiàn)(x,y)為高斯中心環(huán)繞函數(shù),其表達式為:
式中:σ為高斯函數(shù)的標(biāo)準(zhǔn)差,也稱為環(huán)繞尺度;λ為一個尺度系數(shù),它保證整個函數(shù)滿足以下約束:
由以上公式可以分析出,SSR 算法中通過高斯核與入射圖像的卷積運算,計算像素點與其鄰域加權(quán)平均的作用,來估計圖像中光照強度的變化程度。同時去掉L(x,y)的作用,僅保留了I(x,y)的屬性。改變卷積與對數(shù)運算的順序,可得到下式:
中心環(huán)繞函數(shù)F(x,y)通常采用低通函數(shù),卷積運算后能夠提取出圖像的低頻部分。從觀測圖像中去掉低頻部分,就可獲得高頻分量,即圖像邊緣信息。所以SSR 算法對增強圖像中的邊緣信息有著較好的效果。
多尺度Retinex(MSR)算法基于SSR 發(fā)展而來,其在實現(xiàn)顏色恒常性的色彩增強的同時,也能夠提升圖像信噪比、抑制背景干擾。MSR 具體可表示成多個SSR 算子的加權(quán)和:
式中:為MSR 算法輸出的第i個通道分量;n為尺度數(shù);ωn為對應(yīng)的第n種尺度的權(quán)重;為SSR 輸出的第n個尺度下的第i個通道分量。通常,取N=3,,式子展開后為:
將不同的高斯環(huán)繞函數(shù)F(x,y)展開代入上式得:
由式 (9) 可知,只需設(shè)置好高斯環(huán)繞函數(shù)的參數(shù),便可進行圖像增強計算。整個MSR 算法流程如圖2 所示。
圖2 MSR 算法流程圖Fig. 2 The overview of MSR algorithm
MSR 算法采用多尺度結(jié)構(gòu),其中的高斯環(huán)繞函數(shù)的參數(shù)是人工設(shè)置的。監(jiān)督學(xué)習(xí)通過誤差反向傳播技術(shù)[6]能夠很好地指導(dǎo)模型參數(shù)進行學(xué)習(xí)。鑒于此,本文提出了多尺度知識抽取網(wǎng)絡(luò)(Multi-Scale Squeeze and Excitation Networks,MSSEN), 使得模型參數(shù)可以從大量數(shù)據(jù)中自動學(xué)習(xí)。MSEEN 提升了網(wǎng)絡(luò)抽取圖像特征的能力,使得模型能夠更好地對低對比度水面圖像進行增強。
圖3 展示了MSSEN 的整體結(jié)構(gòu),MSSEN 是一個能進行端到端訓(xùn)練的全卷積網(wǎng)絡(luò),它主要由MSRN、IEM 與SRM 串聯(lián)而成。
圖3 MSSE Net 模型網(wǎng)絡(luò)架構(gòu)圖Fig. 3 The overview of MSSE Net
1)MSRN
對于MSRN 模型,由于初始的MSR 算法采用3 個不同尺度的高斯環(huán)繞函數(shù),本文也采用3 種不同尺度的卷積核,其感受野從小到大設(shè)置為5×5,15×15和25×25(單位:像素)。通過Inception 結(jié)構(gòu)后,將3 個張量在通道維度上結(jié)合。這一運算符合MSR 中對不同尺度SSR 加權(quán)的結(jié)果。
多尺度的并行特征抽取結(jié)構(gòu)使得模型能夠提取到不同尺度的局部圖像的特性細(xì)節(jié)。MSFEM 卷積核感受野尺度k范圍如下式:
式中:slow與sup分別是尺度下界與上界參數(shù),本文取2 與24,可根據(jù)算法性能與時間效率的均衡性來調(diào)節(jié)上下界范圍。
每個尺度通過一層卷積層完成特征抽取,輸出通道數(shù)為16 的特征圖,進入下一個模塊。
2)IEM
特征重要性抽取模塊,引入SENet[7]中的通道級的注意力機制,給不同尺度的特征圖以及不同通道特征進行權(quán)重的重新分配。
在MSR 算法中,對3 個不同尺度的高斯環(huán)繞函數(shù)的結(jié)果采用了平均加權(quán)的策略,后來改進的帶顏色恢復(fù)的MSR 算法中提出了顏色恢復(fù)因子來調(diào)節(jié)不同色彩通道的權(quán)重比例,公式為:
式中,ci(x,y)是第i個通道的權(quán)重系數(shù),它是圖像的自適應(yīng)函數(shù)。
因此,改進了在MSR 中對每個通道進行平均加權(quán)的方法,對每個尺度輸出的特征圖進行特征通道級的注意力機制計算,為每個特征通道分配權(quán)重,使得網(wǎng)絡(luò)能夠?qū)W習(xí)到不同通道的重要程度,如圖4 所示。
圖4 特征重要性抽取模塊示意圖Fig. 4 The channel attention module
首先是進行知識嵌入的操作,從輸入的特征圖U中獲取每個通道的全局特征信息嵌入,即特征向量。這一步驟通過全局平均池化(GAP)模塊[8]來實現(xiàn),計算公式為:
式中:uc為U第c個通道,W和H為特征圖U的形狀參數(shù)。
式 (13) 便可將W×H×C的輸入U映射為1×1×C的特征向量z,所求取的z代表著每個通道特征的分布情況,具有全局性。
獲得特征向量z后,就可通過z來計算分配給每個通道的權(quán)重。也就是說,需要一個非線性變換來將z映射為s,它們兩者的維度相同,等于U的通道數(shù)C,可以采用全連接層來學(xué)習(xí)這種映射關(guān)系:
式中:W1與W2為全連接層的參數(shù);δ(·)為ReLu 激活函數(shù),用于提升映射的非線性能力;σ(·)為sigmoid 激活函數(shù),用于將s中的系數(shù)映射到0~1 之間。
學(xué)習(xí)出權(quán)重系數(shù)向量s后,將U中每個通道的特征圖uc與對應(yīng)的sc相乘,便得到了加權(quán)后的特征圖U′:
式中:為U′中第c個通道的特征圖;sc為其對應(yīng)的權(quán)重系數(shù),為標(biāo)量。
3)SRM
特征轉(zhuǎn)化與殘差模塊作用為減少特征圖通道并將其恢復(fù)到RGB 顏色空間。由于圖像增強任務(wù)是點對點(point-to-point)的回歸,采用三層編解碼(encode-deconde)結(jié)構(gòu)[9]來提升網(wǎng)絡(luò)性能
最后引入的殘差結(jié)構(gòu),可從兩方面闡述其意義。首先,殘差模塊可以減緩梯度消失的程度,使得網(wǎng)絡(luò)參數(shù)更容易學(xué)習(xí)。其次,如果去掉殘差模塊,網(wǎng)絡(luò)估計的是增強后的圖像,損失函數(shù)如下:
式中:N為訓(xùn)練樣本數(shù)量;Xi與Yi分別為第i個低對比度圖像樣本與它對應(yīng)的標(biāo)簽(高質(zhì)量圖像);λ為正則化系數(shù);W為網(wǎng)絡(luò)參數(shù)。
根據(jù)Retinex 理論,觀測圖像由物體的反射部分與入射圖像組成。加入殘差模塊,損失函數(shù)如下:
2 個損失函數(shù)的差異在于均方根誤差MSE 函數(shù)中,f1(Xi)為網(wǎng)絡(luò)估計增強后的圖像;f2(Xi)為網(wǎng)絡(luò)估計入射圖像部分;Xi?f2(Xi)是增強后的圖像。入射圖像f2(Xi),這部分會調(diào)節(jié)像素動態(tài)范圍,相對于完整的增強圖像f1(Xi),其分布比較集中,方差較小,在整個回歸任務(wù)中,尋優(yōu)解空間范圍大幅度下降,網(wǎng)絡(luò)更佳容易收斂。
水面目標(biāo)的檢測、識別與跟蹤是無人船自主巡航時需要完成的最核心任務(wù)。在海面常見的雨、霧和低照度等環(huán)境條件下,光電傳感器捕獲的圖像較暗,對比度較低,導(dǎo)致圖像質(zhì)量退化,對后續(xù)的高級視覺任務(wù)造成不利影響。此時,增強算法處理后的圖像是為后續(xù)的高級視覺任務(wù)服務(wù),本文提出的MSSEN 模型是端到端的神經(jīng)網(wǎng)絡(luò)模型。因此,可以作為一個模塊與高級視覺任務(wù)(如目標(biāo)檢測識別)的神經(jīng)網(wǎng)絡(luò)相結(jié)合,共享參數(shù),端到端的處理低對比度環(huán)境下水面目標(biāo)的檢測識別任務(wù)。
如圖5 所示,首先訓(xùn)練好低對比度圖像增強的網(wǎng)絡(luò)MSSEN,然后訓(xùn)練目標(biāo)檢測識別的網(wǎng)絡(luò)。最后用兩部分預(yù)訓(xùn)練權(quán)重初始化2 個網(wǎng)絡(luò)組合成的網(wǎng)絡(luò)的參數(shù),然后用檢測識別任務(wù)的損失函數(shù)作為監(jiān)督進行訓(xùn)練,減小參數(shù)更新的學(xué)習(xí)率,進行參數(shù)微調(diào)。
圖5 低高級視覺任務(wù)結(jié)合模式Fig. 5 The combination of low-level and high-level visual task
1.4.1 數(shù)據(jù)集生成
為了對MSSEN 模型進行監(jiān)督訓(xùn)練,需低對比度圖像(樣本)與高質(zhì)量圖像(標(biāo)簽)的配對圖像組合,由于沒有這種類型的公開數(shù)據(jù)集,本文生成一個用于低對比度增強任務(wù)的數(shù)據(jù)集。從BSD 數(shù)據(jù)集[10]與UCID 數(shù)據(jù)集[11]中采集水面圖像,并且結(jié)合從網(wǎng)絡(luò)中收集一些高質(zhì)量圖像作為標(biāo)簽,然后為上述每一張圖像生成與其對應(yīng)的低對比度圖像。首先,將圖像轉(zhuǎn)換到HSV 空間,并且將V 通道的值乘上一個范圍在0.3~1 之間的隨機縮放因子;然后對圖像進行伽馬變換(Gamma Transform),變換參數(shù)gamma 值在1~3 的范圍中隨機選取。由上述方式一共生成5 372對樣本對,如圖6 所示。
圖6 低對比度水面圖像增強數(shù)據(jù)集Fig. 6 The dataset for low-contrast water surface image enhancement
1.4.2 實驗環(huán)境與設(shè)置
實驗環(huán)境為64 位的Linux(Ubuntu16.04)系統(tǒng),Inter 酷睿i7-7700K 處理器,32 GB 內(nèi)存,Nvidia GTX GeForce 1 080 顯卡,8 GB 顯存。
在MSSEN 模型中,采用Adam 優(yōu)化器[12]更新網(wǎng)絡(luò)參數(shù),一個批次16 個樣本,學(xué)習(xí)率初始化為10?3,每隔100 個epoch 衰減一次,衰減率為0.5,一共訓(xùn)練200 個epoch 網(wǎng)絡(luò)收斂。
1.4.3 實驗結(jié)果分析
圖7 展示了本文提出MSEEN 算法與MSR 算法分別在圖像增強數(shù)據(jù)集中與實拍圖像中的低對比度圖像增強實驗的效果對比。可以看出,MSR 算法在一定程度上提升了圖像對比度,但存在著涂抹感嚴(yán)重,圖像邊緣不分明的情況。本文提出的基于卷積網(wǎng)絡(luò)的圖像增強算法不僅提升了圖像對比度,而且能使得增強后的圖像更接近真實圖像。相較之下,MSEEN 模型在色彩、飽和度等視覺觀感上都顯得更加自然,其邊緣與紋理等結(jié)構(gòu)信息也更佳清晰。
除了視覺上主觀的對比,本文還采用峰值信噪比PSNR 與結(jié)構(gòu)相似性SSIM2 個圖像恢復(fù)的指標(biāo)來對不同算法的效果進行量化,在測試集上計算這2 個指標(biāo),然后取平均值記錄在表1 中。在2 個指標(biāo)中本文提出的MSEEN 模型都取得了最高分,說明經(jīng)過MSEEN 算法增強后的低對比度圖像能夠最大程度消除背景噪聲,保留有效信息。同時,具有高信噪比的圖像有利于進行圖像檢測識別任務(wù)[13]。
表1 增強圖像的PSNR/SSIM 對比Tab. 1 Comparison of PSNR/SSIM on enhanced images
無人船的環(huán)境感知模塊中加入低對比度增強算法的意圖是為后續(xù)的高級視覺任務(wù)輸出高質(zhì)量圖像,以提升高級視覺任務(wù)算法的性能。因此,評價低對比度圖像增強算法不僅需要從輸出的圖像質(zhì)量方面進行比較,也可從圖像增強對高級任務(wù)帶來的提升方面進行比較。
表2 為檢測算法作用于不同低對比度圖像增強算法增強后的測試集后得到的mAP。實驗結(jié)果表明,在低對比度成像環(huán)境中,本文提出的MSSEN模型能為后續(xù)高級視覺任務(wù)的提升帶來較大貢獻。獨立2 個網(wǎng)絡(luò)的權(quán)重直接結(jié)合使用存在局限,而采用2 個網(wǎng)絡(luò)的權(quán)重作為參數(shù)初始化,再進行微調(diào)訓(xùn)練,使得2 個網(wǎng)絡(luò)的權(quán)重相互作用,能使得算法性能進一步提升,使其更佳接近高質(zhì)量成像環(huán)境下的算法性能。
表2 低對度圖像增強對檢測算法的提升Tab. 2 Improvement of detection algorithm by low-contrast image enhancement
本文針對無人船視覺任務(wù)中遇到的低對比度成像環(huán)境問題進行探討并提出一些解決方案,首先探討了MSR 算法的理論與一些不足,然后利用卷積網(wǎng)絡(luò)重構(gòu)MSR 算法,提出MSRN 模塊,使得MSR 算法的參數(shù)能夠自適應(yīng)學(xué)習(xí)。隨后,提出MSSEN 模型,引入視覺注意力機制與編解碼結(jié)構(gòu)等,這些改進使得提出的MSSEN 模型能有效利用卷積計算的信息,提升了網(wǎng)絡(luò)抽取特征的性能,并且在模型訓(xùn)練時易于收斂。通過大量實驗驗證,提出的MSSEN 模型能有效增強低對比度圖像,使其不但在視覺觀感上更加接近沒有退化的高質(zhì)量圖像,而且在PSNR 與SSIM 等量化指標(biāo)上取得不錯的表現(xiàn)。除此之外,基于提出的圖像增強網(wǎng)絡(luò),提出了一種低級視覺任務(wù)與高級視覺任務(wù)結(jié)合的模式,使得低對比度圖像增強與檢測識別任務(wù)能夠端到端的訓(xùn)練并運行,提升了整個算法的性能與效率。