国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化對(duì)抗學(xué)習(xí)的圖像增強(qiáng)方法

2020-09-08 01:40郭業(yè)才周騰威
關(guān)鍵詞:圖像增強(qiáng)正則梯度

郭業(yè)才, 周騰威

(1. 南京信息工程大學(xué) a. 電子與信息工程學(xué)院, 南京 210044; b. 濱江學(xué)院, 江蘇 無(wú)錫 214105;2. 江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心, 南京 210044)

攝相機(jī)在弱光照或曝光不足的條件下所拍攝的圖像質(zhì)量偏低,易造成圖像噪聲大和顏色信息缺失,其分辨率和動(dòng)態(tài)范圍也受到一定的限制,故圖像增強(qiáng)自動(dòng)化技術(shù)的研究備受關(guān)注.Guo等[1]提出低照度圖像增強(qiáng)(low-light image enhancement, LIME)算法,通過(guò)找到原始圖像R、G、B三個(gè)通道中最大值的方法得到光照?qǐng)D, 再經(jīng)伽馬變換后得到增強(qiáng)圖像,增強(qiáng)結(jié)果亮度雖得到明顯提升,但易產(chǎn)生過(guò)增現(xiàn)象.Wang等[2]提出基于人類視覺(jué)系統(tǒng)的內(nèi)容自適應(yīng)直方圖均衡化算法, 并根據(jù)對(duì)比度調(diào)整圖像的色彩飽和度; 黃麗雯等[3]利用雙邊和引導(dǎo)濾波對(duì)經(jīng)典Retinex理論進(jìn)行了改進(jìn).上述傳統(tǒng)算法均缺乏對(duì)圖像語(yǔ)義信息的理解,增強(qiáng)結(jié)果泛化性較差.隨著深度學(xué)習(xí)的普及,許多學(xué)者專注于將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像增強(qiáng)領(lǐng)域; Yan等[4]提出了基于深度學(xué)習(xí)的照片修飾方法; Yang等[5]提出個(gè)性化的照片實(shí)時(shí)曝光控制方法; Hu等[6]提出Exposure框架圖像增強(qiáng)算法,利用深度強(qiáng)化學(xué)習(xí)[7]中的行動(dòng)者-評(píng)論家(actor-critic, AC)算法結(jié)合生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)模型,將圖像增強(qiáng)問(wèn)題建模為順序決策問(wèn)題,模擬照片后期增強(qiáng)處理的過(guò)程.但AC算法及GAN模型訓(xùn)練不穩(wěn)定性會(huì)導(dǎo)致網(wǎng)絡(luò)獲得次優(yōu)的圖像修飾策略,其增強(qiáng)結(jié)果存在過(guò)曝現(xiàn)象以及色彩和對(duì)比度失真等問(wèn)題.針對(duì)Exposure框架存在的問(wèn)題,本文提出critic正則化相對(duì)對(duì)抗優(yōu)勢(shì)行動(dòng)者-評(píng)論家(relativistic adversarial advantage actor-critic with critic-regulatization, RA3C-CR)框架, 利用相對(duì)平均生成對(duì)抗網(wǎng)絡(luò)(relativistic average generative adversarial networks, RAGAN)的損失函數(shù)近似AC算法中的獎(jiǎng)勵(lì)函數(shù).當(dāng)價(jià)值網(wǎng)絡(luò)對(duì)值估計(jì)高度不準(zhǔn)確時(shí), 一般采用延遲策略更新方法[8]解決策略執(zhí)行次優(yōu)的步驟所致的誤差累積, 該方法須多次訓(xùn)練價(jià)值網(wǎng)絡(luò)以確保其準(zhǔn)確度, 故耗時(shí)較長(zhǎng); 因此, 本文通過(guò)懲罰算法中critic的時(shí)間差分誤差來(lái)約束actor的學(xué)習(xí)行為, 以期提升AC算法的穩(wěn)定性及整體表現(xiàn).

1 Exposure框架圖像增強(qiáng)模型

基于Exposure框架圖像增強(qiáng)過(guò)程建模為順序決策問(wèn)題, 定義該框架的算子集合,包括對(duì)圖像曝光度、對(duì)比度、飽和度、顏色曲線、色調(diào)曲線、黑白調(diào)整以及白平衡和伽馬校正等8種修飾操作.智能體從集合中選用一個(gè)操作并確定其參數(shù)值對(duì)輸入圖像進(jìn)行修飾,系統(tǒng)評(píng)估該動(dòng)作的優(yōu)劣并進(jìn)入到下一修飾狀態(tài).通過(guò)不斷重復(fù)上述行為,直至獲得視覺(jué)效果較好的圖像.該框架利用強(qiáng)化學(xué)習(xí)優(yōu)化算子及其參數(shù)值的決策過(guò)程, 其增強(qiáng)過(guò)程如圖1所示.

以P=(S,A)表示該圖像增強(qiáng)模型, 其中S為狀態(tài)空間, 即原始圖像以及增強(qiáng)進(jìn)程所有中間狀態(tài)的集合;A為動(dòng)作空間, 即決策過(guò)程中可采用算子的集合. 以st∈S表示在第t步時(shí)智能體所處的狀態(tài),at∈A表示當(dāng)前狀態(tài)下采用的動(dòng)作.將智能體在狀態(tài)st執(zhí)行動(dòng)作at時(shí)轉(zhuǎn)移到狀態(tài)st+1的概率表示為

st+1=p(st+1|st,at),

(1)

(2)

(3)

Qπ(st,at)=Es~ρπ,a~at, φ~π[r(st,at)+γVπ(p(st,at))].

(4)

通過(guò)優(yōu)勢(shì)函數(shù)Aπ(st,at)=Qπ(st,at)-Vπ(st)來(lái)衡量動(dòng)作at的合適程度.為模擬圖像后期處理過(guò)程, 現(xiàn)將動(dòng)作空間分為離散動(dòng)作空間A1(修飾算子的選擇)和連續(xù)動(dòng)作空間A2(算子的參數(shù)取值范圍).故上述策略π包含隨機(jī)策略π1和確定性策略π2.π1為當(dāng)前狀態(tài)下動(dòng)作a1選擇的概率分布,π2為選擇某動(dòng)作后在該動(dòng)作參數(shù)取值范圍內(nèi)確定其最優(yōu)參數(shù)a2.算法框架主要由隨機(jī)性策略網(wǎng)絡(luò)、確定性策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)組成.價(jià)值網(wǎng)絡(luò)近似計(jì)算狀態(tài)值函數(shù)Vπ, 雙策略網(wǎng)絡(luò)分別根據(jù)狀態(tài)-動(dòng)作值函數(shù)Qπ和優(yōu)勢(shì)函數(shù)Aπ更新策略, 得到各狀態(tài)下選擇每一個(gè)動(dòng)作的合理概率及最優(yōu)參數(shù)取值.狀態(tài)函數(shù)V以及策略函數(shù)π=(π1,π2)分別通過(guò)卷積神經(jīng)網(wǎng)絡(luò)Vω和π(θ1,θ2)近似, 其中ω,θ=(θ1,θ2)分別為價(jià)值網(wǎng)絡(luò)和雙策略網(wǎng)絡(luò)的學(xué)習(xí)參數(shù).時(shí)序差分(temporal-difference, TD)誤差δ[9]被用作優(yōu)勢(shì)函數(shù)的無(wú)偏估計(jì).通過(guò)最小化Lω優(yōu)化價(jià)值網(wǎng)絡(luò):

(5)

由于動(dòng)作分為離散和連續(xù)動(dòng)作, 故分別采用隨機(jī)性及確定性策略梯度算法更新模型[10-11], 策略梯度為

(6)

(7)

優(yōu)勢(shì)函數(shù)A可由TD誤差δ進(jìn)行計(jì)算, 通過(guò)式(4)代入動(dòng)作值函數(shù)Q, 根據(jù)鏈?zhǔn)椒▌t計(jì)算其梯度.參數(shù)的更新公式為

(8)

2 RA3C-CR框架

2.1 RA3C框架獎(jiǎng)勵(lì)函數(shù)

合理的獎(jiǎng)勵(lì)機(jī)制驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)算法的期望行為, 故本文提出RA3C框架, 采用RAGAN代替Exposure中的GAN模型來(lái)判別增強(qiáng)圖像, 并近似算法的獎(jiǎng)勵(lì)函數(shù), 以改善判別器存在的偏置情況, 穩(wěn)定梯度并加快收斂速度.該相對(duì)平均判別器預(yù)測(cè)真實(shí)圖像sr相對(duì)于生成圖像sf更為逼真, 其鑒別行為表示為FRaD(sr,sf)=σ(D(sr)-E[D(sf)]), 其中σ為sigmoid函數(shù),D(·)為判別器輸出.定義相對(duì)平均判別器的損失函數(shù)為

(9)

r(s,(a1,a2))=logFRaD(s′f,sr)-logFRaD(sf,sr),s′f=p(sf, (a1,a2)).

(10)

獎(jiǎng)勵(lì)值越大, 表明執(zhí)行動(dòng)作越合適.RA3C的生成器即AC算法框架,其目的是提供最優(yōu)策略使增強(qiáng)圖像盡可能接近真實(shí)圖像.因獎(jiǎng)勵(lì)函數(shù)中包含sf和sr, 生成器同時(shí)將各個(gè)狀態(tài)和真實(shí)數(shù)據(jù)納入損失函數(shù)的梯度計(jì)算中,以提升信息流的傳遞.因此, RA3C有助于網(wǎng)絡(luò)學(xué)習(xí)到更合適的曝光度、對(duì)比度及圖像的顏色分布, 其框架如圖2所示.

2.2 CR正則化

應(yīng)用critic正則化(critic-regulatization, CR)約束策略梯度算法, 將上述RA3C框架改進(jìn)為RA3C-CR框架.該方法將價(jià)值網(wǎng)絡(luò)的損失函數(shù)TD誤差作為策略網(wǎng)絡(luò)梯度的正則項(xiàng)來(lái)規(guī)范actor對(duì)策略的更新.避免當(dāng)critic對(duì)價(jià)值函數(shù)估計(jì)極不準(zhǔn)確時(shí),高錯(cuò)誤狀態(tài)的actor產(chǎn)生次優(yōu)策略引起偏差累積,提高了AC算法的穩(wěn)定性及整體表現(xiàn).根據(jù)式(6), 正則化策略梯度表示為

(11)

式中C(s,(a1,a2);ω)=A(s,(a1,a2);ω)-λiδ2(s,s′;ω),s′=p(s,(a1,a2)),λiδ2(s,s′;ω)為critic正則項(xiàng),δ為T(mén)D誤差,λi為懲罰系數(shù). 隨迭代次數(shù)i的增加, 價(jià)值網(wǎng)絡(luò)critic對(duì)值函數(shù)的近似估計(jì)越準(zhǔn)確, 正則項(xiàng)的影響逐漸減小, 故引入衰減因子k使得懲罰系數(shù)隨訓(xùn)練進(jìn)程衰減,即λi+1=kλi,0

(12)

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)設(shè)置

本文選擇MIT-Adobe FiveK公開(kāi)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù), 使用2 000張?jiān)紙D像作為訓(xùn)練集, 2 000張專家C修飾的圖像作為標(biāo)簽, 250張?jiān)紙D像作為測(cè)試集, 在訓(xùn)練過(guò)程中,隨機(jī)打亂標(biāo)簽順序,形成訓(xùn)練集與標(biāo)簽的非成對(duì)映射,實(shí)現(xiàn)弱監(jiān)督學(xué)習(xí).本實(shí)驗(yàn)依賴于tensorflow v1.80, 運(yùn)行環(huán)境為64位Ubuntu,計(jì)算機(jī)配置為CPU Inter(R) Core(TM) i8-8700 3.75 GHz, 內(nèi)存為16 GB, 計(jì)算顯卡為NVIDIA 1080Ti.為體現(xiàn)RA3C-CR框架的優(yōu)越性, 采用與Exposure框架中相同的網(wǎng)絡(luò)結(jié)構(gòu)及輸入輸出處理方式進(jìn)行對(duì)比.采用Adam算法優(yōu)化所有網(wǎng)絡(luò).策略網(wǎng)絡(luò)、判別網(wǎng)絡(luò)及價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)率分別為1.5×10-5, 5×10-5,5×10-4.在訓(xùn)練期間, 這些學(xué)習(xí)率以指數(shù)方式衰減至原始值的10-3.設(shè)置batch size為64, critic正則項(xiàng)懲罰系數(shù)初始值λ1為0.1, 衰減因子k為0.98.整體框架訓(xùn)練時(shí)間為1.1 h.

3.2 結(jié)果分析

采用圖像增強(qiáng)優(yōu)化算法LIME[1]、CLHE[2]、非成對(duì)映射數(shù)據(jù)集訓(xùn)練的Exposure[6]以及本文無(wú)CR正則項(xiàng)的RA3C方法和RA3C-CR方法進(jìn)行對(duì)比實(shí)驗(yàn), 結(jié)果如圖3所示.由圖3可見(jiàn): LIME算法可使亮度明顯得到提升, 但存在過(guò)度增強(qiáng)問(wèn)題; CLHE算法下圖像亮度、顏色飽和度適宜, 但圖像失真; 與類似框架的Exposure相比, RA3C增強(qiáng)的圖像更真實(shí), 但對(duì)比度過(guò)高, 加入CR正則項(xiàng)后, 改善了圖像的曝光度及對(duì)比度,其顏色分布也與標(biāo)簽圖像最為接近.因此,本文RA3C-CR算法增強(qiáng)圖像主觀視覺(jué)效果與顏色自然程度最佳.此外, Exposure中GAN模型為WGAN-GP,為確保判別網(wǎng)絡(luò)的收斂性, 其每次迭代須更新5次判別器和1次生成器,耗費(fèi)255 ms, 而本算法每次迭代僅需訓(xùn)練1次判別器, 耗費(fèi)96 ms, 總體訓(xùn)練時(shí)間約占Exposure的1/3.綜上所述, RA3C-CR框架在收斂速度及增強(qiáng)效方面皆優(yōu)于Exposure.

為了客觀地對(duì)比各算法的增強(qiáng)表現(xiàn), 現(xiàn)選取峰值信噪比(peak signal to noise ratio, PSNR)、結(jié)構(gòu)相似度(structural similarity, SSIM)作為客觀評(píng)價(jià)指標(biāo),驗(yàn)證算法的性能, 各方法評(píng)價(jià)指標(biāo)平均值如表1所示.由表1可見(jiàn),本文算法較對(duì)比算法具有更高的SSIM和PSNR, 說(shuō)明其增強(qiáng)還原后的結(jié)果具有更小的失真程度, 可更有效地保持場(chǎng)景的原有結(jié)構(gòu),驗(yàn)證了RA3C-CR框架以及CR正則化有效性, RA3CCR增強(qiáng)的圖像質(zhì)量最高.為進(jìn)一步驗(yàn)證CR正則化的有效性,計(jì)算RA3C和RA3C-CR框架每500次迭代下測(cè)試圖像獲得的平均峰值信噪比和結(jié)構(gòu)相似度, 結(jié)果如圖4所示.由圖4可見(jiàn),有正則項(xiàng)的RA3C-CR獲得的平均PSNR和SSIM值更高, 且在網(wǎng)絡(luò)訓(xùn)練初期價(jià)值網(wǎng)絡(luò)高度不準(zhǔn)確的情況下也可獲得更高的指標(biāo).結(jié)果表明, critic正則化有助于提升actor-critic算法的性能.

表1 各方法在MIT-Adobe FiveK數(shù)據(jù)集

4 結(jié)論

本文提出了基于深度強(qiáng)化對(duì)抗學(xué)習(xí)的RA3C-CR框架圖像增強(qiáng)算法, 通過(guò)生成修飾算子序列作用于原始圖像,最終實(shí)現(xiàn)圖像視覺(jué)效果的改善.該框架使用RAGAN對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行建模, 增強(qiáng)了判別器的鑒別能力.同時(shí), 利用critic正則化約束策略梯度算法,減小價(jià)值網(wǎng)絡(luò)估計(jì)不準(zhǔn)確對(duì)策略更新造成的不利影響.由于本框架訓(xùn)練參數(shù)較少,故可移植于手機(jī)端或數(shù)碼相機(jī)端處理高分辨率圖像.

猜你喜歡
圖像增強(qiáng)正則梯度
磁共振梯度偽影及常見(jiàn)故障排除探討
通過(guò)圖像增強(qiáng)與改進(jìn)Faster-RCNN網(wǎng)絡(luò)的重疊魚(yú)群尾數(shù)檢測(cè)
基于應(yīng)變梯度的微尺度金屬塑性行為研究
一種基于輕量級(jí)深度網(wǎng)絡(luò)的無(wú)參考光學(xué)遙感圖像增強(qiáng)算法
具有逆斷面的正則半群上與格林關(guān)系有關(guān)的同余
圖像增強(qiáng)技術(shù)在超跨聲葉柵紋影試驗(yàn)中的應(yīng)用
帶低正則外力項(xiàng)的分?jǐn)?shù)次阻尼波方程的長(zhǎng)時(shí)間行為
一個(gè)具梯度項(xiàng)的p-Laplace 方程弱解的存在性
任意半環(huán)上正則元的廣義逆
基于正則化秩k矩陣逼近的稀疏主成分分析
滦平县| 井陉县| 朝阳市| 龙里县| 阳新县| 乌拉特后旗| 陕西省| 遂川县| 瑞丽市| 克山县| 衡南县| 金塔县| 绥化市| 远安县| 封开县| 自治县| 白河县| 巧家县| 通渭县| 文安县| 双江| 屏山县| 桃园县| 娄底市| 古田县| 博客| 嘉峪关市| 翁源县| 武川县| 蓝田县| 通榆县| 伊吾县| 兖州市| 北川| 宁安市| 岳阳市| 同德县| 丹阳市| 郯城县| 横峰县| 蓬莱市|