多尺度特征融合ESRGAN的巖石顯微圖像超分辨研究

2023-07-21 08:04:38朱聯(lián)祥仝文東牛文煜邵浩杰

計算機(jī)技術(shù)與發(fā)展 2023年7期

朱聯(lián)祥,仝文東,牛文煜,邵浩杰

(西安石油大學(xué) 計算機(jī)學(xué)院,陜西西安 710065)

0 引言

巖石是具有穩(wěn)定外形的固態(tài)集合體。通過研究其特性可對該地區(qū)油氣藏分布情況進(jìn)行評估預(yù)測。巖石顯微圖像在巖性識別、儲集層評價等方面起著直觀可視的重要作用。不僅能滿足觀察烴類與巖石的需要,而且能清晰地顯示出儲集層空間的微觀結(jié)構(gòu)特點(diǎn)及烴類物質(zhì)在儲集層中的存在方式,揭示巖石中油氣分布與巖石結(jié)構(gòu)、構(gòu)造、次生縫洞之間的關(guān)系,為準(zhǔn)確識別油氣層提供了可靠依據(jù)[1]。巖石薄片顯微圖像超分辨處理可獲得更加清晰的巖石圖像,從而更有利于相關(guān)研究工作的展開。

圖像超分辨率重建[2]是將低分辨率圖像通過軟件處理,從而生成具有較高分辨率圖像的技術(shù)。目前圖像超分辨率重建主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法兩大類別。傳統(tǒng)方法主要包括基于插值、基于重建和基于學(xué)習(xí)三種[3],相對來講操作簡單,但重建的圖像通常也比較模糊?；谏疃葘W(xué)習(xí)的方法將圖像輸入到復(fù)雜的神經(jīng)網(wǎng)絡(luò)中,通過獲取低分辨率圖像與高分辨率圖像間的復(fù)雜映射關(guān)系來實(shí)現(xiàn)圖像重建,雖然訓(xùn)練周期往往較長,但因具有更好的重建效果而得到更為廣泛的重視[4]。

2016年,Dong Chao等人提出SRCNN[5]結(jié)構(gòu),將深度學(xué)習(xí)引入到單張圖像的超分辨率重建領(lǐng)域,為圖像超分辨率重建技術(shù)的研究開辟了一條嶄新路徑[6]。2017年,Leding等人首次將GAN應(yīng)用于圖像超分辨率重建,提出了SRGAN[7]算法。該網(wǎng)絡(luò)由生成器和判別器構(gòu)成,其原理是使生成器生成的圖像盡可能騙過判別器,而判別器則盡可能區(qū)分出生成器生成的圖像與真實(shí)的高分辨率圖像。通過生成器與判別器的競爭博弈,在很大程度上克服了卷積模型恢復(fù)圖像質(zhì)量差的缺點(diǎn)。

SRGAN之后陸續(xù)出現(xiàn)了一系列基于生成對抗網(wǎng)絡(luò)的超分辨算法。Wang等人研究了類條件圖像的超分辨率重建,在2018年提出了SFT-GAN,解決了圖像紋理信息恢復(fù)不好的問題。但因超分辨率等底層視覺任務(wù)往往需要考慮更多的圖像空間信息,并在不同的位置進(jìn)行不同的處理,Wang Xintao等人通過對SRGAN的進(jìn)一步改進(jìn),提出了ESRGAN[8]。該網(wǎng)絡(luò)從三個方面對SRGAN進(jìn)行了改進(jìn):生成網(wǎng)絡(luò)殘差模塊改進(jìn)、判別器網(wǎng)絡(luò)替換、損失函數(shù)優(yōu)化,從而使得其超分辨重建的效果更加自然,使用PSNR和SSIM等指標(biāo)的評價更好。

使用逐層抽象的方式來提取目標(biāo)的特征時,高層網(wǎng)絡(luò)的感受野較大,語義信息的表征能力更強(qiáng)。但相對地,其特征圖的分辨率卻較低,幾何信息的表征能力偏弱。低層網(wǎng)絡(luò)則與之相反:感受野較小,幾何細(xì)節(jié)信息表征能力強(qiáng),雖分辨率較高但語義信息表征能力偏弱。多尺度特征融合[9]的思想便是,在對每層網(wǎng)絡(luò)進(jìn)行卷積操作之前,將其上一層的特征圖與該層特征圖相加,從而部分保留上一層的信息,減少信息的丟失。

該文以ESRGAN為基礎(chǔ),通過多尺度特征融合的思想,對從卷積神經(jīng)網(wǎng)絡(luò)不同層獲得的不同尺度的特征進(jìn)行融合,并對所得的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化調(diào)整,達(dá)到了重建圖像在細(xì)節(jié)性能上的提升。使用該方法對巖石顯微圖像進(jìn)行超分辨率處理,并采用峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)和感知系數(shù)(PI)等指標(biāo)對該方法的超分辨性能進(jìn)行了評價。

1 相關(guān)工作

1.1 生成對抗網(wǎng)絡(luò)

生成對抗網(wǎng)絡(luò)[10]是Ian J. Goodfellow等人提出的一個通過對抗過程估計生成模型的新框架。該模型由生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D構(gòu)成。生成網(wǎng)絡(luò)不斷學(xué)習(xí)訓(xùn)練集中的數(shù)據(jù)概率分布,目標(biāo)是通過輸入隨機(jī)噪聲生成可以以假亂真的圖像。判別網(wǎng)絡(luò)則用于區(qū)分一個圖像是否為真實(shí)的圖像,目標(biāo)是將生成網(wǎng)絡(luò)產(chǎn)生的圖像與訓(xùn)練集中的圖像成功區(qū)分[11]。

在訓(xùn)練過程中,二者的對抗形式如式(1)所示:

Ez～Pz(z)[log(1-D(G(z)))]

(1)

對于來自真實(shí)概率分布Pdata的x,生成對抗網(wǎng)絡(luò)希望其判別網(wǎng)絡(luò)的輸出D(x)盡可能接近于1,即logD(x)越大越好。而在生成網(wǎng)絡(luò)中,對于通過噪聲z生成的數(shù)據(jù)G(z),則需要使判別網(wǎng)絡(luò)D盡可能地區(qū)分出真假數(shù)據(jù),因此D(G(z))應(yīng)盡量接近于0[12]。

1.2 ESRGAN

ESRGAN是在SRGAN基礎(chǔ)上進(jìn)一步改進(jìn)得到的增強(qiáng)超分辨生成對抗網(wǎng)絡(luò)。該模型通過移除SRGAN生成網(wǎng)絡(luò)中的BN[13]層來緩解重建圖像的偽影,具體如圖1所示。圖中,左側(cè)為SRGAN的殘差塊結(jié)構(gòu),右側(cè)則為去除BN層之后的ESRGAN殘差塊結(jié)構(gòu)。

去除BN層的殘差塊用密集連接[14]的方式組成密集塊(DenseBlock),其中含有5個3*3的卷積層。將3個密集塊的輸出經(jīng)過β倍的殘差縮放后輸入主殘差網(wǎng)絡(luò),以此構(gòu)成密集殘差塊RRDB。如圖2所示,該結(jié)構(gòu)具有更深更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),更容易訓(xùn)練。

圖2 RRDB結(jié)構(gòu)

在判別網(wǎng)絡(luò)中則使用了可估計真實(shí)圖像相對于生成的虛假圖像逼真程度的相對平均判別器,用概率值作為其度量,從而可保證生成數(shù)據(jù)樣本的穩(wěn)定與高質(zhì)量。

ESRGAN的完整網(wǎng)絡(luò)模型如圖3所示,LR圖像經(jīng)過3*3的卷積提取低層特征后,輸入到23個RRDB塊中由低到高逐層提取特征,最后通過逐級上采樣獲得4x高分辨率圖像。

圖3 ESRGAN網(wǎng)絡(luò)模型

1.3 多尺度特征融合

卷積神經(jīng)網(wǎng)絡(luò)層數(shù)加深的過程,是從低層到高層提取語義特征的過程。對于巖石顯微圖像的特征提取,低層網(wǎng)絡(luò)提取的只是一些輪廓特征。隨著網(wǎng)絡(luò)層數(shù)的深入,提取到的特征可能會包含孔隙、顆粒等更高的語義特征[15]。而當(dāng)網(wǎng)絡(luò)到達(dá)最深層時,則可提取到整張巖石顯微圖像的特征。

對于原有的ESRGAN模型,隨著網(wǎng)絡(luò)層數(shù)的加深,每一層都會有一些信息丟失。結(jié)果便是,等到了最后一層時,會有太多的信息已經(jīng)丟失。為解決這一問題,該文考慮引入特征融合的思想,即是從第二層開始,在對每層網(wǎng)絡(luò)進(jìn)行卷積操作之前,將上一層的特征圖與該層的特征圖相加,從而部分保留上一層的信息,減少信息的丟失。

而使用基于多分支卷積的多尺度融合策略,則可以提取到不同尺度的特征并將其融合,從而有效提升網(wǎng)絡(luò)的特征提取能力。由于ESRGAN本身不具備多尺度的特征提取能力,因而造成了重建圖像的細(xì)節(jié)模糊問題[16]。如果能將多尺度的特征提取與融合引入到ESRGAN的RRDB塊,則可使網(wǎng)絡(luò)能夠提取到不同尺度的特征信息并進(jìn)行殘差計算,進(jìn)而提升其對圖像高頻信息的重建性能。

圖4為具有多尺度特征融合的卷積結(jié)構(gòu),由三個并行分支組成。首先對來自上一層輸出的特征圖分別進(jìn)行1*1、3*3和5*5的卷積核處理及隨后的3*3空洞卷積,膨脹率分別為1、3和5,從而可獲得具有不同感受野的多個分支,分別代表不同尺度的特征[17]。繼而將所有不同尺度的特征圖通過相加運(yùn)算連接起來,經(jīng)過1*1的卷積核壓縮后,與來自上一層的特征圖相加,作為本層的輸出。

圖4 多尺度特征融合模型

2 文中算法

2.1 算法原理

基于以上分析,提出的生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其中,LR為輸入到生成網(wǎng)絡(luò)的低分辨率巖石顯微圖像,經(jīng)過1個3*3*64的卷積核對其進(jìn)行特征提取之后輸入到新的RRDB。該文使用4個相同的多分支卷積模塊替換原網(wǎng)絡(luò)的卷積層+LReLU結(jié)構(gòu),以此構(gòu)成新的密集塊(New-DB),再由3個密集塊構(gòu)成新的RRDB塊。因多分支卷積模塊中具有1*1、3*3、5*5三種不同大小的卷積核,故可提取不同尺度的特征,再經(jīng)過一個1*1的卷積核可對三種不同尺度的特征進(jìn)行壓縮融合。經(jīng)過23個New-RRDB結(jié)構(gòu)進(jìn)行殘差計算后,進(jìn)入上采樣部分對圖像進(jìn)行放大。

圖5 生成網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)所采用的相對平均判別器DRa原理如式(2)所示:

(2)

其中,xr是真實(shí)圖像,即訓(xùn)練集;xf為生成圖像,C(x)為別器激活前的輸出;σ為sigmoid函數(shù),用于激活判別器;E(x)為一個小批次的真實(shí)圖像或生成圖像取平均值。

2.2 損失函數(shù)

(3)

感知損失是Johnson等人在SRGAN中提出的損失項,其通常定義在預(yù)先訓(xùn)練好的(VGG)深層網(wǎng)絡(luò)的激活層上。受此啟發(fā),ESRGAN提出了一種更為有效的感知損失Lpercep方法,即利用激活層之前的特征來計算感知損失,從而使重建圖像在細(xì)節(jié)上有更好的視覺效果[18]。

Exf[log(DRa(xf,xr))]

(4)

其中,DRa判別網(wǎng)絡(luò)的輸出,是一個概率值,Ex表示一個小批次的真實(shí)圖片或假圖片取平均。

內(nèi)容損失項L1計算公式如式(5)所示,反映了生成網(wǎng)絡(luò)的輸出G(x)數(shù)據(jù)集中的高分辨率圖像y的1范數(shù)距離。

L1=‖G(xi)-y‖1

(5)

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

文中方法在Tesla P100-PCIE 11 GB的GPU上進(jìn)行實(shí)驗(yàn),使用了基于Python語言的PyTorch深度學(xué)習(xí)框架,實(shí)驗(yàn)所用到的軟硬件環(huán)境如表1所示。訓(xùn)練過程中,批訓(xùn)練樣本數(shù)設(shè)置為16,訓(xùn)練圖像切塊大小為200*200,初始學(xué)習(xí)率為0.000 1,且每迭代5 000次學(xué)習(xí)率減半,總迭代次數(shù)為500 000。

表1 實(shí)驗(yàn)環(huán)境

3.2 數(shù)據(jù)集

實(shí)驗(yàn)所使用的數(shù)據(jù)集是新南威爾士大學(xué)的巖石顯微圖像數(shù)據(jù)集DRSRD1_2D[19],該數(shù)據(jù)集由碳酸巖(carbonate)和砂巖(sandstone)組成,每類包含1 000張3.1μm×3.1μm圖像,并將其劃分為訓(xùn)練集(800張)、驗(yàn)證集(100張)和測試集(100張)三部分,同時還提供了800*800的高分辨率圖像,以及對應(yīng)的兩倍和四倍縮小的低分辨圖像。

該文主要進(jìn)行放大倍數(shù)為4的超分辨研究,在實(shí)驗(yàn)前使用了隨機(jī)裁剪的方法來增加數(shù)據(jù)并增加模型穩(wěn)定性,對高分辨率圖像和四倍縮小的低分辨圖像分別進(jìn)行隨機(jī)裁剪,獲得480*480和120*120的子圖像。

3.3 評價指標(biāo)

圖像質(zhì)量評價是圖像處理的重要內(nèi)容。該文使用以客觀質(zhì)量評價為主的評價指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評價,如峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)和感知系數(shù)(PI)等。

(1)峰值信噪比(Peak Signal to Noise Ratio,PSNR)。

PSNR是最普遍、最廣泛使用的評價圖像質(zhì)量的客觀指標(biāo)[20],不過許多實(shí)驗(yàn)結(jié)果都顯示,有可能PSNR較高的圖像看起來反而比PSNR較低的圖像差。這是因?yàn)橹饔^評價的方法受很多因素影響,不能準(zhǔn)確地判斷出差異。PSNR計算公式如式(6)所示:

(6)

式中,MSE表示均方誤差,(2n-1)2是信號最大值的平方,n是每個采樣值的比特數(shù)。其以分貝為單位,一般在20 dB～40 dB間,PSNR越大表示圖像失真越小,圖像質(zhì)量越好。

(2)結(jié)構(gòu)相似性(Structural Similarity Index,SSIM)。

結(jié)構(gòu)相似性是一種衡量兩幅圖像相似度的指標(biāo)。結(jié)構(gòu)相似性指數(shù)從圖像組成的角度將結(jié)構(gòu)信息定義為獨(dú)立于亮度、對比度的,反映場景中物體結(jié)構(gòu)的屬性,并將失真建模為亮度、對比度和結(jié)構(gòu)三個不同因素的組合。用均值作為亮度的估計,標(biāo)準(zhǔn)差作為對比度的估計,協(xié)方差作為結(jié)構(gòu)相似程度的度量[21]。給定兩個圖像m、n[11],結(jié)構(gòu)相似性的計算方法如式(7)所示:

(7)

(3)感知指數(shù)(Perceptual Index,PI)。

感知系數(shù)PI可評價圖像的主觀感知質(zhì)量,它更符合人類視覺的感知特征,計算方法如式(8)所示:

(8)

其中,Ma為馬氏評分,其使用空間域和頻域的統(tǒng)計數(shù)據(jù)作為SR圖像的特征,并將特征集成在回歸樹中進(jìn)行訓(xùn)練,利用線性回歸模型對預(yù)測質(zhì)量進(jìn)行評分。NIQE(Natural Image Quality Evaluator)為圖像評價質(zhì)量,其原理:將圖像特征輸入到多元高斯模型中計算均值、方差,再將HR圖像與SR圖像擬合得到均值、方差,從而計算SR圖像分布與HR圖像分布間的差異。PI值越低,代表圖像感知質(zhì)量越好[14]。

3.4 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)分別在DRSRD1_2D數(shù)據(jù)集的碳酸巖類(carbonate)和砂巖類(sandstone)上進(jìn)行測試,放大因子為4的實(shí)驗(yàn)結(jié)果如圖6、7所示。其中作為隨機(jī)圖示樣例所選用的碳酸巖圖像和砂巖圖像分別為DRSRD1_2D數(shù)據(jù)集中的carbonate_0905和sandstone_0910。從圖中可以看到,文中方法在視覺效果上有著不錯的表現(xiàn),重建圖像的巖石顆粒、孔隙更加明顯,紋理清晰,邊緣銳利。

圖6 各算法在碳酸巖圖像上的重建效果比較

圖7 各算法在砂巖圖像上的重建效果比較

此外,從實(shí)驗(yàn)結(jié)果圖不難發(fā)現(xiàn),文中算法在碳酸巖圖像上的重建效果更為突出。這是因?yàn)樘妓釒r相比砂巖具有更加復(fù)雜的物理結(jié)構(gòu),其表面具有更多、更細(xì)小的高頻特征。這也反映出引入多尺度特征融合方法的文中算法對圖像高頻特征重建的效果顯著。為直觀對比不同方法的超分辨重建效果,將文中算法與傳統(tǒng)插值算法Bicubic[22]及深度學(xué)習(xí)算法SRGAN[7]、SFT-GAN[23]、ESRGAN[8]在碳酸巖類和砂巖類上的客觀評價指標(biāo)進(jìn)行對比,結(jié)果如表2、3所示。表中加深字體為最優(yōu)值,下劃線為次優(yōu)值?？梢钥闯?在碳酸巖數(shù)據(jù)集上,文中方法的三項指標(biāo)在幾種算法中均為最優(yōu)。其中PSNR表現(xiàn)尤為突出,達(dá)到了24.66 dB,較ESRGAN有0.61 dB的提升。在砂巖數(shù)據(jù)集上,文中方法的PSNR和PI指標(biāo)最優(yōu),SSIM指標(biāo)則為次優(yōu)。

表2 測試集carbonate中的對比實(shí)驗(yàn)結(jié)果

表3 測試集sandstone中的對比實(shí)驗(yàn)結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出,ESRGAN在加入多尺度特征融合方法后,超分辨重建的結(jié)果在視覺效果和客觀指標(biāo)上都有了不同程度的提升,生成的圖像具有更好的細(xì)節(jié)特征、更加接近原高分辨率圖像。此外,文中方法在具有更多高頻信息的碳酸巖圖像上的重建效果更為明顯,這也從客觀上證實(shí)了多尺度特征融合對提升超分辨細(xì)節(jié)特征重建的有效性。

此外,為進(jìn)一步測試多尺度特征融合ESRGAN在訓(xùn)練時間和占用空間上的影響,實(shí)驗(yàn)還對其改進(jìn)前后的訓(xùn)練時間與內(nèi)存占用情況進(jìn)行了對比,結(jié)果如表4所示?？梢钥闯?加入多尺度特征融合的ESRGAN相對于加入之前,模型大小增加了2.8%,訓(xùn)練時間則增加了5%。這樣比例的代價增加,相對于所取得的效果,還是值得的。

4 結(jié)束語

在ESRGAN的基礎(chǔ)上,通過引入多尺度特征融合,解決了原網(wǎng)絡(luò)由于提取特征的尺度單一而造成的重建圖像高頻信息丟失問題,使得重建后的圖像在視覺效果和評價指標(biāo)上均有了不同程度的改善。改進(jìn)方法在巖石顯微圖像的超分辨重建輸出具有更加清晰的紋理和孔隙特征,視覺感知的質(zhì)量也更好。而這樣的改善并沒有過多影響到算法模型的訓(xùn)練時間及GPU內(nèi)存占用,是相當(dāng)值得的。

下一步的研究工作將著重于網(wǎng)絡(luò)訓(xùn)練效率的提升,以及針對巖石顯微圖像特點(diǎn)的更加有效的損失函數(shù)項設(shè)計,以期進(jìn)一步提升其超分辨重建的效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡