習(xí)晨晨,何 昕,孟雅蕾,張凱兵
(1.西安工程大學(xué)電子信息學(xué)院,西安,710048;2.西安工程大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,西安,710048)
文本圖像作為一種特殊圖像存在于人們的生活當(dāng)中,人類大腦時刻在對看到的場景進(jìn)行分析,并根據(jù)場景中的文字指導(dǎo)行為。但是受環(huán)境、設(shè)備等因素的影響,采集的文本圖像往往存在模糊、失真等低質(zhì)量的情況。因此如何正確提取低質(zhì)量文本圖像中的信息來獲得更高質(zhì)量的圖像已經(jīng)成為一個日益緊迫的問題。文本圖像超分辨重建技術(shù)應(yīng)運(yùn)而生[1-2]。文本圖像超分辨重建技術(shù)已經(jīng)在交通安全監(jiān)控、筆跡識別、證件識別、自動駕駛以及書法文物保護(hù)與恢復(fù)等領(lǐng)域具有極大的應(yīng)用價值。
相比于規(guī)整的掃描文檔圖像,自然場景中拍攝的圖像所包含的文本有水平、傾斜甚至彎曲的文字,而且受制于硬件設(shè)備、攝像機(jī)抖動、相機(jī)與目標(biāo)對象間的相對運(yùn)動等拍攝條件的限制導(dǎo)致圖像存在不同程度的模糊、昏暗或者分辨率低等情況,多種因素表明自然場景文本圖像超分辨(scene text image super-resolution,STISR)非常困難。近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的自然場景文本圖像超分辨技術(shù)克服了傳統(tǒng)方法復(fù)雜度高、泛化性差且需要較多的先驗(yàn)信息等的局限性,取得令人矚目的成就。Wang等[3]引入條件生成對抗網(wǎng)絡(luò)(conditional generative adversarial networks,cGAN)來重建STISR,去除了cGAN中的批歸一化(batch normalization,BN)層,引入了Inception結(jié)構(gòu),有效擴(kuò)展了網(wǎng)絡(luò)的寬度,使生成器能自適應(yīng)地捕捉圖像中不同大小的文本線索,更適合STISR重建任務(wù)。Xue等[4]采用殘差密集網(wǎng)絡(luò)(residual in residual dense network,RRDN)提取比普通殘差網(wǎng)絡(luò)更深層的高頻特征,并利用注意力機(jī)制增強(qiáng)空間和通道特征,同時引入了梯度損失監(jiān)督網(wǎng)絡(luò)訓(xùn)練,以獲取更加清晰的文本邊緣,該方法在STISR任務(wù)上取得了不錯的結(jié)果。Zhang等[5]設(shè)計(jì)了一種不需要預(yù)訓(xùn)練的STISR重建網(wǎng)絡(luò),該網(wǎng)絡(luò)主要由卷積層、BN層、LeakyReLU激活層以及上采樣層和下采樣層組成,利用深度圖像先驗(yàn)(deep image prior,DIP)的特點(diǎn),設(shè)計(jì)了一種新的加權(quán)MSE損失函數(shù)來突出文本圖像的高頻細(xì)節(jié)。
2021年,Fang等[6]提出文本超分辨生成對抗網(wǎng)絡(luò)(text super-resolution generative adversarial networks,TSRGAN),引入生成對抗網(wǎng)絡(luò)來防止網(wǎng)絡(luò)產(chǎn)生過平滑圖像,同時加入三元組注意力機(jī)制提高網(wǎng)絡(luò)的表征能力,并引入小波損失來重構(gòu)更清晰的邊緣。Honda等[7]提出了一種基于多任務(wù)學(xué)習(xí)的STISR網(wǎng)絡(luò)(multi-task super-resolution,MTSR),該網(wǎng)絡(luò)使用了2個并行任務(wù):圖像重建和圖像超分辨(super-resolution,SR),將重建模塊和SR模塊的特征進(jìn)行融合然后送入下一層進(jìn)行迭代,使SR網(wǎng)絡(luò)能夠?qū)W習(xí)到重建任務(wù)中所提取的特征,最后得到一個訓(xùn)練完備的STISR模型,獲得不錯的重建效果。但上述方法缺少先驗(yàn)信息的利用,導(dǎo)致恢復(fù)圖像缺少細(xì)節(jié)信息,不能達(dá)到令人滿意的效果。
本文受文本先導(dǎo)超分辨(text-prior guided super-resolution,TPGSR)網(wǎng)絡(luò)[8]啟發(fā),以文本超分辨網(wǎng)絡(luò)(text super-resolution network,TSRN[13])為基礎(chǔ),從先驗(yàn)信息利用和損失函數(shù)2個角度考慮自然場景文本圖像超分辨任務(wù),提出了一個新的文本語義指導(dǎo)的超分辨網(wǎng)絡(luò)(text-semantic guided super-resolution network,TSGSRN)。針對TPGSR方法中使用低分辨文本先驗(yàn)指導(dǎo)網(wǎng)絡(luò)訓(xùn)練導(dǎo)致先驗(yàn)信息利用不準(zhǔn)確的問題,本文提出使用預(yù)訓(xùn)練語義感知網(wǎng)絡(luò)建立SR圖像和真實(shí)高分辨(high resolution,HR)圖像之間的文本語義監(jiān)督,以有效提高網(wǎng)絡(luò)模型對文本字符的語義理解能力。除此之外,針對現(xiàn)有的十字交叉注意力機(jī)制只關(guān)注局部特征的問題,本文使用循環(huán)十字交叉注意力[9],提升遠(yuǎn)距離像素之間的相關(guān)性,更好地融合周圍像素的上下文信息,從而捕獲全局信息。最后,考慮到現(xiàn)有方法使用邊緣檢測算子提取邊緣導(dǎo)致的邊緣特征丟失問題,采用軟邊緣損失和梯度損失對重建結(jié)果進(jìn)行優(yōu)化。在相同的實(shí)驗(yàn)條件下,提出的TSGSRN能獲得比現(xiàn)有方法更好的質(zhì)量評價指標(biāo)[10-11]。
本文提出的TSGSRN的整體框架如圖1所示,由超分辨重建模塊和文本語義感知模塊組成。
圖1 基于文本語義指導(dǎo)的自然場景文本圖像超分辨方法整體框架
超分辨重建模塊以LR圖像及其二進(jìn)制掩碼圖作為輸入。其中,LR圖像為RGB圖像,二進(jìn)制掩碼圖為二值圖(文字區(qū)域置為1,背景區(qū)域置為0)。首先,網(wǎng)絡(luò)的輸入經(jīng)過中心對齊網(wǎng)絡(luò)進(jìn)行對齊,然后通過單個卷積層提取特征;其次,通過7個相同的超分辨殘差塊;最后,使用Pixel-Shuffle對處理后的特征映射進(jìn)行上采樣,以生成SR結(jié)果,并通過L2損失、梯度損失和軟邊緣損失計(jì)算重建圖像和真實(shí)圖像之間的差異。文本語義感知模塊通過預(yù)訓(xùn)練識別網(wǎng)絡(luò)建立SR圖像和HR圖像之間的字符類別概率分布差異,獲得更多面向文本的信息。相比于TSRN,TSGSRN有以下改進(jìn):①使用預(yù)先訓(xùn)練的語義感知網(wǎng)絡(luò)感知文本自身的語義信息,使得模型具有更好的語義理解能力;②TSGSRN在每個超分辨殘差塊中加入了注意力機(jī)制進(jìn)一步提升超分辨效果;③使用軟邊緣損失對生成圖像的邊緣進(jìn)行約束,得到邊緣更準(zhǔn)確、清晰的超分辨結(jié)果。
SR重建模塊主要由對齊模塊、基于殘差網(wǎng)絡(luò)的重建主體、后上采樣模塊組成。首先,LR文本圖像及其二進(jìn)制掩碼圖像作為輸入,送入到對齊網(wǎng)絡(luò)中,使得輸入的LR圖像與真實(shí)的HR圖像具有中心對齊的效果,以減小數(shù)據(jù)本身存在的像素誤差。對齊網(wǎng)絡(luò)采用薄板樣條變換(thin plate spline,TPS),對齊過程可以表示為:
Fin=fTPS(ILR)
(1)
式中:fTPS表示薄板樣條變換;Fin表示對齊網(wǎng)絡(luò)的輸出特征。然后,輸出的特征經(jīng)過一個卷積核大小為9×9的卷積和PRelu激活函數(shù),表示為:
(2)
(3)
(4)
式中:fup表示2倍上采樣操作;ISR表示整個超分辨重建模塊的輸出結(jié)果。
為了使得網(wǎng)絡(luò)能夠充分理解文本的內(nèi)容信息,具有更好的感知能力,本文提出文本語義感知模塊見圖2,為文本語義感知(semantic-aware,SA)模塊的內(nèi)部結(jié)構(gòu)。
圖2 文本語義感知模塊結(jié)構(gòu)
SA模塊使用CRNN網(wǎng)絡(luò)[12],該網(wǎng)絡(luò)結(jié)構(gòu)包含3個部分:卷積層、循環(huán)層和轉(zhuǎn)錄層。卷積層使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),從輸入圖像中提取圖像特征;循環(huán)層使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),對圖像特征的語義信息進(jìn)行建模,用來預(yù)測從卷積層獲取的特征序列的標(biāo)簽分布;轉(zhuǎn)錄層使用CTC損失使得預(yù)測序列更準(zhǔn)確地與目標(biāo)序列對齊,把從循環(huán)層獲取的標(biāo)簽分布去重整合得到最終的分類文本先驗(yàn)。
SR重建模塊得到的SR圖像ISR和真實(shí)的HR圖像分別送入CRNN網(wǎng)絡(luò)中,以SR圖像為例:首先經(jīng)過6個卷積層,得到卷積層的輸出特征:
(5)
然后,特征FCNN送入循環(huán)層,循環(huán)層使用雙向長短時記憶網(wǎng)絡(luò),根據(jù)輸入的特征進(jìn)行預(yù)測,得到所有字符的SoftMax概率分布,該分布是長度為字符類別數(shù),高度為字母表a~z和數(shù)字表0~9的向量。將該分布送入第3部分轉(zhuǎn)錄層,使用CTC損失使得預(yù)測序列更準(zhǔn)確地與目標(biāo)序列對齊,把從循環(huán)層獲取的標(biāo)簽分布去重整合得到最終的分類文本先驗(yàn),如圖3所示。白點(diǎn)越明顯,表示屬于該類別的概率越高;越模糊,表示屬于該類別的概率越低。
圖3 字符分類概率圖
隨著注意力機(jī)制被提出,超分辨任務(wù)也取得了進(jìn)一步的發(fā)展。通道注意力首先被提出,其旨在建立不同通道之間的相關(guān)性,通過對每個通道的特征賦予不同的權(quán)重,從而強(qiáng)化重要特征,抑制非重要特征,更關(guān)注于全局特征;空間注意力旨在增強(qiáng)關(guān)鍵區(qū)域的特征表達(dá),通過對空間中每個位置生成權(quán)重掩膜進(jìn)行加權(quán),增強(qiáng)感興趣區(qū)域表達(dá),弱化無關(guān)的背景區(qū)域;三元組注意力通過利用三分支結(jié)構(gòu)實(shí)現(xiàn)跨維交互,建立維度間的依賴關(guān)系;坐標(biāo)注意力則是將位置信息嵌入到通道中,分別沿2個方向聚合特征,可以在一個空間方向上捕獲遠(yuǎn)程依賴關(guān)系,同時在另一個空間方向上保存精確的位置信息,其只能捕獲某一個坐標(biāo)的信息,不能捕獲周圍相鄰像素的信息,而循環(huán)十字交叉注意力通過級聯(lián)2個相同的十字交叉注意力,更好地融合全局上下文信息。
十字交叉注意力結(jié)構(gòu)如圖4所示,對于輸入特征X,首先使用3個不同的1×1卷積核獲取注意力模型中的Q,K,V;通過Q和K來獲取當(dāng)前像素下橫向和縱向像素點(diǎn)之間的相關(guān)性。最后將相關(guān)性矩陣與V整合,再加上原始的特征X,得到最終的注意力特征X′,但是該注意力只計(jì)算了“十字”結(jié)構(gòu)中像素點(diǎn)的相關(guān)性,對于周圍的像素點(diǎn)未遍歷,只關(guān)注到局部特征。因此,通過級聯(lián)雙層的十字交叉注意力可對周圍像素點(diǎn)進(jìn)行遍歷,從而融合全局上下文信息。循環(huán)十字交叉注意力在語義分割任務(wù)中已經(jīng)取得不錯的效果。由于文本超分辨的目的是增強(qiáng)文字區(qū)域,弱化背景區(qū)域,因此該注意力可應(yīng)用于文本超分辨任務(wù)。
圖4 十字交叉注意力
在SR任務(wù)中,聯(lián)合不同損失函數(shù)對網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,有利于加快網(wǎng)絡(luò)訓(xùn)練時的收斂速度,從而提升模型的重建性能。因此,本文將像素?fù)p失、梯度損失、軟邊緣損失和文本語義感知損失聯(lián)合起來共同訓(xùn)練所提出的深度網(wǎng)絡(luò)。本文方法使用的損失函數(shù)如下:
1)像素?fù)p失。像素?fù)p失表示SR結(jié)果和目標(biāo)圖像之間的曼哈頓距離,相比于L1損失,L2損失有利于恢復(fù)清晰的邊緣,提高模型收斂速度。因此,本文采用L2損失度量重建圖像與目標(biāo)圖像之間的誤差。像素?fù)p失表示為:
(6)
式中:ISR為SR圖像;IHR為真實(shí)的HR圖像。
2)梯度損失。圖5(a)、(b)和(c)分別表示LR、SR和HR圖像,圖5(d)、(e)和(f)分別表示其梯度圖??梢钥闯?LR圖像的梯度場為矮胖型,而HR圖像的梯度場為高瘦型,為了減小SR圖像和真實(shí)HR圖像之間的梯度分布差異,引入梯度損失,從而進(jìn)一步減小SR圖像和真實(shí)HR圖像之間的差異,表達(dá)式為:
圖5 低分辨、超分辨和高分辨圖像及其對應(yīng)的梯度圖
Lgrad=‖?ISR-?IHR‖1
(7)
式中:?表示梯度操作。
3)軟邊緣損失。為了保證恢復(fù)圖像的邊緣完整性,本文直接通過軟邊緣損失對SR圖像和HR圖像進(jìn)行監(jiān)督,表達(dá)式為:
(8)
4)文本語義感知損失。由于CRNN中的CNN的淺層特征和深層特征分別關(guān)注局部結(jié)構(gòu)信息和全局語義信息,因此,文本語義感知損失可以同時保證低級筆畫結(jié)構(gòu)和高級文本上下文之間的一致性。相比于一般的自然圖像超分辨方法側(cè)重圖像的局部細(xì)節(jié),對文本語義和字符的形狀理解不佳,因此,從預(yù)訓(xùn)練的文本語義感知模型中可以獲得更多面向文本的信息,它可以更好地衡量SR圖像和HR圖像中前景字符之間的相似性,表達(dá)式為:
Ltsa=λ1|tSR-tHR|+λ2DKL(tSR‖tHR)
(9)
式中:tSR和tHR分別表示SR圖像和HR圖像的語義類別概率;|·|表示L1范數(shù);DKL表示KL散度操作;λ1和λ2為很小的常數(shù),均設(shè)置為1.0。本文聯(lián)合以上4個損失對網(wǎng)絡(luò)模型參數(shù)進(jìn)行優(yōu)化,整個網(wǎng)絡(luò)的損失函數(shù)表示為:
L=αLpixel+βLgrad+γLedge+λLtsa
(10)
式中:α,β,γ,λ為用于平衡4個損失的權(quán)衡因子。本文將權(quán)重分別設(shè)置為:20、0.1、0.1和0.1。
本文方法使用WANG等[13]提出的TextZoom數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,該數(shù)據(jù)集是從CAI等[14]提出的RealSR和ZHANG等[15]提出的SRRAW中裁剪得到。該數(shù)據(jù)集是第一個用于自然場景文本圖像超分辨任務(wù)的數(shù)據(jù)集,由相機(jī)在不同焦距的真實(shí)場景中捕獲(如圖6所示),其包含LR-HR圖像對,但由于人為抖動等原因,存在像素不對齊問題。
(a)150 mm
TextZoom數(shù)據(jù)集中18 986張圖像用于訓(xùn)練,4 373張用于測試。測試集根據(jù)恢復(fù)難易程度分為3個等級:easy,medium和hard(如圖7所示)。Easy包含1 619張圖像,medium包含1 411張圖像,hard包含1 343張圖像。與合成的文本數(shù)據(jù)集的不同之處在于,該數(shù)據(jù)集的LR圖像不是經(jīng)過對HR圖像下采樣獲得。并且TextZoom數(shù)據(jù)集在真實(shí)場景中經(jīng)歷了復(fù)雜的退化,這使得SR模型難以恢復(fù)高質(zhì)量的文本圖像。低分辨圖像大小為16×64,HR圖像大小為32×128。本算法模型基于Pytorch平臺實(shí)現(xiàn),GPU使用Nvidia 2080Ti,學(xué)習(xí)率設(shè)置為0.001。
(a)easy
為了驗(yàn)證本文提出方法的有效性,在公共的自然場景文本超分辨數(shù)據(jù)集TextZoom上進(jìn)行了驗(yàn)證實(shí)驗(yàn)。本文方法對比了8種主流的超分辨方法:BICUBIC[16]、SRCNN[17]、SRResNet[18]、RDN[19]、VDSR[20]、LapSRN[21]、TSRN[13]、TSRGAN[6]。在TextZoom數(shù)據(jù)集上進(jìn)行2倍放大的識別率評定結(jié)果如表1所示。ASTER,MORAN和CRNN為常用的3種文本識別器。ASTER由矯正網(wǎng)絡(luò)和識別網(wǎng)絡(luò)組成,矯正網(wǎng)絡(luò)使用TPS,識別網(wǎng)絡(luò)是一種加入注意力機(jī)制的序列-序列模型,對矯正后的圖像進(jìn)行字符預(yù)測;MORAN由矯正子網(wǎng)絡(luò)MORN和識別子網(wǎng)絡(luò)ASRN組成,針對彎曲等不規(guī)則文本圖像具有較好的識別效果;CRNN的詳細(xì)介紹見2.2節(jié)。表1中,average為3個測試子集識別率的加權(quán)平均值,由于3個測試子集數(shù)量分別為1 619,1 411和1 343,因此將權(quán)重分別設(shè)置為0.37,0.32和0.31。PSNR[22]和SSIM[23]指標(biāo)的定量評定結(jié)果如表2所示。在表中最優(yōu)值均加粗表示。(注:由于TSRGAN方法源碼未公開,所有數(shù)據(jù)均摘錄于原論文)
表1 識別率對比實(shí)驗(yàn)結(jié)果
表2 PSNR和SSIM指標(biāo)對比實(shí)驗(yàn)結(jié)果
在所有的比較方法中,前6種方法為一般圖像超分辨方法,沒有加入任何的圖像先驗(yàn)信息,受模型性能制約,效果較差;TSRN使用梯度損失加強(qiáng)邊緣的構(gòu)建,效果略有提升;TSRGAN在TSRN基礎(chǔ)上增加對抗損失和小波損失,進(jìn)一步提升了超分辨效果;本文方法在TSRN基礎(chǔ)上加入文本語義先驗(yàn)和軟邊緣損失,識別率進(jìn)一步提升。從表1可以看出,本文方法在3個識別器上的平均識別率相比于TSRN分別提升了2.06%、1.80%和2.89%。在ASTER和CRNN識別器上的平均識別率相比于TSRGAN分別提高了0.34%和1.48%。在MORAN上的平均識別率卻稍低于TSRGAN。
由表2可以看出,本文方法相比于TSRN在3個測試子集的結(jié)構(gòu)相似性(structual similarity,SSIM)指標(biāo)分別提升了0.008 1、0.014 3和0.012 7;峰值信噪比(peak signal to noise ratio,PSNR)指標(biāo)分別提升了0.47、0.34和0.22。相比于TSRGAN方法,本文方法的SSIM指標(biāo)在測試子集easy和medium上略低,原因在于TSRGAN引入了對抗網(wǎng)絡(luò),使得生成的文本圖像具有更豐富的細(xì)節(jié)。
由于PSNR指標(biāo)具有爭議性,模糊的圖像可能具有較高的PSNR值,而清晰的圖像可能傾向于表現(xiàn)出較低的PSNR值,不一定符合人眼的視覺感知質(zhì)量,因此,不以PSNR指標(biāo)作為主要評價指標(biāo)。綜上,本文方法相比于其他對比方法表現(xiàn)出了一定的優(yōu)勢。
為了更直觀地對比不同SR方法的重建性能,圖8展示了所有對比方法在TextZoom數(shù)據(jù)集上的SR重建效果對比。本文選取一些最具有代表性且邊緣細(xì)節(jié)及文字完整性較好的圖像進(jìn)行視覺質(zhì)量對比??梢钥吹?方法SRCNN、SRResNet、RDN、VDSR、LapSRN和TSRN方法的重建結(jié)果較為平滑,邊緣完整性較差,而本文方法獲得的結(jié)果均表現(xiàn)出較為完整的字符邊緣,這主要得益于模型加入了文本語義信息和軟邊緣損失。盡管TSRN也能夠重建出較好效果的圖像,但是在細(xì)節(jié)上仍然存在問題,字符的分離度較差,存在相鄰字符之間的粘連問題。其原因在于該網(wǎng)絡(luò)在訓(xùn)練的過程中只針對邊緣結(jié)構(gòu)進(jìn)行了優(yōu)化,而缺少文本本身的語義信息參與指導(dǎo),導(dǎo)致訓(xùn)練得到的模型在重建過程中很難對相鄰字符之間的特征進(jìn)行精準(zhǔn)表示。
圖8 不同超分辨方法視覺對比結(jié)果
綜上,本文方法在相鄰字符的處理上具有一定的優(yōu)勢,且效果逼真,識別錯誤率最低。此外,本文方法與TSRGAN相比在參數(shù)量上也有明顯的優(yōu)勢。本文提出的基于文本語義指導(dǎo)的STISR方法具有較好的重建性能,更適合STISR重建任務(wù)。
1)循環(huán)十字交叉注意力。為了驗(yàn)證提出方法使用的循環(huán)十字交叉注意力的有效性,對比了幾種具有代表性的注意力:通道注意力(CA)[24]、通道-空間注意力(CBAM)[25]、三元組注意力[26](TAM)和坐標(biāo)注意力(CoA)[27],在3個測試子集的對比結(jié)果如表3所示。
表3 不同注意力的對比實(shí)驗(yàn)結(jié)果
由表3可見,相比于其它注意力模型,使用的循環(huán)十字交叉注意力在easy和medium測試子集上的識別率、PSNR和SSIM指標(biāo)具有一定的優(yōu)勢,能顯著提升重建圖像質(zhì)量。
2)文本語義感知模塊。為了驗(yàn)證SA模塊的有效性,對該模塊進(jìn)行了消融實(shí)驗(yàn),從定量和定性2個層面證明SA模塊的有效性,定量對比結(jié)果如表4所示,加入SA模塊后,在測試集的3個子集上的平均識別率、平均PSNR和SSIM值都高于沒有SA模塊的模型。重建圖像的視覺質(zhì)量對比如圖9所示。從圖9可以看出,在SA模塊的作用下,模型具有較高的字符語義理解能力,字符的完整程度明顯較高,與HR圖像的相似性更高。
表4 語義感知模塊有效性定量對比實(shí)驗(yàn)結(jié)果
(a)無SA模塊
3)損失函數(shù)。為了驗(yàn)證本文方法所用損失函數(shù)的有效性,對其進(jìn)行了消融實(shí)驗(yàn),如表5所示。
表5 不同損失函數(shù)的消融實(shí)驗(yàn)對比結(jié)果
由表5可以看出,相比于單一的損失函數(shù),聯(lián)合所有的損失函數(shù)能夠顯著提升模型的重建性能,得到更好的重建效果。表5中,第1行只使用像素?fù)p失,模型的重建效果不理想;第2行表示在像素?fù)p失的基礎(chǔ)上加入梯度損失,可以看出,在3個測試子集的識別、PSNR和SSIM指標(biāo)均有所提高;第3行表示在像素?fù)p失、梯度損失的基礎(chǔ)上加入軟邊緣損失,可以看出,在medium測試子集的識別率提高了0.66%,在medium測試子集上的PSNR指標(biāo)提高了0.51 dB;第4行表示在像素?fù)p失、梯度損失和軟邊緣損失的基礎(chǔ)上加入文本語義感知損失,可以看出,在3個測試子集的識別率、PSNR和SSIM均有所提高,相比于只使用像素?fù)p失的模型,對比指標(biāo)有大幅度提升。上述實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的3個損失函數(shù)對模型性能提升均有貢獻(xiàn)。
4)SRRB的數(shù)量。此外,還驗(yàn)證了SRRB的數(shù)量對網(wǎng)絡(luò)模型重建性能的影響,結(jié)果如圖10和圖11所示,對于STISR任務(wù),并不是越深的網(wǎng)絡(luò)效果越好,主要在于圖像先驗(yàn)信息的引入,由圖10可以看出,SRRB數(shù)量為7時,模型在3個測試子集上均具有最好的識別率。
圖10 SRRB數(shù)量的消融實(shí)驗(yàn)在識別率上的對比結(jié)果
(a)PSNR指標(biāo)
SRRB的數(shù)量對PSNR和SSIM指標(biāo)的影響結(jié)果如圖11所示,可以看出,當(dāng)SRRB數(shù)量為7時,模型具有最佳的PSNR和SSIM指標(biāo)。
本文提出了一種基于文本語義指導(dǎo)的STISR模型,該模型能夠充分利用文本圖像的文本語義信息指導(dǎo)超分辨模型訓(xùn)練,通過循環(huán)十字交叉注意力提升模型對文本上下文的理解能力,提升有效信息的表達(dá)能力,將更多的注意力放在文字本身。在常用的基準(zhǔn)數(shù)據(jù)集TextZoom上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法在主觀和客觀質(zhì)量評價方面都能夠獲得更好的重建結(jié)果,尤其在處理文本字符的粘連問題方面相比于其他方法具有顯著優(yōu)勢。
盡管提出的基于文本語義指導(dǎo)的STISR重建方法能夠獲得更好的重建性能,但是仍然存在不足之處。首先,數(shù)據(jù)集中存在大量模糊圖像,模型對其語義理解能力不佳,效果較差;其次,STISR任務(wù)可以視為高頻信息恢復(fù)后的顏色填充問題,如何只對圖像的高頻信息進(jìn)行處理顯得尤為重要,是未來需要進(jìn)一步研究的問題。