国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度注意力機(jī)制的場(chǎng)景文本擦除

2022-08-15 12:13:56劉成林
模式識(shí)別與人工智能 2022年7期
關(guān)鍵詞:像素點(diǎn)損失背景

何 平 張 恒 劉成林,3

場(chǎng)景文本作為信息傳遞的媒介,不管是在現(xiàn)實(shí)世界還是在虛擬世界,都與人類的生活、生產(chǎn)息息相關(guān).除了新聞、報(bào)紙、招聘等共有信息之外,場(chǎng)景文本也包含很多的私人信息或敏感信息,包括交易信息、通信記錄和內(nèi)容、征信信息、賬號(hào)密碼、財(cái)產(chǎn)信息、行蹤軌跡等[1-2].如何保護(hù)個(gè)人信息不受不法分子的利用,直接關(guān)系到個(gè)人的生命和財(cái)產(chǎn)安全.現(xiàn)有保護(hù)隱私的方法一般是直接刪除圖像文字中涉及個(gè)人隱私的信息,但對(duì)于大量的圖像文字,刪除需要高昂的人工成本.隨著人工智能的發(fā)展,基于深度學(xué)習(xí)的自然場(chǎng)景文本擦除[3-4]成為一個(gè)新興的研究方向,相比自然場(chǎng)景文本檢測(cè)[5-6]技術(shù),場(chǎng)景文本擦除中的背景修復(fù)面臨更多的挑戰(zhàn).

文本擦除借鑒圖像修復(fù)的思想,需要對(duì)文本區(qū)域進(jìn)行背景復(fù)原,但文本擦除比圖像修復(fù)更困難,因?yàn)槲谋静脸粌H需要關(guān)注文本區(qū)域,還需要關(guān)注非文本區(qū)域,防止非文本區(qū)域被網(wǎng)絡(luò)誤擦除.Shi等[7]通過(guò)局部相似性約束和稀疏建模,提出有效的基于樣本的修復(fù)算法,先計(jì)算需要填充的順序,再重建目標(biāo)文本區(qū)域,以視覺(jué)合理的方式有效填充缺失像素.隨著生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)[8]應(yīng)用于圖像生成領(lǐng)域,Isola等[9]提出pix2pix,使用條件生成對(duì)抗網(wǎng)絡(luò)(Conditional GAN, cGAN)作為圖像到圖像的轉(zhuǎn)換方法,改變卷積核大小以提高網(wǎng)絡(luò)的感受野.Isola等[9]證實(shí)使用PixelGAN(Pixel-Based GAN)[10]擦除文本會(huì)導(dǎo)致擦除的像素點(diǎn)變成紅色,而PatchGAN(Patch-Based GAN)[9]雖然可改進(jìn)網(wǎng)絡(luò)輸出的清晰度,但也會(huì)導(dǎo)致圖像重影,難以訓(xùn)練.相對(duì)來(lái)說(shuō),cGAN著色效果更優(yōu),但是生成的圖像中偶爾會(huì)產(chǎn)生部分灰度區(qū)域.

上述文本擦除方法雖然取得一定效果,但魯棒性較差,只能在背景單一的圖像上產(chǎn)生較好的擦除效果.而自然場(chǎng)景文本圖像往往存在背景復(fù)雜多變、文本方向隨意或字體多變等問(wèn)題,現(xiàn)有方法難以準(zhǔn)確識(shí)別文本區(qū)域和非文本區(qū)域,導(dǎo)致擦除效果較差.為了使文本擦除技術(shù)更好地滿足人們?nèi)粘I畹膽?yīng)用需求,學(xué)者們開(kāi)始研究復(fù)雜背景的自然場(chǎng)景文本擦除方法.近年來(lái),主要采用基于深度神經(jīng)網(wǎng)絡(luò)的方法.這些方法主要可分為兩階段方法和一階段方法.

兩階段方法是將文本檢測(cè)和背景修復(fù)作為上下游任務(wù).先檢測(cè)圖像中的文本區(qū)域,再將文本區(qū)域的掩碼作為背景修復(fù)網(wǎng)絡(luò)的輸入,對(duì)檢測(cè)的文本區(qū)域進(jìn)行修復(fù).Tursun等[11]提出MTRNet(Mask-Based Text Removal Network),使用人工提供的文本掩碼輔助文本檢測(cè)網(wǎng)絡(luò)精準(zhǔn)定位圖像中的文本區(qū)域,再修復(fù)檢測(cè)的文本區(qū)域,實(shí)現(xiàn)文本擦除區(qū)域的可控性.Zdenek等[12]提出不需要成對(duì)訓(xùn)練圖像的弱監(jiān)督方法,利用現(xiàn)有的文字檢測(cè)數(shù)據(jù)集[1,13]和圖像修復(fù)數(shù)據(jù)集[14-16]進(jìn)行文本檢測(cè)網(wǎng)絡(luò)和背景修復(fù)網(wǎng)絡(luò)的預(yù)訓(xùn)練,只需要額外少量強(qiáng)標(biāo)注數(shù)據(jù)進(jìn)行模型調(diào)優(yōu).Tang等[4]和Cho等[17]優(yōu)化文本檢測(cè)網(wǎng)絡(luò),使文本區(qū)域的定位更準(zhǔn)確,進(jìn)一步提升文本擦除的性能.

一階段方法使用端到端技術(shù),即只用一個(gè)網(wǎng)絡(luò)框架完成文本擦除任務(wù).Nakamura等[18]提出STE(Scene Text Eraser),采用圖像變換的方法,對(duì)滑動(dòng)窗口裁剪的圖像進(jìn)行快速處理.該方法為了提高模型輸出的分辨率,保留圖像中非文本區(qū)域.Tursun等[19]為了解決圖像裁剪會(huì)破壞上下文信息的問(wèn)題,提出DCNN(Deep Convolution Neural Networks),通過(guò)“軟注意力”減少對(duì)文本區(qū)域裁剪殘缺的負(fù)面影響,使用“硬注意力”準(zhǔn)確識(shí)別圖像中的文字信息,進(jìn)一步提升文本區(qū)域的擦除效果.為了加速網(wǎng)絡(luò)訓(xùn)練的速度,Zhang等[20]提出EnsNet(Ensconce Net-work),并使用4個(gè)損失函數(shù)增強(qiáng)文本區(qū)域的檢測(cè)和擦除,以保證非文本區(qū)域的完整性.為了解決文本定位問(wèn)題,Liu等[3]和Tursun等[21]將文本檢測(cè)網(wǎng)絡(luò)和背景修復(fù)網(wǎng)絡(luò)并行訓(xùn)練,通過(guò)文本檢測(cè)網(wǎng)絡(luò)感知圖像中的文本區(qū)域,但在實(shí)際應(yīng)用中,輸出的文本檢測(cè)結(jié)果并未應(yīng)用到背景修復(fù)網(wǎng)絡(luò),只是為了使網(wǎng)絡(luò)可更好地定位和修復(fù)自然圖像中的文本.

相比一階段方法,兩階段方法的可解釋性更強(qiáng),研究人員可通過(guò)可視化結(jié)果判斷是文本檢測(cè)網(wǎng)絡(luò)需要優(yōu)化,還是背景修復(fù)網(wǎng)絡(luò)需要優(yōu)化.但是,一階段方法網(wǎng)絡(luò)參數(shù)更少,運(yùn)行效率更高.現(xiàn)有的文本擦除方法忽視文本區(qū)域和非文本區(qū)域像素點(diǎn)之間的聯(lián)系,以及原始特征的通道和空間維度的相互關(guān)聯(lián),所以都存在文字檢測(cè)不準(zhǔn)確、文本區(qū)域修復(fù)不連貫等問(wèn)題.

為了解決上述問(wèn)題,本文提出基于多尺度注意力機(jī)制的場(chǎng)景文本擦除框架(Scene Text Removal Based on Multi-scale Attention Mechanism, MASTR).框架主要由文本檢測(cè)網(wǎng)絡(luò)和背景修復(fù)網(wǎng)絡(luò)組成.文本檢測(cè)網(wǎng)絡(luò)可使背景修復(fù)網(wǎng)絡(luò)感知圖像中的文本區(qū)域,文本擦除、背景生成、文本區(qū)域的重構(gòu)與恢復(fù)由背景修復(fù)網(wǎng)絡(luò)一步完成.在SCUT-SYN[20]、SCUT-EnsText[3]這2個(gè)文本擦除數(shù)據(jù)集上的實(shí)驗(yàn)表明,MASTR的擦除效果較優(yōu).

1 基于多尺度注意力機(jī)制的場(chǎng)景文本擦除

1.1 整體框架

本文提出基于多尺度注意力機(jī)制的場(chǎng)景文本擦除框架,整體框架如圖1所示.文本檢測(cè)網(wǎng)絡(luò)和背景修復(fù)網(wǎng)絡(luò)共享一個(gè)主干網(wǎng)絡(luò),訓(xùn)練過(guò)程中并行優(yōu)化.網(wǎng)絡(luò)的整體訓(xùn)練是一個(gè)端到端過(guò)程.

受文獻(xiàn)[22]的啟發(fā),在場(chǎng)景文本擦除框架中設(shè)計(jì)上下文感知模塊(Context Aware Module, CAM)和紋理自適應(yīng)模塊(Texture Adaptive Module, TAM).CAM學(xué)習(xí)圖像中文本區(qū)域和非文本區(qū)域之間的判別特征,增強(qiáng)網(wǎng)絡(luò)的文本檢測(cè)性能.TAM從原始特征的通道和空間2個(gè)維度進(jìn)行特征提取,有效修復(fù)因重構(gòu)文本區(qū)域而導(dǎo)致的陰影部分.此外,在文本檢測(cè)網(wǎng)絡(luò)和粗糙背景生成器中加入多尺度特征損失,有效增強(qiáng)網(wǎng)絡(luò)感受野,提升網(wǎng)絡(luò)對(duì)不同尺度文本的檢測(cè)和擦除性能.

圖1 MASTR整體框架

1.2 背景修復(fù)網(wǎng)絡(luò)

借鑒GAN的思想,背景修復(fù)網(wǎng)絡(luò)由生成器G和判別器D共同組成,通過(guò)交替更新G、D的網(wǎng)絡(luò)參數(shù),不斷促進(jìn)生成器學(xué)習(xí)圖像中空間信息和語(yǔ)義信息的分布,生成和目標(biāo)域相同的圖像,最終使判別器無(wú)法對(duì)數(shù)據(jù)來(lái)源做出正確判斷.

1.2.1 生成器結(jié)構(gòu)

由以往場(chǎng)景文本擦除方法[4,21]可知,深度神經(jīng)網(wǎng)絡(luò)通過(guò)提取更豐富的特征信息,可緩解大規(guī)模文本區(qū)域難以修復(fù)的問(wèn)題,而淺層神經(jīng)網(wǎng)絡(luò)[21]提取的特征抽象程度不高,常因感受野較小導(dǎo)致文本區(qū)域修復(fù)不完整.因此本文也采取兩階段生成器,第1階段為粗糙背景生成器,第2階段為精致背景生成器.粗糙背景生成器和文本檢測(cè)網(wǎng)絡(luò)共享一個(gè)主干網(wǎng)絡(luò),主干網(wǎng)絡(luò)由2個(gè)卷積層和6個(gè)殘差模塊[23]組成.

為了加強(qiáng)特征的紋理特征表示能力,本文設(shè)計(jì)TAM,結(jié)構(gòu)如圖2所示.TAM從原始特征的通道和空間2個(gè)維度進(jìn)行特征表示,自適應(yīng)地集成局部特征與全局特征,有效提升背景修復(fù)效果.學(xué)習(xí)過(guò)程分為兩步,先學(xué)習(xí)原始特征的通道注意力得分,再在此基礎(chǔ)上學(xué)習(xí)該特征的空間注意力得分.

記輸入到TAM的特征圖x∈(C,H,W) ,其中,C表示通道數(shù),H表示高度,W表示寬度,通道注意力得分為:

Cscore(x)=S(MLP(Max(x))+MLP(Mean(x))),

圖2 TAM模塊結(jié)構(gòu)

其中,S(·)表示Sigmoid激活函數(shù),Max(·)表示對(duì)特征圖進(jìn)行最大池化,Mean(·)表示對(duì)特征圖進(jìn)行平均池化.多層感知機(jī)(Multilayer Perception, MLP)是一個(gè)兩層的神經(jīng)網(wǎng)絡(luò),第1層神經(jīng)元個(gè)數(shù)為C/16,第2層神經(jīng)元個(gè)數(shù)為C.空間注意力得分為:

Sscore(x)=S(Max(x)‖Mean(x)),

其中‖表示矢量拼接操作.

粗糙背景生成器將輸入的原始圖像進(jìn)行5次下采樣和5次上采樣,在上采樣過(guò)程中矢量拼接下采樣特征,通過(guò)矢量拼接不同層次的特征,緩解因網(wǎng)絡(luò)加深而導(dǎo)致空間信息損失的問(wèn)題.借鑒特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks, FPN)[24]的思想,基于修復(fù)區(qū)域的尺度大小不一,利用網(wǎng)絡(luò)的每層卷積對(duì)圖像進(jìn)行多尺度特征提取,使圖像可產(chǎn)生豐富的特征表示.在上采樣過(guò)程中,將128×128、256×256、512×512的圖像分別送入TAM中,自適應(yīng)地集成局部特征與全局特征,再分別計(jì)算相應(yīng)分辨率真值圖像和經(jīng)過(guò)TAM輸出圖像的L1損失函數(shù).

精致背景生成器的輸入是粗糙背景生成器的輸出,可加深網(wǎng)絡(luò)層數(shù),獲取更豐富的語(yǔ)義信息.精致背景生成器為了有效增強(qiáng)網(wǎng)絡(luò)感受野,盡量獲取更大范圍的圖像信息,在128×128的特征上進(jìn)行6次空洞卷積[25],并應(yīng)用跳躍連接集成低級(jí)語(yǔ)義信息與高級(jí)語(yǔ)義信息.為了防止信息冗余,只在精致背景生成器網(wǎng)絡(luò)中的最后一層應(yīng)用TAM,再計(jì)算網(wǎng)絡(luò)最終輸出和對(duì)應(yīng)真值的L1損失函數(shù).

1.2.2 判別器結(jié)構(gòu)

本文使用的判別器為SNGAN(Spectral Norm GAN)[26],在cGAN基礎(chǔ)上使用SpectralNorm函數(shù)代替BatchNorm2d函數(shù),使判別器滿足Lipschitz約束,優(yōu)化網(wǎng)絡(luò)的訓(xùn)練.

其中,Maskgt表示對(duì)應(yīng)的文本掩碼真值,0表示非文本區(qū)域,1表示文本區(qū)域,F(xiàn)img表示輸入到MASTR的圖像,F(xiàn)eg表示精致背景生成器的最終輸出.

1.3 文本檢測(cè)網(wǎng)絡(luò)

當(dāng)輸入的原始圖像進(jìn)行背景修復(fù)時(shí),網(wǎng)絡(luò)應(yīng)提供精準(zhǔn)的文本區(qū)域定位,保證背景修復(fù)的連貫性及非文本區(qū)域的完整性.由于背景修復(fù)是從粗糙背景生成器開(kāi)始,因此文本檢測(cè)網(wǎng)絡(luò)和粗糙背景生成器共享一個(gè)主干網(wǎng)絡(luò).

由于文本區(qū)域在一幅圖像上只占有較少的一部分,應(yīng)使網(wǎng)絡(luò)著重關(guān)注于文本區(qū)域而非整幅圖像,特征提取過(guò)程中給文本區(qū)域賦予更高的權(quán)重,過(guò)濾噪聲信息.其次,文本區(qū)域的像素點(diǎn)一般都是連續(xù)出現(xiàn),不會(huì)在非文本區(qū)域存在幾個(gè)孤立的文本像素點(diǎn),所以需要過(guò)濾獨(dú)立噪聲.基于上述分析,本文在TAM的基礎(chǔ)上進(jìn)一步改進(jìn),設(shè)計(jì)CAM,結(jié)構(gòu)如圖3所示.

先將特征輸入TAM,自適應(yīng)學(xué)習(xí)其中的紋理特征,得到Fout1.再進(jìn)行自注意力學(xué)習(xí),充分挖掘圖像中像素點(diǎn)之間的依賴關(guān)系,得到最終的特征輸出Fout2.具體過(guò)程如下.

將Fout1∈RC×H×W分別送入3個(gè)卷積核均為(1,1)、輸出通道數(shù)為C/16、C/16、C的特征空間Fk(x)、Fq(x)和Fv(x):

Fk(x)=Wkx,F(xiàn)q(x)=Wqx,F(xiàn)v(x)=Wvx,

與此同時(shí),特征圖Fout1經(jīng)過(guò)特征空間Fv(x)與Bj,i構(gòu)成的注意力權(quán)重矩陣相乘,得到注意力層的輸出:

其中Fv(x)表示輸入信息xi與權(quán)重矩陣Wv∈RC×H×W的乘積.

最后,將注意力層的輸出與比例系數(shù)ε相乘,并和輸入特征圖Fout1加權(quán),得到最終輸出:

Fout2=εqi+Fout1,

其中ε的初始值為0.隨著網(wǎng)絡(luò)訓(xùn)練的推進(jìn),注意力特征圖逐漸為文本區(qū)域分配更多的權(quán)重.

同樣,文本檢測(cè)網(wǎng)絡(luò)也借鑒FPN的思想,在上采樣過(guò)程中,將32×32、128×128、512×512的圖像分別送入CAM,用于增強(qiáng)圖像文本特征.再分別計(jì)算相應(yīng)分辨率真值圖像和經(jīng)過(guò)CAM輸出圖像的損失函數(shù).

圖3 CAM模塊結(jié)構(gòu)

1.4 損失函數(shù)

1.4.1 生成對(duì)抗損失

GAN是訓(xùn)練背景修復(fù)網(wǎng)絡(luò)的核心損失,本文采用SNGAN中譜歸一化的合頁(yè)損失函數(shù)(Hinge Loss).Hinge Loss可使GAN訓(xùn)練更穩(wěn)定,并且額外的計(jì)算成本很少.具體公式如下:

LadvD=Ex~Pdata(x)[Max(1-D(x),0)]+
Ez~Pz(z)[Max(1+D(G(y,z)), 0)],

LadvG=-Ez~Pz(z)[D(G(y,z))],

其中,D表示判別器結(jié)構(gòu),G表示生成器結(jié)構(gòu),x表示網(wǎng)絡(luò)輸入,y表示網(wǎng)絡(luò)輸出,z表示相對(duì)應(yīng)真值.

1.4.2 自適應(yīng)紋理?yè)p失

為了使生成器可自適應(yīng)地生成背景紋理,粗糙背景生成器在128×128、256×256、512×512的圖像上應(yīng)用多尺度L1損失.為了防止監(jiān)督信息冗余,精致背景生成器只在512×512的圖像上應(yīng)用L1損失.自適應(yīng)紋理總體損失定義為

LG=LRBG+LEBG,

τ1=5,τ2=6,τ3=8,κ=0.8,ψ=10,ω=2.

1.4.3 文本檢測(cè)損失

對(duì)于文本檢測(cè)網(wǎng)絡(luò)的學(xué)習(xí),由于文本區(qū)域經(jīng)常在整幅圖像中只占部分區(qū)域,因此使用Dice損失函數(shù)[27],使網(wǎng)絡(luò)在訓(xùn)練過(guò)程中更側(cè)重于文本區(qū)域的挖掘.由于自然場(chǎng)景文本的特殊性,根據(jù)經(jīng)驗(yàn)在32×32、128×128、512×512的特征上進(jìn)行多尺度特征損失計(jì)算,S為文本檢測(cè)網(wǎng)絡(luò)的輸出,(h,w)為像素值,則文本檢測(cè)損失函數(shù)定義為

1.4.4 內(nèi)容風(fēng)格損失

正如文獻(xiàn)[3]所述,不同的高級(jí)特征監(jiān)督學(xué)習(xí)對(duì)背景修復(fù)和文本檢測(cè)較有效,在高級(jí)特征中引入內(nèi)容風(fēng)格約束,可強(qiáng)制輸出圖像和對(duì)應(yīng)的真值匹配.使用在ImageNet[28]上預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)提取輸出圖像和相應(yīng)真值的特征,VGG-16在特征提取上具有較好的泛化性和擴(kuò)展性.內(nèi)容風(fēng)格損失如下:

其中,Lcontent表示內(nèi)容損失函數(shù),Lstyle表示風(fēng)格損失函數(shù),Vi表示預(yù)訓(xùn)練的VGG-16的第i個(gè)池化層,設(shè)置超參數(shù)η=0.05,ξ=120.

綜上所述,本文最終的損失函數(shù)為生成對(duì)抗損失、自適應(yīng)紋理?yè)p失、文本檢測(cè)損失和內(nèi)容風(fēng)格損失之和,由于生成對(duì)抗網(wǎng)絡(luò)開(kāi)始生成的圖像質(zhì)量較差,導(dǎo)致總的損失函數(shù)為負(fù).為了平衡網(wǎng)絡(luò)的訓(xùn)練,設(shè)置生成對(duì)抗損失的權(quán)重為0.1,因此,最終損失函數(shù)定義為

Lfinal=0.1LadvG+LG+LTD+LCS.

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)細(xì)節(jié)

本文分別在2個(gè)代表性的場(chǎng)景文本擦除數(shù)據(jù)集SCUT-SYN和SCUT-EnsText上進(jìn)行網(wǎng)絡(luò)訓(xùn)練,分別在它們各自相應(yīng)的測(cè)試集上進(jìn)行評(píng)估.SCUT-SYN數(shù)據(jù)集的訓(xùn)練集包含8 000幅圖像,測(cè)試集包含800幅圖像.數(shù)據(jù)集本身未提供文本區(qū)域的定位坐標(biāo),因此本文將訓(xùn)練集上的圖像和對(duì)應(yīng)的真值相減,之后將RGB圖像轉(zhuǎn)換成二值圖像,得到文本掩碼真值,根據(jù)經(jīng)驗(yàn)設(shè)置像素閾值為25,大于25定義為文本區(qū)域,小于25定義為非文本區(qū)域.SCUT-EnsText數(shù)據(jù)集的訓(xùn)練集包含2 749幅圖像,測(cè)試集包含813幅圖像,本身提供文本區(qū)域的定位坐標(biāo).這2個(gè)數(shù)據(jù)集的圖像尺寸都為512×512.SCUT-EnsText數(shù)據(jù)集包含更多現(xiàn)實(shí)場(chǎng)景文本可能存在的復(fù)雜情況,如光線微弱、背景復(fù)雜、字體多變等,擦除難度更大.

訓(xùn)練過(guò)程中按概率0.3隨機(jī)將圖像最大旋轉(zhuǎn)10°,進(jìn)行數(shù)據(jù)增強(qiáng).優(yōu)化器選用Adam(Adaptive Moment Estimation),生成器網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.000 1,判別器網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.000 4,批尺寸設(shè)置為4.在顯卡TITAN RTX上單卡訓(xùn)練.

2.2 評(píng)估指標(biāo)

為了全面評(píng)估輸出圖像的質(zhì)量,本文采用如下6種評(píng)價(jià)指標(biāo).

1)均方誤差(Mean Square Error, MSE),計(jì)算兩幅圖像的均方誤差.圖像X∈(h,w)、Y∈(h,w)在像素點(diǎn)上的均方誤差為:

2)峰值信噪比(Peak Signal to Noise Ratio, PSNR).由于場(chǎng)景文本擦除技術(shù)在根本上是對(duì)比文本區(qū)域像素點(diǎn)的差別,而MSE對(duì)像素點(diǎn)細(xì)微變化并不敏感,因此PSNR可細(xì)致表達(dá)像素點(diǎn)之間的誤差,具體公式如下:

3)平均結(jié)構(gòu)相似性(Mean Structural Similarity, MSSIM).主要從亮度、結(jié)構(gòu)和對(duì)比度方面考查圖像的相似性,具體公式如下:

其中,l(X,Y)表示亮度,c(X,Y)表示結(jié)構(gòu),s(X,Y)表示對(duì)比度,uX表示圖像X像素點(diǎn)的均值,uY表示圖像Y像素點(diǎn)的均值,σX表示圖像X像素點(diǎn)的方差,σY表示圖像Y像素點(diǎn)的方差,σXY表示圖像X、Y關(guān)于像素點(diǎn)的協(xié)方差.為了防止分母為0,設(shè)置常數(shù)

c1=(0.01×255)2,c2=(0.03×255)2.

4)灰度像素平均值(AGE).表示兩幅圖像經(jīng)過(guò)灰度處理后的平均誤差,具體公式如下:

其中,D(h,w)表示兩幅灰度圖像之間差值的絕對(duì)值,g(·)表示對(duì)彩色圖像進(jìn)行灰度處理.

5)灰度像素百分比(pEPs).對(duì)比2幅圖像經(jīng)過(guò)灰度處理后的錯(cuò)誤像素百分比,當(dāng)像素點(diǎn)誤差在20以內(nèi)被認(rèn)為是相同像素,誤差在20以外被認(rèn)為是不同像素,具體公式如下:

6)灰度像素聚合百分比(pCEPs).在pEPs基礎(chǔ)上進(jìn)一步優(yōu)化,當(dāng)4個(gè)相鄰的像素點(diǎn)誤差都在20以外,認(rèn)定該像素點(diǎn)是不同像素,否則是相同像素,具體公式如下:

D(h-1,w),D(h,w+1)),

在各項(xiàng)指標(biāo)中:PSNR、MSSIM值越高,擦除性能越優(yōu);MSE、AGE、pEPs、pCEPs值越低,擦除性能越優(yōu).

2.3 實(shí)驗(yàn)結(jié)果對(duì)比

本次實(shí)驗(yàn)選用如下對(duì)比方法:EraseNet(Erase Network)[3]、pix2pix[9]、STE[18]、EnsNet[20].在場(chǎng)景文本擦除的合成數(shù)據(jù)集SCUT-SYN和真實(shí)數(shù)據(jù)集SCUT-EnsText上對(duì)比各方法的指標(biāo)值,結(jié)果如表1所示.在表中,EraseNet*為復(fù)現(xiàn)結(jié)果,其余結(jié)果直接引自相應(yīng)文獻(xiàn),黑體數(shù)字表示最優(yōu)值.

Isola等[9]提出pix2pix,使用cGAN作為圖像到圖像轉(zhuǎn)換問(wèn)題的通用解決方案,雖然相比傳統(tǒng)方法在修復(fù)速度和效率上都有明顯提升,但是由于場(chǎng)景文本的特殊性,在SCUT-SYN數(shù)據(jù)集上的修復(fù)效果并不好,PSNR僅為26.76,MSSIM僅為 91.08%.Nakamura等[18]提出STE,將整幅圖像裁剪成各小塊再輸入訓(xùn)練網(wǎng)絡(luò)中,使網(wǎng)絡(luò)可在小尺度上刪除文本區(qū)域,缺點(diǎn)是破壞圖像的全局上下文信息,導(dǎo)致擦除不全面.Zhang等[20]改進(jìn)STE,提出EnsNet,首先在整幅圖像上進(jìn)行端到端訓(xùn)練,然后提出4個(gè)損失函數(shù),確保非文本區(qū)域和文本區(qū)域的完整性,缺點(diǎn)是在網(wǎng)絡(luò)訓(xùn)練時(shí)未利用文本的位置信息,導(dǎo)致網(wǎng)絡(luò)修復(fù)時(shí)不能準(zhǔn)確定位文本位置.Liu等[3]在EnsNet的基礎(chǔ)上進(jìn)一步優(yōu)化,提出EraseNet,在網(wǎng)絡(luò)訓(xùn)練時(shí)加入文本位置信息,在生成器中使用兩次擦除,保證文本區(qū)域擦除得更干凈,缺點(diǎn)是在加入文本位置信息時(shí),忽略場(chǎng)景文本的多尺度特性,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中未意識(shí)到文本區(qū)域和非文本區(qū)域在圖像中的紋理關(guān)系.本文的MASTR在訓(xùn)練過(guò)程中有效結(jié)合多尺度特征和注意力機(jī)制,設(shè)計(jì)TAM和CAM.TAM從原始特征的通道和空間2個(gè)維度進(jìn)行特征提取,自適應(yīng)地集成局部特征與全局特征.CAM學(xué)習(xí)圖像中文本區(qū)域和非文本區(qū)域像素點(diǎn)之間的判別關(guān)系.同時(shí),設(shè)計(jì)多尺度特征損失函數(shù)優(yōu)化這兩個(gè)模塊,增強(qiáng)網(wǎng)絡(luò)的感受野,提升處理不同尺度文本的能力.

由表1可見(jiàn),MASTR在2個(gè)數(shù)據(jù)集上都達(dá)到最優(yōu).結(jié)果提升幅度較小的原因是,評(píng)估結(jié)果是在整幅圖像上,而文本區(qū)域往往在圖像中只占很少部分.

表1 各方法在2個(gè)數(shù)據(jù)集上的指標(biāo)值對(duì)比

為了公平對(duì)比方法的推理速度,在SCUT-Ens-Text測(cè)試集上測(cè)試擦除速度,結(jié)果如表2所示.由表可見(jiàn),MASTR仍是輕量級(jí)網(wǎng)絡(luò),擦除一幅圖像需要47 ms,網(wǎng)絡(luò)參數(shù)僅占用內(nèi)存19.74 M.

表2 各方法在SCUT-EnsText測(cè)試集上的擦除速度對(duì)比

2.4 消融實(shí)驗(yàn)結(jié)果

為了驗(yàn)證MASTR中TAM、CAM和多尺度特征損失的有效性,在SCUT-EnsText數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),共進(jìn)行6組對(duì)比實(shí)驗(yàn):1)Baseline[3].2)背景修復(fù)網(wǎng)絡(luò)使用TAM(記為Baseline*+TAM1).3)背景修復(fù)網(wǎng)絡(luò)和文本檢測(cè)網(wǎng)絡(luò)都使用TAM(記為Baseline*+TAM2).4)背景修復(fù)網(wǎng)絡(luò)使用TAM,文本檢測(cè)網(wǎng)絡(luò)使用CAM(記為Baseline*+TAM1+CAM1).5)背景修復(fù)網(wǎng)絡(luò)和文本檢測(cè)網(wǎng)絡(luò)都使用CAM(記為Baseline*+CAM2).6)MASTR.

各方法消融實(shí)驗(yàn)結(jié)果如表3所示,表中黑體數(shù)字為最優(yōu)值,Baseline*為復(fù)現(xiàn)結(jié)果.相關(guān)可視化結(jié)果如圖4所示.

表3 各方法在SCUT-EnsText數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果

對(duì)比Baseline和Baseline*+TAM1,在背景修復(fù)網(wǎng)絡(luò)中使用TAM后,各指標(biāo)值均有所提高,表明TAM可有效學(xué)習(xí)通道和空間2個(gè)維度上的特征,自適應(yīng)集成局部特征與全局特征,有效提升背景修復(fù)效果.圖4的可視化結(jié)果也直接驗(yàn)證TAM的有效性.

對(duì)比Baseline*+TAM1和Baseline*+TAM1+CAM1,可驗(yàn)證CAM的有效性.通過(guò)學(xué)習(xí)圖像中文本區(qū)域和非文本區(qū)域像素點(diǎn)之間的判別關(guān)系,提升檢測(cè)模型的文本檢測(cè)效果.圖4的可視化結(jié)果也表明,基于CAM的方法對(duì)于Baseline中未擦除干凈的小區(qū)域文本更有效.

對(duì)比Baseline*+TAM1+CAM1和MASTR可看出,使用多尺度特征損失在紋理細(xì)節(jié)特征表示、多尺度文本擦除方面表現(xiàn)更優(yōu),擦除后的圖像更完整,細(xì)節(jié)特征更清晰,提升模型處理不同尺度文本的能力.

為了驗(yàn)證CAM和TAM的獨(dú)特性,本文嘗試使用CAM替換TAM或使用TAM替換CAM.由表3可看出,替換后的精度都有所下降,圖4的可視化結(jié)果中替換后的擦除效果也較差.當(dāng)CAM替換TAM后,由于文本檢測(cè)網(wǎng)絡(luò)不能學(xué)習(xí)像素點(diǎn)之間的特征關(guān)系,檢測(cè)效果減弱.當(dāng)TAM替換CAM后,單方面的加深網(wǎng)絡(luò)并不能提升擦除效果,反而破壞圖像的空間信息.因此,通過(guò)消融實(shí)驗(yàn)可看出MASTR的有效性和獨(dú)特性.

(a)輸入圖像 (b)真值 (c)Baseline*

(d)Baseline*+TAM1

(g)Baseline*+CAM2 (h)MASTR

2.5 可視化分析

MASTR在SCUT-EnsText真實(shí)數(shù)據(jù)集上修復(fù)文本區(qū)域的結(jié)果如圖5所示,圖中MASTR_text為場(chǎng)景文本檢測(cè)網(wǎng)絡(luò)的輸出.MASTR更有利于修復(fù)文字大小適中、背景和前景顏色容易區(qū)分、背景顏色為純色的圖像,如圖5中第1幅~第3幅圖像所示.第4幅圖像中文本區(qū)域周圍紋理較復(fù)雜,導(dǎo)致文本檢測(cè)網(wǎng)絡(luò)無(wú)法準(zhǔn)確定位文字輪廓,并且周圍背景過(guò)于復(fù)雜,導(dǎo)致背景修復(fù)網(wǎng)絡(luò)無(wú)法修復(fù)與周圍背景區(qū)域相似的紋理.在第5幅圖像中,MASTR對(duì)藝術(shù)字體檢測(cè)不全,導(dǎo)致文本擦除不全,主要由于訓(xùn)練模型時(shí),訓(xùn)練集并未包含與之對(duì)應(yīng)的藝術(shù)字體,導(dǎo)致網(wǎng)絡(luò)檢測(cè)失敗.在第6幅圖像中,MASTR檢測(cè)到文本區(qū)域,但大尺寸的文字會(huì)導(dǎo)致背景修復(fù)網(wǎng)絡(luò)產(chǎn)生很差的修復(fù)效果,主要是因?yàn)楸尘靶迯?fù)網(wǎng)絡(luò)的感受野不足.

(a)輸入圖像

(b)真值

(c)MASTR

(d)MASTR_text

2.6 泛化性能

為了驗(yàn)證MASTR的泛化性,使用ICDAR-2013測(cè)試集[1]測(cè)試MASTR的擦除性能.由于此數(shù)據(jù)集沒(méi)有擦除后的真值圖像,因此對(duì)擦除后的圖像使用在SynText、ICDAR-2013、MLT-2017數(shù)據(jù)集上的預(yù)訓(xùn)練模型CRAFT(Character Region Awareness for Text Detection)[29]進(jìn)行文本檢測(cè),檢測(cè)的文本框越少,表明MASTR擦除文本的性能越優(yōu).具體泛化結(jié)果如表4所示,表中黑體數(shù)字為最優(yōu)值,Baseline*為復(fù)現(xiàn)結(jié)果,其余結(jié)果直接引自原文獻(xiàn),Original images表示文本擦除前ICDAR-2013測(cè)試集上的評(píng)估結(jié)果.由表4可知,MASTR泛化性能最優(yōu).

表4 各方法在ICDAR-2013數(shù)據(jù)集上的泛化實(shí)驗(yàn)結(jié)果

MASTR在ICDAR-2013測(cè)試集上的擦除結(jié)果如圖8所示,每組圖像左邊為原圖,右邊為擦除后圖像經(jīng)過(guò)CRAFT文本檢測(cè)網(wǎng)絡(luò)后的輸出,紅色邊框表示CRAFT文本檢測(cè)網(wǎng)絡(luò)檢測(cè)的文本框.

圖6 MASTR在ICDAR-2103數(shù)據(jù)集上泛化性能的可視化

3 結(jié) 束 語(yǔ)

本文提出基于多尺度注意力機(jī)制的場(chǎng)景文本擦除框架(MASTR).在文本檢測(cè)網(wǎng)絡(luò)中設(shè)計(jì)上下文感知模塊,更好地學(xué)習(xí)圖像中文本區(qū)域和非文本區(qū)域像素點(diǎn)之間的判別特征,增強(qiáng)網(wǎng)絡(luò)的文本檢測(cè)性能.同時(shí)在背景修復(fù)網(wǎng)絡(luò)中設(shè)計(jì)紋理自適應(yīng)模塊,從原始特征的通道和空間2個(gè)維度進(jìn)行特征提取,有效修復(fù)因重構(gòu)文本區(qū)域而導(dǎo)致的陰影部分.此外,在文本檢測(cè)網(wǎng)絡(luò)和背景修復(fù)網(wǎng)絡(luò)中分別計(jì)算多尺度特征損失,有效增強(qiáng)網(wǎng)絡(luò)感受野,加強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度文本的檢測(cè)和擦除.在SCUT-SYN、SCUT-EnsText數(shù)據(jù)集上的實(shí)驗(yàn)表明,MASTR擦除效果較優(yōu).

今后可從兩個(gè)方向著手進(jìn)行改進(jìn):1)提出更有效、精準(zhǔn)的擦除模型,使網(wǎng)絡(luò)學(xué)習(xí)更具體、細(xì)致的紋理,更有效地檢測(cè)多尺度文本區(qū)域并進(jìn)行擦除.2)提高網(wǎng)絡(luò)的訓(xùn)練速度,快速、有效地訓(xùn)練網(wǎng)絡(luò),更好地運(yùn)用于現(xiàn)實(shí)場(chǎng)景.

猜你喜歡
像素點(diǎn)損失背景
少問(wèn)一句,損失千金
“新四化”背景下汽車NVH的發(fā)展趨勢(shì)
胖胖損失了多少元
《論持久戰(zhàn)》的寫(xiě)作背景
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于canvas的前端數(shù)據(jù)加密
基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)分割模型的上皮和間質(zhì)組織分割
晚清外語(yǔ)翻譯人才培養(yǎng)的背景
一般自由碰撞的最大動(dòng)能損失
基于Node-Cell結(jié)構(gòu)的HEVC幀內(nèi)編碼
六盘水市| 无极县| 河津市| 黄石市| 津市市| 崇义县| 沈阳市| 贵南县| 肇庆市| 东海县| 岳池县| 丰县| 开阳县| 辽源市| 兴仁县| 塔城市| 南丹县| 泽普县| 高密市| 兴文县| 玉门市| 盐边县| 金昌市| 禄劝| 同德县| 彩票| 长泰县| 宜黄县| 睢宁县| 沿河| 南澳县| 林西县| 霍城县| 富顺县| 东辽县| 兰州市| 古田县| 衡阳市| 潞西市| 平罗县| 巴青县|