管美靜 珠杰 吳燕如
摘要:針對(duì)藏文文獻(xiàn)版面的特征,本文結(jié)合藏字結(jié)構(gòu)的特征,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的DnCNN藏文文獻(xiàn)版面去噪算法。該方法采用17層網(wǎng)絡(luò)結(jié)構(gòu)深度學(xué)習(xí)版面特征,在訓(xùn)練過程中結(jié)合批量標(biāo)準(zhǔn)化和ReLU激活函數(shù)提高訓(xùn)練速度和特征的學(xué)習(xí)精度,最后使用殘差學(xué)習(xí)輸出殘差圖像。實(shí)驗(yàn)結(jié)果表明,針對(duì)藏文文獻(xiàn)版面中易出現(xiàn)的噪聲有良好的去噪表現(xiàn),不但有較高的峰值信噪比,而且在主觀評(píng)價(jià)方面也有不錯(cuò)的評(píng)價(jià)。
關(guān)鍵詞:圖像去噪;卷積神經(jīng)網(wǎng)絡(luò);殘差學(xué)習(xí);藏文文獻(xiàn)版面
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)29-0196-03
隨著現(xiàn)代科技的發(fā)展和電子數(shù)碼產(chǎn)品的普及,圖像在人們生產(chǎn)和生活中的應(yīng)用越來越普及[1]。但是,由于物理或人為等因素,可能會(huì)導(dǎo)致圖像在采集和傳輸過程中受到不同程度噪聲的干擾[2]。因此,圖像去噪是圖像研究領(lǐng)域極其重要的一步。
1 研究基礎(chǔ)
現(xiàn)如今圖像去噪的研究發(fā)展已經(jīng)較為成熟,以神經(jīng)網(wǎng)絡(luò)的普及為分界點(diǎn),圖像去噪方法可以分為傳統(tǒng)的去噪方法和基于神經(jīng)網(wǎng)絡(luò)的去噪方法。傳統(tǒng)去噪方法主要可以分為基于空間域的去噪方法和基于變換域的去噪方法[3],其中,基于空間域的去噪方法常見的有均值濾波和中值濾波,基于變換域的去噪方法常見的有傅里葉變換和小波變換等去噪方法[4]。但是傳統(tǒng)的去噪方法如K-SVD去噪方法、BM3D去噪算法通常會(huì)有去噪后圖像整體模糊、計(jì)算量較大等問題[5]?;谏窠?jīng)網(wǎng)絡(luò)的去噪方法常常結(jié)合深度學(xué)習(xí),例如Jain[6]等提出一種卷積神經(jīng)網(wǎng)絡(luò)的去噪模型,該模型相比傳統(tǒng)的去噪方法在計(jì)算量和去噪效果上都有較好的表現(xiàn);Kai Zhang[7]等人提出了一種基于殘差學(xué)習(xí)的深層卷積神經(jīng)網(wǎng)絡(luò)圖像去噪方法,該方法通過使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合批量標(biāo)準(zhǔn)化和激活函數(shù),使用殘差學(xué)習(xí)的方法實(shí)現(xiàn)圖像去噪,該方法不僅計(jì)算速度快,而且去噪效果較好;此后,Chen H[8]等提出了一種用于低劑量CT圖像去噪的淺層殘差編解碼遞歸網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)為REDNet(Residual Encoder-Decod-er Network),使用基于對(duì)稱跳躍鏈接的深度卷積編碼解碼框架,在遞歸過程中,每一次都使用上一級(jí)處理過的低劑量CT圖像作為下一層網(wǎng)絡(luò)的輸入,該方法在去噪的同時(shí)能較好地保留圖像細(xì)節(jié)特征,但是網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單;Tai Y[9]等提出一種延長(zhǎng)記憶的去噪模型,主要思想也是基于卷積核迭代實(shí)現(xiàn)去噪,不同的是各個(gè)模塊都參與了最終輸出,主要通過使用門控機(jī)制建立長(zhǎng)期記憶,該模型最大的特點(diǎn)是網(wǎng)絡(luò)結(jié)構(gòu)深度有80層,網(wǎng)絡(luò)結(jié)構(gòu)密集使得特征信息在各記憶單元之間的流動(dòng)更加靈活。
以上去噪方法在圖像去噪領(lǐng)域都有較好的去噪效果,但主要是應(yīng)用在自然圖像或者醫(yī)學(xué)圖像等圖像處理上。對(duì)于在藏文文獻(xiàn)版面方面的去噪還未有人涉及。由于藏文適用范圍較小和藏字結(jié)構(gòu)的復(fù)雜性,藏文版面較中文、英文或其他普通圖像各方面的研究較少。本文研究了藏文版面的特征,提出了DnCNN模型的藏文文獻(xiàn)版面去噪方法。實(shí)驗(yàn)中首先對(duì)原始藏文版面添加不同程度的椒鹽噪聲,構(gòu)造仿真噪聲圖像;然后將圖像輸入網(wǎng)絡(luò),使用卷積神經(jīng)網(wǎng)絡(luò)并結(jié)合批量標(biāo)準(zhǔn)化和ReLU激活函數(shù),學(xué)習(xí)藏文版面結(jié)構(gòu)特征;最后整合殘差學(xué)習(xí)實(shí)現(xiàn)去噪。實(shí)驗(yàn)結(jié)果表明,該算法在藏文文獻(xiàn)版面有較好的去噪效果。
2 圖像預(yù)處理
2.1 灰度化
目前大多數(shù)圖像通常是RGB三通道的彩色圖像,為了降低計(jì)算量,本實(shí)驗(yàn)在對(duì)藏文版面加噪之前,首先對(duì)其進(jìn)行灰度化。本文采用處理效果較好的加權(quán)平均法,得到藏文文獻(xiàn)版面灰度圖像:
Gray(i,j)=0.30' R(i,j)+0.59' G(i,j)+0.11' B(i,j)
2.2 藏文版面特征
現(xiàn)代藏文版面已趨于標(biāo)準(zhǔn)化,印刷物的版面形狀主要呈長(zhǎng)條式,常見的版面主要有報(bào)紙期刊、裝訂書等。宏觀上格式統(tǒng)一,如頁(yè)面布局清晰、模塊之間獨(dú)立等;微觀上藏字與藏字之間有固定的字號(hào)和行間距,且現(xiàn)代保存手段較為完善,一般版面很少含有噪聲。但是在版面的采集或傳輸過程中不可避免可能會(huì)混入或多或少的噪聲,并且在藏文文獻(xiàn)書寫中,除了藏字自身結(jié)構(gòu)的復(fù)雜性外,藏字的音節(jié)點(diǎn)在處理過程中跟噪聲顆粒尤其與椒鹽噪聲類似,極易混淆,也在一定程度上增加了去噪難度。
2.3 加噪過程
結(jié)合藏文版面文字特征,主要使用椒鹽噪聲作為藏文文獻(xiàn)版面的仿真噪聲,構(gòu)造一種由含噪聲圖像到去噪圖像的非線性映射,映射過程如式(1)描述,其中g(shù)(x,y)為加噪后的圖像,f(x,y)為原始圖像,N(x,y)為噪聲。
g(x,y)=f(x,y)+N(x,y)(1)
實(shí)驗(yàn)通過對(duì)相同的干凈藏文版面添加不同強(qiáng)度的噪聲,將加噪后的圖像輸入模型實(shí)行去噪處理,最后對(duì)去噪后圖像進(jìn)行評(píng)估,分析模型的去噪效果。
3 藏文版面去噪算法
3.1 網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建
本文主要針對(duì)藏文版面方面噪聲特點(diǎn),結(jié)合批量標(biāo)準(zhǔn)化和殘差網(wǎng)絡(luò)研究了DnCNN圖像去噪方法。該去噪算法的核心部分在于結(jié)合殘差學(xué)習(xí)方法并加入了批處理操作,建立的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。將初始含噪圖像輸入網(wǎng)絡(luò),建立17層卷積層,在網(wǎng)絡(luò)內(nèi)部主要通過3x3的卷積核逐層提取圖像特征。在每一層的卷積之后進(jìn)行ReLU和規(guī)范化處理,最后得到殘差圖像。
3.2 模型訓(xùn)練
首先,在正式卷積之前,先對(duì)圖像進(jìn)行邊界處理,主要通過在卷積開始之前都進(jìn)行一次zero padding操作,這種零填充處理不僅操作簡(jiǎn)單,在保證提取到更多邊緣特征的同時(shí)也不會(huì)產(chǎn)生任何邊緣影響。
正式卷積過程中,設(shè)置卷積核尺寸為HxWxC,其中H表示卷積核高度,W表示卷積核寬度,C表示特征通道數(shù)目。訓(xùn)練過程中采用灰度圖像大小為256x256,卷積核大小為3x3xl。網(wǎng)絡(luò)結(jié)構(gòu)分為三大部分:
第一部分:第1層卷積網(wǎng)絡(luò)Conv( 3x3x64)+ReLU,對(duì)輸入含噪圖像先進(jìn)行zero padding進(jìn)行邊界填充處理,保證每一層的輸入、輸出尺寸都保持一致,防止出現(xiàn)邊界偽影。隨后使用64個(gè)3x3的卷積核對(duì)圖像進(jìn)行卷積,將得到的圖像p進(jìn)行ReLU函數(shù)激活,得到第1層卷積后輸出圖像pl,將其作為第2次卷積的輸入。
第二部分:主要指的是第2層卷積網(wǎng)絡(luò)到第16層卷積網(wǎng)絡(luò),可以將其稱為隱藏層,對(duì)于這15層隱藏層的處理采用相同的卷積過程,這里僅以第2層Conv( 3x3x64)+BN(batch normal-ization)+ReLU為例。對(duì)第1層得到的輸出圖像pl進(jìn)行zero pad-ding處理之后采用3x3的卷積核進(jìn)行卷積,在每一層卷積之后中使用與第一步相同的ReLU激活函數(shù)進(jìn)行線性修正。值得一提的是這里與第1層卷積不同之處在于,在每一個(gè)卷積和ReLU之間分別加入了BN批量規(guī)范化處理操作,目的是解決內(nèi)部變量偏移問題防止梯度消失并加快訓(xùn)練速度,得到輸出圖像p2,作為第3層卷積網(wǎng)絡(luò)的輸入;第3層重復(fù)第2層的操作,依次進(jìn)行zero padding邊界處理、使用64個(gè)3x3卷積核進(jìn)行卷積、批處理、ReLU線性激活得到輸出圖像p3,p3作為第4層卷積網(wǎng)絡(luò)的輸入,再重復(fù)第3層的操作得到輸出圖像p4作為第5層的輸入,以此類推,一直到第16次卷積結(jié)束得到輸出p16,將p16作為第17層的輸入。
第三部分:最后一層全連接Conv( 3x3x64),將第16層得到的p16進(jìn)行zero padding與卷積之后,得到圖像p17,此時(shí)的圖像p17相當(dāng)于不斷學(xué)習(xí)殘差得到的噪聲圖像。結(jié)合殘差去噪的原理,需要用第1層的噪聲輸入圖像與最后一層的p17相減,得到輸出圖像p18。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)中采用數(shù)據(jù)集為JPG格式的西藏日?qǐng)?bào)藏文版面,通過切片方法將1346x1092較大版面裁剪為多個(gè)256x256的小尺寸圖像,到擴(kuò)充數(shù)據(jù)集的目的。然后進(jìn)行灰度化,得到100600張256x256藏文版面灰度圖像,其中,訓(xùn)練集為90000張,驗(yàn)證集為10000張,測(cè)試集為600張。
4.2 實(shí)驗(yàn)結(jié)果分析
本實(shí)驗(yàn)環(huán)境采用Windows1064位操作系統(tǒng),使用的GPU為NVIDIA GeForce RTX2080,同時(shí)采用TensorFlow-GPUl.14.0深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)采用經(jīng)典的3x3的卷積核和17層的網(wǎng)絡(luò)結(jié)構(gòu),主要針對(duì)訓(xùn)練次數(shù)和噪聲強(qiáng)度兩個(gè)方面展開實(shí)驗(yàn),利用峰值信噪比客觀評(píng)價(jià)和主觀評(píng)價(jià)分析去噪結(jié)果。
1)訓(xùn)練次數(shù)的實(shí)驗(yàn)
本文將訓(xùn)練次數(shù)Epoch分別設(shè)置為30、40、50。網(wǎng)絡(luò)的訓(xùn)練過程中實(shí)際上是梯度下降的過程,實(shí)驗(yàn)中采用的Adam優(yōu)化函數(shù)和自適應(yīng)學(xué)習(xí)率的方法。在本次實(shí)驗(yàn)過程中,數(shù)據(jù)集為添加了椒鹽噪聲強(qiáng)度6為0.01的藏文版面。去噪效果如圖2、3、4所示,左邊是原始灰度圖,中間是添加椒鹽噪聲的噪聲效果圖,右邊是去噪后的圖像。本文選取三個(gè)關(guān)鍵節(jié)點(diǎn)進(jìn)行舉例說明。
觀察訓(xùn)練過程去噪效果,從圖2對(duì)比圖可以得出,在Epoch=30時(shí)模型學(xué)習(xí)特征還較少,圖片呈現(xiàn)效果較差;隨著訓(xùn)練次數(shù)的增多,當(dāng)Epoch達(dá)到40時(shí),如圖3可看出,去噪效果有明顯改善;繼續(xù)增加Epoch為50,如圖4所示,噪聲去除效果已較為明顯,去噪效果良好。實(shí)驗(yàn)表明,當(dāng)Epoch達(dá)到50時(shí),去噪效果達(dá)到最好,去噪后圖像的峰值信噪比如表1所示。
2)不同噪聲強(qiáng)度的實(shí)驗(yàn)
根據(jù)以上得到的成熟的去噪模型,將600張測(cè)試集藏文圖片輸入DnCNN網(wǎng)絡(luò),去噪效果對(duì)比如圖5、6、7所示,左邊圖為藏文版面原始灰度圖,中間圖為加噪后的藏文版面,右邊圖為去噪后的藏文版面。
對(duì)圖5、6、7縱向?qū)Ρ确治觯扇ピ胄Ч麍D可以看出,如圖5椒鹽噪聲6為0.01時(shí),圖像去噪效果良好;對(duì)于中等強(qiáng)度6為0.05的噪聲,如圖6所示,在去除大量噪聲的同時(shí)藏字結(jié)構(gòu)保留完整,仍然有較好的去噪效果;對(duì)于高強(qiáng)度6為0.10的噪聲,可能存在無法準(zhǔn)確區(qū)分噪聲點(diǎn)和藏字符號(hào),如圖7所示圖像去噪效果較差??梢姡肼晱?qiáng)度的高低和版面內(nèi)容的高復(fù)雜度是造成去噪效果變差的主要原因。
對(duì)去噪處理后圖像的峰值信噪比取均值,可以看出隨著噪聲強(qiáng)度的增加,去噪后PSNR呈下降趨勢(shì),具體表現(xiàn)如表2所示。
使用主觀評(píng)價(jià)對(duì)去噪后的藏文版面做出如下總結(jié),如表3所示,可以看出,隨著噪聲強(qiáng)度的不斷提高,去噪后版面質(zhì)量的視覺效果也逐漸變差。
5 結(jié)論
本文主要研究了DnCNN模型的藏文文獻(xiàn)版面去噪方法,DnCNN網(wǎng)絡(luò)模型訓(xùn)練過程中使用3x3的卷積核和17層的網(wǎng)絡(luò)層數(shù),卷積過程中結(jié)合批量標(biāo)準(zhǔn)化和激活函數(shù)解決網(wǎng)絡(luò)內(nèi)部協(xié)變量偏移和梯度消失等問題,并整合殘差學(xué)習(xí)提高訓(xùn)練精度。針對(duì)藏文文字復(fù)雜特征和音節(jié)點(diǎn)的特殊性,使用不同強(qiáng)度的椒鹽噪聲作為仿真噪聲輸入網(wǎng)絡(luò)訓(xùn)練模型,得出DnCNN去噪方法對(duì)藏文文獻(xiàn)版面在不同椒鹽噪聲強(qiáng)度下的去噪效果。實(shí)驗(yàn)結(jié)果表明,DnCNN去噪模型在藏文文獻(xiàn)版面中有較高的去噪效果和較好的視覺體驗(yàn)。
參考文獻(xiàn):
[1]阮秋琦.數(shù)字圖像處理學(xué)[M].2版.北京:電子工業(yè)出版社, 2007.
[2]任靜.基本卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪算法研究[D].西安:西安電子科技大學(xué),2015.
[3]謝鵬.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪研究[D].湘潭:湘潭大學(xué),2019.
[4]楊亞男,小波變換在彩色圖像數(shù)字水印技術(shù)中的應(yīng)用[D].西安:西安電子科技大學(xué),2019.
[5]李偉.車輛檢測(cè)中噪聲去除方法研究[D].青島:中國(guó)海洋大學(xué),2007.
[6] Jain V,Seung H S.Natural Image Denoising with ConvolutionalNetworks[C]//Conference on Advances in Neural InformationProcessing Systems.Curran Associates Inc.2008:769-776.
[7] He K M,Zhang X Y,Ren S Q,etaI.Deep residual learning forimage recognition[C]//2016 IEEE Conference on Computer Vi-sion and Pattern Recognition(CVPR).27-30 June 2016,LasVe-gas,NV,USA.IEEE,2016:770-778.
[8] Chen H,Zhang Y,Kalra M K,et aI.Low-dose CT with a residu-al encodeI-decoder convolutional neural network[J]. lEEETransactions on Medical Imaging,2017,36(12):2524-2535.
[9] Tai Y,Yang J,Liu X M,et aI.MemNet:apersistent memory net-work for image restoration[C]//2017 IEEE International Confer-ence on Computer Vision(ICCV).22-29 0ct.2017,Venice,ltaly.IEEE。2017:4549-4557.
【通聯(lián)編輯:唐一東】
作者簡(jiǎn)介:管美靜(1993-),女,碩士研究生,主要研究方向?yàn)閳D形圖像處理、版面分析;珠杰(1973-),男(藏族),通訊作者,博士,王要研究方向?yàn)椴匚男畔⑻幚?、?shù)據(jù)挖掘;吳燕如(1993-),女,碩士研究生,主要研究方向?yàn)閳D形圖像處理、版面分析。