段 熒,龍 華,2,瞿于荃,邵玉斌,2,杜慶治,2
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650504;2.昆明理工大學(xué)云南省計算機重點實驗室,云南 昆明 650504)
在各行各業(yè)中為了更容易地對文件進行儲存或管理,通常是將帶有文字信息的紙質(zhì)文檔通過數(shù)字化的方式掃描轉(zhuǎn)化為圖像后進行識別,以減少人工錄入工作。目前對于規(guī)范的文檔圖像的光學(xué)字符識別OCR(Optical Character Recognition)已在各種領(lǐng)域中得到應(yīng)用,但是,在數(shù)字化的過程中,大多數(shù)文檔都無法達到理想的狀態(tài),且?guī)в幸欢ǖ母蓴_信息,例如文檔之中用于標記重要內(nèi)容的橫線等,致使識別率下降。雖然可以通過二值化[1]等算法進行預(yù)處理,但是對于與文字進行粘連的干擾部分卻依舊無法進行處理[2]。對于不能識別的拒識字也有學(xué)者利用上下文信息的相關(guān)性進行后處理[3,4],進一步提高了準確率,當(dāng)初步識別效果較差時,相關(guān)性匹配的方法并不能顯著地提升準確率,并且它依賴于一個健全的候選字庫和上下文信息(即語言學(xué)知識)。因此,如何有效地去除干擾,對于減少文檔圖像拒識字,提升識別準確率具有不容忽視的作用,同時也給修復(fù)污損的文字作品提供了新思路。隨著歷史更迭發(fā)展,部分古籍文獻、金石碑文以及書畫作品在流傳過程中,由于各種不穩(wěn)定的保存因素,比如自然的老化、發(fā)霉受潮、動物撕咬等,導(dǎo)致完整的漢字字跡變得模糊不清或是局部殘缺。針對文物字畫和碑刻的破損書法作品,使用傳統(tǒng)的手工方法修復(fù)不僅流程繁復(fù)[5 - 7]而且耗時較長,除了考究修復(fù)人員高超的復(fù)原技術(shù)和耐心之外,還要求其對歷史事實持有科學(xué)而又嚴謹?shù)膽B(tài)度。
目前,文檔圖像去除干擾的工作可以分為2類:一是類似于表格或是下劃線與文字信息沒有粘連的干擾[8],此類干擾可利用線條的結(jié)構(gòu)性特征進行去除;而另一類則是與文字信息產(chǎn)生粘連的干擾[9]。以上方法仍是針對線條類的干擾進行修復(fù),而對于不規(guī)則圖案的干擾卻沒有合適的算法。近年來,基于深度學(xué)習(xí)網(wǎng)絡(luò)的圖像修復(fù)(Image Inpainting)發(fā)展迅速,在2016年的CVPR(Computer Vision and Pattern Recognition)會議上,Pathak等人[10]結(jié)合CNN(Convolutional Neural Networks)和GAN(Generative Adversarial Networks)網(wǎng)絡(luò)首次提出圖像修復(fù)算法。在此算法的基礎(chǔ)之上許多作者又提出了改進算法[11,12],如:Pathak等人[10]和Yang等人[13]假設(shè)的干擾圖案是一個大小為64×64的矩形框,且位于128×128的圖像中心,但此類方法的修復(fù)只是集中于圖像中心的矩形區(qū)域,不適用于文字圖像的修復(fù)工作。而Iizuka等人[14]和Yu等人[15]則突破中心矩形框的干擾假設(shè)提出了對不規(guī)則圖案進行修復(fù)的算法。但是,此類算法往往需要依賴復(fù)雜的后處理,例如:Iizuka等人[14]采用快速行進算法(Fast Marching)[16]和泊松融合(Poisson Image Blending)[17]的方法對圖像進行修復(fù)。此外,還有基于Patch的方法[18,19],通過在圖像中沒有干擾的部分搜索相關(guān)的Patch進行圖像修復(fù),而這樣的搜索需要耗費大量的計算成本,雖然之后研究者提出了更快的Patch搜索算法—— PatchMatch[20],但該算法主要是利用非缺失部分的圖像統(tǒng)計信息來填充缺失部分,其處理速度無法滿足實時應(yīng)用的需求,且不能進行語義感知的Patch選擇。NVIDIA公司Liu等人[21]所提出的PConv(Partial Convolution)層使用傳統(tǒng)的卷積網(wǎng)絡(luò),不依賴額外的后處理,通過不斷學(xué)習(xí)缺失區(qū)域和原始照片,對不規(guī)則的干擾部分進行修復(fù)。通過一系列的實驗研究表明,PConv方法優(yōu)于PatchMatch[20]、GL(Globally and Locally consistent image completion)[14]和文獻[15]的方法,文獻[21]使用堆疊的部分卷積運算和自動掩碼更新步驟(Automatic Mask Update Step)來執(zhí)行圖像修復(fù),論證了圖像需要修補的部分會隨著層數(shù)的增加和更新而消失,因此該方法不受限于形狀或紋理。這種修復(fù)方法與文字圖像、碑刻或書法作品所要求的修復(fù)條件相符,即修復(fù)的紋理以及顏色是不唯一、不固定的。
本文為解決不規(guī)則干擾文字圖像中,字符缺損導(dǎo)致識別準確率下降的問題,提出了基于部分卷積的文字圖像不規(guī)則干擾修復(fù)算法,以部分卷積作為卷積方式,基于U-Net框架和自動更新步驟,循環(huán)對缺損區(qū)域進行逐層修復(fù)訓(xùn)練,并將此算法應(yīng)用于古代文字圖像的修復(fù)之中,以進一步對書法、碑刻等文字作品修復(fù)進行理論及實踐探究。
NVIDIA在2018年ICLR會議上公布了PConv層[21]對圖像進行修復(fù)的成果,并將PConv層表示為式(1)所示:
(1)
其中,WT是卷積濾波器的權(quán)重,b為對應(yīng)的偏差。X是當(dāng)前卷積(滑動)窗口的特征值(像素值),M是相應(yīng)的二進制掩膜(mask)圖像,⊙表示逐像素乘法,比例因子sum(1)/sum(M)應(yīng)用適當(dāng)?shù)目s放比例來調(diào)整有效(屏蔽)輸入的變化量。由式(1)可得出,輸出值僅取決于非屏蔽輸入。sum(M)表示滑動窗口M中有效像素點的個數(shù)。由式(1)可知,卷積運算的輸出值主要取決于有效像素點。
自動掩碼更新步驟如式(2)所示:
(2)
將輸入圖像包含至少滿足一個條件的像素點,標記為有效像素。在部分卷積層有足夠的連續(xù)應(yīng)用的情況下,不斷修復(fù)圖像直至將所有無效像素點的值修復(fù)為1,即表示圖像修復(fù)完成。
U-Net網(wǎng)絡(luò)模型大多數(shù)情況下是應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域,網(wǎng)絡(luò)形狀呈現(xiàn)為U型。降采樣的特征圖與同維度大小的上采樣特征圖通過Skip Connection將高低層次的特征進行融合,適用于樣本量少的應(yīng)用場景,且運算速度快。U-Net采用了2006年Hinton等人[22]在深度信念網(wǎng)絡(luò)DBN(Deep Belief Network)中首次提出的編碼器-解碼器思路,除語義分割外U-Net網(wǎng)絡(luò)結(jié)構(gòu)可用于圖像去噪,在訓(xùn)練階段將原始圖像與噪聲進行融合后放入編碼解碼器中,目標是將加擾圖像還原后得到原始圖像。
在U-Net網(wǎng)絡(luò)結(jié)構(gòu)中編碼器的作用是對輸入圖像的特征進行提取,降采樣的理論意義是增加對輸入圖像的一些小擾動的魯棒性,比如圖像平移、旋轉(zhuǎn)等,減小過擬合的風(fēng)險并降低運算量,同時增加感受野的大小。而解碼器則是利用前面編碼的抽象特征來恢復(fù)到原始圖像尺寸的過程,最終得到去除干擾后的結(jié)果。
目前就深度學(xué)習(xí)來說,并沒有完整公開的中文文檔識別數(shù)據(jù)集或者書法作品數(shù)據(jù)集,因此如何構(gòu)建訓(xùn)練測試數(shù)據(jù)成為文字圖像修復(fù)的主要任務(wù)。本文數(shù)據(jù)集主要分為文本圖像數(shù)據(jù)集和mask數(shù)據(jù)集。
3.1.1 文本圖像數(shù)據(jù)集
本文所采集到的文檔圖像數(shù)據(jù)集中數(shù)據(jù),均為二值化處理后的純凈文本圖像。為使模擬生成數(shù)據(jù)盡可能地貼合實際場景中的文字圖像,本文按照如下標準對數(shù)據(jù)集圖像進行采集:所有生成圖像均為白底黑字,使用宋體、楷體、黑體等若干常見字體進行數(shù)據(jù)模擬,并隨機生成文字圖像的大小以及文字的字號。為進一步通過上下文關(guān)聯(lián)性對識別內(nèi)容進行校正,采集的文本圖像均為具有表意的文段,文字之間具有信息關(guān)聯(lián)性,主要包含白話文、詩詞和散文3種體裁。
在圖像修復(fù)領(lǐng)域中,為提升不同種類圖像的修復(fù)效果常使用標注標簽的方式進行訓(xùn)練,如Im- ageNet數(shù)據(jù)集中含有上千個數(shù)據(jù)類別,分類標簽訓(xùn)練的目的是使模型更好地對不同種類的缺失部分進行修復(fù)。鑒于此方法的有效性與可行性,本文將此思想應(yīng)用于文字修復(fù)之上。在修復(fù)實驗過程中發(fā)現(xiàn),被修復(fù)文字的字體大小與修復(fù)后的效果有著密切關(guān)系,當(dāng)修復(fù)區(qū)域漢字大小有較為明顯的差異時,修復(fù)較大漢字字形筆畫時內(nèi)部會出現(xiàn)缺失的問題,即空心現(xiàn)象,如圖1所示,進而致使圖像修復(fù)效果不理想。
Figure 1 Hollowing out due to font differences圖1 字體差異造成的空心現(xiàn)象
(3)
此時,Stotal為當(dāng)前圖像的總像素值,當(dāng)Class<0.02時,則將當(dāng)前圖像類別歸為D01,其余圖像全部歸為D02,不同分類標簽的結(jié)果如圖2所示。
Figure 2 Example of text data classification tag 圖2 文本數(shù)據(jù)分類標簽示例
此方法旨在緩解由于字體差異過大而導(dǎo)致的空心問題。
本文首先采用單字切割算法對圖像中的單字進行切分。目前,單字切分算法主要有先驗知識法[23]、連通域法[24]和投影法[25]3種。先驗知識法是一種利用漢字字符的標準和規(guī)律的方法,其原理是對規(guī)范文本的寬度以及間距進行估算后對單字進行切分,適用于處理小批量規(guī)范型漢字,但對于批量處理不同間隔和寬度的文檔圖像缺乏靈活性;連通域法則是根據(jù)圖像領(lǐng)域中的生長算法設(shè)計的,該方法可以對圖像中所有的連通域進行查找和抽取,并且能對一些小的噪聲進行過濾,具有較強的抗干擾能力,但此方法在批量處理數(shù)據(jù)時需耗費大量的計算資源;投影法是通過對文檔圖像中的有效像素點(與文字同色的像素點)進行水平和垂直方向上的疊加,利用文本行之間和單字之間有效像素值為零的特點對單字進行切分,該方法思想簡單且運算量合理,對于規(guī)范的文檔圖像較為適用。由于漢字的結(jié)構(gòu)性特點(如左右結(jié)構(gòu)、左中右結(jié)構(gòu)),投影法容易導(dǎo)致文字的部件分離,如“行”字容易切分為 “彳”和“亍”。根據(jù)先驗知識可知,在文檔圖像中除標點符號外,字符寬度基本趨于一致且呈塊狀,故本文采用先驗知識與投影法相結(jié)合的方法對單字進行切分,具體步驟如下所示:
步驟1輸入若干文本行;
步驟2利用垂直投影法獲取當(dāng)前切分寬度的最大值,作為單字固定寬度;
步驟3將低于固定寬度的字符部件根據(jù)閱讀順序合并為單字圖像。
3.1.2 mask數(shù)據(jù)集
本文使用的mask數(shù)據(jù)集為文獻[21]中公開的mask數(shù)據(jù)集和隨機生成的干擾圖像,并在訓(xùn)練過程之中隨機對當(dāng)前mask圖像進行拉伸、翻轉(zhuǎn)和裁剪,以保證訓(xùn)練修復(fù)的mask圖像種類足夠充分。
為對比不同干擾程度修復(fù)效果之間的差異性,本文使用如式(4)所示的指標mrb將mask圖像分為10個等級,干擾程度隨著等級的增加而增大。
(4)
其中,mrb為mask干擾比,G為滿足干擾條件的像素點數(shù),而H和W分別代表當(dāng)前mask的長與寬。
對文本圖像進行修復(fù)的難點是準確預(yù)測殘缺漢字的缺失信息,復(fù)原干擾點與文字部件粘合的部分。對于場景圖像的修復(fù)來說,修復(fù)時可以依據(jù)干擾圖像邊緣多樣的彩色紋理信息,對缺失內(nèi)容進行預(yù)測,而在文本圖像中干擾圖像邊緣的紋理信息卻沒有那么豐富,因而預(yù)測缺失的文字部件具有一定難度。
本文網(wǎng)絡(luò)模型建立于U-Net架構(gòu)之上,分為編碼部分和解碼部分。輸入圖像Iin的大小為CIin×H×W,mask圖像M的大小與Iin相同,其大小為CM×H×W,其中,C為通道數(shù),H和W分別為圖像的高和寬。將Iin和M轉(zhuǎn)為列向量后的個數(shù)設(shè)為1×n,對Iin和M進行融合,如式(5)所示:
vGin={xi|xi=vIin[i]+vM[i],i=1,…,n}
(5)
其中,vIin是由Iin所轉(zhuǎn)化的列向量,vM是由M所轉(zhuǎn)化的列向量,且vIin∈Rn,vM∈Rn。Gin為Iin和M融合后的圖像,那么vGin則為Gin所轉(zhuǎn)化的列向量,此時Gin的特征通道數(shù)為CIin+CM。
根據(jù)設(shè)定的網(wǎng)絡(luò)層數(shù)對圖像Gin進行部分卷積,為使生成的圖像Iout與Iin的大小相等,編碼層部分負責(zé)提取Gin的特征值與信息,而解碼部分則是將當(dāng)前圖像Inow與其對應(yīng)編碼層中的特征信息Tnow在通道維度上進行拼接,如式(6)所示,對文字圖像的風(fēng)格進行融合與逼近。由上文所述Inow和Tnow的大小相等,設(shè)Inow和Tnow轉(zhuǎn)為列向量后的大小為1×m,那么根據(jù)式(6)將Inow和Tnow進行融合后得到Gnow。
vGnow=[vInow,vTnow]∈R2m
(6)
其中,vGnow、vInow和vTnow分別為Gnow、Inow和Tnow所轉(zhuǎn)化的列向量,且vInow∈Rm,vTnow∈Rm。
在編碼部分和解碼部分分別使用ReLU和Leaky ReLU作為激活函數(shù),除首尾2個PConv層之外,每個PConv層和激活層之間都有批量歸一化BN(Batch Normalization)層[26]。卷積核內(nèi)核大小分別為7,5,5,3,3,3,3,3,通道大小分別為64,128,256,512,512,512,512,512,解碼器中包含8個上采樣層,解碼器中PConv層的輸出通道數(shù)分別是512,512,512,512,256,128,64,3。
對于漢字來說長寬比和內(nèi)部細節(jié)是重要特性,若圖像尺寸歸一化不當(dāng),會致使?jié)h字內(nèi)部結(jié)構(gòu)粘合在一起,這樣會加大后續(xù)識別難度。對文本圖像數(shù)據(jù)集的圖像計算后H∶W最小達到1∶3.76,依照圖像尺寸取整原則,選取H∶W為1∶1,1∶1.5,1∶2,1∶2.5,1∶3和1∶3.5共6種情況。經(jīng)4.2節(jié)實驗后,依據(jù)峰值信噪比PSNR(Peak Signal to Noise Ratio)[27]數(shù)值越大表示失真越小的原則,可知當(dāng)H∶W=1∶3時,能夠取得最優(yōu)效果,經(jīng)計算后確定輸入圖像尺寸為512×1536,經(jīng)解碼器的8次特征提取后,特征圖尺寸縮小為2×6。根據(jù)上文所述網(wǎng)絡(luò)結(jié)構(gòu)以及輸入圖像尺寸得出圖3所示網(wǎng)絡(luò)架構(gòu)圖,其中“I”代表文本圖像,“M”代表mask圖像。
Figure 3 Network architecture diagram圖3 網(wǎng)絡(luò)架構(gòu)圖
目前,尚未有針對于文檔圖像所設(shè)計的評價指標,考慮到文檔圖像的特殊性,本文采用圖像質(zhì)量評價指標與識別率相結(jié)合的方式對實驗結(jié)果進行評估。使用PSNR[27]和結(jié)構(gòu)相似性SSIM[28]對修復(fù)前后的圖像進行評測,雖在后續(xù)研究中針對不同分辨率問題,多尺度結(jié)構(gòu)相似性[28]的評估效果更優(yōu),但它基于人為設(shè)定的經(jīng)驗值,無法客觀評價圖像的復(fù)原效果。同時,在有不規(guī)則干擾的文字圖像中,基于多尺度結(jié)構(gòu)相似性評估的方法的文字識別準確率會大大降低,通過本文算法對文檔圖像進行修復(fù)后,識別準確率的變化可更直觀地體現(xiàn)出算法的有效性,因此本文采用修復(fù)前后的文字識別率對算法的復(fù)原效果進行判定。
PSNR用于計算原始圖像與修復(fù)圖像之間的信噪比,是基于誤差敏感且使用最廣泛的一種客觀評價指標。定義一個大小為m×n的干凈圖像S和噪聲圖像K,均方誤差MSE的定義如式(7)所示:
(7)
而PSNR(dB)則通過MSE得到,如式(8)所示:
(8)
其中,MAXS為圖像S可能的最大像素值。
SSIM是一種衡量原始圖像與修復(fù)圖像相似程度的指標,結(jié)構(gòu)相似性的基本原理是,認為自然圖像是高度結(jié)構(gòu)化的,即相鄰像素間具有很強的關(guān)聯(lián)性,而這種關(guān)聯(lián)性表達了場景中物體的結(jié)構(gòu)性。SSIM取值為[0,1],值越大表示圖像失真越小。設(shè)x和y為原始圖像與修復(fù)圖像,那么其亮度l(x,y)、對比度c(x,y)和結(jié)構(gòu)s(x,y)之間的關(guān)系分別為:
(9)
(10)
(11)
SSIM(x,y)=[l(x,y)α·c(x,y)β·s(x,y)γ]
(12)
將參數(shù)σ,β,γ均設(shè)為1,可得:
(13)
在計算損失值LOSS時,定義Iin為帶有干擾的文字圖像,M為初始的二進制mask,Iout為經(jīng)過網(wǎng)絡(luò)預(yù)測后的輸出圖像,Igt為期望得到的原始文字圖像。
首先定義逐像素LOSS(Per-pixel Loss)為:
(14)
(15)
其中,NIgt表示圖像Igt之中特征大小為C×H×W,Lhole和Lvalid分別代表有效像素區(qū)域和無效像素區(qū)域的網(wǎng)絡(luò)輸出損失。
根據(jù)文獻[29],將感知LOSS定義為:
(16)
然后,計算Icomp和Iout類型損失項,如式(17)和式(18)所示:
(17)
(18)
定義總體變化TV(Total Variation)損失為Ltv,如式(19)所示:
(19)
最后,將上述損失項根據(jù)文獻[21]進行結(jié)合后得到Ltotal,如式(20)所示:
Ltotal=Lvalid+6Lhole+0.05Lperceptual+
120(Lstyleout+Lstylecomp)+0.1Ltv
(20)
根據(jù)式(4)所計算出的mrb值,將mask數(shù)據(jù)集分為A~J共10類,如表1所示,表中mrbmin為當(dāng)前等級的mrb值下限,mrbmax為當(dāng)前等級的mrb值上限,Train和Test欄分別代表當(dāng)前訓(xùn)練集和測試集中的圖像數(shù)。其中訓(xùn)練集共有55 219幅,測試集共有12 060幅。根據(jù)表1進行分類后,A~J各個等級示例圖像如圖4所示,其中白色像素點為干擾部分。
Table 1 Statistics table of different grade images表1 不同等級圖像統(tǒng)計表
Figure 4 Example of interference level division圖4 干擾等級劃分示例
本文對文本數(shù)據(jù)集圖像的長寬比進行計算之后,選取1∶1,1∶1.5,1∶2,1∶2.5,1∶3和1∶3.5共6種情況,使用相同數(shù)據(jù)集進行測試得出表2,測試結(jié)果顯示當(dāng)H∶W=1∶3時取得較優(yōu)效果,因而確定輸入圖像大小為512×1536。
Table 2 Experimental results of different proportions of width and height表2 不同寬高比的實驗結(jié)果
首先對單幅圖像進行預(yù)訓(xùn)練,將訓(xùn)練所得的權(quán)重值作為批量訓(xùn)練初始值,以加快訓(xùn)練模型的收斂速度,每輪訓(xùn)練2 000次,共訓(xùn)練10輪,此時LOSS=0.852,PSNR=21.1893 dB,預(yù)訓(xùn)練修復(fù)效果如圖5所示。
Figure 5 Prediction results of single text image 圖5 單幅文字圖像預(yù)測結(jié)果
在mask數(shù)據(jù)集不考慮旋轉(zhuǎn)、翻轉(zhuǎn)和裁剪的前提下,各個等級的干擾圖像與文字圖像進行融合后,產(chǎn)生的數(shù)據(jù)量分別為:訓(xùn)練集249 600幅、驗證集10 160幅以及測試集16 500幅。分別將10個等級的干擾文字圖像數(shù)據(jù)集各訓(xùn)練30輪,使用BN層進行歸一化,每輪訓(xùn)練10 000次,共訓(xùn)練20輪,無BN層的情況下每輪訓(xùn)練5 000次,共訓(xùn)練10輪。最后將不同程度干擾的干擾文字圖像數(shù)據(jù)集進行混合共訓(xùn)練55輪,其中經(jīng)過BN層規(guī)一化的數(shù)據(jù)集每輪訓(xùn)練10 000次,共訓(xùn)練40輪,無BN層情況下每輪訓(xùn)練5 000次,共訓(xùn)練15輪。為實現(xiàn)數(shù)據(jù)集的定量實驗,使用同一訓(xùn)練集對各個等級的干擾進行訓(xùn)練。由實驗結(jié)果可知,本文算法在A等級時分別取得訓(xùn)練集、驗證集和測試集的最佳效果,其中PSNR值最高達到32.46 dB,SSIM值最高達到0.954,LOSS值最低達到0.015。隨著干擾程度的加深,PSNR值和SSIM值呈下降趨勢,在LOSS值的約束下模型達到較好的收斂效果。對于污染程度達到F~J的干擾圖像來說,對殘損文字圖像并沒有因為分類訓(xùn)練而達到理想的修復(fù)效果,且評價指標低于混合掩碼的評價指標。結(jié)合圖6的各個等級修復(fù)效果圖,通過主觀視覺可得知本文算法可對字體的內(nèi)部細節(jié)做出預(yù)測,且修復(fù)邊緣平滑自然。由于漢字圖像的特殊性,修復(fù)前后圖像在亮度、對比度和結(jié)構(gòu)上沒有明顯差異,因而不同等級之間的SSIM值對于文字圖像的區(qū)分度較小。選取各個等級訓(xùn)練中訓(xùn)練集、驗證集和測試集上的最優(yōu)評價結(jié)果,統(tǒng)計后可得表3。前15輪各個等級圖像在訓(xùn)練集、驗證集上的LOSS和PSNR的變化情況如圖7所示。
各個等級圖像去干擾效果如圖6所示,其中每類圖像從上到下的排列順序為加擾圖像、修復(fù)圖像和原始圖像。由實驗結(jié)果可知,本文模型能夠根據(jù)已有筆畫細節(jié)對缺失部分進行預(yù)測,并保持缺失漢字的字體形狀和筆畫走向,對于完全遮擋的漢字(如:J類),在人工也無法辨明的情況下,本文模型在盡可能去除干擾的前提下同樣也進行了預(yù)測。
Table 3 Comparison of experimental results at different levels表3 不同等級實驗結(jié)果對比
Figure 6 Decontamination effect diagram of each level image 圖6 各等級圖像去干擾效果圖
Figure 7 Changes of LOSS and PSNR for the first 15 Epochs圖7 前15輪LOSS和PSNR變化圖
對于文字來說,內(nèi)部細節(jié)微小的誤差會導(dǎo)致誤識字和拒識字,為驗證本文模型對于殘缺漢字內(nèi)部細節(jié)的修復(fù)是否有效,本節(jié)通過修復(fù)前后識別率的變化對修復(fù)效果進行評估。隨機選取測試結(jié)果不同干擾等級各100幅,共計1 000幅圖像,將加擾圖像和對應(yīng)的修復(fù)圖像放入百度OCR接口,進一步計算識別準確率的變化情況,為便于展示本文僅給出前120次識別結(jié)果,如圖8所示,在此處識別率定義為識別正確字符數(shù)與總字符數(shù)的比值。由實驗結(jié)果可知,百度OCR對于有干擾的圖像的平均識別率約為62.29%,而本文模型對圖像修復(fù)后識別率約為90.14%,相較于未修復(fù)圖像識別率提升了約27.85%。該實驗表明,通過本文模型所修復(fù)出的文字部件對于提升漢字識別率是有效的。
Figure 8 Baidu OCR recognition rate changes before and after interference removal圖8 去干擾前后百度OCR識別率變化圖
結(jié)合上述實驗結(jié)果觀察可知,模擬漢字圖像通過前期實驗達到了較好的修復(fù)效果。本文算法除了可以修復(fù)日常生活中被污染的印刷體文檔外,還可應(yīng)用于古籍碑刻以及書法拓片的修復(fù),該項任務(wù)的探究在文字修復(fù)領(lǐng)域具有一定的研究意義。以下工作是本文對古代文字圖像修復(fù)的探索。受各種因素的影響,國內(nèi)對于這類珍貴文字圖像的研究鮮為人知,針對它的數(shù)據(jù)庫更是寥寥無幾。本文聯(lián)合云南師范大學(xué)漢語言文學(xué)專業(yè)人員分別梳理出隸書、篆書、甲骨文、行書4種書法字帖圖像,構(gòu)成實驗數(shù)據(jù)集。此次實驗旨在模擬缺少真實古代文字數(shù)據(jù)集的情況下,盡可能還原現(xiàn)實環(huán)境中古代文字的磨損情況以及修復(fù)過程和實驗結(jié)果。上述實驗和結(jié)果已表明該模型對于簡體漢字圖像的有效性,接下來將此模型進一步應(yīng)用于古代文字圖像的修復(fù)之中,將4種書法字體的古代文字圖像數(shù)據(jù)集采用相同的干擾掩碼數(shù)據(jù)集進行融合,充分模擬真實環(huán)境下的磨損和風(fēng)化情況。為增強模型對多風(fēng)格文字和干擾的修復(fù)能力,每類字體的干擾文字圖像數(shù)據(jù)量分別為:訓(xùn)練集10 000幅,驗證集4 000幅,測試集6 000幅。訓(xùn)練方法與上述實驗保持一致,對各個等級mask圖像和混合等級mask圖像進行訓(xùn)練。實驗結(jié)果表明,本文模型在修復(fù)甲骨文時取得了最優(yōu)效果,PSNR值為30.15 dB,且SSIM值為0.964,分析后可知,甲骨文相較于其他古代文字來說年代久遠、種類較少、字與字之間間隔較大,本文模型對于等級較低的污染具有較好的修復(fù)效果。表4給出了各等級最優(yōu)結(jié)果。
Figure 9 Inpainting effects on different fonts圖9 對不同字體的修復(fù)效果
古代文字修復(fù)效果如圖9所示,其中每類從上到下排列順序為加擾圖像、修復(fù)圖像和原始圖像。由實驗結(jié)果可知,對于不同種類的古代文字,本文模型可以根據(jù)不同種類的字體類型做出預(yù)測,對缺失字體進行修復(fù),結(jié)合主觀視覺觀察可知,修復(fù)的文字部件與當(dāng)前字體風(fēng)格一致。
Table 4 Statistical results of objective evaluation indicators of archaic writing表4 古代文字客觀評價指標的統(tǒng)計結(jié)果
本文基于U-Net框架和PConv運算建立文字圖像修復(fù)模型,旨在解決由于各種不規(guī)則干擾而造成字符破損,導(dǎo)致識別準確率下降的問題,同時使用古代文字字體進行訓(xùn)練并達到了良好的效果,為修復(fù)書法、碑刻等文字作品的殘缺筆畫提供了可行方案。本文根據(jù)測試圖像的字體、形狀和筆畫走向?qū)ξ淖秩笔Р糠诌M行預(yù)測,PSNR最高達到32.46 dB,SSIM最高為0.954,LOSS最佳達到0.015。為研究對不同等級圖像的修復(fù)效果,本文將mask 分為A~J 10個等級,使用同等的訓(xùn)練環(huán)境對實驗數(shù)據(jù)進行訓(xùn)練,測試結(jié)果表明,各個等級之間的差值隨著等級的升高而逐漸變小,對于E、F、G、H、I、J等級來說,使用混合mask訓(xùn)練效果更佳。將各個等級的干擾圖像和對應(yīng)的修復(fù)圖像的測試結(jié)果放入百度OCR進行測試后,修復(fù)圖像的識別率提升了27.85%。最后使用隸書、篆書、甲骨文和行書4種古代文字字體,使用本文模型進行訓(xùn)練后,PSNR達到30.46 dB,SSIM最高為0.964,實驗表明該模型可針對不同古代漢字字體風(fēng)格的殘缺情況,對破損圖像進行修復(fù)并取得良好效果。