李農(nóng)勤,楊維信
基于生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)的手寫(xiě)文字圖像補(bǔ)全
李農(nóng)勤1,楊維信2,3
(1. 東華理工大學(xué)經(jīng)濟(jì)與管理學(xué)院,江西 南昌 330013;2.華南理工大學(xué)電子與信息學(xué)院,廣東 廣州 510641;3. 牛津大學(xué)數(shù)學(xué)研究所,牛津 OX26GG)
手寫(xiě)文字圖像補(bǔ)全是圖像補(bǔ)全問(wèn)題中一個(gè)重要研究分支,其難點(diǎn)在于圖片中具有無(wú)約束書(shū)寫(xiě)風(fēng)格的文字的結(jié)構(gòu)關(guān)系補(bǔ)全。為了模擬實(shí)際中復(fù)雜和困難的應(yīng)用情景,在圖像補(bǔ)全研究工作的啟發(fā)下,針對(duì)大類別、小樣本、多風(fēng)格、未知語(yǔ)種等復(fù)雜情況下進(jìn)行手寫(xiě)象形文字圖像補(bǔ)全。采用全局和局部一致性保持的生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)(GLC-GAN)。在大類別多風(fēng)格的手寫(xiě)文字圖像補(bǔ)全中,補(bǔ)全圖片往往因可能的補(bǔ)全候選很豐富而導(dǎo)致補(bǔ)全區(qū)域模糊不清。為此,提出兩級(jí)補(bǔ)全系統(tǒng):第一級(jí)粗補(bǔ)全模塊考慮文字結(jié)構(gòu)的完整性,第二級(jí)細(xì)補(bǔ)全模塊實(shí)現(xiàn)文字的清晰化、細(xì)致化。通過(guò)在大類別手寫(xiě)漢字?jǐn)?shù)據(jù)庫(kù)CASIA-HWDB1.1上的實(shí)驗(yàn),驗(yàn)證了該兩級(jí)系統(tǒng)的有效性,同時(shí)分析系統(tǒng)在不同書(shū)寫(xiě)風(fēng)格和不同缺失區(qū)域情況下的補(bǔ)全效果。
生成式對(duì)抗網(wǎng)絡(luò);手寫(xiě)文字;圖像補(bǔ)全;結(jié)構(gòu)補(bǔ)全;自監(jiān)督學(xué)習(xí)
圖像補(bǔ)全(image completion)是對(duì)圖片中缺失或受污染的部分進(jìn)行填充,使得填充后的圖片盡可能完整和逼真。圖像補(bǔ)全是近年來(lái)在機(jī)器學(xué)習(xí)領(lǐng)域中非常熱門(mén)的研究課題,在圖片修復(fù)、編輯或重構(gòu)等應(yīng)用中起到重要作用[1-3]。圖像補(bǔ)全需要注重圖片中內(nèi)容的紋理和語(yǔ)義結(jié)構(gòu)關(guān)系。目前較多研究針對(duì)自然場(chǎng)景圖片中的紋理信息的補(bǔ)全,補(bǔ)全后圖片比較逼真[1-2,4]。在對(duì)圖片內(nèi)容的結(jié)構(gòu)補(bǔ)全上,目前較多的研究工作在人臉圖片上展開(kāi)[2,4]。通過(guò)對(duì)大量歸整后的人臉圖片進(jìn)行訓(xùn)練,人臉上缺失(故意挖空)部分能夠被補(bǔ)全,保持了人臉的結(jié)構(gòu)的完整性。然而,目前的大部分方法在面對(duì)具有強(qiáng)語(yǔ)義結(jié)構(gòu)關(guān)系同時(shí)又復(fù)雜多變的物體時(shí),補(bǔ)全結(jié)果不佳[5]。例如文獻(xiàn)[2]最后展示了人體圖像補(bǔ)全時(shí)出現(xiàn)的錯(cuò)誤,其中頭部像素難以合理補(bǔ)全。文字補(bǔ)全問(wèn)題是圖像補(bǔ)全的一個(gè)分支,與自然場(chǎng)景中紋理信息的補(bǔ)全不同,文字補(bǔ)全重點(diǎn)需要解決的是結(jié)構(gòu)關(guān)系信息的補(bǔ)全,可以作為研究結(jié)構(gòu)信息補(bǔ)全的重要研究對(duì)象。文字補(bǔ)全除了具有重要科研意義外,還具有很高的社會(huì)應(yīng)用價(jià)值。諸如埃及象形文字、蘇美爾文、古印度文和中國(guó)甲骨文、中國(guó)古體字等象形文字,其書(shū)寫(xiě)載體一般是石頭、石壁、龜甲、竹簡(jiǎn)等。受到長(zhǎng)期自然因素和人為因素的影響,書(shū)寫(xiě)載體會(huì)有不同程度的侵蝕和破損,載體上的文字也隨之出現(xiàn)部分缺失情況,此時(shí),文字圖像補(bǔ)全的工作能在一定程度上緩解這種不利影響。進(jìn)一步地,對(duì)于未破譯的象形文字,由于文本內(nèi)容無(wú)法獲取,人工的文字補(bǔ)全將因?yàn)椴荒苓\(yùn)用文本間的語(yǔ)言模型而變得更加困難,此時(shí)更能體現(xiàn)無(wú)類別標(biāo)記的文字圖片自動(dòng)補(bǔ)全研究的意義。為了研究圖片中的結(jié)構(gòu)關(guān)系的自動(dòng)補(bǔ)全問(wèn)題,輔助歷史考古應(yīng)用場(chǎng)景中的文字圖片分析,本文著重研究手寫(xiě)文字圖像補(bǔ)全,簡(jiǎn)稱手寫(xiě)文字補(bǔ)全或文字補(bǔ)全。
現(xiàn)有的針對(duì)文字補(bǔ)全的研究[6-7]主要是在0到9的10類數(shù)字圖片上進(jìn)行的,主要利用MNIST數(shù)據(jù)集[8]或SVHN街景房屋號(hào)碼數(shù)據(jù)集[9],其每類數(shù)字均有大量的訓(xùn)練樣本,例如MNIST中每類數(shù)字有6 000個(gè)手寫(xiě)數(shù)字樣本;SVHN數(shù)據(jù)集共有 73 257張訓(xùn)練圖片,其中每張圖片展示了一個(gè)或多個(gè)印刷體數(shù)字。大量的訓(xùn)練數(shù)據(jù)給深度學(xué)習(xí)模型的優(yōu)化帶來(lái)便利,使得最后數(shù)字圖像補(bǔ)全效果很好。然而,實(shí)際應(yīng)用中的文字圖片情況非常復(fù)雜:①常用文字的類別數(shù)遠(yuǎn)遠(yuǎn)大于10類,大類別數(shù)使得類與類之間的相似程度也大幅提升;②大類別數(shù)的數(shù)據(jù)集在采集過(guò)程中不能保證每類文字都有大量的訓(xùn)練樣本;③手寫(xiě)文字與較為規(guī)整的印刷體文字相比,擁有各式各樣的書(shū)寫(xiě)風(fēng)格,大大增加了補(bǔ)全的復(fù)雜程度。
鑒于目前針對(duì)上述復(fù)雜文字情況下的圖像補(bǔ)全研究的缺乏,本文的研究問(wèn)題限定為大類別、小樣本、多風(fēng)格、未知語(yǔ)種的手寫(xiě)象形文字補(bǔ)全。又鑒于漢字是上古時(shí)期各大文字體系中唯一傳承至今的文字,本文采用漢字作為研究對(duì)象。相比于目前其他語(yǔ)言的文字而言,漢字的類別數(shù)特別大,例如GB18030-2005收入的漢字個(gè)數(shù)達(dá)到七萬(wàn)多個(gè),其中最常用的漢字也有3 755個(gè);而且,漢字是目前世界上使用人數(shù)最多的文字,不同人書(shū)寫(xiě)風(fēng)格各異,造成手寫(xiě)漢字?jǐn)?shù)據(jù)的多樣性,因此也提高了文字補(bǔ)全的復(fù)雜性。實(shí)際歷史文檔的應(yīng)用場(chǎng)景中,往往會(huì)出現(xiàn)未知語(yǔ)種的象形文字;為了模擬這種情況,本文研究文字補(bǔ)全只使用每個(gè)漢字樣本的圖片像素信息,并不使用漢字的類別標(biāo)簽信息。最后,大部分歷史文檔在收集和整理中存在困難,這也往往造成可供研究的文字樣本較為缺乏,因此,本文研究采用小樣本的文字?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn)。
在自然圖片的補(bǔ)全中,目前很多研究方法采用了生成式對(duì)抗網(wǎng)絡(luò)[10]。其中,文獻(xiàn)[2]中基于全局和局部一致性保持的生成式對(duì)抗網(wǎng)絡(luò)(global and local consistent generative adversarial networks,GLC-GAN)在圖片的判別網(wǎng)絡(luò)中設(shè)計(jì)了2條支路,分別從全局和局部的角度來(lái)衡量待填充部分的完整性和逼真程度,促使生成網(wǎng)絡(luò)得到的填充部分能兼顧全局完整和局部逼真。受到該工作的啟發(fā),考慮到在文字補(bǔ)全中全局結(jié)構(gòu)信息的重要性,本文采用GLC-GAN模型來(lái)實(shí)現(xiàn)無(wú)約束手寫(xiě)文字的補(bǔ)全。針對(duì)大類別無(wú)類別標(biāo)簽手寫(xiě)文字補(bǔ)全中遇到的補(bǔ)全區(qū)域圖片的模糊問(wèn)題,提出兩級(jí)補(bǔ)全方案:第一級(jí)補(bǔ)全模塊結(jié)合全局和局部考慮各種可能的補(bǔ)全情況得到模糊的粗補(bǔ)全;第二級(jí)補(bǔ)全模塊則進(jìn)一步將圖片做細(xì)致化、清晰化處理。通過(guò)在手寫(xiě)數(shù)據(jù)集CASIA-HWDB1.1[11]上進(jìn)行實(shí)驗(yàn),驗(yàn)證了本文方法的有效性,同時(shí)探究和分析了GLC- GAN模型在不同的書(shū)寫(xiě)風(fēng)格和不同的缺失區(qū)域情況下的填充補(bǔ)全效果。
生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)最初是為了訓(xùn)練基于卷積神經(jīng)網(wǎng)絡(luò)的生成網(wǎng)絡(luò)而設(shè)計(jì)的一種自監(jiān)督學(xué)習(xí)方法[10]。其中自監(jiān)督是指該網(wǎng)絡(luò)的訓(xùn)練無(wú)需額外數(shù)據(jù)標(biāo)簽信息作為監(jiān)督信號(hào),僅通過(guò)判斷生成產(chǎn)物的真實(shí)程度來(lái)優(yōu)化模型。一般來(lái)說(shuō),GAN由網(wǎng)絡(luò)和網(wǎng)絡(luò)2部分組成,即生成網(wǎng)絡(luò)(generative network)和判別網(wǎng)絡(luò)(discriminative network)。圖像補(bǔ)全中,生成網(wǎng)絡(luò)通過(guò)將給定的圖片作為輸入,輸出一張補(bǔ)全圖片。判別網(wǎng)絡(luò)則負(fù)責(zé)判別由補(bǔ)全的圖片是否“真實(shí)”。GAN的訓(xùn)練過(guò)程是和兩者的相互迭代博弈和促進(jìn)的過(guò)程,最終理想狀態(tài)是判別網(wǎng)絡(luò)難以判定生成圖片的真?zhèn)?,即認(rèn)為此時(shí)的能生成能以假亂真的圖片。
對(duì)于圖像補(bǔ)全任務(wù),不僅需要令填補(bǔ)的部分圖片內(nèi)部更加逼真,而且還需要使填補(bǔ)后的全圖也更加連貫和逼真。為此,文獻(xiàn)[2]設(shè)計(jì)了全局和局部一致性保持的GAN框架。該框架下,判別網(wǎng)絡(luò)由2個(gè)分支組成:全局分支1和局部分支2。2個(gè)分支網(wǎng)絡(luò)的最后一層瓶頸特征經(jīng)過(guò)拼接后,再通過(guò)一個(gè)全連接層,得到一個(gè)數(shù)值范圍在0到1之間的置信度輸出。在GLC-GAN的訓(xùn)練中,網(wǎng)絡(luò)的優(yōu)化包含了2種損失函數(shù):加權(quán)均方誤差損失函數(shù)L[12]和GAN損失函數(shù)[10]。其中,L的計(jì)算公式為
其中,為完整的無(wú)缺失的圖片;M為缺失區(qū)域位置的掩膜;(,M)為生成網(wǎng)絡(luò)的輸出圖片;⊙為對(duì)應(yīng)位置元素相乘。由此可見(jiàn),L是衡量真實(shí)圖片和偽造的圖片之間的差異。對(duì)于另一部分,GAN的訓(xùn)練是min-max優(yōu)化過(guò)程,目標(biāo)函數(shù)為
其中,為判別網(wǎng)絡(luò);M為隨機(jī)缺失區(qū)域位置的掩膜。結(jié)合2種損失函數(shù),GLC-GAN模型最終的目標(biāo)函數(shù)為
文字補(bǔ)全的關(guān)鍵要素是結(jié)構(gòu)合理和圖片清晰,盡管通過(guò)GLC-GAN能夠使得結(jié)構(gòu)更加合理,但補(bǔ)全圖片的模糊現(xiàn)象仍然顯著。對(duì)于一般圖片的紋理補(bǔ)全任務(wù)中,缺失區(qū)域四周的鄰近紋理信息給補(bǔ)全圖片帶來(lái)很多紋理約束,因此較容易補(bǔ)全得到清晰逼真圖片;然而對(duì)于注重結(jié)構(gòu)關(guān)系的文字而言,圖片中缺失區(qū)域之外的剩余部分僅能夠提供有限的結(jié)構(gòu)約束,換句話說(shuō),缺失區(qū)域可供選擇的補(bǔ)全圖片的搜索范圍很大。進(jìn)一步地,對(duì)于手寫(xiě)體文字,就算是一般被視為具有相同結(jié)構(gòu)的同類別文字,也會(huì)因?yàn)槎鄻拥臅?shū)寫(xiě)風(fēng)格的存在,在缺失區(qū)域呈現(xiàn)多樣的補(bǔ)全圖片候選。
為了使補(bǔ)全區(qū)域清晰化,引入基于GLC-GAN的兩級(jí)補(bǔ)全模塊:第一級(jí)GAN注重結(jié)構(gòu)的合理,第二級(jí)GAN注重圖片的清晰。圖1展示兩級(jí)手寫(xiě)文字補(bǔ)全網(wǎng)絡(luò)的總框圖。
第一級(jí)GLC-GAN網(wǎng)絡(luò)基本上采用1.1小節(jié)的架構(gòu),但對(duì)于網(wǎng)絡(luò)中標(biāo)記為1的樣本不再是數(shù)據(jù)庫(kù)中真實(shí)樣本,而是在真實(shí)樣本基礎(chǔ)上,對(duì)局部區(qū)域進(jìn)行高斯模糊,得到局部模糊樣本。局部模糊區(qū)域的抽取規(guī)則和缺失區(qū)域一致,高斯模糊的窗長(zhǎng)參數(shù)是在預(yù)設(shè)定的范圍內(nèi)的隨機(jī)值(本文在一半的訓(xùn)練迭代中選取[3,15]內(nèi)的隨機(jī)奇數(shù)值作為高斯模糊的窗長(zhǎng),另一半的迭代中采用原始圖片,即不進(jìn)行高斯模糊操作)。局部模糊樣本相對(duì)于真實(shí)樣本而言,在第一級(jí)的判別網(wǎng)絡(luò)中,為生成網(wǎng)絡(luò)輸出圖片的清晰程度提供了容忍度,從側(cè)面增大了網(wǎng)絡(luò)做出判決的難度,使第一級(jí)的不再只關(guān)注圖片的清晰,而更多是去考慮補(bǔ)全后圖片在結(jié)構(gòu)上是否合理,進(jìn)而促進(jìn)第一級(jí)生成網(wǎng)絡(luò)給出結(jié)構(gòu)合理的補(bǔ)全結(jié)果。
圖1 兩級(jí)手寫(xiě)文字補(bǔ)全系統(tǒng)的總框圖
第二級(jí)GLC-GAN網(wǎng)絡(luò)是清晰化補(bǔ)全模塊。在訓(xùn)練中,的輸入是隨機(jī)生成的局部模糊樣本(高斯模糊窗長(zhǎng)取[11,51]范圍內(nèi)隨機(jī)奇數(shù)),監(jiān)督信號(hào)則是數(shù)據(jù)庫(kù)中的真實(shí)樣本。在實(shí)際應(yīng)用中,的輸入是第一級(jí)生成網(wǎng)絡(luò)輸出的較模糊的粗補(bǔ)全圖片,輸出則作為最終的補(bǔ)全結(jié)果。值得一提的是,訓(xùn)練階段采用隨機(jī)生成的局部模糊樣本是因?yàn)樵撃K只需專注于在不改變圖片文字內(nèi)容的前提下,使圖片清晰化,而不需要考慮如何改變文字結(jié)構(gòu)。
圖1中,給定一個(gè)完整書(shū)寫(xiě)的大小的原始文字圖片,隨機(jī)生成一張大小的二值掩膜,掩膜中數(shù)值為1的正方形區(qū)域代表被污染后文字的缺失區(qū)域,區(qū)域的位置和大小是隨機(jī)的。此時(shí),帶缺失區(qū)域的文字圖片便可通過(guò)文字圖片和掩膜計(jì)算得到
帶缺失區(qū)域的文字圖片經(jīng)過(guò)第一級(jí)GAN的生成網(wǎng)絡(luò)后得到粗補(bǔ)全圖片。圖片經(jīng)過(guò)第二級(jí)GAN的生成網(wǎng)絡(luò)后得到細(xì)補(bǔ)全圖片,即最終補(bǔ)全結(jié)果。本文所有GAN都采用上一小節(jié)介紹的GLC-GAN,即判決網(wǎng)絡(luò)包括全局分支和局部分支:前者的輸入是粗補(bǔ)全圖片(對(duì)于第二級(jí)GAN則是圖片),后者的輸入則是由預(yù)定義二值掩膜從對(duì)應(yīng)的全局圖中抽取出的局部區(qū)域圖。本文中的GLC-GAN模型的相關(guān)超參數(shù)與文獻(xiàn)[2]中的大體一致,不同之處在于:①由于文字圖片比自然場(chǎng)景圖片未見(jiàn)太多紋理細(xì)節(jié),因此圖片被統(tǒng)一歸一化成128×128的大??;②在訓(xùn)練階段,隨機(jī)缺失區(qū)域的邊長(zhǎng)大小是32到64之間的隨機(jī)值,即缺失區(qū)域最大占原圖的四分之一,最小占原圖的十六分之一。
CASIA-HMDB1.1[11]是經(jīng)典的脫機(jī)手寫(xiě)漢字?jǐn)?shù)據(jù)庫(kù)。脫機(jī)表示手寫(xiě)漢字?jǐn)?shù)據(jù)是以圖片形式呈現(xiàn)。該數(shù)據(jù)庫(kù)包含了3 755類的常用漢字,每類漢字大約由300位書(shū)寫(xiě)者提供樣本。本文實(shí)驗(yàn)?zāi)M特殊且困難情況下的文字補(bǔ)全,主要針對(duì)大類別、小樣本、多風(fēng)格、未知語(yǔ)種的象形。為了體現(xiàn)大類別,實(shí)驗(yàn)考慮了數(shù)據(jù)庫(kù)中所有類別(即3 755類)的漢字。為了模擬小樣本、多風(fēng)格應(yīng)用場(chǎng)景,在模擬訓(xùn)練階段只使用前20位書(shū)寫(xiě)者的樣本,其余書(shū)寫(xiě)者的手寫(xiě)樣本都用于效果的檢驗(yàn)。為了突出未知語(yǔ)種的情況,所有樣本的類別標(biāo)簽信息均未用于本文的實(shí)驗(yàn)中,本文模型都是通過(guò)自監(jiān)督學(xué)習(xí)得到。
由于不同個(gè)性風(fēng)格的存在,相同類別(即相同結(jié)構(gòu))的文字在書(shū)寫(xiě)中也會(huì)呈現(xiàn)多樣化,此時(shí)文字補(bǔ)全的難度也有差異。如圖2所示9組補(bǔ)全結(jié)果,每組結(jié)果來(lái)自同類別且由不同書(shū)寫(xiě)者提供的漢字。本文掩膜中的缺失區(qū)域固定在中心位置,且區(qū)域大小為40×40或50×50,粗補(bǔ)全輸出圖是在只采用一級(jí)GLC-GAN下得到最終補(bǔ)全效果,即在該GLC-GAN的訓(xùn)練中只利用原始真實(shí)樣本作為判決網(wǎng)絡(luò)的正樣本。
圖2 不同書(shū)寫(xiě)風(fēng)格的漢字樣本的兩級(jí)補(bǔ)全效果
由圖2每組結(jié)果可見(jiàn),大部分情況下,雖然帶缺失區(qū)域的圖會(huì)在一定程度上影響人們對(duì)文字的辨別,但經(jīng)過(guò)輸入生成網(wǎng)絡(luò)后得到補(bǔ)全圖都能較好地恢復(fù)文字的缺失信息。雖然圖相比于原圖常呈現(xiàn)細(xì)節(jié)差異,但大部分情況下結(jié)構(gòu)信息的補(bǔ)全較為合理。圖3(a)展示了在某些筆畫(huà)整體缺失的情況下,仍能夠補(bǔ)全缺失筆畫(huà)。再者,通過(guò)對(duì)比圖和圖,可見(jiàn)本文提出的兩級(jí)補(bǔ)全方法能明顯抑制補(bǔ)全區(qū)域的模糊情況,改善補(bǔ)全圖片的清晰度。圖3(b)放大顯示3個(gè)模糊像素被抑制的例子。手寫(xiě)文字補(bǔ)全問(wèn)題非常具有挑戰(zhàn),圖3(c)展示了一些補(bǔ)全效果不佳的例子,由其中前2個(gè)的例子可見(jiàn),“寞”字在缺失中間的“艸”和“曰”后,可供候選的補(bǔ)全文字較多,如“賓”或“實(shí)”字,此時(shí)補(bǔ)全結(jié)果可能和原始文字具有不同的類別。第3,4個(gè)例子展示了補(bǔ)全區(qū)域出現(xiàn)冗余筆畫(huà)的情況。最后一個(gè)例子則展示了在粗補(bǔ)全模塊結(jié)果非常模糊的情況下,本文的細(xì)補(bǔ)全模塊無(wú)法使圖片清晰化。這些問(wèn)題值得進(jìn)一步研究和解決。
(a) 筆畫(huà)整體缺失情況下的文字補(bǔ)全效果(b) 細(xì)補(bǔ)全模塊抑制 模糊像素例子(c) 補(bǔ)全效果不佳的例子
除了文字的多樣書(shū)寫(xiě)風(fēng)格外,缺失區(qū)域的位置和大小對(duì)文字補(bǔ)全的影響也很大。圖4中,第1行展示不同缺失區(qū)域位置和大小的掩膜,接下來(lái)4行則展示了4個(gè)漢字樣本在不同的掩膜作用下的缺失區(qū)域的補(bǔ)全效果。缺失區(qū)域從小到大依次設(shè)定為30,40和50。如圖所示,當(dāng)缺失區(qū)域?yàn)?0×30時(shí),生成網(wǎng)絡(luò)能夠較好地補(bǔ)全文字,但隨著缺失區(qū)域擴(kuò)大至50×50,補(bǔ)全變得困難,例如“藹”字的“艸”字頭缺失筆畫(huà)段或是“啊”字在缺失“口”部件時(shí)均難以填補(bǔ)。其中的原因可能是,“藹”去掉“艸”字頭后是“謁”字,“啊”字去掉“口”字旁后是“阿”字,即這類漢字缺失某些區(qū)域后并不是無(wú)意義的筆畫(huà)集合,而是變成了另一個(gè)類別的漢字,此時(shí)帶缺失區(qū)域的漢字在模型看來(lái)仍然是逼真且合理的漢字,因此模型難以對(duì)其進(jìn)行補(bǔ)全。與之相反,如圖4中的“愛(ài)”字,由于在數(shù)據(jù)集的3 755類中具有較少的相似類別,因此就算缺失區(qū)域達(dá)到50×50大小,補(bǔ)全效果仍然較好。另外,當(dāng)缺失區(qū)域是在文字中風(fēng)格特殊的部件或筆段的位置時(shí),雖然補(bǔ)全后漢字的類別能夠大致保持不變,但特殊風(fēng)格被恢復(fù)的難度較大,例如圖中“按”字中“扌”的連筆風(fēng)格在缺失補(bǔ)全后丟失。
圖4 不同缺失區(qū)域位置和大小下的文字補(bǔ)全效果
本文針對(duì)大類別、小樣本、多風(fēng)格、未知語(yǔ)種的手寫(xiě)象形文字,采用全局和局部一致性保持的生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)了帶缺失區(qū)域的文字圖像補(bǔ)全。針對(duì)結(jié)構(gòu)圖片的補(bǔ)全中遇到的模糊問(wèn)題,本文提出兩級(jí)補(bǔ)全模塊,第一級(jí)模塊偏重文字的結(jié)構(gòu)補(bǔ)全,第二級(jí)模塊專注文字補(bǔ)全的清晰化。通過(guò)大量的實(shí)驗(yàn),驗(yàn)證了本文解決方案的有效性;同時(shí),對(duì)不同大小和位置的缺失區(qū)域的實(shí)驗(yàn)分析可知,書(shū)寫(xiě)風(fēng)格趨于大眾化的、相似字較少的漢字在缺失補(bǔ)全后的效果更佳。
之后的研究工作可從以下3個(gè)方向展開(kāi):①在類別標(biāo)簽輔助下的文字補(bǔ)全研究。文字類別標(biāo)簽的輔助下,可以考慮使用類似InfoGAN[13]加入分類器,通過(guò)分類器的類別監(jiān)督信息,使生成網(wǎng)絡(luò)趨向于輸出更容易識(shí)別的補(bǔ)全文字圖片,甚至將補(bǔ)全后文字的易識(shí)別性(即識(shí)別輸出的置信度大小)作為衡量結(jié)構(gòu)信息補(bǔ)全效果的評(píng)價(jià)指標(biāo)。②在語(yǔ)料輔助下的文字補(bǔ)全研究。通過(guò)對(duì)某語(yǔ)種的大量語(yǔ)料進(jìn)行統(tǒng)計(jì)分析,可以得到該語(yǔ)種的語(yǔ)義模型,一元語(yǔ)義模型就可以在單字補(bǔ)全中引入文字在日常使用的頻繁程度;多元語(yǔ)義模型能夠在篇幅級(jí)別的文字補(bǔ)全中考慮上下文信息,從而減少補(bǔ)全時(shí)模棱兩可的情況,改善補(bǔ)全模糊問(wèn)題。③書(shū)寫(xiě)風(fēng)格保持的手寫(xiě)文字補(bǔ)全。一般的生成網(wǎng)絡(luò)會(huì)盡可能給出大眾化的補(bǔ)全結(jié)果,但實(shí)際應(yīng)用中有時(shí)會(huì)期望補(bǔ)全后文字能夠保持風(fēng)格不變;解決方案可以考慮在判別網(wǎng)絡(luò)中加入書(shū)寫(xiě)風(fēng)格一致性的監(jiān)督信號(hào)。
[1] YANG C, LU X, LIN Z, et al. High-resolution image inpainting using multi-scale neural patch synthesis [C]// 2016 The IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3.
[2] IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion [J]. ACM Transactions on Graphics, 2017, 36(4): 1-4.
[3] 王坤峰, 茍超, 段艷杰, 等. 生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 自動(dòng)化學(xué)報(bào), 2017, 43(3): 321-332.
[4] YU J, LIN Z, YANG J, et al. Generative image inpainting with contextual attention [EB/OL]. (2018-03-21). [2019-09-17]. https://arxiv.org/abs/1801. 07892.
[5] HUY V V, DUONG N Q K, PEREZ P. Structural inpainting [EB/OL]. (2018-03-27). [2019-09-17]. https://arxiv.org/abs/1803.10348.
[6] PATRICIA V, JOAN S, COLOMA B. Semantic image inpainting through improved wasserstein generative adversarial networks [EB/OL]. (2018-12-03). [2019-09-17]. https://arxiv.org/abs/1812.01071.
[7] KALTWANG S, SAMANGOOEI S, REDFORD J, et al. Imagining the unseen: Learning a distribution over incomplete images with dense latent trees [EB/OL]. (2018-08-14). [2019-09-17]. https://arxiv.org/abs/1808. 04745.
[8] LECUN Y. The MNIST database of handwritten digits [EB/OL]. (1998-11-01). [2019-09-17]. http://yann. lecun. com/exdb/mnist.
[9] NETZER Y, WANG T, COATES A, et al. Reading digits in natural images with unsupervised feature learning [C]//In Neural Information Processing Systems Workshop on Deep Learning and Unsupervised Feature Learning. New York: Curran Associates, 2011: 5.
[10] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2014: 2672-2680.
[11] LIU C L, YIN F, WANG D H, et al. CASIA online and offline Chinese handwriting databases [C]//2011 IEEE International Conference on Document Analysis and Recognition. New York: IEEE Press, 2011: 37-41.
[12] PATHAK D, KR?HENBüHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2536-2544.
[13] CHEN X, DUAN Y, HOUTHOOFT R, et al. Infogan: Interpretable representation learning by information maximizing generative adversarial nets [C]//In Advances in Neural Information Processing Systems. New York: Curran Associates, 2016, 2172-2180.
Handwritten Character Completion Based on Generative Adversarial Networks
LI Nong-qin1, YANG Wei-xin2,3
(1. School of Economics and Management, East China University of Technology, Nanchang Jiangxi 330013, China; 2. School of Electronic and Information Engineering, South China University of Technology, Guangzhou Guangdong 510641, China; 3. Mathematical Institute, University of Oxford, Oxford OX26GG)
Handwritten character completion is an important research topic in image completion. Its challenge comes from the completion of the structural relationships in handwritten characters with unconstrained handwritten styles. To simulate the complicated and difficult situations in the real-world applications, the paper focuses on handwritten pictographic characters with large category, small sample size, multiple unconstrained handwritten styles, and unknown language (i.e., with no access to the class label of each character). Inspired by the progress in natural image completion, the generative adversarial network with global and local consistency was leveraged to achieve handwritten character completion. Under the circumstances of large category and various writing styles, the completion areas of character completion suffer from low-fidelity because of the large number of potential completion candidates. To solve this problem, a two-stage character completion system was proposed: the first stage is coarse-grained completion module ensuring the completeness of the character; the second stage is fine-grained completion module improving the sharpness and details of characters. Extensive experiments were conducted on CASIA-HWDB1.1 to validate the effectiveness of the two-stage system and analyze the completion performance under different writing styles and different conditions of missing area.
generative adversarial network; handwritten character; image completion; structure completion; unsupervised learning
TP 391
10.11996/JG.j.2095-302X.2019050878
A
2095-302X(2019)05-0878-07
2019-04-22;
2019-06-09
李農(nóng)勤(1960-),男,江西廣昌人,副教授,碩士。主要研究方向?yàn)檫\(yùn)作管理等。E-mail:nqli@ecit.en
楊維信(1990-),男,廣東廣州人,研究員,博士后。主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等。E-mail:wxy1290@163.com