魏炳輝 謝暉慧 鄧小鴻
(江西理工大學(xué)應(yīng)用科學(xué)學(xué)院 江西 贛州 341000)
隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,商業(yè)銀行每天需要處理、保存的票據(jù)數(shù)量在迅速增長。票據(jù)的處理程序包括人工錄入、核驗(yàn)及存檔等繁瑣的過程,這給銀行工作人員帶來了沉重的負(fù)擔(dān)。面對(duì)銀行票據(jù)如此嚴(yán)格又繁瑣的處理程序,人工處理的方式工作效率低下,不但滿足不了日益增長的處理需求,而且容易出現(xiàn)人為錯(cuò)誤,給銀行帶來不必要的經(jīng)濟(jì)損失。為了解決上述問題,提高銀行業(yè)的自動(dòng)化技術(shù)水平,票據(jù)自動(dòng)處理技術(shù)的設(shè)計(jì)很快成為相關(guān)領(lǐng)域研究的重要課題。其中手寫漢字識(shí)別是最重要的一個(gè)難關(guān)。票據(jù)上的手寫漢字因其存在形式復(fù)雜多樣,致其識(shí)別率不高,難以達(dá)到商用化標(biāo)準(zhǔn)。因而票據(jù)手寫漢字識(shí)別技術(shù)的研究成果對(duì)商業(yè)銀行系統(tǒng)的運(yùn)作有很大的實(shí)用和參考價(jià)值,同時(shí)取得的研究成果也將對(duì)圖像處理、模式識(shí)別、人工智能等多個(gè)學(xué)科的發(fā)展起到一定的推動(dòng)作用,具有重要的實(shí)用價(jià)值和理論意義。
國外對(duì)手寫字符識(shí)別的研究比較早,目前已有許多實(shí)用化的產(chǎn)品[1-2],一個(gè)完整的手寫字符識(shí)別系統(tǒng)的研究內(nèi)容主要涉及字符分割、特征提取、字符識(shí)別,目前字符分割算法已達(dá)到商用化程度,以后研究的重點(diǎn)在于特征提取與字符識(shí)別。國內(nèi)外在字符串分割與識(shí)別等處理技術(shù)方面都取得了重大進(jìn)展[3-4]。對(duì)于字符目標(biāo)提取,目前的大多數(shù)方法是通過對(duì)字符對(duì)象的亮度或筆畫特征建模來提取字符目標(biāo)。典型的方法有Ye等[5]采用一種綜合亮度特征和局部幾何特征的字符筆畫雙邊緣模型,用于復(fù)雜背景中字符對(duì)象的提取,該筆畫模型融合筆畫寬度約束與筆畫亮度信息,能有效地解決背景突變帶來的問題。季婧婧等[6]利用二次分割的方法濾除票據(jù)上的彩色印章以提高文本內(nèi)容的識(shí)別率。但這些成果都只在于數(shù)字與字母等結(jié)構(gòu)相對(duì)簡單的字符識(shí)別研究,而手寫漢字方面識(shí)別正確率仍然不高。
造成這種情況的原因,是我國手寫漢字結(jié)構(gòu)復(fù)雜,形體豐富多樣導(dǎo)致手寫漢字識(shí)別率達(dá)不到商用化標(biāo)準(zhǔn)。近年來研究較多的是手寫漢字塊的特征提取算法研究。根據(jù)不同的規(guī)則及分類,識(shí)別方法大體可分為三類:模板匹配法、統(tǒng)計(jì)模式識(shí)別方法以及結(jié)構(gòu)模式識(shí)別方法。這些方法主要是基于人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、隱馬爾可夫模型和最近鄰匹配等方法的推廣或幾種方法的集成[7-8]。根據(jù)系統(tǒng)的實(shí)際需要,采用多種信息源、多種特征提取以及多識(shí)別器結(jié)合等多項(xiàng)預(yù)處理技術(shù)[9-10],來提高識(shí)別系統(tǒng)的性能。文獻(xiàn)[10]利用深度學(xué)習(xí)的方法識(shí)別手寫漢字正確識(shí)別率已經(jīng)達(dá)到96.13%,是目前公布的最好結(jié)果。然而該研究所用的手寫漢字都是相對(duì)規(guī)范的、筆畫比較清楚的,另外深度學(xué)習(xí)模型需要大量的訓(xùn)練樣本,訓(xùn)練時(shí)間較長,但在現(xiàn)實(shí)中難以滿足這些條件。不同的人手寫漢字存在很多復(fù)雜的情況,如字符粘連、連筆現(xiàn)象、位置高低不一、大小不一等,提取單個(gè)的手寫漢字,再進(jìn)行識(shí)別的效果受前述影響較大,難以達(dá)到商用化標(biāo)準(zhǔn)。在銀行票據(jù)手寫漢字識(shí)別需求中,存在訓(xùn)練樣本少和實(shí)時(shí)性要求高的特點(diǎn)。
本文利用多模型超圖學(xué)習(xí)理論,對(duì)比較固定的文本塊學(xué)習(xí)其歸屬標(biāo)志。其出發(fā)點(diǎn)有兩個(gè):一是超圖學(xué)習(xí)方法適合小樣本學(xué)習(xí),在訓(xùn)練樣本較少的情況下可以獲得較好的分類性能;二是票據(jù)上有些文本塊的內(nèi)容比較固定,利用超圖學(xué)習(xí)識(shí)別速度較快。超圖學(xué)習(xí)模型在公開的一些標(biāo)準(zhǔn)數(shù)據(jù)集上已經(jīng)體現(xiàn)出一定的優(yōu)勢(shì),而在手寫漢字識(shí)別上還鮮有報(bào)道。
基于超圖的學(xué)習(xí)模型是一種非常重要的直推式半監(jiān)督學(xué)習(xí)方法,在已有的直推式半監(jiān)督學(xué)習(xí)算法中,超圖學(xué)習(xí)方法能獲得較好的性能[11-12]。超圖學(xué)習(xí)目標(biāo)是找到樣本間的高層相關(guān)性,在超圖構(gòu)建時(shí),超邊的權(quán)值需要依據(jù)一定的法則來確定。為了挖掘手寫漢字間的多重相關(guān)性,在普通超圖的模型中融入稀疏表示與成對(duì)約束理論,以及該結(jié)合模型的最優(yōu)解論證方法。下面先介紹構(gòu)建普通超圖,再以手寫文本塊特征向量的解稀疏表示系數(shù)建立稀疏超圖與標(biāo)記樣本的成對(duì)約束模型,最后融合這幾個(gè)模型求解最優(yōu)解。
構(gòu)建普通超圖時(shí),超邊選取有多種方法,對(duì)于給定樣本,一種辦法是距離其最近的若干樣本所組成的集合為一條超邊;第二種辦法是指定一個(gè)閾值,與該樣本的距離值小于設(shè)定閾值的樣本集合為超邊。本文選取前者構(gòu)建超圖學(xué)習(xí)模型。
設(shè)定圖G=(X,E),所有樣本x構(gòu)成樣本集X,和所有的超邊e集合構(gòu)成邊集E,每一條超邊包含了若干個(gè)樣本,邊的權(quán)重是該邊中所有樣本間的距離平均值。設(shè)定矩陣Dv、De和W對(duì)角線元素分別表示相應(yīng)樣本所在的邊數(shù)、超邊中樣本的個(gè)數(shù)和超邊的權(quán)值,設(shè)定鄰接陣H,矩陣元素表示兩樣本間的連接關(guān)系。根據(jù)文獻(xiàn)[12],得到目標(biāo)函數(shù)如下:
(1)
(2)
式中:w=[w1,w2,…,wd]T。x和w表示同一個(gè)數(shù)據(jù)點(diǎn),前一個(gè)是基于空間域,另一個(gè)是基于Σ域。我們的目標(biāo)是求解出基于Σ的稀疏系數(shù),即w包含盡量少的非零元素。根據(jù)文獻(xiàn)[14-15],這個(gè)稀疏解可以通過以下目標(biāo)函數(shù)式求解得到:
(3)
假定數(shù)據(jù)集是采樣于一個(gè)包含k個(gè)獨(dú)立子空間的統(tǒng)一空間里,相當(dāng)于這個(gè)數(shù)據(jù)集包含k類,該目標(biāo)函數(shù)可以獲得塊稀疏解,每一塊中的非零元素對(duì)應(yīng)一個(gè)子空間(關(guān)于塊稀疏求解方法請(qǐng)參閱文獻(xiàn)[14])。相近的樣本稀疏表示也相近,可以被同子空間中相近的點(diǎn)線性表示,稀疏系數(shù)對(duì)應(yīng)著樣本間的相關(guān)性或權(quán)值。
根據(jù)求解后的稀疏表示,構(gòu)建稀疏超圖,樣本相應(yīng)的稀疏表示參數(shù)如果是非零值,表示兩樣本間相關(guān),該參數(shù)表示相關(guān)性的緊密程度,鄰接關(guān)系陣A為:
(4)
式中:|(wi)j|表示wi的第j個(gè)元素的絕對(duì)值。設(shè)定Ls=I-Dv-(1/2)AWDe-1ATDv-(1/2)為基于稀疏表示的拉普拉斯矩陣,稀疏超圖的正則表達(dá)式為:
minfLsfT
(5)
近年來,成對(duì)約束[16-17]在半監(jiān)督學(xué)習(xí)領(lǐng)域引起了廣泛關(guān)注。成對(duì)約束包含兩個(gè)約束:必須連接約束和不能連接約束。利用訓(xùn)練樣本的標(biāo)記信息,必須連接約束表示,標(biāo)記信息相同的樣本或者說同類樣本通過學(xué)習(xí)后,其類別信念必須相近;而不能連接約束規(guī)定不同類的樣本通過學(xué)習(xí)后,其類別信念相距越遠(yuǎn)越好。這里結(jié)合這兩個(gè)約束進(jìn)超圖學(xué)習(xí)模型中以增強(qiáng)學(xué)習(xí)能力。
設(shè)定fi為xi的學(xué)習(xí)之后類別信念,C+表示與xi同類的樣本集,C-表示與xi不同類的樣本集,必須連接約束可以表示為:
(6)
和不能連接約束表示為:
(7)
結(jié)合這兩個(gè)約束為成對(duì)約束,表示為:
minfLpfT
(8)
在普通超圖中融入稀疏表示與成對(duì)約束理論成為一種新的結(jié)合學(xué)習(xí)算法,本文稱之為多模型超圖學(xué)習(xí)模型(CSP),目標(biāo)函數(shù)為:
(9)
(10)
式中:r>1。為解決這個(gè)目標(biāo)函數(shù),我們利用一種迭代求解的方法[18],先初始化β=[1/3,1/3,1/3],固定β利用拉葛日乘法更新f:
(11)
然后固定f,最小化表達(dá)式(11),可以計(jì)算出β為:
(12)
這個(gè)學(xué)習(xí)模型通過兩到三次迭代后收斂。表1給出了算法流程。
表1 算法流程
本文收集68個(gè)志愿者同時(shí)寫64遍“華為技術(shù)有限公司”和“網(wǎng)絡(luò)基礎(chǔ)”的文本塊圖像,圖1為四個(gè)志愿者手寫漢字圖像。本文利用8重交叉驗(yàn)證方法,即在每一次實(shí)驗(yàn)中,把所有標(biāo)記數(shù)據(jù)與非標(biāo)記數(shù)據(jù)分別分成8等份,選取其中1份作為訓(xùn)練樣本集,剩下的7份為測試樣本集。然后重復(fù)8次,每一個(gè)樣本都有機(jī)會(huì)成為訓(xùn)練樣本,取均值作為性能評(píng)估。
圖1 手寫漢字示例
實(shí)驗(yàn)首先對(duì)每個(gè)文本塊進(jìn)行特征分析[19-20]。志愿者在寫文字時(shí)沒有限定寫法,對(duì)字體、字號(hào)、粗細(xì)、字間距、高低等不作要求,完全按照其真實(shí)的寫法。結(jié)構(gòu)特征包含質(zhì)心特征、筆畫特征、筆畫特征點(diǎn)、幾何特征。質(zhì)心特征(2D)是文本筆畫分布的體現(xiàn),將二值圖像轉(zhuǎn)化成點(diǎn)陣形式,再依據(jù)質(zhì)心計(jì)算公式求出水平質(zhì)心與垂直質(zhì)心。筆畫特征(4D)由橫、豎、撇、捺四種基本筆畫構(gòu)成,對(duì)單字分別提取這四種基本筆畫,統(tǒng)計(jì)出各自的數(shù)量。筆畫特征點(diǎn)(4D)主要有端點(diǎn)、折點(diǎn)、歧點(diǎn)與交點(diǎn),端點(diǎn)是筆畫的起點(diǎn)或終點(diǎn),折點(diǎn)是筆畫方向出現(xiàn)顯著變化的點(diǎn),歧點(diǎn)是三叉點(diǎn),交點(diǎn)是四叉點(diǎn)。按序?qū)Χ祱D像進(jìn)行掃描,統(tǒng)計(jì)出各筆畫特征點(diǎn)的個(gè)數(shù)。幾何特征(1D)是計(jì)算包含文本塊的最小矩形的長寬比值。統(tǒng)計(jì)特征包含方向特征、網(wǎng)格特征、Gabor特征等。方向特征(1D)是文本塊的方向角度。網(wǎng)格特征(30D)是把包含文本塊的最小矩形平均分成若干行若干列,每個(gè)單元格中文字像素點(diǎn)的個(gè)數(shù)統(tǒng)計(jì),本文實(shí)驗(yàn)時(shí)分成3行10列共30個(gè)單元格。Gabor特征(30D)是在網(wǎng)格基礎(chǔ)上計(jì)算Gabor變換后的對(duì)應(yīng)能量表示。最后組合這些多種特征為文本塊的72維的特征向量。
為檢測所提出的算法,我們?cè)趯?shí)驗(yàn)中對(duì)比以下幾種方法:k-近鄰分類器(KNN)確定某點(diǎn)中最近鄰的k個(gè)點(diǎn)中,相同標(biāo)記最多的標(biāo)記指定給此點(diǎn),簡單易實(shí)現(xiàn),本文把KNN當(dāng)作基本的方法用來比較;半監(jiān)督區(qū)分性分析(SDA)算法[21]通過求解一個(gè)關(guān)于訓(xùn)練數(shù)據(jù)區(qū)分結(jié)構(gòu)的映射,利用訓(xùn)練數(shù)據(jù),包含未標(biāo)記數(shù)據(jù),構(gòu)建一個(gè)目標(biāo)函數(shù),這個(gè)目標(biāo)函數(shù)加入了由局部幾何流形的離散估計(jì)得出的拉普拉斯圖,這樣能保持?jǐn)?shù)據(jù)內(nèi)部的流形結(jié)構(gòu);自適應(yīng)超圖學(xué)習(xí)算法(AHL)[22]選取多個(gè)領(lǐng)域作為超邊集,然后迭代學(xué)習(xí)每邊的權(quán)值,以此來更新樣本的類別信念c;本文提出的結(jié)合稀疏表示和成對(duì)約束理論成為一種新的超圖學(xué)習(xí)框架(CSP)。
圖2所示為兩類手寫漢字的四個(gè)分類算法的正確率及誤差,可以看出本文提出的算法CSP在正確識(shí)別率上表現(xiàn)最好,與AHL比較接近。但在誤差方面,CSP表現(xiàn)較之于AHL的波動(dòng)較大,說明CSP受噪聲影響較大。而SDA算法表現(xiàn)較為穩(wěn)定,在兩類數(shù)據(jù)集上的正確識(shí)別率相差較小,每次實(shí)驗(yàn)間的誤差更小。KNN只考慮樣本特征間的距離相似性而表現(xiàn)一般,并且受噪聲影響最大。綜合這四類算法表現(xiàn)都不高,主要是志愿者在連續(xù)寫字時(shí),會(huì)隨著心情的變化而有所改變。剛開始時(shí)寫的字比較規(guī)范,到后面是越來越潦草,多筆畫少筆畫都有可能出現(xiàn)。如圖3所示兩位志愿者寫的“網(wǎng)絡(luò)基礎(chǔ)”,是錯(cuò)判率最高的兩類樣本。可以看出,字形與筆畫都有變化,出現(xiàn)連筆現(xiàn)象較多,致使作出錯(cuò)誤的判斷。
圖2 兩類手寫漢字塊的四個(gè)分類算法識(shí)別率
圖3 錯(cuò)判率較高的兩位志愿者手寫漢字示例
本文為提高手寫漢字的識(shí)別率,考慮樣本間更多層的關(guān)系,融合稀疏表示與成對(duì)約束理論成為一個(gè)新的超圖學(xué)習(xí)模型。通過加入稀疏表示,更好地表現(xiàn)同類樣本間的相關(guān)性。通過增加成對(duì)約束,對(duì)有標(biāo)記樣本的類別屬性進(jìn)行更有力的約束,加強(qiáng)同類樣本間未標(biāo)記樣本的樣本類別屬性傳遞。在兩類手寫漢字?jǐn)?shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的新超圖學(xué)習(xí)模型有一定效果,但在現(xiàn)實(shí)中由于手寫體易受外在因素與手寫者的主觀因素的影響,總體識(shí)別率還較低,需要進(jìn)一步的研究提高。