楊秀璋,周既松,武 帥,2,陳登建,劉建義,宋籍文
(1.貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴州 貴陽(yáng) 550025;2.漣水縣財(cái)政局;3.貴州高速公路集團(tuán)有限公司)
隨著文本信息數(shù)字化程度不斷提升,模式識(shí)別技術(shù)被廣泛運(yùn)用于檔案信息化應(yīng)用中[1]。部分檔案由于以手寫體為主,需要對(duì)其進(jìn)行手寫體字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱OCR),以獲取較為準(zhǔn)確的文字信息[2]。整個(gè)過(guò)程主要包括圖像預(yù)處理、特征提取和分類器分類,其中特征提取最為關(guān)鍵。傳統(tǒng)手寫體字符識(shí)別方法在提取目標(biāo)書寫體圖像信息時(shí),能較好地提取手寫體空間、字體輪廓信息,但對(duì)復(fù)雜環(huán)境下手寫體圖像的處理存在準(zhǔn)確率低和識(shí)別效果不佳的現(xiàn)象[3]。此外,當(dāng)前少數(shù)民族古文字研究集中于藝術(shù)考究和字形釋義,缺乏利用深度學(xué)習(xí)技術(shù)自動(dòng)化識(shí)別文字,且古文字主要通過(guò)古籍、雕刻、木刻或碑刻存在,存在大量噪聲,數(shù)字化讀取困難[3]。針對(duì)上述情況,本文提出一種改進(jìn)IE-AlexNet 神經(jīng)網(wǎng)絡(luò)的少數(shù)民族文字圖像識(shí)別方法,一定程度上提升了對(duì)復(fù)雜環(huán)境下手寫體圖像的關(guān)鍵特征提取效果,提高模型整體分類效果。該方法有較好的魯棒性和準(zhǔn)確性。
現(xiàn)階段,手寫體字符識(shí)別的研究主要集中于對(duì)中文和英文手寫體文字的識(shí)別,但針對(duì)少數(shù)民族古文字手寫體識(shí)別研究相對(duì)較少。傳統(tǒng)手寫體字符識(shí)別方法在識(shí)別少數(shù)民族古文字手寫體時(shí),由于其手寫體字型變化,數(shù)字化識(shí)別效果欠佳。因此,如何運(yùn)用計(jì)算機(jī)視覺(jué)技術(shù)和檔案數(shù)字化方法構(gòu)建一個(gè)能夠智能化準(zhǔn)確識(shí)別少數(shù)民族古文字的模型,一定程度上對(duì)提高少數(shù)民族檔案數(shù)字化建設(shè)起到積極作用,具有較高的研究意義,是研究者們迫切需要解決的問(wèn)題。
熱依曼·吐?tīng)栠d等[4]融合高斯模型和隱馬爾可夫模型,設(shè)計(jì)了一種維吾爾語(yǔ)聯(lián)機(jī)手寫體識(shí)別系統(tǒng),利用高斯模型模擬維吾爾語(yǔ)整詞的靜態(tài)特征和隱馬爾科夫模型模擬書寫筆跡的動(dòng)態(tài)特征。王曉娟等[5]針對(duì)數(shù)字手寫體圖像區(qū)域進(jìn)行歸一化處理,提出一種基于BP神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別方法。楊秀璋等[6]針對(duì)水族古文字傳承以刺繡、碑刻、木刻等為主,文字清晰度不高,數(shù)字化讀取困難的現(xiàn)象,提出一種基于自適應(yīng)圖像增強(qiáng)和區(qū)域檢測(cè)的水族文字提取與分割算法。姜文等[7]針對(duì)手寫體維吾爾文字字符識(shí)別過(guò)程中的特征提取環(huán)節(jié),提出一種基于方向線素特征的手寫體維吾爾文單字字符筆跡特征的KNN分類識(shí)別算法。楊秀璋等[8]考慮到古文字的字形變化特點(diǎn),提出一種改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的阿拉伯文字圖像識(shí)別方法。
此外,深度學(xué)習(xí)技術(shù)的不斷成熟,為手寫體字符識(shí)別提供了新的解決思路。本文在AlexNet 神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上融合圖像增強(qiáng)技術(shù),一定程度上提升了對(duì)阿拉伯文字手寫體關(guān)鍵特征的提取效果,提高了模型整體分類效果。將本文方法運(yùn)用于手寫體阿拉伯文字的識(shí)別,可以一定程度上拓寬手寫體文字識(shí)別的研究范疇,同時(shí)也為本研究團(tuán)隊(duì)后期對(duì)水族文字識(shí)別提供理論基礎(chǔ),給少數(shù)民族數(shù)字化檔案建設(shè)提供實(shí)際應(yīng)用的可能性,這是我們研究的意義所在。
本文提出一種融合自適應(yīng)圖像增強(qiáng)和深度學(xué)習(xí)的IE-AlexNet(Image Enhancement AlexNet)模型,并對(duì)復(fù)雜環(huán)境下的阿拉伯文字圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),模型設(shè)計(jì)的研究?jī)?nèi)容如下。
本文設(shè)計(jì)并實(shí)現(xiàn)了IE-AlexNet 模型,其總體框架如圖1所示。具體實(shí)現(xiàn)步驟如下。
圖1 復(fù)雜環(huán)境下少數(shù)民族文字圖像識(shí)別的總體框架
⑴模擬現(xiàn)實(shí)場(chǎng)景采集并構(gòu)造阿拉伯文字圖像數(shù)據(jù)集,并將其隨機(jī)劃分為訓(xùn)練集和測(cè)試集。
⑵計(jì)算場(chǎng)景系數(shù),構(gòu)建自適應(yīng)圖像增強(qiáng)得算法實(shí)現(xiàn)去噪,增強(qiáng)圖像質(zhì)量,共包括形態(tài)學(xué)去噪(閉運(yùn)算)、灰度伽馬變換、灰度對(duì)數(shù)變換、直方圖均衡化、ACE算法去霧和暗通道先驗(yàn)去霧六種算法。
⑶對(duì)所有圖像進(jìn)行預(yù)處理,包括圖像向量表征、標(biāo)準(zhǔn)化處理、形狀修改和編碼轉(zhuǎn)換等。
⑷構(gòu)建IE-AlexNet模型該模型包括5層卷積層、3層池化層和3個(gè)全連接層,并優(yōu)化模型超參數(shù)。
⑸通過(guò)構(gòu)建Softmax 分類器實(shí)現(xiàn)阿拉伯文字圖像識(shí)別,對(duì)比少數(shù)民族文字識(shí)別的性能。
AlexNet 神經(jīng)網(wǎng)絡(luò)是由Alex Krizhevsky 等人[9]于2012 年提出的首個(gè)應(yīng)用于圖像分類的深層卷積神經(jīng)網(wǎng)絡(luò),并在當(dāng)年舉辦的ImageNet Large Scale Visual Recognition Competition(簡(jiǎn)稱ILSVC)比賽中以15.3%的top-5測(cè)試錯(cuò)誤率獲得了分類任務(wù)的冠軍,其網(wǎng)絡(luò)結(jié)構(gòu)詳如圖2所示。該網(wǎng)絡(luò)由五個(gè)卷積層和三個(gè)全連接層組成。卷積層用于提取特征,池化層用于實(shí)現(xiàn)特征降維,激活函數(shù)用于獲取非線性特征,全連接層起到分類作用。輸入圖像經(jīng)過(guò)卷積層特征提取和全連接層分類操作之后,輸入到具有1000 個(gè)節(jié)點(diǎn)的Softmax分類器中實(shí)現(xiàn)圖像分類。
圖2 AlexNet模型結(jié)構(gòu)
在真實(shí)場(chǎng)景中,少數(shù)民族文字圖像通常存在于古籍、木雕或碑刻中,因此存在大量的噪聲,導(dǎo)致傳統(tǒng)圖像識(shí)別方法效果不理性。本文結(jié)合真實(shí)場(chǎng)景噪聲特點(diǎn)(含文字噪聲、全局噪聲、年代噪聲、亮度噪聲和光照影響),設(shè)計(jì)了一種自適應(yīng)圖像增強(qiáng)的算法。該算法通過(guò)計(jì)算場(chǎng)景系數(shù),針對(duì)不同場(chǎng)景構(gòu)建對(duì)應(yīng)的閾值,再開(kāi)展相應(yīng)的圖像增強(qiáng)處理,包括形態(tài)學(xué)、灰度伽馬變換、灰度對(duì)數(shù)變換、直方圖均衡化、自動(dòng)色彩均衡(Automatic Color Equalization,簡(jiǎn)稱ACE)算法[10]和暗通道先驗(yàn)(Dark Channel Prior,簡(jiǎn)稱DCP)去霧算法[11]。
圖3詳細(xì)展示了四種場(chǎng)景下的阿拉伯文字圖像處理效果。圖3(a)存在字內(nèi)噪聲,圖3(e)利用形態(tài)學(xué)閉運(yùn)算有效去噪;圖3(b)存在全局噪聲,通常存在于雕刻和木刻的掃描圖像,圖3(f)利用ACE 算法有效消除中心文字的內(nèi)部噪聲;圖3(c)屬于年代噪聲,年代久遠(yuǎn)的古籍會(huì)導(dǎo)致字體不清晰,圖3(g)是圖像增強(qiáng)方法消除噪聲的效果;圖3(d)是亮度或光線、過(guò)曝導(dǎo)致的噪聲,圖3(h)利用暗通道先驗(yàn)去霧處理的效果圖。
圖3 復(fù)雜環(huán)境下自適應(yīng)圖像增強(qiáng)算法處理的效果圖
本文進(jìn)行了詳細(xì)的對(duì)比分析,利用Keras和Sklearn構(gòu)建模型。實(shí)驗(yàn)環(huán)境為Windows 10 操作系統(tǒng),處理器為Inter(R) Core i7-8700K,GPU 為GTX 1080Ti,內(nèi)存為64GB。
數(shù)據(jù)集是來(lái)自Kaggle 的阿拉伯字母手寫圖像,并結(jié)合真實(shí)場(chǎng)景模擬噪聲,最終生成如表1 所示的數(shù)據(jù)集。其中,訓(xùn)練集共計(jì)13440幅字符圖像,測(cè)試集共計(jì)3360 幅字符圖像,涉及28 類阿拉伯文字。同時(shí),按照10%的比例進(jìn)行噪聲混淆。每幅圖像大小為32×32,并經(jīng)過(guò)圖像預(yù)處理修改為統(tǒng)一大小。
表1 阿拉伯手寫文字?jǐn)?shù)據(jù)集
為更好地評(píng)估IE-AlexNet 模型,本文所有實(shí)驗(yàn)在相同的數(shù)據(jù)集及場(chǎng)景下實(shí)現(xiàn)。此外,為避免某些異常實(shí)驗(yàn)結(jié)果的影響,本文最終的實(shí)驗(yàn)結(jié)果為十次結(jié)果的平均值。
構(gòu)建的AlexNet 模型的超參數(shù)如表2 所示,包括層類、核尺寸、通道數(shù)和函數(shù)。AlexNet 共包括5 個(gè)卷積層、3 個(gè)池化層和3 個(gè)全連接層,并且本文添加BN和Dropout函數(shù),防止出現(xiàn)過(guò)擬合現(xiàn)象。
表2 模型超參數(shù)
實(shí)驗(yàn)評(píng)估指標(biāo)為精確率(Precision)、召回率(Recall)、F1值(F1-score)和準(zhǔn)確率(Accuracy),它們是經(jīng)典的分類評(píng)估指標(biāo),其計(jì)算過(guò)程如公式⑴~公式⑷所示。
本文與經(jīng)典機(jī)器學(xué)習(xí)、現(xiàn)有深度學(xué)習(xí)進(jìn)行了詳細(xì)的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。其中,本文IEAlexNet 模型的精確率為0.9564,召回率為0.9554,F(xiàn)1值為0.9559,準(zhǔn)確率為0.9553,均優(yōu)于現(xiàn)有方法。
表3 各模型少數(shù)民族文字識(shí)別實(shí)驗(yàn)結(jié)果對(duì)比
此外,本文方法的F1值比機(jī)器學(xué)習(xí)中表現(xiàn)最好的SVM 模型提升27.32%,比單層CNN 和雙層CNN 模型提升3.49%和3.13%,比TextCNN 模型提升0.87%,比文獻(xiàn)[8]方法提升0.29%。該實(shí)驗(yàn)充分說(shuō)明本文構(gòu)建的IE-AlexNet 能較好地識(shí)別阿拉伯文字圖像,并應(yīng)用于復(fù)雜場(chǎng)景下的少數(shù)民族古文字識(shí)別領(lǐng)域。
同時(shí),本文對(duì)比了28 種阿拉伯字母的識(shí)別效果,其對(duì)應(yīng)字母、類別和F1值如表4 所示。表現(xiàn)最好的阿拉伯文字包括第0 類、第1 類、第4 類、第11 類和第22類,其F1值分別為0.9917、0.9916、0.9876、0.9789、0.9746,這些文字相對(duì)于其他文字特點(diǎn)更明顯,更容易被IE-AlexNet 識(shí)別。而具有相似的文字識(shí)別效果相對(duì)較差,比如第10類和第9類,第7類和第8類,第2類和第3類等。
表4 IE-AlexNet模型識(shí)別各類阿拉伯文字的實(shí)驗(yàn)結(jié)果
圖4 展示了28 種阿拉伯字母的識(shí)別結(jié)果對(duì)應(yīng)的混淆矩陣,藍(lán)色對(duì)角線表示正確識(shí)別類別,紅色區(qū)域是誤報(bào)或漏報(bào)數(shù)量。
圖4 IE-AlexNet模型識(shí)別結(jié)果的混淆矩陣
為突出本文模型自適應(yīng)圖像增強(qiáng)的效果以及性能,本文分別進(jìn)行了對(duì)比實(shí)驗(yàn)。表5 展示了五種經(jīng)典模型是否使用圖像增強(qiáng)優(yōu)化的前后效果。其中,使用自適應(yīng)圖像增強(qiáng)算法后,KNN 模型的F1值提升14.46%,RF 模型的F1值提升13.59%,單層CNN 模型的F1值提升11.97%,文獻(xiàn)[8]模型的F1值提升3.80%,本文AlexNet 模型的F1值提升3.49%。該實(shí)驗(yàn)充分說(shuō)明本文方法能有效實(shí)現(xiàn)不同場(chǎng)景的圖像增強(qiáng),去除少數(shù)民族文字圖像的噪聲,具有更強(qiáng)的魯棒性和準(zhǔn)確率,并能有效識(shí)別阿拉伯文字或其他少數(shù)民族古文字,具有一定的應(yīng)用前景和實(shí)用價(jià)值。
表5 各模型遷移場(chǎng)景的情感分析實(shí)驗(yàn)結(jié)果對(duì)比
最后,本文對(duì)比了深度學(xué)習(xí)模型的訓(xùn)練誤差隨Epoch 下降曲線,如圖5 所示。其中,IE-AlexNet 模型能以更快的速度下降并擬合,最終趨于0.1822 為主。相較于其他模型,本文針對(duì)該數(shù)據(jù)集的圖像識(shí)別效果更佳,性能更好。
圖5 實(shí)驗(yàn)誤差變化曲線
傳統(tǒng)圖像識(shí)別方法較難識(shí)別少數(shù)民族文字,而且古文字主要以古籍、雕刻、木刻或碑刻而存在,利用深度學(xué)習(xí)技術(shù)自動(dòng)化識(shí)別,存在大量噪聲,數(shù)字化讀取困難。
本文提出一種融合自適應(yīng)圖像增強(qiáng)的深度學(xué)習(xí)IE-AlexNet 模型,旨在識(shí)別復(fù)雜場(chǎng)景下的阿拉伯文字圖像。實(shí)驗(yàn)結(jié)果表明,本文方法能有效識(shí)別阿拉伯文字圖像,并去除噪聲,其F1值為0.9559,準(zhǔn)確率為0.9553,IE-AlexNet 的F1值比機(jī)器學(xué)習(xí)中表現(xiàn)最好的SVM 模型提升27.32%,比單層CNN 和雙層CNN 模型提升3.49%和3.13%,比TextCNN 模型提升0.87%,比文獻(xiàn)[8]方法提升0.29%。
該實(shí)驗(yàn)充分說(shuō)明了本文構(gòu)建的IE-AlexNet能較好地識(shí)別阿拉伯文字圖像,其應(yīng)用于復(fù)雜場(chǎng)景下的少數(shù)民族古文字識(shí)別領(lǐng)域,有較好的魯棒性和準(zhǔn)確率,有一定的應(yīng)用前景和實(shí)用價(jià)值。