謝裕睿 董建娥
摘? 要: 東巴象形文字是古代納西族創(chuàng)造的文字,是世界文明的瑰寶。針對(duì)東巴象形文字傳播的局限性,提出了基于圖像處理和深度學(xué)習(xí)識(shí)別東巴文字的方法。文章通過構(gòu)造恒等殘差塊和卷積殘差塊來搭建20層ResNet模型,采用隨機(jī)梯度下降算法反向調(diào)整下一輪迭代的卷積層權(quán)值,經(jīng)過訓(xùn)練自動(dòng)得到圖像相關(guān)特征參數(shù)并進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,該算法識(shí)別東巴文字的平均準(zhǔn)確率達(dá)93.58%,具有較高的識(shí)別精度,取得了較好的識(shí)別效果,本研究可為東巴文字的保護(hù)工作提供參考和方法支持。
關(guān)鍵詞: 東巴象形文字; 二值化; relu激活函數(shù); ResNet; 隨機(jī)梯度下降; 特征提取
中圖分類號(hào):TP391????????? 文獻(xiàn)標(biāo)識(shí)碼:A???? 文章編號(hào):1006-8228(2021)01-06-04
Research on Dongba hieroglyph recognition using ResNet network
Xie Yurui, Dong Jian'e
(College of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming, Yunnan 650224, China)
Abstract: Dongba hieroglyph, created by the ancient Naxi minority, is a treasure of world civilization. In view of the limitation of Dongba hieroglyph communication, a method of recognition of Dongba characters based on image processing and deep learning is proposed. In this paper, the 20-layer ResNet model is built by constructing the identity residual block and the convolution residual block, and the convolution layer weight of the next iteration is reversely adjusted by the stochastic gradient descent algorithm. After training, image related characteristic parameters are automatically obtained and identified. The experimental results show that the average accuracy of the algorithm in identifying Dongba characters is 93.58%, which has high recognition accuracy and achieves a good recognition effect. This study can provide reference and method support for the protection of Dongba hieroglyph.
Key words: Dongba hieroglyphic; binarization; relu activation function; ResNet; stochastic gradient descent; feature extraction
0 引言
東巴象形文字在唐朝初期開始出現(xiàn),主要刻在木石上,屬于古老的文字體系。現(xiàn)如今,世界上僅有這一種象形文字仍在使用中,被譽(yù)為文字中的“活化石”。東巴文字是古代納西族社會(huì)歷史發(fā)展的縮影,具有重要的人文價(jià)值[1]。由于時(shí)代變遷、社會(huì)環(huán)境等因素的影響,現(xiàn)在能翻譯東巴經(jīng)典文學(xué)的僅有少數(shù)東巴祭司和研究學(xué)者,東巴文字的傳播存在局限性[2]。因此,研究利用現(xiàn)代信息化技術(shù)識(shí)別東巴文字的方法具有重要的意義。
王海燕、王紅軍等人針對(duì)東巴文字的五個(gè)拓?fù)涮卣鳎讛?shù)、塊數(shù)、三叉點(diǎn)數(shù)、四叉點(diǎn)數(shù)、端點(diǎn)數(shù))進(jìn)行統(tǒng)計(jì),結(jié)合TTF字庫文件進(jìn)行文字的錄入和顯示[3]。徐小力、蔣章雷等人結(jié)合拓?fù)涮卣髋c投影法,對(duì)東巴文字進(jìn)行特征提取[4]。楊玉婷、康良厚等人在離散曲線演化算法的基礎(chǔ)上,提出了適用于東巴文字特征曲線的二次簡化算法[5]。目前在計(jì)算機(jī)識(shí)別領(lǐng)域中,對(duì)東巴文字的研究大多集中在特征提取,針對(duì)不同的數(shù)據(jù)集需要重新構(gòu)造不同特征,不具有通用性。本文基于深度殘差網(wǎng)絡(luò)(Deep Residual Network,ResNet)[6],以圖像處理技術(shù)為主要手段,建立了東巴象形文字識(shí)別系統(tǒng)。
1 數(shù)據(jù)集構(gòu)造及預(yù)處理
1.1 數(shù)據(jù)集構(gòu)造
由于東巴文字沒有形成統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)集,本文使用的圖像數(shù)據(jù)集均來自人工整理,共整理出536個(gè)單字,并進(jìn)行人工標(biāo)注注釋,將其分為家畜、動(dòng)作、植物、稱謂、方位、時(shí)令、用具、形態(tài)、天文、飲食共十大種分類。在經(jīng)過圖像預(yù)處理后,擴(kuò)充得到最終實(shí)驗(yàn)數(shù)據(jù)集,隨機(jī)取其中的80%作為訓(xùn)練集,剩下的20%作為測(cè)試集。部分東巴文字?jǐn)?shù)據(jù)集如圖1所示。
1.2 圖像預(yù)處理
在進(jìn)行圖像采集的過程中,由于紙張表面的磨損程度不同及光照因素的影響,導(dǎo)致采集得到的圖像有部分干擾噪聲,需要對(duì)圖像進(jìn)行二值化預(yù)處理,以減少孤立的黑色像素點(diǎn)。本文使用的方法是最大類間方差法,從最小灰度值遍歷到最大灰度值,計(jì)算圖像的前景和背景的灰度分布均勻方差,尋找最佳分割閾值[7]。經(jīng)過二值化處理后,東巴文字字符與圖片背景對(duì)比明顯,消除原背景的干擾噪聲,更便于后續(xù)深度學(xué)習(xí)的訓(xùn)練,效果如圖2所示。
2 基于ResNet網(wǎng)絡(luò)的東巴文字識(shí)別
2.1 殘差模塊
本文所采用的的深度學(xué)習(xí)算法為殘差神經(jīng)網(wǎng)絡(luò),殘差(即殘差單元)是指包含一個(gè)快捷連接(shortcut connection)的多層網(wǎng)絡(luò),網(wǎng)絡(luò)的優(yōu)化變得更容易[8]。假設(shè)x被作為初始數(shù)據(jù)直接從輸入傳到輸出,H(x)表示預(yù)期輸出,根據(jù)圖3所示的殘差結(jié)構(gòu)可知輸出H(x)=F(x)+x,那么實(shí)際學(xué)習(xí)目標(biāo)F(x)=H(x)-x,F(xiàn)(x)表示殘差映射單元。
殘差模塊可以分為恒等殘差塊與非恒等卷積殘差塊,在做卷積操作時(shí),若輸入數(shù)據(jù)維度與輸出數(shù)據(jù)維度相同,則可以直接使用如圖3所示的恒等殘差塊進(jìn)行學(xué)習(xí)。若輸入與輸出數(shù)據(jù)的維度不匹配時(shí),快捷連接上需要增加一個(gè)1*1的卷積,其作用是進(jìn)行維度匹配,不參與網(wǎng)絡(luò)層數(shù)運(yùn)算。
2.2 relu激活函數(shù)
激活函數(shù)在一個(gè)感知器中起著重要作用,為了增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,使用的激活函數(shù)通常是一個(gè)連續(xù)并可導(dǎo)的非線性函數(shù)。同時(shí)為了使得訓(xùn)練的效率和穩(wěn)定性不受到影響,激活函數(shù)的導(dǎo)函數(shù)的值域要合理地控制在一個(gè)合適的區(qū)間內(nèi),不能過大或過小。常見的激活函數(shù)有:sigmoid函數(shù)、logistic函數(shù)、tanh函數(shù)、relu函數(shù)等[9],本文使用的是relu函數(shù)。
relu(Rectified Linear Unit,修正線性單元)函數(shù),也叫rectifier函數(shù),在當(dāng)前階段的深度學(xué)習(xí)領(lǐng)域使用占比最多[10]。因?yàn)镽eLU函數(shù)的圖像特性導(dǎo)致該激活函數(shù)的收斂速度比其他激活函數(shù)快得多,其在整個(gè)正無窮區(qū)間都是單調(diào)遞增的線性函數(shù),不存在梯度消失的問題。使用relu函數(shù)的網(wǎng)絡(luò)學(xué)習(xí)速度更快,訓(xùn)練的時(shí)間更短,只需要一個(gè)閾值便可以得到激活值,不需要對(duì)輸入進(jìn)行歸一化處理來防止梯度飽和。
2.3 隨機(jī)梯度下降算法
為使神經(jīng)網(wǎng)絡(luò)的誤差盡量小,損失函數(shù)要取到最小值,這個(gè)過程可以近似看作求取損失函數(shù)最優(yōu)解的過程。對(duì)損失函數(shù)最小值的尋找方向一定是其下降幅度最大的方向,即損失函數(shù)初始點(diǎn)位處梯度向量的方向。在訓(xùn)練輪數(shù)進(jìn)行不斷迭代的過程中應(yīng)用隨機(jī)梯度下降法,得出最小化的損失函數(shù)以及訓(xùn)練模型的參數(shù)值,反向調(diào)整卷積核的輸入權(quán)值[11]。隨機(jī)梯度下降算法的相關(guān)計(jì)算公式如式⑴、⑵、⑶所示,公式的參數(shù)意義如表1所示。
[g(?)=j=0n?jj] ⑴
[h(?)=12mi=1m(yi-g?(xi))2] ⑵
[?:=?-η??h(?)]? ⑶
首先給網(wǎng)絡(luò)參數(shù)權(quán)重設(shè)置一個(gè)初始值,讓損失函數(shù)向著最大變化方向更新權(quán)重。學(xué)習(xí)率取值太小會(huì)使得網(wǎng)絡(luò)收斂速度過慢,反之會(huì)導(dǎo)致迭代過快而錯(cuò)過最小值。合適的學(xué)習(xí)率能使得網(wǎng)絡(luò)快速收斂,并穩(wěn)定找到最優(yōu)解。本文經(jīng)過多次實(shí)驗(yàn),最后將學(xué)習(xí)率設(shè)置為0.01。
2.4 ResNet模型構(gòu)建
ResNet可以解決隨著網(wǎng)絡(luò)層數(shù)加深出現(xiàn)的網(wǎng)絡(luò)飽和、識(shí)別率下降的問題,在網(wǎng)絡(luò)達(dá)到最優(yōu)性能時(shí),多余的網(wǎng)絡(luò)層做恒等映射來解決梯度消失問題[12]。本文構(gòu)建ResNet網(wǎng)絡(luò)的層數(shù)為20層,由五大部分組成,結(jié)構(gòu)組成如圖4所示。
⑴ 第一部分將輸入數(shù)據(jù)通過一個(gè)卷積層進(jìn)行特征提取,批量歸一化固定每層訓(xùn)練的均值和方差,從而穩(wěn)定訓(xùn)練,激活函數(shù)通過數(shù)值優(yōu)化學(xué)習(xí)網(wǎng)絡(luò)參數(shù),采用最大池化突出輸入圖像所包含的紋理特征。此時(shí)網(wǎng)絡(luò)層數(shù)為1層,通道數(shù)為64。
⑵ 第二部分是由3個(gè)恒等殘差塊組成,輸入和輸出的維度沒有變化,網(wǎng)絡(luò)層數(shù)為6層,輸出通道數(shù)仍為64。
⑶ 第三部分先經(jīng)過一個(gè)卷積殘差塊進(jìn)行升維的處理,再經(jīng)過兩個(gè)恒等殘差塊,網(wǎng)絡(luò)層數(shù)為6層,輸出通道數(shù)變?yōu)?28。
⑷ 第四部分與第三部分結(jié)構(gòu)相同,升維處理后通道數(shù)為256;
⑸ 第五部分使用全局平均池化,將數(shù)值平均成標(biāo)量,使用局部連接提取的圖像特征將在全連接層中失去原有的三維結(jié)構(gòu),被展開成一維的特征向量輸出。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)參數(shù)
設(shè)置初始學(xué)習(xí)率為0.01,權(quán)重衰減為0.0001、迭代次數(shù)為79次。在訓(xùn)練過程中,使用交叉熵作為損失函數(shù),反向傳播通過隨機(jī)梯度下降算法調(diào)整下一輪迭代的卷積層權(quán)值,保存模型在此過程中性能最好的參數(shù)權(quán)重。
3.2 實(shí)驗(yàn)結(jié)果
通過訓(xùn)練驗(yàn)證,本文構(gòu)建的ResNet模型識(shí)別準(zhǔn)確率曲線如圖5所示,損失函數(shù)曲線如圖6所示。
從圖5可以看出訓(xùn)練剛開始時(shí)識(shí)別準(zhǔn)確率提高的很快,且驗(yàn)證數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集同步上升,隨著迭代次數(shù)的加深,準(zhǔn)確率逐漸趨近于98%。由圖6損失函數(shù)曲線圖可看出訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的損失函數(shù)隨著訓(xùn)練次數(shù)加深在逐漸變小,并逐漸趨近于0,由此可以得出:模型訓(xùn)練結(jié)果較為理想。獲取文字標(biāo)簽,選擇非訓(xùn)練數(shù)據(jù)集中的圖像對(duì)訓(xùn)練完成的模型進(jìn)行隨機(jī)測(cè)試,最終輸出識(shí)別結(jié)果,部分識(shí)別率統(tǒng)計(jì)如表2所示。
據(jù)表2中的隨機(jī)測(cè)試錯(cuò)誤樣本數(shù)可知識(shí)別錯(cuò)誤率較低,本文通過對(duì)536個(gè)單字中的94個(gè)東巴文字(共385個(gè)測(cè)試樣本)進(jìn)行測(cè)試,統(tǒng)計(jì)最終平均識(shí)別準(zhǔn)確率為93.58%,驗(yàn)證了殘差神經(jīng)網(wǎng)絡(luò)的良好性能。
4 結(jié)束語
本文研究了基于深度學(xué)習(xí)的東巴象形文字識(shí)別方法,描述了對(duì)東巴文字印刷體的圖像預(yù)處理、殘差神經(jīng)網(wǎng)絡(luò)識(shí)別的過程。與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,本文使用的算法可以自動(dòng)提取圖像的特征參數(shù),具有更客觀的訓(xùn)練與識(shí)別過程,識(shí)別效果較好。在實(shí)際應(yīng)用中,東巴文字圖像復(fù)雜度高,故本研究需要繼續(xù)擴(kuò)大東巴文字的數(shù)據(jù)庫,在東巴文字不同復(fù)雜組合等方面做進(jìn)一步深入研究。
參考文獻(xiàn)(References):
[1] 胡靜.甲骨文與東巴文指事字比較研究[J].現(xiàn)代語文(語言研究版),2017.3:79-81
[2] 李四玉.納西族非物質(zhì)文化遺產(chǎn)研究綜述[J].文山學(xué)院學(xué)報(bào),2018.31(4):57-63
[3] 王海燕,王紅軍,徐小力.基于拓?fù)涮卣鞯募{西東巴文象形文字輸入方法研究[J].中文信息學(xué)報(bào),2016.30(4):106-109
[4] 徐小力,蔣章雷,吳國新等.基于拓?fù)涮卣骱屯队胺ǖ臇|巴象形文識(shí)別方法研究[J].電子測(cè)量與儀器學(xué)報(bào),2017.31(1):150-154
[5] 楊玉婷,康厚良,廖國富.東巴象形文字特征曲線簡化算法研究[J].圖學(xué)學(xué)報(bào),2019.40(4):697-703
[6] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778
[7] 劉麗霞,李寶文,王陽萍等.改進(jìn)Canny邊緣檢測(cè)的遙感影像分割[J].計(jì)算機(jī)工程與應(yīng)用,2019.55(12):54-58,180
[8] 王曉紅,劉芳,麻祥才.基于深度殘差學(xué)習(xí)的彩色圖像去噪研究[J].包裝工程,2019.40(17):235-242
[9] 安麗娜,蔣銳鵬.基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識(shí)別研究[J].無線互聯(lián)科技,2019.16(20):31-32
[10] Bjarne Grimstad,Henrik Andersson. ReLU networks as surrogate models in mixed-integer linear programs[J]. Computers and Chemical Engineering,2019.131.
[11] 王功鵬,段萌,牛常勇.基于卷積神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度下降算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2018.39(2):441-445,462
[12] 段祎林,馬儇龍,賈端.基于ResNet驗(yàn)證碼混淆風(fēng)格的遷移學(xué)習(xí)方法[J].西安石油大學(xué)學(xué)報(bào)(自然科學(xué)版),2019.34(6):121-125
收稿日期:2020-08-25
基金項(xiàng)目:云南省農(nóng)業(yè)基礎(chǔ)研究聯(lián)合專項(xiàng)青年項(xiàng)目(2018FG001-101);云南省農(nóng)業(yè)基礎(chǔ)研究聯(lián)合專項(xiàng)青年項(xiàng)目(2017FG001-074)
作者簡介:謝裕睿(1998-),女,江蘇淮安人,本科生,主要研究方向:圖像處理。
通訊作者:董建娥(1983-),女,陜西漢中人,碩士,講師,主要研究方向:信息安全、信號(hào)與信息處理。