夏吾吉 色差甲 扎西吉 貢保才讓 華卻才讓
關(guān)鍵詞: 藏文手寫數(shù)字; 數(shù)字識別; CNN; 數(shù)據(jù)預(yù)處理; 樣本訓(xùn)練; 自動識別
中圖分類號: TN711?34 ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)05?0079?04
Tibetan handwritten numeral recognition based on convolutional neural network
XIA Wuji1, 2, SE Chajia1, ZHAXI Ji1, GONGBAO Cairang1, HUAQUE Cairang1
(1. Key Laboratory of Tibetan Information Processing of Ministry of Education, Qinghai Normal University, Xining 810008, China;
2. Normal College for Nationalities, Qinghai Normal University, Xining 810008, China)
Abstract: The Tibetan information processing technology is potentially needed for Tibetan processing and Tibetan numeral automatic recognition increasingly, and has become one of the important research topics in Tibet. Tibetan handwritten numeral data is collected and constructed, which is 15 000 samples in total, in which 13 000 samples are taken as the training data, and 2 000 samples are taken as the test data and preprocessed. The convolutional neural network (CNN) model is used to train the Tibetan handwritten numeral samples. The experimental results show that the recognition correct rate of test set can reach up to 97.85%.
Keywords: Tibetan handwritten numeral; numeral recognition; convolutional neural network; data preprocessing; sample training; automatic recognition
藏文作為我國藏族地區(qū)、不丹、尼泊爾和其他藏傳佛教傳播地區(qū)廣泛使用的語言文字,屬于世界上公認(rèn)的復(fù)雜拼音文字之一[1]。經(jīng)過1 400多年的演變和發(fā)展,藏文形成了嚴(yán)格而完整的拼寫規(guī)則體系,是由4個元音字母和30個輔音字母從上到下、從左到右疊加而形成的二維結(jié)構(gòu)。
藏文中的數(shù)字通常有兩種表達(dá)方式[2]:第一種是阿拉伯?dāng)?shù)字,比如“0,1,2,…,9”;第二種是藏文數(shù)字,比如“?、?…?”。其中,阿拉伯?dāng)?shù)字是全世界公用的數(shù)字,其手寫識別是多年來的研究熱點,并且手寫阿拉伯?dāng)?shù)字技術(shù)在各個行業(yè)領(lǐng)域得到了廣泛的應(yīng)用,包括支票數(shù)據(jù)處理、自動識別郵政編碼、稅務(wù)智能系統(tǒng)和商貿(mào)往來等。經(jīng)過數(shù)十年的研究和發(fā)展,研究者提出了很多有效的手寫阿拉伯?dāng)?shù)字識別方法[3?9],并得到了較好的效果。以計算機科學(xué)技術(shù)為核心的網(wǎng)絡(luò)信息化時代,隨著藏區(qū)的網(wǎng)絡(luò)信息化和藏文信息量的急劇增長,對藏文字處理和藏文數(shù)字識別等藏文信息處理技術(shù)的潛在需求也越來越高,目前已經(jīng)成為藏區(qū)重要的研究課題之一。同樣藏文手寫數(shù)字也廣泛應(yīng)用于藏文信息化的各個行業(yè)領(lǐng)域,比如,藏文郵政編碼系統(tǒng)和藏文支票數(shù)據(jù)處理等,這些應(yīng)用場合對藏文手寫數(shù)字識別的精確度有很高的要求,并且其識別直接關(guān)系到藏區(qū)經(jīng)濟、藏區(qū)信息化建設(shè)和民族交流等問題。由于不同手寫者和手寫數(shù)字的隨意性,會加大識別的難度,導(dǎo)致影響識別效果。因此,藏文手寫數(shù)字識別問題是藏文信息處理和藏區(qū)信息化建設(shè)等領(lǐng)域的關(guān)鍵問題。目前,在信息界的相關(guān)研究者未對藏文手寫數(shù)字自動識別進(jìn)行研究和討論。因此,本文將手寫阿拉伯?dāng)?shù)字識別研究作為參考,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型對藏文手寫數(shù)字識別進(jìn)行研究。
手寫數(shù)據(jù)樣本采集和構(gòu)建是數(shù)字識別中最重要的工作之一,為此,隨機選擇了50位懂藏文的人,采集每個人“?”至“?”的藏文手寫數(shù)字樣本,每個人將每一個藏文數(shù)字均手寫30次,共得到15 000個樣本。由于不同樣本圖像的字體、字號和所在區(qū)域是有差別的,所以為了確保數(shù)字圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)的形式具有一致性,對所有樣本數(shù)據(jù)做了如下預(yù)處理:
1) 繪制像素為2 480×3 508、行數(shù)為15、列數(shù)為10的表格,共有150個格子,為便于圖像的切割處理,每個格子的像素固定為200×200。然后用A4紙張打印,每人均手寫兩張(300個樣本),50人共得到15 000個樣本。
2) 將所有樣本用掃描儀進(jìn)行掃描,得到藏文手寫數(shù)字圖像。
3) 將得到的每張藏文手寫數(shù)字圖像,通過像素計算切割成像素為200×200的150個小圖片。
4) 將得到的藏文數(shù)字圖像用最大類間方差法(OTSU)進(jìn)行二值化,獲得藏文手寫數(shù)字二值化圖像,在二值化過程中,把藏文數(shù)字圖像各像素點的值由(0,255)灰度圖像處理成二值(0,1)。
5) 為了便于后續(xù)識別,將所有的樣本歸一化為相同的像素點陣圖,本文選擇的形式為28×28。
數(shù)據(jù)處理見圖1。
2.1 ?模 ?型
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)通過局部感受野、下采樣和權(quán)值共享三個特性來實現(xiàn)位移識別、縮放和扭曲等不變性[10]。設(shè)計一個CNN時,單層CNN由卷積層(Convolutional)、下采樣層(Pooling)、Relu(Rectified Linear Units)層、全連接層等四個層構(gòu)成。其中,卷積是圖像識別中一種常用算法,通過卷積運算可以使樣本信息的特征增強,并降低噪聲數(shù)據(jù)[11]。同一個特征圖片中的所有神經(jīng)元都用一個卷積核來共享,其卷積核被認(rèn)為是訓(xùn)練參數(shù)或者權(quán)重。用卷積核計算得出的值可以代表一個特征,從圖片中局部感受野能夠發(fā)現(xiàn)一些局部特征。一般卷積核的大小、數(shù)目以及滑動步長等設(shè)置不同將會影響局部的特征學(xué)習(xí)效果。下采樣也稱之為二次采樣(Subsampling),使用圖片局部信息的相關(guān)性對圖片進(jìn)行子抽樣,其目的就是降低數(shù)據(jù)的計算量,同時存留特征明顯的信息。在CNN中這種操作稱為池化(Pooling)操作,常見的有最大池化(Max Pooling)和平均池化(Mean Pooling)。池化層具有將特征進(jìn)行聚合和防止模型過擬合等作用。Relu是一個常見的激活函數(shù),其具有卷積層提取特征進(jìn)行非線性轉(zhuǎn)換的作用。目前其他常見的激活函數(shù)還有Sigmoid,Softmax,tanh等。Relu在訓(xùn)練梯度下降時可獲得更快的收斂速度[12],這也是CNN中使用Relu的原因之一。全連接層使用卷積層和池化層等多層學(xué)習(xí)后將結(jié)果映射到一個固定大小的向量,為了處理后續(xù)待解決的任務(wù)(比如分類任務(wù)等),一般在全連接層中也會使用激活函數(shù),針對解決問題的不同,使用的激活函數(shù)也不同,比如多類分類時使用Softmax函數(shù),而二類分類時一般使用Sigmoid函數(shù)。
圖2中每個卷積操作和池化操作過程中使用的[Wi(i=1,2,3)]和[Mj(j=1,2,4)]都是固定的權(quán)重以及固定的窗口,其窗口大小與輸入的大小和窗口移動步長等有關(guān)。同時,在模型訓(xùn)練過程中,必須確定一個目標(biāo)函數(shù)和參數(shù)更新方法。其中,常見的目標(biāo)函數(shù)有交叉熵、互信息和對比估計噪聲法(Noise?Contrastive Estimation,NCE)[13]等,本實驗中目標(biāo)函數(shù)將使用交叉熵(Cross Entropy With Softmax)。由于藏文數(shù)字識別是多類問題,所以目標(biāo)函數(shù)中應(yīng)用Softmax函數(shù)。其公式如下:
[Hy,y=1Ni=1NyilnSoftmaxyi+1-yiln1-Softmaxyi] (1)
[Softmaxyi=expyiji=110expyij] (2)
式中:[Hy,y]為目標(biāo)函數(shù),即用交叉熵計算損失函數(shù);[yi]是第[i]個數(shù)據(jù)的真實標(biāo)簽;[yi]是第[i]個數(shù)據(jù)模型得出的標(biāo)簽;[N]是訓(xùn)練樣本個數(shù);[yij]是第[i]個樣本向量的第[j]個位置上的值。參數(shù)更新法主要用于梯度下降法,而常見的梯度下降法有隨機梯度下降法(Stochastic Gradient Descent,SGD)、批量梯度下降法(Batch Gradient Descent,BGD)和自適應(yīng)矩估計法(Adaptive Moment Estimation,Adam)等。本文使用Adam法,其主要優(yōu)點有動態(tài)調(diào)整學(xué)習(xí)率,對偏值進(jìn)行校對后,每次迭代時學(xué)習(xí)率控制在一定的范圍內(nèi),使得參數(shù)比較平穩(wěn)。
2.2 ?基本框架
基于卷積神經(jīng)網(wǎng)絡(luò)的藏文手寫數(shù)字識別系統(tǒng)主要利用三層卷積層、三層池化層以及一層全連接層的卷積神經(jīng)網(wǎng)絡(luò),在手寫數(shù)字識別領(lǐng)域有良好的識別性能。整個識別系統(tǒng)包括從采集手寫圖像到得出識別結(jié)果的過程。具體框架如圖3所示。
實驗采用藏文手寫數(shù)字共15 000個樣本,訓(xùn)練集規(guī)模為13 000個樣本,測試集規(guī)模為2 000個樣本。為了客觀評價本文所提基于卷積神經(jīng)網(wǎng)絡(luò)模型藏文手寫數(shù)字識別方法的有效性,通過正確率指標(biāo)對藏文手寫數(shù)字識別的結(jié)果進(jìn)行評價。經(jīng)測試,十種藏文手寫數(shù)字的平均自動識別準(zhǔn)確率達(dá)到97.85%,“?”至“?”每一種藏文手寫數(shù)字具體識別結(jié)果如表1所示。
通過實驗結(jié)果得出,由于50個人的書寫方式不同,寫出的藏文數(shù)字也各不相同。因此,本文對每一個數(shù)字進(jìn)行了分析,分析數(shù)字的范圍是“?” 到“?”這十類數(shù)據(jù),每類提取200個,每個數(shù)字與其他數(shù)字進(jìn)行對比分析后得出數(shù)字“?”,“ ?”和“ ?”的識別率最高均為99.5%,錯誤數(shù)僅為1;數(shù)字“?”和“?”的識別率相對較低,分別為95.5%和94.5%。由表1可知,“?”和“?”相互出錯率最高,原因是在藏文數(shù)字中“?”和“?”的字形相近,且手寫時由于手寫者和手寫數(shù)字隨意性的不同,導(dǎo)致“?”和“?”容易混淆,加大了識別難度。其余數(shù)字因手寫時超出規(guī)定表格,切分時將數(shù)字圖像的一些細(xì)節(jié)信息丟失,從而導(dǎo)致少數(shù)識別錯誤。
隨著深度學(xué)習(xí)理論和技術(shù)在各個研究領(lǐng)域中獲得突破性成績,在圖像識別和理解領(lǐng)域,深度學(xué)習(xí)同樣取得了不錯的效果,其識別正確率甚至超過了人工的識別結(jié)果,然而藏文手寫識別的研究工作相對空缺。為此,本文初步完成了基于神經(jīng)網(wǎng)絡(luò)的藏文手寫數(shù)字識別工作,在構(gòu)建的數(shù)據(jù)樣本集上取得了97.85%的平均正確率。
由于藏文手寫數(shù)字樣本數(shù)據(jù)較為匱乏,加之采集到的數(shù)據(jù)中手寫字體的格式(粗細(xì)、大小)、手寫方式等存在差異,導(dǎo)致實驗結(jié)果相對于阿拉伯手寫數(shù)字的識別準(zhǔn)確率較低。在后續(xù)的工作中,將繼續(xù)擴大手寫數(shù)據(jù)規(guī)模,提高準(zhǔn)確率,并在此基礎(chǔ)上嘗試藏文手寫字符的識別工作。
注:本文通訊作者為華卻才讓。
參考文獻(xiàn)
[1] 華卻才讓.基于樹到串藏語機器翻譯若干關(guān)鍵技術(shù)研究[D].西安:陜西師范大學(xué),2014.
HUAQUE Cairang. Research on some key techniques of Tibet machine translation based on tree to string [D]. Xian: Shaanxi Normal University, 2014.
[2] 孫萌,華卻才讓,劉凱,等.藏文數(shù)詞識別與翻譯[J].北京大學(xué)學(xué)報(自然科學(xué)版),2013,49(1):75?80.
SUN Meng, HUAQUE Cairang, LIU Kai, et al. Tibetan number identification and translation [J]. Journal of Peking University (natural science edition), 2013, 49(1): 75?80.
[3] 李文趨.SVM在手寫數(shù)字識別中的應(yīng)用[J].泉州師范學(xué)院學(xué)報(自然科學(xué)),2010,28(4):18?21.
LI Wenqu. Application of SVM in handwritten numeral recognition [J]. Journal of Quanzhou Normal University (natural science), 2010, 28(4): 18?21.
[4] 張黎,劉爭鳴,唐軍.基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別方法的實現(xiàn)[J].自動化與儀器儀表,2015(6):169?170.
ZHANG Li, LIU Zhengming, TANG Jun. Realization of handwritten numeral recognition based on BP neural network [J]. Automation and instrumentation, 2015(6): 169?170.
[5] 焦微微,巴力登,閆斌.手寫數(shù)字識別方法研究[J].軟件導(dǎo)刊,2012,11(12):172?174.
JIAO Weiwei, BA Lideng, YAN Bin. Handwritten digital re?cognition method [J]. Software guide, 2012, 11(12): 172?174.
[6] 杜梅,趙懷慈.手寫數(shù)字識別的研究[J].計算機工程與設(shè)計,2010,31(15):3464?3467.
DU Mei, ZHAO Huaici. Research on handwritten digit character recognition [J]. Computer engineering and design, 2010, 31(15): 3464?3467.
[7] 付慶玲,韓力群.基于人工神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別[J].北京工商大學(xué)學(xué)報(自然科學(xué)版),2004,22(3):43?45.
FU Qingling, HAN Liqun. Recognition for handwritten numbers based on Artificial neuron network [J]. Journal of Beijing Technology and Business University (natural science edition), 2004, 22(3): 43?45.
[8] 劉東澤,蔡建立.基于神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別[J].福建電腦,2009(11):83?84.
LIU Dongze, CAI Jianli. Handwritten numeral recognition based on neural network [J]. Fujian computer, 2009(11): 83?84.
[9] 王璇,薛瑞.基于BP神經(jīng)網(wǎng)絡(luò)的手寫數(shù)字識別的算法[J].自動化技術(shù)與應(yīng)用,2014,33(5):5?10.
WANG Xuan, XUE Rui. The algorithm of handwritten digit recognition based on BP neural network [J]. Automation technology and applications, 2014, 33(5): 5?10.
[10] 高學(xué),王有旺.基于CNN和隨機彈性形變的相似手寫漢字識別[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2012,32(5):538?544.
GAO Xue, WANG Youwang. Recognition of similar handwritten Chinese characters based on CNN and random elastic deformation [J]. Journal of South China University of Technology (natural science edition), 2012, 32(5): 538?544.
[11] 匡青.基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像分類研究[J].軟件導(dǎo)刊,2017,16(2):178?182.
KUANG Qing. Commodity image classification based on convolutional neural network [J]. Software guide, 2017, 16(2): 178?182.
[12] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines [C]// Proceedings of the 27th International Conference on Machine Learning. Haifa: ACM, 2010: 807?814.
[13] MNIH A, KAVUKCUOGLU K. Learning word embeddings efficiently with noise?contrastive estimation [C]// Proceedings of the 26th International Conference on Neural Information Proces?sing Systems. Lake Tahoe: ACM, 2013: 2265?2273.