国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HOG特征和MLP分類器的印刷體維吾爾文識別方法

2017-06-27 08:14:20于麗亞森艾則孜
微型電腦應(yīng)用 2017年6期
關(guān)鍵詞:維吾爾文印刷體直方圖

于麗, 亞森·艾則孜

(新疆警察學(xué)院 信息安全工程系, 烏魯木齊 830011)

基于HOG特征和MLP分類器的印刷體維吾爾文識別方法

于麗, 亞森·艾則孜*

(新疆警察學(xué)院 信息安全工程系, 烏魯木齊 830011)

針對印刷體維吾爾文的有效識別問題,提出了一種基于梯度方向直方圖(HOG)特征和多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)的印刷體維吾爾文識別方案。對維吾爾文圖像進(jìn)行預(yù)處理,獲得去除噪聲后的二值化圖像。利用水平投影積分對文本執(zhí)行行切分,利用垂直投影積分方法執(zhí)行單詞切分和字母切分,獲得獨立的字母?;贖OG方法提取字母的特征。通過訓(xùn)練好的MLP神經(jīng)網(wǎng)絡(luò)分類器,根據(jù)提取的HOG特征對字母進(jìn)行識別。實驗結(jié)果表明,提出的方法能夠精確地從圖像中識別出維吾爾文字母。

印刷體維吾爾文; 識別; 字母切分; 梯度方向直方圖; 多層感知器

0 引言

印刷體文本的光學(xué)字符識別(Optical Character Recongnition, ORC)是圖像處理、模式識別和機器學(xué)習(xí)的交叉研究領(lǐng)域,其是用來將印刷體的文檔轉(zhuǎn)換為可編輯的電子文檔格式[1]。由于計算機技術(shù)的不斷進(jìn)步,印刷體ORC技術(shù)得到快速發(fā)展,大大提高了文字錄入的效率。

隨著國家對新疆地區(qū)的大力投入,以維吾爾文出版的文檔越來越多,如一些古籍文獻(xiàn)、檔案等,這些都需要進(jìn)行電子化[2]。為此,需要一種能夠自動識別并錄入維吾爾文的智能系統(tǒng)。目前,對于英文和中文等大語種的識別技術(shù)已經(jīng)得到大量研究,并趨于成熟[3]。然而,由于維吾爾文是一種粘著性文字,與傳統(tǒng)字母組合文字具有明顯的區(qū)別,致使對維吾爾文的識別技術(shù)還不成熟[4]。

目前,學(xué)者提出了一些印刷體維吾爾文識別方法。例如,文獻(xiàn)[5]提出了一種基于模板匹配的維吾爾文識別方法,通過提取字母的外形和結(jié)構(gòu)特征,然后與字母圖像庫進(jìn)行匹配來識別字母。然而其所提取的特征不能很好的表示字母,且匹配過程很耗時間。文獻(xiàn)[6]采用了字母的分布密度和局部方向特征,利用隱馬爾科夫模型構(gòu)建維吾爾文字母分類器。但是,其沒有說明如何從文本圖像中獲得單個字母。

為此,提出一種基于梯度方向直方圖(Histogram of Oriented Gradient, HOG)特征和多層感知器(Multi Layered Perceptron,MLP)神經(jīng)網(wǎng)絡(luò)的印刷體維吾爾文識別方案。其中,利用了投影積分方法來對圖像中的字母進(jìn)行切分,利用HOG方法提取字母特征,通過由字母庫訓(xùn)練的MLP分類器來進(jìn)行字母識別。實驗結(jié)果證明了該方法的有效性和可行性。

1 提出的維吾爾文識別方案框架

維吾爾文是一種粘著型文字,不同于由相互獨立字母組成的英文等文字,維吾爾文單詞中的字母是相互連接的[7]。維吾爾文一共有32個字母和20個附加筆畫,在一個維吾爾文單詞中,附加筆畫位于字母主體的上方、下方或內(nèi)部,且不與主體連接[8],如圖1所示。

圖1 由字母和附件筆畫組成的維吾爾文單詞

另外,根據(jù)維吾爾文字母在單詞中的位置,每個字母可最多有4種不同的書寫形式,總共有126種形式。

由于維吾爾文的獨特性,所以維吾爾文識別不能采用傳統(tǒng)的英文識別技術(shù)。為此,提出了一種基于字母切分、HOG特征和MLP分類器的印刷體維吾爾文識別方法,其基本流程,如圖2所示。

圖2 提出方法的流程圖

主要分為4個部分,即預(yù)處理、基于積分投影法的字母切分、基于HOG的特征提取和基于MLP分類器的字母識別。

文本資料中的印刷體維吾爾文是通過圖像掃描儀等設(shè)備將其轉(zhuǎn)換成圖像,然后上傳到計算機上的識別軟件中,作為數(shù)據(jù)輸入。由于圖像捕獲設(shè)備和環(huán)境的不一致性,需要對文字圖像進(jìn)行預(yù)處理。

預(yù)處理過程包括圖像二值化,降噪、角度矯正和歸一化等操作。在二值化過程中,首先將文本圖像中的像素轉(zhuǎn)化為0-255級的灰度值,然后以192作為判斷閾值,將圖像轉(zhuǎn)換成黑白的二值圖像[9]。在降噪過程中,采用了中值濾波法來去除圖像中的噪聲點。在角度矯正過程中,根據(jù)維吾爾文書寫的基線來調(diào)整圖像角度,避免文字傾斜[10]。歸一化操作中,利用高階插值算法對圖像進(jìn)行縮放,以此實現(xiàn)對文字大小的歸一化。

2 基于投影積分的字母切分

由于維吾爾文字母之間相互粘連,相似字母較多,字形的寬高不統(tǒng)一,使得單詞中字母之間沒有明顯的界限。為此,在文本識別之前,需要對單詞中的字母進(jìn)行切分。本文利用像素積分投影方法[11]來進(jìn)行字母切分,包含文本行切分、單詞切分和字母切分3個步驟。

經(jīng)過預(yù)處理過程后,圖像變成無噪聲的二值圖像,即白色背景點的像素值為0,黑色文字點的像素值為1。即位于第i行、第j列像素g(i,j)的表達(dá)式為式(1)。

(1)

步驟1:行切分。根據(jù)行與行之間的空白間隙,利用水平投影積分法來確定文本行的上下邊界,完成行切分。各行的積分投影表達(dá)為式(2)。

(2)

式中,I為一行中像素點的個數(shù)。

對于文本下屆的確定,從上往下對圖像像素進(jìn)行逐行掃描,通過閾值判斷來確定文本下屆。若有連續(xù)n行滿足下式,則取第i行作為文本的下屆。

(3)

對于文本上屆的確定,從下往上對圖像像素進(jìn)行逐行掃描,若有連續(xù)n行滿足下式,則取第i行作為文本的下屆。

(4)

式中,閾值p和閾值r由實驗效果來確定,本文中都設(shè)定為2。

一張文本圖像的水平投影和行切分結(jié)果,如圖3所示。

圖3 基于水平投影積分法的文本圖像行切分

步驟2:單詞切分。在完成行切分后,然后進(jìn)行單詞切分,即將每個單詞分離開。由于印刷體維吾爾文單詞之間有明顯的間隙,且字母之間的間隙比單詞間的間隙小很多,所以可以利用垂直投影積分法進(jìn)行單詞切分。垂直投影切分的過程與水平投影切分類似。一張文本圖像的垂直投影和單詞切分結(jié)果,圖4所示。

圖4 基于垂直投影積分法的文本圖像單詞切分

步驟3:字母切分。基于行切分和單詞切分后所獲得的獨立單詞,執(zhí)行字母切分,獲得獨立的字母。由于單詞中,有些字母是相互連接的,但這些連接部分都在基線上。為此,可根據(jù)垂直投影和基線位置來得到切點。

首先,通過垂直投影積分法對單詞中存在間隙的字母進(jìn)行切分。然后,對于相互連接的字母,采用基線置白法,即將單詞基線設(shè)置成白色,再通過垂直投影來切分連體字母,如圖5所示。

圖5 單詞中連體字母的切分示意圖

圖5顯示了一個連體單詞切分過程,其中圖5(a)為單詞,圖5(b)為去掉基線的單詞,圖5(c)為垂直投影和字母垂直切分的結(jié)果。

在垂直方向分離出每個字母后,再通過水平投影法來構(gòu)建字母的上下邊界框,最終獲得單獨的字母,如圖6所示。

圖6 單詞中字母切分的最終結(jié)果

3 基于HOG的特征提取

特征提取用來將輸入字母圖像變換為特征集合,是維吾爾文識別系統(tǒng)中的重要部分。采用梯度方向直方圖(HOG)[12]來檢測和提取維吾爾文字母的特征。HOG是通過計算圖像局部梯度信息來檢測邊緣輪廓。其將切分后的字母分割成小的連通單元,對單元中的每個像素生成一個梯度直方圖,然后將這些直方圖進(jìn)行串聯(lián)形成矩形塊,從而來獲得字母形狀的HOG特征。

首先,計算字母圖像的像素梯度。通過Sobel濾波器計算梯度最大強度變化的方向和量級,從而獲得梯度的水平(H)和垂直(HT)分量。然后將每個像素與H和HT分量進(jìn)行卷積,獲得水平和垂直方向上的梯度值Gx和Gy,表達(dá)式式(5)

(5)

(6)

梯度的方向表示為式(7)。

(7)

然后,將字母圖像分割成8*8的單元,采用具有9個bin的直方圖來統(tǒng)計每個單元中的像素梯度,其中直方圖以每個像素的梯度值作為權(quán)重進(jìn)行投票。

最后,將這些單元合并出一個矩形塊,并對所有重疊塊內(nèi)的像素梯度進(jìn)行歸一化。接著,將所有塊的直方圖向量進(jìn)行聚合,最終形成一個大的HOG特征向量。

4 基于MLP分類器的字母識別

提出的方案基于一種多層前饋人工神經(jīng)網(wǎng)絡(luò)(Multi-Layer Forward Artificial Neural Network, MFANN)[13]來構(gòu)建分類器。在將所提取的每個字母轉(zhuǎn)換為矩形HOG后,在該HOG向量中將存在576個值,將作為分類器的輸入特征。MLP是一種常見的前饋網(wǎng)絡(luò),其典型架構(gòu),如圖7所示。

圖7 MLP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

由輸入層、隱藏層和輸出層構(gòu)成。其中,x為輸入向量,y為輸入向量,Δω為層與層之間的連接權(quán)重。

(8)

式中,f可為一個簡單的閾值函數(shù)、S形函數(shù)或雙曲正切函數(shù)。

反向傳播算法是一種梯度下降算法,在MLP訓(xùn)練過程中用來調(diào)整神經(jīng)元i和j之間的連接權(quán)重Δωji,表示如式(9)。

(9)

式中,η為學(xué)習(xí)規(guī)則參數(shù),特征δ取決于神經(jīng)元j類型。例如,對于一個隱藏神經(jīng)元或一個輸入神經(jīng)元,其對應(yīng)的δj為式(10-11)。

(10)

(11)

(12)

5 仿真及分析

為了評估提出的印刷體維吾爾文識別方案的性能,使用Matlab8.0工具構(gòu)建實驗環(huán)境。實驗中使用了拍攝自維吾爾文雜志的4張圖片,共包含528個單詞,約1762個字母,作為測試樣本,其中字體為ALKATIP Basma字體。另外,使用帶附件筆畫的的標(biāo)準(zhǔn)維吾爾文印刷體字母庫作為訓(xùn)練集,通過提取的HOG特征來訓(xùn)練MLP神經(jīng)網(wǎng)絡(luò)分類器。

將本文提出的方案與文獻(xiàn)[5]提出的結(jié)構(gòu)特征+模板匹配的方案進(jìn)行比較。另外,為了驗證所采用MLP分類器的性能,將其與支持向量機(Support Vector Machine, SVM)分類器進(jìn)行比較。統(tǒng)計字母識別的錯誤接受率(False Acceptance Rate, FAR)、正確接受率(True Acceptance Rate, TAR)和錯誤拒絕率(False Rejection Rate, FRR),并以此作為性能指標(biāo)。

3種方法的比較結(jié)果,如表1所示。

表1 印刷體維吾爾文的識別結(jié)果

可以看出,提出的方案具有較高的性能,且所采用的MLP分類器比SVM的分類性能更好。這是因為,本文對維吾爾文字母進(jìn)行了精確切分,然后通過利用HOG來表示字母特征,為MLP神經(jīng)網(wǎng)絡(luò)分類器提供了高效的特征,所以具有較高的正確識別率。

6 總結(jié)

提出了一種印刷體維吾爾文識別系統(tǒng),首先利用投影積分法從文本圖像中切分出每個字母,然后提取每個字母的HOG特征,最后通過MLP分類器來識別字母。在一些維吾爾文雜志的圖像上進(jìn)行實驗,結(jié)果表明提出的方案具有96%的正確識別率,具有較高的實用價值。

[1] 宋云濤, 劉燁, 王源彬,等. 一種基于SWT面向RGB-D圖像的高效字符檢測算法[J]. 微型電腦應(yīng)用, 2015, 31(9): 33-36.

[2] 劉衛(wèi), 李和成. 基于多模板歸一化的維吾爾文字母識別算法[J]. 中文信息學(xué)報, 2016, 30(1):156-161.

[3] 于伯峰. 印刷體中文文檔中表格和漢字的識別研究[D]. 哈爾濱:哈爾濱工程大學(xué), 2011: 10-11.

[4] Ubul K, Adler A, Abliz G, et al. Off-line Uyghur signature recognition based on modified grid information features[C]// International Conference on Information Science, Signal Processing and Their Applications. IEEE, 2012:1056-1061.

[5] 陳卿, 袁保社, 李曉,等. 基于模板匹配的印刷維吾爾文字符識別研究[J]. 計算機技術(shù)與發(fā)展, 2012, 22(4):119-122.

[6] 努爾艾力·喀迪爾, 彭良瑞, 哈力木拉提. 一種基于HMM和統(tǒng)計語言模型的維吾爾文及阿拉伯文識別方法[J]. 計算機應(yīng)用與軟件, 2015, 32(1):171-174.

[7] 姜志威, 丁曉青, 彭良瑞. 針對無切分維吾爾文文本行識別的字符模型優(yōu)化[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2015, 55(8):873-877.

[8] 蘇佩佩, 哈力木拉提·買買提, 艾爾肯·賽甫丁,等. 一種基于連體段的維吾爾文單詞特征提取方法[J]. 新疆大學(xué)學(xué)報(自然科學(xué)版), 2015, 32(4): 462-468.

[9] Simayi W, Ibrayim M, Tursun D, et al. Research on on-line Uyghur character recognition technology based on center distance feature[C]// IEEE International Symposium on Signal Processing and Information Technology. IEEE, 2013:293-298.

[10] 萬金娥. 印刷體維吾爾文字識別系統(tǒng)關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 烏魯木齊:新疆大學(xué), 2013: 20-21.

[11] 李曉, 袁保社, 陳卿,等. 基于像素積分投影的印刷體維文字母切分方法[J]. 計算機技術(shù)與發(fā)展, 2012, 22(4):41-44.

[12] 劉軍, 白雪. 基于梯度方向直方圖與高斯金字塔的車牌模糊漢字識別方法[J]. 計算機應(yīng)用, 2016, 36(2):586-590.

[13] 孔令美, 湯庸. 基于小波變換和小波神經(jīng)網(wǎng)絡(luò)的3D遮擋人臉識別方法[J]. 湘潭大學(xué)學(xué)報(自然科學(xué)版), 2015, 37(4): 82-86.

[14] 毛勇華, 桂小林, 李前,等. 深度學(xué)習(xí)應(yīng)用技術(shù)研究[J]. 計算機應(yīng)用研究, 2016, 33(11): 3201-3205.

A Printed Uyghur Recognition Method Based on HOG Feature and MLP Classifier

Yu Li, Yasen·Aizezi*

(Department of Information Security Engineering, Xinjiang Police College, Urumqi 830011, China)

For the effective recognition issues of printed Uyghur, a printed Uighur recognition scheme based on histogram of gradient oriented (HOG) and multi-layer perceptron (MLP) neural network is proposed. Firstly, the Uighur image is preprocessed to remove noise and obtain a binarized image. Then, the text is linearly segmented by the horizontal projection integral, and the vertical projection integral method is used for word segmentation and letter segmentation, so as to obtain some independent letters. After that, the character of letter is extracted based on the HOG method. Finally, a trained MLP neural network classifier is used to identify the letter according to the extracted HOG features. Experimental results show that the proposed method can accurately identify Uighur alphabets from image.

Printed Uyghur; Recognition; Letter segmentation; Histogram of gradient-oriented; Multi-layer perceptron

新疆維吾爾自治區(qū)自然科學(xué)基金科研項目(2015211A016)

于麗(1981-),女,河北巨鹿人,講師,碩士,研究方向:軟件工程、中文信息處理等。 亞森·艾則孜(1975-),男,新疆庫車人,通訊作者,教授,碩士,國家電子數(shù)據(jù)司法鑒定員,研究領(lǐng)域:信息安全、自然語言處理等。

1007-757X(2017)06-0030-04

TP391

A

2017.02.14)

猜你喜歡
維吾爾文印刷體直方圖
統(tǒng)計頻率分布直方圖的備考全攻略
符合差分隱私的流數(shù)據(jù)統(tǒng)計直方圖發(fā)布
西夏文楷書和草書手寫體探微
淺談小學(xué)英語字母手寫體與印刷體的教學(xué)
用直方圖控制畫面影調(diào)
西部少數(shù)民族語言對阿拉伯文獻(xiàn)的譯介及其特點
高考的時候,把字寫得像印刷體有用嗎
基于直方圖平移和互補嵌入的可逆水印方案
計算機工程(2015年8期)2015-07-03 12:20:21
維吾爾文研究與Android維文閱讀器的實現(xiàn)?
察合臺維吾爾文古籍的主要特點
临泽县| 盐边县| 仲巴县| 阿瓦提县| 揭东县| 锡林郭勒盟| 克什克腾旗| 稻城县| 淮滨县| 兴海县| 静海县| 邮箱| 大安市| 濉溪县| 巫山县| 米脂县| 陇南市| 东乌| 永靖县| 榆林市| 三穗县| 松溪县| 上栗县| 南开区| 来宾市| 赤峰市| 台南市| 南城县| 两当县| 扬中市| 历史| 郯城县| 潞西市| 乌审旗| 无棣县| 嘉黎县| 和政县| 凤山市| 米林县| 屏山县| 灵宝市|