手寫體女書文字規(guī)范化處理程序研究

2012-01-03 08:05王江晴朱宗曉魏紅昀

中南民族大學(xué)學(xué)報（自然科學(xué)版） 2012年1期

程立，王江晴，田微，朱宗曉，魏紅昀，劉賽，徐科

(中南民族大學(xué) 計算機科學(xué)學(xué)院，武漢 430074)

我國少數(shù)民族眾多，有些少數(shù)民族有自己的文字，例如滿文，藏文，彝文等，但至今仍有不少民族的文字還不能使用計算機進(jìn)行處理，這些文字的傳承只能依靠少數(shù)識得此文字的老年人，在這樣的傳承中很容易出現(xiàn)差錯.要保證其能夠有效地傳承，信息化是非常關(guān)鍵的[1,2].要實現(xiàn)文字的信息化，需用計算機輸入該種文字，這必須建立字庫.建立字庫一般采用人工書寫出所有的文字，然后進(jìn)行相應(yīng)的校正和美化的方法.本文以女書為研究對象，提出了建立女書字庫的方法.

1 建立字符集的方案

這里采用的方法是先手寫出所有的女書文字，掃描變成圖像文件后再進(jìn)行相應(yīng)的處理，其過程如圖1所示.

圖1 字符集的產(chǎn)生過程

本文中主要研究規(guī)范化處理，也就是將掃描得到的BMP圖像文件進(jìn)行相應(yīng)的處理，得到規(guī)范的字體圖像.在規(guī)范化處理中，主要是進(jìn)行字體圖像的細(xì)化和校正.

2 字體圖像的細(xì)化

由于手寫體文字存在很多問題，如筆劃邊緣有毛刺、筆劃形狀不規(guī)范等.所以要得到規(guī)范美觀的字體，可先將手寫文字進(jìn)行細(xì)化，得到字體輪廓，經(jīng)過消除毛刺，將筆劃變直，校正輪廓的畸變等處理后再加粗.細(xì)化主要是得到字體的輪廓，即抽取字體的骨架，它是指在保持原圖像拓?fù)浣Y(jié)構(gòu)的情況下盡可能快地抽出一個單像素寬的骨架的過程.細(xì)化的方法很多，按考慮問題角度的不同，圖像細(xì)化方法分為2類：邊緣點刪除和內(nèi)點保留[3].在此采用邊緣點刪除中的查表法[4]進(jìn)行細(xì)化處理，該算法實現(xiàn)容易，而且效率也很高.

在對圖像進(jìn)行細(xì)化后，會出現(xiàn)較多的畸變，主要有筆劃不平滑、筆劃的端點開叉、四叉點變?yōu)?個三叉點.如圖2所示.

圖2 原始字體和經(jīng)過細(xì)化后的骨架 Fig.2 Original character and character skeleton after thinning

圖2中左圖為原始的女書手寫字體文字圖像，右圖為通過查表法細(xì)化后得到的字體骨架.由于原始字體是手寫的，會出現(xiàn)筆劃的抖動，不均勻，所以細(xì)化后會出現(xiàn)筆劃不平滑和端點處分叉，而且在2個筆劃交叉處有一定的面積，所以會造成四叉點畸變?yōu)?個三叉點，這3種情況在圖2中均有出現(xiàn).由于出現(xiàn)了這些異常的情況，在膨脹前必須做校正處理，即此處所說的規(guī)范化.

3 規(guī)范化處理

3.1 規(guī)范化處理方法

規(guī)范化處理的任務(wù)主要是拉直細(xì)化后畸變的直線和折線，消除分叉的分支，將 2個三叉點合并為1個四叉點.其處理方法是先找到細(xì)化后字體輪廓中連通區(qū)域的特征點，主要有端點、拐點和交叉點, 然后判斷這些特征點之間的位置關(guān)系，最后把相應(yīng)的特征點連接起來.

3.2 特征點的尋取

特征點是決定字體輪廓的點，包括端點、拐點和交叉點[5-7].文[8]詳細(xì)地說明了如何尋找端點、交叉點，而且實現(xiàn)起來很容易，但對拐點的尋找顯得比較復(fù)雜.尋找特征點的方法主要是對某個黑點的八鄰域進(jìn)行處理，在八鄰域中，如果某個點為黑點，則該點記為1，背景點則為0. 其中點P的八鄰域如圖3所示.

圖3 點P的八鄰域

Fig.3 Eight-neighbor diagram of pointP

點P的交叉數(shù)CN確定點P的狀態(tài)，CN定義為:

(1)

其中nK為點P的八鄰域，且n9=n1, 則有：

(1)若CN≠2, 像素P為特征點；

(2)若CN=1,P為端點；

(3)若CN=3,P為三交叉點；

(4)若CN=4,P為四交叉點.

當(dāng)CN=2時可能是一般點或拐點，若是拐點，則也是一種特征點，但其交叉數(shù)CN與一般點一樣都是2，僅此一個條件區(qū)分不了拐點和一般點.圖4中黑點3即為拐點.

圖4 拐點和端點

為了判別一個CN=2的點是否為拐點，還需要再添加一個條件.從圖4很容易知道，如果連接端點1和2，則拐點3是在從1到2的連通區(qū)域上的所有點中到直線12距離最遠(yuǎn)的點，以此可以找出拐點.實現(xiàn)時可以從某個端點沿著連通的黑色點從一端尋跡到另一端，并計算每個黑點到直線12的距離，距離最大的點為拐點，而且為了排除筆劃抖動的干擾，可將最大值設(shè)定一個閾值，只有大于此閾值才認(rèn)為具有拐點，否則該兩點間為直線.

圖4處理的是最簡單的情況，即一個連通區(qū)域中沒有CN>2的點，而且只有一個拐點.對于多個拐點的情況，處理的方法稍微復(fù)雜，但處理過程與只有一個拐點時一樣，如圖5所示.

圖5 多個拐點的連通域

對于具有多個拐點，而且沒有CN>2的點的連通域，處理方法和單個拐點相同，也是求連通域上的到直線距離最大的點.只是在多拐點情況下，直線是不停變化的，為敘述的方便，記[mn]為點m和n之間的連通域，mn為點m和n之間的連線.在處理中，按照一定的順序找到各個拐點，將找出的拐點作為一個二叉樹的節(jié)點，然后遍歷該二叉樹，可以依次得到各個拐點.如圖5所示，尋找一個連通區(qū)域中所有拐點的算法為：

(1)求[se]中所有黑像素點到se的距離最大的點，由圖5可知應(yīng)該是拐點3，以點3作為二叉樹的根節(jié)點；

(2)將求出的拐點插入se中，得到[s3]和[3e].分別求[s3]中到s3距離最大的點和[3e]中到3e距離最大的點，分別得到點2和4，以點2和4作為根節(jié)點3的左右子樹；

(3)按(1)、(2)步驟充分操作，一直到所有節(jié)點的子樹均為空，如若求[12]間的拐點，很明顯12是一直線，則拐點為空.

通過以上過程，可以得到一個二叉樹，如圖6所示.

圖6 處理后的結(jié)果二叉樹

圖7 無空節(jié)點的結(jié)果二叉樹

若將圖6中的空節(jié)點X去掉，則效果更明顯，如圖7所示，很明顯，如果將結(jié)果二叉樹中的每個節(jié)點按中序遍歷取出，并依次相連，兩端再連上該連通域的起始點和終止點，則復(fù)原最初的折線.而且這種方法具有普適性，可以證明.從圖7可知，如果按照中序遍歷各個節(jié)點，則恰好是1，2，3，4，5，6，即為從點s到點e中的各個拐點.

通過上面的算法可以看到處理的過程：首先根據(jù)尋找連通的黑像素區(qū)域到對應(yīng)直線的最大距離的點，以此點作為節(jié)點，先序建立二叉樹，處理完畢之后，按照中序次序遍歷所有非空節(jié)點，即為從一個端點到另一個端點的連通路徑上順次的各個拐點.這樣即使書寫時筆劃不規(guī)則，通過找到端點和各個拐點，順次連接，然后再膨脹，也可以得到比較規(guī)范的筆劃，如果對筆劃有其他需要還可以做進(jìn)一步處理.

3.3 分叉筆劃的處理

分叉筆劃的特點是分叉的分支到分叉點的距離很小，所以處理中以每個交叉點為圓心，以某個比較小的數(shù)值為半徑，在這樣一個圓內(nèi)查找有無端點，并依據(jù)端點個數(shù)進(jìn)行相應(yīng)的處理[9,10].

3.4 交叉點畸變的處理

對于交叉點的畸變來說，主要是四叉點變成了2個三叉點，如圖2中右圖所示.對于這樣的變形，可以找出連通路徑中的端點數(shù)目和交叉點數(shù)目，確定它們的位置，然后將細(xì)化得到的原始輪廓清除，將找到的特征點對應(yīng)相連.

3.5 膨脹及結(jié)果

在完成了細(xì)化輪廓的修正后，就可以進(jìn)行膨脹了.圖8是對圖2修正和膨脹后的結(jié)果.在此處理了筆劃的扭曲、筆劃的分叉以及交叉點的畸變.

圖8 校正及膨脹后結(jié)果

4 實驗與結(jié)果

根據(jù)上述算法，對掃描得到的女書字體進(jìn)行細(xì)化，然后對細(xì)化后的骨架進(jìn)行修正，最后將修正后的骨架進(jìn)行膨脹，可以獲得比較規(guī)范的女書字符圖片，圖9和圖10分別是2個女書字體處理前后的形態(tài).

5 結(jié)語

由實驗可見，按照文中所述算法可以得到比較規(guī)范的字符.相對于最初的手寫體文字，處理之后，可以做到消除字體筆劃中的毛刺、筆劃寬度不均勻、筆劃抖動等問題，達(dá)到比較好的效果.

圖9 女書字體的原始圖和骨架圖

圖10 校正并膨脹后的結(jié)果圖

[1] 田微，王江晴，朱宗曉，等.女書計算機鍵盤布局與輸入法研究[J].中文信息學(xué)報，2010，24(5)：124-126.

[2]王江晴，張礻韋軼.基于像素的少數(shù)民族手寫體文檔傾斜校正算法[J].中南民族大學(xué)學(xué)報：自然科學(xué)版，2011，30(1)：88-91.

[3]張昊,徐剛. 基于四鄰域的二值圖像細(xì)化算法[J]. 信號處理與模式識別, 2004(6): 24-27.

[4]楊威，郭科, 魏義坤. 一種有效的基于八鄰域查表的指紋圖像細(xì)化算法[J]. 四川理工學(xué)院學(xué)報, 2008, 21(2):61-63.

[5]孫曉紅,張學(xué)東.基于鄰域特征的筆劃交叉點提取算法的研究[J].計算機工程與設(shè)計,2008, 29(19): 4985-4986.

[6]張春美,龔志輝,黃艷.幾種特征點提取算法的性能評估及改進(jìn)[J].測繪科學(xué)技術(shù)學(xué)報, 2008, 25(3): 231-234.

[7]王晏民. 矢量曲線的特征點提取[J]. 測繪工程, 2002,11(2): 8-11.

[8]張曉青,王國文,曹海云,等.基于細(xì)化的手寫漢字的筆段提取方法[J]. 哈爾濱工業(yè)大學(xué)學(xué)報,1999, 31(5): 107-110.

[9]秦筱木威，蔡超，周成平.一種有效的骨架毛刺去除算法[J].華中科技大學(xué)學(xué)報：自然科學(xué)版，2004，32(12)：28-31.

[10]Van Deemter J H,Dubuf J M H.Simultaneous detection of lines and edges using compound Gabor filters[J].Pattern Recognition and Artificial Intelligence,2000,14(6):757-777.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡