国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

手寫體女書文字規(guī)范化處理程序研究

2012-01-03 08:05王江晴朱宗曉魏紅昀
關(guān)鍵詞:筆劃交叉點二叉樹

程 立,王江晴,田 微,朱宗曉,魏紅昀,劉 賽,徐 科

(中南民族大學(xué) 計算機科學(xué)學(xué)院,武漢 430074)

我國少數(shù)民族眾多,有些少數(shù)民族有自己的文字,例如滿文,藏文,彝文等,但至今仍有不少民族的文字還不能使用計算機進(jìn)行處理,這些文字的傳承只能依靠少數(shù)識得此文字的老年人,在這樣的傳承中很容易出現(xiàn)差錯.要保證其能夠有效地傳承,信息化是非常關(guān)鍵的[1,2].要實現(xiàn)文字的信息化,需用計算機輸入該種文字,這必須建立字庫.建立字庫一般采用人工書寫出所有的文字,然后進(jìn)行相應(yīng)的校正和美化的方法.本文以女書為研究對象,提出了建立女書字庫的方法.

1 建立字符集的方案

這里采用的方法是先手寫出所有的女書文字,掃描變成圖像文件后再進(jìn)行相應(yīng)的處理,其過程如圖1所示.

圖1 字符集的產(chǎn)生過程

本文中主要研究規(guī)范化處理,也就是將掃描得到的BMP圖像文件進(jìn)行相應(yīng)的處理,得到規(guī)范的字體圖像.在規(guī)范化處理中,主要是進(jìn)行字體圖像的細(xì)化和校正.

2 字體圖像的細(xì)化

由于手寫體文字存在很多問題,如筆劃邊緣有毛刺、筆劃形狀不規(guī)范等.所以要得到規(guī)范美觀的字體,可先將手寫文字進(jìn)行細(xì)化,得到字體輪廓,經(jīng)過消除毛刺,將筆劃變直,校正輪廓的畸變等處理后再加粗.細(xì)化主要是得到字體的輪廓,即抽取字體的骨架,它是指在保持原圖像拓?fù)浣Y(jié)構(gòu)的情況下盡可能快地抽出一個單像素寬的骨架的過程.細(xì)化的方法很多,按考慮問題角度的不同,圖像細(xì)化方法分為2類:邊緣點刪除和內(nèi)點保留[3].在此采用邊緣點刪除中的查表法[4]進(jìn)行細(xì)化處理,該算法實現(xiàn)容易,而且效率也很高.

在對圖像進(jìn)行細(xì)化后,會出現(xiàn)較多的畸變,主要有筆劃不平滑、筆劃的端點開叉、四叉點變?yōu)?個三叉點.如圖2所示.

圖2 原始字體和經(jīng)過細(xì)化后的骨架 Fig.2 Original character and character skeleton after thinning

圖2中左圖為原始的女書手寫字體文字圖像,右圖為通過查表法細(xì)化后得到的字體骨架.由于原始字體是手寫的,會出現(xiàn)筆劃的抖動,不均勻,所以細(xì)化后會出現(xiàn)筆劃不平滑和端點處分叉,而且在2個筆劃交叉處有一定的面積,所以會造成四叉點畸變?yōu)?個三叉點,這3種情況在圖2中均有出現(xiàn).由于出現(xiàn)了這些異常的情況,在膨脹前必須做校正處理,即此處所說的規(guī)范化.

3 規(guī)范化處理

3.1 規(guī)范化處理方法

規(guī)范化處理的任務(wù)主要是拉直細(xì)化后畸變的直線和折線,消除分叉的分支,將 2個三叉點合并為1個四叉點.其處理方法是先找到細(xì)化后字體輪廓中連通區(qū)域的特征點,主要有端點、拐點和交叉點, 然后判斷這些特征點之間的位置關(guān)系,最后把相應(yīng)的特征點連接起來.

3.2 特征點的尋取

特征點是決定字體輪廓的點,包括端點、拐點和交叉點[5-7].文[8]詳細(xì)地說明了如何尋找端點、交叉點,而且實現(xiàn)起來很容易,但對拐點的尋找顯得比較復(fù)雜.尋找特征點的方法主要是對某個黑點的八鄰域進(jìn)行處理,在八鄰域中,如果某個點為黑點,則該點記為1,背景點則為0. 其中點P的八鄰域如圖3所示.

圖3 點P的八鄰域

Fig.3 Eight-neighbor diagram of pointP

點P的交叉數(shù)CN確定點P的狀態(tài),CN定義為:

(1)

其中nK為點P的八鄰域,且n9=n1, 則有:

(1)若CN≠2, 像素P為特征點;

(2)若CN=1,P為端點;

(3)若CN=3,P為三交叉點;

(4)若CN=4,P為四交叉點.

當(dāng)CN=2時可能是一般點或拐點,若是拐點,則也是一種特征點,但其交叉數(shù)CN與一般點一樣都是2,僅此一個條件區(qū)分不了拐點和一般點.圖4中黑點3即為拐點.

圖4 拐點和端點

為了判別一個CN=2的點是否為拐點,還需要再添加一個條件.從圖4很容易知道,如果連接端點1和2,則拐點3是在從1到2的連通區(qū)域上的所有點中到直線12距離最遠(yuǎn)的點,以此可以找出拐點.實現(xiàn)時可以從某個端點沿著連通的黑色點從一端尋跡到另一端,并計算每個黑點到直線12的距離,距離最大的點為拐點,而且為了排除筆劃抖動的干擾,可將最大值設(shè)定一個閾值,只有大于此閾值才認(rèn)為具有拐點,否則該兩點間為直線.

圖4處理的是最簡單的情況,即一個連通區(qū)域中沒有CN>2的點,而且只有一個拐點.對于多個拐點的情況,處理的方法稍微復(fù)雜,但處理過程與只有一個拐點時一樣,如圖5所示.

圖5 多個拐點的連通域

對于具有多個拐點,而且沒有CN>2的點的連通域,處理方法和單個拐點相同,也是求連通域上的到直線距離最大的點.只是在多拐點情況下,直線是不停變化的,為敘述的方便,記[mn]為點m和n之間的連通域,mn為點m和n之間的連線.在處理中,按照一定的順序找到各個拐點,將找出的拐點作為一個二叉樹的節(jié)點,然后遍歷該二叉樹,可以依次得到各個拐點.如圖5所示,尋找一個連通區(qū)域中所有拐點的算法為:

(1)求[se]中所有黑像素點到se的距離最大的點,由圖5可知應(yīng)該是拐點3,以點3作為二叉樹的根節(jié)點;

(2)將求出的拐點插入se中,得到[s3]和[3e].分別求[s3]中到s3距離最大的點和[3e]中到3e距離最大的點,分別得到點2和4,以點2和4作為根節(jié)點3的左右子樹;

(3)按(1)、(2)步驟充分操作,一直到所有節(jié)點的子樹均為空,如若求[12]間的拐點,很明顯12是一直線,則拐點為空.

通過以上過程,可以得到一個二叉樹,如圖6所示.

圖6 處理后的結(jié)果二叉樹

圖7 無空節(jié)點的結(jié)果二叉樹

若將圖6中的空節(jié)點X去掉,則效果更明顯,如圖7所示,很明顯,如果將結(jié)果二叉樹中的每個節(jié)點按中序遍歷取出,并依次相連,兩端再連上該連通域的起始點和終止點,則復(fù)原最初的折線.而且這種方法具有普適性,可以證明.從圖7可知,如果按照中序遍歷各個節(jié)點,則恰好是1,2,3,4,5,6,即為從點s到點e中的各個拐點.

通過上面的算法可以看到處理的過程:首先根據(jù)尋找連通的黑像素區(qū)域到對應(yīng)直線的最大距離的點,以此點作為節(jié)點,先序建立二叉樹,處理完畢之后,按照中序次序遍歷所有非空節(jié)點,即為從一個端點到另一個端點的連通路徑上順次的各個拐點.這樣即使書寫時筆劃不規(guī)則,通過找到端點和各個拐點,順次連接,然后再膨脹,也可以得到比較規(guī)范的筆劃,如果對筆劃有其他需要還可以做進(jìn)一步處理.

3.3 分叉筆劃的處理

分叉筆劃的特點是分叉的分支到分叉點的距離很小,所以處理中以每個交叉點為圓心,以某個比較小的數(shù)值為半徑,在這樣一個圓內(nèi)查找有無端點,并依據(jù)端點個數(shù)進(jìn)行相應(yīng)的處理[9,10].

3.4 交叉點畸變的處理

對于交叉點的畸變來說,主要是四叉點變成了2個三叉點,如圖2中右圖所示.對于這樣的變形,可以找出連通路徑中的端點數(shù)目和交叉點數(shù)目,確定它們的位置,然后將細(xì)化得到的原始輪廓清除,將找到的特征點對應(yīng)相連.

3.5 膨脹及結(jié)果

在完成了細(xì)化輪廓的修正后,就可以進(jìn)行膨脹了.圖8是對圖2修正和膨脹后的結(jié)果.在此處理了筆劃的扭曲、筆劃的分叉以及交叉點的畸變.

圖8 校正及膨脹后結(jié)果

4 實驗與結(jié)果

根據(jù)上述算法,對掃描得到的女書字體進(jìn)行細(xì)化,然后對細(xì)化后的骨架進(jìn)行修正,最后將修正后的骨架進(jìn)行膨脹,可以獲得比較規(guī)范的女書字符圖片,圖9和圖10分別是2個女書字體處理前后的形態(tài).

5 結(jié)語

由實驗可見,按照文中所述算法可以得到比較規(guī)范的字符.相對于最初的手寫體文字,處理之后,可以做到消除字體筆劃中的毛刺、筆劃寬度不均勻、筆劃抖動等問題,達(dá)到比較好的效果.

圖9 女書字體的原始圖和骨架圖

圖10 校正并膨脹后的結(jié)果圖

[1] 田 微,王江晴,朱宗曉,等.女書計算機鍵盤布局與輸入法研究[J].中文信息學(xué)報,2010,24(5):124-126.

[2]王江晴,張礻韋軼.基于像素的少數(shù)民族手寫體文檔傾斜校正算法[J].中南民族大學(xué)學(xué)報:自然科學(xué)版,2011,30(1):88-91.

[3]張 昊,徐 剛. 基于四鄰域的二值圖像細(xì)化算法[J]. 信號處理與模式識別, 2004(6): 24-27.

[4]楊 威,郭 科, 魏義坤. 一種有效的基于八鄰域查表的指紋圖像細(xì)化算法[J]. 四川理工學(xué)院學(xué)報, 2008, 21(2):61-63.

[5]孫曉紅,張學(xué)東.基于鄰域特征的筆劃交叉點提取算法的研究[J].計算機工程與設(shè)計,2008, 29(19): 4985-4986.

[6]張春美,龔志輝,黃 艷.幾種特征點提取算法的性能評估及改進(jìn)[J].測繪科學(xué)技術(shù)學(xué)報, 2008, 25(3): 231-234.

[7]王晏民. 矢量曲線的特征點提取[J]. 測繪工程, 2002,11(2): 8-11.

[8]張曉青,王國文,曹海云,等.基于細(xì)化的手寫漢字的筆段提取方法[J]. 哈爾濱工業(yè)大學(xué)學(xué)報,1999, 31(5): 107-110.

[9]秦筱木威,蔡 超,周成平.一種有效的骨架毛刺去除算法[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2004,32(12):28-31.

[10]Van Deemter J H,Dubuf J M H.Simultaneous detection of lines and edges using compound Gabor filters[J].Pattern Recognition and Artificial Intelligence,2000,14(6):757-777.

猜你喜歡
筆劃交叉點二叉樹
基于雙向二叉樹的多級菜單設(shè)計及實現(xiàn)
基于故障二叉樹的雷達(dá)發(fā)射機故障診斷*
北京口腔醫(yī)學(xué)會第五屆口腔種植專委會委員組成名單
二叉樹創(chuàng)建方法
一種基于SVM 的多類文本二叉樹分類算法?
Diagnostic accuracy and clinical utility of non-English versions of Edinburgh Post-Natal Depression Scale for screening post-natal depression in lndia:A meta-analysis
巧移硬幣
圍棋棋盤的交叉點
加筆劃成新字
KD357:模擬漢字筆劃的漢字鍵盤輸入法
朝阳县| 江北区| 广州市| 涪陵区| 赣榆县| 北京市| 桂阳县| 元氏县| 广南县| 杭锦后旗| 石泉县| 平顺县| 木兰县| 大足县| 轮台县| 舟曲县| 巧家县| 区。| 大宁县| 白城市| 资溪县| 南通市| 牡丹江市| 弥渡县| 塔城市| 石河子市| 马公市| 大姚县| 汉川市| 武平县| 河东区| 大新县| 星子县| 故城县| 宾阳县| 夏邑县| 芒康县| 乐平市| 桑植县| 雷州市| 高要市|