国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于筆畫曲率特征的筆跡鑒別方法

2016-05-04 02:43李慶武馬云鵬周亮基
中文信息學報 2016年5期
關鍵詞:鑒別方法筆跡字符

李慶武,馬云鵬,周 妍,周亮基

(1. 河海大學 物聯網工程學院,江蘇 常州 213022 2. 常州市傳感網與環(huán)境感知重點實驗室,江蘇 常州 213022)

基于筆畫曲率特征的筆跡鑒別方法

李慶武1,2,馬云鵬1,周 妍1,2,周亮基1

(1. 河海大學 物聯網工程學院,江蘇 常州 213022 2. 常州市傳感網與環(huán)境感知重點實驗室,江蘇 常州 213022)

現有的手寫漢字脫機筆跡鑒別方法存在只能針對特定字符或需要大量樣本字符等問題,為此提出一種基于筆畫曲率特征的筆跡鑒別方法。首先運用數學形態(tài)學對采集的筆跡圖像進行預處理,在橫、豎、撇、捺四個方向提取具有代表性的筆畫骨架,然后對筆畫骨架進行圓的重構,提取四個方向筆畫圓的曲率作為特征值組成筆跡特征矩,根據待鑒別的筆跡特征矩與數據庫中筆跡特征矩向量夾角相似性度量結果對樣本做出判斷。實驗結果表明該文方法對于待鑒別樣本字符的內容沒有要求,樣本字符數量要求低、應用范圍廣、魯棒性強。

筆跡鑒別;數學形態(tài)學;筆畫圓重構;筆畫曲率;夾角相似性

1 引言

計算機筆跡鑒別是人體行為特征識別技術的重要組成部分,具有高效、規(guī)范、客觀等優(yōu)點,為身份認證與信息保護提供了一種新的方式。

現有的中文脫機筆跡鑒別方法大多針對特定字符,黃海龍?zhí)岢隽艘环N基于數學形態(tài)學的簽名真?zhèn)舞b別方法[1],該方法利用數學形態(tài)學運算提取具有明顯方向性特征的筆畫,通過筆畫的長短、粗細、間隔等信息完成簽名樣本的鑒別工作,但要求筆跡樣本包含的字符內容固定統(tǒng)一。陳睿提出了基于關鍵詞提取的手寫漢字文本依存筆跡鑒別技術[2],該方法在任意內容的筆跡樣本中尋找特定字符完成筆跡鑒別,實質是將任意字符筆跡的鑒別轉化為特定字符筆跡的鑒別,對特定字符樣本的依賴導致該方法通用性低、穩(wěn)定性差。在與內容無關的計算機筆跡鑒別方面,李昕提出了一種基于微結構特征的多種文本無關筆跡鑒別方法[3],該方法利用局部微結構在整幅圖像中的概率分布函數來表征筆跡風格特性,可以適應不同文種的筆跡鑒別,鑒別準確率高,但對于筆跡樣本字符的數量與版式有較高的要求。鄢煜塵提出了基于特征融合的脫機中文筆跡鑒別方法[4],該方法分離出單個字符中與內容無關的筆跡特征,通過特征融合的方式得到整份筆跡的特征向量,再進行分類鑒別,對筆跡樣本字符數量要求低,但是鑒別準確率較低??偠灾?,在與內容無關的計算機中文筆跡鑒別領域,如何降低鑒別方法對筆跡樣本的依賴,同時提高鑒別正確率是亟待解決的難題。

本文提出基于筆畫曲率特征的筆跡鑒別方法,通過四個方向筆畫骨架的曲率特征對筆跡樣本進行鑒別,對于待鑒別樣本字符的內容沒有要求,字符數量要求低、應用范圍廣、魯棒性強。

2 筆跡鑒別方法

本文中的筆跡樣本圖像均為黑色簽字筆在白紙上書寫的隨機字符,由500萬像素自對焦高拍儀錄入計算機,圖像格式為Jpeg?;诠P畫曲率特征的筆跡鑒別方法的流程圖如圖1所示,分為筆畫骨架提取、筆畫特征提取、生成筆跡特征矩、相似性度量幾個步驟。

2.1 筆畫骨架提取

采集待鑒別筆跡樣本中的字符生成十幅樣本圖像,這里設高拍儀采集的每幅樣本圖像區(qū)域包含三個連續(xù)字符(不同的樣本圖像包含的字符不相同),原始單幅筆跡樣本圖像如圖2(a)所示。

首先對于彩色筆跡樣本圖像2(a)進行灰度化與二值化處理,再利用快速細化算法對筆跡樣本圖像進行細化處理,快速細化算法運用數學形態(tài)學對目標進行逐層剝取,快速提取字符骨架[5],完成快速細化處理的字符骨架圖像如圖2(b)所示。

圖2 字符骨架提取

將細化后的二值樣本圖像2(b)進行取反,為了提高特征的顯著性,再將樣本字符由單像素點排列的字符骨架圖像膨脹為三像素點并行排列的字符圖像,完成膨脹處理后的樣本圖像如圖3(a)所示。

漢字的筆畫主要有橫、豎、撇、捺,依據數學形態(tài)學的基本運算和結構元素在數學形態(tài)學運算中的作用,選取0°方向的線性結構元素對筆跡圖像進行閉合運算,即提取了筆畫橫,以此類推,運用90°、45°、135°方向的線性結構元素對筆跡圖像進行閉合運算,分別對應提取了筆跡圖像的筆畫豎、筆畫撇、筆畫捺。

結構元素是數學形態(tài)學運算的基本要素,結構元素的不同直接決定了分析和處理圖像的集合信息不同,小尺寸的結構元素對圖像的細節(jié)比較敏感,而大尺寸的結構元素對圖像的輪廓比較敏感。提取筆跡圖像中的筆畫時,由于筆畫是線性結構,所以本文方法選取結構元素為直線型。根據對手寫漢字字符筆畫長度與曲率的分析,結構元素的長度選取六至十個像素點較為合適,由于手寫字符中筆畫方向并不滿足絕對的橫平豎直,例如,筆畫橫往往與水平方向存在一定的夾角,選取小尺寸的結構元素具有很好的包容性,但結構元素尺寸較小時,會大幅降低筆畫提取的有效性,所以要求結構元素具有包容性的同時,也需保證一定的有效性,本文選取結構元素長度為八個像素點,可以滿足上述要求[1]。

針對已完成膨脹處理的圖像3(a),運用閉合運算提取單方向筆畫,選取結構元素為直線形,長度為八個像素點,再分別選取0°、90°、45°、135°四個方向(分別對應提取漢字橫、豎、撇、捺四個方向筆畫)進行閉合運算。筆跡單方向筆畫提取運算過程如式(1)所示,其中Iout為單方向筆畫圖像,Iin為輸入圖像,Si是長度為8,與水平分別成0°、90°、45°、135°的四種方向線形結構元素。

Iout=Iin·Si

(1)

以撇方向筆畫提取示例,以選取結構元素為直線型,長度為八個像素點,角度為45°為例,對3(a)進行閉合運算,完成閉合運算后的圖像如圖3(b)所示。提取出連通域面積最大的筆畫作為筆跡樣本圖像中最具代表性的單方向筆畫,如圖3(c)所示。再對取反后的單方向筆畫進行快速細化處理,處理后的筆畫圖像如圖3(d)所示。本文的筆跡鑒別方法特征提取目標為字符橫、豎、撇、捺四個方向的筆畫,因此不必考慮原始樣本筆跡圖像中字符的數量、內容、版式等因素[6-7]。

圖3 單方向筆畫骨架提取

2.2 筆畫特征提取

對于只包含單方向筆畫骨架的圖像,可以發(fā)現穩(wěn)定的單方向細化筆畫都是一段類圓弧的曲線,其曲率特征是穩(wěn)定的。對四個方向筆畫進行圓重構,提取曲率特征組合生成筆畫特征矩陣,在反映個人筆跡特征的同時,也保證了特征的獨特性[8-9]。以撇方向為例,在3(c)圖像中的撇方向筆畫骨架圖像上選取二等分三個點進行圓的重構,其過程為:

(1) 從上到下,從左到右依次掃描圖像上各點(x,y),若當前點為黑色點時,再判斷該點周圍八個點像素值的和M(設黑色點像素值為1,白色點像素值為0),設T為提取點的標識,T=1時提取該標識點坐標,當像素值P(x,y)=1時,計算該點的T值如式(2)所示。

(2)

(2) 經過第一步可以提取弧線的兩個端點A(x0,y0),B(x1,y1),連接A、B兩點,得到線段L0,過的L0中點作直線L0的垂線L1,取L1與弧線的交點C(x2,y2),則A、B、C就是使弧線二等分的三個點。

得到A、B、C三點后,進行圓的重構并計算撇方向圓的半徑,將半徑長度r的倒數c作為可以反映撇方向筆畫特征的特征值保存至筆畫特征數據組,曲率c的計算過程如式(3)所示,其中,l1、l2、l3分別為三角形ABC的三個邊長,p為三角形半周長。

(3)

通過以上運算可以計算單筆畫方向圓的曲率,選取筆畫骨架二等分三個點可盡量避免筆畫骨架上相鄰三點共線的情況,當出現三點共線時,曲率c的值為0。實驗結果表明,不同個體的筆跡在單方向筆畫骨架重構圓時,其曲率的差異是非常明顯的。對豎方向筆畫圖像、撇方向筆畫圖像、捺方向筆畫圖像依次進行同樣的處理,分別保存對應的單方向筆畫特征值,依次對十幅樣本圖像作以上步驟循環(huán)處理,得到每幅筆跡樣本圖像的筆畫特征值[10]。

2.3 生成筆跡特征矩

本文提出的方法在筆跡鑒別過程中,要求的最小的字符數量為30個,由于對字符的內容沒有任何要求,所以難免會出現點、橫折、豎勾誤識成撇、捺等現象。當誤識別現象發(fā)生時,提取筆畫的曲率數據大小會出現大幅變化,從而降低鑒別成功率。

針對此類現象,本文提出了筆跡特征矩陣的生成方法,流程如圖4所示,主要為對同一筆跡作者采集30個待鑒別筆跡字符,再將30個待鑒別筆跡字符均分成十幅樣本圖像,每幅樣本圖像包含三個字符,提取特征的目標為三個字符中連通域面積最大的四個方向筆畫,從而保證特征的顯著性,提取每幅樣本圖像的四個方向的曲率特征后,對每個單方向所有樣本圖像特征數據進行處理,剔除每個單方向數值大小突變的異常數據后,分別取橫、豎、撇、捺四個方向的歸一化曲率均值作為該方向的筆跡特征值,按順序保存至相應筆跡作者的1*4筆跡特征矩[11]。

圖4 筆跡特征矩生成流程圖

其中四個方向筆跡特征值的計算包括剔除單方向筆畫異常特征數據及計算歸一化曲率均值,其過程是先將十幅筆跡樣本圖像單方向的筆畫特征值匯集組成該方向的筆畫特征數據組,將處于單方向筆畫特征數據組極大端和數據組極小端的數據剔除,取數據組中段均值數據作為該方向筆畫的最終特征值,依次取得四個方向的最終特征值后,組成筆跡特征矩陣,將筆跡特征矩陣的值歸一化至-1到1之間,再將筆跡特征矩陣保存至相似性度量模塊[12]。該方法流程如圖5所示,其中n的數值(1、2、3、4)依次代表筆畫方向橫、豎、撇、捺。

圖5 筆跡特征值計算方法流程圖

單幅實驗樣本圖像的三個字符中不包含某個方向筆畫時,就會出現點、橫折、豎勾誤識成撇、捺等現象,通過對十幅樣本圖像某方向筆畫特征數據進行處理,剔除異常的特征數據后再計算均值作為該方向的筆跡特征值,也就是間接地刪除了不包含該方向筆畫的樣本圖像,降低了誤識現象發(fā)生的幾率,提高了本文方法的魯棒性[13]。

2.4 相似性度量

夾角余弦相似性度量可以用在任何維度的向量比較中,尤其在高維正空間中尤為頻繁。其主要優(yōu)點為可以將多個特征值組成特征組向量,在高維空間中快速計算向量之間相似度,并且可根據實際情況,改變向量元素的權重系數,得到更加準確的相似度,適合特征矩陣的相似性判別。

針對本文提出的筆跡鑒別算法,設由待鑒別筆跡特征矩組成的向量可表示為F=(x10,x11,x12,x13),數據庫中預先存儲筆跡作者的筆跡特征矩組成的向量為λ=(x20,x21,x22,x23),其中xij為單方向筆跡特征值,角標i的數值代表筆跡特征矩的性質,角標j的取值依次代表筆畫方向橫、豎、撇、捺。設K為待鑒別的筆跡與數據庫中對應的筆跡相似度,則定義K為式(4)。

(4)

本文提出的鑒別方法對樣本筆跡字符的形態(tài)尺寸沒有要求。筆跡特征是在同一筆跡樣本圖像中提取的橫、豎、撇、捺四個方向特征值組合的特征矩陣向量的方向,采用夾角余弦相似性度量法可以有效避免筆跡字符的形態(tài)尺寸帶來的影響。

3 筆跡鑒別實驗結果

本文選取了100個人建立手寫文本庫,其中每個人有兩份筆跡樣本,每份樣本字符數量為450個,對版式、尺寸、內容均無要求。將每個人兩篇筆跡中的一篇作為參考筆跡,另一篇作為查詢筆跡。在筆跡數據庫中,每篇查詢筆跡都與所有參考筆跡進行比較,獲取它們之間的相似度,通過對相似度數值進行排序,可以得到相似度數值最大的參考筆跡,該參考筆跡的作者即認為是查詢筆跡的書寫者[14-15]。

隨機抽取十個人的查詢筆跡a0~j0與參考筆跡a1~j1,按照本文方法對筆跡樣本進行相應的處理,再對本文選取的實驗方法及過程進行模擬,實驗結果統(tǒng)計表如表1所示,可以看出,采用本文提出的鑒別方法進行筆跡鑒別時,首選正確率較高。

表1 相似性度量實驗結果

與文獻[2]、文獻[3]、文獻[4]中的方法進行比較,分別對現有的三種方法進行測試,其中筆跡作者判斷方法與本文相同。初始測試筆跡樣本的字符數量都為450個,測試過程中規(guī)律性減少字符數量(每次15個),當鑒別正確率發(fā)生突變時(設定閾值為3%),即認為當前筆跡樣本字符數量即為該種方法要求的最小字符數量,實驗結果如表2所示。

表2 多種方法筆跡鑒別結果

4 總結與分析

本文以中文字符的結構與形態(tài)為出發(fā)點,提取中文字符筆畫的特征,為與內容無關的計算機中文筆跡鑒別提供了新的思路和方法。該方法特征主要是拆分提取手寫字符橫、豎、撇、捺四個方向的筆畫骨架,并取其筆畫骨架特征數據組中段均值作為此方向的筆跡特征值組成筆跡特征矩,再進行相似性度量。與現有的筆跡鑒別方法相比,本文提出的基于筆畫骨架曲率檢測的筆跡鑒別方法降低了對筆跡樣本字符數量與形態(tài)版式的依賴,且有較高的鑒別正確率。

[1] 黃海龍, 王宏, 李微. 一種基于數學形態(tài)學的簽名真?zhèn)舞b別方法[J]. 東北大學學報(自然科學版), 2011, 32(6): 854-858.

[2] 陳睿, 唐雁. 基于關鍵詞提取的手寫漢字文本依存筆跡鑒別技術[J]. 四川大學學報(自然科學版), 2013, 50(4): 720-727.

[3] 李昕, 丁曉青, 彭良瑞. 一種基于微結構特征的多文種文本無關筆跡鑒別方法 [J]. 自動化學報, 2009, 35(9): 1199-1208.

[4] 鄢煜塵, 陳慶虎, 袁鳳, 等. 基于特征融合的脫機中文筆跡鑒別[J]. 模式識別與人工智能, 2010, 23(2): 203-209.

[5] 梅園, 孫懷江, 夏德深. 一種基于改進后模板的圖像快速細化算法[J]. 中國圖象圖形學報, 2006, 11(9): 1306-1310.

[6] 柯晶, 喬誼正. 聯機中文簽名鑒定的一種局部彈性匹配方法[J]. 中文信息學報, 1998, 12(1): 57-63.

[7] 劉成林, 戴汝為. 筆跡鑒別的字符予處理與匹配[J]. 中文信息學報, 1996, 10(3): 50-57.

[8] Zamora Martínez F, FrinkenV, Espana Boquera S, et al. Neural network language models for off-line handwriting recognition[J]. Pattern Recognition, 2014, 47(4): 1642-1652.

[9] 張韋煜, 卡米力, 木依丁. 基于邊緣筆畫特征結構的維吾爾筆跡鑒別[J]. 計算機應用, 2012, 32(06): 1594-1597.

[10] Schomaker L, Bulacu M. Automatic writer identification using connected-component contours and edge-based features of uppercase western script[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(6): 787-798.

[11] 熱依曼, 吐爾遜, 吾守爾, 等. 一種維吾爾語聯機手寫識別系統(tǒng)[J]. 中文信息學報, 2014, 28(3): 112-115.

[12] 芮挺, 沈春林, 丁健, 等. 獨立分量重建模型的手寫數字字符識別[J]. 計算機輔助設計與圖形學學報, 2005, 17(3): 455-455.

[13] Ferrerma, Alonso J B, Travieso C M. Offline geometric parameters for automatic signature verification using fixed-point arithmetic[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(6): 993-997.

[14] 黃雅平, 羅四維, 陳恩義. 基于獨立分量分析的筆跡識別[J]. 中文信息學報, 2003, 17(4): 52-58.

[15] 劉成林, 劉迎建, 戴汝為. 基于多通道分解與匹配的筆跡鑒別研究[J]. 自動化學報.1997, 23(1): 56-62.

Method of Writer Identification Based on Curvature of Strokes

LI Qingwu1,2,MA Yunpeng1,ZHOU Yan1,2,ZHOU Liangji1

(1. College of Internet of Things Engineering, HoHai University, Changzhou, Jiangsu 213022, China 2. Changzhou Key Laboratory of Sensor Networks and Environmental Sensing, Changzhou,Jiangsu 213022, China)

The popular offline writer identification methods for handwritten Chinese characters usually work on some specific characters and demand a huge number of training samples. In this paper, a writer identification method based on curvature detection of skeletal stroke is proposed. Firstly, images of handwritten characters are preprocessed by mathematical morphology, and the representative skeletal strokes are extracted in the four directions of horizontal, vertical, left-falling and right-falling. Then, the circle reconstruction is applied to the extracted skeletal strokes, and the curvatures of the stroke circle in four directions are selected to form the handwriting features. Finally, the characters are identified according to the angular similarity. Experimental results show that the proposed algorithm makes no restrictions on the content of the character to be identified and requires less training samples.

writer identification; mathematical morphology; reconstruct the circle of strokes; curvature of strokes; similarity between angles

李慶武(1964—),博士,教授,博士生導師,主要研究領域為智能感知與圖像處理。E?mail:li_qingwu@163.com馬云鵬(1993—),博士研究生,主要研究領域為數字圖像處理。E?mail:1102203011@qq.com周妍(1982—),博士研究生,講師,主要研究領域為數字圖像處理。E?mail:strangeryan@163.com

1003-0077(2016)05-0209-06

2015-10-25 定稿日期: 2016-04-25

國家自然科學基金(41306089);江蘇省產學研前瞻性聯合研究項目(BY2014041)

TP394.1

DOI

猜你喜歡
鑒別方法筆跡字符
巧克力能否去除桌上的油性筆筆跡
論高級用字階段漢字系統(tǒng)選擇字符的幾個原則
字符代表幾
一種USB接口字符液晶控制器設計
圖片輕松變身ASCⅡ藝術畫
筆跡線條主動觸覺在筆跡鑒定中的運用
基于FDA-MIMO的距離欺騙干擾鑒別方法
藍紅膠囊質量標準控制及含杜仲制劑的TLC鑒別方法
筆跡鑒定過程中的心理偏差及其控制
氣相色譜質譜聯用技術用于西黃丸中人工麝香的鑒別方法
普陀区| 新宁县| 垣曲县| 桂东县| 勃利县| 时尚| 夏津县| 库车县| 江油市| 华安县| 夹江县| 乌拉特后旗| 江川县| 萍乡市| 彭州市| 宽甸| 睢宁县| 长垣县| 八宿县| 扎赉特旗| 栾川县| 余干县| 鄄城县| 广灵县| 宝清县| 襄汾县| 阿拉尔市| 华蓥市| 永寿县| 池州市| 浪卡子县| 淅川县| 泽库县| 安岳县| 抚顺市| 日照市| 保山市| 额敏县| 延寿县| 普定县| 临夏县|