胡建穎,趙 荻,周 玲,郎海濤+
(1.北京化工大學 理學院,北京100029;2.中國專利技術(shù)開發(fā)公司,北京100080)
自動的偽造印鑒識別方法研究需要解決幾個主要的技術(shù)難點問題:①從印鑒文件中提取待分析的有效印文是印鑒識別的一個關(guān)鍵環(huán)節(jié),有效印文提取的質(zhì)量直接關(guān)系著最終的真?zhèn)巫R別結(jié)果[1,2]。由于印鑒文件的多樣性,如圖1所示,有效印文背景中可能包含圖表、文字、嘈雜紋理等復雜情況,這些都為有效印文的高質(zhì)量提取制造了很大的麻煩。②偽造印鑒與真實印鑒十分相似,尤其是高仿印鑒,在結(jié)構(gòu)、細節(jié)等方面都會仿造的極其相近,因此印鑒的識別方法必須同時從全局 (結(jié)構(gòu))和局部 (細節(jié))兩方面入手,才能達到目的。③由于蓋印條件的差異性而引起的印鑒差異性為印鑒的識別帶來了實際的困難。例如,即便是同一個印章,如圖1 中b和g,由于著 (印)泥的多少不同,或者蓋印的力度不同,會導致印鑒出現(xiàn)很大的差異,甚至會導致蓋印不全等情況的發(fā)生。印鑒識別系統(tǒng)必須要能夠處理由于上述各種差異性而帶來的挑戰(zhàn)。
國內(nèi)外的研究人員針對上述不同問題,提出了多種解決方案[3-7]。針對有效印文的提取問題,張學東等[3]將印鑒圖像從RGB彩色空間轉(zhuǎn)換到HSI彩色空間,通過分別對H的余弦值,S,I設定閾值,提取到了印文區(qū)域;Pan等[6]將印鑒圖像分為印文區(qū)域和非印文區(qū)域,利用這個2個區(qū)域像素在HSV 空間的顏色分量作為訓練向量,訓練SVM。最后將待檢測印鑒的每個像素的顏色分量放入SVM 中判斷像素是否屬于印文區(qū)域,對于印文區(qū)域進行保留,非印文區(qū)域置0。
圖1 印鑒數(shù)據(jù)庫中的部分印鑒
當有效印文從印鑒背景中被分割出之后,現(xiàn)有的方法通常采用將該印文與已有標準真實印鑒的印文比較的方法進行真?zhèn)巫R別,因此需要首先將待分析印文與真實印文進行對齊 (alignment),這要通過一個平移+旋轉(zhuǎn)的變換實現(xiàn)。梁吉勝等[8]計算印鑒圖像幾何中心,并將印鑒圖像由直角坐標系變換到極坐標系,利用設計的8種不同頻率的輻射狀模板分別與預留印鑒和待檢驗印鑒做卷積運算,運算時模板中心必須與印鑒的幾何中心重合。依據(jù)卷積結(jié)果設計目標函數(shù),通過對目標函數(shù)求極小值尋找到最佳對齊旋轉(zhuǎn)角度。
在圖像對齊之后,需要對對齊后圖像進行鑒別,判斷其是否屬于真實印鑒。文獻 [9]對于對齊后的圖像計算不重合的對應邊緣之間的距離和它們的長度,根據(jù)這2個參數(shù)是否超過閾值來鑒別印鑒的真?zhèn)巍?/p>
本文提出了一種同時攻克上述3個難點問題的自動的偽造印鑒識別方法。該方法將有效印文的提取以及真?zhèn)斡¤b的識別2個核心任務建立在有監(jiān)督分類框架下。大量的統(tǒng)計結(jié)果表明,偽造印鑒不能在全局結(jié)構(gòu)與局部細節(jié)上同時做到與真實印鑒的一致性,基于這一事實,本文采用由局部特征匹配點生成的結(jié)構(gòu)線的幾何一致性作為真?zhèn)斡¤b的評價判據(jù),為了提高算法的魯棒性以及使其更適應實際應用情況,方法利用待驗印印鑒與真實印鑒多次蓋印的一致性程度生成分類向量。本文所提出算法的流程如圖2所示,具體方法將在接下來的各章中詳細介紹。
本文所提出的有效印文的提取方法,以及基于幾何一致性的印鑒識別方法都建立在有監(jiān)督分類的框架體系下。這種方法需要預先構(gòu)建包含正負樣本的數(shù)據(jù)庫,出于研究目的,本文構(gòu)建了 “印鑒印文數(shù)據(jù)庫”和 “有效印文提取數(shù)據(jù)庫”。
圖2 方法流程及示例
數(shù)據(jù)庫中包含真實印鑒1000 個,偽造印鑒2000 個,總計3000個印鑒圖像。每個真實印鑒印文都有相對應的不同數(shù)量的偽造印鑒印文圖像。考慮到實際應用中,蓋印文件類型多樣 (如表格,圖文,顏色等的差異),蓋印條件千差萬別 (如蓋印力度,印章著泥多少等),甚至圖像采集系統(tǒng)的光照差異等情況導致的印鑒印文圖像的變化。該數(shù)據(jù)庫包含印章在各種不同蓋印條件下生成的印鑒圖像。數(shù)據(jù)庫的部分示例如圖1所示,其中左側(cè)三列為真實印章蓋印得到的印鑒,右側(cè)兩列為偽造印章蓋印得到的印鑒。
有效印文的提取屬于圖像分割范疇,本文的方法不同于之前的工作,將印文的提取建立在分類框架下,通過對有效印文和印文背景的聯(lián)合學習,構(gòu)建分類器,從而完成有效印文提取工作?;谌?.1節(jié)所述的印鑒印文數(shù)據(jù)庫,將印文和背景分離開,構(gòu)建有效印文提取數(shù)據(jù)庫,構(gòu)建過程中重點考慮了存在同色印泥差異的印文,存在圖像采集系統(tǒng)光照差異的印文,以及復雜文件背景等情況。圖3給出了該數(shù)據(jù)庫的一部分例子,其中第一行為圖1中第一行各印鑒的背景,第二行為對應的有效印文。
圖3 有效印文提取訓練數(shù)據(jù)庫
有效印文的提取是印鑒真?zhèn)巫R別任務的第一步,也是尤為關(guān)鍵的一步,有效印文提取質(zhì)量的高低直接決定著真?zhèn)卧u價的成敗。由于印文顏色的特殊性,基于顏色的方法是當前印文分割的常用方法,已有方法通常通過將圖像某像素在某個顏色空間的值與預先給定的局部閾值或者全局閾值進行比較,從而判斷其是否屬于有效印文。分割閾值的選取通常采用經(jīng)驗值,或者根據(jù)顏色理論計算得到。本文提出的方法基于分類框架,對于圖像I中某個像素xi=x(hi,si,vi),xi∈I,其中x(hi,si,vi)表示xi在HSV 顏色空間中對應分量hi,si,vi所構(gòu)成的向量,本文用該向量描述像素。顏色提取問題轉(zhuǎn)化為分類問題
當yi=1則xi為有效印文,yi=-1,則xi為背景,其中f_ext(.)表示有效印文分類器,它通過有效印文提取訓練數(shù)據(jù)庫學習得到。為了得到f_ext(.)本文從如圖3所示的正樣本數(shù)據(jù)庫中提取了100 000個訓練樣本,采用如上所述的HSV 顏色空間向量表達,并賦予這些樣本類標+1。同理,從負樣本數(shù)據(jù)提取了100 000個背景訓練樣本,賦以類標-1。采用libSVM[10]實現(xiàn)了SVM 分類器,2個參數(shù)c,g采用5-fold交叉驗證 (5-fold cross validation)的方法優(yōu)化得到。圖6給出了對幾個印鑒的有效印文提取的結(jié)果圖(未經(jīng)任何其它圖像處理的原始提取圖),從中可以看出,該方法能夠在復雜背景條件下,準確提取出有效印文。
如圖2所示流程,當待驗印鑒的有效印文從蓋印文件中提取出來之后,首先提取待驗印鑒和數(shù)據(jù)庫中與待驗印鑒具有相同印文的在不同蓋印條件下獲得的真實印鑒 (已提取出有效印文,本文采用9個)的局部特征點。本文采用SIFT 特征點提取及描述方法,SIFT (scale invariant feature transform)[11]特征具有尺度、光照、旋轉(zhuǎn)等不變性,是當前獲得成功應用的一種典型局部特征描述符。由于印鑒圖像在采集過程中不存在尺度變化,因此本文主要利用了SIFT 特征的光照和旋轉(zhuǎn)不變性,前者賦予了實際應用中圖像采集部分一定的光照變化富裕度,后者則使本文方法回避了復雜的印鑒對準過程。
當待驗印鑒與數(shù)據(jù)庫中真實印鑒的特征提取完成后,將待驗印鑒的特征與每個真實印鑒分別進行匹配,得到匹配特征點對,如圖2所示。待驗印鑒中的特征點與第一個真實印鑒中的匹配,獲得所有的匹配點后 (例如,Pi_1與Pr_1匹配,Pi_2與Pr_2匹配),隨機生成10條匹配特征線,如Li12=d(Pi_1,Pi_2),其中函數(shù)d(.)表示計算點Pi_1,Pi_2之間的像素長度。當待驗印鑒與真實印鑒1的對應匹配生成線計算完成后,比較各對應生成線幾何特征的一致性,采用規(guī)則為,當式 (2)成立時,認為這2條線具有幾何一致性
最后計算幾何一致的生成線數(shù)與所有生成線的比例,得到待驗印鑒與真實印鑒1之間的幾何一致度,如圖2所示,待驗印鑒與真實印鑒1之間的幾何一致度為0.75,也就是說2個印鑒間有75%的匹配生成線被認為是幾何一致的。同理計算待驗印鑒與其它真實印鑒的幾何一致度,將各幾何一致度數(shù)值生成向量得到基于幾何一致度統(tǒng)計的印鑒表達。
式 (2)中選擇的5%為經(jīng)驗值,出于如下考慮:印鑒長與寬的平均大小均為15mm,所對應的采集圖像大小為700×700像素,印文區(qū)域處于圖像中心大小為500×500像素。最長的匹配線不會超過400像素,兩條匹配線所允許的最大差異為5%×400=20 像素,大約是 (15/500)×20=0.6mm,即我們要求真假印鑒的字符間距布局不能有0.6mm 的區(qū)別。這樣的精度范圍即使是高仿印鑒也很難達到。
另外需要說明的是,由于蓋印條件的不同,各印鑒中所能提取的SIFT 特征點的數(shù)量是不等的,比如某些印鑒由于蓋印原因明顯缺失了一部分,就僅能提取出少量特征點,而匹配的特征點數(shù)會進一步減小。本文方法的一大優(yōu)勢體現(xiàn)在,即使在這種情況下,本文方法也可以通過少量匹配的特征點 (大于等于5個匹配點,即可隨機生成10條匹配線)生成線的一致性做出真?zhèn)闻袛?。而且多特征線比較結(jié)果與多印鑒統(tǒng)計結(jié)果的聯(lián)合使用進一步增強了本文方法的魯棒性。如圖4所示,圖中為部分正確識別的有缺失的印鑒圖像。
圖4 正確識別的有缺失的印鑒圖像
本文所提出的方法建立在大量統(tǒng)計分析結(jié)果之上,這里給出本工作預研階段所進行的一些統(tǒng)計分析結(jié)果,說明方法的可行性。本文方法的理論依據(jù)建立在偽造印鑒不能在全局結(jié)構(gòu)與局部細節(jié)上同時做到與真實印鑒保持一致,為此本文進行了大量的統(tǒng)計分析,評價該依據(jù)的可靠性。以圖1中三組 (a vs.m,d vs.n,g vs.l)真?zhèn)斡¤b對為例,圖5給出了它們分別與對應的真實印章的9次不同蓋印印文的幾何一致度曲線,從中可以看出,真實印鑒 (a,d,g)與各真實印鑒之間的幾何一致度 (黑色曲線)普遍高于偽造印鑒 (m,n,l)與各真實印鑒的幾何一致度 (灰色曲線),盡管存在個別差異 (如a和m 在第8個蓋印上的結(jié)果,g和l在第5個蓋印上的結(jié)果),但是在統(tǒng)計上這種差異性是顯著的。本文的方法就是建立在這樣的統(tǒng)計事實基礎(chǔ)上的。
圖5 方法可行性分析示例
本文采用了簡單的K最近鄰(K-nearest neighbor,KNN)分類器作為真?zhèn)斡¤b識別分類器。KNN 是一個理論上較為成熟的方法,它的思想簡單直觀:在樣本空間里尋找與測試樣本最近鄰的K 個數(shù)據(jù),這些數(shù)據(jù)的大多數(shù)屬于哪一類別,就判斷測試樣本屬于哪一類別。如下公式計算
式中:X——測試樣本,Xj——樣本空間內(nèi)的樣本,共N個,上標i表示類別。K 個最近數(shù)據(jù)中,i的哪個值最多,測試樣本就屬于哪一類別。真?zhèn)斡¤b的識別是個兩類問題(c=2),我們將數(shù)據(jù)庫中所有真實印鑒與對應的真實印章的9次不同蓋印印文的一致度構(gòu)成一個正樣本的一致度表達,并賦予類標+1 (如圖5中黑色線所示),同理將偽造印鑒與對應的真實印章9次蓋印印文的一致度構(gòu)成負樣本的一致度表達,并賦予類標-1 (如圖5 中灰色線所示)。采用上述公式計算待驗印鑒的一致度表達與數(shù)據(jù)庫中各印鑒一致度表達的歐式距離,根據(jù)最近鄰的K 個樣本的類標的多數(shù)類評價待驗印鑒的真?zhèn)巍?/p>
本實驗驗證了本文所提出的有效印文提取方法的準確性,實驗從數(shù)據(jù)庫中隨機選擇兩組印文,每組各包含10個印鑒,第一組印鑒均蓋印在白色背景文件中,第二組印鑒均蓋印在具有復雜背景的文件中。采用本文方法提取的有效印文準確率通過如下公式計算
式中:s_gt、s_ext——groundtruth有效印文、提取的有效印文,函數(shù)overlap (.)計算2個印文的重疊區(qū)域,函數(shù)num (.)計算像素數(shù)目。提取的實例如圖6所示,第一行為從白色背景文件中提取的印文,第二行為從復雜背景文件中提取的印文。
圖6 有效印文提取實例
表1給出了具體的提取準確率數(shù)據(jù),從中可以看出,對于白色背景,本文算法可以非常準確的提取有效印文。對于復雜的背景,算法也給出了非常高的提取精度。最壞的情況出現(xiàn)在圖6第二行中間圖所示的結(jié)果,提取的準確率為89.02%,主要原因在于該文件的背景顏色與印泥的顏色非常接近。但是由于大量的錯誤發(fā)生在背景區(qū)域,即將不屬于有效印文的部分當作有效印文被提取,如3.1和3.2節(jié)所述,這些錯誤提取的印文很少 (或者基本不會)與真實印鑒的有效印文形成匹配的特征,因此對于真?zhèn)巫R別的影響不大,這一結(jié)果可以通過4.2節(jié)得到的結(jié)果看出。
表1 提取精度
本文采用了與文獻 [2]相似的評價方法進行了評價。文獻 [2]采用了①正確檢測率 (CR);②錯誤接受率(FAR);③錯誤排除率 (FRR);④模糊概率 “ambiguity rate”(AR)等4個標準進行了評價。由于本文采用兩類分類器,不會做出無法判斷的結(jié)論,因此未采用④標準。CR,F(xiàn)AR,F(xiàn)RR 按如下公式計算
式中:P,N——真實印鑒與偽造印鑒的個數(shù),TP,TN——正確識別的真實印鑒與偽造印鑒的個數(shù),F(xiàn)P,F(xiàn)N——錯誤識別的真實印鑒與偽造印鑒的個數(shù)。
實驗結(jié)果見表2,從中可以看出本文提出的方法的錯誤接受率為0%,即所有的偽造印鑒均被識別出。錯誤排除率為5.50%,36個真實印鑒有2個被誤判為偽造印鑒。主要是由于背景與印鑒顏色太過相近,在提取過程中印鑒的部分信息被破壞導致的。并且正確識別的印鑒包含圖4中有缺失印文的圖像??梢缘贸?,本文方法對于部分缺失印文的圖像就有很好的魯棒性。
表2 檢測精度
本文提出了一種建立在真?zhèn)斡¤b幾何一致性統(tǒng)計差異上的偽造印鑒識別方法,系統(tǒng)研究了有效印文的提取方法以及真?zhèn)斡¤b的識別方法,通過將這2個難點問題建立在有監(jiān)督學習框架下,同時提高了有效印文提取的精度,以及對偽造印鑒識別的精度。本文的主要貢獻體現(xiàn)在3個方面:
(1)本文出于研究的目的,建立了印鑒識別數(shù)據(jù)庫,這是目前已知的規(guī)模最大的,蓋印情況最豐富的數(shù)據(jù)庫。如圖1所示,通過增加蓋印文件背景的復雜性,以及蓋印的差異性,我們有意識的增加了印章印文提取,以及相關(guān)的印鑒識別問題的研究難度,使所提出的研究方法更能適用于實際情況。
(2)本文所提出的方法,通過匹配的局部特征點(SIFT)直接生成待檢驗的線,因此不需要圖像對齊這一過程,在減少了算法復雜度的同時,也避免了由于對齊不準而引起的誤判等情況。另一方面,該方法通過計算特征點的匹配獲得了印鑒的局部信息,通過匹配特征點生成的線獲得了印鑒的結(jié)構(gòu)信息,因此同時做到了從細節(jié)和結(jié)構(gòu)兩方面對印鑒進行分析,從而提高了偽造印鑒識別的精度。
(3)與現(xiàn)有方法經(jīng)常采用的將待驗印鑒與一個標準印鑒進行比較的方法不同,本文方法將待驗印鑒與多個真實印鑒多次蓋印的印文進行一致性比較,以一致度的統(tǒng)計結(jié)果評價待驗印鑒的真?zhèn)?。這一做法允許待驗印鑒發(fā)生蓋印的差異,增強了算法的魯棒性。
從本文的工作以及現(xiàn)有的一些論文的情況看,如圖1g,以及圖6中第二行中間的圖所示的提取結(jié)果,以及實驗中所反映的由此導致的兩個錯誤排除情況,當印鑒被蓋印在顏色與印泥顏色非常接近的文件上時,基于顏色空間的提取方法將受到很大的影響,因此在今后的工作中,我們將從新的角度對該問題進行進一步的研究。目前系統(tǒng)框架不包含表單的表格線顏色恰好與印泥顏色相似的情況,該種情況復雜且極具挑戰(zhàn)性,我們會進一步研究試圖解決此問題。
通過引入專家決策機制,對一次鑒別結(jié)論 (如本文方法)進行二次分析,進一步減少錯誤排除以及錯誤接受情況的發(fā)生,也是我們下一步工作的重點。
[1]ZHU Junchao.Research on recognition method for verification of circle seal stamped on finance note [D].Tianjin:Tianjin University,2007 (in Chinese).[朱均超.金融票據(jù)圓形印鑒真?zhèn)巫R別方法研究 [D].天津:天津大學,2007.]
[2]Lang H T,Xie C R,Qi X,et al.Seal forgery detection by geometric consistency [C]//Proceedings of Information:An International Interdisciplinary of Journal.Japan:International Information Institute,2012:3695-3699.
[3]ZHANG Xuedong,PAN Xiaohong.Least square method based repairing method for broken seal imprint contour[J].Computer Engineering and Design,2009,30 (20):4693-4696 (in Chinese).[張學冬,潘曉紅.基于最小二乘法的印鑒缺損輪廓 修補法 [J].計算機工程與設計,2009,30 (20):4693-4696.]
[4]DAI Xinliang,SUN Weizhen.Image pre-processing study for seal verification [J].Microcomputer Information,2007,24(27):305-306 (in Chinese).[戴新亮,孫衛(wèi)真.印鑒識別中圖像預處理問題的研究 [J].微計算機信息,2007,24 (27):305-306.]
[5]CHU Changqing.An authenticity verification technology of bank seal[J].Computer CD Software and Applications,2012(5):132-132 (in Chinese).[儲常青.銀行業(yè)印章真實性驗證技術(shù)研究 [J].計算機光盤軟件與應用,2012 (5):132-132.]
[6]Pan W,Hu J.Seal imprint segmentation based on color feature classifier[C]//International Conference on Proceedings of Audio,Language and Image Processing.Shanghai,China:IEEE,2012:837-840.
[7]Wang X,Chen Y.A novel seal imprint verification method based on analysis of difference images and symbolic representation [G].LNCS 6540:Computational Forensics,2011:56-67.
[8]LIANG Jisheng,WU Yajuan.Registration method based on the radial template[J].Journal of Daqing Petroleum Institute,2011,35 (4):87-90 (in Chinese). [梁吉勝,吳亞娟.基于輻射狀模板的圓形印章配準方法 [J].大慶石油學院學報,2011,35 (4):87-90.]
[9]HE Jin,LIU Tiegen.Automatic seal identification using edge difference [J].Chinese Journal of Scientific Instrument,2010,31 (1):85-91 (in Chinese).[何瑾,劉鐵根.基于邊緣差異的印鑒自動鑒別 [J].儀器儀表學報,2010,31 (1):85-91.]
[10]Lin Chih-Jen.LIBSVM [EB/OL]. [2011-12-01].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
[11]Lowe DG.Distinctive image features from scale-invariant keypoints[J].Int’l Journal of Computer Vision,2004,60(2):91-110.