劉維達(dá)+卜巍+鄔向前
摘要:筆跡性別識(shí)別在取證分析中具有重要意義。近年來(lái),雖然筆跡性別識(shí)別獲得了越來(lái)越多的關(guān)注,但是目前提出的算法都基于人工設(shè)計(jì)的特征,難以準(zhǔn)確地表達(dá)筆跡包含的信息,因而準(zhǔn)確率較低。針對(duì)這個(gè)問(wèn)題,本文提出了一種基于深度學(xué)習(xí)的筆跡性別識(shí)別方法,使用深度學(xué)習(xí)caffe工具,將預(yù)處理后的筆跡圖像輸人本文設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)。本文首先提取筆跡圖像的每個(gè)單詞,然后取單詞的不同全排列拼接成基礎(chǔ)圖,接著按照固定的大小從基礎(chǔ)圖截取材料圖,最后以材料圖為輸入數(shù)據(jù),以包含7個(gè)卷積層的網(wǎng)絡(luò)為模型進(jìn)行分類(lèi)。本文的方法在IAM On-Line公開(kāi)數(shù)據(jù)庫(kù)上進(jìn)行了測(cè)試,取得了較高的識(shí)別率。
關(guān)鍵詞:筆跡;性別識(shí)別;深度學(xué)習(xí)
0引言
近年來(lái),由于在數(shù)據(jù)挖掘、取證分析、文檔授權(quán)和判斷真實(shí)歷史筆跡等方面的應(yīng)用,筆跡分析變得愈加重要。人類(lèi)學(xué)習(xí)寫(xiě)字從模仿他人開(kāi)始并逐漸形成自己的筆跡風(fēng)格,在這個(gè)過(guò)程中,性別的影響是不容忽視的。Beech和Mackintosh研究了激素和筆跡風(fēng)格的關(guān)系,由此發(fā)現(xiàn)產(chǎn)前激素對(duì)女性的筆跡風(fēng)格有很大的影響。Mergl和Tigges的研究表明男性筆跡和女性筆跡存在明顯差異,女性的筆跡更加易讀,更加整潔和有組織性,而男性筆跡更加潦草,會(huì)出現(xiàn)更多的錯(cuò)誤。
目前筆跡性別識(shí)別的方法有:基于梯度的識(shí)別算法GLBP,提取圖像的HOG特征并結(jié)合根據(jù)LBP算子提取的梯度特征來(lái)支持處理識(shí)別,使用SVM進(jìn)行分類(lèi),獲得了75.45%的準(zhǔn)確率:基于局部特征的識(shí)別算法,設(shè)計(jì)塊特征計(jì)算密度并提取多種LBP特征和HOG特征加入研發(fā)識(shí)別,使用SVM進(jìn)行分類(lèi),獲得了70%的準(zhǔn)確率;基于GMM的識(shí)別算法,將局部特征和全局特征融合進(jìn)行分類(lèi),獲得了67.57%的準(zhǔn)確率。雖然現(xiàn)有的方法可以在一定程度上識(shí)別作者性別,但是由于這些特征表達(dá)的筆跡信息不準(zhǔn)確,識(shí)別率一直并不理想。而深度神經(jīng)網(wǎng)絡(luò)能夠自主學(xué)習(xí)特征,并且在人臉識(shí)別、物體的檢測(cè)識(shí)別系統(tǒng)方面取得了堪稱(chēng)優(yōu)良的效果,因此本文研發(fā)設(shè)計(jì)了一個(gè)深度適中的網(wǎng)絡(luò)對(duì)筆跡進(jìn)行性別分類(lèi)。
1圖像預(yù)處理
IAM On-Line數(shù)據(jù)庫(kù)提供了筆跡圖像按行分割的結(jié)果,圖1為一幅筆跡圖像按行分割的8幅圖像。訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù),而IAM中的筆跡圖像不到兩萬(wàn)幅,直接使用數(shù)據(jù)庫(kù)中的圖像顯然不能滿(mǎn)足要求,所以本文將這些圖像經(jīng)過(guò)一系列處理,生成了大量圖像。