国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)和KNN算法的筆跡性別識別

2020-02-22 06:52:26盛思遠(yuǎn)趙洋洋
科技創(chuàng)新導(dǎo)報(bào) 2020年25期
關(guān)鍵詞:筆跡卷積神經(jīng)網(wǎng)絡(luò)

盛思遠(yuǎn) 趙洋洋

摘? 要:基于筆跡的性別識別在取證分析中具有重要意義。但是目前的筆跡性別識別的智能算法大多是在筆跡空間進(jìn)行直接分類,筆跡中包含大量無意義信息,分類準(zhǔn)確率不高。本文通過將筆跡空間轉(zhuǎn)化為筆跡相似度空間,通過Mnist數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)得到數(shù)字識別模型,然后用自制帶性別標(biāo)簽的數(shù)據(jù)集進(jìn)行測試并計(jì)算得到表現(xiàn)字跡風(fēng)格的兩種數(shù)據(jù)集。進(jìn)一步基于KNN算法,對字跡進(jìn)行性別識別,綜合兩種數(shù)據(jù)集得到的預(yù)測結(jié)果,測試準(zhǔn)確度能達(dá)到74%。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)? KNN算法? 性別識別? 筆跡

中圖分類號:TP391.41? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)09(a)-0112-04

Abstract:Gender recognition based on handwriting is of great significance in forensic analysis. However, the current intelligent algorithm of handwriting gender recognition mostly classifies directly in the handwriting space, which contains a lot of meaningless information, and the classification accuracy is not high. In this paper, we convert the handwriting space into the handwriting similar space, by training the convolutional neural network in the Mnist data set to obtain the digital recognition model, and then test the self-made data set with gender label and calculate the two data sets that show the handwriting style. Furthermore, based on KNN algorithm, gender recognition of handwriting was carried out, and the test accuracy reached 74% based on the prediction results obtained from the two data sets.

Key Words: Convolutional neural network; KNN algorithm; Gender recognition; Handwriting

對筆跡的性別識別在調(diào)查取證分析中有重要的意義[1],筆跡中包含的因素主要可以分為兩類,一是對已有字體進(jìn)行模仿,二是在模仿過程中形成個(gè)人的風(fēng)格。理論上來說每個(gè)人的筆跡都有個(gè)人不同的風(fēng)格,因此從筆跡中獲得各種信息是理論可行的,一些專家學(xué)者提出了筆跡的動(dòng)態(tài)特征研究方法[2]。目前,大部分對于筆跡的分析都是基于圖像識別的原理,通過卷積神經(jīng)網(wǎng)絡(luò)對圖像的特征值進(jìn)行識別和操作,例如基于梯度的識別算法GLBP[3],準(zhǔn)確率可以達(dá)到70%,基于多層卷積網(wǎng)絡(luò)的模式識別算法,準(zhǔn)確率可以達(dá)到71.9%。直接對筆跡圖片進(jìn)行識別操作的方法,造成算法的應(yīng)用空間范圍在整個(gè)圖片上均勻分布,計(jì)算過程中輸入數(shù)據(jù)的復(fù)雜度較大,計(jì)算結(jié)果的準(zhǔn)確度不高。另一方面,由于缺乏統(tǒng)一規(guī)格的中文離線簽名數(shù)據(jù)庫,在訓(xùn)練過程中,很難充分訓(xùn)練[4]。

本文提出了一種在識別之前進(jìn)行空間轉(zhuǎn)換的思路,將筆跡圖片先行識別,利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)得到筆跡圖片對于真值的相似度向量集,再利用KNN算法預(yù)測筆跡的性別,在準(zhǔn)確度上有較大的提升。

1? 相似度向量的提取

為了提取筆跡的相似度,我們利用Mnist數(shù)據(jù)集訓(xùn)練一個(gè)4層卷積神經(jīng)網(wǎng)絡(luò),然后利用此網(wǎng)絡(luò)計(jì)算自制數(shù)據(jù)集訓(xùn)練組對照真值的相似度。

1.1 用于識別數(shù)字的卷積神經(jīng)網(wǎng)絡(luò)

Mnist數(shù)據(jù)集由6萬個(gè)訓(xùn)練樣本和1萬個(gè)測試樣本組成,每個(gè)樣本為單張手寫數(shù)字圖片和對應(yīng)的數(shù)字標(biāo)簽,規(guī)格為28*28的灰度。卷積網(wǎng)絡(luò)由兩個(gè)卷積層兩個(gè)池化層和兩個(gè)全連接層組成。本文使用基于Tensorflow2.0的keras框架,搭建計(jì)算模型,激活函數(shù)和損失函數(shù)選取如表1。

模型的最終輸出為10位One-hot形式,對訓(xùn)練得出的網(wǎng)絡(luò)利用測試樣本進(jìn)行檢測,數(shù)字識別準(zhǔn)確率達(dá)到97.8%,將此模型當(dāng)作標(biāo)準(zhǔn)網(wǎng)絡(luò)計(jì)算相似度向量。

1.2 差異度與相似度向量的計(jì)算

由于Mnist數(shù)據(jù)集中,沒有性別標(biāo)簽,因此我們需要自建數(shù)據(jù)集獲得字跡和性別之間的關(guān)系,每個(gè)樣本必須是同一個(gè)人的字跡,包括0~9十張圖片和對應(yīng)的數(shù)字標(biāo)簽。利用已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)辨識圖片得出Ont-hot類型的結(jié)果Aij,Rij∈10*10。我們把訓(xùn)練的結(jié)果寫成一個(gè)10*10的矩陣形式,其中Rij表示第i張圖片訓(xùn)練的One-hot形式的結(jié)果上第j個(gè)位的輸出。然后將A減去單位矩陣I得到結(jié)果矩陣R,由于R的每一個(gè)元素都代表著樣本測試距離Mnist字跡風(fēng)格的偏移,因此R代表了樣本字跡的風(fēng)格。

R中每一列表示書寫數(shù)字的字跡對某一個(gè)數(shù)字的傾向,因此將R縱向都加得出差異度向量M,Mj=Σi|Rij|。

R中每一行表示書寫某個(gè)數(shù)字時(shí)與Mnist字跡相比的偏差,因此將R橫向相加得出相似度向量N,Ni=Σj|Rij|。

研究中,把每一人的字跡與對應(yīng)的性別標(biāo)簽當(dāng)作一個(gè)樣本,為了保證樣本對于性別的敏感性,我們選取了500組樣本,300組作為訓(xùn)練集,200組作為測試集,兩種性別各半。為了防止年齡文化程度等因素的干擾,我們直接從同一年級的學(xué)生作業(yè)中掃描得出樣本。

2? 基于KNN的字跡性別識別

KNN網(wǎng)絡(luò)是一種K近鄰算法,當(dāng)訓(xùn)練樣本較多時(shí),有很好的準(zhǔn)確度,我們分別從字跡的錯(cuò)誤傾向和字跡相似度兩個(gè)方面,利用KNN網(wǎng)絡(luò)對字跡進(jìn)行性別識別。其中,度量空間我們選用歐氏距離,并在K近鄰中取平均權(quán)重。

2.1 實(shí)驗(yàn)結(jié)果

在計(jì)算中,由于我們選取了歐式距離和平均權(quán)重,K近鄰算法只有一個(gè)超參數(shù)K,我們簡單的進(jìn)行窮舉式的超參數(shù)優(yōu)化,計(jì)算不同的K值情況下,性別的預(yù)測結(jié)果。利用差異度向量樣本集進(jìn)行訓(xùn)練和測試,得到的最高準(zhǔn)確率在K=12時(shí)出現(xiàn),為68%;利用相似度向量樣本集進(jìn)行訓(xùn)練和測試,得到的最高準(zhǔn)確率在K=11時(shí)出現(xiàn),為70%。將兩種測試集的預(yù)測結(jié)果加權(quán)平均到一起,得到的最高準(zhǔn)確率在K=11時(shí)出現(xiàn),為70%,準(zhǔn)確度隨K的變化如圖1。

2.2 優(yōu)化分析

將兩種測試集的測試結(jié)果平均到一起,預(yù)測的結(jié)果并沒有顯著改變,說明差異度向量和相似度向量中的每一個(gè)都可以完全代表樣本的字跡風(fēng)格,因此單獨(dú)使用一個(gè)測試集,經(jīng)過優(yōu)化就可以達(dá)到相同的準(zhǔn)確效果。

在這里,我們猜測,某些人的字跡有明顯的性別傾向,如果使用這些人的字跡作為訓(xùn)練集,應(yīng)該能更好表示字跡的性別特征。基于此,我們利用循環(huán)的將每個(gè)樣本放入測試集進(jìn)行計(jì)算,將預(yù)測成功比率高的300個(gè)樣本當(dāng)作新的訓(xùn)練集,同時(shí)引入額外制作的測試集(樣本數(shù)量300,性別比1:1),同樣利用KNN,發(fā)現(xiàn)準(zhǔn)確率在K=10時(shí)達(dá)到了74%,比基于局部特征的算法[5]高出4個(gè)百分點(diǎn),比基于 GMM 的算法高出6.43個(gè)百分點(diǎn)。準(zhǔn)確度隨K的變化如圖2。

由此可見,有些字跡的風(fēng)格有明顯的性別傾向,而有些字跡的風(fēng)格與性別關(guān)系不大,因此選用隨性別變化明顯的字跡作為訓(xùn)練集更能體現(xiàn)字跡的性別傾向,識別的效果更好,驗(yàn)證了我們的猜測。

2.3 算法進(jìn)化

在實(shí)際應(yīng)用中,這樣選取樣本的代價(jià)過高,因此我們使用一種算法進(jìn)化的方式。首先我們隨機(jī)選取300個(gè)樣本作為訓(xùn)練集,每加入一個(gè)測試集,若預(yù)測成功,則以一定概率p代替據(jù)此測試樣本距離最遠(yuǎn)的訓(xùn)練樣本,被代替的樣本加入測試集的末尾,循環(huán)迭代。本文最終可以達(dá)到2.2中得到的準(zhǔn)確度,當(dāng)p=0.15時(shí),迭代次數(shù)最小,為12000左右,本質(zhì)上是一種隨機(jī)梯度下降的算法。

3? 結(jié)語

目前對于筆跡的性別識別的研究,準(zhǔn)確度依然無法達(dá)到一個(gè)令人滿意的程度。可能由于一部分人的筆跡所包含的特征與性別的關(guān)系不大,而與其他一些諸如體質(zhì)、性格等因素相關(guān)。因此基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取和KNN的模式識別,在筆跡的性別識別中有很大的優(yōu)越性。但是由于KNN算法的限制,訓(xùn)練樣本數(shù)量不能過大,因此在訓(xùn)練集中筆跡的風(fēng)格可能不完備,無法識別測試樣本的某些特征,造成特征的缺失和疏漏,一定程度影響了準(zhǔn)確率。因此,需要繼續(xù)優(yōu)化算法對特征的識別,提高準(zhǔn)確率。

參考文獻(xiàn)

[1] 劉維達(dá),卜巍,鄔向前.基于深度學(xué)習(xí)的筆跡性別識別[J].智能計(jì)算機(jī)與應(yīng)用,2017,7(3):135-137.

[2] 陳曉紅.司法筆跡鑒定[M].北京:科學(xué)出版社,2018.

[3] Nesrine Bouadjenek, Hassiba Nemmour, Youcef Chibani. Age, gender and handedness prediction from handwriting using gradient features[C]// International Conference on Document Analysis & Recognition. IEEE, 2015.

[4] 賈昊麗,程永強(qiáng),李志磊.區(qū)間模糊相似性度量的離線簽名驗(yàn)證[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(18):122-126.

[5] N Bouadjenek, H Nemmour, Y Chibani. Local descriptors to improve off-line handwriting-based gender prediction[C]// Soft Computing & Pattern Recognition. IEEE, 2015.

[6] 殷亞博,楊文忠,楊慧婷,等.基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J].計(jì)算機(jī)工程,2018,44(7):193-198.

猜你喜歡
筆跡卷積神經(jīng)網(wǎng)絡(luò)
大衛(wèi)的漂流瓶
巧克力能否去除桌上的油性筆筆跡
少兒科技(2021年3期)2021-01-20 13:18:34
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
筆跡泄露大秘密
快樂語文(2016年7期)2016-11-07 09:43:56
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
論書寫速度變化筆跡鑒定
西藏科技(2015年4期)2015-09-26 12:12:51
筆跡不說謊
新营市| 高密市| 双辽市| 疏附县| 萨迦县| 海淀区| 武川县| 桐梓县| 安远县| 洮南市| 富川| 建水县| 泉州市| 湟源县| 蕲春县| 勐海县| 航空| 洛宁县| 孟连| 西乌珠穆沁旗| 兴安县| 彰化县| 滕州市| 沂源县| 恩施市| 重庆市| 韩城市| 陆丰市| 弋阳县| 焦作市| 临汾市| 日土县| 临澧县| 沂水县| 青岛市| 永昌县| 三河市| 资源县| 子洲县| 太谷县| 武城县|