申澤波,廖廣軍
(廣東警官學(xué)院刑事技術(shù)系,廣東廣州510232)
作為漢字的書寫現(xiàn)象,筆順是筆跡鑒定的重要依據(jù)。筆順識(shí)別指識(shí)別非連筆字的筆順。筆順識(shí)別是一種模式識(shí)別,即將樣本字的歸入與筆順對(duì)應(yīng)的模式類中。近些年,報(bào)道了一系列基于實(shí)驗(yàn)筆跡樣本數(shù)據(jù)的筆順識(shí)別方法,包括山、字、入等字。①申澤波.山字筆順識(shí)別方法[J].江蘇警官學(xué)院學(xué)報(bào),2011,(2):176-178.②申澤波,胡迎梅.女字筆順識(shí)別方法[J].廣東公安科技,2012,(2):24-26.③申澤波.入字筆順識(shí)別方法[J].中國(guó)司法鑒定,2012,(6):72-74.這些研究借鑒了計(jì)算機(jī)模式識(shí)別理論,在特征提取、分類器設(shè)計(jì)上取得了突破,識(shí)別方法有較高的有效性和可靠性。但已有研究忽視了筆跡樣本的筆順分布問題。在筆順自然分布的筆跡樣本中,少見筆順樣本比例較低,直接采用這樣的筆跡樣本作為訓(xùn)練樣本,降低了對(duì)少見筆順的準(zhǔn)確識(shí)別率。筆者認(rèn)為,可以通過人為增加少見筆順樣本來克服這一缺陷。
尚字頭是一個(gè)常用漢字部件,可以組成尚、常、堂、黨、掌等常用字,下文有時(shí)把尚字頭也稱作字。對(duì)尚字頭的筆順識(shí)別方法目前沒有報(bào)道,研究使用少見筆順增強(qiáng)訓(xùn)練樣本,建立了尚字頭筆順識(shí)別方法。
被試為641名在校本科生,年齡19-23歲。用投影儀顯示一篇短文,被試抄寫形成實(shí)驗(yàn)筆跡樣本。抄寫的短文有多種,均含有常和堂字。被試使用橫欄書寫紙、黑色中性筆書寫。
筆順數(shù)據(jù)由被試報(bào)告,采用專門程序獲取數(shù)據(jù)。第一步,被試2-3人分為一組,他們交叉識(shí)別組內(nèi)成員的筆順,將結(jié)果記錄在實(shí)驗(yàn)報(bào)告中。第二步,書寫樣本的被試核實(shí)他人的識(shí)別結(jié)果,結(jié)果錯(cuò)誤在實(shí)驗(yàn)報(bào)告中記錄正確的筆順。第三步,識(shí)別者查看核實(shí)結(jié)果,評(píng)估自己的準(zhǔn)確識(shí)別率。在這個(gè)過程中,被試之間相互制約,保證了數(shù)據(jù)的可靠性。
本次測(cè)試共收回實(shí)驗(yàn)筆跡樣本641份,其中,有效樣本636份,剔除了5份有錯(cuò)寫或別寫的樣本。按照實(shí)驗(yàn)的時(shí)間順序,將有效樣本分為兩部分:第一部分用于選取訓(xùn)練樣本,共496份;第二部分用于選取測(cè)試樣本,共140份。
識(shí)別方法的測(cè)試者為一名一年級(jí)本科生,無筆順識(shí)別經(jīng)驗(yàn)。
尚字頭由豎、點(diǎn)、撇3個(gè)筆畫構(gòu)成,有3個(gè)筆順,其中,豎點(diǎn)撇為常見筆順,點(diǎn)豎撇、點(diǎn)撇豎為少見筆順。非連筆的尚字頭是指依據(jù)連筆不能唯一地確定筆順的尚字頭。當(dāng)尚字頭的點(diǎn)與豎、豎與點(diǎn)、豎與撇連筆時(shí),都可以唯一地確定筆順,但點(diǎn)與撇連筆有豎點(diǎn)撇、點(diǎn)撇豎兩種筆順。
從第一部分實(shí)驗(yàn)樣本中選擇有非連筆尚字頭的樣本。在常見筆順樣本中隨機(jī)抽取了186份訓(xùn)練樣本,其中,172份樣本有2個(gè)非連筆尚字頭,14份樣本有1個(gè)非連筆的尚字頭,共獲得358個(gè)訓(xùn)練樣本字;把全部76份少見筆順樣本作為訓(xùn)練樣本,其中,67份樣本有2個(gè)非連筆的尚字頭,9份樣本有1個(gè)非連筆的尚字頭,共獲得143個(gè)訓(xùn)練樣本字。
從第二部分實(shí)驗(yàn)樣本中選擇有非連筆尚字頭的樣本,得到117份測(cè)試樣本,其中104份樣本有2個(gè)非連筆尚字頭,13份樣本有1個(gè)非連筆尚字頭,共獲得有221個(gè)測(cè)試樣本字。
分析訓(xùn)練樣本,提取尚字頭的下列形態(tài)特征作為筆順識(shí)別的依據(jù)。
1.豎筆的形狀。豎筆的形狀分為兩種:左凸的弧和其他形狀,如圖1所示,圖1中堂字尚字頭豎筆為左凸的弧,常字豎筆為其他形狀。左凸的弧又如圖3中的堂字。
圖1 尚字頭豎筆形狀
2.豎筆收筆方式。豎筆收筆方式有三種:一是無動(dòng)向鉤;二是有向左的動(dòng)向鉤;三是有向右的動(dòng)向鉤,如圖2、圖3所示。圖2為向左的動(dòng)向鉤,圖3中的常字為向右的動(dòng)向鉤。收筆動(dòng)向鉤指筆畫末端指向下一筆起筆方向的側(cè)鉤。有的動(dòng)向鉤較小,需要用顯微鏡觀察。
圖2 尚字頭豎筆左動(dòng)向鉤
圖3 尚字頭豎筆右動(dòng)向鉤
3.豎筆動(dòng)態(tài)。書寫運(yùn)動(dòng)在豎、撇等長(zhǎng)筆畫上易于形成收筆動(dòng)向鉤,對(duì)點(diǎn)筆卻會(huì)影響其自身的形態(tài),這種情況稱為點(diǎn)的動(dòng)態(tài)。點(diǎn)的動(dòng)態(tài)指點(diǎn)寫成漸細(xì)的弧形,且收筆指向下一筆的起筆方向。豎筆動(dòng)態(tài)指豎筆寫成點(diǎn)時(shí)的動(dòng)態(tài),有三種情況,無動(dòng)態(tài),向左動(dòng)態(tài),向右動(dòng)態(tài),如圖4所示。圖4中第一份樣本堂字為向左動(dòng)態(tài),常字為無動(dòng)態(tài),第二份樣本為向右動(dòng)態(tài)。
圖4 尚字頭豎筆動(dòng)態(tài)
4.豎筆與水平線的夾角。測(cè)量角度時(shí),水平軸方向向左。如豎筆為弧形,測(cè)其弦,豎筆部分為弧形,測(cè)其直線部分。豎筆為向左動(dòng)態(tài)時(shí),規(guī)定夾角為90°;豎筆為左凸的弧、向右動(dòng)態(tài)、圓點(diǎn)時(shí),規(guī)定夾角等于點(diǎn)筆與水平線的夾角;當(dāng)豎筆與水平線測(cè)量角度大于80°,小于90°時(shí),規(guī)定夾角為90°。
5.點(diǎn)筆動(dòng)態(tài)。點(diǎn)筆動(dòng)態(tài)有兩種:無動(dòng)態(tài)和向右動(dòng)態(tài),如圖4第一份樣本和圖5所示。點(diǎn)筆與撇筆連筆時(shí),點(diǎn)筆動(dòng)態(tài)難以觀察,規(guī)定點(diǎn)筆為向右動(dòng)態(tài)。
圖5 尚字頭點(diǎn)筆動(dòng)態(tài)
6.點(diǎn)筆與水平線的夾角。測(cè)量角度時(shí),水平軸方向向左。點(diǎn)筆為向右動(dòng)態(tài)、圓點(diǎn)時(shí),規(guī)定夾角為10°,如圖6所示。
圖6 尚字頭點(diǎn)筆為圓點(diǎn)
尚字頭筆順的分類器為決策樹和判別函數(shù)復(fù)合的形式。
1.決策樹。尚字頭豎筆與下方部件的橫筆交叉時(shí),筆順無法識(shí)別。豎筆與水平線夾角大于105°時(shí),筆順無法識(shí)別,小于等于105°時(shí),筆順由判別函數(shù)決定。
2.判別函數(shù)。設(shè):尚字頭豎筆收筆方式為X1,令無動(dòng)向鉤時(shí),X1=0;左動(dòng)向鉤時(shí),X1=50;右動(dòng)向鉤時(shí),X1=-50。
豎筆與水平線夾角為X2,X2取值不帶角度單位。
點(diǎn)筆與水平線夾角為X3,X3取值不帶角度單位。
擬定判別函數(shù)為:Y=(X1+3X2-X3)/200
3.判別規(guī)則:當(dāng)Y≤0.89時(shí),筆順為點(diǎn)豎撇;Y≥1.01時(shí),筆順為豎點(diǎn)撇;0.89<Y<1.01時(shí)筆順無法識(shí)別。
舉例,識(shí)別圖7的2份樣本的4個(gè)樣本字的筆順。
圖7 2份待識(shí)別筆順的樣本
圖7第一個(gè)樣本字判別函數(shù)值為1.1,筆順為豎點(diǎn)撇;第二、第三、第四個(gè)樣本字豎筆與水平線夾角大于105°,拒識(shí)。分類器拒識(shí)這三個(gè)樣本字是出于降低錯(cuò)誤率的考慮。第一份樣本的正確筆順為豎點(diǎn)撇,第二份樣本的正確筆順為點(diǎn)豎撇。
測(cè)試者得到的書面指導(dǎo)為本文結(jié)果與分析部分尚字頭筆順及樣本字選取、特征提取、分類器設(shè)計(jì)三部分的內(nèi)容,測(cè)試使用10倍刻度顯微鏡,判別函數(shù)值由Excel表格自動(dòng)計(jì)算。
在221個(gè)測(cè)試樣本字中,23個(gè)樣本字拒識(shí),拒識(shí)率10.4%,95%置信區(qū)間[6.3%,14.5%],11個(gè)樣本字識(shí)別結(jié)果錯(cuò)誤,錯(cuò)誤率5.0%,95%置信區(qū)間[2.1%,7.9%],準(zhǔn)確識(shí)別率84.6%,95%置信區(qū)間[79.9%,89.3%]。圖8為一份錯(cuò)誤識(shí)別筆順的樣本,正確的筆順為點(diǎn)豎撇。
圖8 錯(cuò)誤識(shí)別尚字頭筆順的樣本
尚字頭的特點(diǎn)是三個(gè)筆畫較小,且運(yùn)筆方向相近。在特征提取上,尚字頭筆順識(shí)別首次使用了點(diǎn)的動(dòng)態(tài)這個(gè)特征。筆跡鑒定的傳統(tǒng)方法沒有認(rèn)識(shí)到點(diǎn)筆動(dòng)態(tài)的作用。①賈玉文.筆跡檢驗(yàn)[M].北京:警官教育出版社,1999:106-109.對(duì)于筆畫角度,反犬旁筆順識(shí)別方法定性地使用了筆畫夾角特征,②申澤波.筆跡鑒定中的反犬旁筆順識(shí)別方法研究[J].廣東公安科技,2011,(1):7-9.入字筆順識(shí)別方法定量地使用了筆畫與水平線的夾角,③申澤波.入字筆順識(shí)別方法[J].中國(guó)司法鑒定,2012,(6):72-74.尚字頭則提取了兩個(gè)筆畫與水平線的夾角,以Z=3x-y這一抽象的函數(shù)關(guān)系為核心設(shè)計(jì)分類器,突破了筆畫夾角的形象性。
過去報(bào)道的筆順識(shí)別方法的分類器有決策樹和判別函數(shù)兩種形式。由于尚字頭的情況較為復(fù)雜,研究采用了決策樹與判別函數(shù)復(fù)合的多層次的分類器。決策樹主要是解決筆順點(diǎn)撇豎的分類問題,判別函數(shù)解決筆順豎點(diǎn)撇、點(diǎn)豎撇的分類。經(jīng)驗(yàn)表明,在使用筆畫角度特征時(shí),判別函數(shù)形式的分類器具有優(yōu)勢(shì)。
尚字頭筆順識(shí)別方法具有與已經(jīng)報(bào)道的筆順識(shí)別方法相當(dāng)?shù)目煽啃院陀行裕?,入字筆順識(shí)別方法準(zhǔn)確識(shí)別率84.0%,錯(cuò)誤率4.6%。④同③.研究使用了增強(qiáng)型訓(xùn)練樣本,有效提高了少見筆順點(diǎn)豎撇的準(zhǔn)確識(shí)別率。但尚字頭3個(gè)筆順中的點(diǎn)撇豎出現(xiàn)率很低,增強(qiáng)以后訓(xùn)練樣本數(shù)量仍然較少,導(dǎo)致分類器對(duì)這個(gè)筆順不敏感。實(shí)際上,分類器對(duì)這個(gè)筆順只能輸出拒識(shí)和其他筆順這兩種結(jié)果,這構(gòu)成了拒識(shí)率、錯(cuò)誤率的主要成分。
尚字頭筆順識(shí)別方法的建立,為筆跡鑒定提供了替代專家經(jīng)驗(yàn)的方法。在筆順識(shí)別領(lǐng)域,首次采用增強(qiáng)型訓(xùn)練樣本,顯示出這一方法的優(yōu)勢(shì),這在筆順識(shí)別研究中具有推廣價(jià)值。