国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

筆跡樣本提取專家知識(shí)庫(kù)的實(shí)踐應(yīng)用探析

2017-04-14 10:34黃李彥
軟件 2017年2期
關(guān)鍵詞:筆跡檢材知識(shí)庫(kù)

黃李彥

筆跡樣本提取專家知識(shí)庫(kù)的實(shí)踐應(yīng)用探析

黃李彥

(福建警察學(xué)院刑事科學(xué)技術(shù)系,福建 福州 350007)

為解決筆跡樣本提取專家系統(tǒng)無(wú)法解析生僻字、繁體字以及系統(tǒng)所輸出的設(shè)計(jì)文稿質(zhì)量不夠理想等問(wèn)題,我們需要對(duì)原有的專家知識(shí)庫(kù)進(jìn)行升級(jí)。具體做法是從筆跡樣本提取流程、漢字庫(kù)、漢字特征庫(kù)入手,對(duì)筆跡專家知識(shí)庫(kù)進(jìn)行重新構(gòu)建。實(shí)踐證明,升級(jí)完知識(shí)庫(kù)的筆跡樣本提取專家系統(tǒng)對(duì)漢字的解析能力更強(qiáng),輸出文稿質(zhì)量更高,更具實(shí)用性和拓展性。

筆跡鑒定;樣本提??;專家系統(tǒng);知識(shí)庫(kù)

1 引言

筆者曾于2014年研發(fā)了一套筆跡鑒定樣本提取專家系統(tǒng)V 1.0(下面簡(jiǎn)稱筆跡專家系統(tǒng)),系統(tǒng)主界面如圖1所示,該系統(tǒng)主要包含筆跡樣本提取專家知識(shí)庫(kù)(下面簡(jiǎn)稱筆跡知識(shí)庫(kù))、筆跡樣本提取業(yè)務(wù)邏輯庫(kù)以及智能推理機(jī)等模塊,系統(tǒng)可以實(shí)現(xiàn)對(duì)待檢驗(yàn)筆跡內(nèi)容按偏旁、筆畫、固定搭配等特征進(jìn)行分解,并按照檢材文稿格式生成筆跡樣本提取文稿[1]。

該系統(tǒng)的主要用戶包括公檢法系統(tǒng)的工作人員、司法鑒定機(jī)構(gòu)的工作人員及公安、司法類院校開(kāi)設(shè)文件檢驗(yàn)相關(guān)課程的師生。通過(guò)使用該系統(tǒng),用戶可以自行完成當(dāng)事人設(shè)計(jì)筆跡樣本的提取。經(jīng)過(guò)兩年多的實(shí)踐應(yīng)用,筆者陸續(xù)收到用戶的一些反饋,有褒有貶,下面筆者將用戶反饋的主要問(wèn)題進(jìn)行歸納,并探析相應(yīng)的改進(jìn)方案。

圖1 主界面Fig.1 The main interface

2 原有系統(tǒng)知識(shí)庫(kù)問(wèn)題分析

用戶所反饋的問(wèn)題,大致可以歸納為以下幾類:

(1)生僻字無(wú)法分析

在用戶反饋中,生僻字無(wú)法解析所占的比重比較大,諸如“犇”、“焺”、“燚”、“珄”、“贇”、“菥”、“媺”、“鰆”等字都曾有人反饋過(guò),而且這些字是出現(xiàn)在人名當(dāng)中,正是筆跡鑒定的重點(diǎn)對(duì)象。

(2)繁體字無(wú)法分析

也有很多用戶反饋繁體字無(wú)法解析,這些字主要出現(xiàn)在兩個(gè)地方:一是和臺(tái)資企業(yè)、臺(tái)胞來(lái)往的文件,幾乎全是繁體;二是一些老人家書寫的文書,里頭也有大量的繁體字,甚至還有很多異體字。比如“墻”字,有寫“墻”的,有寫“牆”的,還有寫“廧”的。

(3)筆畫分析不夠細(xì)致

對(duì)筆畫特征的分析不夠深入、細(xì)致,比如“力”的第一個(gè)筆畫、“月”字的第二個(gè)筆畫,都解析為“橫折鉤”,但是在筆形上前者更準(zhǔn)確的說(shuō)應(yīng)該是“橫撇鉤”,后者應(yīng)該是“橫豎鉤”;相同偏旁不同單字也可能出現(xiàn)筆形的區(qū)別,比如“玥”、“情”字,雖然都有“月”,解析筆畫也一致,但是前者的“月”的第一筆畫在筆形上是“撇”,后者的“月”的第一筆畫則是“豎”。

(4)固定搭配分析不全面

對(duì)漢字的構(gòu)件拆分方法比較單一,比如“戴”字,系統(tǒng)把它分解為“異”,但實(shí)際上它還可以分解為“田共”、“土田八戈”,再比如“糊”字,系統(tǒng)把它分解為“米胡”,但實(shí)際上它還可以分解為“米古月”、“米十口月”。

(5)沒(méi)有考慮間架結(jié)構(gòu)

系統(tǒng)缺乏對(duì)漢字間架結(jié)構(gòu)的歸類解析,在實(shí)踐中,很多書寫者曾練習(xí)過(guò)書法,并閱讀過(guò)《間架結(jié)構(gòu)摘要九十二法》、《結(jié)字三十六法》、《黃自元書法間架結(jié)構(gòu)九十二法》、《大字結(jié)構(gòu)八十四法》之類的書籍,其筆跡在間架結(jié)構(gòu)上有明顯特征,但是系統(tǒng)之前沒(méi)有考慮到。

3 系統(tǒng)知識(shí)庫(kù)改進(jìn)方案分析

3.1原因分析

筆者之前在設(shè)計(jì)系統(tǒng)時(shí)采用的是用戶界面層、業(yè)務(wù)邏輯層及數(shù)據(jù)庫(kù)層三層分開(kāi)的系統(tǒng)架構(gòu)[2],如圖2所示,在整套系統(tǒng)中,處于數(shù)據(jù)庫(kù)層的知識(shí)庫(kù)是整套系統(tǒng)運(yùn)行的基礎(chǔ)。由此可見(jiàn)上述問(wèn)題之所以會(huì)出現(xiàn),其根本原因是當(dāng)時(shí)設(shè)計(jì)知識(shí)庫(kù)時(shí)考慮不夠全面,和實(shí)踐應(yīng)用存在一定的脫節(jié),另外所填充的數(shù)據(jù)也不夠完善。因此,想解決用戶反饋的那些問(wèn)題,只有一個(gè)方案,那就是對(duì)原有的筆跡知識(shí)庫(kù)進(jìn)行更新?lián)Q代。

圖2 系統(tǒng)架構(gòu)Fig.2 The structure of system

3.2改進(jìn)思路

要想完成筆跡知識(shí)庫(kù)的更新?lián)Q代,首先需要全面查閱專業(yè)書籍、網(wǎng)站及相關(guān)文獻(xiàn),重新收集、歸納筆跡樣本提取的方法,同時(shí)聯(lián)系一批在一線工作的筆跡鑒定專家、從業(yè)人員,進(jìn)行實(shí)地調(diào)研,全面分析、歸納提取筆記樣本的流程、要點(diǎn)以及操作技巧。在此基礎(chǔ)上,再?gòu)臐h字的數(shù)量、使用頻率、偏旁部首、外觀結(jié)構(gòu)、異體字、字體、書寫習(xí)慣等方面入手,重新分析、歸納漢字的特征。在完成上述兩項(xiàng)工作的前提下,召集計(jì)算機(jī)編程方面的專家進(jìn)行研討,重新設(shè)計(jì)專家知識(shí)庫(kù)的數(shù)據(jù)庫(kù)模型及數(shù)據(jù)庫(kù)表結(jié)構(gòu),并設(shè)計(jì)出自動(dòng)、人工構(gòu)建專家知識(shí)庫(kù)所需要的方法、流程及輔助工具,最終完成專家知識(shí)庫(kù)的升級(jí)、改進(jìn)。

3.3數(shù)據(jù)來(lái)源

筆者通過(guò)大量調(diào)研,最終選定以下四個(gè)網(wǎng)站作為本次專家知識(shí)庫(kù)升級(jí)的主要數(shù)據(jù)來(lái)源:

(1)HTTPCN

該網(wǎng)站網(wǎng)址為http://www.httpcn.com/,網(wǎng)站有一個(gè)漢語(yǔ)字典功能,可提供漢字在拼音、簡(jiǎn)繁體、異體字、部首、筆畫、筆順、首尾分解查字、漢字部件構(gòu)造等方面的信息查詢。

(2)漢典

該網(wǎng)站網(wǎng)址為http://www.zdic.net/,網(wǎng)站有一個(gè)漢字條目查詢及拆分功能,可提供漢字在拼音、部首、字形分析、異體字、筆順、漢字結(jié)構(gòu)、構(gòu)件等方面的信息查詢。

(3)國(guó)學(xué)大師

該網(wǎng)站網(wǎng)址為http://www.guoxuedashi.com/,網(wǎng)站有一個(gè)漢字條目查詢功能,可提供漢字在拼音、部首、總筆畫數(shù)、筆順、異體字等方面的信息查詢。

(4)911查詢

該網(wǎng)站網(wǎng)址為http://www. 911cha.com/,網(wǎng)站有一個(gè)新華字典功能,可提供漢字在拼音、簡(jiǎn)繁體、異體字、部首、總筆畫數(shù)、筆順、漢字結(jié)構(gòu)等方面的信息查詢。

3.4升級(jí)方案

筆跡專家知識(shí)庫(kù)的升級(jí)由數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換及數(shù)據(jù)加載三個(gè)步驟組成[3],如圖3所示,其中數(shù)據(jù)抽取步驟負(fù)責(zé)將來(lái)自不同網(wǎng)站的異構(gòu)數(shù)據(jù)抽取到臨時(shí)數(shù)據(jù)區(qū);數(shù)據(jù)轉(zhuǎn)換步驟負(fù)責(zé)將臨時(shí)數(shù)據(jù)區(qū)中的數(shù)據(jù)進(jìn)行驗(yàn)證、替換、補(bǔ)缺、拆分、清洗、規(guī)范化以及合并匯總;數(shù)據(jù)加載步驟負(fù)責(zé)將轉(zhuǎn)換后的數(shù)據(jù)完整的存儲(chǔ)至知識(shí)庫(kù)[4]。

圖3 知識(shí)庫(kù)升級(jí)Fig.3 Knowledge base upgrade

4 新系統(tǒng)知識(shí)庫(kù)改進(jìn)效果分析

通過(guò)實(shí)施上述改進(jìn)方案,筆者成功構(gòu)建了一套新筆跡專家知識(shí)庫(kù),并對(duì)用戶發(fā)布了數(shù)據(jù)庫(kù)升級(jí)包,用戶通過(guò)安裝升級(jí)包便可完成筆跡專家系統(tǒng)知識(shí)庫(kù)升級(jí)[5]。

表1是筆跡專家系統(tǒng)在知識(shí)庫(kù)升級(jí)前后的主要指標(biāo)對(duì)比。

從升級(jí)用戶反饋的情況來(lái)看,升級(jí)完知識(shí)庫(kù)后的專家系統(tǒng)明顯比升級(jí)之前更好用,主要表現(xiàn)在對(duì)漢字的解析能力增強(qiáng),輸出文稿質(zhì)量提高以及更具實(shí)用性和拓展性等方面。

4.1對(duì)漢字解析能力增強(qiáng)

舊知識(shí)庫(kù)僅采集GB2312中所包含的6763個(gè)簡(jiǎn)體漢字的信息,而新知識(shí)庫(kù)由于選定了四大專業(yè)研究漢字的網(wǎng)站作為數(shù)據(jù)來(lái)源,可采集81408個(gè)字的信息,基本克服了生僻字、繁體字無(wú)法解析的現(xiàn)象。升級(jí)知識(shí)庫(kù)前的系統(tǒng)大概只能解析實(shí)踐中70%左右的檢材,而升級(jí)后至今還未出現(xiàn)無(wú)法解析的檢材,可見(jiàn),知識(shí)庫(kù)的升級(jí)使系統(tǒng)在檢材的解析能力方面得到了大幅度提升。事實(shí)上,從新知識(shí)庫(kù)的字庫(kù)覆蓋程度來(lái)看,系統(tǒng)對(duì)漢字檢材的解析能力已經(jīng)接近100%。

4.2輸出文稿質(zhì)量提高

實(shí)踐中,筆跡檢材字?jǐn)?shù)往往不多,比如常見(jiàn)的簽名筆跡鑒定,僅2-4個(gè)漢字,鑒定難度大;樣本質(zhì)量對(duì)鑒定工作是至關(guān)重要的,樣本必須包含一定數(shù)量的檢材相同字或偏旁部首,但如果樣本文稿設(shè)計(jì)的過(guò)于簡(jiǎn)單,比如完全采用檢材一樣的字或者相同的偏旁部首,就容易引起樣本書寫者的注意而導(dǎo)致偽裝現(xiàn)象頻繁出現(xiàn)。專家系統(tǒng)的設(shè)計(jì)理念是既要保證樣本文稿中檢材特征部位的出現(xiàn)率,又要保證樣本文稿的隱蔽性。

使用舊知識(shí)庫(kù)的專家系統(tǒng)雖然可以從單字的偏旁、筆畫、固定搭配對(duì)漢字進(jìn)行解析,但是由于對(duì)筆畫的解析沒(méi)有考慮筆形變化,對(duì)固定搭配的設(shè)置也很有限,所以整體上對(duì)漢字的解析能力不強(qiáng)。用戶反饋的意見(jiàn)是,實(shí)踐中基本上只能用偏旁進(jìn)行漢字解析,如果檢材中漢字特征出現(xiàn)在某個(gè)筆畫上,需要人為對(duì)輸出文稿進(jìn)行調(diào)整,無(wú)形中增加了用戶設(shè)計(jì)文稿的難度。使用新知識(shí)庫(kù)的專家系統(tǒng)由于增加了從間架結(jié)構(gòu)、筆形以及多種構(gòu)件對(duì)漢字進(jìn)行歸類、分解的功能,系統(tǒng)對(duì)漢字的解析能力增強(qiáng)了[6],對(duì)書寫者書寫特征出現(xiàn)次數(shù)、概率、分布位置的設(shè)計(jì)更加全面、隱蔽、科學(xué),設(shè)計(jì)思路更加接近人類專家[7],因此系統(tǒng)所給出的推薦文稿質(zhì)量比升級(jí)前有明顯提升,基本不用再做人工干預(yù)、修改即可直接投入使用。

表1 系統(tǒng)功能對(duì)比Tab.1 Function comparison of systems

4.3更具實(shí)用性和拓展性

用戶使用筆跡專家系統(tǒng)來(lái)設(shè)計(jì)文稿的目的是為提取書寫者的設(shè)計(jì)筆跡樣本服務(wù)。在實(shí)踐中,通常由樣本提取者采用不同的語(yǔ)速朗讀設(shè)計(jì)文稿,書寫者把聽(tīng)到的文稿內(nèi)容書寫在指定的紙張上。在聽(tīng)寫過(guò)程中,設(shè)計(jì)文稿可能出現(xiàn)朗讀者自己也不認(rèn)識(shí)的字,按照以前的做法是要去查字典,有時(shí)候這些字還不太容易查找到。為此,新知識(shí)庫(kù)特地增加了對(duì)漢字的拼音標(biāo)注功能,并附帶了相應(yīng)的語(yǔ)音文件,這個(gè)功能不僅可以解決實(shí)踐中工作人員由于不認(rèn)識(shí)生僻字難以讀稿所帶來(lái)的尷尬局面,未來(lái)還可以作為電腦語(yǔ)音自動(dòng)播報(bào)的支撐[8],系統(tǒng)比原來(lái)更具實(shí)際操作性和拓展性。

5 小結(jié)

筆跡專家知識(shí)庫(kù)是筆跡專家系統(tǒng)的基礎(chǔ),由于之前在設(shè)計(jì)知識(shí)庫(kù)時(shí)考慮不夠全面,導(dǎo)致筆跡專家系統(tǒng)在實(shí)踐應(yīng)用中出現(xiàn)了一些問(wèn)題,為此,筆者從筆跡樣本提取流程、漢字庫(kù)、漢字特征庫(kù)入手,對(duì)筆跡專家知識(shí)庫(kù)進(jìn)行了全面升級(jí),升級(jí)完知識(shí)庫(kù)的筆跡專家系統(tǒng)無(wú)論是功能、還是性能都得到了大幅度提升,普遍得到了用戶的認(rèn)可,整套系統(tǒng)具有更高的實(shí)用價(jià)值、更廣闊的推廣空間。

[1] 黃李彥, 筆跡樣本提取專家系統(tǒng)及其應(yīng)用研究[J]. 福建警察學(xué)院學(xué)報(bào), 2014(5): 20-24.

[2] 葛管庫(kù). MVC 模式下程序設(shè)計(jì)[J]. 軟件, 2013, 34(2): 49-51.

[3] 操牡丹, 基于知識(shí)庫(kù)的企業(yè)異構(gòu)數(shù)據(jù)集成[D]. 北京: 北京郵電大學(xué), 2010.

[4] 趙健, 馮喬生, 何娟娟. 面向漢字識(shí)別的新特征及其提取方法[J]. 軟件, 2015, 36(3): 31-36.

[5] 劉超, 張明安. 基于Oracle數(shù)據(jù)庫(kù)系統(tǒng)的備份與恢復(fù)技術(shù)研究[J]. 軟件, 2014, 35(3): 125-128.

[6] 謝輝程, 郭莉. 小型漢字字庫(kù)設(shè)計(jì)與查詢算法分析[J]. 軟件, 2014, 35(10): 43-45.

[7] 曾霖. 基于Web數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)挖掘技術(shù)探究[J]. 軟件, 2013, 34(2): 58-60.

[8] 曾誰(shuí)飛, 王仁波. 語(yǔ)音合成技術(shù)在智能語(yǔ)音播報(bào)系統(tǒng)中的應(yīng)用探析[J]. 電信科學(xué), 2010(3): 64-68.

Study on Practical Application of Knowledge Base for Expert System of Handwriting Sample Collection

HUANG Li-yan
(Criminal Science Technology Department of Fujian Police Academy, Fuzhou 350007, China)

In order to solve the problems that expert system of handwriting sample collection cannot analysis rarely-used Chinese characters, traditional Chinese characters and the quality of system output is poor. We need to upgrade the original expert knowledge base. The specific working means is to reconstruct the knowledge base starting from the process of handwriting sample collection, the Chinese character library and the Chinese character database. Practice has proved that after the upgrade of the knowledge base, the analytical ability of Chinese characters is stronger, the quality of output is higher, and the expert system has more practicability and expansibility.

Handwriting identification; Sample collection; Expert system; Knowledge base

D918.92

A

10.3969/j.issn.1003-6970.2017.02.005

福建省教育廳中青年教師教育科研項(xiàng)目(JA15565)

黃李彥(1982-),女,副教授,碩士研究生,研究方向:文件檢驗(yàn)。

黃李彥(1982-),福建警察學(xué)院刑事科學(xué)技術(shù)系。

本文著錄格式:黃李彥. 筆跡樣本提取專家知識(shí)庫(kù)的實(shí)踐應(yīng)用探析[J]. 軟件,2017,38(2):19-22

猜你喜歡
筆跡檢材知識(shí)庫(kù)
巧克力能否去除桌上的油性筆筆跡
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
疑難生物檢材DNA的檢驗(yàn)探究
筆跡泄露大秘密
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
微量接觸類生物檢材的游離DNA問(wèn)題分析
直接擴(kuò)增法提取脫落細(xì)胞DNA
筆跡鑒定過(guò)程中的心理偏差及其控制
科技手段在優(yōu)質(zhì)檢材獲取中的應(yīng)用