国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

計(jì)算機(jī)技術(shù)在手寫體漢字識(shí)別方面的應(yīng)用及發(fā)展趨勢(shì)

2018-10-21 17:37:00陳擎國(guó)
科技傳播 2018年19期

陳擎國(guó)

摘 要 隨著計(jì)算機(jī)技術(shù)以及大數(shù)據(jù)時(shí)代的到來,大眾將在越來越多的方面需要手寫體漢字識(shí)別技術(shù)產(chǎn)品。這意味著手寫體漢字識(shí)別技術(shù)的市場(chǎng)空間將變得更加廣闊。手寫體漢字識(shí)別技術(shù)主要分為聯(lián)機(jī)手寫體漢字識(shí)別技術(shù)與脫機(jī)手寫體漢字識(shí)別技術(shù)。其中,聯(lián)機(jī)手寫體漢字識(shí)別技術(shù)已較為成熟。文章對(duì)手寫體漢字識(shí)別技術(shù)發(fā)展歷程、基本原理、脫機(jī)手寫體漢字識(shí)別技術(shù)識(shí)別準(zhǔn)確率較低、反應(yīng)時(shí)間長(zhǎng)等問題,以及手寫體漢字識(shí)別技術(shù)的未來發(fā)展方向做了研究及展望。

關(guān)鍵詞 手寫漢字;漢字識(shí)別;脫機(jī)識(shí)別;光學(xué)字符識(shí)別

中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2018)220-0001-03

隨著計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展以及大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)的紙質(zhì)文獻(xiàn)將越來越多地需要被轉(zhuǎn)化為電子文檔儲(chǔ)存在計(jì)算機(jī)中。例如:將紙質(zhì)的會(huì)議記錄拍攝成圖像,將其快速地轉(zhuǎn)化為能夠在計(jì)算機(jī)內(nèi)儲(chǔ)存與加工的電子文檔;將文獻(xiàn)古籍以圖片或掃描件的形式快速轉(zhuǎn)換為電子文檔進(jìn)行保存等。這將勢(shì)必需要完善目前的漢字手寫體識(shí)別方面的技術(shù),并提升其識(shí)別的準(zhǔn)確率以及減少其對(duì)較大訓(xùn)練樣本及硬件運(yùn)行內(nèi)存的依賴。

1 手寫體漢字識(shí)別技術(shù)的發(fā)展歷程

隨著計(jì)算機(jī)技術(shù)的發(fā)展,漢字識(shí)別技術(shù)已經(jīng)逐漸融入人們的日常生活中,并將在經(jīng)濟(jì)、教育等領(lǐng)域發(fā)揮越來越重要的作用。漢字識(shí)別技術(shù),主要基于光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition),以識(shí)別對(duì)象為標(biāo)準(zhǔn),可分為印刷體漢字識(shí)別與手寫體漢字識(shí)別技術(shù);以輸入方式為標(biāo)準(zhǔn),可分為聯(lián)機(jī)漢字識(shí)別與脫機(jī)漢字識(shí)別。手寫體漢字識(shí)別技術(shù),源于印刷體漢字識(shí)別技術(shù),從20世紀(jì)六七十年代開始,大致可分為3個(gè)時(shí)期:理論探索期、快速發(fā)展期、深入發(fā)展期。

1.1 理論探索期(20世紀(jì)60年代—70年代)

自1946年世界上第一臺(tái)電子計(jì)算機(jī)在美國(guó)出現(xiàn)后,人們除了將計(jì)算機(jī)用于復(fù)雜計(jì)算外,還將其應(yīng)用于文檔的處理與保存。由于電子文檔擁有效率高、易于儲(chǔ)存、容量大等特點(diǎn),一經(jīng)問世便受到科學(xué)家們的廣泛重視與研究。因?yàn)橛⑽淖帜笖?shù)量較少、筆畫簡(jiǎn)單,在計(jì)算機(jī)識(shí)別中遇到的困難較小。而漢字?jǐn)?shù)量大、筆畫繁雜、形近字較多,給予這一時(shí)代的科學(xué)家不小的困難。

在這一階段,主要是歐美大型計(jì)算機(jī)企業(yè)以及中國(guó)國(guó)內(nèi)一些高校、研究所進(jìn)行初步的理論探索。例如:在1966年,Casey R與Nagy G首次發(fā)表關(guān)于印刷體漢字識(shí)別的文章,提出計(jì)算機(jī)識(shí)別漢字的理論基礎(chǔ)以及需要解決的技術(shù)難題。清華大學(xué)、南開大學(xué)、北京大學(xué)等高校開始進(jìn)行對(duì)規(guī)則且有限的漢字識(shí)別進(jìn)行研究。這個(gè)時(shí)期進(jìn)行的探索,盡管較為粗淺,但其為之后印刷體及手寫體漢字識(shí)別奠定了理論基礎(chǔ)、發(fā)現(xiàn)并定位了亟待解決的問題。

1.2 快速發(fā)展期(20世紀(jì)80年代至21世紀(jì)初)

到了20世紀(jì)80年代,漢字識(shí)別技術(shù)有了一定發(fā)展。印刷體漢字識(shí)別技術(shù)逐漸發(fā)展并最終成熟??茖W(xué)家們通過模仿人類視覺識(shí)別的過程,采用統(tǒng)計(jì)模式識(shí)別方法,通過逼近取值的算法來提取漢字,解決了印刷體漢字識(shí)別中漢字結(jié)構(gòu)與筆畫提取困難的難題,也為手寫體漢字識(shí)別提供了思路與方法。

在這個(gè)階段,一些實(shí)用性高、錯(cuò)誤率低的印刷體漢字識(shí)別軟件問世。例如:IBM公司的OCR技術(shù)已經(jīng)趨于成熟;20世紀(jì)90年代,清華大學(xué)研發(fā)的TH-OCR產(chǎn)品率先實(shí)現(xiàn)了中英文混排識(shí)別;漢王公司的漢王OCR憑借識(shí)別率高等優(yōu)勢(shì),在2000年達(dá)到世界領(lǐng)先水平。80年代中國(guó)發(fā)布了GB 2312-80國(guó)家標(biāo)準(zhǔn)字符庫(kù),國(guó)外計(jì)算機(jī)公司也建立了相應(yīng)字符庫(kù)。這對(duì)漢字識(shí)別的發(fā)展起到極大的推動(dòng)作用。

而在20世紀(jì)80年代,手寫體漢字識(shí)別技術(shù)才剛剛起步,僅作為印刷體漢字識(shí)別產(chǎn)品的附加功能,識(shí)別率低,實(shí)用性不強(qiáng)。但至21世紀(jì)初,聯(lián)機(jī)手寫體漢字識(shí)別技術(shù)由于可通過筆畫的先后順序進(jìn)行識(shí)別,發(fā)展已經(jīng)較為完善,也有多種實(shí)用的聯(lián)機(jī)手寫體漢字識(shí)別產(chǎn)品面世。然而,脫機(jī)手寫體識(shí)別技術(shù)仍處于萌芽階段。

1.3 深入探索期(21世紀(jì)初至今)

在21世紀(jì)初期,印刷體漢字識(shí)別技術(shù)已經(jīng)完善的背景下,越來越多的學(xué)者將目光投向了脫機(jī)手寫體漢字識(shí)別技術(shù),并構(gòu)建出基本識(shí)別流程,針對(duì)漢字分類提出了多種方法。主要分類方法分為:統(tǒng)計(jì)模式識(shí)別與結(jié)構(gòu)模式識(shí)別。這兩種方法各有利弊,但實(shí)用性尚為欠缺。近幾年隨著人工智能的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)、多分類器聚合等方法也相繼被提出。

近年來,騰訊云OCR推出手寫體漢字識(shí)別服務(wù);百度、科大訊飛等互聯(lián)網(wǎng)企業(yè)也推出了手寫體漢字識(shí)別產(chǎn)品。但是,真正有效實(shí)用的脫機(jī)手寫體漢字識(shí)別技術(shù)仍然需要科學(xué)家們繼續(xù)深入探索。

2 手寫體漢字識(shí)別基本原理

目前,計(jì)算機(jī)對(duì)手寫體漢字進(jìn)行識(shí)別分為兩種類別:聯(lián)機(jī)手寫體漢字識(shí)別與脫機(jī)手寫體漢字識(shí)別。盡管聯(lián)機(jī)識(shí)別時(shí)有筆順可進(jìn)行輔助參考,但兩種類別的基本原理大致相同,均分為:樣本輸入、預(yù)處理、特征提取、分類識(shí)別、末處理等五大流程(參見圖1)。

2.1 樣本輸入

樣本輸入,指的是將所需識(shí)別的漢字通過拍攝圖片、掃描等手段,轉(zhuǎn)換為計(jì)算機(jī)所能識(shí)別的圖像。在聯(lián)機(jī)手寫體漢字識(shí)別中,不僅要將相應(yīng)的圖像信息輸入電腦,也需把對(duì)應(yīng)的筆畫順序輸入電腦,以作為分類識(shí)別時(shí)的輔助參考。由于缺少相應(yīng)的筆畫順序作為輔助判斷的工具,脫機(jī)手寫體漢字識(shí)別在下列步驟中的識(shí)別速度與準(zhǔn)確率目前均不及聯(lián)機(jī)手寫體漢字識(shí)別。

2.2 預(yù)處理

預(yù)處理,指的是計(jì)算機(jī)對(duì)輸入的圖像通過二值化、去噪等手段,降低圖片的維度,通過扭轉(zhuǎn)校正等方法,初步規(guī)范漢字圖像,繼而對(duì)圖像進(jìn)行切分,切分出單一的漢字,以便于對(duì)漢字的特征提取并降低識(shí)別的錯(cuò)誤率。

其中:二值化指的是,對(duì)圖片進(jìn)行灰度處理,將圖片轉(zhuǎn)換為黑白色,并用坐標(biāo)的方式標(biāo)記各個(gè)像素點(diǎn),從而簡(jiǎn)化計(jì)算機(jī)對(duì)漢字特征提取的難度,降低出錯(cuò)率。去噪指的是,對(duì)圖像中的孤立點(diǎn)、孤立的筆畫、污點(diǎn)等進(jìn)行去除,以簡(jiǎn)化識(shí)別難度,降低對(duì)CPU的使用率,降低對(duì)計(jì)算機(jī)硬件的要求。扭轉(zhuǎn)校正是指:將歪斜扭曲的筆畫變化成整齊規(guī)則的標(biāo)準(zhǔn)筆畫,或?qū)⒉煌煮w、風(fēng)格的文字統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)字體,從而降低分類識(shí)別的難度。

2.3 特征提取

特征提取,指的是計(jì)算機(jī)對(duì)漢字中能夠體現(xiàn)出差異的特有信息進(jìn)行提取,例如:提取漢字的偏旁部首、筆畫的離散程度等。目前,特征提取方法主要分為兩種:提取結(jié)構(gòu)特征與提取統(tǒng)計(jì)模式特征。提取結(jié)構(gòu)特征是指:提取漢字結(jié)構(gòu)中的特殊結(jié)構(gòu),如:部首、框架等,并記錄提取的信息以供分類識(shí)別使用。

該方法的優(yōu)點(diǎn)是易識(shí)別形近字,對(duì)不同字體的識(shí)別能力較強(qiáng)。但是,此方法對(duì)預(yù)處理要求較高,若預(yù)處理的圖像中出現(xiàn)斷裂、連筆等影響因素,此方法的提取成功率將會(huì)下降。而提取統(tǒng)計(jì)模式特征指的是:對(duì)樣本的坐標(biāo)進(jìn)行數(shù)學(xué)變換,利用傅里葉變換、Gabor變換等數(shù)學(xué)方法,再結(jié)合正態(tài)分布等統(tǒng)計(jì)方法來提取漢字特征。這種方法對(duì)預(yù)處理要求較低,但識(shí)別形近字、不同字體漢字的能力較弱。

2.4 分類識(shí)別

分類識(shí)別是指:利用上一步所提取的漢字特征信息,在計(jì)算機(jī)的字符庫(kù)中進(jìn)行檢索比對(duì),檢索出相似程度最高的漢字作為輸出結(jié)果。這種檢索比對(duì)的方法被稱為分類識(shí)別方法。目前,漢字的主流分類識(shí)別方法有基于結(jié)構(gòu)的識(shí)別方法、基于統(tǒng)計(jì)模式的識(shí)別方法、神經(jīng)網(wǎng)絡(luò)識(shí)別法、貝葉斯決策法與支持向量機(jī)法等。其中神經(jīng)網(wǎng)絡(luò)識(shí)別法與支持向量機(jī)法是時(shí)下的熱點(diǎn)研究方向。

各種分類方法適用不同的情形,有他們各自的優(yōu)缺點(diǎn),例如基于結(jié)構(gòu)的識(shí)別方法中,隱馬爾科夫模型是其中的典型,該方法成功率較高,在中小字符集的識(shí)別中成功率較高,但在識(shí)別大字符集方面識(shí)別率較低。而支持向量機(jī)法,擁有識(shí)別率較高,適應(yīng)訓(xùn)練字符集較小情況等優(yōu)勢(shì),復(fù)雜程度高,對(duì)大字符集的識(shí)別時(shí)間較長(zhǎng)。

2.5 末處理

在分類識(shí)別給出結(jié)果后,需要計(jì)算機(jī)通過解析句式結(jié)構(gòu)來驗(yàn)證對(duì)漢字識(shí)別的正確與否。此時(shí),聯(lián)機(jī)手寫體漢字識(shí)別還可以通過筆畫順序來輔助驗(yàn)證。若驗(yàn)證通過,則輸出識(shí)別結(jié)果;若驗(yàn)證未通過,如:出現(xiàn)識(shí)別亂碼或語(yǔ)意等嚴(yán)重不符時(shí),則反饋給分類識(shí)別環(huán)節(jié)重新進(jìn)行識(shí)別。末處理能夠顯著降低識(shí)別的錯(cuò)誤率。目前,科學(xué)家也在試圖用增加末處理的環(huán)節(jié)等手段來提高手寫體漢字識(shí)別的準(zhǔn)確率。

3 手寫體漢字識(shí)別技術(shù)的短板及發(fā)展趨勢(shì)

近年來,聯(lián)機(jī)手寫體漢字識(shí)別由于擁有可以運(yùn)用筆畫順序來輔助識(shí)別的優(yōu)勢(shì),發(fā)展比脫機(jī)手寫體漢字識(shí)別技術(shù)較快。目前,市場(chǎng)上已經(jīng)有為數(shù)眾多的聯(lián)機(jī)漢字識(shí)別產(chǎn)品供大眾使用。即使目前已有脫機(jī)手寫體漢字識(shí)別技術(shù)產(chǎn)品問世,我們也無法忽視脫機(jī)手寫體漢字識(shí)別技術(shù)中仍然存在的問題。下面將大致說明脫機(jī)手寫體漢字識(shí)別技術(shù)存在的缺陷。

3.1 識(shí)別準(zhǔn)確率較低

脫機(jī)手寫體漢字識(shí)別技術(shù)由于只能夠通過輸入的圖像進(jìn)行分析,受字體風(fēng)格、連筆、缺損、污點(diǎn)、扭曲等因素影響較大,給予預(yù)處理及特征提取步驟不小的困難。這也導(dǎo)致了在一開始的兩步中極易出現(xiàn)錯(cuò)誤,從而導(dǎo)致后面分類識(shí)別環(huán)節(jié)中的錯(cuò)誤,降低了識(shí)別準(zhǔn)確率。

3.2 反應(yīng)時(shí)間長(zhǎng),對(duì)計(jì)算機(jī)硬件要求高

脫機(jī)手寫體漢字識(shí)別技術(shù)由于缺乏筆畫作為輔助參考,一個(gè)漢字往往有幾個(gè),甚至幾十個(gè)、上百個(gè)相似的漢字。因此在分類識(shí)別環(huán)節(jié)中,相應(yīng)的算法較為復(fù)雜,檢索比對(duì)的耗時(shí)較長(zhǎng),從而拖慢了整個(gè)流程的反應(yīng)時(shí)間。這也使得該技術(shù)對(duì)計(jì)算機(jī)硬件的要求較高,特別是對(duì)CPU的要求較高,并且增加能耗,浪費(fèi)資源。

3.3 分類識(shí)別方法的適應(yīng)性較差

盡管目前某些分類識(shí)別方法在某一方面的識(shí)別準(zhǔn)確率、反應(yīng)時(shí)間表現(xiàn)均比較出色,但或多或少都存在著不足之處。例如:隱馬爾科夫模型在中小字符集的識(shí)別中成功率較高,但在識(shí)別大字符集方面識(shí)別率較低;貝葉斯決策法識(shí)別正確率較高,但其需要的樣本量較大,計(jì)算較為復(fù)雜,同時(shí)對(duì)硬件的要求也比較高;神經(jīng)網(wǎng)絡(luò)識(shí)別法在小字符集識(shí)別方面表現(xiàn)優(yōu)異,但若將大字符集拆分成小字符集來識(shí)別,又會(huì)造成響應(yīng)時(shí)間過長(zhǎng)等問題。

雖然脫機(jī)手寫體漢字識(shí)別技術(shù)仍需進(jìn)一步完善,市場(chǎng)上產(chǎn)品較少,用戶反饋不佳。但脫機(jī)手寫體漢字識(shí)別技術(shù)依然存在著較大的應(yīng)用市場(chǎng)空間。隨著科學(xué)家們對(duì)相應(yīng)技術(shù)的進(jìn)一步改進(jìn),手寫識(shí)別領(lǐng)域出現(xiàn)了許多新的發(fā)展方向。

1)利用多種方法進(jìn)行漢字切分。通過運(yùn)用多種方法對(duì)圖像中的漢字進(jìn)行切分,能夠有效地減少后面步驟中的反應(yīng)時(shí)間與識(shí)別錯(cuò)誤率,降低對(duì)計(jì)算機(jī)硬件的需求,從而提升脫機(jī)手寫體漢字識(shí)別技術(shù)的實(shí)用性。

2)將多種分類方法并行??茖W(xué)家們認(rèn)為,如果將多種分類器并行使用、取長(zhǎng)補(bǔ)短,將會(huì)大大提高脫機(jī)手寫體漢字識(shí)別技術(shù)的識(shí)別準(zhǔn)確率,以達(dá)到用戶滿意的程度。

3)延長(zhǎng)末處理流程。一些學(xué)者指出,通過延長(zhǎng)末處理流程,如增加利用語(yǔ)意等語(yǔ)法因素在末處理步驟中進(jìn)行查證,能夠進(jìn)一步提升脫機(jī)手寫體漢字識(shí)別技術(shù)的識(shí)別準(zhǔn)確率,同時(shí)也不會(huì)對(duì)計(jì)算機(jī)硬件提出更高的要求。

4 結(jié)論

文章對(duì)手寫體漢字識(shí)別技術(shù)的發(fā)展歷程、基本原理及未來發(fā)展的趨勢(shì)進(jìn)行了概述與展望。能夠看出,近年來,聯(lián)機(jī)手寫體漢字識(shí)別技術(shù)已經(jīng)逐漸完善,市場(chǎng)上也出現(xiàn)較多的聯(lián)機(jī)手寫體漢字識(shí)別產(chǎn)品。脫機(jī)手寫體漢字識(shí)別技術(shù)從無到有?;驹硪草^為清晰。但是,脫機(jī)手寫體漢字識(shí)別技術(shù)仍不完善,存在著識(shí)別準(zhǔn)確率較低、反應(yīng)時(shí)間長(zhǎng)、計(jì)算復(fù)雜、對(duì)硬件要求高等缺陷,制成的產(chǎn)品詬病頗多。

在不斷研究的同時(shí),科學(xué)家們開始嘗試運(yùn)用多種方法對(duì)漢字進(jìn)行切分、將多種分類方法并行、增加末處理環(huán)節(jié)流程等方法,從而使這項(xiàng)技術(shù)能夠真正的實(shí)用化。相信通過解決這些難題,可以將脫機(jī)手寫體漢字識(shí)別技術(shù)更好地運(yùn)用于大眾的日常生活,贏得用戶的贊許。

參考文獻(xiàn)

[1]孫華,張航.漢字識(shí)別方法綜述[J].計(jì)算機(jī)工程,2010,36(20):194-197.

[2]何志國(guó),曹玉東.脫機(jī)手寫體漢字識(shí)別綜述[J].計(jì)算機(jī)工程,2008,34(15):201-204.

[3]宋佳.模式識(shí)別綜述及漢字識(shí)別的原理[J].科技廣場(chǎng),2007(9):133-135.

[4]丁曉青.漢字識(shí)別研究的回顧[J].電子學(xué)報(bào),2002,30(9):1364-1368.

凤阳县| 台江县| 承德县| 涞水县| 吴忠市| 农安县| 革吉县| 河南省| 普定县| 青阳县| 广州市| 洛隆县| 卓资县| 吉水县| 鄢陵县| 正宁县| 平定县| 屯门区| 定襄县| 隆化县| 南宫市| 鄯善县| 乡城县| 昂仁县| 阳信县| 襄垣县| 防城港市| 政和县| 潞西市| 阿拉善右旗| 图们市| 江津市| 永年县| 南陵县| 旬邑县| 阜城县| 定远县| 磐安县| 讷河市| 大宁县| 西盟|