国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

OCR在文書檔案數(shù)字化中的應(yīng)用

2021-06-22 02:12:28曾利萍賈曉彤
卷宗 2021年15期

曾利萍 賈曉彤

(1.浙江省地震監(jiān)測預(yù)報研究中心,浙江 杭州 330009;2.浙江省工程地震研究所,浙江 杭州 330009)

1 概述

光學(xué)字符識別(Optical Character Recognition,OCR)是指對文本資料的圖像文件進(jìn)行分析識別處理,獲取文字及版面信息的過程。OCR識別屬于計算機(jī)視覺研究領(lǐng)域的分支之一,屬于模式識別和人工智能,是計算機(jī)科學(xué)的重要組成部分[4]。OCR技術(shù)同時也是實現(xiàn)文字高速錄入的一項關(guān)鍵技術(shù)。最早早在1929年德國科學(xué)家Taushek就取得了一項光學(xué)字符識別的專利。OCR技術(shù)在我的發(fā)展起步較晚,約從20世紀(jì)70年代末開始,大致可分為三個發(fā)展階段,第一階段探索階段(1979一1985),這一階段時間長,主要研究對象為數(shù)字和英文字母。這一階段收效甚微但為后面的發(fā)展打下了基礎(chǔ)。第二階段研發(fā)階段(1986~1988)這三年是漢字識別技術(shù)研究的高潮期,也是印刷體漢字識別技術(shù)研究的豐收期。11家單位進(jìn)行了14次印刷體識別成果鑒定,識別的字體多樣,最多可以識別6763個字,正確率最高可達(dá)99.5%。但仍然存在文字模糊、筆劃粘連、斷筆、黑白不均、紙質(zhì)質(zhì)量差、油墨反透等等的抗干擾性差。從1989年至今為發(fā)展的第三個階段應(yīng)用階段。這個階段各種應(yīng)用軟件層出不窮,從清華大學(xué)電子工程系研制的清華TH一OCR產(chǎn)品和由漢王集團(tuán)開發(fā)的尚書OCR產(chǎn)品,到百度OCR,騰訊OCR,OCR技術(shù)發(fā)展成熟并形成了服務(wù)型產(chǎn)業(yè)模式。目前,印刷體漢字識別技術(shù)的研究熱點已經(jīng)從單純的文字識別轉(zhuǎn)移到了表格的自動識別與錄入,圖文混排和多語種混排的版面分析、版面理解和版面恢復(fù),名片識別,金融票據(jù)識別和古籍識別等內(nèi)容上[5]。OCR技術(shù)已經(jīng)得到了非常廣泛的應(yīng)用,例如:證件號碼識別,印刷體文稿識別錄入,車牌識別等,OCR技術(shù)實現(xiàn)了更多的應(yīng)用可能性。

隨著信息技術(shù)的發(fā)展和科技水平的提高,信息化技術(shù)已經(jīng)逐漸滲透到社會生活的方方面面。機(jī)關(guān)單位肩負(fù)著履行國家賦予的各項職能職責(zé)的重任,我局每年都會產(chǎn)生大量的文件與檔案。檔案數(shù)字化已經(jīng)成為各個行業(yè)、單位組織檔案建設(shè)的重要任務(wù)[6]浙江省地震局文書檔案始于1972年,截止目前室存文書檔案約804卷4620件98187頁。目前我局的檔案管理還停留在紙質(zhì)保存階段,2002年以前采取的手工目錄方式,2002年以后采用電子目錄,但查閱檔案仍然需要去庫房翻閱,查閱起來費(fèi)時費(fèi)力,翻查紙質(zhì)檔案對檔案本身的損害很大,檔案數(shù)字化工作的開展迫在眉睫。目前大多數(shù)的檔案管理系統(tǒng)都以手工著錄為主,費(fèi)時費(fèi)力費(fèi)財,因此,機(jī)械化智能化的數(shù)字檔案信息提取非常具有研究價值。本文主要研究文字識別技術(shù)在文書數(shù)字化檔案中的信息提取中的應(yīng)用

2 研究數(shù)據(jù)和方法原理

2.1 研究數(shù)據(jù)

本文研究對象為浙江省地震局1972以來的文書檔案。根據(jù)檔案保存的實際情況挑選了具有代表性的時間段的檔案98份。對于歷史較遠(yuǎn)的檔案資料因其使用的是油墨印刷技術(shù)時間久遠(yuǎn)已經(jīng)存在字跡褪色,資料印刷不均勻,字跡連粘嚴(yán)重,紙質(zhì)發(fā)黃,紙質(zhì)過薄導(dǎo)致的油墨滲透等問題(如圖2.1)。這些問題不僅給查看帶來不佳體驗,也給文字識別結(jié)果帶來影響。因此需要對其進(jìn)行數(shù)字圖像處理以去除噪點,增強(qiáng)文字,弱化背景。

圖2.1 浙江地震局1997年文書檔案

2.2 公文種類和格式特點

公文是由黨政機(jī)關(guān)按規(guī)范的程序、方法制發(fā),具有特定的內(nèi)容與作用、規(guī)范的體例和格式。我國的公文從古代發(fā)展至今歷朝歷代的公文格式都有所不同,就新中國成立以來公文種類雖有變更但演變過高成注重繼承和保留,變化幾乎不大。常用的公文種類沒有變化,從2012年印發(fā)的《黨政機(jī)關(guān)公文處理工作條例》將原來18個文種縮減到了15個文種,去掉了從未使用過的“指示”,以及不太使用的“條例”,“規(guī)定”?,F(xiàn)行的我國的公文文種有15個,即決議、決定、命令(令)、公報、公告、通告、通報、報告、請示、批復(fù)、議案、函、紀(jì)要。我局常用公文文種為通知,函,紀(jì)要[7]。

公文的格式也有統(tǒng)一嚴(yán)格的標(biāo)準(zhǔn)。包括公文內(nèi)容,版式格式,標(biāo)題格式等。格式固定就讓模式化目標(biāo)提取成為可能。本文試圖通過文字識別和目標(biāo)提取來滿足我局文書檔案整理歸檔目錄信息需求。我局的文書檔案歸檔目錄信息錄入內(nèi)容包括有:時間、發(fā)文字號、標(biāo)題、發(fā)文機(jī)關(guān)、頁碼、密級信息。而這些信息在公文中都有固定的格式和位置,特點如表2.1

表1.1 需提取的信息在公文中的位置

2.3 圖像處理

掃描的數(shù)字化文書檔案掃描設(shè)備原因會有墨跡淡,噪聲點多等問題。尤其是70年代的油墨打印。文件保存至今掉色確實較為嚴(yán)重,且打印不均勻加之紙張受潮等因素導(dǎo)致檔案文字有字跡不清,紙張發(fā)黃等情況。需對掃描的文件進(jìn)行一系列的識別前數(shù)據(jù)處理。具體操作如下:

利用圖像通道差法(公式2.1),提取文件版頭和印章。簡而言之,將紅色區(qū)域和非紅色區(qū)域區(qū)分開:

其中Repixel為目標(biāo)像素,R、G、B分別為原始圖像的紅,綠,藍(lán)三個通道值,?為閾值,通過實驗發(fā)現(xiàn)提取紅色區(qū)域的最佳閾值為30,過小會造成圖像噪聲大,過大提取的信息損失嚴(yán)重。

基于閾值的圖像分割,提取非紅色文字,去除背景噪聲,增強(qiáng)文字。

在對圖像的研究和應(yīng)用中,人們往往僅對圖像中的某些部分感興趣,這些部分稱為目標(biāo)或前景(其他部分稱為背景)[8]。就本文的研究對象而言,前景為文字,背景為紙張及噪點。需要去除背景,進(jìn)行前景的提取。閾值法是一種傳統(tǒng)的基于區(qū)域的圖像分割方法,因其實現(xiàn)簡單、計算量小、性能較穩(wěn)定而成為圖像分割中最基本和應(yīng)用最廣泛的分割技術(shù),它特別適用于目標(biāo)和背景占據(jù)不同灰度級范圍的圖像[9]。

本文的實驗數(shù)據(jù)背景和目標(biāo)明顯,前景色和背景色對比度較大,因此,本文選用的是最大類間方差法又稱OSTU法。是由大津(Nobuyuki Otsu)于1979年提出,是一種自適應(yīng)的閾值確定方法[10]。通過從0-255的迭代計算獲得最大類間方差對應(yīng)的閾值則為分割的最佳閾值。

圖2.2 基于閾值的圖像分割原理圖

本文試圖將前景(文字)背景(紙張)分開提取文字,其實就是一種二分類,具體算法實現(xiàn)如下:

初始化閾值Th=1,將圖像各像素值P(i,j)分為A,B

分別計算A,B兩個像素集合的均值A(chǔ)μ和Bμ(公式2.2,2.3):

計算A,B類間方差:

將Th循環(huán)計算1-255,獲得對應(yīng)的類間方差值,選取最大的類間方差所對應(yīng)的Th值即為佳分割閾值,圖2.3是通道差法提取結(jié)果。

圖2.3 通道差法圖像處理

2.4 圖像線性元素祛除

圖像因紙張邊界等問題會出現(xiàn)直線噪聲,而且有的文件中有表格數(shù)據(jù),這些表格線都會對文字識別結(jié)果造成影響。要在文字識別之前將其去除掉,這就是圖像的結(jié)構(gòu)元素提取。另外,文件版頭位置即為文件首頁紅色橫線以上部分,線長約為文件寬度的四分之三,文件版頭包含發(fā)文機(jī)構(gòu),發(fā)文字號,文件密級等重要信息,因此,版頭位置的確定非常重要。圖像的結(jié)構(gòu)元素提取是利用設(shè)計的特定結(jié)構(gòu)元素進(jìn)行圖像開運(yùn)算獲得的。本文需要提取的是橫向和豎向的直線,具體操作步驟如下:

a.圖像線性核設(shè)計

水平線線性核:sline=[1,1,...n....1,1]

垂直線線性核:hline=[1,1,...n...1,1]T

n代表核長度,n越大檢測到得直線越長

圖像腐蝕:

首先將圖像二值化,然后用核遍歷二值圖像的每個像素點,然后取當(dāng)前結(jié)構(gòu)元素所覆蓋下的原圖對應(yīng)區(qū)域內(nèi)的所有像素的最小值,用這個最小值替換當(dāng)前像素值[11]。

圖2.4 圖像腐蝕原理圖

b.圖像膨脹

因此腐蝕后的圖像的邊界會縮小,即圖像變小。若要恢復(fù)原圖像中圖形還需要對腐蝕后的圖像進(jìn)行膨脹。圖像膨脹就是圖像腐蝕的逆過程。遍歷腐蝕后的二值圖像的每一個像素,然后用結(jié)構(gòu)元素的中心點對準(zhǔn)當(dāng)前正在遍歷的這個像素,取當(dāng)前結(jié)構(gòu)元素所覆蓋下的原圖對應(yīng)區(qū)域內(nèi)的所有像素的最大值,用這個最大值替換當(dāng)前像素值。

圖2.5 圖像膨脹原理圖

c.對圖像依次進(jìn)行水平和垂直結(jié)構(gòu)元素的圖像開運(yùn)算,去除檔案文件中的直線或者表格。圖2.6為文件中直線提取結(jié)果。

圖2.6

2.5 圖像印章提取

大多數(shù)的黨政機(jī)關(guān)的印章都是圓形的,并且黨政機(jī)關(guān)公文中除了印章是圓形要素外無其他圓形要素。因此,本文采取是利用霍夫變換來提取圓。霍夫變換是利用一種投票算法檢測具有特定形狀的物體。該過程在一個參數(shù)空間中通過計算累計結(jié)果的局部最大值得到一個符合該特定形狀的集合作為霍夫變換結(jié)果?;舴蜃儞Q于1962年由Paul Hough首次提出[12]。

如何確定一個圓有兩種方法:一是三點確定一個圓,二是圓心和半徑確定一個圓?;舴蜃儞Q是利用三點確圓。在圖像上建立圖像坐標(biāo)系,坐標(biāo)系原點為圖像左上角,x軸為水平向右,y軸為垂直向下。那么圖像上的任一點坐標(biāo)可表示為(i,j);圖上圓方程為(x?a)2+(y?b)2=r2?;舴蜃儞Q即將坐標(biāo)系進(jìn)行轉(zhuǎn)換,將x-y坐標(biāo)系轉(zhuǎn)換為a-b坐標(biāo)系,那么原圖像上的一個點就在a-b中確定一個圓但圓的半徑不可知,因此r是一個給定的參數(shù)。若原圖像上一個圓邊界的多個點就會在a-b坐標(biāo)系上確定多個半徑為r的圓,這些圓會交于一點(a,b)這點就是原圖中圓的圓心坐標(biāo)。統(tǒng)計局部交點處圓的個數(shù),取每一個局部最大值即為該位置存在的半徑為r的圓。這樣識別到的圓存在虛假圓,還需按一定方法進(jìn)行投票剔除虛假圓,例如通過檢測到的圓上的像素數(shù)量。

圖2.7 印章識別結(jié)果

2.6 文字識別和信息提取

本文文字識別采用的是百度提供的API,因其技術(shù)成熟,文字識別精度高,調(diào)用簡單,只需要在百度AI開放平臺上申請便可獲得調(diào)用權(quán)限。本文嘗試從檔案文件中獲取文件的發(fā)文機(jī)構(gòu),文件編號,密級,頁碼,發(fā)文時間,文件標(biāo)題,正文內(nèi)容信息形成歸檔目錄自動信息集成。正如2.2.1節(jié)所說,所需要的信息都有固定位置和格式,因此可通過模式化的信息提取。

具體流程如圖2.8所示。

圖2.8 文書檔案目錄信息提取流程圖

a.將掃描的單個文件(以件歸檔的黨政機(jī)關(guān)公文)pdf格式轉(zhuǎn)換為圖片格式,并獲得文件的頁數(shù)。

b.逐頁處理:

1.對單頁文件利用圖像通道差法進(jìn)行紅色區(qū)域提取img_red。提取的紅色區(qū)域包括有文件版頭,區(qū)分版頭和正文的紅線,印章部分

2.依次對提取的紅色部分圖像進(jìn)行圖像線性結(jié)構(gòu)元素提取和霍夫變換直線檢測。獲得區(qū)分版頭和正文的紅線位置。

3.對紅線上部分的紅色部分圖像進(jìn)行文字識別獲得發(fā)文機(jī)構(gòu)信息。

4.利用基于閾值的圖像分割,獲取除紅色部分外的圖像img_th。

5.對紅線以上的img_th圖像進(jìn)行文字識別和字符匹配獲得文件的發(fā)文字號。

6.對紅線以下的img_th圖像進(jìn)行文字識別和字符匹配獲得文件發(fā)文標(biāo)題。

7.對img_red利用霍夫變換圓形提取獲得文件印章位置,將印章位置所在區(qū)域?qū)?yīng)的img_th圖像進(jìn)行文字識別和字符匹配獲得文件發(fā)文時間。

8.將img_th圖像剩余部分進(jìn)行文字識別獲得文件正文內(nèi)容。

c.循環(huán)處理所有的頁。

d.循環(huán)處理所有文件。

3 實驗結(jié)果

本次實驗共處理文件98件,共計335頁,獲得目錄98條,目錄信息490個。文件從1979年開始到2015年,從信息提取結(jié)果來看存在如圖3.1所示三種錯誤情況。

圖3.1 檔案目錄信息提取錯誤情況

從統(tǒng)計的識別結(jié)果來看提取結(jié)果最大的問題為信息遺漏,文字錯誤占比最少,多為年數(shù)較久的文件。前期文件采用的油墨印刷技術(shù),文件出現(xiàn)文字殘缺,文字粘結(jié),印刷不均勻?qū)е伦R別文字中出現(xiàn)錯別字。前期的文件和有些文件格式不是嚴(yán)格符合黨政機(jī)關(guān)公文格式要求,導(dǎo)致了部分文件的信息遺漏和提取錯誤。對于近幾年的文件信息提取結(jié)果錯誤率明顯降低。本文的數(shù)字化檔案自動目錄提取方法能夠快速有效完成信息提取,降低人工成本,提高工作效率,具有研究價值。

表3.1 文件目錄信息提取結(jié)果統(tǒng)計

4 結(jié)論

文字識別技術(shù)發(fā)展至今已經(jīng)非常成熟,應(yīng)用范圍之廣泛。將文字識別技術(shù)應(yīng)用于檔案的管理中是檔案的現(xiàn)代化管理的技術(shù)探索。本文僅對文書檔案的歸檔目錄信息進(jìn)行提取,正文文字識別,利用提取到的信息對掃描文件重命名等,減輕日常繁瑣工作,未來將進(jìn)一步探索其它應(yīng)用的可能性,例如,對識別得到的檔案文字信息進(jìn)行概率主題模型建立,分析原文本中的詞以發(fā)現(xiàn)蘊(yùn)藏于其中的主題,主題間的聯(lián)系,以及主題隨時間的演變,對文檔進(jìn)行組織和歸納。如此探索就能找到與主題相關(guān)的原始文檔,充分發(fā)揮歷史檔案資料在當(dāng)代的作用。這種主題結(jié)構(gòu)是探索和理解文檔的新窗口。

木兰县| 壶关县| 鹤庆县| 平原县| 苍南县| 平远县| 梧州市| 农安县| 永德县| 连云港市| 同仁县| 万全县| 马尔康县| 东安县| 天祝| 天长市| 峨边| 新民市| 马尔康县| 佛冈县| 报价| 定兴县| 司法| 安岳县| 藁城市| 太原市| 德阳市| 海丰县| 克什克腾旗| 通化县| 天峨县| 汶上县| 海伦市| 临泽县| 攀枝花市| 汪清县| 广州市| 大姚县| 灵寿县| 滦南县| 历史|