OCR在文書檔案數(shù)字化中的應(yīng)用

2021-06-22 02:12:28曾利萍賈曉彤

卷宗 2021年15期

曾利萍賈曉彤

（1.浙江省地震監(jiān)測預(yù)報研究中心，浙江杭州 330009；2.浙江省工程地震研究所，浙江杭州 330009）

1 概述

光學(xué)字符識別（Optical Character Recognition，OCR）是指對文本資料的圖像文件進(jìn)行分析識別處理，獲取文字及版面信息的過程。OCR識別屬于計算機(jī)視覺研究領(lǐng)域的分支之一，屬于模式識別和人工智能，是計算機(jī)科學(xué)的重要組成部分[4]。OCR技術(shù)同時也是實現(xiàn)文字高速錄入的一項關(guān)鍵技術(shù)。最早早在1929年德國科學(xué)家Taushek就取得了一項光學(xué)字符識別的專利。OCR技術(shù)在我的發(fā)展起步較晚，約從20世紀(jì)70年代末開始，大致可分為三個發(fā)展階段，第一階段探索階段(1979一1985)，這一階段時間長，主要研究對象為數(shù)字和英文字母。這一階段收效甚微但為后面的發(fā)展打下了基礎(chǔ)。第二階段研發(fā)階段(1986～1988)這三年是漢字識別技術(shù)研究的高潮期，也是印刷體漢字識別技術(shù)研究的豐收期。11家單位進(jìn)行了14次印刷體識別成果鑒定，識別的字體多樣，最多可以識別6763個字，正確率最高可達(dá)99.5%。但仍然存在文字模糊、筆劃粘連、斷筆、黑白不均、紙質(zhì)質(zhì)量差、油墨反透等等的抗干擾性差。從1989年至今為發(fā)展的第三個階段應(yīng)用階段。這個階段各種應(yīng)用軟件層出不窮，從清華大學(xué)電子工程系研制的清華TH一OCR產(chǎn)品和由漢王集團(tuán)開發(fā)的尚書OCR產(chǎn)品，到百度OCR，騰訊OCR，OCR技術(shù)發(fā)展成熟并形成了服務(wù)型產(chǎn)業(yè)模式。目前，印刷體漢字識別技術(shù)的研究熱點已經(jīng)從單純的文字識別轉(zhuǎn)移到了表格的自動識別與錄入，圖文混排和多語種混排的版面分析、版面理解和版面恢復(fù)，名片識別，金融票據(jù)識別和古籍識別等內(nèi)容上[5]。OCR技術(shù)已經(jīng)得到了非常廣泛的應(yīng)用，例如：證件號碼識別，印刷體文稿識別錄入，車牌識別等，OCR技術(shù)實現(xiàn)了更多的應(yīng)用可能性。

隨著信息技術(shù)的發(fā)展和科技水平的提高，信息化技術(shù)已經(jīng)逐漸滲透到社會生活的方方面面。機(jī)關(guān)單位肩負(fù)著履行國家賦予的各項職能職責(zé)的重任，我局每年都會產(chǎn)生大量的文件與檔案。檔案數(shù)字化已經(jīng)成為各個行業(yè)、單位組織檔案建設(shè)的重要任務(wù)[6]浙江省地震局文書檔案始于1972年，截止目前室存文書檔案約804卷4620件98187頁。目前我局的檔案管理還停留在紙質(zhì)保存階段，2002年以前采取的手工目錄方式，2002年以后采用電子目錄，但查閱檔案仍然需要去庫房翻閱，查閱起來費(fèi)時費(fèi)力，翻查紙質(zhì)檔案對檔案本身的損害很大，檔案數(shù)字化工作的開展迫在眉睫。目前大多數(shù)的檔案管理系統(tǒng)都以手工著錄為主，費(fèi)時費(fèi)力費(fèi)財，因此，機(jī)械化智能化的數(shù)字檔案信息提取非常具有研究價值。本文主要研究文字識別技術(shù)在文書數(shù)字化檔案中的信息提取中的應(yīng)用

2 研究數(shù)據(jù)和方法原理

2.1 研究數(shù)據(jù)

本文研究對象為浙江省地震局1972以來的文書檔案。根據(jù)檔案保存的實際情況挑選了具有代表性的時間段的檔案98份。對于歷史較遠(yuǎn)的檔案資料因其使用的是油墨印刷技術(shù)時間久遠(yuǎn)已經(jīng)存在字跡褪色，資料印刷不均勻，字跡連粘嚴(yán)重，紙質(zhì)發(fā)黃，紙質(zhì)過薄導(dǎo)致的油墨滲透等問題（如圖2.1）。這些問題不僅給查看帶來不佳體驗，也給文字識別結(jié)果帶來影響。因此需要對其進(jìn)行數(shù)字圖像處理以去除噪點，增強(qiáng)文字，弱化背景。

圖2.1 浙江地震局1997年文書檔案

2.2 公文種類和格式特點

公文是由黨政機(jī)關(guān)按規(guī)范的程序、方法制發(fā)，具有特定的內(nèi)容與作用、規(guī)范的體例和格式。我國的公文從古代發(fā)展至今歷朝歷代的公文格式都有所不同，就新中國成立以來公文種類雖有變更但演變過高成注重繼承和保留，變化幾乎不大。常用的公文種類沒有變化，從2012年印發(fā)的《黨政機(jī)關(guān)公文處理工作條例》將原來18個文種縮減到了15個文種，去掉了從未使用過的“指示”，以及不太使用的“條例”，“規(guī)定”?，F(xiàn)行的我國的公文文種有15個，即決議、決定、命令（令）、公報、公告、通告、通報、報告、請示、批復(fù)、議案、函、紀(jì)要。我局常用公文文種為通知，函，紀(jì)要[7]。

公文的格式也有統(tǒng)一嚴(yán)格的標(biāo)準(zhǔn)。包括公文內(nèi)容，版式格式，標(biāo)題格式等。格式固定就讓模式化目標(biāo)提取成為可能。本文試圖通過文字識別和目標(biāo)提取來滿足我局文書檔案整理歸檔目錄信息需求。我局的文書檔案歸檔目錄信息錄入內(nèi)容包括有：時間、發(fā)文字號、標(biāo)題、發(fā)文機(jī)關(guān)、頁碼、密級信息。而這些信息在公文中都有固定的格式和位置，特點如表2.1

表1.1 需提取的信息在公文中的位置

2.3 圖像處理

掃描的數(shù)字化文書檔案掃描設(shè)備原因會有墨跡淡，噪聲點多等問題。尤其是70年代的油墨打印。文件保存至今掉色確實較為嚴(yán)重，且打印不均勻加之紙張受潮等因素導(dǎo)致檔案文字有字跡不清，紙張發(fā)黃等情況。需對掃描的文件進(jìn)行一系列的識別前數(shù)據(jù)處理。具體操作如下：

利用圖像通道差法（公式2.1），提取文件版頭和印章。簡而言之，將紅色區(qū)域和非紅色區(qū)域區(qū)分開：

其中Repixel為目標(biāo)像素，R、G、B分別為原始圖像的紅，綠，藍(lán)三個通道值，?為閾值，通過實驗發(fā)現(xiàn)提取紅色區(qū)域的最佳閾值為30，過小會造成圖像噪聲大，過大提取的信息損失嚴(yán)重。

基于閾值的圖像分割，提取非紅色文字，去除背景噪聲，增強(qiáng)文字。

在對圖像的研究和應(yīng)用中，人們往往僅對圖像中的某些部分感興趣，這些部分稱為目標(biāo)或前景(其他部分稱為背景)[8]。就本文的研究對象而言，前景為文字，背景為紙張及噪點。需要去除背景，進(jìn)行前景的提取。閾值法是一種傳統(tǒng)的基于區(qū)域的圖像分割方法，因其實現(xiàn)簡單、計算量小、性能較穩(wěn)定而成為圖像分割中最基本和應(yīng)用最廣泛的分割技術(shù)，它特別適用于目標(biāo)和背景占據(jù)不同灰度級范圍的圖像[9]。

本文的實驗數(shù)據(jù)背景和目標(biāo)明顯，前景色和背景色對比度較大，因此，本文選用的是最大類間方差法又稱OSTU法。是由大津(Nobuyuki Otsu)于1979年提出，是一種自適應(yīng)的閾值確定方法[10]。通過從0-255的迭代計算獲得最大類間方差對應(yīng)的閾值則為分割的最佳閾值。

圖2.2 基于閾值的圖像分割原理圖

本文試圖將前景（文字）背景（紙張）分開提取文字，其實就是一種二分類，具體算法實現(xiàn)如下：

初始化閾值Th=1，將圖像各像素值P（i,j)分為A，B

分別計算A，B兩個像素集合的均值A(chǔ)μ和Bμ（公式2.2,2.3）：

計算A,B類間方差：

將Th循環(huán)計算1-255，獲得對應(yīng)的類間方差值，選取最大的類間方差所對應(yīng)的Th值即為佳分割閾值，圖2.3是通道差法提取結(jié)果。

圖2.3 通道差法圖像處理

2.4 圖像線性元素祛除

圖像因紙張邊界等問題會出現(xiàn)直線噪聲，而且有的文件中有表格數(shù)據(jù)，這些表格線都會對文字識別結(jié)果造成影響。要在文字識別之前將其去除掉，這就是圖像的結(jié)構(gòu)元素提取。另外，文件版頭位置即為文件首頁紅色橫線以上部分，線長約為文件寬度的四分之三，文件版頭包含發(fā)文機(jī)構(gòu)，發(fā)文字號，文件密級等重要信息，因此，版頭位置的確定非常重要。圖像的結(jié)構(gòu)元素提取是利用設(shè)計的特定結(jié)構(gòu)元素進(jìn)行圖像開運(yùn)算獲得的。本文需要提取的是橫向和豎向的直線，具體操作步驟如下：

a.圖像線性核設(shè)計

水平線線性核：sline=[1,1,...n....1,1]

垂直線線性核：hline=[1,1,...n...1,1]T

n代表核長度，n越大檢測到得直線越長

圖像腐蝕：

首先將圖像二值化，然后用核遍歷二值圖像的每個像素點，然后取當(dāng)前結(jié)構(gòu)元素所覆蓋下的原圖對應(yīng)區(qū)域內(nèi)的所有像素的最小值，用這個最小值替換當(dāng)前像素值[11]。

圖2.4 圖像腐蝕原理圖

b.圖像膨脹

因此腐蝕后的圖像的邊界會縮小，即圖像變小。若要恢復(fù)原圖像中圖形還需要對腐蝕后的圖像進(jìn)行膨脹。圖像膨脹就是圖像腐蝕的逆過程。遍歷腐蝕后的二值圖像的每一個像素，然后用結(jié)構(gòu)元素的中心點對準(zhǔn)當(dāng)前正在遍歷的這個像素，取當(dāng)前結(jié)構(gòu)元素所覆蓋下的原圖對應(yīng)區(qū)域內(nèi)的所有像素的最大值，用這個最大值替換當(dāng)前像素值。

圖2.5 圖像膨脹原理圖

c.對圖像依次進(jìn)行水平和垂直結(jié)構(gòu)元素的圖像開運(yùn)算，去除檔案文件中的直線或者表格。圖2.6為文件中直線提取結(jié)果。

圖2.6

2.5 圖像印章提取

大多數(shù)的黨政機(jī)關(guān)的印章都是圓形的，并且黨政機(jī)關(guān)公文中除了印章是圓形要素外無其他圓形要素。因此，本文采取是利用霍夫變換來提取圓。霍夫變換是利用一種投票算法檢測具有特定形狀的物體。該過程在一個參數(shù)空間中通過計算累計結(jié)果的局部最大值得到一個符合該特定形狀的集合作為霍夫變換結(jié)果?；舴蜃儞Q于1962年由Paul Hough首次提出[12]。

如何確定一個圓有兩種方法：一是三點確定一個圓，二是圓心和半徑確定一個圓?；舴蜃儞Q是利用三點確圓。在圖像上建立圖像坐標(biāo)系，坐標(biāo)系原點為圖像左上角，x軸為水平向右，y軸為垂直向下。那么圖像上的任一點坐標(biāo)可表示為（i，j）；圖上圓方程為（x?a）2+(y?b)2=r2?；舴蜃儞Q即將坐標(biāo)系進(jìn)行轉(zhuǎn)換，將x-y坐標(biāo)系轉(zhuǎn)換為a-b坐標(biāo)系，那么原圖像上的一個點就在a-b中確定一個圓但圓的半徑不可知，因此r是一個給定的參數(shù)。若原圖像上一個圓邊界的多個點就會在a-b坐標(biāo)系上確定多個半徑為r的圓，這些圓會交于一點（a,b）這點就是原圖中圓的圓心坐標(biāo)。統(tǒng)計局部交點處圓的個數(shù)，取每一個局部最大值即為該位置存在的半徑為r的圓。這樣識別到的圓存在虛假圓，還需按一定方法進(jìn)行投票剔除虛假圓，例如通過檢測到的圓上的像素數(shù)量。

圖2.7 印章識別結(jié)果

2.6 文字識別和信息提取

本文文字識別采用的是百度提供的API，因其技術(shù)成熟，文字識別精度高，調(diào)用簡單，只需要在百度AI開放平臺上申請便可獲得調(diào)用權(quán)限。本文嘗試從檔案文件中獲取文件的發(fā)文機(jī)構(gòu)，文件編號，密級，頁碼，發(fā)文時間，文件標(biāo)題，正文內(nèi)容信息形成歸檔目錄自動信息集成。正如2.2.1節(jié)所說，所需要的信息都有固定位置和格式，因此可通過模式化的信息提取。

具體流程如圖2.8所示。

圖2.8 文書檔案目錄信息提取流程圖

a.將掃描的單個文件（以件歸檔的黨政機(jī)關(guān)公文）pdf格式轉(zhuǎn)換為圖片格式，并獲得文件的頁數(shù)。

b.逐頁處理：

1.對單頁文件利用圖像通道差法進(jìn)行紅色區(qū)域提取img_red。提取的紅色區(qū)域包括有文件版頭，區(qū)分版頭和正文的紅線，印章部分

2.依次對提取的紅色部分圖像進(jìn)行圖像線性結(jié)構(gòu)元素提取和霍夫變換直線檢測。獲得區(qū)分版頭和正文的紅線位置。

3.對紅線上部分的紅色部分圖像進(jìn)行文字識別獲得發(fā)文機(jī)構(gòu)信息。

4.利用基于閾值的圖像分割，獲取除紅色部分外的圖像img_th。

5.對紅線以上的img_th圖像進(jìn)行文字識別和字符匹配獲得文件的發(fā)文字號。

6.對紅線以下的img_th圖像進(jìn)行文字識別和字符匹配獲得文件發(fā)文標(biāo)題。

7.對img_red利用霍夫變換圓形提取獲得文件印章位置，將印章位置所在區(qū)域?qū)?yīng)的img_th圖像進(jìn)行文字識別和字符匹配獲得文件發(fā)文時間。

8.將img_th圖像剩余部分進(jìn)行文字識別獲得文件正文內(nèi)容。

c.循環(huán)處理所有的頁。

d.循環(huán)處理所有文件。

3 實驗結(jié)果

本次實驗共處理文件98件，共計335頁，獲得目錄98條，目錄信息490個。文件從1979年開始到2015年，從信息提取結(jié)果來看存在如圖3.1所示三種錯誤情況。

圖3.1 檔案目錄信息提取錯誤情況

從統(tǒng)計的識別結(jié)果來看提取結(jié)果最大的問題為信息遺漏，文字錯誤占比最少，多為年數(shù)較久的文件。前期文件采用的油墨印刷技術(shù)，文件出現(xiàn)文字殘缺，文字粘結(jié)，印刷不均勻?qū)е伦R別文字中出現(xiàn)錯別字。前期的文件和有些文件格式不是嚴(yán)格符合黨政機(jī)關(guān)公文格式要求，導(dǎo)致了部分文件的信息遺漏和提取錯誤。對于近幾年的文件信息提取結(jié)果錯誤率明顯降低。本文的數(shù)字化檔案自動目錄提取方法能夠快速有效完成信息提取，降低人工成本，提高工作效率，具有研究價值。

表3.1 文件目錄信息提取結(jié)果統(tǒng)計

4 結(jié)論

文字識別技術(shù)發(fā)展至今已經(jīng)非常成熟，應(yīng)用范圍之廣泛。將文字識別技術(shù)應(yīng)用于檔案的管理中是檔案的現(xiàn)代化管理的技術(shù)探索。本文僅對文書檔案的歸檔目錄信息進(jìn)行提取，正文文字識別，利用提取到的信息對掃描文件重命名等，減輕日常繁瑣工作，未來將進(jìn)一步探索其它應(yīng)用的可能性，例如，對識別得到的檔案文字信息進(jìn)行概率主題模型建立，分析原文本中的詞以發(fā)現(xiàn)蘊(yùn)藏于其中的主題，主題間的聯(lián)系，以及主題隨時間的演變，對文檔進(jìn)行組織和歸納。如此探索就能找到與主題相關(guān)的原始文檔，充分發(fā)揮歷史檔案資料在當(dāng)代的作用。這種主題結(jié)構(gòu)是探索和理解文檔的新窗口。

卷宗2021年15期

卷宗的其它文章: 高校閱讀推廣工作研究
——以武漢輕工大學(xué)閱讀推廣為例; 少兒圖書館實施分級閱讀服務(wù)的措施探索; 淺談企業(yè)工會如何做好職工思想政治工作; 新常態(tài)下企業(yè)單位政工宣傳工作創(chuàng)新的途徑; 探討新形勢下企業(yè)思想政治工作創(chuàng)新思考; HRBP模式在互聯(lián)網(wǎng)企業(yè)中的實踐

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡