国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

檔案數(shù)字化過程中OCR 技術(shù)的運(yùn)用

2022-07-14 01:36王效鵬
魅力中國(guó) 2022年3期
關(guān)鍵詞:識(shí)別率檢索圖像

王效鵬

(山東省菏澤市牡丹區(qū)人力資源和社會(huì)保障局,山東 菏澤 274000)

在信息時(shí)代背景下,檔案數(shù)字化成為當(dāng)前檔案管理工作的一個(gè)重點(diǎn)內(nèi)容,但是從當(dāng)前發(fā)展實(shí)際情況來看,掃描所產(chǎn)生的電子檔案是以圖像形式存在的文件,而不是真正意義上的文本文件信息。也就是說,依托計(jì)算機(jī)系統(tǒng)僅僅鞥能夠查看到檔案信息的外在形體,沒有在真正意義上識(shí)別出檔案信息的內(nèi)在文字信息,用戶雖然使用計(jì)算機(jī)系統(tǒng)看到了檔案信息原本的面貌,但是卻沒有根據(jù)實(shí)際情況合理利用這些信息,最終對(duì)電子檔案利用工作造成了很大的不變。為了能夠根據(jù)用戶的需要為其提供有針對(duì)的檔案管理服務(wù),獲得文本形態(tài)的電子檔案,實(shí)現(xiàn)檔案管理的數(shù)字化、科學(xué)化發(fā)展,相關(guān)人員提出了OCR 技術(shù)在檔案數(shù)字化管理中的應(yīng)用主張,旨在能夠在該技術(shù)的支持下提升檔案管理的科學(xué)性、有效性。

一、OCR 技術(shù)的應(yīng)用內(nèi)涵和發(fā)展歷程

OCR 技術(shù)是光學(xué)字符識(shí)別技術(shù),在具體實(shí)施操作的時(shí)候會(huì)通過光學(xué)輸入的方式來將文字信息轉(zhuǎn)變?yōu)橐环N圖像信息,而后在文字識(shí)別技術(shù)的作用下會(huì)將相關(guān)圖像信息轉(zhuǎn)變?yōu)槟軌虮挥?jì)算機(jī)識(shí)別和應(yīng)用的信息形式。從當(dāng)前發(fā)展實(shí)際情況來看,OCR 技術(shù)成為檔案管理領(lǐng)域的重要技術(shù)形式,在該技術(shù)的支持下能夠?qū)崿F(xiàn)全文字識(shí)別模式下的檔案掃描管理,在這個(gè)過程中會(huì)促進(jìn)我國(guó)檔案數(shù)字化管理發(fā)展,實(shí)現(xiàn)我國(guó)檔案管理工作的數(shù)字化發(fā)展,為相關(guān)人員查詢和利用檔案信息提供必要的技術(shù)支持。OCR 技術(shù)的應(yīng)用流程如下:影像輸入、影像前處理、文字特征抽取、比對(duì)識(shí)別、人工識(shí)別和人工校正。在經(jīng)過一系列識(shí)別分析之后會(huì)將最終的識(shí)別結(jié)果顯示出來,而后保存。

OCR 的概念是由德國(guó)科學(xué)家Tausheck 在1929年提出來,后來美國(guó)科學(xué)家Handel 也提出了利用計(jì)算機(jī)掃描等技術(shù)對(duì)文字進(jìn)行識(shí)別的想法。在社會(huì)科技的發(fā)展支持下,OCR 技術(shù)已經(jīng)從原來的字符識(shí)別率低于50%到現(xiàn)在針對(duì)印刷體字符識(shí)別正確率達(dá)到了99%以上,并可以識(shí)別宋體、黑體、楷體等多種字體的簡(jiǎn)、繁體;也能夠?qū)Σ煌淖煮w排列方式識(shí)別;一些技術(shù)的識(shí)別速度很快,一分鐘到兩分鐘能夠完成1000 字符的識(shí)別。站在技術(shù)應(yīng)用角度分析這項(xiàng)技術(shù)形式,其可以被完全應(yīng)用到檔案數(shù)字化管理中,在檔案信息識(shí)別中顯示出較高的識(shí)別率和較快的識(shí)別速度。

二、檔案數(shù)字化過程中OCR 技術(shù)的使用流程

檔案數(shù)字化過程中OCR 技術(shù)的使用主要遵循這樣的操作流程:影像數(shù)據(jù)信息的輸入管理、影像前處理、文字特征的提取、綜合比對(duì)識(shí)別、人工校正、輸出和保存。從實(shí)際應(yīng)用角度來看,檔案數(shù)字化過程中OCR技術(shù)的使用會(huì)縮短手工操作的時(shí)間,有一些圖像信息的識(shí)別僅僅需要零點(diǎn)幾秒即可,且在圖像處理的過程中會(huì)優(yōu)化前期處理和后期校對(duì)比較。且和傳統(tǒng)意義上的文字識(shí)別相比,所獲得的圖像信息更為精準(zhǔn)。檔案數(shù)字化過程中OCR 技術(shù)的使用僅僅使用簡(jiǎn)單的人工操作即可,工作效率高,在處理檔案的過程中會(huì)在最大限度上節(jié)省人力資源的消耗,能夠幫助勞動(dòng)者從繁瑣的勞動(dòng)中解脫和釋放出來,在最大限度上實(shí)現(xiàn)資源的合理優(yōu)化配置。

三、檔案數(shù)字化過程中OCR 技術(shù)的運(yùn)用優(yōu)勢(shì)分析

第一,提升檔案數(shù)據(jù)信息的輸入速度。檔案數(shù)字化過程中OCR 技術(shù)的運(yùn)用會(huì)在使用檔案資料信息之前對(duì)檔案資料信息的內(nèi)容進(jìn)行識(shí)別整理,由此會(huì)使得檔案信息的錄入方式實(shí)現(xiàn)質(zhì)的突破。第二,提升檔案數(shù)據(jù)信息的錄入質(zhì)量。在OCR 技術(shù)支持下的檔案處理雖然仍然無法保障檔案信息識(shí)別處理的精準(zhǔn)度,但是在檔案信息質(zhì)量服務(wù)方面會(huì)有效提升檔案信息的質(zhì)量。第三,OCR 技術(shù)在使用的時(shí)候只需要單人操作即可,和一般情況下的檔案管理相比,OCR 技術(shù)支持下的檔案管理會(huì)簡(jiǎn)化檔案操作,在保障檔案信息有效使用的同時(shí)會(huì)減少人力資源在檔案管理中的消耗。

四、OCR 技術(shù)在檔案數(shù)字化發(fā)展中的具體應(yīng)用

(一)創(chuàng)新著錄標(biāo)引方式

檔案目錄數(shù)據(jù)庫打造的一個(gè)重要基礎(chǔ)是檔案數(shù)字化工作,當(dāng)前,在技術(shù)的支持下我國(guó)社會(huì)范圍內(nèi)的很多檔案館都打造出了完善的目錄庫。但是有很多檔案庫采取的是手工操作方式,檔案處理繁瑣、效率低下。

OCR 技術(shù)在檔案管理中的使用會(huì)為人們提供一種新的著錄方式,在這種著錄方式的支持下會(huì)實(shí)現(xiàn)計(jì)算機(jī)系統(tǒng)錄入管理。檔案管理工作人員會(huì)直接從OCR 之后的全文中尋找到著錄項(xiàng),包含題目名稱、文號(hào)、責(zé)任者等,在查找到這些信息之后會(huì)將信息復(fù)制粘貼到目錄庫對(duì)應(yīng)的字段中,從而實(shí)現(xiàn)對(duì)檔案信息內(nèi)容的自動(dòng)化檢索。OCR 技術(shù)的使用為檔案目錄的創(chuàng)建和錄入管理提供了一種全新的方式,工作人員能夠從OCR 中尋找著錄項(xiàng)目,而后將基本的復(fù)制粘貼操作放入到目錄庫中對(duì)應(yīng)的段落即可完成操作。但是從實(shí)際應(yīng)用操作角度來看,受OCR 技術(shù)本身使用局限的影響,基于該技術(shù)的檔案管理缺乏實(shí)踐操作的可行性,在未來,需要相關(guān)人員因地制宜地采取恰當(dāng)?shù)拇胧﹣斫鉀Q檔案管理的實(shí)踐操作可行性,逐漸完善OCR 技術(shù)形式。

(二)實(shí)現(xiàn)真正的全文檢索

檔案信息資料中的全文檢索包含兩個(gè)類型,一個(gè)是對(duì)檔案目錄庫信息的檢索,在找到關(guān)聯(lián)條目后會(huì)打開對(duì)應(yīng)的檔案全文。這種檢索方式是當(dāng)前檔案館常用的檔案檢索方式。另外一種檢索方式是全文檢索,即對(duì)檔案全文庫逐字逐句的檢索,幫助用戶從龐雜的數(shù)據(jù)庫中獲取自己所需要的檔案信息資源。第二種檢索方式離不開OCR 技術(shù)的支持,在具體實(shí)施操作的時(shí)候通過掃描圖像中的文字會(huì)將其轉(zhuǎn)變?yōu)閷?duì)應(yīng)的文本格式。

(三)支持雙層PDF 技術(shù)

雙層PDF 技術(shù)形式是指每一個(gè)PDF 文件的每一頁都會(huì)包含兩層內(nèi)容,上層是掃描所獲得的原始圖像,下層是OCR 技術(shù)支持下的文字識(shí)別結(jié)果。PDF雙層技術(shù)形式被人們廣泛應(yīng)用在數(shù)字圖書館領(lǐng)域,如在CNKI 數(shù)據(jù)虧中檢索到的PDF 格式的電子文獻(xiàn)就使用了雙層PDF 技術(shù)。從實(shí)際實(shí)施操作上來看,OCR 技術(shù)中的雙層PDF 技術(shù)既能夠保證檔案的原真性,而且還能夠根據(jù)用戶的需求來選擇、復(fù)制和搜搜文字信息。

(四)拓展檔案用戶的利用面

在以往的檔案信息利用管理中,用戶是一般依托檔案憑證價(jià)值來獲取和利用信息。比如政府部門行使自己的職能作用去查閱某份文件信息、居民使用身份證來查詢房產(chǎn)信息、結(jié)婚證發(fā)放、學(xué)籍卡管理等。這些檔案信息在使用的時(shí)候?qū)n案本身的原真性有著較高的要求,在很多情況下檔案信息的使用是需要得到紙質(zhì)文檔支持的。

在人們對(duì)檔案資料的深度挖掘下,檔案資料信息的作用也開始更加多元,檔案除了具備憑證價(jià)值,還會(huì)和圖書、情報(bào)等一樣具備一定的情報(bào)價(jià)值、參考價(jià)值,如何充分利用和挖掘檔案資料中潛在的價(jià)值信息成為相關(guān)人員需要思考和解決的問題。比如在利用檔案資料信息開展學(xué)術(shù)研究的時(shí)候,用戶要注重密切觀察檔案的知識(shí)屬性、信息屬性,如果檔案是通過手動(dòng)方式保存的,就會(huì)出現(xiàn)操作不變的問題。借助OCR 技術(shù)能夠?qū)⒓堎|(zhì)檔案資料信息轉(zhuǎn)變?yōu)橐环N數(shù)字化的形式,借助OCR 識(shí)別會(huì)實(shí)現(xiàn)對(duì)檔案信息的全網(wǎng)絡(luò)檢索、網(wǎng)絡(luò)傳輸,進(jìn)而誒用戶異地檢索和引用數(shù)據(jù)信息提供重要支持,提高檔案資源信息的綜合利用率。

五、提升檔案數(shù)字化過程中OCR 技術(shù)識(shí)別率的基本辦法分析

識(shí)別率高低直接關(guān)系到檔案數(shù)字化過程中OCR 技術(shù)的應(yīng)用成效。從實(shí)際應(yīng)用操作的角度來看,OCR 技術(shù)如果具備較高的識(shí)別率不僅能夠精準(zhǔn)的掃描信息,提升檔案信息的錄入速度,而且還會(huì)降低檔案資料信息的后期處理工作量。如果OCR 技術(shù)的識(shí)別率較低,為了能夠提升識(shí)別率,就需要在檔案信息后期處理中消耗較多的人力、物力和財(cái)力來校對(duì)檔案信息。在檔案數(shù)字化發(fā)展中,通過提升OCR 技術(shù)的識(shí)別率會(huì)降低檔案數(shù)字化建設(shè)中的成本消耗。

(一)科學(xué)設(shè)定掃描參數(shù)

第一,分辨率。分辨率是影響檔案數(shù)字化過程中OCR 技術(shù)識(shí)別率的重要因素,圖像識(shí)別依靠掃描實(shí)現(xiàn),因此,只有獲得足夠的圖像信息才能夠提升檔案數(shù)字化過程中OCR 技術(shù)識(shí)別率。但是需要注意的是,圖像分辨率和檔案數(shù)字化過程中OCR 技術(shù)識(shí)別率不一定是正比的關(guān)系,圖像分辨率較高也會(huì)引發(fā)圖像掃描失真現(xiàn)象,最終不僅無法提升檔案數(shù)字化過程中OCR的識(shí)別率,而且還會(huì)因?yàn)閳D像文件占據(jù)較大空間而影文件的存儲(chǔ)、傳輸。第二,合理選擇色彩模式。黑色、白色圖像掃描不管是在掃描速度,還是在掃描正確率上都會(huì)遠(yuǎn)遠(yuǎn)超過其他顏色下的圖像掃描。為此,在沒有特殊要求的情況下,會(huì)選擇使用白色和黑色來完成圖像掃描,如果沒有黑色和白色的圖像,也可以選擇使用灰色的圖像完成掃描。第三,亮度和對(duì)比度的選擇。在數(shù)字化檔案發(fā)展之前,我國(guó)檔案存儲(chǔ)形式為紙質(zhì)存儲(chǔ)。但是在實(shí)際存儲(chǔ)管理中,由于一些檔案資料信息的存儲(chǔ)年份久遠(yuǎn),紙質(zhì)檔案的底色會(huì)泛黃,字跡也會(huì)變得模糊。盡管是使用黑色、白色、灰色的掃描圖像也無法滿足實(shí)際對(duì)檔案的要求。因此,為了能夠提升檔案數(shù)字化過程中OCR 技術(shù)的使用識(shí)別率,需要相關(guān)人員結(jié)合實(shí)際情況來調(diào)整掃描參數(shù),調(diào)節(jié)圖像的亮度對(duì)比度。在掃描完成之后,如果圖像漢字字跡不清晰,操作人員也可以采取一些措施適當(dāng)?shù)亟档推淞炼龋诮档土炼戎箝_展二次掃描;如果在掃描后發(fā)現(xiàn)字體比較小、筆劃粗糙,可以采取措施提升其亮度;在調(diào)節(jié)亮度的時(shí)候如果文字出現(xiàn)了變淡的情況,還需要采取措施增加圖像的對(duì)比度,在這個(gè)過程中加重原本圖像文字的顏色,最終提升檔案數(shù)字化過程中OCR技術(shù)識(shí)別率。

(二)優(yōu)化圖像處理工作

在數(shù)字化檔案中會(huì)有很多文字是以美工體或者藝術(shù)體的形式出現(xiàn),這種非常規(guī)表現(xiàn)形式上的文字形式會(huì)降低檔案數(shù)字化過程中OCR 技術(shù)的識(shí)別率。另外,如果圖像中的文字出現(xiàn)了污垢,也很容易使得OCR 技術(shù)軟件在識(shí)別的過程中出現(xiàn)判斷失誤的問題。因此,為了能夠規(guī)避以上問題的出現(xiàn),在開展OCR 技術(shù)識(shí)別操作之前,相關(guān)人員需要采取積極的措施來糾正圖像中的字體,去除圖像上的污點(diǎn),通過這樣的方式能夠有效提升OCR 技術(shù)支持下的圖像分辨率。另外需要注意的是,圖像去污也是檔案掃描操作管理中的重要工作內(nèi)容,在圖像掃描過程中不能夠忽視。

(三)做好人工校對(duì)管理工作

在檔案數(shù)字化管理的過程中,計(jì)算機(jī)系統(tǒng)也容易出現(xiàn)一些固有的問題,且在同一個(gè)地方一個(gè)問題有時(shí)候會(huì)反復(fù)出現(xiàn),最終導(dǎo)致檔案管理工作無法按照既定的程序完成操作,檔案操作管理缺乏靈活。為此,在檔案數(shù)字化管理的過程中還需要適當(dāng)?shù)呐浜鲜褂萌斯ぷR(shí)別校對(duì),通過人工識(shí)別校對(duì)來有效提升OCR 技術(shù)的識(shí)別率。

從實(shí)際應(yīng)用操作角度上來看,在OCR 技術(shù)軟件被識(shí)別之后,系統(tǒng)會(huì)將識(shí)別的結(jié)果通過不同的兩行展現(xiàn)出來,一行是圖像,另外一行是識(shí)別后的結(jié)果。OCR 技術(shù)軟件對(duì)于自身潛在的識(shí)別問題會(huì)通過不同的顏色來表示出來,目的是為用戶發(fā)現(xiàn)和解決錯(cuò)誤提供支持。但是在具體操作中我們會(huì)發(fā)現(xiàn)有一些錯(cuò)誤問題無法使用變色的方式處于展示和處理,而一些出現(xiàn)變色的圖像、數(shù)字也不一定是錯(cuò)誤的。由此要求工作人員在開展人工校對(duì)分析的時(shí)候要對(duì)以上問題進(jìn)行深入的分析檢查,不能夠完全按照提示來開展檢驗(yàn)。

結(jié)束語

綜上所述,在現(xiàn)代信息技術(shù)和科學(xué)技術(shù)的深入發(fā)展下,檔案在人類社會(huì)生活中的作用日益凸顯?;跈n案數(shù)量、類型的增多,人們對(duì)檔案處理提出了更高的要求。傳統(tǒng)的案卷級(jí)和文件級(jí)目錄檢索技術(shù)已經(jīng)無法適應(yīng)當(dāng)前網(wǎng)絡(luò)時(shí)代的搜索要求,檔案全文數(shù)字化是檔案管理的一種必然。比較當(dāng)前的各類檔案數(shù)字化技術(shù),使用OCR 技術(shù)能夠有效提升檔案處理速率和效率,因而,在未來,需要相關(guān)人員進(jìn)一步強(qiáng)化對(duì)OCR 處理技術(shù)的重視和應(yīng)用,從而更好地推進(jìn)我國(guó)檔案數(shù)字化發(fā)展。

猜你喜歡
識(shí)別率檢索圖像
攝像頭連接器可提供360°視角圖像
淺析p-V圖像中的兩個(gè)疑難問題
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
通過實(shí)際案例談如何利用外文庫檢索提高檢索效率
瑞典專利數(shù)據(jù)庫的檢索技巧
英國(guó)知識(shí)產(chǎn)權(quán)局商標(biāo)數(shù)據(jù)庫信息檢索
檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用分析
基于PCA與MLP感知器的人臉圖像辨識(shí)技術(shù)
科技文檔中數(shù)學(xué)表達(dá)式的結(jié)構(gòu)分析與識(shí)別
人工智能現(xiàn)狀和發(fā)展
安丘市| 孝感市| 张掖市| 集安市| 姜堰市| 廊坊市| 阿坝县| 广饶县| 兴安盟| 工布江达县| 白水县| 鲁山县| 玉龙| 张家口市| 临桂县| 三穗县| 谢通门县| 申扎县| 玉龙| 娱乐| 达日县| 元朗区| 佛坪县| 庆阳市| 宜兰市| 驻马店市| 彭泽县| 手机| 封丘县| 亚东县| 乳山市| 库车县| 衡阳市| 新绛县| 鄂州市| 贺兰县| 昆山市| 化州市| 荥经县| 成都市| 师宗县|