劉明英
摘要:在實(shí)現(xiàn)檔案數(shù)字化的過(guò)程中,OCR技術(shù)應(yīng)該最大限度地發(fā)揮自身的優(yōu)勢(shì),使檔案信息能夠更好地服務(wù)于廣大用戶。然而,由于技術(shù)能力所限,OCR技術(shù)在使用的過(guò)程中并不是完美的,尤其是在識(shí)別率方面,很有可能受到圖像質(zhì)量、軟件質(zhì)量、掃描參數(shù)等因素的影響而導(dǎo)致其識(shí)別率下降。文章對(duì)檔案數(shù)字化過(guò)程中OCR技術(shù)的應(yīng)用進(jìn)行了分析。
關(guān)鍵詞:OCR技術(shù);檔案數(shù)字化;檔案管理;檔案信息;識(shí)別率 文獻(xiàn)標(biāo)識(shí)碼:A
中圖分類號(hào):G271 文章編號(hào):1009-2374(2017)05-0055-02 DOI:10.13535/j.cnki.11-4406/n.2017.05.026
1 OCR技術(shù)的解析
OCR技術(shù)的中文全稱為光學(xué)字符識(shí)別技術(shù),是通過(guò)光學(xué)輸入方式將文字信息轉(zhuǎn)化為圖像信息,然后再利用文字識(shí)別技術(shù)將相關(guān)圖像信息轉(zhuǎn)化為可供計(jì)算機(jī)輸入的形式,便于檔案信息的錄入與使用。從目前的情況來(lái)看,OCR技術(shù)已經(jīng)成為了檔案技術(shù)領(lǐng)域不可或缺的重要技術(shù)水平之一,實(shí)現(xiàn)了全文字識(shí)別模式下的檔案掃描工作,有效地促進(jìn)了我國(guó)檔案數(shù)字化的發(fā)展,并為其未來(lái)的發(fā)展與突破開(kāi)啟了全新的篇章。不僅如此,OCR技術(shù)在檔案工作中的使用,既實(shí)現(xiàn)了檔案的數(shù)字化建設(shè),也為檔案信息數(shù)據(jù)的查詢工作提供了必要的技術(shù)支撐,是檔案數(shù)字化進(jìn)程中的核心技術(shù)之一,也是不可或缺的一環(huán)。
2 OCR技術(shù)在檔案數(shù)字化工作中的實(shí)際應(yīng)用
2.1 OCR技術(shù)的工作流程
OCR技術(shù)在實(shí)際的工作中,主要是按照以下流程進(jìn)行操作的,如圖1所示:
從流程圖上來(lái)看,OCR技術(shù)在使用的過(guò)程中,涉及到的工作流程較多。然而,從實(shí)際工作的情況來(lái)看,使用OCR技術(shù)進(jìn)行圖像識(shí)別的時(shí)間通常只有零點(diǎn)幾秒,但是卻要重視其前期與后期的加工處理。尤其是影像輸入與前期處理工作的效果,直接決定了OCR軟件的最終識(shí)別率,前兩環(huán)節(jié)的處理質(zhì)量越好,OCR工作的效率就越高。而后期的人工校正環(huán)節(jié),主要是對(duì)前面各個(gè)流程工作的校驗(yàn)與檢查,確保OCR工作的質(zhì)量不受影響。
2.2 OCR技術(shù)在錄入方式上的優(yōu)勢(shì)
2.2.1 OCR工作中的文字識(shí)別技術(shù)輸入檔案信息數(shù)據(jù)的過(guò)程中,在速度方面要優(yōu)于傳統(tǒng)的手工錄入方式。雖然使用OCR技術(shù)需要在識(shí)別前對(duì)信息數(shù)據(jù)進(jìn)行一定的處理,但就總體所耗時(shí)間來(lái)看,依舊遠(yuǎn)好于傳統(tǒng)的手工錄入,使檔案信息錄入方式獲得了質(zhì)的突破。
2.2.2 OCR文字識(shí)別的質(zhì)量要好于傳統(tǒng)的手工錄入。從OCR文字識(shí)別的準(zhǔn)確率上來(lái)看,雖然無(wú)法達(dá)到100%的準(zhǔn)確度,但與手工錄入相比,準(zhǔn)確率還是很高的。
2.2.3 OCR文字識(shí)別技術(shù)在使用的過(guò)程中,通常只需單人操作即可,并且工作效率、質(zhì)量極高,極大程度上節(jié)省了人力資源的消耗,從而將這些剩余的人力資源分配到其他部門,實(shí)現(xiàn)資源的優(yōu)化配置。
2.3 在檔案數(shù)字化過(guò)程中使用OCR技術(shù)的特點(diǎn)與作用
檔案數(shù)字化過(guò)程便是實(shí)現(xiàn)數(shù)字化的檔案信息管理工作,OCR技術(shù)在檔案數(shù)字化過(guò)程中,除了具備上述優(yōu)勢(shì)以外,還具備一些其他的優(yōu)點(diǎn),在實(shí)際的使用過(guò)程中,其優(yōu)勢(shì)便會(huì)逐漸體現(xiàn)出來(lái)。
2.3.1 OCR技術(shù)的使用,在著錄標(biāo)引方法上取得了一定的突破。在傳統(tǒng)的檔案目錄創(chuàng)建中,其中的許多內(nèi)容都是通過(guò)手工錄入的方式,費(fèi)時(shí)費(fèi)力易出錯(cuò)。OCR技術(shù)為檔案目錄的創(chuàng)建與錄入提供了一種全新的方式。在實(shí)際的工作中,工作人員可以直接從OCR中尋找著錄相關(guān)項(xiàng)目,使用基本的復(fù)制、粘貼操作將其放入到目錄數(shù)據(jù)庫(kù)中的相應(yīng)段落當(dāng)中即可。然而,由于OCR技術(shù)自身方面還存在著一些問(wèn)題,導(dǎo)致了該方法在實(shí)際使用的過(guò)程中缺乏可行性。在OCR技術(shù)未來(lái)發(fā)展的過(guò)程中,必須要從可行性的方面入手,逐漸完善OCR技術(shù),確保OCR在技術(shù)方面的應(yīng)用能夠獲得突破。
2.3.2 OCR技術(shù)真正實(shí)現(xiàn)了全文檢索。在檔案數(shù)字化工作中,所謂的全文檢索主要可以分為兩種:一種是針對(duì)全文目錄的檢索,必須在目錄數(shù)據(jù)庫(kù)中找到相關(guān)的條目才能將所需的文檔打開(kāi);另一種則是真正意義上的全文檢索,該檢索方式可以對(duì)檔案全文進(jìn)行逐字逐句的檢索,二者之間的工作效率與作用是十分明顯的,逐漸深入開(kāi)發(fā)并利用檔案信息資源。
2.3.3 使雙層PDF技術(shù)的使用獲得支持。所謂雙層PDF,就是指PDF文件中包含了兩層文件。在實(shí)際的應(yīng)用中,PDF的上層文件主要是通過(guò)掃描圖像來(lái)獲得,而下層則是OCR進(jìn)行文字識(shí)別產(chǎn)生的結(jié)果。隨著該技術(shù)在數(shù)據(jù)庫(kù)檢索中的廣泛運(yùn)用,逐漸增加了檔案信息文件的原始性。滿足用戶對(duì)檔案信息數(shù)據(jù)的操作需求,使檔案數(shù)字化工作越來(lái)越受到廣大客戶的歡迎。然而若要實(shí)現(xiàn)雙層PDF技術(shù)的使用,必先以O(shè)CR技術(shù)為支撐。
2.3.4 拓寬用戶的檔案利用面。在過(guò)去,用戶在選擇與利用檔案信息文件的過(guò)程中,主要以其憑證價(jià)值作為其是否使用的判定標(biāo)準(zhǔn)。然而,部分檔案在使用過(guò)程中,對(duì)檔案的原真性具有較高的要求,例如結(jié)婚證、戶口薄、學(xué)生證、房產(chǎn)證等,只有使用紙質(zhì)檔案才能真正地發(fā)揮出起作用。檔案絕不僅僅擁有憑證價(jià)值,也具有一定的情報(bào)價(jià)值與參考價(jià)值。若要將其用于學(xué)術(shù)研究或決策參考,按照現(xiàn)行的工作方式,只能去檔案館使用印刷或手工摘錄的方式來(lái)獲取,不僅不便于實(shí)際工作中的使用,也會(huì)影響檔案信息的傳播速度,對(duì)其使用效果產(chǎn)生影響。使用OCR文字識(shí)別技術(shù),使用數(shù)字化檔案代替?zhèn)鹘y(tǒng)的紙質(zhì)檔案,使我國(guó)的檔案信息技術(shù)取得了全面性的突破,使其可以為用戶提供更加優(yōu)質(zhì)的服務(wù)。
3 提高檔案數(shù)字化過(guò)程中OCR識(shí)別率的方法
識(shí)別率的高低直接影響到OCR技術(shù)存在的意義,高識(shí)別率代表OCR技術(shù)可以準(zhǔn)確地對(duì)相關(guān)信息進(jìn)行掃描,不僅提高了檔案信息的錄入速度,還減輕了后期處理的工作量。然而,如果OCR識(shí)別率低于相關(guān)規(guī)定標(biāo)準(zhǔn),為了確保檔案信息的準(zhǔn)確性,就必須在后期處理過(guò)程中,加大人工校對(duì)的力度,如此一來(lái),OCR在識(shí)別過(guò)程中制造出的優(yōu)勢(shì)便會(huì)就此抵消。在實(shí)現(xiàn)檔案數(shù)字化的過(guò)程中,OCR識(shí)別率的提高可以減少OCR工作所需消耗的人力與物力,降低了檔案數(shù)字化建設(shè)過(guò)程中消耗的成本。由此看來(lái),提高檔案數(shù)字化過(guò)程中OCR識(shí)別率勢(shì)在必行。具體可以從以下方面入手,來(lái)制定提高檔案數(shù)字化OCR識(shí)別率的方法。
3.1 設(shè)置合適的掃描參數(shù)
3.1.1 分辨率。分辨率是影響OCR識(shí)別率的重要因素之一,OCR在識(shí)別圖像的過(guò)程中主要依靠掃描來(lái)進(jìn)行,只有獲得足夠的圖像信息才能確保識(shí)別率的有效提高。然而,這并不意味著圖像的分辨率與OCR識(shí)別率是成正比的。圖像的分辨率過(guò)高也會(huì)導(dǎo)致掃描過(guò)程中出現(xiàn)失真的狀況,不僅無(wú)法提高OCR的識(shí)別率,還會(huì)導(dǎo)致圖像文件所占空間變大,不利于文件的儲(chǔ)存與傳輸。
3.1.2 色彩模式。在色彩模式的選擇方面,使用黑白兩種顏色掃描的圖像無(wú)論是速度還是正確率方面都遠(yuǎn)遠(yuǎn)高于其他顏色模式的掃描圖像。因此,在沒(méi)有特殊要求的情況下,通常使用這兩種顏色來(lái)完成圖像掃描。除此之外,灰度模式在OCR識(shí)別掃描的過(guò)程中有著較為廣泛的運(yùn)用,例如紙張顏色發(fā)黃或者是對(duì)文字字跡要求較淡的檔案。
3.1.3 亮度與對(duì)比度。在現(xiàn)代化檔案管理系統(tǒng)出現(xiàn)以前,我國(guó)檔案儲(chǔ)存都是使用紙質(zhì)儲(chǔ)存的方式,由于一些檔案的儲(chǔ)存年份較差,紙張的底色會(huì)逐漸泛黃,字跡也會(huì)變得較為暗淡,采用灰度模式進(jìn)行掃描已經(jīng)無(wú)法滿足實(shí)際的要求。因此,為了有效的提高OCR識(shí)別率,需對(duì)掃描的參數(shù)進(jìn)行適當(dāng)?shù)母淖?,也就是?duì)亮度以及圖像對(duì)比度的調(diào)節(jié)。如果在掃描結(jié)束以后,圖像中漢字的字跡較淺,可以適當(dāng)?shù)卣{(diào)低其亮度進(jìn)行二次掃描;如果在掃描結(jié)束后,字體較小,筆劃也比較粗,則可以適當(dāng)?shù)卦黾悠淞炼?;如果在進(jìn)行亮度調(diào)節(jié)的過(guò)程中,圖像的文字出現(xiàn)了變淡的情況,則需對(duì)圖像的對(duì)比度進(jìn)行適當(dāng)?shù)恼{(diào)節(jié),加重原圖像文字的顏色,從而提高OCR識(shí)別率。
3.2 圖像的處理工作
原圖像中許多文字可能會(huì)以美工體或者是藝術(shù)體的形式出現(xiàn),這種非常規(guī)字體的出現(xiàn),大大降低了OCR識(shí)別率。除此之外,如果圖像中文字存在污點(diǎn)或者是污垢,也很有可能導(dǎo)致OCR軟件在識(shí)別過(guò)程中出現(xiàn)錯(cuò)誤或失誤。因此為了避免這種情況的發(fā)生,在OCR識(shí)別以前,必須要對(duì)圖像中的字體進(jìn)行糾正,并清除圖像上的污點(diǎn)與污漬,以此方式來(lái)有效地提高OCR識(shí)別率。但是,需要注意的是,圖像的糾偏與去污并不是因?yàn)镺CR技術(shù)的使用才施行的,而是檔案掃描流程中必不可少的工作環(huán)節(jié)之一,即使不使用OCR技術(shù)也不能漏過(guò)這一環(huán)節(jié)。
3.3 強(qiáng)調(diào)人工校對(duì)的重要性
在實(shí)際的工作中,電腦會(huì)因?yàn)楣潭ɑ腻e(cuò)誤,在同一個(gè)地方始終出現(xiàn)問(wèn)題,工作完全按照程序設(shè)定的內(nèi)容進(jìn)行,缺乏靈活性。這也是人腦相較于電腦來(lái)說(shuō),最大的優(yōu)勢(shì)之一。從我國(guó)目前的情況來(lái)看,OCR識(shí)別率還無(wú)法達(dá)到100%,這也正是人工校對(duì)技術(shù)存在的原因。由此看來(lái),人工校對(duì)是提高OCR識(shí)別率的最后一環(huán)。
從理論上來(lái)說(shuō),OCR軟件識(shí)別后,會(huì)將識(shí)別結(jié)果以不同的兩行呈現(xiàn)出來(lái),其中一行是圖像,而另一行便是識(shí)別后的結(jié)果。OCR軟件對(duì)自身識(shí)別存在疑問(wèn)的部分,通常會(huì)使用不同的顏色進(jìn)行表明,便于用戶發(fā)現(xiàn)錯(cuò)誤。然而,在實(shí)際的使用當(dāng)中,有些存在錯(cuò)誤的部分,軟件卻并沒(méi)有對(duì)其進(jìn)行變色處理,而進(jìn)行變色處理的文字或語(yǔ)句也不一定是錯(cuò)的。因此,工作人員在進(jìn)行人工校驗(yàn)的過(guò)程中,務(wù)必要針對(duì)此問(wèn)題進(jìn)行仔細(xì)檢查,不能按照提示改完便結(jié)束校驗(yàn)工作,以免存在“漏網(wǎng)之魚(yú)”。
4 結(jié)語(yǔ)
綜合上文所述,在檔案數(shù)字化的過(guò)程中,使用OCR技術(shù)可以有效地提高檔案錄入與輸出的速度與質(zhì)量,減少檔案管理工作所需的工作人員及其工作量,最大限度地降低了檔案管理工作中的人力消耗。然而,只有解決了OCR識(shí)別率方面存在的問(wèn)題,該技術(shù)才能真正地促進(jìn)檔案數(shù)字化的發(fā)展。
參考文獻(xiàn)
[1] 吳軍.掃描文檔圖像的處理方法的研究和應(yīng)用[D].山東師范大學(xué),2015.
[2] 馮雪.紙質(zhì)檔案數(shù)字化中需要注意的幾點(diǎn)問(wèn)題[J].辦公室業(yè)務(wù),2016,(8).
[3] 鄭鳳英.大數(shù)據(jù)環(huán)境下國(guó)土資源檔案數(shù)字化質(zhì)量管理初探[J].黑龍江史志,2015,(5).
[4] 任惠敏.國(guó)土資源檔案管理中信息化與數(shù)字化技術(shù)的運(yùn)用淺析[J].辦公室業(yè)務(wù),2016,(23).
(責(zé)任編輯:蔣建華)