基于OCR技術(shù)的文本數(shù)據(jù)質(zhì)量控制研究

2024-07-29 00:00劉耀萱

中國信息化 2024年6期

文本數(shù)據(jù)質(zhì)量的發(fā)展離不開海量的原生數(shù)據(jù)和網(wǎng)絡(luò)原生數(shù)字資源的支持。原生數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)、文獻數(shù)據(jù)和用戶數(shù)據(jù)三大類型。其中，文本數(shù)據(jù)是支撐文獻數(shù)據(jù)搜索引擎和知識化資源系統(tǒng)建設(shè)的主要對象。目前對于文本數(shù)據(jù)質(zhì)量控制存在流程復(fù)雜、數(shù)量巨大和技術(shù)效率要求較高的問題，OCR識別技術(shù)因此備受關(guān)注，其采用人工智能的輔助算法，OCR可以提高其兼容性。本文通過綜述OCR 技術(shù)的識別工作過程、關(guān)鍵技術(shù)、研究思路及在不同種類文獻中的廣泛應(yīng)用，表明通過改善OCR技術(shù)可以提高對于文本數(shù)據(jù)的識別效率和準確度，實現(xiàn)文本數(shù)據(jù)的智能管理化。

一、OCR技術(shù)與全文本數(shù)據(jù)質(zhì)量控制

（一）OCR技術(shù)原理及其發(fā)展

OCR技術(shù)即光學(xué)字符識別，是一種將圖像文字轉(zhuǎn)換為可編輯文本的技術(shù)，方法包括兩個主要環(huán)節(jié)：首先是圖像處理過程，利用掃描儀、數(shù)碼相機等電子設(shè)備，通過光學(xué)和電子信息技術(shù)將印在或?qū)懺诩埳系奈淖洲D(zhuǎn)化為點陣圖像，以檢測亮暗的方式來確定字符間的輪廓形狀。通過字符識別研究文字形狀特征，最終轉(zhuǎn)化為計算機語言文字。OCR的實現(xiàn)過程融合了人工智能、數(shù)字圖像處理以及計算機圖形處理等多種先進信息技術(shù)。隨著互聯(lián)網(wǎng)和人工智能技術(shù)的不斷發(fā)展，OCR識別技術(shù)己經(jīng)可以從識別特定文字發(fā)展到對文字進行高精度的識別，識別速度大幅提高，對于清晰工整的文字圖像識別準確率甚至可以達到99.5%以上。

（二） OCR技術(shù)應(yīng)用現(xiàn)狀

目前OCR 技術(shù)根據(jù)識別類型主要劃分為中文簡繁體識別、中英文混合識別、大字符識別、表格識別、圖文混排文檔識別；根據(jù)識別對象的字體上可以劃分為印刷體識別、手寫體識別等，甚至還可以識別視頻圖像文字。OCR技術(shù)的發(fā)展?jié)M足了用戶對于文字自動識別的需求，廣泛應(yīng)用于我國各行各業(yè)，包括金融機構(gòu)、政府醫(yī)療、圖書館、檔案館等單位。網(wǎng)頁識圖，AI 智能輸入法，快遞單號識別系統(tǒng)，高速公路ETC 通道車牌自動識別，圖書館書刊報全文數(shù)字化等，實際上都是利用OCR 技術(shù)原理來解決實際問題。

二、OCR全文本數(shù)據(jù)質(zhì)量控制的難點與問題

本段主要以筆者在實際工作中質(zhì)檢不同類型的文獻數(shù)據(jù)為例，通過闡述文獻數(shù)據(jù)驗收中發(fā)現(xiàn)的主要問題來分析OCR在全文本數(shù)據(jù)加工中的質(zhì)量控制問題。

（一）學(xué)位論文文獻

由于傳統(tǒng)的資源建設(shè)和服務(wù)方式已經(jīng)不能滿足讀者日益增長的需求，導(dǎo)致學(xué)位論文資源建設(shè)的規(guī)模和國際影響力顯著下降。因此，重視學(xué)位論文的數(shù)字化，進一步加大學(xué)位論文全文本數(shù)據(jù)質(zhì)量控制的建設(shè)勢在必行。

在實際驗收學(xué)位論文的工作中，主要問題存在于論文的英文摘要、英文目錄及其論文文獻標引這三部分。由于與漢字相比，外文字母數(shù)量和結(jié)構(gòu)相對簡單，但依然存在相似字母與數(shù)字識別困難的問題。例如：V與U、I與J、a與d、c與o、i與L、6與G、L與I，I與1、O與0等。這些字母和數(shù)字由于結(jié)構(gòu)相似，造成較高的識別錯誤率。在經(jīng)過OCR軟件識別后需要重點進行人工校對。

在英文詞組切分的方面，O C R軟件在進行詞組切分時，如果不能正確切分，就會導(dǎo)致固定詞組錯誤。實際中常見：“Domestic Subscription”識別為“DomesticSubscription”、“Council of the People′s”識別為“Councilofthe People′s”等情況。此外，根據(jù)英文的行文習(xí)慣，經(jīng)常存在同一個單詞分成上下兩行書寫的情況，中間或用連字符（—）或不使用連字符，OCR識別時主要依據(jù)“原樣識別”的原則，這樣同一個單詞可能被切分成兩個單詞，針對這種情況，應(yīng)采取統(tǒng)一的識別規(guī)則，如果需要恢復(fù)單詞原意，則需要進行針對性的處理。

在論文文獻的書寫和引用中，存在大量外形相似的標點和符號，例如：“，。、 .”、 “— _”、“[{ 〈”等。這些標點符號的結(jié)構(gòu)形態(tài)也常與紙張上的污漬雜點相近，OCR識別過程中經(jīng)?；煜?，造成文本信息錯誤。對于不太常見的符號，例如上角標、下腳標、波浪線、下劃線、注解中的圈注符號、漢語拼音的音節(jié)等，大部分OCR識別軟件在識別過程中仍然存在一些問題。例如：

（1）“M2”識別為“M2”，二次方符號沒有識別正確。

（2）“Xīmén ànshā”識別為“Xīmén Anshā”，漢語拼音的注音符號沒有完全識別?！?/p>

（3）“或者標明或標記”識別后為 “或者標明注或？標記“，帶圈文字識別錯誤。

（二）政府公報文獻

政府公報是指政府機關(guān)出版發(fā)行的以登載法令、方針、政策、宣言、聲明、人事任免等各類政府文件為主要內(nèi)容的連續(xù)出版物。政府公報具有較強的權(quán)威性，因此對OCR識別準確性和內(nèi)容還原度都提出了較高要求。

（三）民國時期文獻

民國時期文獻涵蓋圖書、期刊、報紙、手稿、書札，還包括海報，老照片、電影、唱片，以及非正式出版的日記、傳單、商業(yè)契約和票據(jù)等。據(jù)初步估算，國內(nèi)民國時期文獻數(shù)量超過了存世的古籍總量，它們散落在全國各地的藏書機構(gòu)。隨著時間的推移和社會的進步，民國文獻質(zhì)量的保護與利用越來越受到重視。其中文獻數(shù)字化的質(zhì)檢工作，是保障數(shù)據(jù)質(zhì)量的最后一個環(huán)節(jié)，OCR軟件對于全文本數(shù)據(jù)質(zhì)量的控制問題尤為關(guān)鍵。

在質(zhì)檢工作中，民國文獻數(shù)據(jù)質(zhì)檢內(nèi)容分為目次數(shù)據(jù)和圖像數(shù)據(jù)兩部分。目次數(shù)據(jù)的問題主要集中在元數(shù)據(jù)中的book表和catalog表中，例如：book表中，book_ name為“人格修養(yǎng)法”，原書上實際顯示為“獨立自尊人格修養(yǎng)法合冊，catalog表中chapter_name識別為“復(fù)活后第五主日即升天前主日”，原書上實際應(yīng)為“耶穌升天前主日”、 catalog表中chapter _name識別為“器物妝飾”，原書上實際應(yīng)為“器物裝飾”。這種漏識、多識、錯識的情況常見于經(jīng)過OCR軟件識別后的書目目次數(shù)據(jù)中。

對于圖像數(shù)據(jù)，其主要問題多存在于書中表格識別和科學(xué)公式還原的問題上：

1.不同種類易錯表格問題及控制辦法

對于簡單樣式的表格，其有若干條標志性的表格線且內(nèi)容屬于一對一的關(guān)系，在實踐中可以不轉(zhuǎn)換表格格式，按照整體合并內(nèi)容；對于復(fù)雜樣式的表格，表格里的內(nèi)容存在一對多的關(guān)系，且缺少表格線作為標記，在實踐中可將表格整體作為圖片進行處理。當然，也可以采用文本編輯的方式重新按照原樣繪制表格。對表格采取何種處理方式，主要是根據(jù)數(shù)據(jù)文件的格式、用途而定，根本原則是避免識別后表格中文字內(nèi)容漏識、錯識以及對應(yīng)關(guān)系識別錯亂等問題。

2.科學(xué)公式還原問題及控制辦法

政府公報發(fā)布的一些文件中包含科學(xué)公式，由于科學(xué)公式通常采用特殊符號或采用特殊結(jié)構(gòu)，僅通過自動識別難以達到完整正確還原公式的目的。一些公式經(jīng)過自動識別，其格式不能完全還原，導(dǎo)致公式含義發(fā)生變化。針對這種情況，在實踐中可以采取格式轉(zhuǎn)換的方式，將固定格式的公式按照其科學(xué)含義轉(zhuǎn)換成文本文件能夠顯示的樣式。

三、文本數(shù)據(jù)質(zhì)量控制操作建議

OCR 文字識別系統(tǒng)性能的好壞主要由拒識率、誤識率、識別速度、用戶界面友好性、產(chǎn)品穩(wěn)定性、易用性以及可行性等因素構(gòu)成。本段主要討論如何通過OCR軟件的工作流程及主要關(guān)鍵技術(shù)來解決文字“拒識率”和“誤識率”這兩個問題，從而提升全文本數(shù)據(jù)的質(zhì)量。

（1）圖像輸入和預(yù)處理。在前期圖像輸入這個過程中設(shè)置準確適合的參數(shù)是后期圖像掃描質(zhì)量高低的關(guān)鍵所在，是決定 OCR文字識別率高低的重要因素，清晰完整的掃描圖像有助提高后期OCR軟件對于文字識別的準確率。掃描圖像完成后是預(yù)處理過程：OCR系統(tǒng)對圖像邊緣進行檢測，將傾斜圖像進行歸正處理。這個過程提高圖像文字的準確度，利于0CR軟件的識別，避免文字的“誤識率”和“拒識率”。為獲取更清晰的圖像，OCR操作系統(tǒng)會對圖像進行增強處理，加大圖像顏色對比度，以便人、機可以更好地研究分析圖像。

（2）圖像分割。圖像質(zhì)量達到合格后是對圖像進行分割處理，過程的目的是為了分離和定位需要識別的物體，將原本輸入的完整圖像，變成像元圖像進行輸出。

（3）圖像特征提取和圖像分類。即將分割后的物體提取系統(tǒng)所需特征，根據(jù)特征進行分類。目的是將輸入的信息圖像變化為特征信息進行輸出。

OCR系統(tǒng)完成上述操作后，文字可達到較高的準確率。未識別合格的文字是由OCR軟件的“拒識率”和“誤識率”等因素造成的，需要后期人工干涉進行文字校對。因此加大后期人工校對力度是保障文字識別率提高的關(guān)鍵所在。

結(jié)合文獻中全文本數(shù)據(jù)加工存在的主要問題和OCR系統(tǒng)軟件的部分工作流程分析，提高OCR識別率的方法可從以下四個方面入手：一是完善OCR軟件系統(tǒng)的預(yù)處理過程：設(shè)置準確合適的圖像掃描參數(shù)、利用Photoshop軟件編輯完善圖像，避免圖像文字受到外在因素的干擾，從而提高圖像文字的清晰度，利于0CR軟件的識別；二是建立完整的字庫進行支持，及時更新文字字庫，擴充字庫中的生僻漢字也可降低OCR文字識別軟件的“拒識率”，從而提高全文本數(shù)據(jù)質(zhì)量；三是建立專門的錯題庫，將典型特殊的問題匯總，當OCR系統(tǒng)再次遇到同樣錯誤時可有針對性的避免重復(fù)問題發(fā)生；四是加大人工通查校對力度。目前OCR技術(shù)仍不能做到對于文本數(shù)據(jù)內(nèi)容百分百正確識別，后期人工校對環(huán)節(jié)對于提高OCR識別率十分重要。

四、結(jié)語

OCR技術(shù)目前趨于成熟發(fā)展，但仍存在一定的問題和局限性，為解決其對于文本質(zhì)量控制的主要問題，本文從OCR技術(shù)原理及其發(fā)展應(yīng)用現(xiàn)狀為出發(fā)點，介紹 OCR技術(shù)在實際中的應(yīng)用，同時依次以O(shè)CR軟件在學(xué)位論文、民國文獻、政府公報數(shù)據(jù)中對于文本數(shù)據(jù)加工中出現(xiàn)的問題為例，分析文本數(shù)據(jù)質(zhì)量的控制問題。通過OCR軟件識別過程、關(guān)鍵技術(shù)、研究思路及在多種文獻中的應(yīng)用四個方面說明OCR技術(shù)在文本質(zhì)量控制和管理中的重要作用。通過匯總分析實際工作數(shù)據(jù)驗收中存在的問題，分別從如何解決圖像掃描質(zhì)量問題和文字識別問題兩個角度出發(fā)，提出提高文本數(shù)據(jù)質(zhì)量控制操作準確率的相關(guān)建議。

作者單位：國家圖書館

中國信息化2024年6期

中國信息化的其它文章: 中美人工智能新藥研發(fā)產(chǎn)業(yè)鏈現(xiàn)狀對比及發(fā)展啟示; 四部門關(guān)于開展2024年“百場萬企”大中小企業(yè)融通對接活動的通知; 歐拉迎來四大升級，國產(chǎn)開源操作系統(tǒng)進一步增強; 統(tǒng)一平臺重塑網(wǎng)絡(luò)安全未來; 智能未來觸手可及，亞馬遜云科技引領(lǐng)生成式AI與產(chǎn)業(yè)深度融合; 無錫物聯(lián)網(wǎng)集群培育對江蘇制造業(yè)發(fā)展的啟示

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于OCR技術(shù)的文本數(shù)據(jù)質(zhì)量控制研究

一、OCR技術(shù)與全文本數(shù)據(jù)質(zhì)量控制

二、OCR全文本數(shù)據(jù)質(zhì)量控制的難點與問題

三、文本數(shù)據(jù)質(zhì)量控制操作建議

四、結(jié)語

二、OCR全文本數(shù)據(jù)質(zhì)量控制的難點與問題

四、結(jié)語