国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于OCR技術(shù)的文本數(shù)據(jù)質(zhì)量控制研究

2024-07-29 00:00劉耀萱
中國信息化 2024年6期

文本數(shù)據(jù)質(zhì)量的發(fā)展離不開海量的原生數(shù)據(jù)和網(wǎng)絡(luò)原生數(shù)字資源的支持。原生數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)、文獻數(shù)據(jù)和用戶數(shù)據(jù)三大類型。其中,文本數(shù)據(jù)是支撐文獻數(shù)據(jù)搜索引擎和知識化資源系統(tǒng)建設(shè)的主要對象。目前對于文本數(shù)據(jù)質(zhì)量控制存在流程復(fù)雜、數(shù)量巨大和技術(shù)效率要求較高的問題,OCR識別技術(shù)因此備受關(guān)注,其采用人工智能的輔助算法,OCR可以提高其兼容性。本文通過綜述OCR 技術(shù)的識別工作過程、關(guān)鍵技術(shù)、研究思路及在不同種類文獻中的廣泛應(yīng)用,表明通過改善OCR技術(shù)可以提高對于文本數(shù)據(jù)的識別效率和準確度,實現(xiàn)文本數(shù)據(jù)的智能管理化。

一、OCR技術(shù)與全文本數(shù)據(jù)質(zhì)量控制

(一)OCR技術(shù)原理及其發(fā)展

OCR技術(shù)即光學(xué)字符識別,是一種將圖像文字轉(zhuǎn)換為可編輯文本的技術(shù),方法包括兩個主要環(huán)節(jié):首先是圖像處理過程,利用掃描儀、數(shù)碼相機等電子設(shè)備,通過光學(xué)和電子信息技術(shù)將印在或?qū)懺诩埳系奈淖洲D(zhuǎn)化為點陣圖像,以檢測亮暗的方式來確定字符間的輪廓形狀。通過字符識別研究文字形狀特征,最終轉(zhuǎn)化為計算機語言文字。OCR的實現(xiàn)過程融合了人工智能、數(shù)字圖像處理以及計算機圖形處理等多種先進信息技術(shù)。隨著互聯(lián)網(wǎng)和人工智能技術(shù)的不斷發(fā)展,OCR識別技術(shù)己經(jīng)可以從識別特定文字發(fā)展到對文字進行高精度的識別,識別速度大幅提高,對于清晰工整的文字圖像識別準確率甚至可以達到99.5%以上。

(二) OCR技術(shù)應(yīng)用現(xiàn)狀

目前OCR 技術(shù)根據(jù)識別類型主要劃分為中文簡繁體識別、中英文混合識別、大字符識別、表格識別、圖文混排文檔識別;根據(jù)識別對象的字體上可以劃分為印刷體識別、手寫體識別等,甚至還可以識別視頻圖像文字。OCR技術(shù)的發(fā)展?jié)M足了用戶對于文字自動識別的需求,廣泛應(yīng)用于我國各行各業(yè),包括金融機構(gòu)、政府醫(yī)療、圖書館、檔案館等單位。網(wǎng)頁識圖,AI 智能輸入法,快遞單號識別系統(tǒng),高速公路ETC 通道車牌自動識別,圖書館書刊報全文數(shù)字化等,實際上都是利用OCR 技術(shù)原理來解決實際問題。

二、OCR全文本數(shù)據(jù)質(zhì)量控制的難點與問題

本段主要以筆者在實際工作中質(zhì)檢不同類型的文獻數(shù)據(jù)為例,通過闡述文獻數(shù)據(jù)驗收中發(fā)現(xiàn)的主要問題來分析OCR在全文本數(shù)據(jù)加工中的質(zhì)量控制問題。

(一)學(xué)位論文文獻

由于傳統(tǒng)的資源建設(shè)和服務(wù)方式已經(jīng)不能滿足讀者日益增長的需求,導(dǎo)致學(xué)位論文資源建設(shè)的規(guī)模和國際影響力顯著下降。因此,重視學(xué)位論文的數(shù)字化,進一步加大學(xué)位論文全文本數(shù)據(jù)質(zhì)量控制的建設(shè)勢在必行。

在實際驗收學(xué)位論文的工作中,主要問題存在于論文的英文摘要、英文目錄及其論文文獻標引這三部分。由于與漢字相比,外文字母數(shù)量和結(jié)構(gòu)相對簡單,但依然存在相似字母與數(shù)字識別困難的問題。例如:V與U、I與J、a與d、c與o、i與L、6與G、L與I,I與1、O與0等。這些字母和數(shù)字由于結(jié)構(gòu)相似,造成較高的識別錯誤率。在經(jīng)過OCR軟件識別后需要重點進行人工校對。

在英文詞組切分的方面,O C R軟件在進行詞組切分時,如果不能正確切分,就會導(dǎo)致固定詞組錯誤。實際中常見:“Domestic Subscription”識別為“DomesticSubscription”、“Council of the People′s”識別為“Councilofthe People′s”等情況。此外,根據(jù)英文的行文習(xí)慣,經(jīng)常存在同一個單詞分成上下兩行書寫的情況,中間或用連字符(—)或不使用連字符,OCR識別時主要依據(jù)“原樣識別”的原則, 這樣同一個單詞可能被切分成兩個單詞,針對這種情況,應(yīng)采取統(tǒng)一的識別規(guī)則,如果需要恢復(fù)單詞原意,則需要進行針對性的處理。

在論文文獻的書寫和引用中,存在大量外形相似的標點和符號,例如:“, 。 、 .”、 “— _”、“[{ 〈”等。這些標點符號的結(jié)構(gòu)形態(tài)也常與紙張上的污漬雜點相近,OCR識別過程中經(jīng)?;煜?,造成文本信息錯誤。對于不太常見的符號,例如上角標、下腳標、波浪線、下劃線、注解中的圈注符號、漢語拼音的音節(jié)等,大部分OCR識別軟件在識別過程中仍然存在一些問題。例如:

(1)“M2”識別為“M2”,二次方符號沒有識別正確。

(2)“Xīmén ànshā”識別為“Xīmén Anshā”,漢語拼音的注音符號沒有完全識別?!?/p>

(3)“或者標明或標記”識別后為 “或者標明注或?標記“,帶圈文字識別錯誤。

(二)政府公報文獻

政府公報是指政府機關(guān)出版發(fā)行的以登載法令、方針、政策、宣言、聲明、人事任免等各類政府文件為主要內(nèi)容的連續(xù)出版物。政府公報具有較強的權(quán)威性,因此對OCR識別準確性和內(nèi)容還原度都提出了較高要求。

(三)民國時期文獻

民國時期文獻涵蓋圖書、期刊、報紙、手稿、書札,還包括海報,老照片、電影、唱片,以及非正式出版的日記、傳單、商業(yè)契約和票據(jù)等。據(jù)初步估算,國內(nèi)民國時期文獻數(shù)量超過了存世的古籍總量,它們散落在全國各地的藏書機構(gòu)。隨著時間的推移和社會的進步,民國文獻質(zhì)量的保護與利用越來越受到重視。其中文獻數(shù)字化的質(zhì)檢工作,是保障數(shù)據(jù)質(zhì)量的最后一個環(huán)節(jié),OCR軟件對于全文本數(shù)據(jù)質(zhì)量的控制問題尤為關(guān)鍵。

在質(zhì)檢工作中,民國文獻數(shù)據(jù)質(zhì)檢內(nèi)容分為目次數(shù)據(jù)和圖像數(shù)據(jù)兩部分。目次數(shù)據(jù)的問題主要集中在元數(shù)據(jù)中的book表和catalog表中,例如:book表中,book_ name為“人格修養(yǎng)法”,原書上實際顯示為“獨立自尊人格修養(yǎng)法合冊,catalog表中chapter_name識別為“復(fù)活后第五主日即升天前主日”,原書上實際應(yīng)為“耶穌升天前主日”、 catalog表中chapter _name識別為“器物妝飾”,原書上實際應(yīng)為“器物裝飾”。這種漏識、多識、錯識的情況常見于經(jīng)過OCR軟件識別后的書目目次數(shù)據(jù)中。

對于圖像數(shù)據(jù),其主要問題多存在于書中表格識別和科學(xué)公式還原的問題上:

1.不同種類易錯表格問題及控制辦法

對于簡單樣式的表格,其有若干條標志性的表格線且內(nèi)容屬于一對一的關(guān)系,在實踐中可以不轉(zhuǎn)換表格格式,按照整體合并內(nèi)容;對于復(fù)雜樣式的表格,表格里的內(nèi)容存在一對多的關(guān)系,且缺少表格線作為標記,在實踐中可將表格整體作為圖片進行處理。當然,也可以采用文本編輯的方式重新按照原樣繪制表格。對表格采取何種處理方式,主要是根據(jù)數(shù)據(jù)文件的格式、用途而定,根本原則是避免識別后表格中文字內(nèi)容漏識、錯識以及對應(yīng)關(guān)系識別錯亂等問題。

2.科學(xué)公式還原問題及控制辦法

政府公報發(fā)布的一些文件中包含科學(xué)公式,由于科學(xué)公式通常采用特殊符號或采用特殊結(jié)構(gòu),僅通過自動識別難以達到完整正確還原公式的目的。一些公式經(jīng)過自動識別,其格式不能完全還原,導(dǎo)致公式含義發(fā)生變化。針對這種情況,在實踐中可以采取格式轉(zhuǎn)換的方式,將固定格式的公式按照其科學(xué)含義轉(zhuǎn)換成文本文件能夠顯示的樣式。

三、文本數(shù)據(jù)質(zhì)量控制操作建議

OCR 文字識別系統(tǒng)性能的好壞主要由拒識率、誤識率、識別速度、用戶界面友好性、產(chǎn)品穩(wěn)定性、易用性以及可行性等因素構(gòu)成。本段主要討論如何通過OCR軟件的工作流程及主要關(guān)鍵技術(shù)來解決文字“拒識率”和“誤識率”這兩個問題,從而提升全文本數(shù)據(jù)的質(zhì)量。

(1)圖像輸入和預(yù)處理。在前期圖像輸入這個過程中設(shè)置準確適合的參數(shù)是后期圖像掃描質(zhì)量高低的關(guān)鍵所在,是決定 OCR文字識別率高低的重要因素,清晰完整的掃描圖像有助提高后期OCR軟件對于文字識別的準確率。掃描圖像完成后是預(yù)處理過程:OCR系統(tǒng)對圖像邊緣進行檢測,將傾斜圖像進行歸正處理。這個過程提高圖像文字的準確度,利于0CR軟件的識別,避免文字的“誤識率”和“拒識率”。為獲取更清晰的圖像,OCR操作系統(tǒng)會對圖像進行增強處理,加大圖像顏色對比度,以便人、機可以更好地研究分析圖像。

(2)圖像分割。圖像質(zhì)量達到合格后是對圖像進行分割處理,過程的目的是為了分離和定位需要識別的物體,將原本輸入的完整圖像,變成像元圖像進行輸出。

(3)圖像特征提取和圖像分類。即將分割后的物體提取系統(tǒng)所需特征,根據(jù)特征進行分類。目的是將輸入的信息圖像變化為特征信息進行輸出。

OCR系統(tǒng)完成上述操作后,文字可達到較高的準確率。未識別合格的文字是由OCR軟件的“拒識率”和“誤識率”等因素造成的,需要后期人工干涉進行文字校對。因此加大后期人工校對力度是保障文字識別率提高的關(guān)鍵所在。

結(jié)合文獻中全文本數(shù)據(jù)加工存在的主要問題和OCR系統(tǒng)軟件的部分工作流程分析,提高OCR識別率的方法可從以下四個方面入手:一是完善OCR軟件系統(tǒng)的預(yù)處理過程:設(shè)置準確合適的圖像掃描參數(shù)、利用Photoshop軟件編輯完善圖像,避免圖像文字受到外在因素的干擾,從而提高圖像文字的清晰度,利于0CR軟件的識別;二是建立完整的字庫進行支持,及時更新文字字庫,擴充字庫中的生僻漢字也可降低OCR文字識別軟件的“拒識率”,從而提高全文本數(shù)據(jù)質(zhì)量;三是建立專門的錯題庫,將典型特殊的問題匯總,當OCR系統(tǒng)再次遇到同樣錯誤時可有針對性的避免重復(fù)問題發(fā)生;四是加大人工通查校對力度。目前OCR技術(shù)仍不能做到對于文本數(shù)據(jù)內(nèi)容百分百正確識別,后期人工校對環(huán)節(jié)對于提高OCR識別率十分重要。

四、結(jié)語

OCR技術(shù)目前趨于成熟發(fā)展,但仍存在一定的問題和局限性,為解決其對于文本質(zhì)量控制的主要問題,本文從OCR技術(shù)原理及其發(fā)展應(yīng)用現(xiàn)狀為出發(fā)點,介紹 OCR技術(shù)在實際中的應(yīng)用,同時依次以O(shè)CR軟件在學(xué)位論文、民國文獻、政府公報數(shù)據(jù)中對于文本數(shù)據(jù)加工中出現(xiàn)的問題為例,分析文本數(shù)據(jù)質(zhì)量的控制問題。通過OCR軟件識別過程、關(guān)鍵技術(shù)、研究思路及在多種文獻中的應(yīng)用四個方面說明OCR技術(shù)在文本質(zhì)量控制和管理中的重要作用。通過匯總分析實際工作數(shù)據(jù)驗收中存在的問題,分別從如何解決圖像掃描質(zhì)量問題和文字識別問題兩個角度出發(fā),提出提高文本數(shù)據(jù)質(zhì)量控制操作準確率的相關(guān)建議。

作者單位: 國家圖書館

阿拉尔市| 于田县| 黄平县| 库尔勒市| 白沙| 沂南县| 永清县| 封丘县| 沙田区| 兴安县| 达拉特旗| 闽侯县| 商城县| 十堰市| 金川县| 子洲县| 深水埗区| 麻阳| 富顺县| 大埔县| 广丰县| 凌海市| 河西区| 大荔县| 工布江达县| 互助| 金溪县| 巴中市| 沧源| 云和县| 双江| 阳曲县| 三门县| 巢湖市| 天水市| 永康市| 庄浪县| 墨玉县| 澎湖县| 佳木斯市| 寿光市|