楊俊葉++王訓(xùn)偉
摘要:文章首先對OCR技術(shù)的發(fā)展背景進行了介紹,指出了OCR文字識別系統(tǒng)在掃描儀、文字編輯等領(lǐng)域的應(yīng)用及優(yōu)勢。通過對OCR技術(shù)工作原理的介紹,重點論述了OCR文字識別系統(tǒng)主要的圖像處理模塊、版面分析模塊、文字識別模塊、文字校對模塊及輸出模塊的功能、實現(xiàn)方式以及技術(shù)要點。文章最后從更精準的文字編碼庫和一種到多種算法的改進兩個方面就OCR文字識別技術(shù)未來的發(fā)展趨勢進行了分析。
關(guān)鍵詞:OCR技術(shù);圖像識別;功能模塊;文字編碼庫
一、概述
OCR(Optical Character Recognition) 技術(shù)的中文名稱是光學(xué)字符識別,通常是指通過掃描儀、數(shù)碼相機等電子輸入設(shè)備將紙質(zhì)文檔上的信息,如文字、表格和圖像等信息,利用各種模式識別算法分析文字形態(tài)特征,判斷出漢字的標準編碼,并按通用字符格式存儲在文本文檔中。隨著移動internet網(wǎng)、高級智能手機以及微信和QQ等社交網(wǎng)絡(luò)的發(fā)展帶來了海量圖片信息,圖片成為internet網(wǎng)信息交流主要媒介之一,如果信息是由文字作為載體我們可以通過搜索引擎進行檢索,但是圖像和表格文字我們卻無能為力,在這種情況下,計算機的OCR圖像識別技術(shù)就可以解決這個難題。OCR實際上就是讓計算機去識別圖像為可編輯的文字,實現(xiàn)圖像到文字的轉(zhuǎn)換,通過圖像處理和模式識別技術(shù)對光學(xué)字符進行識別,這是自動識別技術(shù)研究和應(yīng)用領(lǐng)域中的一個重要方面。目前大部分的掃描儀制造商將OCR技術(shù)集成到掃描儀軟件中,實現(xiàn)邊掃描邊進行OCR文字識別,掃描儀與OCR文字識別技術(shù)的完美結(jié)合,大大方便了人們對掃描圖像上的文字編輯需求,OCR文字識別技術(shù)己成為絕大多數(shù)掃描儀軟件的標配。
二、OCR文字識別的原理
OCR文字識別的原理是計算機對圖像進行版面分析、處理和模式識別。圖像版面分析是指通過對圖像文字的預(yù)處理,文字圖像的分割和坐標定位;文字模式識別是通過檢測暗、亮的模式,放大圖像確定其形狀特征并進行提取和判斷,最終通過圖像黑白點二進制與字符編碼進行匹配,根據(jù)最相近的匹配度將文字圖像特征進行文字的轉(zhuǎn)換。
標準的OCR文字識別系統(tǒng)主要包括圖像處理模塊、版面分析模塊、文字識別模塊、文字校對模塊和輸出模塊。
(一)圖像處理模塊
主要是通過掃描儀設(shè)備將紙質(zhì)的期刊、學(xué)位等文獻數(shù)據(jù)進行掃描,一般建議掃描成線圖模式(灰圖或彩色圖識別率低),擴展名為tif圖格式,圖像分辨率為300DPI,圖像要進行去污點、去黑邊、圖像居中和圖像糾偏等工作,最好不要有底紋,總之保持圖像為白底黑字,圖像頁面整潔從而提高文字識別率。
(二)版面分析模塊
可以分為自動和手工兩種方式,自動版面分析程序主要使用黑白二值法,逐頁將所有文字區(qū)域部分進行畫框定位并存儲相應(yīng)的區(qū)域塊坐標;手工版面分析是指人工通過鼠標在圖像文字區(qū)域進行畫框,選擇特定區(qū)域進行文字識別,這種方式主要應(yīng)用于需要從圖像提取特定區(qū)域的文字,有針對性的文字識別。另外還可以設(shè)置圖像文字的橫豎排版方式以及中外文字體信息等以提高文字識別率。版面分析模塊原理主要是對版面劃分、更改劃分,即對版面的理解、字切分、歸一化等,可選擇自動或手動兩種版面劃分方式。目的是告訴OCR軟件將同一版面的中英文字體、圖像、表格、橫版豎版方式等分開,以便于分別處理,并按照怎樣的順序進行識別。
(三)文字識別模塊
文字識別模塊是OCR軟件的核心部分,文字識別主要使用了黑白二值法,以單個漢字“一”為例,將文字顏色取反,也就是白變成黑,黑變成白,以單字圖像區(qū)域分為上下兩部分,這種方式將每個字都可以劃分為不同區(qū)域,將不同區(qū)域的反選區(qū)域用二進制的方式進行轉(zhuǎn)換,將每個文字區(qū)域劃分后生成一個二進制編碼,我們預(yù)先對每個標準的文字進行二進制編碼存放到數(shù)據(jù)庫中,用OCR文字識別完的結(jié)果與標準數(shù)據(jù)庫中的二進制編碼進行比對,從而選擇最接近的二進制編碼文字,最終得到文字識別結(jié)果,如果沒有找到相似度高的編碼,則系統(tǒng)識別認為有誤文字會以醒目的紅色顯示,提示用戶需進行人工修改。文字識別模塊主要對單個圖像文字進行識別,所以必須對圖像進行逐行切割,對每行漢字通常也是逐字進行識別,即單字識別,再進行歸一化處理。
(四)文字校對模塊
文字校對主要分縱向校對和橫向校對,縱向校對是指按照順序把文字識別結(jié)果進行排列,將識別結(jié)果所有相同文字進行調(diào)用,顯示識別結(jié)果中所有相同的文字,調(diào)用識別結(jié)果同時調(diào)出對應(yīng)原圖進行人工比對。橫向校對是指按照我們的閱讀習(xí)慣逐行進行校對,顯示一行識別結(jié)果和對應(yīng)的原圖進行校對,發(fā)現(xiàn)錯字進行人工修改,對識別結(jié)果經(jīng)常出錯的文字,需要重新進行標準文字編碼庫改寫,以達到文字精準識別。
(五)輸出模塊
將校對無誤的文字可以輸出為文本或XML等格式,輸出的文本文字完全可以編輯了,同時原圖像文檔可以輸出PDF文檔用于瀏覽原圖,也可輸出符合移動閱讀的電子出版ePub格式等。
三、OCR文字識別未來發(fā)展趨勢
目前的OCR發(fā)展技術(shù)主要是從圖像處理進行圖像清潔、去污點、圖像糾偏等,然后對圖文進行分析進行文字切割、圖文分離等最終進行黑白二值法取得二進制編碼,但是對文字進行黑白二值法,用什么方法進行文字特征抽取,成為影響OCR文字識別率的關(guān)鍵,所以目前文字特征提取主要是統(tǒng)計的特征提取方法,即通過文字區(qū)域的黑白點數(shù),當(dāng)一個圖像文字分為幾個區(qū)域時,一個文字切割的多個區(qū)域黑白點數(shù)進行聯(lián)系,就成為空間數(shù)量組合,這種算法是目前OCR文字特征的主流算法,文字識別率幾乎能達到95%以上正確率。但對于我們中國漢字特征是由象形字演變而來,所以我們還可以從漢字的筆劃入手來提取文字的特征,簡單說就是取得字的筆劃端點、交叉點之?dāng)?shù)量及位置,或以筆劃段為特征,配合特殊的比對方法,進行比對。當(dāng)然無論用哪種識別算法,識別完后最終需要通過對比標準編碼二進制文字數(shù)據(jù)庫,當(dāng)輸入文字算完特征后,須有一比對數(shù)據(jù)庫或特征數(shù)據(jù)庫來進行比對,數(shù)據(jù)庫的內(nèi)容應(yīng)包含所有欲識別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組,標準編碼庫精準也將直接影響OCR文字識別正確率。
所以,OCR文字識別技術(shù)未來發(fā)展趨勢,一方面將在文字編碼庫方面更加精準,利用精準的文字編碼庫與識別結(jié)果進行比對,選擇最優(yōu)的文字識別結(jié)果,另一方面將從一種算法向多種算法進行轉(zhuǎn)換,并且我們還可以利用多種算法得到的文字識別結(jié)果之間再進行比對,最終選擇最優(yōu)的文字識別結(jié)果,這樣將大大提升OCR文字識別率。