張秀常
我們?cè)谌粘5男畔⒒k公過(guò)程當(dāng)中,經(jīng)常利用OCR(光學(xué)字符識(shí)別)技術(shù),通過(guò)掃描儀或數(shù)碼相機(jī)檢查紙上打印的字符,并通過(guò)檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)數(shù)字化的文檔。但是,在實(shí)際的使用過(guò)程中,絕大多數(shù)的OCR軟件只能識(shí)別單一語(yǔ)言,若遇到中文、英文或其他多語(yǔ)言混合時(shí)就無(wú)法正確識(shí)別,甚至出現(xiàn)天書一樣的亂碼。此時(shí),我們只有反復(fù)變換語(yǔ)言再識(shí)別,或?qū)⑵浞指顬閱我徽Z(yǔ)言再整合成文檔,這樣不但操作步驟繁瑣,而且往往要影響我們的工作效率。為此,對(duì)于中英文混合識(shí)別的問(wèn)題,有沒(méi)有一種更好的解決方案?下面推薦OCR軟件——ABBYY FineReader并結(jié)合具體的實(shí)例加以闡述。
● 新建ABBYY任務(wù)、掃描儀參數(shù)的設(shè)置
啟動(dòng)軟件ABBYY FineReader (以10版本為例),在新建ABBYY任務(wù)對(duì)話框中選擇“掃描到MicrosoftWord”(如圖1)。
在掃描儀參數(shù)設(shè)置對(duì)話框中,我們可以根據(jù)紙質(zhì)文件內(nèi)容的復(fù)雜程度來(lái)決定你所需要的分辨率、色彩模式、亮度及紙張大小。一般的黑白普通文本的分辨率在300DPI以上、色彩模式為灰度(如圖2)。
● 手動(dòng)創(chuàng)建新語(yǔ)言組
在軟件ABBYY FineReader的菜單中選擇“工具”下的“語(yǔ)言編輯器”,在“語(yǔ)言組屬性”對(duì)話框中,將創(chuàng)建的新語(yǔ)言組命名為“中英文”,并將“簡(jiǎn)體中文”、“英語(yǔ)”復(fù)制到選定語(yǔ)言欄內(nèi)(如圖3)。
● 實(shí)施讀取識(shí)別、檢查拼寫并導(dǎo)出
在軟件ABBYY FineReader的工具欄中選擇“讀取”,軟件將用中英文混合識(shí)別方式對(duì)左側(cè)掃描后的圖像進(jìn)行分析、讀取并進(jìn)行有效的識(shí)別,識(shí)別后的內(nèi)容將在右側(cè)的文本區(qū)域進(jìn)行預(yù)覽,同時(shí)軟件ABBYY FineReader將不確定的識(shí)別內(nèi)容予以彩色顯示,以便于你進(jìn)一步進(jìn)行檢查拼寫,這樣可以有效地提高掃描內(nèi)容的識(shí)別率。
最后,在軟件ABBYY FineReader的工具欄中選擇“保存”,我們可以將識(shí)別及檢查后的內(nèi)容保存為Word文檔,以供數(shù)字化的保存、處理、共享及再修改。
軟件ABBYY FineReader的下載地址:寧波象山現(xiàn)代教育技術(shù)學(xué)會(huì)網(wǎng)站(http://et.xsedu.net.cn/)。