最好的OCR文字識別軟件: Abbyy FineReader

2014-09-27 17:19盤俊春

中國信息技術(shù)教育 2014年15期

盤俊春

老師們在日常教學(xué)中經(jīng)常會碰到這樣的問題，就是想把一張圖片或一個PDF文件里的文字拿出來放到Word里編輯。當(dāng)然想直接把文字復(fù)制到Word里是不行的，因為圖片和PDF文件里的文字是無法復(fù)制的。這時候很多老師可能會選擇一個字一個字敲進(jìn)電腦，太麻煩了。是不是希望有一種東西能自動識別讀取這些文字？怎么去做呢？筆者在試過很多方法后，得出的結(jié)論是：使用Abbyy FineReader軟件來實現(xiàn)轉(zhuǎn)化是最好的辦法。下面就來介紹它的功能及使用方法。

● ABBYE FineReader的主要功能及特點

AbbyyFineReader是俄羅斯ABBYY公司研制成功的一款真正的專業(yè)OCR的軟件！OCR（Optical Character Recognition，光學(xué)字符識別）技術(shù)，是指電子設(shè)備（如掃描儀或數(shù)碼相機）檢查紙上打印的字符，通過檢測暗、亮的模式確定其形狀，然后用字符識別法將形狀翻譯成計算機文字的過程。

安裝并打開軟件（官方下載地址：http://www.abbyy.cn/），啟動后顯示任務(wù)窗口，在窗口的右上角選擇文檔語言，這里選擇了簡體中文。在任務(wù)窗口中有幾個常用任務(wù)選項，包括Word、PDF、電子書和其他格式等文件操作（如圖1）。

界面很簡潔，菜單類似于普通的Windows菜單，如有“文件”、“編輯”等菜單命令，即使是新手，也能不費吹灰之力就使用該軟件。

Abbyy FineReader的主要功能和特點為：①把靜態(tài)紙文件和PDF文件轉(zhuǎn)換成可管理的電子數(shù)據(jù)；②重建原生的多頁文件格式；③支持輕松創(chuàng)建最流行格式的電子圖書；④可以提供直觀的工具掃描文件，并隨時轉(zhuǎn)換圖像掃描、照片成為可編輯和可搜索的電子格式的PDF文件；⑤多國語言可以選擇，能轉(zhuǎn)換幾乎所有打印的文檔類型，包括書籍、雜志上的文章與復(fù)雜的布局、表格和電子表格，甚至能以準(zhǔn)確的精度發(fā)傳真。

● Abbyy FineReader在教學(xué)中的應(yīng)用

下面以把PDF中的文字轉(zhuǎn)換成Word中的文字為例，來說說Abbyy FineReader軟件的具體應(yīng)用。

1.打開PDF文件并設(shè)置參數(shù)

進(jìn)入Abbyy FineReader軟件，選擇任務(wù)后會自動進(jìn)入下一個界面，此時會自動彈出讓使用者選擇文件，如果沒有選擇文件，則可以在菜單欄中點擊“打開”，然后選擇需要轉(zhuǎn)換的文件，注意在文件類型中選擇相應(yīng)的類型，這里應(yīng)該選擇PDF，默認(rèn)的是圖形文件，不更改的話最后得到的是亂碼。

打開后可進(jìn)行基本設(shè)置。在菜單欄中選擇“工具”中的“選項”，彈出如圖２的窗口。選項設(shè)置窗口中可以設(shè)置要保存的格式，里面有10種可選的格式，這里我們轉(zhuǎn)成的是DOC或者DOCX，所以選擇第一個。窗口里面還有讀取模式等多項設(shè)置，這里就不再一一列舉了。

2.文字識別

在所打開的PDF文件中，選擇要轉(zhuǎn)換的頁面，當(dāng)然也可以對全部頁面或頁面的部分內(nèi)容進(jìn)行轉(zhuǎn)換。這里有兩個窗口，一個是轉(zhuǎn)換前的PDF圖像頁面，另一個是轉(zhuǎn)換后的文本頁面。單擊PDF圖像頁面窗口的“讀取”選項，進(jìn)行OCR識別，就是讓軟件把圖片中的文字讀取出來（圖片中文字越多，識別花費的時間越長），完成識別之后，就會在文本頁面出現(xiàn)所轉(zhuǎn)換的文本。其中的一些文字帶有青色背景底色，這說明這些文字是有可能出現(xiàn)錯誤的，我們要對它們進(jìn)行修正（如圖３）。

3.文字修正

一般來講，圖片越清晰、對比越鮮明的時候，該軟件對文字的識別率就越高。識別率與圖片清晰度、文字大小、文字的端正程度、文字與底色的對比程度有關(guān)。Abbyy FineReader的識別率在所有OCR軟件中是最好的，基本能在95%以上，當(dāng)然不能保證100%。為保險起見，還是要人工核對一下識別的結(jié)果，尤其是格式特別復(fù)雜、有特殊文字和符號的地方很容易出錯。當(dāng)然如果使用者用肉眼都看不清楚或者不能分辨的文字，那該軟件識別出來的可能性是不大的。

該軟件的原理是使用掃描的文本字符與系統(tǒng)內(nèi)置的字符形狀、語言辭典進(jìn)行比較，從而識別文字，只能掃描指定的語言，其他語言不能識別。所以如果錯誤率太高，則要更改使用的掃描語言。

單擊文本頁面窗口的“驗證”選項，此時會彈出驗證窗口（如圖４）。在這個窗口中會有一些帶有青色背景底色的不確定文字或字符，如果錯誤的話我們可以直接修改，若是正確則可點擊“忽略”跳過。

完成修正后就可以保存所轉(zhuǎn)換的文本了，有包括DOC/DOCX在內(nèi)的10多種保存格式可以選擇，一般選擇為Word97-2003格式或DOCX格式，完成后就能在Word中進(jìn)行文本編輯了。對于提取JPG、BMP等格式圖片中的文字的方法與PDF格式操作大同小異，這里就不再說明。

另外，值得一提的是，如果圖片較為模糊或擺放不正，會影響軟件對圖片文字的讀取效果，此時使用者就需要用到工具欄中的“編輯圖像”進(jìn)行圖像校正。點擊“編輯圖像”就會彈出圖像編輯窗口（如圖５）。使用者可以看到右側(cè)有一排工具，用這些工具可以對圖像的歪斜校正等多種參數(shù)進(jìn)行編輯修正處理，這樣會大大提高圖片的識別率。

總的來說，Abbyy FineReader軟件不愧是最好的圖片、PDF文字識別軟件，它能給我們的教育教學(xué)帶來極大的便捷。

endprint

● ABBYE FineReader的主要功能及特點

界面很簡潔，菜單類似于普通的Windows菜單，如有“文件”、“編輯”等菜單命令，即使是新手，也能不費吹灰之力就使用該軟件。

● Abbyy FineReader在教學(xué)中的應(yīng)用

下面以把PDF中的文字轉(zhuǎn)換成Word中的文字為例，來說說Abbyy FineReader軟件的具體應(yīng)用。

1.打開PDF文件并設(shè)置參數(shù)

2.文字識別

3.文字修正

總的來說，Abbyy FineReader軟件不愧是最好的圖片、PDF文字識別軟件，它能給我們的教育教學(xué)帶來極大的便捷。

endprint

● ABBYE FineReader的主要功能及特點

界面很簡潔，菜單類似于普通的Windows菜單，如有“文件”、“編輯”等菜單命令，即使是新手，也能不費吹灰之力就使用該軟件。

● Abbyy FineReader在教學(xué)中的應(yīng)用

下面以把PDF中的文字轉(zhuǎn)換成Word中的文字為例，來說說Abbyy FineReader軟件的具體應(yīng)用。

1.打開PDF文件并設(shè)置參數(shù)

2.文字識別

3.文字修正

總的來說，Abbyy FineReader軟件不愧是最好的圖片、PDF文字識別軟件，它能給我們的教育教學(xué)帶來極大的便捷。

endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

最好的OCR文字識別軟件: Abbyy FineReader