基于課題的OCR技術在手寫紙質教案數(shù)字化存儲中的應用

2019-09-10 04:52李艷杰

現(xiàn)代信息科技 2019年18期

摘 ?要：為了提高教師教案設計能力和教學能力，山東華宇工學院（以下簡稱“本?！保┐媪袅嗽S多優(yōu)秀的手寫版紙質教案，但是紙質教案的共享和借鑒會受限制，本文提出的利用OCR技術進行數(shù)字化加工，實現(xiàn)了紙質化教案的數(shù)字化形態(tài);方便教師共享、學習、引用，以便于縮減備課時間，提高課堂教學效果。

關鍵詞：紙質教案;數(shù)字化;OCR技術

中圖分類號：TP391.43 ? ? 文獻標識碼：A 文章編號：2096-4706（2019）18-0054-03

Abstract：In order to improve the ability of teacher’s plan design and teaching，Shandong Huayu University of Technology （hereinafter referred to as “our university ”） has retained many excellent handwritten paper-based teaching plans，but the sharing and reference of paper-based teaching plans will be limited. In this paper，OCR technology is used for digital processing to realize the digital form of paper-based teaching plans. It is convenient for teachers to share，learn and quote，so as to reduce the time of preparing lessons and improve the effect of classroom teaching.

Keywords：paper teaching plan;digitalization;OCR technology

0 ?引 ?言

隨著信息化的普及，手寫的紙質教案也被打印的電子教案逐步代替。在教學過程中，教師會隨時記錄教學過程中遇到的問題和解決的方案，所以很多手寫的紙質教案具有很高的借鑒價值，為了讓這些教案發(fā)揮優(yōu)勢，讓更多的教師從中得益，就有必要把手寫的教案進行數(shù)字化加工，實現(xiàn)其形態(tài)的電子化，這樣會方便傳輸和共享，便于教師學習和借鑒。本文以本校電子信息工程學院教案數(shù)字化加工項目為例，闡述OCR技術在教案加工過程中的應用。

1 ?對OCR的理解

OCR是Optical Character Recognition的縮寫，即光學字符識別，是指利用電子設備查看打印或者手寫的字符，需要檢測相對暗或者亮的對比度以確定其字體的形狀，并且用字符識別的方式將形狀翻譯成計算機文字的過程。OCR一般分為兩大步驟：圖像處理以及文字識別。圖像處理，即對通過掃描儀存儲到計算機的圖像進行預處理，處理工作包括灰度化、二值化、降噪、傾斜矯正、文字切分等子步驟;圖像預處理過后，后期將通過文字特征來識別提取文字。

2 ?手寫教案數(shù)字化轉換所需要的硬件和軟件

筆者認為，漢字識別可以有兩種方式：即編程實現(xiàn)和OCR漢字識別軟件;如果用Java編程實現(xiàn)，可以利用網絡提供的開源的類庫，例如Tess4J，Tess4J項目自帶英文字體庫，所以要識別中文信息，還需要下載中文簡體字體庫。Tess4J項目部分代碼如下：

public static String teachingWord（String imagePath）

{

try {

File image = new File（imagePath）;

BufferedImagetextImage = ImageIO.read（image）;

Tesseract instance = Tesseract.getInstance （）;

instance.setDatapath（"C：＼＼Program Files （x86）＼＼Tesseract-OCR＼＼tessdata"）;//需要有對比的語言庫

instance.setLanguage（"chi_sim"）;// 手寫的文字識別

String words = null;

words = instance.doOCR（textImage）;

return words;

}

catch （Exception e）

{

e.printStackTrace（）;

}

但是這種方式比較適合少量的圖像文字識別。對于教案這種大批量的文字識別，可以直接利用網絡中的漢字識別軟件，通過一臺電腦便可以完成。如果有文字量較大，可以加上掃描儀，在掃描的過程中進行識別。不同的掃描儀可能附帶的OCR漢字識別軟件不一樣，例如捷速OCR中文版文字識別軟件、清華紫光OCR等等。OCR軟件的種類不是很多，因為對手寫字的識別還不是很成熟，其使用方法稍微有所不同。

3 ?利用OCR技術進行數(shù)字化的流程

為提高教師設計教案和提高課堂教學的能力，本校在每學年都會進行教案和教學評比，在此期間，留存了很多優(yōu)秀的手寫版紙質教案。為了讓青年教師更快地學習和提高，學校順應數(shù)字化潮流，對于一些有價值的、手寫的紙質版文件，進行數(shù)字化加工工作，方便傳播和借鑒。本文以《Mysql數(shù)據(jù)庫技術》為例，建立一個索引篇名為“Mysql數(shù)據(jù)庫”的數(shù)字化教案需要的信息包括教案的課程名稱、學年學期、教師姓名、專業(yè)、班級、教材、理論或實踐學時等等。如果采取教師自己錄入信息的方式，會花費大量的時間和精力，而且容易出現(xiàn)錯字，影響其他教師借鑒，使用OCR技術進行字符識別，就可以大大節(jié)省時間和成本，下面以圖1為例，簡述OCR技術在實際運用中的大致流程。

3.1 ?教案圖像掃描輸入

在教案的數(shù)字化轉換過程中，首先需要掃描，掃描時要設置參數(shù)，合適的參數(shù)設置能使圖像質量更加趨向于OCR識別的要求，提高識別率和正確率。設置分辨率時，分辨率過小，像素點在單位尺寸上的分布就少，足夠的圖形信息不容易甚至無法獲得，導致識別率低;但分辨率太高，也會使識別率較低，因為教案在書寫時可能用力不均勻，過高的識別率會導致在掃描過程中把一個整體的字識別成幾部分，出現(xiàn)錯誤，并且保存時圖像文件會很大，占用更多的存儲空間。實際操作時，可能會根據(jù)情況反復調整，最終可以將分辨率鎖定在300dpi左右。對于色彩模式的選擇，由于教案通常為黑色，過多的顏色只會變成干擾信息，所以可以采用黑白二值模式。由于紙質教案存放時間久，文字可能會變淺，紙張也可能變黃，所以要處理掃描后的圖像，首先要設置為灰度的色彩模式，將圖像劃分為不同的灰度級別，其次要通過某種算法將其灰度值以下的像素點都認定為白色，使其能黑白分明。不同教師的教案，亮度和對比度會有差別，需要調整亮度和對比度，所以為了改善圖像質量，進一步提高OCR的識別率，對于書寫字跡比較淡，筆跡較細的教案，可以適當調低亮度;文字小、筆畫粗的調高亮度。調節(jié)亮度的同時，文字也會一起變淡，所以還要提高對比度，使文字和紙張區(qū)別度高一些。調節(jié)亮度和對比度，目的是使文字和紙張黑白分明，有利于增加OCR的識別率。

3.2 ?對圖像進行預處理

掃描的時候由于各種情況，可能會出現(xiàn)圖像模糊、畸變、斷筆、粘連、傾斜等問題，所以需對其進行預處理。可使用Photoshop或其他工具，對圖像進行糾偏和去污處理，這樣可減少后期文字識別時遇到的字跡模糊不清楚等問題。

3.3 ?圖像版面分析

圖像版面分析即識別圖像的區(qū)域屬性，是橫排文字還是豎排文字、表格還是圖片、規(guī)則版面還是不規(guī)則版面等。

3.4 ?對文字進行切分

需要自動切分和人工切分的參與。對圖像的初步識別可以通過計算機進行自動切分，按照字符每一行的上界限、下界限、每個字符的左右邊界將文字自動切割成獨立的個體。自動切分可能會出現(xiàn)偏差或錯誤，所以自動切分完成后，要對文字進行校對，利用人工切分在切割有誤的地方重新切分，以保證句子的完整性。

3.5 ?對文字進行特征識別

根據(jù)每個文字的固定特征，對文字進行識別，通過特殊特征的提取，例如筆畫位置、交叉點數(shù)等結構特征，就可以得到字符。

3.6 ?人工校對

初步得到的字符通過對比文字數(shù)據(jù)庫，可以得到文字。文字比對識別需人工干預進行錯字標改。除此之外，還要進行人工校對，人工校對也是比較重要的環(huán)節(jié)，幾乎可以把全部的錯誤進行改正。

3.7 ?成品輸出保存

文字校對結束后，可以根據(jù)內容進行格式排版，確認無誤后，便可以導出需要的文件格式，即Word文檔，至此便完成了數(shù)字化工作。

4 ?運用OCR技術進行手寫教案識別時遇到的問題

4.1 ?手寫教案行列分布不均勻

由于手寫教案的行列分布不均勻，在進行自動切分時，會導致有時切分成功率不高，需要再次進行人工切分。

4.2  手寫教案單個文本規(guī)則性差

手寫的紙質教案和印刷體不同，印刷體大多都是規(guī)則的字體，因為這些字體都是計算機自己生成再通過打印技術印刷到紙上。在印刷體的識別上有其獨特的干擾：在印刷過程中字體很可能變得斷裂或者墨水粘連，使得OCR識別異常困難。當然這些都可以通過一些圖像處理的技術盡可能地還原，進而提高識別率。但手寫體文本因為每個人的寫字風格不一樣，所以規(guī)則性比較差，雖然肉眼可以識別，但是計算機很難識別，有的老師的教案由于字體的原因，識別率太低，需要進行反復的參數(shù)設置和預處理等過程，花費很長的時間。筆者認為，要解決這個難題，機器需要針對某一種字體有自學習的能力，才能識別相似的字體，提高識別率。

5 ?結 ?論

在手寫紙質教案數(shù)字化存儲過程中，應用OCR技術可以有效地提高工作效率，減少不必要的工作量。通過運用OCR技術進行手寫紙質教案的數(shù)字化存儲，實現(xiàn)了文字識別功能，提高了資料加工的效率，為手寫教案的存檔、共享、傳播和借鑒提供了方便。

參考文獻：

[1] 劉明英.檔案數(shù)字化過程中OCR技術的應用分析 [J].中國高新技術企業(yè)，2017（5）：55-56.

[2] 郭軍.基于數(shù)字掃描儀性能的文本型數(shù)字圖像OCR識別準確度提高策略研究 [J].網絡安全技術與應用，2017（9）：118-120.

[3] 常參參.基于OCR技術的通用證件識別系統(tǒng) [D].南昌：南昌大學，2018.

[4] 范義斌，許為，楊志鵬.基于OCR技術的原始單據(jù)管理系統(tǒng)設計 [J].中國外資，2018（11）：84.

[5] 姜嘉佳.OCR技術在報刊加工中的應用分析 [J].科技傳播，2019，11（10）：159-160.

[6] 劉寧波，李剛，張華強.基于OCR技術的發(fā)票自動識別校驗系統(tǒng)設計 [J].電腦知識與技術，2019，15（11）：6-7.

作者簡介：李艷杰（1978-），女，漢族，山東德州人，講師，碩士，研究方向：數(shù)據(jù)挖掘技術。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于課題的OCR技術在手寫紙質教案數(shù)字化存儲中的應用