周子江朱德龍
淺談水文資料整編成果的數(shù)字化
周子江1朱德龍2
歷年水文資料整編生成的成果絕大部分是表格,在2000年以前,受制于當時的主客觀條件,很多單位在將水文原始數(shù)據(jù)生成整編成果表并打印成冊后,并沒有將數(shù)據(jù)文件按照統(tǒng)一的格式以電子表格的形式存儲于電腦中,造成資料分析挖掘處理上的不便。隨著對裝訂成冊紙質(zhì)成果翻閱次數(shù)的增加,紙質(zhì)成果逐漸開始磨損和破壞。由于沒有電子表格,一旦成果被破壞后,就會造成水文資料永久性的缺失。如何保護好這些寶貴的水文資料,將紙質(zhì)的水文整編成果表轉(zhuǎn)換成電子表格作為備份,是亟待解決的問題。隨著掃描儀的普及與廣泛應(yīng)用、計算機技術(shù)及OCR(OpticalCharacter Recognition,光學字符識別)技術(shù)的日臻完善,可以快速、準確地將紙質(zhì)表格轉(zhuǎn)換成可編輯的電子表格,成為代替手工錄入的主要方法。
將紙質(zhì)的成果表轉(zhuǎn)換電子表需經(jīng)過成果掃描→圖片處理→OCR識別→成果校驗等幾個步驟,而前兩個步驟處理的好壞對后兩個步驟有決定性的影響。
1.OCR識別前的處理
OCR識別前,首先是要將紙質(zhì)的資料整編成果表轉(zhuǎn)換成圖片格式,數(shù)碼相機和掃描儀都可以完成這個任務(wù)。不過由于數(shù)碼相機存在鏡頭畸變、透視變形等問題,拍照得到圖片中的直線看起來是歪的,而后續(xù)處理又要花費大量的時間,有點得不償失,因此應(yīng)當將掃描儀作為轉(zhuǎn)換成圖片格式的首選工具。同時,為使掃描速度和精度能有一個很好的平衡,也為后續(xù)OCR識別有較高的準確率,掃描時宜選擇成像顏色為黑白,掃描儀分辨率調(diào)整為300dpi左右;如掃描得到的表格圖片有一定角度的傾斜,還須在掃描后使用圖像處理軟件進行傾斜糾正。
2.OCR識別
在兼顧OCR識別速度、準確率的前提下,OCR軟件選用ABBYY FineReader Professional Edition,同時因水文整編成果表大部分是表格和數(shù)字,為提高識別準確率,首先設(shè)置軟件的識別語言為純數(shù)字,如圖1。
圖1 識別語言設(shè)置
識別前,首先在需要識別的內(nèi)容上畫出表格塊,如圖2。
圖2 畫出表格塊
然后分析表結(jié)構(gòu),程序自動畫出表格線,如果程序自動畫出的表格線有缺少或多余的,可以人為添加或刪除,確保是所需要的表結(jié)構(gòu)(圖3)。
圖3 分析表結(jié)構(gòu)及畫出表格線
接著選擇圖3中的Read Block,讀取表格塊的內(nèi)容。最后將OCR識別出來的數(shù)據(jù)導出到Excel軟件,用校驗程序進行最后的處理。
3.OCR識別后的處理
要確保識別數(shù)據(jù)的準確性,就需要對識別得到的數(shù)據(jù)進行校驗。校驗的方法根據(jù)水文數(shù)據(jù)成果表的特點分成兩類。對于如逐日降水量表、逐日最高最低潮(水)位表、逐日水溫表、逐日蒸發(fā)量表、逐潮高低潮位表等能直接得到原始數(shù)據(jù)加工文件的,可先得到原始數(shù)據(jù)加工文件,再用資料整編軟件進行整編,最后用生成的成果表同紙質(zhì)成果對照一下月年特征值,如有錯誤,則修改后再進行整編,直到同紙質(zhì)成果相一致;另一類如逐日平均水位表、逐日平均流量表等無法還原得到原始數(shù)據(jù)加工文件的,則將得到的表格數(shù)據(jù)首先復制到往年的成果表中,通過計算月均值、獲取年特征值來達到校驗的目的。
實踐證明,采用OCR識別技術(shù)及成果校驗程序,可以識別和還原各種水文資料整編成果表;可以提高表格錄入效率,減少人為錄入數(shù)據(jù)的錯誤,節(jié)省大量人力;為水文資料整編成果的數(shù)字化提供了一種切實可行的方法,也為水文資料整編數(shù)據(jù)庫的建立打下堅實的基礎(chǔ)■
(作者單位:1.江蘇省水文水資源勘測局蘇州分局2151292.江蘇省太湖地區(qū)水利工程管理處215128)