淺談水文資料整編成果的數(shù)字化

2016-09-01 09:45周子江朱德龍

治淮 2016年2期

周子江朱德龍

淺談水文資料整編成果的數(shù)字化

周子江1朱德龍2

一、概述

歷年水文資料整編生成的成果絕大部分是表格，在2000年以前，受制于當時的主客觀條件，很多單位在將水文原始數(shù)據(jù)生成整編成果表并打印成冊后，并沒有將數(shù)據(jù)文件按照統(tǒng)一的格式以電子表格的形式存儲于電腦中，造成資料分析挖掘處理上的不便。隨著對裝訂成冊紙質(zhì)成果翻閱次數(shù)的增加，紙質(zhì)成果逐漸開始磨損和破壞。由于沒有電子表格，一旦成果被破壞后，就會造成水文資料永久性的缺失。如何保護好這些寶貴的水文資料，將紙質(zhì)的水文整編成果表轉(zhuǎn)換成電子表格作為備份，是亟待解決的問題。隨著掃描儀的普及與廣泛應(yīng)用、計算機技術(shù)及OCR（OpticalCharacter Recognition，光學字符識別）技術(shù)的日臻完善，可以快速、準確地將紙質(zhì)表格轉(zhuǎn)換成可編輯的電子表格，成為代替手工錄入的主要方法。

二、成果電子化

將紙質(zhì)的成果表轉(zhuǎn)換電子表需經(jīng)過成果掃描→圖片處理→OCR識別→成果校驗等幾個步驟，而前兩個步驟處理的好壞對后兩個步驟有決定性的影響。

1.OCR識別前的處理

OCR識別前，首先是要將紙質(zhì)的資料整編成果表轉(zhuǎn)換成圖片格式，數(shù)碼相機和掃描儀都可以完成這個任務(wù)。不過由于數(shù)碼相機存在鏡頭畸變、透視變形等問題，拍照得到圖片中的直線看起來是歪的，而后續(xù)處理又要花費大量的時間，有點得不償失，因此應(yīng)當將掃描儀作為轉(zhuǎn)換成圖片格式的首選工具。同時，為使掃描速度和精度能有一個很好的平衡，也為后續(xù)OCR識別有較高的準確率，掃描時宜選擇成像顏色為黑白，掃描儀分辨率調(diào)整為300dpi左右；如掃描得到的表格圖片有一定角度的傾斜，還須在掃描后使用圖像處理軟件進行傾斜糾正。

2.OCR識別

在兼顧OCR識別速度、準確率的前提下，OCR軟件選用ABBYY FineReader Professional Edition，同時因水文整編成果表大部分是表格和數(shù)字，為提高識別準確率，首先設(shè)置軟件的識別語言為純數(shù)字，如圖1。

圖1　　識別語言設(shè)置

識別前，首先在需要識別的內(nèi)容上畫出表格塊，如圖2。

圖2　畫出表格塊

然后分析表結(jié)構(gòu)，程序自動畫出表格線，如果程序自動畫出的表格線有缺少或多余的，可以人為添加或刪除，確保是所需要的表結(jié)構(gòu)（圖3）。

圖3　　分析表結(jié)構(gòu)及畫出表格線

接著選擇圖3中的Read Block，讀取表格塊的內(nèi)容。最后將OCR識別出來的數(shù)據(jù)導出到Excel軟件，用校驗程序進行最后的處理。

3.OCR識別后的處理

要確保識別數(shù)據(jù)的準確性，就需要對識別得到的數(shù)據(jù)進行校驗。校驗的方法根據(jù)水文數(shù)據(jù)成果表的特點分成兩類。對于如逐日降水量表、逐日最高最低潮（水）位表、逐日水溫表、逐日蒸發(fā)量表、逐潮高低潮位表等能直接得到原始數(shù)據(jù)加工文件的，可先得到原始數(shù)據(jù)加工文件，再用資料整編軟件進行整編，最后用生成的成果表同紙質(zhì)成果對照一下月年特征值，如有錯誤，則修改后再進行整編，直到同紙質(zhì)成果相一致；另一類如逐日平均水位表、逐日平均流量表等無法還原得到原始數(shù)據(jù)加工文件的，則將得到的表格數(shù)據(jù)首先復制到往年的成果表中，通過計算月均值、獲取年特征值來達到校驗的目的。

三、結(jié)語

實踐證明，采用OCR識別技術(shù)及成果校驗程序，可以識別和還原各種水文資料整編成果表；可以提高表格錄入效率，減少人為錄入數(shù)據(jù)的錯誤，節(jié)省大量人力；為水文資料整編成果的數(shù)字化提供了一種切實可行的方法，也為水文資料整編數(shù)據(jù)庫的建立打下堅實的基礎(chǔ)■

（作者單位：1.江蘇省水文水資源勘測局蘇州分局2151292.江蘇省太湖地區(qū)水利工程管理處215128）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺談水文資料整編成果的數(shù)字化

一、概述

二、成果電子化

三、結(jié)語

二、成果電子化

三、結(jié)語