楊錦坤,徐珊珊,苗慶生
(國家海洋信息中心 天津市 300171)
21 世紀是海洋世紀和信息化時代。進入21世紀,海洋已成為人類經(jīng)濟社會發(fā)展的重要資源,世界各國均將海洋事業(yè)發(fā)展作為推動國民經(jīng)濟建設(shè)發(fā)展的戰(zhàn)略要事,我國更是提出建設(shè)海洋強國的偉大戰(zhàn)略目標。時空連續(xù)、質(zhì)量可靠的海洋資料是海洋開發(fā)利用的前提和關(guān)鍵。建國以來,我國通過海洋調(diào)查、觀測、監(jiān)測活動和國際交換與合作等手段,獲取和積累一定數(shù)量的海洋環(huán)境資料,在海洋環(huán)境保障、防災(zāi)減災(zāi)、軍事國防等諸多領(lǐng)域發(fā)揮了應(yīng)有的支撐作用。然而,受歷史條件制約以及作業(yè)環(huán)境、儀器設(shè)備、觀測手段等因素的影響,相當一部分海洋環(huán)境歷史資料以紙質(zhì)、光盤、磁帶等非信息化形式留存,難以滿足信息化時代對海洋資料應(yīng)用和服務(wù)的需求,更在資料存儲方面存在巨大的安全隱患,一旦遭受人為或自然損害,將帶來難以彌補的損失[1],亟待開展非信息化海洋環(huán)境資料搶救工作。
目前國內(nèi)針對非信息化海洋環(huán)境資料搶救的流程和方法,尚少有文獻發(fā)布。研究提出了非信息化海洋環(huán)境資料搶救的工作流程,在此基礎(chǔ)上,以工作流程為主線進行了相關(guān)技術(shù)方法研究,以期能夠在總體框架和關(guān)鍵技術(shù)上為非信息化海洋環(huán)境資料搶救工作提供參考。
非信息化海洋環(huán)境資料搶救工作是一項涉及海洋專業(yè)知識、海洋環(huán)境資料處理經(jīng)驗、信息技術(shù)等多因素的系統(tǒng)性工程,總體工作流程應(yīng)包括非信息化海洋環(huán)境資料現(xiàn)狀調(diào)查、非信息化海洋環(huán)境資料數(shù)字化、資料處理和整合等,總體工作流程圖如圖1。
非信息化海洋環(huán)境資料現(xiàn)狀調(diào)查:整理分析現(xiàn)有非信息化海洋環(huán)境資料的內(nèi)容、數(shù)量、存儲介質(zhì)、保存質(zhì)量和是否有價值搶救、是否已完成搶救等信息,摸清非信息化海洋環(huán)境歷史資料現(xiàn)狀,確定需搶救的非信息化海洋環(huán)境歷史資料清單。
圖1 非信息化海洋環(huán)境資料搶救總體工作流程圖
非信息化海洋環(huán)境資料數(shù)字化:研究資料數(shù)字化錄入格式,研發(fā)相應(yīng)的錄入資料校對軟件,對非信息化資料進行人工錄入(紙質(zhì))或?qū)iT設(shè)備讀?。ü獗P、磁帶)與格式轉(zhuǎn)換等處理。
數(shù)字化資料的處理和整合:針對完成數(shù)字化的電子資料,進行標準化、質(zhì)量控制、訂正和排重等處理,最終納入同類海洋環(huán)境基礎(chǔ)數(shù)據(jù)集和數(shù)據(jù)庫。
非信息化海洋環(huán)境資料現(xiàn)狀調(diào)查應(yīng)通過調(diào)查內(nèi)容明確搶救資料清單,確定搶救時間順序。搶救時間順序的確定應(yīng)堅持“搶救優(yōu)先、利用優(yōu)先”的原則。搶救優(yōu)先指在數(shù)字化工作中優(yōu)先考慮因特定時期、特殊原因造成的那些因資料形成和保管條件限制而導(dǎo)致部分損毀或即將損毀的資料、優(yōu)先進行搶救;利用優(yōu)先指優(yōu)先把利用率較高的資料數(shù)字化[2]。
數(shù)字化的目標是使紙質(zhì)媒體上的信息進入電子媒體,能方便地檢索[3]。按照錄入或讀取快捷方便的原則,研究制定資料錄入的格式。針對紙質(zhì)資料進行單人錄入或雙人同錄,單人錄入資料需開展兩遍人工校對和質(zhì)量審核,雙人同錄資料需利用校對軟件進行數(shù)據(jù)對比和查詢修正,之后仍需進行一遍人工校對和質(zhì)量審核。針對光盤、磁帶等存儲資料,需利用專門設(shè)備進行讀取,并轉(zhuǎn)換為錄入格式。資料的錄入錯誤率應(yīng)低于1‰。
對錄入資料進行文本可讀性和參數(shù)齊全性等檢查,確保錄入資料內(nèi)容無丟落項且支持后續(xù)的計算機讀取與操作。在此基礎(chǔ)上,按照資料管理要求,對資料進行代碼轉(zhuǎn)換、計量單位轉(zhuǎn)換、參數(shù)計算等處理,依據(jù)該類資料的標準應(yīng)用記錄格式要求,對資料進行標準格式轉(zhuǎn)換。
資料質(zhì)量是資料的生命,資料質(zhì)量控制是非信息化資料搶救乃至海洋環(huán)境資料處理的關(guān)鍵環(huán)節(jié)。質(zhì)量控制方法一般包括非法碼檢驗、常規(guī)范圍檢驗、氣候?qū)W檢驗、統(tǒng)計學(xué)檢驗、相關(guān)性檢驗、梯度檢驗、尖峰檢驗、著陸檢驗等計算機自動質(zhì)量控制方法和人機交互審核[4]。必須指出的是,質(zhì)量控制能夠在普遍意義上有效標識或剔除可疑、錯誤和缺測資料,但往往在資料使用過程中會進一步發(fā)現(xiàn)異常資料,需追溯資料進行再次質(zhì)量控制,如此反復(fù)方能使資料中的質(zhì)量問題越來越少。
非法碼檢驗:按照標準應(yīng)用記錄格式規(guī)定的數(shù)據(jù)項屬性(字符型、整型、浮點型等),逐項檢查標準數(shù)據(jù)集各要素的數(shù)據(jù)類型。
常規(guī)范圍檢驗:對于有特定編碼或枚舉型、或有取值范圍的數(shù)據(jù),其取值必須在取值范圍之內(nèi)。如站號、國家代碼、觀測平臺代碼和時間、經(jīng)緯度、水深、矢量速度范圍等。
氣候?qū)W檢驗:利用各要素季節(jié)性統(tǒng)計特征值,包括月/季的平均值、最大值、最小值進行連續(xù)性和合理性判定。
統(tǒng)計學(xué)檢驗:利用觀測數(shù)據(jù)的統(tǒng)計學(xué)特征進行異常值的檢驗,方法包括萊因達準則、肖維勒準則檢驗等[5]。
相關(guān)性檢驗:利用不同要素之間的相關(guān)性進行數(shù)據(jù)的合理性檢驗,如氣溫一般略高于露點。
梯度檢驗:溫鹽剖面或高空探測的風、氣溫、氣壓、濕度等隨深度(高度)變化的梯度應(yīng)具有連續(xù)性和一致性,并在合理的變化范圍之內(nèi)。
尖峰檢驗:基于海洋要素變化的連續(xù)性和漸變性,判定異常的突變點。
著陸檢驗:依據(jù)全球數(shù)字化地圖,判斷海洋觀測資料的位置是否位于海洋內(nèi)。
人機交互審核:繪制要素的時空序列變化圖,利用人機交互模式和可視化手段直觀查找突變值并判斷是異常值還是海洋真實變化。
針對完成質(zhì)量控制的標準數(shù)據(jù)集,利用統(tǒng)計分析或客觀分析方法,結(jié)合相同或臨時時空的海洋環(huán)境歷史資料,計算得到數(shù)據(jù)的變化趨勢和訂正參數(shù),標識站位漂移、儀器誤差、生物體附著、傳感器滯后和系統(tǒng)誤差等造成的數(shù)據(jù)異常,并對異常數(shù)據(jù)進行訂正。
由于非信息化資料來源較多或者某些資料來源已難考證,有可能前人已完成數(shù)字化,因此需針對每一批次新近完成搶救的非信息化資料,與現(xiàn)有同類海洋環(huán)境歷史資料進行排重處理,否則將會導(dǎo)致數(shù)據(jù)應(yīng)用過程中的分析結(jié)果失真。數(shù)據(jù)排重主要以觀測時間、位置、儀器、測值等作為復(fù)合排重指標,首先對所有資料進行排序,排除所有指標均相同的數(shù)據(jù)記錄(保留唯一一條);若觀測時間、位置和儀器均相同但測值不同,則保留空間分辨率最為齊全的數(shù)據(jù)記錄;若觀測位置、儀器、時間范圍相同但測值交叉重復(fù)(測值的時間分辨率不同),則保留時間分辨率較高的數(shù)據(jù)記錄[6]。最終經(jīng)過排重,將完成搶救的資料納入海洋環(huán)境基礎(chǔ)資料集和數(shù)據(jù)庫。
系統(tǒng)介紹了非信息化海洋環(huán)境歷史資料搶救的總體工作流程,詳細闡述了各關(guān)鍵環(huán)節(jié)和技術(shù)方法,研究成果符合我國海洋資料管理工作的實際需求,對于進一步推進我國海洋資料處理、管理和應(yīng)用服務(wù)信息化進程,具有現(xiàn)實的技術(shù)參考價值。
[1] 肖衛(wèi),時昶,高軍.歷史水文資料數(shù)字化處理[J].人民長江,2011,42(21):67-69.
[2] 周瑞華.對地質(zhì)資料數(shù)字化若干問題的探析[J].大陸橋視野,2012,07:84-86.
[3] 龍波,楊麗芳,肖健,梁瑩.大規(guī)模圖文資料數(shù)字化的實現(xiàn)方法[J].廣西科學(xué)院學(xué)報,2007,23(4):275-276.
[4] 劉小寧,任芝花.地面氣象資料質(zhì)量控制方法研究概述[J].氣象科技,2005,33(3):199-203.
[5] GB/T 14914-2006.海濱觀測規(guī)范[J].2006,81.
[6] 張學(xué)宏,張緒東,張曉娟.多源溫鹽資料排重處理的一種方法[J].海洋預(yù)報,2012,29(1):48-54.