陸佳民,馮 鈞,唐志賢,張鵬程
(河海大學(xué),江蘇 南京 210098)
水利大數(shù)據(jù)目錄服務(wù)與資源共享關(guān)鍵技術(shù)研究
陸佳民,馮 鈞,唐志賢,張鵬程
(河海大學(xué),江蘇 南京 210098)
長(zhǎng)期以來,各水利單位與業(yè)務(wù)部門從自身發(fā)展實(shí)際出發(fā),建設(shè)了一大批水利信息化業(yè)務(wù)應(yīng)用項(xiàng)目,并積累下豐富的水利數(shù)據(jù)資源,總量已超 2.5 PB。由于這些數(shù)據(jù)的采集與使用一直依賴于不同的業(yè)務(wù)系統(tǒng),數(shù)據(jù)不僅分散在水利部、七大流域、31 個(gè)省區(qū)(直轄市)和新疆建設(shè)兵團(tuán)的數(shù)據(jù)中心或不同業(yè)務(wù)部門,同時(shí)形式異構(gòu),業(yè)務(wù)間交叉冗余、語(yǔ)義沖突,嚴(yán)重制約了水利領(lǐng)域大數(shù)據(jù)高效共享與使用。面對(duì)跨行業(yè)跨部門的結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)化水利數(shù)據(jù)共享需求,提出發(fā)展基于分布式目錄的海量異構(gòu)水利數(shù)據(jù)共享技術(shù),構(gòu)建面向水利部/流域/省區(qū)的水利大數(shù)據(jù)共享平臺(tái),從而使全國(guó)范圍內(nèi)水利數(shù)據(jù)非重構(gòu)高效共享成為可能。研究能夠充分利用既有水利信息化建設(shè)成果,是“十三五”期間推進(jìn)“數(shù)字水利”向“智慧水利”積極發(fā)展的重要基礎(chǔ)性工作之一。
智慧水利;大數(shù)據(jù);共享服務(wù);分布式目錄
“十二五”期間,隨著國(guó)家多項(xiàng)水利信息化重點(diǎn)工程的落實(shí)和實(shí)施,全國(guó)水利信息化進(jìn)程不斷加快,流域和地方信息化水平全面提升,信息技術(shù)與水利業(yè)務(wù)融合程度逐步加深,信息化發(fā)揮效益更加顯著,基本形成了由基礎(chǔ)設(shè)施、業(yè)務(wù)應(yīng)用體系及與之相配套的技術(shù)標(biāo)準(zhǔn)和保障體系構(gòu)成的水利信息化綜合體系[1]。截至 2015 年底[2],省級(jí)以上水利部門成立網(wǎng)絡(luò)安全與信息化領(lǐng)導(dǎo)小組(或信息化工作領(lǐng)導(dǎo)小組)的單位有 38 家,年度省級(jí)以上水利部門主持新建信息化項(xiàng)目 200 多項(xiàng),投資總額超過 36 億元。在信息采集與數(shù)據(jù)管理層面,全國(guó)各類水利信息采集點(diǎn)超過 14 萬處,自動(dòng)采集率達(dá) 80%;省級(jí)以上水利部門立項(xiàng)建設(shè)的數(shù)據(jù)中心從“十一五”時(shí)期的 3 家增加到 24 家,當(dāng)前存儲(chǔ)數(shù)據(jù)資源近 2.5 PB。
伴隨著各類水利數(shù)據(jù)監(jiān)測(cè)手段與通信技術(shù)的不斷完善,形成了巨大的數(shù)據(jù)富礦,成為推動(dòng)各類水利信息新技術(shù)應(yīng)用,由“數(shù)字水利”向“智慧水利”積極轉(zhuǎn)變的重要基礎(chǔ)[3]。然而,由于長(zhǎng)期以來,水利信息化建設(shè)多與專業(yè)工程應(yīng)用、局部業(yè)務(wù)單位需求綁定,水利數(shù)據(jù)的采集與使用一直依賴于具體的業(yè)務(wù)系統(tǒng)和工程項(xiàng)目,導(dǎo)致軟硬件、數(shù)據(jù)資源分散建設(shè)在各個(gè)單位或不同業(yè)務(wù)部門,形成以地域、專業(yè)、部門、系統(tǒng)等為邊界的孤島[4],數(shù)據(jù)形式異構(gòu),同時(shí)業(yè)務(wù)間數(shù)據(jù)交叉冗余、語(yǔ)義沖突、管理主體各異,嚴(yán)重制約了水利領(lǐng)域大數(shù)據(jù)高效共享與使用。對(duì)于結(jié)構(gòu)化數(shù)據(jù),可通過重構(gòu)整合構(gòu)建面向一定應(yīng)用預(yù)期的共享庫(kù),解決特定范圍內(nèi)的共享問題。然而,面對(duì)全國(guó)范圍內(nèi)的水利數(shù)據(jù)共享,特別是 90% 以上的數(shù)據(jù)以非結(jié)構(gòu)化、半結(jié)構(gòu)化形式存在,迫切需要研究新型共享機(jī)制和實(shí)現(xiàn)技術(shù)。
針對(duì)上述問題,圍繞分布式海量異構(gòu)水利數(shù)據(jù)共享技術(shù),總結(jié)多年來水利大數(shù)據(jù)共享實(shí)踐經(jīng)驗(yàn)[5],基于分布式目錄服務(wù),對(duì)數(shù)據(jù)共享技術(shù)架構(gòu)進(jìn)行綜述,提出水利大數(shù)據(jù)多主體共享、異構(gòu)數(shù)據(jù)語(yǔ)義協(xié)同、數(shù)據(jù)資源智能發(fā)現(xiàn)方法、可信服務(wù)監(jiān)控優(yōu)化等多項(xiàng)核心關(guān)鍵技術(shù),使得全國(guó)范圍內(nèi)水利數(shù)據(jù)非重構(gòu)高效共享成為可能。
自 2008 年 9 月由《科學(xué)》雜志提出大數(shù)據(jù)概念[6]以來,大數(shù)據(jù)理念深入人心,相關(guān)技術(shù)發(fā)展如火如荼,各類應(yīng)用已廣泛并深刻地影響著當(dāng)下社會(huì)的方方面面。在商業(yè)零售、物流、醫(yī)藥、文化產(chǎn)業(yè)、交通、銀行、保險(xiǎn)、證券等多個(gè)行業(yè),各類大數(shù)據(jù)應(yīng)用層出不窮,形成了比較全面的大數(shù)據(jù)應(yīng)用生態(tài)環(huán)境。在這一背景下,大數(shù)據(jù)的重要性及其中蘊(yùn)含巨大價(jià)值開始成為廣大群眾的普遍共識(shí)。大數(shù)據(jù)管理技術(shù)逐漸從如何采集與存儲(chǔ)數(shù)據(jù),轉(zhuǎn)而向如何共享與利用數(shù)據(jù)價(jià)值的方向轉(zhuǎn)變。
美國(guó)奧巴馬于 2009 年 5 月 21 日宣布實(shí)施“開放政府計(jì)劃”(Open Government Initiative),開通“一站式”政府?dāng)?shù)據(jù)下載網(wǎng)站 Data.gov,提供近 20 萬項(xiàng)數(shù)據(jù)文件,涵蓋了社會(huì)、民生、經(jīng)濟(jì)等領(lǐng)域的近50 個(gè)門類,用于整合開放原先分布在 2.4 萬個(gè)美國(guó)聯(lián)邦政府機(jī)構(gòu)網(wǎng)站上的零散數(shù)據(jù),以提供統(tǒng)一服務(wù)。歐盟委員會(huì) 2010 年 4 月發(fā)起歐洲數(shù)字化議程,并推出開放數(shù)據(jù)平臺(tái)(ODP EU Open Data Portal),提供歐盟統(tǒng)計(jì)局的包括地理、大氣、國(guó)際貿(mào)易、農(nóng)業(yè)等各類數(shù)據(jù)集。
2017 年 5 月,國(guó)務(wù)院印發(fā)《政務(wù)信息系統(tǒng)整合共享實(shí)施方案》(國(guó)辦發(fā)〔2017〕39 號(hào)),提出建立全國(guó)政務(wù)信息資源目錄體系,推進(jìn)建設(shè)統(tǒng)一規(guī)范、互聯(lián)互通、安全可控的數(shù)據(jù)開放網(wǎng)站和全國(guó)政務(wù)信息共享網(wǎng)站,從根本上解決長(zhǎng)期以來困擾我國(guó)政務(wù)信息化建設(shè)的“各自為政、條塊分割、煙囪林立、信息孤島”的問題。
早在 2015 年 4 月,水利部印發(fā)《水利信息化資源整合共享頂層設(shè)計(jì)》[7],明確了水利信息化資源整合共享的技術(shù)路線和實(shí)施途徑,提出采用云計(jì)算大數(shù)據(jù)技術(shù),整合省級(jí)以上基礎(chǔ)設(shè)施、數(shù)據(jù)資源、業(yè)務(wù)應(yīng)用、網(wǎng)絡(luò)安全體系。水利部信息化資源整合共享重點(diǎn)項(xiàng)目的國(guó)家水信息基礎(chǔ)平臺(tái)建設(shè)已全面啟動(dòng),相關(guān)制度與行業(yè)標(biāo)準(zhǔn)編制工作已經(jīng)部署,水利部資源整合共享工作正在深入推進(jìn)。
水利大數(shù)據(jù)的共享交換與數(shù)據(jù)服務(wù)是實(shí)現(xiàn)水利大數(shù)據(jù)資源化的重要途徑[8-9]。通過構(gòu)建水利大數(shù)據(jù)共享服務(wù)平臺(tái),可以在全國(guó)范圍內(nèi)實(shí)現(xiàn)水利部/流域/省區(qū)三級(jí)異構(gòu)數(shù)據(jù)資源的互聯(lián)互通和高效共享訪問。平臺(tái)技術(shù)體系架構(gòu)如圖 1 所示,由數(shù)據(jù)資源層、平臺(tái)支撐層、數(shù)據(jù)匯聚層、核心服務(wù)層和應(yīng)用層 5 個(gè)層次組成。
圖 1 水利大數(shù)據(jù)共享服務(wù)平臺(tái)技術(shù)架構(gòu)
首先,在水利部、流域和省級(jí)分別構(gòu)建自治數(shù)據(jù)資源目錄,實(shí)現(xiàn)對(duì)本級(jí)數(shù)據(jù)資源的元數(shù)據(jù)抽取與目錄匯編,利用水利信息網(wǎng)外網(wǎng)進(jìn)行互訪,形成大數(shù)據(jù)共享服務(wù)平臺(tái)的數(shù)據(jù)資源層。其次,平臺(tái)支撐層利用對(duì)等網(wǎng)絡(luò)結(jié)構(gòu)和多層次多粒度數(shù)據(jù)緩存等,滿足萬級(jí)用戶高并發(fā)訪問需求,實(shí)現(xiàn)云平臺(tái)對(duì)海量數(shù)據(jù)的高效管理。
數(shù)據(jù)匯聚層包括 3 個(gè)模塊。數(shù)據(jù)事權(quán)匯聚模塊基于水利數(shù)據(jù)目錄分類標(biāo)準(zhǔn),形成全域數(shù)據(jù)事權(quán)關(guān)系圖。索引匯聚模塊,形成水利行業(yè)全域的核心目錄索引。業(yè)務(wù)視圖匯聚模塊結(jié)合業(yè)務(wù)應(yīng)用需求,構(gòu)建了水文、水資源、水環(huán)境水生態(tài)、水利工程、農(nóng)村水利、水災(zāi)害(防汛抗旱)、水土保持和移民八大水利應(yīng)用業(yè)務(wù)視圖。核心服務(wù)層包括智能發(fā)現(xiàn)、柔性多引擎等,智能發(fā)現(xiàn)服務(wù)集包括對(duì)搜索關(guān)鍵字進(jìn)行分詞的查詢分詞,進(jìn)行關(guān)鍵字?jǐn)U展的語(yǔ)義擴(kuò)展和查詢結(jié)果排名等服務(wù);柔性多引擎服務(wù)集,包括數(shù)據(jù)總線,面向應(yīng)用的 Web 服務(wù)接口及實(shí)現(xiàn)主流數(shù)據(jù)與數(shù)據(jù)總線之間對(duì)接的接口適配器。應(yīng)用層提供關(guān)鍵字檢索、時(shí)空查詢、導(dǎo)航查詢和發(fā)布訂閱等資源發(fā)現(xiàn)和獲取服務(wù)?;谄脚_(tái)的數(shù)據(jù)發(fā)現(xiàn)和獲取服務(wù),開發(fā)了水情、工情、水質(zhì)、遙感等基礎(chǔ)查詢和分析服務(wù)。
與傳統(tǒng)互聯(lián)網(wǎng)或金融行業(yè)的大數(shù)據(jù)問題不同,水利信息資源不僅數(shù)量龐大、結(jié)構(gòu)異質(zhì),同時(shí)數(shù)據(jù)資源分散存儲(chǔ)在水利部/流域/省級(jí)節(jié)點(diǎn),業(yè)務(wù)交叉冗余且管理事權(quán)復(fù)雜,互訪互用需求顯著迫切,從而給全國(guó)范圍內(nèi)的水利大數(shù)據(jù)共享帶來巨大挑戰(zhàn)。為此,結(jié)合我國(guó)近年來水利大數(shù)據(jù)共享實(shí)踐經(jīng)驗(yàn),從構(gòu)建基于分布式目錄的新型水利大數(shù)據(jù)共享模型,基于多重映射機(jī)制的異構(gòu)數(shù)據(jù)組織方法,基于語(yǔ)義的水利大數(shù)據(jù)智能發(fā)現(xiàn)技術(shù),以及水利大數(shù)據(jù)可信共享服務(wù)方法 4 個(gè)角度出發(fā),實(shí)現(xiàn)對(duì)業(yè)務(wù)應(yīng)用的良好支持,形成穩(wěn)固的水利大數(shù)據(jù)共享技術(shù)體系。
3.1 基于分布式目錄的水利大數(shù)據(jù)共享服務(wù)模型
針對(duì)水利大數(shù)據(jù)事權(quán)管理復(fù)雜,統(tǒng)一發(fā)現(xiàn)難的問題,需要立足于水利部、流域和省級(jí)部門分別建立的具有自治共享能力的數(shù)據(jù)資源目錄,結(jié)合部門組織架構(gòu)和水利信息分類,構(gòu)建支持?jǐn)?shù)據(jù)溯源定位的全域數(shù)據(jù)事權(quán)關(guān)系圖、核心目錄索引和業(yè)務(wù)視圖集。
因此,提出索引片區(qū)多層級(jí)合并技術(shù),將數(shù)據(jù)資源目錄的核心目錄索引匯聚形成全域語(yǔ)義一致的分布式資源目錄索引[10],以實(shí)現(xiàn)全域共享數(shù)據(jù)的統(tǒng)一發(fā)現(xiàn)。同時(shí),針對(duì)數(shù)據(jù)溯源定位過程中存在的交叉冗余問題,提出基于模糊優(yōu)先級(jí)的二階段實(shí)例層數(shù)據(jù)集成方法[11],形成面向動(dòng)態(tài)業(yè)務(wù)的可信數(shù)據(jù)集,解決數(shù)據(jù)不一致問題。
3.2 基于多重映射機(jī)制的異構(gòu)數(shù)據(jù)組織方法
不同水利事權(quán)單位所管理的水利信息資源在數(shù)據(jù)內(nèi)容和存儲(chǔ)結(jié)構(gòu)上都存在極大的差異,既包括實(shí)時(shí)水雨情、水文、水質(zhì)、氣象和水利普查等數(shù)據(jù)庫(kù),又有遙感影像、矢量空間等半結(jié)構(gòu)或非結(jié)構(gòu)化數(shù)據(jù)。在水利大數(shù)據(jù)共享服務(wù)平臺(tái)上,需要將這些異構(gòu)數(shù)據(jù)內(nèi)容映射在相同的語(yǔ)義環(huán)境下,達(dá)到統(tǒng)一查詢和互聯(lián)互通的目標(biāo)。
針對(duì)這一問題,采用聚類分析法提取不同類型元數(shù)據(jù)的核心目錄模式,并對(duì)水利大數(shù)據(jù)資源特征的元數(shù)據(jù)模式集定義描述,利用可配置方法,以實(shí)現(xiàn)不同類型的結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)數(shù)據(jù)資源的元數(shù)據(jù)自動(dòng)抽取。同時(shí),配置映射不同類型的元數(shù)據(jù)模式到統(tǒng)一的核心目錄模式,以實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)資源的歸一化處理和統(tǒng)一發(fā)現(xiàn),又提出面向可擴(kuò)展多維分類的多值映射技術(shù),將核心目錄模式映射到業(yè)務(wù)視圖集,實(shí)現(xiàn)了從多維視角發(fā)現(xiàn)和訪問數(shù)據(jù)資源[12]。
3.3 基于語(yǔ)義的數(shù)據(jù)資源智能發(fā)現(xiàn)方法
水利大數(shù)據(jù)共享服務(wù)平臺(tái)需要向全社會(huì)開放,實(shí)現(xiàn)水利信息資源的公開和共享共用。因此,在資源發(fā)現(xiàn)方法上,既需要滿足普通公眾對(duì)于水利知識(shí)探索需求,也需要滿足從事水利行業(yè)的專業(yè)人員從業(yè)務(wù)實(shí)際需求出發(fā),對(duì)水利數(shù)據(jù)資源進(jìn)行精準(zhǔn)定位和關(guān)聯(lián)分析。
因此,提出基于《水利公文詞表》《水利信息化常用術(shù)語(yǔ)》,以及實(shí)時(shí)水雨情等水利數(shù)據(jù)庫(kù),提取水利數(shù)據(jù)常見關(guān)鍵字及其關(guān)系[13]。以此作為初始訓(xùn)練樣本集,可以融合水利領(lǐng)域知識(shí)的深度置信網(wǎng)絡(luò)文本挖掘方法,利用 BP 網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí),構(gòu)建水利知識(shí)分類,通過反向傳播優(yōu)化參數(shù),提高從專業(yè)文獻(xiàn)、水利行業(yè)網(wǎng)站、大百科等非結(jié)構(gòu)化文本中提取知識(shí)單元及關(guān)系的準(zhǔn)確率,形成水利知識(shí)圖譜。同時(shí),針對(duì)水利信息查詢過程中僅限關(guān)鍵詞字面匹配的問題,提出基于水利語(yǔ)義的信息檢索方法,結(jié)合知識(shí)圖譜,利用語(yǔ)義推理機(jī)進(jìn)行搜索擴(kuò)展,以獲取業(yè)務(wù)應(yīng)用更全面的信息。
3.4 面向水利大數(shù)據(jù)的可信服務(wù)方法
作為一個(gè)提供水利大數(shù)據(jù)共享應(yīng)用的公共開放平臺(tái),維護(hù)平臺(tái)服務(wù)的長(zhǎng)效性和穩(wěn)定性至關(guān)重要。由于平臺(tái)數(shù)據(jù)資源匯聚自分散在全國(guó)不同的地域和網(wǎng)絡(luò)環(huán)境下的水利數(shù)據(jù)資源目錄系統(tǒng),在查詢時(shí)間和服務(wù)可靠性等方面呈現(xiàn)非線性、動(dòng)態(tài)多變、難以把握的特性。
針對(duì)該問題,提出基于徑向基神經(jīng)網(wǎng)絡(luò)的在線服務(wù)質(zhì)量組合預(yù)測(cè)方法[14],在對(duì)候選服務(wù)進(jìn)行服務(wù)質(zhì)量預(yù)測(cè)的基礎(chǔ)上,為用戶推薦優(yōu)質(zhì)服務(wù)。采用自激勵(lì)門限自回歸移動(dòng)平均模型對(duì)非線性數(shù)據(jù)進(jìn)行預(yù)測(cè),通過灰色等維新息模型模擬出整個(gè)服務(wù)屬性值的發(fā)展趨勢(shì),最后用徑向基神經(jīng)網(wǎng)絡(luò)模型進(jìn)行組合預(yù)測(cè),以提高預(yù)測(cè)精度,均方根誤差降低了30%~50%。
在局部地區(qū)突發(fā)水情的情況下,極易出現(xiàn)短時(shí)內(nèi)訪問激增等服務(wù)突發(fā)情況,從而造成資源瞬間耗竭等異常問題。因此,提出了基于加權(quán)樸素貝葉斯的數(shù)據(jù)服務(wù)質(zhì)量監(jiān)控方法[15],通過組合地理位置、訪問網(wǎng)絡(luò)和時(shí)間等多種影響因素,對(duì)服務(wù)質(zhì)量進(jìn)行在線監(jiān)控獲取樣本序列,結(jié)合滑動(dòng)窗口及時(shí)淘汰過時(shí)樣本,利用信息增益理論兼顧最新樣本,避免了監(jiān)控延遲判斷、噪聲抖動(dòng)等現(xiàn)象,提高了監(jiān)控的靈敏度,能夠平均提前 30 個(gè)樣本檢測(cè)到服務(wù)質(zhì)量問題,為資源的動(dòng)態(tài)調(diào)整提供了更多時(shí)間。
伴隨著水利部水信息基礎(chǔ)平臺(tái)、國(guó)家水資源監(jiān)控能力建設(shè)(二期)等項(xiàng)目的展開,水利“十三五”信息化建設(shè)工作正在實(shí)踐過程中不斷深化。如何能夠充分利用“十一五”與“十二五”水利信息化建設(shè)成果,構(gòu)建實(shí)施水利大數(shù)據(jù)共享服務(wù)平臺(tái),全面整合共享并應(yīng)用水利大數(shù)據(jù)成果,向公眾提供切實(shí)有效的水利信息服務(wù),推動(dòng)“數(shù)字水利”向“智慧水利”的積極轉(zhuǎn)變,是當(dāng)前水利信息化建設(shè)工作的重點(diǎn)與難點(diǎn)。
在國(guó)務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(國(guó)發(fā)〔2015〕50 號(hào))中,明確指出“加快政府?dāng)?shù)據(jù)開放共享,推動(dòng)資源整合,提升治理能力”。在“十三五” 水利科技創(chuàng)新規(guī)劃中,多源異構(gòu)數(shù)據(jù)的融合與共享被列為高新技術(shù)應(yīng)用的三大方向之一?!笆濉彼畔⒒?guī)劃中,“水利大數(shù)據(jù)分析與應(yīng)用服務(wù)示范”作為十三項(xiàng)工程之一列入重大研究專項(xiàng)。
因此,針對(duì)水利大數(shù)據(jù)量大面廣、事權(quán)復(fù)雜、結(jié)構(gòu)異質(zhì)的特性問題,圍繞水利大數(shù)據(jù)共享與服務(wù)過程凸顯出來的具體挑戰(zhàn),從構(gòu)建基于分布式目錄的新型水利大數(shù)據(jù)共享模型,基于多重映射機(jī)制的異構(gòu)數(shù)據(jù)組織方法,基于語(yǔ)義的水利大數(shù)據(jù)智能發(fā)現(xiàn)技術(shù),以及水利大數(shù)據(jù)可信共享服務(wù)方法 4 個(gè)角度出發(fā),對(duì)關(guān)鍵技術(shù)方法和應(yīng)用成果進(jìn)行總結(jié)論述,為實(shí)現(xiàn)水利大數(shù)據(jù)的深度應(yīng)用邁出堅(jiān)實(shí)一步。
[1] 鄧堅(jiān). 開拓創(chuàng)新 扎實(shí)做好新時(shí)期水利網(wǎng)信工作[J]. 水利信息化,2016 (4): 5-9.
[2] 水利部網(wǎng)絡(luò)安全與信息化領(lǐng)導(dǎo)小組辦公室. 2015 年度中國(guó)水利信息化發(fā)展報(bào)告[M]. 北京:中國(guó)水利水電出版社,2016: 1-3.
[3] 蔡陽(yáng). 水利信息化“十三五”發(fā)展應(yīng)著力解決的幾個(gè)問題[J]. 水利信息化,2016 (1): 1-5.
[4] 蔡陽(yáng). 關(guān)于水利信息化資源整合共享的思考[J]. 水利信息化,2014 (6): 1-6.
[5] 馮鈞,唐志賢,盛震宇,等. 水利數(shù)據(jù)中心數(shù)據(jù)交換平臺(tái)設(shè)計(jì)探討[J]. 水利信息化,2014 (1): 15-19.
[6] Nature. Big data: Science in the petabyte era[J]. Nature, 2008,455: 1-136.
[7] 中華人民共和國(guó)水利部. 水利信息化資源整合共享頂層設(shè)計(jì)[R]. 北京:水利部信息化工作領(lǐng)導(dǎo)小組辦公室,2015: 3-5.
[8] 馮鈞,許瀟,唐志賢,等. 水利大數(shù)據(jù)及其資源化關(guān)鍵技術(shù)研究[J]. 水利信息化,2013 (4): 6-9.
[9] 成建國(guó),馮鈞,楊鵬,等. 水利數(shù)據(jù)資源目錄服務(wù)關(guān)鍵技術(shù)研究[J]. 水利信息化,2014 (6): 18-21,35.
[10] FENG J, TANG Z X, WEI M, et al. HQ-Tree: A distributed spatial index based on hadoop[J]. China Communications, 2014, 11 (7): 128-141.
[11] TANG Z, FENG J, XI X U, et al. Research on the modeling and indexing method for river network[J]. Dianzi Keji Daxue Xuebao/Journal of the University of Electronic Science & Technology of China, 2015, 44 (4): 611-616,640.
[12] 朱躍龍,蔡陽(yáng),馮鈞,等. 一種面向多數(shù)據(jù)類型信息資源元數(shù)據(jù)的共享方法:中國(guó),ZL201110211643.7[P]. 2013-03-06.
[13] 馮鈞,許瀟,唐志賢. 面向水利信息資源目錄服務(wù)的分布式語(yǔ)義檢索方法研究[J]. 計(jì)算機(jī)與現(xiàn)代化,2015 (2): 122-126.
[14] ZHANG P, LEUNG H, LI W, et al. Web services property sequence chart monitor: a tool chain for monitoring BPEL-based web service composition with scenario-based speci fi cations[J]. IET Software, 2013, 7 (4): 222-248.
[15] ZHANG P, HAN Q, LI W, et al. A novel QoS prediction approach for cloud service based on Bayesian networks model[C]// IEEE International Conference on Mobile Services. New York: IEEE, 2016: 111-118.
Survey on key technologies for catalog service and resource sharing on big water data
LU Jiamin, FENG Jun, TANG Zhixian, ZHANG Pengcheng
(Hohai University, Nanjing 210098, China)
The Water Management Authorities have long been urged to establish different water information management systems, to ful fi ll their own requirements. During this period, massive water data with the overall amount more than 2.5 PB, has been collected but stored dispersedly in different data centers or different business departments located on the Ministry of Water Resources, 7 major basins, 31 provinces and Xinjiang Construction Regiment. Such data is not only various on their structures and storage locations, but is also cross redundant on its semantic expressions and authorization clari fi cation. It severely restricts the sharing and using big data in the fi eld of water conservancy. Facing the water data sharing demand of structured, semi-structured and unstructured and cross-industry and crossdepartment, the article puts forward developing the mass heterogeneous water resources data share technology based on distributed catalog. In order to share such data nationally, over the Ministry of Water Resources, the river basin management agencies and the provincial institutes, it is necessary to establish a national big water data sharing service platform, so that non-refactoring and ef fi cient sharing of water data across the country becomes possible. The research makes full use of existing water conservancy informatization construction achievements. It is one of the important basic works to turn the“digital water conservancy”to“intelligent water conservancy”during the 13th Five Year.
intelligent water conservancy; big data; sharing service; distributed catalog
TP393;TV21
A
1674-9405(2017)04-0017-04
10.19364/j.1674-9405.2017.04.004
2017-05-15
國(guó)家科技支撐計(jì)劃課題(2015BAB07B01);國(guó)家自然科學(xué)基金(61370091,61602151);江蘇省重點(diǎn)研發(fā)計(jì)劃(BE2015707)
陸佳民(1983-),男,江蘇南京人,博士,講師,主要研究方向:數(shù)據(jù)管理與知識(shí)工程,時(shí)空數(shù)據(jù)庫(kù)管理、分布式數(shù)據(jù)處理和水利信息化等技術(shù)。