高露雄 劉迪 陳雅莉
摘 要:本文分析了長江水文現(xiàn)有數(shù)據(jù)中心在應(yīng)對海量多源異構(gòu)水文數(shù)據(jù)的存儲與處理時(shí)存在的問題,在總結(jié)水文大數(shù)據(jù)的內(nèi)涵和特征的基礎(chǔ)上,研究介紹了基于水文對象的大數(shù)據(jù)組織、基于Hadoop的分布式存儲體系和冷/熱分層存儲策略、耦合水文模型的大數(shù)據(jù)分析以及水文大數(shù)據(jù)可視化等水文大數(shù)據(jù)平臺關(guān)鍵技術(shù),并在此基礎(chǔ)上研究設(shè)計(jì)了長江水文大數(shù)據(jù)平臺架構(gòu),以期為平臺落地建設(shè)提供理論和技術(shù)支撐。
關(guān)鍵詞:水文大數(shù)據(jù);數(shù)據(jù)組織;大數(shù)據(jù)分析;可視化
中圖法分類號:X524? ? ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ? ? DOI:10.19679/j.cnki.cjjsjj.2021.0616
水文數(shù)據(jù)是國民經(jīng)濟(jì)和社會發(fā)展的重要基礎(chǔ)性數(shù)據(jù),為水旱災(zāi)害防御、水資源管理、河湖管理、水工程建設(shè)與管理等提供重要基礎(chǔ)支撐。長江水文在水文信息化建設(shè)進(jìn)程中,始終圍繞水文數(shù)據(jù)核心資源,提升水文數(shù)據(jù)采集、存儲、管理、分析和應(yīng)用能力,為治江事業(yè)發(fā)展提供了有力的數(shù)據(jù)支撐。特別是近年來通過實(shí)施“三個(gè)一”水文信息化工程,開展了水文數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè)、水文數(shù)據(jù)對象化組織、水文數(shù)據(jù)資源整合、水文數(shù)據(jù)管理與服務(wù)等工作[1],構(gòu)建了水文數(shù)據(jù)資源一個(gè)中心,初步實(shí)現(xiàn)了以水文測站為對象的水文數(shù)據(jù)統(tǒng)一存儲、統(tǒng)一管理和統(tǒng)一服務(wù),有效支撐了防洪預(yù)報(bào)調(diào)度、水文測驗(yàn)管理、水文資料整編、水文一張圖等業(yè)務(wù)應(yīng)用。
隨著長江水文信息化建設(shè)的大力推進(jìn),水文數(shù)據(jù)采集基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng)數(shù)量越來越多,水文數(shù)據(jù)的內(nèi)涵不斷外延,范圍不斷擴(kuò)展,數(shù)據(jù)量呈指數(shù)級增長。水文數(shù)據(jù)涵蓋實(shí)時(shí)監(jiān)測數(shù)據(jù)、歷史整編數(shù)據(jù)、河道斷面及地形數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)、非結(jié)構(gòu)化的網(wǎng)絡(luò)輿情、視頻圖像以及水文分析總結(jié)成果文檔等多種數(shù)據(jù)形式。而且近年來,水文監(jiān)測體系和能力的提升,水文監(jiān)測設(shè)備種類的增加,監(jiān)測站點(diǎn)數(shù)量的增多,監(jiān)測數(shù)據(jù)采集頻率的加快,使得監(jiān)測數(shù)據(jù)量急劇上升[2];防洪調(diào)度、水文分析等業(yè)務(wù)中應(yīng)用水文模型預(yù)報(bào)、推演、調(diào)度而產(chǎn)生的數(shù)據(jù)量也正迅猛增長;同時(shí)視頻、圖像和文檔等非結(jié)構(gòu)化數(shù)據(jù)也大量累積。現(xiàn)有水文數(shù)據(jù)處理體系已無法應(yīng)對海量多源異構(gòu)水文數(shù)據(jù)帶來的數(shù)據(jù)高效組織、存儲與處理挑戰(zhàn),主要存在以下典型問題[3]:(1)支持存儲類型單一,僅適用結(jié)構(gòu)化監(jiān)測數(shù)據(jù),不能存儲和處理非結(jié)構(gòu)化數(shù)據(jù);(2)數(shù)據(jù)存儲能力有限,采用傳統(tǒng)方式存儲海量水文數(shù)據(jù)對硬件配置要求非常高,即便硬件性能的發(fā)展非???,也趕不上數(shù)據(jù)增長的需求;(3)數(shù)據(jù)處理效率低,數(shù)據(jù)檢索主要依賴底層結(jié)構(gòu)化數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)處理多為單節(jié)點(diǎn)串行處理,無法應(yīng)對大數(shù)據(jù)量、強(qiáng)時(shí)效性的應(yīng)用需求;(4)歷史數(shù)據(jù)資源利用率低,一方面處理能力無法支撐大量歷史數(shù)據(jù)的聯(lián)合分析計(jì)算,另一方面當(dāng)前采用的結(jié)構(gòu)化分析方法和工具也不能滿足歷史數(shù)據(jù)深度分析的要求。如何應(yīng)對當(dāng)前數(shù)據(jù)量高速增長的勢頭,實(shí)現(xiàn)對海量多源異構(gòu)水文數(shù)據(jù)的高效利用,是水文數(shù)據(jù)管理、數(shù)據(jù)處理領(lǐng)域亟待解決的問題。
大數(shù)據(jù)伴隨著互聯(lián)網(wǎng)時(shí)代信息量爆炸式增長而生,以其分布式存儲與計(jì)算理念顛覆了傳統(tǒng)思維方式,有效解決了數(shù)據(jù)急速增長態(tài)勢下數(shù)據(jù)分析處理和知識挖掘的難題[4]。大數(shù)據(jù)時(shí)代的信息運(yùn)行模式正在改變?nèi)藗兊墓ぷ骱蛯W(xué)習(xí)方式,將大數(shù)據(jù)技術(shù)應(yīng)用于行業(yè)海量數(shù)據(jù)處理和智能分析,挖掘行業(yè)大數(shù)據(jù)價(jià)值,已經(jīng)成為行業(yè)信息化建設(shè)研究的熱點(diǎn)[5-7]。
1? 水文大數(shù)據(jù)的內(nèi)涵與特征
水文大數(shù)據(jù)以空天地一體化的智能水文監(jiān)測信息網(wǎng)為主要數(shù)據(jù)源,通過整合集成來自各個(gè)業(yè)務(wù)領(lǐng)域不同技術(shù)手段獲取的涉水觀測信息,形成時(shí)空要素相對完備、內(nèi)容豐富、形式多樣的水文大數(shù)據(jù)集,涵蓋原始數(shù)據(jù)(地表水、地下水、水文氣象、土壤墑情、水質(zhì)、水生態(tài))、整編成果(地表水、地下水、土壤墑情、水質(zhì))、調(diào)查信息(洪水、暴雨、水資源)、評價(jià)分析成果(水資源評價(jià);水文分析計(jì)算成果)、流域?qū)傩裕ê拥?,湖庫,濱海,地形地質(zhì))和其他(包括社會水循環(huán)類)等六類基本數(shù)據(jù)。隨著技術(shù)的發(fā)展和研究的深入,水文大數(shù)據(jù)的內(nèi)涵也在不斷外延,越來越多過去沒有用來參與水文要素演化分析的數(shù)據(jù)被納入進(jìn)來,大數(shù)據(jù)、云計(jì)算等技術(shù)的發(fā)展也為多源水文要素的關(guān)聯(lián)分析提供了計(jì)算環(huán)境,使得過去無法用來參與決策的涉水要素能夠在決策中發(fā)揮作用,成為水文大數(shù)據(jù)的重要數(shù)據(jù)來源之一。其中主要是網(wǎng)絡(luò)數(shù)據(jù),包括國內(nèi)外相關(guān)機(jī)構(gòu)網(wǎng)絡(luò)共享的各類數(shù)據(jù)資源庫和可通過網(wǎng)絡(luò)爬蟲獲取的網(wǎng)絡(luò)非資源型數(shù)據(jù),如網(wǎng)絡(luò)輿情數(shù)據(jù)。
隨著水文事業(yè)不斷發(fā)展和信息化建設(shè)的不斷推進(jìn),水文行業(yè)積累了大量歷史數(shù)據(jù),與此同時(shí),遙感、GIS、衛(wèi)星拍攝、AI視頻、移動互聯(lián)網(wǎng)等現(xiàn)代化信息技術(shù)的發(fā)展與應(yīng)用,全面擴(kuò)展了水文數(shù)據(jù)的要素類型。水文數(shù)據(jù)已逐漸呈現(xiàn)出多源、多維、大量和多態(tài)的大數(shù)據(jù)特性。當(dāng)前,水文大數(shù)據(jù)的特征可概括為以下幾點(diǎn)[8]:(1)數(shù)據(jù)總量大。水文數(shù)據(jù)為一系列的時(shí)間序列數(shù)據(jù),且覆蓋全國各大流域及行政區(qū)劃的大、中、小河流流經(jīng)的區(qū)域,具有海量數(shù)據(jù)的特性,數(shù)據(jù)總量在TB級以上。(2)數(shù)據(jù)類型多。包括實(shí)時(shí)雨水情數(shù)據(jù)、基礎(chǔ)水文數(shù)據(jù)、水質(zhì)數(shù)據(jù)等主要結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù),地理信息數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)、成果文檔等半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。(3)數(shù)據(jù)持續(xù)增長。水文工程的預(yù)報(bào)、防汛等應(yīng)用不斷增加,監(jiān)測站點(diǎn)密度提升,監(jiān)測頻次提高,數(shù)據(jù)增加速度不斷加快。(4)數(shù)據(jù)價(jià)值高。水文數(shù)據(jù)作為水文行業(yè)資源性產(chǎn)品,是防汛抗旱、水資源管理、水工程建設(shè)等經(jīng)濟(jì)社會活動處置的依據(jù),蘊(yùn)含較高的價(jià)值。
2? 設(shè)計(jì)水文大數(shù)據(jù)平臺關(guān)鍵技術(shù)與難點(diǎn)
2.1? ?基于水文對象標(biāo)識的數(shù)據(jù)組織
水文大數(shù)據(jù)包含數(shù)據(jù)類型眾多、結(jié)構(gòu)不一、標(biāo)識各異,如何有效組織水文大數(shù)據(jù),實(shí)現(xiàn)信息有序集成和唯一標(biāo)識,是水文大數(shù)據(jù)應(yīng)用的重要基礎(chǔ)。可利用對象化組織思想,以水文實(shí)體為對象,給該對象賦予唯一標(biāo)識,將對象所有的屬性和行為數(shù)據(jù)通過該對象標(biāo)識關(guān)聯(lián)起來,并據(jù)此將所有屬性數(shù)據(jù)關(guān)聯(lián)為一個(gè)信息集合,實(shí)現(xiàn)水文數(shù)據(jù)的對象化組織[9]。水文實(shí)體對象的定義有兩種,一種是按照水文對象的物理狀態(tài)定義的基本對象,如具體的測站、河段、機(jī)關(guān)部門等,其特點(diǎn)是邊界清楚,與結(jié)構(gòu)化數(shù)據(jù)組織的切合度高。另一種是因水文決策需要定義的非實(shí)體對象,可以是邏輯實(shí)體或問題域,如水文年鑒、場次洪水災(zāi)害事件,其屬性往往包含多個(gè)基本對像和屬性,這類對象稱為復(fù)合對象?;緦ο蟮臉?gòu)造,通過定義其水文對象標(biāo)識編碼與對象屬性的信息關(guān)鍵字編碼的關(guān)聯(lián)來實(shí)現(xiàn)。復(fù)合對象的構(gòu)造,通過與基本對象的關(guān)系關(guān)聯(lián)來實(shí)現(xiàn)。
按對象組織水文數(shù)據(jù),就是將某個(gè)給定水文對象的所有屬性數(shù)據(jù)通過統(tǒng)一對象標(biāo)識組織在一起。為了適應(yīng)大數(shù)據(jù)條件下對象化信息組織與應(yīng)用需求,必須對水文實(shí)體對象進(jìn)行分類與編碼,用于標(biāo)識和組織復(fù)雜結(jié)構(gòu)(如結(jié)構(gòu)化與非結(jié)構(gòu)化混合)的數(shù)據(jù),形成水文大數(shù)據(jù)結(jié)構(gòu)??紤]到隨著水文信息化的推進(jìn),物聯(lián)網(wǎng)技術(shù)的應(yīng)用將在水文行業(yè)普及,因此可采用類似物聯(lián)網(wǎng)標(biāo)識來標(biāo)識水文對象[10]。
2.2? ?基于Hadoop的分布式存儲體系與冷熱分層存儲策略
采用關(guān)系數(shù)據(jù)庫和分布式文件系統(tǒng)結(jié)合的方式,滿足水文大數(shù)據(jù)海量數(shù)據(jù)集中存儲以及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理的要求。基于Hadoop的分布式文件系統(tǒng)(HDFS,Hadoop Distributed File System)是被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng),是一個(gè)能提供高吞吐量數(shù)據(jù)訪問的高度容錯(cuò)性系統(tǒng),具有高容錯(cuò)性、適合大數(shù)據(jù)處理、流式文件寫入和可部署于低廉的分布式硬件系統(tǒng)之上等特點(diǎn)[11]。HDFS分布式文件存儲系統(tǒng)能夠集成和匯總異構(gòu)的數(shù)據(jù)源,為數(shù)據(jù)分析提供統(tǒng)一、完備的數(shù)據(jù)存儲。
對于海量數(shù)據(jù)的存儲,不僅要求具有較高的安全性和完整性,還要求具有較高的數(shù)據(jù)處理和讀寫效率。若不加區(qū)分的將所有數(shù)據(jù)全部存儲在某一存儲設(shè)備中,則容易造成存儲資源利用效率低下,并帶來極大的投資和管理成本,也難以適應(yīng)未來業(yè)務(wù)發(fā)展趨勢。一般認(rèn)為,數(shù)據(jù)在被創(chuàng)建之初普遍具有需求量較高、訪問量較大和價(jià)值較高等一系列相關(guān)特性,而隨著時(shí)間的推移,對于數(shù)據(jù)的需求也會隨之變化??蓪⑦@種需求量高、訪問量大、價(jià)值高的數(shù)據(jù)稱為熱數(shù)據(jù),熱數(shù)據(jù)是業(yè)務(wù)應(yīng)用訪問的熱點(diǎn)數(shù)據(jù),需要較高的讀取性能。而隨著時(shí)間的推移,熱數(shù)據(jù)會慢慢“變冷”,對應(yīng)訪問量會降低,變成冷數(shù)據(jù)。冷數(shù)據(jù)對存儲讀取性能要求相對較低,但數(shù)據(jù)量會隨時(shí)間不斷增長,對存儲量需求高。根據(jù)數(shù)據(jù)在不同時(shí)間階段具有不同價(jià)值的特征[12],采用冷/熱分層的數(shù)據(jù)存儲策略,將熱數(shù)據(jù)存儲在內(nèi)存、固態(tài)硬盤等高性能但相對昂貴的存儲設(shè)備中,讓熱數(shù)據(jù)更高效的參與計(jì)算,將冷數(shù)據(jù)存儲在機(jī)械硬盤、磁帶庫等大容量高性價(jià)比的存儲設(shè)備中,實(shí)現(xiàn)冷數(shù)據(jù)集中存儲。冷/熱分層的存儲設(shè)計(jì)能更加高效地利用有限存儲空間,節(jié)約大量投資,且通過優(yōu)化數(shù)據(jù)存儲,提升系統(tǒng)的整體性能。
2.3? ?與水文模型耦合的大數(shù)據(jù)分析
水文大數(shù)據(jù)分析是根據(jù)主題化的應(yīng)用需求進(jìn)行數(shù)據(jù)處理分析。通用大數(shù)據(jù)分析方法大多基于數(shù)值方法、統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí),水文數(shù)據(jù)應(yīng)用這樣的數(shù)據(jù)處理鏈條可以分析挖掘出一定的潛含價(jià)值信息,為推動認(rèn)識和發(fā)現(xiàn)水文規(guī)律提供一種可行的方式[8]。但另一方面,在現(xiàn)實(shí)意義上這樣的分析結(jié)果可能因缺乏理論支撐或與現(xiàn)有水文規(guī)律認(rèn)知存在偏差而無法充分應(yīng)用。因此,水文大數(shù)據(jù)分析除集成通用數(shù)據(jù)處理方法外,還需集成具有水文學(xué)背景的水文模型。水文模型處理中存在模型異構(gòu)性和復(fù)雜性等問題,在應(yīng)用大數(shù)據(jù)分析時(shí)需要對模型進(jìn)行封裝和管理[13],通過模型元數(shù)據(jù)設(shè)計(jì)、模型封裝集成以及“數(shù)據(jù)—模型”耦合校驗(yàn),構(gòu)建“數(shù)據(jù)—模型”間的數(shù)據(jù)互通接口,將水文數(shù)據(jù)與模型耦合起來形成數(shù)據(jù)分析處理鏈。此外,精細(xì)水文模型往往需要大規(guī)模計(jì)算能力,借助大數(shù)據(jù)技術(shù)提供的并行計(jì)算能力,利用Hadoop技術(shù)體系提供的并行式MapReduce計(jì)算實(shí)現(xiàn)多節(jié)點(diǎn)高效數(shù)據(jù)處理,可有效解決傳統(tǒng)水文模型計(jì)算單機(jī)處理中計(jì)算性能不足的難題。
2.4? ?水文大數(shù)據(jù)可視化
大數(shù)據(jù)分析應(yīng)用離不開對分析結(jié)果的解釋與展示。若數(shù)據(jù)分析的結(jié)果不能得到恰當(dāng)?shù)娘@示,則會對用戶產(chǎn)生困擾,甚至?xí)`導(dǎo)用戶。將數(shù)據(jù)可視化技術(shù)應(yīng)用于大數(shù)據(jù)的理解、分析和結(jié)果展示,是大數(shù)據(jù)應(yīng)用的重要技術(shù)手段之一,通常稱為大數(shù)據(jù)可視化。大數(shù)據(jù)可視化,不同于傳統(tǒng)的數(shù)據(jù)可視化,面臨的最大挑戰(zhàn)就是數(shù)據(jù)規(guī)模和復(fù)雜結(jié)構(gòu)[14]。需要提出新的可視化方法幫助用戶理解大數(shù)據(jù)分析得到的大規(guī)模、高維度、多來源、動態(tài)演化的分析結(jié)果,并輔助作出實(shí)時(shí)的決策。常用的大數(shù)據(jù)可視化技術(shù)有標(biāo)簽云、聚類圖、歷史流圖、熱圖等[15]。
水文大數(shù)據(jù)可視化在借鑒應(yīng)用傳統(tǒng)大數(shù)據(jù)可視化技術(shù)的基礎(chǔ)上,更多地關(guān)注水文數(shù)據(jù)的長時(shí)間序列和大空間尺度的特性,多采用與地理位置相結(jié)合的方式,如基于地圖疊加多維水文數(shù)據(jù)進(jìn)行分析展示,利用三維仿真技術(shù)對水文數(shù)據(jù)的時(shí)空變化進(jìn)行虛擬仿真和推演。
3? ? 長江水文大數(shù)據(jù)平臺設(shè)計(jì)
3.1? 總體架構(gòu)
基于水文大數(shù)據(jù)處理與分析的需求,依照軟件體系結(jié)構(gòu)理論及軟件工程方法,構(gòu)造長江水文大數(shù)據(jù)平臺總體架構(gòu),主要包括水文大數(shù)據(jù)存儲管理層、水文大數(shù)據(jù)組織處理層和基于大數(shù)據(jù)的水文業(yè)務(wù)應(yīng)用支撐層三個(gè)部分,其架構(gòu)如圖1所示。
3.2? ?水文大數(shù)據(jù)存儲管理
水文大數(shù)據(jù)存儲平臺應(yīng)用云計(jì)算和分布式文件系統(tǒng)、關(guān)系型數(shù)據(jù)庫等技術(shù)體系,實(shí)現(xiàn)不同結(jié)構(gòu)(結(jié)構(gòu)化/非結(jié)構(gòu)化)的巨量水文數(shù)據(jù)存儲。在此基礎(chǔ)上,實(shí)現(xiàn)基于水文對象信息組織模式的數(shù)據(jù)集成與抽取,為水文大數(shù)據(jù)分析處理提供高效率的專門數(shù)據(jù)存取服務(wù)。
水文大數(shù)據(jù)存儲平臺實(shí)現(xiàn)基于HDFS的海量異構(gòu)水文數(shù)據(jù)的匯集與存儲,為數(shù)據(jù)分析提供統(tǒng)一、完備的數(shù)據(jù)存儲。支持多種來源、不同結(jié)構(gòu)的水文數(shù)據(jù)接入,如通過數(shù)據(jù)轉(zhuǎn)發(fā)接入各類在線報(bào)送實(shí)時(shí)數(shù)據(jù)(包括監(jiān)測要素?cái)?shù)據(jù)和監(jiān)測行為狀態(tài)數(shù)據(jù)),通過服務(wù)接口或數(shù)據(jù)同步接入各類已建水文業(yè)務(wù)系統(tǒng)的節(jié)點(diǎn)數(shù)據(jù),通過數(shù)據(jù)接口或網(wǎng)絡(luò)抽取接入其他領(lǐng)域交換共享數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)。支撐通過數(shù)據(jù)凈化、綜合、分類、整編、識別等ETL處理實(shí)現(xiàn)基于水文對象信息組織模式的數(shù)據(jù)集成與抽取,為上層數(shù)據(jù)組織和數(shù)據(jù)倉庫提供支撐。
3.3? ?水文大數(shù)據(jù)組織處理
水文大數(shù)據(jù)組織處理平臺主要由水文數(shù)據(jù)網(wǎng)絡(luò)、水文數(shù)據(jù)場景及水文知識圖譜三個(gè)部分組成,實(shí)現(xiàn)水文大數(shù)據(jù)的網(wǎng)絡(luò)化、場景化和知識化組織。組織平臺通過建立和維護(hù)資源目錄、元數(shù)據(jù)、對象標(biāo)識、信息標(biāo)識和知識圖譜,統(tǒng)一生成和維護(hù)面向不同主題和場景的各類數(shù)據(jù)集合,實(shí)現(xiàn)數(shù)據(jù)的動態(tài)主題化、對象化和場景化再組織。
水文大數(shù)據(jù)組織處理平臺同時(shí)實(shí)現(xiàn)對計(jì)算資源的組織管理,支持基于MapReduce機(jī)制的大數(shù)據(jù)流/批處理,提供數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和可視分析等大數(shù)據(jù)分析工具,為業(yè)務(wù)應(yīng)用支撐平臺提供數(shù)據(jù)資源和計(jì)算資源。
3.4? ?基于大數(shù)據(jù)的水文業(yè)務(wù)應(yīng)用支撐
基于大數(shù)據(jù)的水文業(yè)務(wù)應(yīng)用支撐平臺是整個(gè)水文大數(shù)據(jù)平臺的核心,封裝各種計(jì)算方法和水文模型形成數(shù)據(jù)分析服務(wù)池,用戶可以組織相應(yīng)的數(shù)據(jù)集合,并針對性地在分析服務(wù)池中列表中選擇對應(yīng)算法,亦可上傳自定義算法,對數(shù)據(jù)集合進(jìn)行運(yùn)算,應(yīng)用知識圖譜解釋分析結(jié)果,支撐實(shí)現(xiàn)基于大數(shù)據(jù)的水文業(yè)務(wù)應(yīng)用。
基于大數(shù)據(jù)的水文業(yè)務(wù)應(yīng)用支撐平臺將數(shù)據(jù)能力和計(jì)算能力封裝為標(biāo)準(zhǔn)接口供業(yè)務(wù)應(yīng)用使用,同時(shí)實(shí)現(xiàn)對能力接口的維護(hù)和管理。在水文大數(shù)據(jù)組織平臺的支撐下,綜合運(yùn)用常規(guī)數(shù)據(jù)與大數(shù)據(jù)處理技術(shù),完成面向特定水文問題的數(shù)據(jù)分析與服務(wù)任務(wù)。
4? ?結(jié)語
隨著水文數(shù)據(jù)量的不斷增大,數(shù)據(jù)類型不斷擴(kuò)展,各行業(yè)用戶需求不斷增多,多源異構(gòu)海量水文數(shù)據(jù)的集成處理與分析應(yīng)用日趨重要。建設(shè)水文大數(shù)據(jù)平臺,實(shí)現(xiàn)水文大數(shù)據(jù)資源的集中統(tǒng)一、安全可靠的存儲和管理,構(gòu)建統(tǒng)一的信息組織和處理體系,建立基于大數(shù)據(jù)的水文業(yè)務(wù)應(yīng)用支撐環(huán)境,為水文行業(yè)大數(shù)據(jù)集成應(yīng)用提供了可行的架構(gòu)模式。對長江水文落地水文大數(shù)據(jù)平臺建設(shè),筆者提如下3點(diǎn)建議。
(1)在推進(jìn)重點(diǎn)上,注重水文數(shù)據(jù)資源網(wǎng)絡(luò)構(gòu)建,發(fā)力智能數(shù)據(jù)挖掘算法?;谒臄?shù)據(jù)內(nèi)在關(guān)聯(lián),通過水文對象組織各類數(shù)據(jù),構(gòu)建水文數(shù)據(jù)資源全景圖。在此基礎(chǔ)上,面向業(yè)務(wù)領(lǐng)域組合形成數(shù)據(jù)集,并應(yīng)用大數(shù)據(jù)處理工具,設(shè)計(jì)智能數(shù)據(jù)挖掘算法,實(shí)現(xiàn)與業(yè)務(wù)融合的大數(shù)據(jù)分析。
(2)在技術(shù)應(yīng)用上,注重實(shí)用,保證先進(jìn),加強(qiáng)大數(shù)據(jù)與AI的技術(shù)融合應(yīng)用。大數(shù)據(jù)作為新型信息技術(shù)發(fā)展迅速,建設(shè)水文大數(shù)據(jù)平臺要注重選擇成熟先進(jìn)的技術(shù)方案,最大程度發(fā)揮技術(shù)優(yōu)勢,減少技術(shù)成本。此外,建設(shè)水文大數(shù)據(jù)平臺不只是為了數(shù)據(jù)查詢與管理,更重要的是為智能分析、機(jī)器學(xué)習(xí)、知識發(fā)現(xiàn)提供基礎(chǔ)平臺,因此要加強(qiáng)與AI等智能技術(shù)的融合應(yīng)用。
(3)在思想認(rèn)識上,要積極“擁抱”大數(shù)據(jù),轉(zhuǎn)變觀念,以新的方式利用數(shù)據(jù)。大數(shù)據(jù)已經(jīng)在眾多行業(yè)展現(xiàn)了其重要價(jià)值。水文大數(shù)據(jù)或許能提供另一種有別于傳統(tǒng)水文學(xué)的發(fā)現(xiàn)和認(rèn)知水文規(guī)律的可行途徑。水文行業(yè)應(yīng)積極擁抱大數(shù)據(jù),改變經(jīng)驗(yàn)的傳統(tǒng)思維模式,以新的態(tài)度看待數(shù)據(jù),以新的思維方式利用數(shù)據(jù),從中獲取新知識,創(chuàng)造新價(jià)值。
參考文獻(xiàn):
[1]陳春華,程海云,肖志遠(yuǎn).長江水文信息化建設(shè)實(shí)踐與發(fā)展思考[J].人民長江,2015(3):70-73.
[2]艾萍,于家瑞,馬夢夢.智慧水文監(jiān)測體系中的關(guān)鍵技術(shù)簡述[J].水利信息化,2018(1):36-40,45.
[3]邱超,許金濤,元曉華.基于大數(shù)據(jù)技術(shù)的水情云數(shù)據(jù)中心設(shè)計(jì)與研究[J].浙江大學(xué)學(xué)報(bào)(理學(xué)版),2019(1):92-100.
[4]方巍,鄭玉,徐江. 大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J]. 南京信息工程大學(xué)學(xué)報(bào),2014,6 (5):405-419.
[5]陳軍飛,鄧夢華,王慧敏. 水利大數(shù)據(jù)研究綜述[J]. 水科學(xué)進(jìn)展,2017,28(4):622-631.
[5]蔡陽. 以大數(shù)據(jù)促進(jìn)水治理現(xiàn)代化[J]. 水利信息化,2017 (4):6-10.
[6]蔣云鐘,冶運(yùn)濤,趙紅莉.智慧水利大數(shù)據(jù)內(nèi)涵特征、基礎(chǔ)架構(gòu)和標(biāo)準(zhǔn)體系研究[J].水利信息化,2019(4):6-19.
[7]陳華,徐堅(jiān),肖志遠(yuǎn),等.水文大數(shù)據(jù)共享平臺研究與設(shè)計(jì)[J].水資源研究,2018(1):10-18.
[8]陳春華,陳雅莉.水文信息的對象化組織與應(yīng)用探討.大數(shù)據(jù)時(shí)代的信息化建設(shè)——2015(第三屆)中國水利信息化與數(shù)字水利技術(shù)論壇論文集,2015:87-95.
[9]錢峰,張志新.水利信息資源目錄編制要點(diǎn)解析[J].水利信息化,2021(1):14-19.
[10]饒小康.水利工程灌漿大數(shù)據(jù)平臺設(shè)計(jì)與實(shí)現(xiàn)[J].長江科學(xué)院院報(bào),2019(6):139-145,170.
[11]劉穎,葉茂,王耀魯,等.分級存儲技術(shù)及其在水利大數(shù)據(jù)處理中的應(yīng)用[J].水利信息化,2019(6):18-22.
[12]張耀南,艾鳴浩,康建芳,等.地學(xué)大數(shù)據(jù)處理架構(gòu)與關(guān)鍵技術(shù)研究[J].數(shù)據(jù)與計(jì)算發(fā)展前沿,2020(2):91-100.
[13]蔣云鐘,冶運(yùn)濤,趙紅莉,等.水利大數(shù)據(jù)研究現(xiàn)狀與展望[J].水力發(fā)電學(xué)報(bào),2020(10):1-32.
[14]趙杏杏,鞠茂森,劉威風(fēng),等.基于大數(shù)據(jù)可視化的河長制中樞指揮系統(tǒng)建設(shè)[J].水利信息化,2017(6):17-22.
收稿日期:2021-11-19
作者簡介:高露雄,男,工程師,主要從事水文信息化相關(guān)工作。E-mail:gaolx@cjh.com.cn
通訊作者:陳雅莉,女,正高級工程師,研究方向?yàn)樗男畔⒒?。E-mail:499548458@qq.com
Research on the Architecture System Design of the Yangtze River Hydrological Big Data Platform
Gao LuXiong Liu Di? ? Chen YaLi
(Bureau of Hydrology,Changjiang Water Resources Commission,CWRC ,Wuhan 430010 ,China)
Abstract:This article first analyzes the existing problems of the BOH hydrological data center in dealing with the storage and processing of massive multi-source heterogeneous hydrological data. Based on the connotation and characteristics of hydrological big data,the research introduces the big data based on hydrological objects. Organization,Hadoop-based distributed storage system and cold/hot hierarchical storage strategy,coupled hydrological model big data analysis and hydrological big data visualization and other key hydrological big data platform technologies,and design the hydrological big data platform architecture,expected to provide theoretical and technical support for the construction of the Yangtze River Hydrological Big Data Platform.
Keywords:Hydrological Big Data ;Data organization;Big data analysis;Visualization