国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)驅(qū)動的資源學(xué)科領(lǐng)域數(shù)據(jù)分析前沿與應(yīng)用

2020-12-02 01:54王卷樂程凱韓雪華張敏
關(guān)鍵詞:學(xué)科資源環(huán)境

王卷樂,程凱,韓雪華,張敏

1.中國科學(xué)院地理科學(xué)與資源研究所,資源與環(huán)境信息系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100101

2.中國科學(xué)院大學(xué),北京 100049

引言

資源科學(xué)是研究資源的形成、演變、質(zhì)量特征與時(shí)空分布及其與人類社會發(fā)展之相互關(guān)系的科學(xué)。其目的是為了更好地認(rèn)識資源,合理開發(fā)、利用、保護(hù)和管理資源,協(xié)調(diào)資源與人口、資源和環(huán)境之間的關(guān)系[1],促使其向有利于人類社會生存與發(fā)展的方向轉(zhuǎn)化[2]。資源學(xué)科涉及資源開發(fā)與利用、環(huán)境科學(xué)、區(qū)域可持續(xù)發(fā)展及資源環(huán)境觀測技術(shù)科學(xué)等多個(gè)方面,包括水循環(huán)和水資源、土壤和土地資源、氣候變化影響與適應(yīng)、生態(tài)系統(tǒng)、環(huán)境科學(xué)與工程、區(qū)域可持續(xù)發(fā)展、遙感科學(xué)與地理信息科學(xué)等領(lǐng)域,是一個(gè)綜合的現(xiàn)代學(xué)科群。由于資源環(huán)境領(lǐng)域需求各異以及相關(guān)行業(yè)標(biāo)準(zhǔn)及規(guī)范的更新變化,資源學(xué)科數(shù)據(jù)存在種類繁多、格式多樣、標(biāo)準(zhǔn)難以統(tǒng)一的特點(diǎn)。隨著資源環(huán)境全局性問題協(xié)調(diào)的需求不斷增大,傳統(tǒng)的單一資源學(xué)科的深化難以解決資源與環(huán)境可持續(xù)發(fā)展的綜合性問題。

大數(shù)據(jù)時(shí)代催生了圍繞海量數(shù)據(jù)獲取、存儲、共享和分析的科學(xué)研究手段,即數(shù)據(jù)密集型研究范式[3-4],其顯著特征是以數(shù)據(jù)作為科學(xué)發(fā)現(xiàn)的核心和科研活動的驅(qū)動力,從海量數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律[1,5]。資源科學(xué)的綜合思想既強(qiáng)調(diào)作為研究對象的資源系統(tǒng)內(nèi)部要素的關(guān)聯(lián)與整體效應(yīng),也強(qiáng)調(diào)資源系統(tǒng)與其環(huán)境系統(tǒng)的耦合,還重視研究方法與技術(shù)手段的集成[1]。大數(shù)據(jù)技術(shù)可以解決資源學(xué)科數(shù)據(jù)存儲和組織問題,能夠在短時(shí)間過濾出有價(jià)值的內(nèi)容,進(jìn)而為資源數(shù)據(jù)服務(wù)集群化和產(chǎn)業(yè)化發(fā)展提供技術(shù)支撐。因此,資源學(xué)科領(lǐng)域的研究和應(yīng)用迫切需要大數(shù)據(jù)應(yīng)用環(huán)境和科研信息化技術(shù)分析方法的支持。本文結(jié)合資源學(xué)科領(lǐng)域發(fā)展需求,探討大數(shù)據(jù)驅(qū)動的資源學(xué)科領(lǐng)域數(shù)據(jù)分析前沿,并以中國科學(xué)院“十三五”信息化專項(xiàng)科學(xué)大數(shù)據(jù)工程項(xiàng)目“大數(shù)據(jù)驅(qū)動的資源學(xué)科創(chuàng)新示范平臺”為例,對典型應(yīng)用進(jìn)行探討。

1 大數(shù)據(jù)驅(qū)動的資源數(shù)據(jù)分析技術(shù)前沿

1.1 資源遙感監(jiān)測技術(shù)

遙感數(shù)據(jù)與土地資源具有高度一致的時(shí)空特點(diǎn)[4,6],自遙感技術(shù)出現(xiàn),就廣泛的應(yīng)用在土地資源在內(nèi)的地表資源與環(huán)境方面。資源信息提取與監(jiān)測是資源遙感大數(shù)據(jù)應(yīng)用的普遍手段。提取的方法主要包括兩類:一是基于專業(yè)人員對于遙感數(shù)據(jù)及其區(qū)域狀況的了解,采用綜合分析的方法來實(shí)現(xiàn)[6],但這種方法存在著人工投入大、對于解譯經(jīng)驗(yàn)要求較高且受個(gè)人主觀因素影響大等問題[7];另一種是基于計(jì)算機(jī)技術(shù),通過在遙感數(shù)據(jù)中提取有效的反映資源特點(diǎn)的特征,建立特征集實(shí)現(xiàn)資源信息的提取和分析,這種方法是當(dāng)前資源遙感信息提取領(lǐng)域最常用的方法。特別是隨著人工智能技術(shù)的發(fā)展,使得機(jī)器學(xué)習(xí)(Machine Learning,ML)等新技術(shù)在資源遙感領(lǐng)域的應(yīng)用越來越普遍,如土地、海洋、大氣等領(lǐng)域[8-10]。圖1是機(jī)器學(xué)習(xí)在遙感及其他領(lǐng)域的一個(gè)通用的工作流程,包括:數(shù)據(jù)獲取、數(shù)據(jù)清洗、模型構(gòu)建與選擇、結(jié)果評價(jià)、結(jié)果可視化五個(gè)步驟。

圖1 機(jī)器學(xué)習(xí)通用工作流程Fig.1 General workflow of machine learning

算法選擇是機(jī)器學(xué)習(xí)中的關(guān)鍵步驟之一,選擇哪一種算法最優(yōu)取決于研究的問題或?qū)ο蟆D壳爸饕腥箢悪C(jī)器學(xué)習(xí)算法,分別是有監(jiān)督的機(jī)器學(xué)習(xí)、無監(jiān)督的機(jī)器學(xué)習(xí)與強(qiáng)化學(xué)習(xí)。監(jiān)督算法在分類時(shí)使用的是包含輸出列的數(shù)據(jù)集,而無監(jiān)督算法使用的是全部未標(biāo)記的樣本,根據(jù)數(shù)據(jù)集在不同記錄之間識別出的關(guān)系將數(shù)據(jù)集聚到不同的類別中。強(qiáng)化學(xué)習(xí)則是提供一個(gè)環(huán)境,并在這個(gè)環(huán)境中做出決策,根據(jù)決策得到的反饋,不斷改進(jìn)自己。

隨機(jī)森林(Random forest,RF)、支持向量機(jī)(Support Vector Machine,SVM)與人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)[11-13]是資源遙感中較為常用的關(guān)鍵方法。RF 算法屬于集成分類器,意味著它在做決策時(shí),利用了多個(gè)決策樹。在分類過程中,RF中的每棵決策樹都會做出類別預(yù)測,而獲得票數(shù)最多的類別將成為模型預(yù)測的類別。由于不同模型(決策樹)之間的相關(guān)性較低,因此可以產(chǎn)生比單個(gè)預(yù)測更準(zhǔn)確的總體預(yù)測。SVM是一種監(jiān)督學(xué)習(xí)模型,可用于回歸和分類問題。它是由一個(gè)分離超平面正式定義的判別分類器,在給定訓(xùn)練數(shù)據(jù)(監(jiān)督學(xué)習(xí))的情況下,該算法輸出一個(gè)最優(yōu)超平面,該超平面對未分類數(shù)據(jù)進(jìn)行分類。ANN是神經(jīng)網(wǎng)絡(luò)的一種,是在計(jì)算機(jī)上進(jìn)行的受生物學(xué)啟發(fā)的模擬,以執(zhí)行特定的任務(wù),如模式識別、聚類、分類等。ANN是通過在最小輸入中學(xué)習(xí)不同類別的模式進(jìn)而對未分類數(shù)據(jù)進(jìn)行分析與分類,這與傳統(tǒng)的依賴統(tǒng)計(jì)假設(shè)的算法是不同的。

1.2 資源調(diào)查技術(shù)

傳統(tǒng)的資源調(diào)查技術(shù)多以大規(guī)模的綜合科學(xué)考察、龐大的基礎(chǔ)設(shè)施與大量的人員隊(duì)伍為主,如依托全國布置40 余萬個(gè)地面采集樣點(diǎn)定時(shí)開展的森林調(diào)查,依托全國2 萬多個(gè)水文站點(diǎn)開展水文要素的觀測等。地理信息系統(tǒng)(GIS)、全球定位系統(tǒng)(GPS)、遙感(RS)等3S 技術(shù)的出現(xiàn)促進(jìn)了國土資源基礎(chǔ)數(shù)據(jù)獲取、處理、建庫等全流程的數(shù)字化。對地觀測數(shù)據(jù)的開放與共享,以及云平臺的推廣與使用產(chǎn)生了海量的資源數(shù)據(jù),為資源環(huán)境調(diào)查、監(jiān)測與評估提供了新的技術(shù)手段[14-15]。

眾源地理信息技術(shù)基于眾多非專業(yè)人員來志愿采集數(shù)據(jù),并按照一定的標(biāo)準(zhǔn)將眾源地理數(shù)據(jù)(Volunteered Geographic Information,VGI)匯交至服務(wù)器、分布式數(shù)據(jù)庫或云平臺[16]。隨著智能手機(jī)的快速發(fā)展與普及,進(jìn)一步促進(jìn)了眾源地理數(shù)據(jù)的發(fā)展。如Fritz 等人創(chuàng)建了Geo-Wiki.Org 網(wǎng)站并開發(fā)了“GEOwiki pictures”手機(jī)應(yīng)用程序,使全球用戶通過使用程序上傳帶有地理位置信息的照片,貢獻(xiàn)包括森林、草地、農(nóng)田、水體、濕地等生態(tài)系統(tǒng)位置和照片的“眾源數(shù)據(jù)”。全球農(nóng)情遙感速報(bào)團(tuán)隊(duì)建立了“GVG(GPS、VIDEO和GIS)農(nóng)情采樣系統(tǒng)”桌面端軟件,使其可以在移動智能端進(jìn)行使用,從而實(shí)現(xiàn)了農(nóng)作物種植狀況照片的隨時(shí)隨地采集[14]。

隨著網(wǎng)絡(luò)和計(jì)算機(jī)技術(shù)的革新,云存儲和云計(jì)算技術(shù)已經(jīng)成為當(dāng)前主流的技術(shù)手段。與傳統(tǒng)的個(gè)人計(jì)算機(jī)、服務(wù)器等硬件設(shè)備相比,云平臺具備計(jì)算效率高、性能強(qiáng)、可彈性擴(kuò)展、存儲容量大、價(jià)格低、數(shù)據(jù)安全等特點(diǎn),適用于海量地理數(shù)據(jù)的處理、運(yùn)算與分析?;谠朴?jì)算技術(shù)出現(xiàn)的地理數(shù)據(jù)云平臺也逐漸成為資源環(huán)境數(shù)據(jù)研究和生產(chǎn)的主要手段。得益于云平臺高速計(jì)算設(shè)備,用戶可直接在云端處理與分析數(shù)據(jù),實(shí)現(xiàn)地表資源環(huán)境長時(shí)間序列、多空間尺度地處理與分析,解決了運(yùn)算、存儲能力限制等方面的問題[14]。如2011年,Google 公司發(fā)布了“Google Earth Engine”云計(jì)算平臺。澳大利亞地球科學(xué)院(Australian Geoscience)于 同年開發(fā)了云端地理數(shù)據(jù)處理方案“Data Cube”,并實(shí)現(xiàn)了對澳大利亞全境包括遙感、氣象、地面站點(diǎn)數(shù)據(jù)等的一致性數(shù)據(jù)管理構(gòu)架。“AWS 亞馬遜云”開放了包括NASA Earth Exchange 數(shù)據(jù)集、全球 Landsat 系列影像、Sentinel 系列衛(wèi)星影像、氣象雷達(dá)(NEXRAD)數(shù)據(jù)、美國農(nóng)業(yè)影像計(jì)劃(NAIP)和數(shù)字高程(DEM)等數(shù)據(jù)集。利用這些云端對地觀測數(shù)據(jù),科學(xué)家可以更加方便地開展大尺度資源環(huán)境調(diào)查、監(jiān)測與分析。

1.3 資源網(wǎng)絡(luò)挖掘技術(shù)

網(wǎng)絡(luò)數(shù)據(jù)按數(shù)據(jù)類型可分為自媒體數(shù)據(jù)、日志數(shù)據(jù)和富媒體數(shù)據(jù)三類。其中,自媒體數(shù)據(jù)主要是指通過以Facebook、Twitter、微博等為代表的社交網(wǎng)絡(luò)中產(chǎn)生的用戶生成數(shù)據(jù)(User Generated Content,UGC),具有空前的規(guī)模性和群體性,數(shù)據(jù)總量巨大,數(shù)據(jù)變化非??臁F┤?,截止2019年4月,全球社交媒體用戶數(shù)量達(dá)到近 35億,其中98%的社交媒體用戶(超過 34億人)通過移動設(shè)備訪問社交平臺。Facebook月活躍用戶總數(shù)為24.5億,日活躍用戶16.2億;新浪微博月活躍用戶4.86億,日活躍用戶2.11億。日志數(shù)據(jù)主要指各種網(wǎng)上服務(wù)提供商積累的系統(tǒng)和用戶操作的日志記錄,比如Google、百度等搜索引擎提供商積累的用戶搜索行為日志,中國移動等電信運(yùn)營商積累的用戶通話日志數(shù)據(jù),亞馬遜、淘寶等網(wǎng)絡(luò)購物平臺提供商積累的用戶交易數(shù)據(jù)等,具有大量的歷史性數(shù)據(jù)、同時(shí)數(shù)據(jù)增速極快、數(shù)據(jù)訪問吞吐量巨大。富媒體數(shù)據(jù)指聚合多種媒體數(shù)據(jù)(包括文本、音視頻、圖片、文字、消息等)動態(tài)、交互的體現(xiàn)。富媒體并不單純是互聯(lián)網(wǎng)多媒體形式,還包括動畫、聲音、視頻或交互性的信息傳播方式,具有內(nèi)容多源、異構(gòu)的顯著特性[17-18]。

資源網(wǎng)絡(luò)數(shù)據(jù)挖掘方面,依托網(wǎng)絡(luò)爬蟲、信息抽取、主題模型、情感分析等技術(shù),根據(jù)典型應(yīng)用的示范需求,展開資源網(wǎng)絡(luò)大數(shù)據(jù)整合與挖掘。一方面以國家和地方自然資源管理的機(jī)構(gòu)網(wǎng)站,以及新浪網(wǎng)、新華網(wǎng)、人民網(wǎng)、搜狐網(wǎng)、騰訊網(wǎng)以及百度等互聯(lián)網(wǎng)媒體為數(shù)據(jù)源,對互聯(lián)網(wǎng)中的資源環(huán)境數(shù)據(jù)進(jìn)行收集、整理,如自然資源稟賦、資源儲量、資源開發(fā)、資源利用、資源配置等。另一方面以設(shè)計(jì)媒體、新聞文本等為數(shù)據(jù)源,提取環(huán)境感知信息,獲取具有地理分布特征的專題信息;進(jìn)行資源環(huán)境輿情分析,挖掘相關(guān)的語義信息、探索分布規(guī)律、檢測異常,提取網(wǎng)絡(luò)文本的資源環(huán)境相關(guān)信息;并將其納入傳統(tǒng)上以調(diào)查數(shù)據(jù)為對象的空間計(jì)算模型中[19]。利用網(wǎng)絡(luò)開放資源、百科協(xié)作平臺或社會化媒體,豐富資源環(huán)境要素或事件的時(shí)空屬性,自動生成結(jié)構(gòu)化資源環(huán)境知識庫[19]。相關(guān)技術(shù)介紹如下文。

主題模型(topic model)是以非監(jiān)督學(xué)習(xí)的方式對文集的隱含語義結(jié)構(gòu)(latent semantic structure)進(jìn)行聚類的統(tǒng)計(jì)模型[20]。主題模型主要被用于自然語言處理中的語義分析和文本挖掘問題[21],能夠處理和分析大規(guī)模文本并從中獲取文本主要內(nèi)容和主題,生成各文本的主題概率分布以及各主題的單詞概率分布。目前應(yīng)用比較廣泛的主題模型有LDA模型、BTM模型、DMM模型等。潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)是Blei 等在2003年提出的經(jīng)典的主題模型,在基于位置的推薦、事件探索、話題發(fā)現(xiàn)方面得到了廣泛應(yīng)用[22-24]。LDA模型是三層貝葉斯模型,包括文本、主題和單詞,是利用詞語在文檔中共現(xiàn)信息來發(fā)現(xiàn)文檔集包含的主題信息?;舅枷胧敲恳黄臋n代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布[25-26]。

資源的開發(fā)利用是人與自然資源之間的相互作用和相互協(xié)調(diào)。人類在參與的過程中也會產(chǎn)生相應(yīng)的情感。情感分析(sentiment analysis)是指對帶有情感色彩的主觀性文本進(jìn)行采集、處理、分析、歸納和推理的過程,涉及到人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理等多個(gè)研究領(lǐng)域[27-29]。分析資源學(xué)科研究和應(yīng)用中的情感,能夠探測到不同區(qū)域面臨的資源環(huán)境開發(fā)、利用、保護(hù)、破壞等方面的公眾輿情和情緒。美國心理學(xué)家Ekman 發(fā)現(xiàn)人類有6種基本情緒:快樂、悲傷、恐懼、驚訝、憤怒、嫉妒[30]。這六種情緒之間可相互組合,或派生出其他復(fù)合情緒。情感分析的實(shí)現(xiàn)方法主要包括基于情感詞典與規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法[31]。

1.4 資源綜合分析技術(shù)

資源綜合分析技術(shù)在提高數(shù)據(jù)檢索效率、充分挖掘資源科學(xué)數(shù)據(jù)價(jià)值、提供各類知識服務(wù)等方面發(fā)揮了重要作用。1998年,澳大利亞提出了“玻璃地球”計(jì)劃,目的是研制三維可視化和地質(zhì)模擬等技術(shù),使澳大利亞大陸表層一千米及其發(fā)生的地質(zhì)過程變得“像玻璃一樣透明”,以便可以發(fā)現(xiàn)澳大利亞下一代巨型礦床?!安AУ厍颉苯ㄔO(shè)涉及地球探測、地質(zhì)信息和資源環(huán)境評價(jià)三大綜合分析技術(shù)領(lǐng)域,核心技術(shù)是地質(zhì)信息技術(shù)[32-34]。為實(shí)現(xiàn)“玻璃地球”而進(jìn)行的技術(shù)綜合包括設(shè)備層的重力梯度測量、張力梯度和地磁測量,以及同位素地球化學(xué)等學(xué)科知識和技術(shù);知識產(chǎn)生層的表土作用過程、地球化學(xué)、水文地質(zhì)、力學(xué)化學(xué)耦合模擬等學(xué)科知識和技術(shù);數(shù)據(jù)處理層的可視化、轉(zhuǎn)化融合等技術(shù)。2005年啟動的由美國NSF 資助、美國威斯康星大學(xué)主導(dǎo)的Macrostrat是收集地層、古生物數(shù)據(jù)的平臺,是世界上最大的同質(zhì)化地質(zhì)圖數(shù)據(jù)庫,目前覆蓋北美、南美局部、新西蘭等地區(qū)。此外,還有Earth Byte,DCO (About the Deep Carbon Observatory),4D (Deeptime Data Driven Discovery) 等驅(qū)動地球科學(xué)綜合研究的平臺。2011年,美國NSF的計(jì)算機(jī)與信息科學(xué)工程和地球科學(xué)學(xué)部聯(lián)合發(fā)起了地球科學(xué)領(lǐng)域的Earth Cube 計(jì)劃,其目標(biāo)是以一種公開、透明和綜合性的方式整合所有地球科學(xué)數(shù)據(jù)、信息、知識以及實(shí)踐來創(chuàng)建地球科學(xué)知識管理系統(tǒng)和基礎(chǔ)設(shè)施,從而極大地提升研究及教育者的知識創(chuàng)造和傳播能力[35]。

2018年中國科學(xué)院啟動了A 類戰(zhàn)略性先導(dǎo)科技專項(xiàng)“地球大數(shù)據(jù)科學(xué)工程(CAS Earth)”,旨在突破技術(shù)瓶頸問題,形成資源、環(huán)境、生物、生態(tài)等領(lǐng)域多學(xué)科融合的地球大數(shù)據(jù)云服務(wù)平臺,成為支撐國家宏觀決策與重大科學(xué)發(fā)現(xiàn)的大數(shù)據(jù)重大科技基礎(chǔ)設(shè)施[36-37]。CAS Earth的核心是突出地球大數(shù)據(jù)關(guān)鍵技術(shù),擬利用地球大數(shù)據(jù)技術(shù)解決資源、環(huán)境、生物、生態(tài)等領(lǐng)域多學(xué)科的問題,如在2019年向聯(lián)合國提交的《地球大數(shù)據(jù)支撐可持續(xù)發(fā)展目標(biāo)報(bào)告》。報(bào)告案例中,研究者基于SAR和光學(xué)影像融合生產(chǎn)了2015年全球10 米分辨率不透水面遙感產(chǎn)品,其精度優(yōu)于85%,解決了土地消耗率與人口增長率比率指標(biāo)監(jiān)測數(shù)據(jù)缺失問題;選取土地覆蓋、土地生產(chǎn)力與土壤碳3個(gè)子指標(biāo),利用全球尺度地球大數(shù)據(jù)與產(chǎn)品,采用聯(lián)合國防治荒漠化公約(UNCCD)發(fā)布的GPG(Good Practice Guidance on SDG 15.3)報(bào)告及Trend.Earth 推薦方法,完成了全球尺度2000-2015年土地退化/恢復(fù)評估等。

人工智能、知識圖譜、關(guān)聯(lián)分析等新技術(shù)已逐步成為資源學(xué)科各個(gè)領(lǐng)域的重要數(shù)據(jù)分析計(jì)算工具。深時(shí)數(shù)字地球大科學(xué)計(jì)劃(Deep-time Digital Earth,DDE)將基礎(chǔ)學(xué)科研究與人工智能相融合,旨在整合地球演化全球數(shù)據(jù)、共享全球地學(xué)知識。關(guān)聯(lián)開放云(The Linked Open Data Cloud,LOD,https://lod-cloud.net/)將采用URL和RDF 方式存在于網(wǎng)絡(luò)的公開、共享、鏈接碎片化的數(shù)據(jù)、信息和知識以web 鏈接的方式關(guān)聯(lián)在一起,形成一張巨大的知識圖譜,截止2019年3月,LOD 已經(jīng)包含1 239個(gè)數(shù)據(jù)集,涵蓋16 147個(gè)鏈接,涉及地理、政府、生命科學(xué)、語言學(xué)、媒體、出版物及社交網(wǎng)絡(luò)用戶生成數(shù)據(jù)等不同領(lǐng)域和生產(chǎn)方式的數(shù)據(jù)集。通過關(guān)聯(lián)分析,可以發(fā)現(xiàn)不同資源學(xué)科之間的關(guān)系及關(guān)聯(lián)強(qiáng)度,增強(qiáng)資源綜合分析結(jié)果的可靠性和全面性;根據(jù)不同的用戶需求,提供個(gè)性化推薦服務(wù);最大限度地提高資源利用價(jià)值。

2 資源學(xué)科領(lǐng)域創(chuàng)新應(yīng)用平臺與典型應(yīng)用

2.1 資源學(xué)科領(lǐng)域創(chuàng)新應(yīng)用平臺

基于以上資源學(xué)科領(lǐng)域的數(shù)據(jù)分析需求,在中國科學(xué)院信息化專項(xiàng)支持下,設(shè)計(jì)和構(gòu)建了大數(shù)據(jù)驅(qū)動的資源學(xué)科創(chuàng)新示范平臺。該平臺包括基礎(chǔ)設(shè)施、數(shù)據(jù)存儲管理、數(shù)據(jù)處理計(jì)算與模型集成、協(xié)同科研活動環(huán)境、數(shù)據(jù)分析與可視化應(yīng)用服務(wù)五部分,平臺架構(gòu)如圖2所示。

圖2 資源學(xué)科領(lǐng)域大數(shù)據(jù)創(chuàng)新應(yīng)用平臺框架Fig.2 Framework of big data innovation application platform in resource discipline field

基礎(chǔ)設(shè)施基于中國科技云基礎(chǔ)設(shè)施,以及資源學(xué)科領(lǐng)域的私有云設(shè)施,建立基礎(chǔ)的云環(huán)境,是創(chuàng)新示范平臺正常實(shí)施與運(yùn)作的基礎(chǔ)。數(shù)據(jù)存儲管理基于Hadoop/Spark 框架的分布式存儲文件系統(tǒng)HDFS、NoSQL 數(shù)據(jù)庫,實(shí)現(xiàn)多源、非結(jié)構(gòu)化數(shù)據(jù)存儲管理。數(shù)據(jù)處理計(jì)算與模型集成采用MapReduce并行計(jì)算處理技術(shù),結(jié)合資源環(huán)境領(lǐng)域相關(guān)理論,將現(xiàn)有模型與大數(shù)據(jù)技術(shù)相結(jié)合,集成超過200個(gè)資源環(huán)境數(shù)據(jù)處理與分析模型,涉及土地資源、水資源、生物資源、礦產(chǎn)資源、城市承載力、旅游資源等多個(gè)方向。協(xié)同科研活動環(huán)境在互聯(lián)網(wǎng)絡(luò)環(huán)境、超級計(jì)算環(huán)境、數(shù)據(jù)應(yīng)用環(huán)境等信息化基礎(chǔ)上,實(shí)現(xiàn)跨組織、跨區(qū)域、跨學(xué)科的資源環(huán)境領(lǐng)域科研合作研究虛擬環(huán)境,為資源環(huán)境科研工作者和國家重大科研項(xiàng)目提供基于網(wǎng)絡(luò)的合作研究。數(shù)據(jù)分析與可視化應(yīng)用服務(wù)提供數(shù)據(jù)時(shí)空分析計(jì)算等所需模型和工具軟件,對多源異質(zhì)數(shù)據(jù)進(jìn)行數(shù)據(jù)級、特征級、決策級融合,形成區(qū)域高精度、高頻率、高時(shí)空分辨率集成數(shù)據(jù)產(chǎn)品,實(shí)現(xiàn)重點(diǎn)區(qū)域評估可視化等應(yīng)用環(huán)境。

基于以上框架,基于Web+WebGIS 模式開發(fā)構(gòu)建大數(shù)據(jù)驅(qū)動的資源學(xué)科領(lǐng)域創(chuàng)新應(yīng)用平臺(http://www.data.ac.cn)(圖2)。該平臺深度整合與集成了地區(qū)(local)、國家(national)、區(qū)域(regional)和全球(global)四個(gè)尺度的資源學(xué)科基礎(chǔ)數(shù)據(jù),包括水資源、土地資源、氣候資源、森林資源、草地資源、動植物資源、漁業(yè)資源、能源資源等43個(gè)基礎(chǔ)資源學(xué)科數(shù)據(jù)庫,中國鄉(xiāng)鎮(zhèn)級精細(xì)人口空間化數(shù)據(jù)集、京津冀地區(qū)超過百萬的POI 數(shù)據(jù)和手機(jī)定位動態(tài)分布數(shù)據(jù)集、典型示范區(qū)(京津冀、西藏、中蒙俄經(jīng)濟(jì)走廊)遙感數(shù)據(jù)、黃土高原地形因子和指標(biāo)覆蓋度數(shù)據(jù)、世界和中國黑土區(qū)域資源數(shù)據(jù)等數(shù)據(jù)集,并形成了資源學(xué)科領(lǐng)域數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)和知識圖譜。

在資源學(xué)科科學(xué)計(jì)算模型算法方面,平臺設(shè)計(jì)構(gòu)建了資源學(xué)科創(chuàng)新平臺模型共享子系統(tǒng)。構(gòu)建了資源領(lǐng)域科學(xué)計(jì)算模型分類體系,集成超過200個(gè)資源環(huán)境數(shù)據(jù)處理與分析模型,促進(jìn)資源學(xué)科的模型集成共享,將模型共享服務(wù)推向大眾。平臺實(shí)現(xiàn)了模型元數(shù)據(jù)目錄服務(wù)的功能;制定了資源學(xué)科科學(xué)計(jì)算模型的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范;定義了資源學(xué)科模型互操作接口規(guī)范。模型共享包括六個(gè)步驟:一是模型開發(fā)與共享轉(zhuǎn)換,二是模型注冊,三是模型審核,四是模型發(fā)現(xiàn),五是模型應(yīng)用,六是復(fù)雜應(yīng)用集成[38]。

圖3 資源學(xué)科創(chuàng)新應(yīng)用平臺門戶Fig.3 Resource discipline innovation platform portal

2.2 資源學(xué)科大數(shù)據(jù)驅(qū)動典型應(yīng)用場景

(1)中蒙俄經(jīng)濟(jì)走廊交通與管線生態(tài)風(fēng)險(xiǎn)防控典型應(yīng)用

結(jié)合聯(lián)合國可持續(xù)發(fā)展目標(biāo)(Sustainable Development Goals,SDGs)15.3中的土地退化問題,以中蒙鐵路沿線(蒙古段)兩側(cè)200 公里范圍內(nèi)的區(qū)域作為研究區(qū),以Landsat8 數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)源,基于Albedo-NDVI、Albedo-MSAVI、Albedo-TGSI 三種特征空間模型的適用性,結(jié)合平臺的遙感大數(shù)據(jù)處理與信息提取系統(tǒng),得到中蒙鐵路沿線(蒙古段)荒漠化分布數(shù)據(jù)(圖4),結(jié)合土地利用矩陣變化,分析了1990-2015年的中蒙鐵路(蒙古段)的土地退化格局與變化特征,發(fā)現(xiàn)中蒙鐵路沿線(蒙古段)不同區(qū)域荒漠化的分布規(guī)律,為本區(qū)域荒漠化防控提供精細(xì)的數(shù)據(jù)和方法支持[39-42]。

(2)京津冀資源環(huán)境承載力評價(jià)典型應(yīng)用

圖4 中蒙鐵路沿線(蒙古段)2015年荒漠化分布圖Fig.4 Desertification distribution map along the China-Mongolia railway (Mongolian section) in 2015

結(jié)合SDG11與中國城市化發(fā)展的需求,利用資源大數(shù)據(jù)進(jìn)行京津冀資源環(huán)境區(qū)域承載力評價(jià),為區(qū)域可持續(xù)發(fā)展提供科學(xué)有效的建議。①構(gòu)建資源網(wǎng)絡(luò)大數(shù)據(jù)分析與挖掘方法體系,依托新型互聯(lián)網(wǎng)大數(shù)據(jù),研發(fā)面向高時(shí)空分辨率的資源網(wǎng)絡(luò)大數(shù)據(jù)分析與挖掘評價(jià)指標(biāo)。②融合京津冀資源與環(huán)境承載力評價(jià)指標(biāo)體系與數(shù)據(jù),建立適用于京津冀資源環(huán)境可持續(xù)發(fā)展評價(jià)指標(biāo)體系,具體包括生態(tài)環(huán)境、經(jīng)濟(jì)增長、社會進(jìn)步、城市發(fā)展類要素。③搭建京津冀資源環(huán)境承載力評價(jià)模型方法與平臺(圖5),篩選影響京津冀資源環(huán)境承載力與可持續(xù)發(fā)展的關(guān)鍵因素,構(gòu)建區(qū)域可持續(xù)發(fā)展過程模擬的系列數(shù)學(xué)模型,進(jìn)行資源環(huán)境承載力綜合評價(jià),搭建京津冀資源環(huán)境承載力評價(jià)平臺原型。④面向京津冀協(xié)同可持續(xù)發(fā)展的客觀需求,為制定國家新型城鎮(zhèn)化戰(zhàn)略、城鎮(zhèn)群規(guī)劃等提供技術(shù)方法和理論支撐,提高政府決策的科學(xué)性。

圖5 京津冀資源環(huán)境承載力評價(jià)平臺系統(tǒng)Fig.5 Website of the resource and environmental carrying capacity assessment in Beijing-Tianjin-Hebei region

(3)大數(shù)據(jù)驅(qū)動的美麗中國全景評價(jià)典型應(yīng)用

結(jié)合中國科學(xué)院地球大數(shù)據(jù)科學(xué)工程,以地球大數(shù)據(jù)和云服務(wù)平臺為基礎(chǔ),綜合集成網(wǎng)絡(luò)大數(shù)據(jù)、遙感大數(shù)據(jù)、社會經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)等多源數(shù)據(jù),構(gòu)建地球大數(shù)據(jù)集成平臺,根據(jù)美麗中國評價(jià)指標(biāo)的需求提供相關(guān)數(shù)據(jù)、方法與模型產(chǎn)品[43]。①數(shù)據(jù)生產(chǎn)與匯集。匯集基礎(chǔ)地理數(shù)據(jù)、網(wǎng)絡(luò)挖掘數(shù)據(jù)、社會經(jīng)濟(jì)數(shù)據(jù)、遙感數(shù)據(jù)產(chǎn)品等數(shù)據(jù)產(chǎn)品,如2000年鄉(xiāng)鎮(zhèn)級人口數(shù)據(jù)、中國地表高程數(shù)據(jù)、中國地表坡度數(shù)據(jù)、中國地表坡向數(shù)據(jù)、全國道路數(shù)據(jù)、耕地保護(hù)數(shù)據(jù)、經(jīng)濟(jì)總量數(shù)據(jù)等,為美麗中國評價(jià)提供了支撐。②遙感技術(shù)支撐森林類型提取與服務(wù)SDG 森林資源可持續(xù)評價(jià)。利用Sentinel-2 影像、Sentinel-1SAR 數(shù)據(jù)、SRTMDEM 數(shù)據(jù)、森林類型清查數(shù)據(jù)、森林類型野外調(diào)查數(shù)據(jù)、環(huán)球地理參場圖片庫等數(shù)據(jù),依托Google Earth Engine(GEE)大數(shù)據(jù)處理云平臺和機(jī)器學(xué)習(xí)技術(shù),綜合時(shí)空譜特征得到空間分辨率為10 米的中國秦嶺地區(qū)森林類型產(chǎn)品。③為服務(wù)美麗中國評價(jià),研發(fā)了面向美麗中國的數(shù)據(jù)集成與共享原型系統(tǒng)。系統(tǒng)內(nèi)集成了面向“美麗中國生態(tài)文明建設(shè)科技工程”(以下簡稱“美麗中國”專項(xiàng))評價(jià)的基礎(chǔ)地理數(shù)據(jù)、社會經(jīng)濟(jì)數(shù)據(jù)、遙感數(shù)據(jù)產(chǎn)品等,覆蓋中國、區(qū)域等不同尺度(圖6)。

圖6 面向美麗中國的數(shù)據(jù)集成與共享平臺系統(tǒng)Fig.6 Data integration and sharing platform system for Beautiful China

3 結(jié)論與展望

本文結(jié)合資源學(xué)科領(lǐng)域數(shù)據(jù)分析和計(jì)算的需求,闡述了資源學(xué)科領(lǐng)域數(shù)據(jù)分析技術(shù)前沿,包括資源遙感分析、資源調(diào)查分析、資源網(wǎng)絡(luò)挖掘以及資源綜合分析等技術(shù)。依托大數(shù)據(jù)驅(qū)動的資源學(xué)科創(chuàng)新示范平臺,介紹了平臺的框架、技術(shù)、算法、應(yīng)用等架構(gòu)。實(shí)現(xiàn)了中蒙俄經(jīng)濟(jì)走廊交通與管線生態(tài)風(fēng)險(xiǎn)防控、京津冀資源環(huán)境承載力評價(jià)、大數(shù)據(jù)驅(qū)動的美麗中國全景評價(jià)等資源學(xué)科領(lǐng)域典型場景應(yīng)用。大數(shù)據(jù)驅(qū)動的資源學(xué)科領(lǐng)域數(shù)據(jù)分析技術(shù)具有巨大潛力且已有部分應(yīng)用展示,但仍需要更多適應(yīng)資源學(xué)科領(lǐng)域發(fā)展的新方法和新模式,促進(jìn)其向綜合科學(xué)研究的范式轉(zhuǎn)變。未來將進(jìn)一步探索大數(shù)據(jù)驅(qū)動下的資源學(xué)科綜合研究信息鏈、跨國科學(xué)考察協(xié)同科研模式等新型研究模式。

利益沖突聲明

所有作者聲明不存在利益沖突關(guān)系。

猜你喜歡
學(xué)科資源環(huán)境
【學(xué)科新書導(dǎo)覽】
基礎(chǔ)教育資源展示
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
土木工程學(xué)科簡介
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
我給資源分分類
孕期遠(yuǎn)離容易致畸的環(huán)境
資源回收
做好綠色資源保護(hù)和開發(fā)
“超學(xué)科”來啦
康定县| 上栗县| 大英县| 达孜县| 井研县| 乌兰察布市| 偃师市| 鱼台县| 北票市| 曲阜市| 桂平市| 密云县| 河源市| 宣威市| 饶平县| 钟祥市| 广州市| 清镇市| 偃师市| 井冈山市| 尉氏县| 龙南县| 元江| 安国市| 湟源县| 达州市| 巨鹿县| 湘潭县| 霍州市| 岗巴县| 合肥市| 贺州市| 乌恰县| 郁南县| 兰坪| 多伦县| 南雄市| 天柱县| 清远市| 安福县| 车险|