□ 王強 錢文杰 王新洲 張玲玲 張浩 祖啟航
隨著物聯(lián)網(wǎng)、云計算、人工智能等新技術(shù)在各個領(lǐng)域的不斷應用,數(shù)據(jù)正在以前所未有的速度累積,大數(shù)據(jù)時代已經(jīng)來臨。
2015年,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,將大數(shù)據(jù)應用上升到國家戰(zhàn)略。伴隨著大數(shù)據(jù)技術(shù)的發(fā)展及其在各領(lǐng)域的廣泛應用,生態(tài)環(huán)境部門也高度關(guān)注大數(shù)據(jù)技術(shù)在生態(tài)環(huán)保領(lǐng)域發(fā)揮的重要作用。2016年,原環(huán)境保護部出臺《生態(tài)環(huán)境大數(shù)據(jù)建設總體方案》,深度推進環(huán)保大數(shù)據(jù)的建設和應用研究。
但是,如果僅僅利用環(huán)保部門的環(huán)境監(jiān)測系統(tǒng),還不能夠?qū)崿F(xiàn)全區(qū)域、全過程的環(huán)境綜合判定。與此同時,很多其他類別的政務系統(tǒng),也收集了大量的關(guān)聯(lián)環(huán)境數(shù)據(jù),這些數(shù)據(jù)的分析評價對環(huán)境執(zhí)法也有積極作用。因此,有必要對區(qū)域“天地空一體”的環(huán)境數(shù)據(jù)進行采集分析,編制一個龐大的綜合監(jiān)測網(wǎng),來更好地為生態(tài)環(huán)境管理服務。
大數(shù)據(jù)的概念早在2008年就引起了討論。全球頂級學術(shù)期刊《Nature》在其??型瞥鯞ig Data,吸引了隨后越來越多的學者開始關(guān)注和研究大數(shù)據(jù)。隨后Agrawal等美國研究人員發(fā)表了關(guān)于大數(shù)據(jù)面臨的機遇和挑戰(zhàn)的白皮書,詳細闡述了數(shù)據(jù)的經(jīng)濟價值,未來在各領(lǐng)域中的發(fā)展機遇,以及可能面臨的技術(shù)瓶頸。進一步被人們廣泛接受的概念,是由全球知名管理咨詢公司McKinsey在2011年發(fā)布的一份關(guān)于大數(shù)據(jù)的詳細報告。報告提出,“大數(shù)據(jù)”是指規(guī)模超出典型數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。這個定義帶有主觀性,數(shù)據(jù)集需要有多大才能被稱為大數(shù)據(jù),定義中并沒有明確。當前,普遍認為大數(shù)據(jù)區(qū)別傳統(tǒng)數(shù)據(jù)的顯著體征有4個方面:數(shù)據(jù)規(guī)模大(volume)、種類多(variety)、速度快(velocity)和價值高(value),即4V定義。
生態(tài)環(huán)境大數(shù)據(jù)具有以上大數(shù)據(jù)的所有特點,是在生態(tài)環(huán)境領(lǐng)域進一步深入推進“互聯(lián)網(wǎng)+”概念的實踐應用。常杪等學者對環(huán)境大數(shù)據(jù)概念進行了界定,即把大數(shù)據(jù)的核心理念和關(guān)鍵技術(shù)應用到環(huán)境領(lǐng)域,對海量環(huán)境數(shù)據(jù)進行采集、整合、存儲、分析與應用等。
在環(huán)境執(zhí)法工作中,各有關(guān)業(yè)務系統(tǒng)收集了大量數(shù)據(jù)。這些監(jiān)測數(shù)據(jù)不僅有傳統(tǒng)數(shù)據(jù)庫能夠解析的結(jié)構(gòu)化數(shù)據(jù),還包含大量的非結(jié)構(gòu)化數(shù)據(jù),例如圖片、文字、聲音、視頻等。面對大量復雜的數(shù)據(jù)結(jié)構(gòu),傳統(tǒng)的關(guān)系型數(shù)據(jù)已經(jīng)無法滿足監(jiān)管服務需求。應用大數(shù)據(jù)技術(shù),可以存儲、分析各種結(jié)構(gòu)數(shù)據(jù),實現(xiàn)跨系統(tǒng)的數(shù)據(jù)分析。同時,大數(shù)據(jù)速度快的特點可以滿足實時數(shù)據(jù)流的高速處理,能夠及時做到信息收集、預警、反饋,實時將污染情況傳達到執(zhí)法監(jiān)管部門,滿足環(huán)境執(zhí)法必須對數(shù)據(jù)做出快速研判的需求。
大數(shù)據(jù)的分析能力將提升環(huán)境執(zhí)法科學水平。大數(shù)據(jù)的“大”不僅體現(xiàn)在存儲量大,還體現(xiàn)在涉及的數(shù)據(jù)面“大”。大數(shù)據(jù)技術(shù)可以采用專業(yè)分析手段,收集并綜合研判各種環(huán)境關(guān)聯(lián)數(shù)據(jù),將其轉(zhuǎn)換為直觀的行動表達含義,為執(zhí)法監(jiān)管人員提供更加科學的決策參考。
當前,除了生態(tài)環(huán)境部門會實時采集企業(yè)排污情況數(shù)據(jù),工商、國土、水務、供電、統(tǒng)計、財政、信訪稅務等多個部門的政務系統(tǒng)也收集了大量的排污企業(yè)關(guān)聯(lián)數(shù)據(jù)。但是由于信息保密和網(wǎng)絡環(huán)境安全等因素,各政務系統(tǒng)自成體系,信息數(shù)據(jù)標準大多不統(tǒng)一,數(shù)據(jù)很難對接,無法及時共享,給大數(shù)據(jù)應用實踐帶來了諸多困難。
很多城市構(gòu)建的環(huán)保大數(shù)據(jù)執(zhí)法監(jiān)控系統(tǒng),更多的是單純將數(shù)據(jù)采集后集中展示。這些系統(tǒng)僅僅利用限值對比判斷是否存在排污異常,并沒有深度挖掘數(shù)據(jù)背后的關(guān)聯(lián)關(guān)系,很難分析出企業(yè)存在的排污風險,也不能精確分析企業(yè)環(huán)境行為以及排污數(shù)據(jù)造假違法情況。這其實是浪費了數(shù)據(jù)資源,降低了數(shù)據(jù)的應用價值,沒有充分發(fā)揮出大數(shù)據(jù)技術(shù)的分析優(yōu)勢。
Ruffino Chianti Classico Riserva-Ducale Oro DOCG (with gift box)
在線監(jiān)測數(shù)據(jù)大屏
環(huán)保大數(shù)據(jù)可以分為五類,包括地面監(jiān)測數(shù)據(jù)、衛(wèi)星遙感監(jiān)測數(shù)據(jù)、地理信息數(shù)據(jù)、社會統(tǒng)計數(shù)據(jù)及其他數(shù)據(jù)。衛(wèi)星遙感數(shù)據(jù)主要來源于衛(wèi)星遙感數(shù)據(jù)和航空遙感數(shù)據(jù),包括地形、植被覆蓋、水文、氣象等;地理信息數(shù)據(jù)來源于戶外采集、地圖數(shù)字化、攝影測量等;社會統(tǒng)計數(shù)據(jù)包括人口、經(jīng)濟等來源于統(tǒng)計部門的數(shù)據(jù);互聯(lián)網(wǎng)數(shù)據(jù)來源于網(wǎng)絡上與環(huán)境有關(guān)的文字、圖片、視頻等。
生態(tài)環(huán)保監(jiān)測數(shù)據(jù)可以通過地面網(wǎng)絡監(jiān)測、衛(wèi)星遙感影像、無人機監(jiān)測等手段獲取。
地面監(jiān)測數(shù)據(jù)。地面監(jiān)測數(shù)據(jù)主要來源于各地生態(tài)環(huán)境部門構(gòu)建的監(jiān)測系統(tǒng),包括來自生態(tài)環(huán)境監(jiān)測部門和非生態(tài)環(huán)境監(jiān)測部門的數(shù)據(jù)。生態(tài)環(huán)境部門收集的主要包括廢水污染源、廢氣污染源、固體廢物、監(jiān)察執(zhí)法、環(huán)境處罰、排污許可、排污標準、設備運維等數(shù)據(jù),這些大多以結(jié)構(gòu)化數(shù)據(jù)形式存在。非生態(tài)環(huán)境監(jiān)測部門的數(shù)據(jù),主要包含工商信息、能耗、用水量、用電量、信用等級、信訪投訴、輿情分析、納稅金額等,這其中包含了大量非結(jié)構(gòu)化數(shù)據(jù)。
遙感監(jiān)測數(shù)據(jù)。遙感技術(shù)因其具有觀測范圍廣、信息量大、精度高、實時性和動態(tài)性強等特點,已成為生態(tài)環(huán)境監(jiān)測的重要手段。遙感監(jiān)測技術(shù)通過不同傳感器從空中對農(nóng)業(yè)、林業(yè)、地理、地質(zhì)、海洋、水文、氣象、資源勘探、土地管理、沙漠、礦區(qū)等不同領(lǐng)域情況進行監(jiān)測。遙感監(jiān)測不僅可以檢測水體的葉綠素含量、泥沙含量、水溫、水色,檢測大氣的氣溫、濕度,CO、NOX、CO2、O3、CH4等主要污染物濃度分布,還可以從全局角度獲取全天時、全天候、全方位的空間遙感影像。
無人機監(jiān)測數(shù)據(jù)。無人機監(jiān)測作為繼傳統(tǒng)航空、航天遙感之后的第三代遙感技術(shù),可快速獲取地理、資源、環(huán)境等空間遙感信息,完成數(shù)據(jù)的采集、處理和應用分析,同時具有機動、經(jīng)濟、安全等優(yōu)點。無人機通過搭載的各種監(jiān)測設備,如航拍圖像傳感器、機載環(huán)境監(jiān)測傳感器、電化學傳感器、光離子化傳感器、數(shù)字相機、光譜成像儀、紅外掃描儀等,可以獲取區(qū)域內(nèi)圖片數(shù)據(jù)、光譜數(shù)據(jù)、紅外數(shù)據(jù)以及重點監(jiān)測的各種污染物濃度數(shù)據(jù)。通過信道綜合技術(shù)、壓縮和解壓縮技術(shù),將數(shù)據(jù)實時安全地傳輸?shù)降孛姹O(jiān)控站。由于受飛行姿態(tài)穩(wěn)定性,以及氣象、區(qū)域的特殊性等因素影響,獲取的圖像數(shù)據(jù)往往具有旋轉(zhuǎn)變形大、幅寬小、數(shù)量多、重疊不規(guī)則等特點,因此需利用影像拼接技術(shù),結(jié)合多種處理辦法,將多形式圖片完成拼接,這樣才可得到區(qū)域內(nèi)全景影像數(shù)據(jù)。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)挖掘效果的重要保證。由于各業(yè)務系統(tǒng)不夠健全、數(shù)據(jù)管理工作人員的業(yè)務水平等因素,信息采集時不可避免地存在一些不規(guī)范行為,導致存在一些缺失值、空值、錯誤值、噪聲等“垃圾”數(shù)據(jù)。這些“垃圾”數(shù)據(jù)的存在,對大數(shù)據(jù)分析結(jié)果會產(chǎn)生重要影響,必須及時進行清洗。數(shù)據(jù)清洗的目的是剔除或改正監(jiān)測數(shù)據(jù)中存在的錯誤和不一致,提高數(shù)據(jù)質(zhì)量。目前已經(jīng)研究出很多數(shù)據(jù)清洗的方法,常見的有刪除法、插補法、極大似然估計、回歸、均值平滑、離群點分析、小波法等。
由于數(shù)據(jù)量增長、數(shù)據(jù)類型繁多、結(jié)構(gòu)復雜的特點,傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)不能滿足數(shù)據(jù)存儲和處理對速度的要求。比較常用的大數(shù)據(jù)存儲系統(tǒng)有Hadoop平臺和云存儲平臺。這種大數(shù)據(jù)存儲系統(tǒng)相對于傳統(tǒng)數(shù)據(jù)庫而言,處理數(shù)據(jù)量大,擴展性強,容錯性好,可靠性高,便于進行數(shù)據(jù)分析。對于環(huán)保數(shù)據(jù)來說,存儲的數(shù)據(jù)按照生命周期配置為歷史歸檔數(shù)據(jù)和當前使用數(shù)據(jù),提供查詢接口并對外開放。
隨著大數(shù)據(jù)的不斷深入發(fā)展,各大互聯(lián)網(wǎng)公司推出了不同的大數(shù)據(jù)計算模式和系統(tǒng),進一步加強了對數(shù)據(jù)分析能力的研究,如機器學習、人工智能、圖像識別、自然語言識別、文本挖掘、可視化分析、人機交互等分析技術(shù)。生態(tài)環(huán)境相關(guān)部門借助這些平臺系統(tǒng)逐步將大數(shù)據(jù)分析技術(shù)應用到了環(huán)境執(zhí)法輔助中。
地面監(jiān)測系統(tǒng)通過在采集點安裝傳感器,利用在線監(jiān)測系統(tǒng)來實時監(jiān)控環(huán)境狀況,采集到的數(shù)據(jù)多以結(jié)構(gòu)化數(shù)據(jù)形式存在。因此,可以利用大數(shù)據(jù)間的數(shù)理統(tǒng)計關(guān)系,多因子分析技術(shù),挖掘這些數(shù)據(jù)的潛在價值,這也是大數(shù)據(jù)技術(shù)優(yōu)于傳統(tǒng)統(tǒng)計學分析的一個方面?;跉v史數(shù)據(jù)和實時流數(shù)據(jù),通??梢圆捎没貧w分析、聚類分析、相關(guān)性分析以及分類算法等多種手段。這些技術(shù)手段不僅可以分析污染物濃度隨時間變化趨勢,而且還可以深度挖掘關(guān)聯(lián)數(shù)據(jù)對污染濃度的影響情況,找出同類型污染物之間是否有離群等異常數(shù)據(jù),為挖掘監(jiān)測數(shù)據(jù)的更多價值提供技術(shù)支持。
要對生態(tài)環(huán)境監(jiān)測中采集到的各種圖像進行準確判斷,僅靠人工識別是不可能完成的,可以利用大數(shù)據(jù)的圖像識別技術(shù)進行智能篩選。智能圖像識別技術(shù)作為人工智能中的一個重要研究領(lǐng)域,為各類圖像的有效識別提供了可靠的方法。這項技術(shù)應用在生活的各個方面,常見的有人臉識別、汽車牌照識別、機器視覺等。與在其他領(lǐng)域應用類似,圖像識別在生態(tài)環(huán)境監(jiān)測中的應用,本質(zhì)上還是對圖像的判定識別,分析過程一般包括預處理、邊緣提取、區(qū)域分割和目標定位,其中算法研究是這一技術(shù)的核心,也是能否正確識別圖像的關(guān)鍵所在。
當前,圖像識別在水環(huán)境執(zhí)法輔助中得到了長足發(fā)展。金江波等學者利用水位自動拍照,通過采用水位圖像,并對圖像智能識別為水位值,根據(jù)水位-流量關(guān)系來推算水量,研制開發(fā)了水位監(jiān)測圖像智能識別系統(tǒng);曹生現(xiàn)等學者根據(jù)納氏試劑分光光度法和圖像比色分析法,利用攝像采集的氨氮溶液圖像,分析圖像數(shù)據(jù)后確定測量氨氮的最優(yōu)條件,再利用氨氮溶液濃度與選定的圖像顏色特征值成正比的線性關(guān)系,最終來確定氨氮的濃度。
同樣,圖像識別在環(huán)境空氣執(zhí)法輔助中也得到了具體應用。學者張曉春采用CCD黑白攝像頭和圖像采集卡等部件在煙氣排放點拍攝采集圖像數(shù)據(jù),以此來監(jiān)測煙氣的排放情況。首先采集符合標準的煙氣圖片,通過圖像處理技術(shù)后將此圖片作為檢測識別參考圖像,然后將后續(xù)拍攝的圖像與參考圖像進行對比識別,從而判斷某個時間段的煙氣排放是否有異常。范相閣等學者采用HSI模型圖像識別,將視覺主觀感覺對顏色地描述與空氣監(jiān)測結(jié)果進行相關(guān)分析,較好地解決了人的直觀感受與空氣監(jiān)測差異,將數(shù)據(jù)監(jiān)測與視覺統(tǒng)一起來。
視頻流分析
圖像識別應用
無人機拍攝
利用視頻監(jiān)控系統(tǒng)對環(huán)境進行現(xiàn)場查看,能夠直觀發(fā)現(xiàn)環(huán)境污染狀況。這種做法區(qū)別于單張圖像的間斷性判斷,可以做到連續(xù)實時查看,同時也避免了傳感器采集數(shù)據(jù)傳輸時可能存在的系統(tǒng)錯報。通常的做法是,從視頻監(jiān)測大數(shù)據(jù)平臺讀取視頻流數(shù)據(jù),按照應用需求進行實時智能分析和監(jiān)測,對分析監(jiān)測出來的視頻內(nèi)容的異常情況進行預警。為了能在大規(guī)模的視頻數(shù)據(jù)中分析環(huán)境狀況,往往希望可以做到精確提取查看,所以,視頻的檢索技術(shù)尤為重要。視頻檢索技術(shù)可以對視頻數(shù)據(jù)進行處理、分析和理解,通過建立結(jié)構(gòu)和索引,對大規(guī)模視頻數(shù)據(jù)進行檢索,而且可以利用視頻內(nèi)容和關(guān)聯(lián)內(nèi)容進行鏡頭檢測(視頻結(jié)構(gòu)分析、視頻自動索引)和視頻聚類等。在視頻檢索技術(shù)的研究方面,主要進行視頻鏡頭分割、特征提取和描述。
劉毅等學者將視頻監(jiān)控與污染監(jiān)控數(shù)據(jù)進行疊加,研制了環(huán)境質(zhì)量監(jiān)測的“全球眼”網(wǎng)絡視頻監(jiān)控系統(tǒng)。這套系統(tǒng)實現(xiàn)了視頻圖像與監(jiān)測的同屏顯示,能夠直接定位排污企業(yè)的視頻圖像,為生態(tài)環(huán)境工作人員后續(xù)執(zhí)法提供依據(jù)。學者蔣鵬基于無線傳感器與視頻監(jiān)測系統(tǒng),對濕地水環(huán)境進行了監(jiān)測。他利用安裝在濕地小水域的傳感器節(jié)點和水源入口、水體出口等重點區(qū)域的數(shù)據(jù)視頻基站,采集水環(huán)境參數(shù)和視頻數(shù)據(jù),通過監(jiān)測中心的處理分析,實現(xiàn)了對濕地全天候的實時監(jiān)測。
遙感大數(shù)據(jù)的價值不僅在其海量,還在于其涉及面“全”。遙感數(shù)據(jù)是對地表的多粒度、多時相、多方位和多層次的全面反映,可以深度分析隱藏在遙感大數(shù)據(jù)背后的各種知識,如地學知識、社會知識、人文知識等。通過遙感大數(shù)據(jù)對區(qū)域環(huán)境進行監(jiān)測,不僅從空間上提升了高度,而且從視角上提升了廣度。一般地,遙感大數(shù)據(jù)的應用分為“遙感大數(shù)據(jù)自動分析”和“遙感大數(shù)據(jù)挖掘”兩個過程。其中,遙感大數(shù)據(jù)的自動分析主要包括數(shù)據(jù)的表達、檢索和理解,是進行遙感大數(shù)據(jù)挖掘、實現(xiàn)向知識轉(zhuǎn)化的前提。遙感大數(shù)據(jù)挖掘是將數(shù)據(jù)表象轉(zhuǎn)為知識的過程,是對“大數(shù)據(jù)、小知識”現(xiàn)象的破解,從看似無異常的數(shù)據(jù)中發(fā)現(xiàn)地表的變化規(guī)律,并探索出自然和社會的變化趨勢,發(fā)現(xiàn)區(qū)域內(nèi)環(huán)境變化情況。將遙感和云計算相結(jié)合,出現(xiàn)了遙感云技術(shù)。遙感云是將各種遙感信息資源進行整合,建立基于遙感云服務的新型業(yè)務應用與服務模式,提供面向公眾的遙感資源一體化的地球空間服務。遙感云技術(shù)的長足發(fā)展,為遙感大數(shù)據(jù)在環(huán)境監(jiān)測中的應用提供了安全保障。
我國于2008年9月發(fā)射了首顆專門用于環(huán)境與災害監(jiān)測地新型衛(wèi)星——“環(huán)境一號”,前期由兩顆光學小衛(wèi)星HJ-1A和HJ-1B組成,又于2012年11月將一顆合成孔徑雷達小衛(wèi)星HJ-1C發(fā)射成功,至此,“環(huán)境一號”組網(wǎng)完成。這顆衛(wèi)星對區(qū)域環(huán)境空氣質(zhì)量監(jiān)測、大型水體環(huán)境質(zhì)量監(jiān)測和宏觀生態(tài)環(huán)境監(jiān)測起到了重要作用。隨后,我國開展了高分專項工程建設,先后發(fā)射了高分一號、二號、四號衛(wèi)星,實現(xiàn)了亞米級高空間分辨率與高時間分辨率的有機結(jié)合。2018年5月發(fā)射升空的高分五號是高分專項的重要組成部分,是我國實現(xiàn)高光譜分辨率對地觀測能力的重要標志,將滿足環(huán)境綜合監(jiān)測等方面的迫切需求。高分五號衛(wèi)星正式交付對動態(tài)監(jiān)測大氣氣溶膠、細顆粒物、二氧化氮、二氧化硫、臭氧等污染狀況,對打贏藍天保衛(wèi)戰(zhàn)具有重要意義。同時,這顆衛(wèi)星還可以監(jiān)測水環(huán)境、土壤環(huán)境和生態(tài)環(huán)境,為打好污染防治攻堅戰(zhàn)提供了有力支撐。
所有監(jiān)測的最終目標都是幫助監(jiān)測執(zhí)法人員看到分析結(jié)果,而大數(shù)據(jù)技術(shù)的應用,就是要解決人工無法從大量數(shù)據(jù)中精準識別的困難??梢暬夹g(shù)和人機交互是目前大數(shù)據(jù)平臺中最常用的解釋方法。可視化分析是一種通過交互可視化界面來輔助用戶對大規(guī)模復雜數(shù)據(jù)集進行分析推理的科學技術(shù)。一幅圖勝過千言萬語,通過可視化分析技術(shù),執(zhí)法工作人員可以迅速有效地篩選出環(huán)境污染數(shù)據(jù)流,直接判斷分析出污染情況。人機交互是人與系統(tǒng)之間通過某種對話語言,在一定的交互方式和技術(shù)支持下的信息交互過程。人機交互可以讓執(zhí)法工作人員在一定程度上了解和參與具體的數(shù)據(jù)分析過程,利用交互式的數(shù)據(jù)分析過程來引導執(zhí)法人員逐步分析,不斷了解分析結(jié)果的由來,使得到的結(jié)果能夠更好地被理解和表達。
大數(shù)據(jù)技術(shù)在生態(tài)環(huán)境領(lǐng)域的應用,將發(fā)揮傳統(tǒng)計算機技術(shù)不能完成的監(jiān)管任務。利用大數(shù)據(jù)技術(shù)對生態(tài)環(huán)境進行監(jiān)測監(jiān)管,從多角度對區(qū)域環(huán)境形成綜合評判,將有助于深度發(fā)現(xiàn)可能存在的環(huán)境風險。現(xiàn)在需要的是,打破不同系統(tǒng)之間的壁壘,消除數(shù)據(jù)保護主義,形成統(tǒng)一的信息交換平臺,實現(xiàn)數(shù)據(jù)相互流通。同時,要加強對環(huán)境監(jiān)測人員的培養(yǎng),提高他們的數(shù)據(jù)敏感性和數(shù)據(jù)分析能力。只有這樣,才能將大數(shù)據(jù)應用真正落地,充分發(fā)揮大數(shù)據(jù)技術(shù)在環(huán)境執(zhí)法輔助中的作用。