朱小明
(河海大學(xué) 計算機與信息學(xué)院,江蘇 南京 211100)
河流和水庫是目前世界上最重要的淡水資源,在調(diào)整支流,農(nóng)業(yè)灌溉,工業(yè)和生活用水,全球生態(tài)平衡,防洪排水,溝通航運中具有重要的作用,是全球經(jīng)濟可持續(xù)發(fā)展與人類生存和發(fā)展的重要保證。國內(nèi)區(qū)域廣袤,河流水庫眾多,水庫數(shù)目超過100 000座[1]。但是由于前期大力發(fā)展重工業(yè),未處理過渡排放的工業(yè)廢水,以及民眾對環(huán)境保護的意識薄弱,未處理過渡排放的生活污水,導(dǎo)致水生態(tài)系統(tǒng)被嚴(yán)重破壞,河流湖泊污染嚴(yán)重,部分水域富營養(yǎng)化,浮游藻類大量繁殖,形成水華等現(xiàn)象,給國家?guī)砹司薮蟮慕?jīng)濟損失[2]。根據(jù)國家環(huán)境監(jiān)測總站數(shù)據(jù)顯示,國內(nèi)水域污染等級為IV類、V類、劣V類嚴(yán)重污染的占總水域的80%以上,其中最嚴(yán)重的事例為2007年5、6月的太湖藍藻污染事件[3],造成了巨大的經(jīng)濟損失。因此,水質(zhì)污染問題急需解決,而水質(zhì)污染監(jiān)測[4]是其中一項重要環(huán)節(jié)。
通常對水域質(zhì)量進行質(zhì)量分析評價是判斷水域污染程度的有效方法。傳統(tǒng)的水質(zhì)監(jiān)測是對水域進行污染分析監(jiān)控,國內(nèi)外學(xué)者對此進行了大量研究。例如,黃耀明等采用監(jiān)測點現(xiàn)場水體采樣、提取、分析對海港水域進行污染監(jiān)測[5];黃建清等使用基于無線傳感器網(wǎng)絡(luò)的水體數(shù)據(jù)提取進行水質(zhì)監(jiān)測[6];CF Iscen等對Uluabat湖的采樣數(shù)據(jù)進行成分分析以判定水質(zhì)[7]等。
隨著遙感衛(wèi)星領(lǐng)域的快速發(fā)展,遙感圖像在各類研究中應(yīng)用廣泛,其中不同的星載遙感圖像的光譜段不同,主要有反射紅外遙感、熱紅外遙感、微波遙感三種類型。其具有探測范圍大,收集數(shù)據(jù)速度快,圖像信息豐富,動態(tài)監(jiān)測地面信息等優(yōu)點,因此在城市規(guī)劃監(jiān)測、水庫變化監(jiān)測、災(zāi)害監(jiān)測、地面資源環(huán)境監(jiān)測等方面應(yīng)用廣泛[8]。其中X Guan等[9]采用SDT模型對Simcoe湖的TM衛(wèi)星遙感圖像進行水質(zhì)研究分析;汪小欽等[10]采用基于TM影像的波段視反射率進行研究,探討TM影像第四波段,第三波段與水體污染關(guān)聯(lián)的研究等。
而后隨著機器學(xué)習(xí)[11]的發(fā)展,國內(nèi)外學(xué)者又將機器學(xué)習(xí)帶入水質(zhì)監(jiān)測研究。例如,J Cao等提出基于DAGSVM的水質(zhì)評估方法對水質(zhì)進行監(jiān)測[12];宓云軿等[13]建立LM-BP神經(jīng)網(wǎng)絡(luò)和支持向量機模型對水質(zhì)有機污染物濃度進行監(jiān)測等。
基于上述研究,針對現(xiàn)有水質(zhì)污染監(jiān)測研究的時空局限性和監(jiān)測效果不足以及遙感衛(wèi)星使用年限等問題,提出基于高分一號WFV(wide field of view)遙感圖像對水域進行定性監(jiān)測,并引入極限學(xué)習(xí)機方法,搭建基于集成ELM模型對水域進行異常監(jiān)測。
文中研究的水域為太湖蘭山嘴地區(qū)和洪澤湖盱眙淮河大橋地區(qū)。太湖是中國第三大淡水湖,位于長三角地區(qū)南緣,橫跨江、浙兩省,北臨無錫,南瀕湖州,西依宜興,東進蘇州。太湖水域的面積為2 338 km2,流域面積為36 500 km2,水域周邊居民人數(shù)大約為3 500萬,其生產(chǎn)總值約占全國八分之一。是國內(nèi)工業(yè)最發(fā)達,城鎮(zhèn)化水平最高的地區(qū)之一。太湖水域平均深度為1.89 m,最大深度約為4.8 m,平均年出湖徑流量約為75億立方米,其中太湖的蓄水量為44億立方米。在周邊城市經(jīng)濟發(fā)展,生活用水,交通運輸中太湖具有很大的作用。但由于近年來周邊城市的工業(yè)發(fā)展過于迅速,忽略了環(huán)境污染問題,導(dǎo)致大量未經(jīng)處理的污染物流入太湖,使太湖每年都會大面積爆發(fā)春夏藍藻,嚴(yán)重影響了周邊城市的生活質(zhì)量和經(jīng)濟發(fā)展。2007年5、6月,太湖藍藻污染爆發(fā),造成無錫全城自來水污染,導(dǎo)致周邊城市生活用水嚴(yán)重短缺,造成了大量經(jīng)濟損失和環(huán)境污染。因此太湖的水污染治理受到了政府的高度重視,而水污染監(jiān)測是其中一項重要環(huán)節(jié)。
洪澤湖是中國第四大淡水湖,位于江蘇省西部淮河下游,蘇北平原中部西側(cè),處于淮安宿遷兩市境內(nèi),為淮河中下游結(jié)合部。洪澤湖水域面積大約為2 069 km2,是“南水北調(diào)”工程東線部分的組成部分,水域周邊居民人數(shù)大約為1 000萬。洪澤湖水域為過水性湖泊,水位波動不穩(wěn)定,因此水域面積的變化也比較大。洪澤湖大部分情況下蓄水位為12.5 m,水域容積大約為31億立方米。洪澤湖平均水深為1.5 m,水域容量最大時是5 m,由于地勢較高,洪澤湖湖底高度一般在10 m左右,因此洪澤湖也被稱為“懸湖”。由于近年來周邊城市發(fā)展過快,未經(jīng)處理的污水大肆排放,有研究表明,洪澤湖從2000年到2008年,其水域質(zhì)量大部分時間段都處于嚴(yán)重污染狀況。由此可見,洪澤湖水域也需要進行相應(yīng)的水質(zhì)污染監(jiān)測。
由于太湖的蘭山嘴和洪澤湖盱眙淮河大橋這兩個位置均處于太湖和洪澤湖的上游,水域的污染物大部分都從這兩處流入,造成嚴(yán)重污染,因此國家在此處設(shè)立了國家水質(zhì)自動監(jiān)測站,可以實時獲取這兩處的水質(zhì)信息。其中水域遙感圖像的數(shù)據(jù)選擇及處理在Zhu H等研究[14]的基礎(chǔ)上重新實驗及改進。
(1)太湖蘭山嘴(31.216°N,119.913°E)。本次實驗從中國資源衛(wèi)星應(yīng)用中心數(shù)據(jù)庫挑選了由高分一號衛(wèi)星(GF-1)拍下的13幅成像效果比較好的16 m分辨率的WFV遙感圖像,其中這13幅圖像為每天一幅,其成像時間為2013年到2016年。從每幅WFV圖像中選取了位于蘭山嘴附近的10*10(100)個像素點的遙感波段值,數(shù)據(jù)集總共為1 300條數(shù)據(jù),每條WFV數(shù)據(jù)由藍色、綠色、紅色、近紅外四個波段組成。同時根據(jù)蘭山嘴國家水質(zhì)自動監(jiān)測站發(fā)布的實測數(shù)據(jù),將獲取到的13幅遙感圖像根據(jù)水質(zhì)狀況分為Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類、劣Ⅴ類。根據(jù)相關(guān)規(guī)定,等級為Ⅱ類、Ⅲ類的水質(zhì)為正常水質(zhì),等級為Ⅳ類、Ⅴ類、劣Ⅴ類的水質(zhì)為污染水質(zhì),實驗測試中將正常水質(zhì)數(shù)據(jù)標(biāo)記為“+1”,共有600條數(shù)據(jù),將污染水質(zhì)數(shù)據(jù)標(biāo)記為“-1”,共有700條,如表1所示。
表1 太湖蘭山嘴WFV圖像日期與污染等級
(2)洪澤湖盱眙淮河大橋(33.030°N,118.495°E)。本次實驗從中國資源衛(wèi)星引用中心數(shù)據(jù)庫挑選了由高分一號衛(wèi)星(GF-1)拍下的15幅成像效果比較好的16 m分辨率的WFV遙感圖像,其中這15幅WFV圖像為每天一幅,其成像時間為2013年到2016年。由于水域快讀限制,實驗從每幅WFV圖像中選取了位于洪澤湖盱眙淮河大橋附近的5*10(50)個像素點的遙感波段值,數(shù)據(jù)集總共為750條數(shù)據(jù),每條WFV數(shù)據(jù)由藍色、綠色、紅色、近紅外四個波段組成。同時根據(jù)洪澤湖國家水質(zhì)自動監(jiān)測站發(fā)布的實測數(shù)據(jù),將所獲取到的15幅遙感圖像根據(jù)水質(zhì)狀況分為Ⅱ類、Ⅲ類、Ⅳ類、Ⅴ類、劣Ⅴ類。根據(jù)相關(guān)規(guī)定,等級為Ⅱ類、Ⅲ類的水質(zhì)為正常水質(zhì),等級為Ⅳ類、Ⅴ類、劣Ⅴ類的水質(zhì)為污染水質(zhì),實驗測試中將正常水質(zhì)數(shù)據(jù)標(biāo)記為“+1”,共有500條數(shù)據(jù),將污染水質(zhì)數(shù)據(jù)標(biāo)記為“-1”,共有250條,如表2所示。
表2 洪澤湖盱眙淮河大橋WFV圖像日期與污染等級
文中圖像數(shù)據(jù)是從中國資源衛(wèi)星應(yīng)用中心獲取,是由高分一號(GF-1)所拍攝,但由于所拍攝圖片干擾輻射較多,所以需要先進行以下矯正:
(1)輻射定標(biāo)。校正傳感器本身的誤差,使用ENVI5.1軟件的Radiometric Calibration工具對光譜圖像進行相應(yīng)的輻射定標(biāo)。
(2)大氣校正。校正大氣散射引起的誤差,使用ENVI5.1軟件的FLAASH模型工具對光譜圖像進行相應(yīng)的大氣校正。
(3)正射校正。校正圖像中的地形影響,使用ENVI5.1軟件的RPC Orthorectification工具進行相應(yīng)地正射校正。
極限學(xué)習(xí)機(extreme learning machine,ELM)是一種單隱層神經(jīng)網(wǎng)絡(luò)算法[15],廣泛應(yīng)用于回歸與分類領(lǐng)域[16],其相比于其他單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFNs)具有學(xué)習(xí)速度快,不會陷入局部最優(yōu)且泛化性能好的優(yōu)點。
極限學(xué)習(xí)機的原理是在學(xué)習(xí)過程中網(wǎng)絡(luò)隨機初始化生成輸入權(quán)值和偏置值,只需設(shè)置網(wǎng)絡(luò)的隱層節(jié)點個數(shù),求解最優(yōu)輸出矩陣,使得誤差最小。ELM網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 ELM網(wǎng)絡(luò)結(jié)構(gòu)
假設(shè)有N個任意樣本(Xj,tj),那么對于圖1中含有L個隱層節(jié)點的ELM網(wǎng)絡(luò)可以表示為:
(1)
其中,g(x)為激活函數(shù);Wi為輸入層與隱含層權(quán)值;bi為輸入層與隱含層偏置;βi為隱含層與輸出層的連接權(quán)值。
該網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)是讓網(wǎng)絡(luò)的輸出與樣本誤差最小,表示如下:
(2)
由此可推出,存在βi,Wi,bi,使得:
(3)
使用矩陣表示為:
Hβ=T
(4)
其中,H為該網(wǎng)絡(luò)隱層節(jié)點的輸出;β為隱含層與輸出層的連接權(quán)值;T為樣本期望輸出。
H=
(5)
由此可知,當(dāng)激活函數(shù)可微時,由于之前隨機的輸入權(quán)重和偏置固定,可以推出解為:
β=H+T
(6)
其中,H+為H矩陣的廣義逆(Moore-Penrose)。
由于單個ELM模型的穩(wěn)定性可能存在不足,故文中選擇N個ELM模型對訓(xùn)練樣本進行訓(xùn)練,最后利用極限學(xué)習(xí)機集成方式對所有數(shù)據(jù)進行預(yù)報,以獲得較高的預(yù)報精確度和穩(wěn)定性。
基于ELM集成的水域質(zhì)量監(jiān)測方法的步驟為:
Step1:根據(jù)訓(xùn)練樣本訓(xùn)練N個極限學(xué)習(xí)機;
Step2:使用訓(xùn)練好的N個極限學(xué)習(xí)機對訓(xùn)練樣本進行預(yù)測,根據(jù)N個ELM模型預(yù)測下的正確率,選取并記錄前k個模型的正確率αi(i=1,2,…,k);
Step3:使用挑出的前k個模型對測試樣本進行預(yù)測,記錄結(jié)果為Qi(i=1,2,…,k);
Step4:采用加權(quán)平均法對k個極限學(xué)習(xí)機進行集成,根據(jù)Step2的正確率αi確定模型的權(quán)值Wi,正確率αi越高,權(quán)值Wi越大,公式如下:
(7)
Step5:根據(jù)Step3的預(yù)測結(jié)果Qi和Step4的權(quán)值Wi,計算得到最終的預(yù)測結(jié)果Q。
(8)
實驗流程如圖2所示。
圖2 實驗流程
文中使用集成極限學(xué)習(xí)機搭建模型分別對太湖蘭山嘴和洪澤湖盱眙淮河大橋進行實驗,模型中N取值為15,每條數(shù)據(jù)預(yù)測出的結(jié)果如果大于0則為1,小于0則為-1。
實驗一:從高分一號所獲得的WFV圖像數(shù)據(jù)中,分別將兩個地點的總數(shù)據(jù)集中隨機分為4等份,搭建ELM模型,使用k-折交叉驗證,k=4,得出實驗預(yù)測像素點污染準(zhǔn)確率,結(jié)果如表3所示。
表3 實驗一分類準(zhǔn)確率 %
實驗二:將高分一號所獲得的太湖蘭山嘴WFV數(shù)據(jù),按天分為13等份,每天一幅WFV圖像,搭建ELM模型,使用k-折交叉驗證,k=13,得出實驗預(yù)測準(zhǔn)確率。將高分一號所獲得的洪澤湖盱眙淮河大橋WFV數(shù)據(jù),按天分為15等份,每天一幅WFV圖像,搭建ELM模型,使用k-折交叉驗證,k=15。其中每幅圖像中重度污染的像素點數(shù)大于60%,則該圖像所在區(qū)域當(dāng)日為重度污染,反之則為正常水質(zhì)。實驗結(jié)果如表4所示。
表4 實驗二分類準(zhǔn)確率 %
從表3可以看出,水質(zhì)污染與水質(zhì)的遙感光譜圖像具有一定的相關(guān)性,而集成極限學(xué)習(xí)機模型可以很好地通過該水質(zhì)的光譜數(shù)據(jù)對水質(zhì)污染程度進行區(qū)分;從表4可以看出,集成ELM對水質(zhì)的預(yù)測效果比較好,而其中洪澤湖盱眙淮河大橋比太湖蘭山嘴的準(zhǔn)確率低,其原因可能是淮河大橋那邊的水體由于在城鎮(zhèn)附近,干擾物比較多,總體來說實驗準(zhǔn)確率比較高。
文中提出了一種結(jié)合高分一號光譜圖像和機器學(xué)習(xí)極限學(xué)習(xí)機模型對水質(zhì)進行監(jiān)測的新方法,采用該方法對太湖蘭山嘴和洪澤湖盱眙淮河大橋進行實驗監(jiān)測。結(jié)果表明,該方法能夠定性地判別一個地區(qū)當(dāng)日是否嚴(yán)重污染,在訓(xùn)練樣本相同的情況下,該模型與使用單個極限學(xué)習(xí)機判別預(yù)測相比,具有更好的準(zhǔn)確率和穩(wěn)定性,與其他機器學(xué)習(xí)模型如SVM模型相比具有更好的速度和泛化性,與傳統(tǒng)模型相比具有更好的即時性和操作簡便性。因此,該方法可以有效地對水質(zhì)進行污染監(jiān)測,具有一定的參考價值。