劉振宇,孫偉富,陳 磊
(1.中南民族大學 資源與環(huán)境學院,湖北 武漢 430074;2.自然資源部第一海洋研究所 海洋物理與遙感研究室,山東 青島 266061;3.中國科學院海洋研究所,山東 青島 266071;4.中國石油大學(華東),山東 青島 266580;5.中國科學院海洋大科學研究中心,山東 青島 266071)
海表面鹽度(Sea Surface Salinity,SSS)是表征河口沖淡水輸入的關鍵指標,影響著海水密度、環(huán)流模式和物理過程[1-3]。海表面鹽度的短期變化,會迅速改變海洋生物化學反應,進而影響海洋生態(tài)系統(tǒng)[4-5];而其長期變化則往往與氣候變化存在關聯(lián)[6-7]。因而,獲取海表面鹽度對海洋物理、生態(tài)環(huán)境以及大陸氣候變化研究具有重要意義。
近年來,海表面鹽度遙感技術因其廣泛的空間覆蓋和實時觀測的優(yōu)勢,常用于替代現(xiàn)場觀測。其中,微波輻射計SMOS(Soil Moisture and Ocean Salinity),Aquarius/SACD 和 SMAP(Soil Moisture Active Passive)被廣泛用于獲取全球開闊大洋的表面鹽度[8-9]。然而,這些微波鹽度衛(wèi)星往往具備較低的空間分辨率(25~100 km)和時間分辨率(≥3 d)[10-11],加之L 波段微波輻射計受近岸射頻(Radio Frequency Interference,RFI)干擾[12],無法提供渤海等近岸水體的海表面鹽度數(shù)據(jù)。
近岸海域的有色溶解有機物(Coloured Dissolved Organic Material,CDOM)主要來源于陸地輸入,因而它與海表面鹽度通常存在線性負相關關系[5,13-15]。而CDOM 是光學遙感的可獲取主要參數(shù)之一,因而光學遙感可獲取存在這種負相關的近岸水體的海表面鹽度。多波段組合線性回歸,常被用于建立MERIS、MODIS、GOCI 等傳感器的遙感反射率與海表面鹽度之間的經(jīng)驗模型,以獲取中國近海的海表面鹽度[3,5,16-18]。近期研究發(fā)現(xiàn),通過機器學習和神經(jīng)網(wǎng)絡建立模型,能夠提高的鹽度反演模型的精度[18-21]。
鑒于機器學習和神經(jīng)網(wǎng)絡在海表面鹽度反演建模方面的優(yōu)勢,基于多層人工神經(jīng)網(wǎng)絡,本文建立MODIS-Aqua 二級產(chǎn)品提供的渤海遙感反射率與海表面鹽度的經(jīng)驗模型,并評估模型精度。在此基礎上研究渤海海表面鹽度的時空變化。
渤海(北緯 37°07′~41°01′,東經(jīng) 117°35′~121°10′)是中國的一個半封閉內(nèi)海,面積約7.7×104 km2,平均水深18 m。它通過渤海海峽與黃海相連,主要由北部的遼東灣、南部的萊州灣、西部的渤海灣、中部的淺盆地和東部的渤海海峽組成,如圖1所示。流入中國渤海的河流主要包括:黃河、海河、灤河和遼河,其中黃河徑流量最大,約占總徑流量的75%,導致渤海鹽度的季節(jié)性變化[5]。
圖1 研究區(qū)域和采樣點分布Fig.1 Distribution of study area and sampling sites
共收集整理409 組由CTD(measuring conductivity,temperature,depth-based pressure)測量的海表面鹽度數(shù)據(jù),這些鹽度數(shù)據(jù)分別采集自2007年1-9月、2009年5-10月以及2015年5月。根據(jù)《中國海洋調(diào)查規(guī)范》(GB/T 12763.3—2007),水深0.5 m 處CTD 測量鹽度視作采樣點的海表面鹽度。采集樣本的鹽度直方圖見圖2(a),范圍為26.64~33.03 psu,均值為30.98±0.86 psu,最低鹽度的采樣點位于黃河口附近,最高鹽度則位于渤海灣。
圖2 實測409 組鹽度數(shù)據(jù)的直方圖和匹配的MODIS-Aqua 遙感反射率Fig.2 Histogram of measured 409 sets of salinity data and matched MODIS-Aqua remotely sensed reflectance
MODIS-Aqua(以下簡稱 MODISA)衛(wèi)星于2002年5月發(fā)射進入太陽同步軌道,自2002年6月運行至今,每隔1~2 d 覆蓋地球表面。MODIS上設置了36 個波段,光譜范圍400~1 440 nm,空間分辨率為0.25 km、0.5 km、1 km。NASA 提供的MODISA 二級產(chǎn)品(http://ladsweb.nascom.nasa.gov/data),包含空間分辨率為1 km 的412 nm、443 nm、469 nm、488 nm、531 nm、547 nm、555 nm、645 nm、667 nm、678 nm 等10 個波段的遙感反射率,鑒于667 nm 和678 nm 的大氣校正精度相對較低,使用前8 個波段的遙感反射率。去除云和處理精度較低的像素(flags=4,5,6,9,10,15,20,21,23,30,http://oceancolor.gsfc.nasa.gov/ VALIDATION/flags.html);然后獲取與實測數(shù)據(jù)時間相差不超過48 h[7]、空間位置匹配的MODIS 像素;以該像素為中心,統(tǒng)統(tǒng)計3×3 窗口平均,如果窗口內(nèi)有效值超過5個,將窗口平均值作為實測數(shù)據(jù)的匹配結果,最終匹配得到164 組遙感反射率,見圖2(b)。
1.3.1 渤海海表面鹽度反演模型
由于遙感反射率與海表面鹽度之間不存在直接關聯(lián),而是通過CDOM 建立起間接的關聯(lián),因而很難找到穩(wěn)定的敏感于海表面鹽度變化的特征波段和波段組合。因此,多波段線性回歸模型是常用于反演渤海海表面鹽度,針對MODIS 數(shù)據(jù)QING等[3]發(fā)展的模型主要使用3 個水色波段490 nm、560 nm、665 nm:
公式(1)中給出的波段組合還被擴展到GOCI數(shù)據(jù)[5,17]以發(fā)展渤海海表面鹽度反演模型。YU等[16]認為MODIS 數(shù)據(jù)531 nm 和555 nm 波段遙感反射率比值是反演渤海CDOM 的特征波段,因而可用于獲取渤海海表面鹽度:
1.3.2 多層神經(jīng)網(wǎng)絡
多層神經(jīng)網(wǎng)絡(以下簡稱“神經(jīng)網(wǎng)絡”)是一種前饋式人工神經(jīng)網(wǎng)絡模型,用于模式分類、識別、預測和函數(shù)逼近。研究表明,具有一個或多個隱藏層和非線性激活函數(shù)的神經(jīng)網(wǎng)絡可以逼近非線性函數(shù)[22-23]。因而它適合用于建立存在間接關聯(lián)的遙感反射率與海表面鹽度之間的經(jīng)驗模型。對于神經(jīng)網(wǎng)絡建模而言,核心問題是選擇最優(yōu)的隱層數(shù)和神經(jīng)元數(shù)。這通常受很多因素的影響,如輸入和輸出層的大小、訓練樣本的數(shù)量、待逼近函數(shù)的復雜性、激活函數(shù)的類型以及訓練算法等等。鑒于遙感反射率與海表面鹽度之間的間接關聯(lián),使用1~2 個隱層配置的神經(jīng)網(wǎng)絡。
使用MATLAB 提供的神經(jīng)網(wǎng)絡工具箱,隨機選70%的數(shù)據(jù)作為訓練數(shù)據(jù)集,剩下30%用于模型驗證、測試;根據(jù)訓練數(shù)據(jù)集中鹽度的最大和最小值,通過線性拉伸對海表面鹽度進行歸一化。通過比對不同配置下神經(jīng)網(wǎng)絡的表現(xiàn),最終確定模型配置為1 個隱層、30 個神經(jīng)元,sigmoid 激活函數(shù)。
本文研究流程圖3所示,利用1.2 節(jié)提到的方法用實測海表面鹽度數(shù)據(jù)去匹配MODISA 二級產(chǎn)品,從而得到164 組MODISA 遙感反射率(412 nm、443 nm、469 nm、488 nm、531 nm、547 nm、555 nm、645 nm),然后分別采用多波段回歸和神經(jīng)網(wǎng)絡建模,驗證、比對模型精度,最后分析渤海海表面鹽度的時空變化。
圖3 本文研究的技術流程Fig.3 Technical flow of our research
利用本文的164 組匹配數(shù)據(jù),采用多波段線性模型(公式(1)和(2)),建立渤海海表面鹽度反演模型(公式(3)和(4))。這2 個模型與本文的神經(jīng)網(wǎng)絡的精度比對見圖4。
圖4 神經(jīng)網(wǎng)絡與多波段線性模型建模精度比對Fig.4 Accuracy comparison between neural network model and multi-band linear model
注意:神經(jīng)網(wǎng)絡模型只使用隨機挑選的114 組數(shù)據(jù)(約占總數(shù)據(jù)的70%),其(圖4(a))決定系數(shù)R2和均方根誤差RMSE 分別是0.66 和0.39,均優(yōu)于多波段線性模型的精度(0.39 和0.60)。事實上,海表面鹽度與MODISA 各波段遙感反射率的統(tǒng)計相關性,受數(shù)據(jù)采集時間和采樣區(qū)域影響,存在較大變化[24]。也就是說,很難找到一個敏感于鹽度變化的固定波段組合。由式(3)和式(4)波段組合建立的模型,當鹽度小于31 psu 時,擬合的散點出現(xiàn)較大偏差。這是導致其精度降低的直接原因。
利用空間分辨率為4 km 的MODISA 季度平均遙感反射率(三級產(chǎn)品),經(jīng)本文的神經(jīng)網(wǎng)絡模型計算,得到2022年3-6月、6-9月、9-12月、2022年12月-2023年3月等,共4 個季度的渤海海表面鹽度分布(見圖5)。從空間分布來看,渤海灣和萊州灣的海表面鹽度較低,渤海海峽的鹽度相對較高,這與之前的研究結果一致[3,5,16-18]。這4個季度渤海的平均鹽度分別為 31.25±0.40 psu,31.52±0.39 psu,31.13±0.60 psu、30.89±0.53 psu。黃河流域的雨季主要集中6-9月,然而這個季度渤海的海表面鹽度最高,表明黃河流域的降水對黃河沖淡水影響存在一定時間的滯后。圖5(c)的指示箭頭可見,黃河沖淡水對萊州灣和渤海灣鹽度的影響,同時也會隨著渤海冷流南下致使山東半島沿岸的鹽度降低;至第4 季度(圖5(d)),南下的黃河沖淡水向渤海海峽和北黃海方向擴展,并持續(xù)影響萊州灣,導致萊州灣以及整個渤海鹽度降到最低。
圖5 2022年3月-2023年3月渤海海表面鹽度季度分布Fig.5 Quarterly distribution of sea surface salinity in the Bohai Sea from March 2022 to March 2023
過擬合是指模型學習了訓練集的噪聲或細微特征,導致模型泛化能力下降,當應用于測試數(shù)據(jù)集時精度顯著下降;樣本數(shù)量少、模型復雜度高(隱層的數(shù)和神經(jīng)元數(shù))、訓練時間過長等是導致網(wǎng)絡過擬合的主要原因[25]。為避免過擬合,本研究對海表面鹽度進行歸一化處理,同時通過比對訓練數(shù)據(jù)集(占數(shù)據(jù)集70%)和測試數(shù)據(jù)集的損失函數(shù)變化。當訓練數(shù)據(jù)集損失函數(shù)降低,而測試數(shù)據(jù)集損失函數(shù)上升,表明模型可能已過擬合。
鑒于遙感反射率與海表面鹽度通過CDOM 存在間接關聯(lián),首先考慮2 個隱層的神經(jīng)網(wǎng)絡。相比1 個隱層,2 個隱層(神經(jīng)元數(shù)目分別為15 和25,(記做[15,25])的網(wǎng)絡能提高模型精度(R2≥0.70),應用于MODISA 的遙感反射率數(shù)據(jù)時,得到結果與前文給出模型比對見圖6。渤海中部和山東半島沿岸展現(xiàn)出高鹽度,甚至超過渤海海峽的鹽度,這與前期研究[3,5,16-17]結果矛盾,而采用單隱層的網(wǎng)絡模型結果與先前研究一致。這表明2 個隱層網(wǎng)絡已過擬合。因而文中選用單隱層神經(jīng)網(wǎng)絡。
圖6 2022年渤海平均海表面鹽度分布Fig.6 Distribution of mean sea surface salinity in the Bohai Sea in 2022
由于海表面鹽度與CDOM 呈負相關,總有機吸收系數(shù)(adg=CDOM 吸收系數(shù)ad和有機碎屑的吸收系數(shù)ag,單位m-1),也被證實與海表面鹽度存在良好負相關[14,26]。此外,作為海水中有機顆粒物濃度表征的顆粒有機碳(Particulate Organic Carbon,POC),在近岸區(qū)域也像CDOM一樣受陸源輸入影響。因此,利用MODIS 二級產(chǎn)品中443 nm 總有機吸收系數(shù)adg(443)和顆粒有機碳,與實測海表面鹽度數(shù)據(jù)匹配后,并剔除異常數(shù)據(jù)(adg(443)>1 m-1;POC>600 mg/m3),通過線性回歸建立兩者之間的經(jīng)驗關聯(lián),結果見圖7。
圖7 海表面鹽度與adg(443)和POC 的線性回歸模型Fig.7 Linear regression model of sea surface salinity with adg(443)and Poc
adg(443)和POC 與海表面鹽度的R2分別為0.24 和0.33,雖低于神經(jīng)網(wǎng)絡模型的0.66,但也表明MODISA 二級產(chǎn)品中的這2 種數(shù)據(jù)可作為獲取海表面鹽度輔助數(shù)據(jù)。至于這2 種產(chǎn)品的自身精度,以及它對圖7 線性回歸的影響,不屬于本文的研究內(nèi)容。
用164 組實測海表面鹽度和匹配的MODISAqua 遙感反射率產(chǎn)品,通過訓練神經(jīng)網(wǎng)絡建立了渤海海表面鹽度的反演模型,其R2和RMSE 分別為0.66 和0.39,均優(yōu)于多波段線性模型(R2=0.39,RMSE=0.60)。利用該模型,繪制了2022年3月-2023年3月4 個季度的海表面鹽度分布,占渤海徑流總量75%的黃河沖淡水是影響渤海海表面鹽度的重要因素;3-9月,黃河沖淡水主要擴散至萊州灣和渤海灣,導致其鹽度降低;9-12月,除持續(xù)影響渤海灣和萊州灣,黃河沖淡水隨著渤海冷流沿山東半島南下,致使沿岸以及整個渤海的鹽度降低,隨后向渤海海峽和北黃海方向擴散。以上結論為渤海海表面鹽度和黃河沖淡水研究提供技術支持。