基于廣義回歸神經(jīng)網(wǎng)絡(luò)的全球表層海水1°×1°二氧化碳分壓數(shù)據(jù)推演

2020-11-16 03:40鐘國榮李學(xué)剛曲寶曉王彥俊袁華茂宋金明

海洋學(xué)報(bào) 2020年10期

鐘國榮，李學(xué)剛，曲寶曉，王彥俊，袁華茂，宋金明

( 1. 中國科學(xué)院海洋研究所海洋生態(tài)與環(huán)境科學(xué)重點(diǎn)實(shí)驗(yàn)室，山東青島 266071；2. 中國科學(xué)院大學(xué)，北京 100049；3. 青島海洋科學(xué)與技術(shù)試點(diǎn)國家實(shí)驗(yàn)室海洋生態(tài)與環(huán)境科學(xué)功能實(shí)驗(yàn)室，山東青島 266237；4. 中國科學(xué)院海洋大科學(xué)研究中心，山東青島 266071)

1 引言

當(dāng)前的研究普遍認(rèn)為大洋每年可以吸收約2 Pg（以碳計(jì)）左右的大氣CO2，這一結(jié)果主要是通過海?氣二氧化碳分壓差估算出來的，并且與模式的估計(jì)也相一致。但用分壓差估算出的結(jié)果仍有很大的不確定性，主要原因是二氧化碳海?氣交換速率的不確定，以及參與計(jì)算的表層海水二氧化碳分壓（pCO2）的數(shù)據(jù)較少且空間分布不均勻[1–3]。盡管pCO2實(shí)測數(shù)據(jù)相對(duì)一些其他參數(shù)比較容易獲得，可以通過基于非色散紅外法的船舶連續(xù)走航觀測獲得[4]，但獲得的實(shí)測數(shù)據(jù)相對(duì)于整個(gè)大洋來說仍然較少，這使得通過集成多年的數(shù)據(jù)構(gòu)建氣候態(tài)分布成為過去比較有效的研究方法[5]，但要獲得大范圍區(qū)域pCO2的連續(xù)時(shí)間變化用一般的空間插值法僅依靠這些實(shí)測數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。并且實(shí)測數(shù)據(jù)在時(shí)空分布上也非常不均勻，特別是早期20世紀(jì)70年代前的實(shí)測數(shù)據(jù)幾乎沒有，這極大地限制了基于pCO2演化有關(guān)的大洋碳循環(huán)研究的時(shí)空尺度。雖然美國國家航空航天局(NASA)、歐洲多國合作觀測項(xiàng)目（EPOCA）等一直在著手?jǐn)U展海洋觀測網(wǎng)絡(luò)，但巨大的資金投入換來的也是十分有限的時(shí)空覆蓋范圍。在這個(gè)背景下，通過大數(shù)據(jù)技術(shù)利用僅有的少量觀測數(shù)據(jù)和一些輔助參數(shù)，構(gòu)建均勻的大洋pCO2格點(diǎn)數(shù)據(jù)來研究全球變化成為新的突破方向。有研究者嘗試?yán)脗鹘y(tǒng)的多元線性回歸來重建二氧化碳分壓變化，但其結(jié)果只適用于有限的特定區(qū)域[6]，甚至只適用于特定季節(jié)[7]。相比之下機(jī)器學(xué)習(xí)算法和人工神經(jīng)網(wǎng)絡(luò)更具有優(yōu)勢，可以通過實(shí)驗(yàn)建立起大量參數(shù)間的實(shí)證關(guān)聯(lián)，來更準(zhǔn)確地反映復(fù)雜的海水系統(tǒng)中pCO2的變化規(guī)律[8]。機(jī)器學(xué)習(xí)算法包括隨機(jī)森林算法（Random Forest Algorithm，RFRE）、支持向量機(jī)（Support Vector Machine，SVM）等，目前的研究也多局限于單一過程主導(dǎo)的小范圍區(qū)域，對(duì)復(fù)雜區(qū)域及全球范圍的預(yù)測則顯得比較乏力。人工神經(jīng)網(wǎng)絡(luò)種類很多，現(xiàn)有研究中利用的有前反饋神經(jīng)網(wǎng)絡(luò)（Feed forward Neural Network，F(xiàn)FNN）[9–10]、自組織映射神經(jīng)網(wǎng)絡(luò)（Self-Organizing Map，SOM）[11]等，目前仍存在較大的不確定性，其標(biāo)準(zhǔn)誤差從17.6 μatm到20.2 μatm不等[12–13]。廣義回歸神經(jīng)網(wǎng)絡(luò)（General Regression Neural Network, GRNN）是FFNN中徑向基網(wǎng)絡(luò)的一種變形形式，與傳統(tǒng)的前反饋網(wǎng)絡(luò)相比，GRNN是非線性擬合能力特化的形式，在各個(gè)學(xué)科和工程領(lǐng)域應(yīng)用都更加廣泛。GRNN無需傳統(tǒng)的改變神經(jīng)元間連接權(quán)值的訓(xùn)練，只需要對(duì)一個(gè)光滑因子尋優(yōu)，訓(xùn)練速度比FFNN快幾十到上百倍，對(duì)數(shù)據(jù)預(yù)測的連續(xù)性也優(yōu)于SOM的離散估計(jì)。為了獲得誤差更低的高時(shí)空分辨率全球表層海水pCO2數(shù)據(jù)，本文首次嘗試了將GRNN應(yīng)用于表層海水pCO2格點(diǎn)數(shù)據(jù)的推演。

2 數(shù)據(jù)來源

研究使用的表層海水二氧化碳分壓實(shí)測數(shù)據(jù)來源于表層大洋二氧化碳地圖（Surface Ocean CO2Atlas,SOCATv2019）數(shù)據(jù)集，該數(shù)據(jù)集由超過100個(gè)成員組成的國際海洋碳研究組織組建，對(duì)實(shí)測數(shù)據(jù)進(jìn)行了質(zhì)量控制后公開發(fā)布。整個(gè)數(shù)據(jù)集包含約2570萬條觀測數(shù)據(jù)，時(shí)間范圍為從1957?2018年。由于受葉綠素濃度數(shù)據(jù)的時(shí)間范圍限制，我們只使用了1998?2018年的數(shù)據(jù)。數(shù)據(jù)的總數(shù)量分布如圖1所示。實(shí)測數(shù)據(jù)的分布十分不均勻，整體上北半球數(shù)據(jù)覆蓋率和數(shù)據(jù)總量都高于南半球，歐洲、日本與美國東部沿岸等少數(shù)區(qū)域數(shù)據(jù)總量超過10萬條，而印度洋、南太平洋和一些近岸區(qū)域20年間數(shù)據(jù)總量只有100到1000條左右，不到10條甚至沒有數(shù)據(jù)的區(qū)域也占不小的比例。在時(shí)間分布上不均勻的程度更加明顯，如圖2所示的最近20 a獲得的pCO2調(diào)查數(shù)據(jù)，以后10 a數(shù)據(jù)量多，數(shù)據(jù)覆蓋范圍更廣，而前10 a數(shù)據(jù)量少，覆蓋范圍也小。

圖1圖例中n為數(shù)據(jù)的數(shù)量級(jí)，代表格點(diǎn)位置中有10n條實(shí)測數(shù)據(jù)，灰色部分代表格點(diǎn)位置中無實(shí)測數(shù)據(jù)。

圖1 1998–2018年間SOCAT二氧化碳分壓數(shù)據(jù)分布情況Fig. 1 Spatial distribution of pCO2 observations in SOCAT dataset from 1998 to 2018

圖中實(shí)測數(shù)據(jù)覆蓋范圍指有實(shí)測數(shù)據(jù)的網(wǎng)格數(shù)占海洋區(qū)域總網(wǎng)格數(shù)的比例，1°×1°經(jīng)緯度的分辨率下，海洋區(qū)域總網(wǎng)格數(shù)約為43000個(gè)。

在SOCAT數(shù)據(jù)集中給出的是二氧化碳逸度（fCO2），在使用時(shí)將其轉(zhuǎn)換成二氧化碳分壓，以便與其他研究或數(shù)據(jù)集進(jìn)行對(duì)比驗(yàn)證，二者間的換算關(guān)系為[14]

式中，R為氣體常數(shù)（8.314 J/（K·mol））；p為大氣壓（單位：Pa）；T為絕對(duì)溫度（單位：K）；B和δ為校正系數(shù)（單位：m3/mol），計(jì)算式為

圖2 SOCAT pCO2實(shí)測數(shù)據(jù)時(shí)間分布Fig. 2 Temporal distribution of pCO2 observations in SOCAT dataset

理論上，表層海水二氧化碳分壓主要受海水的熱力學(xué)性質(zhì)、生物活動(dòng)和物理過程控制。在新構(gòu)建的方法中，選取了與這些過程緊密相關(guān)的溫度、鹽度和葉綠素濃度，加上與時(shí)空連續(xù)性相關(guān)的經(jīng)緯度、時(shí)間等參數(shù)作為推演pCO2的輔助參數(shù)。這些輔助參數(shù)的實(shí)測數(shù)據(jù)時(shí)空覆蓋范圍決定了生產(chǎn)出的格點(diǎn)數(shù)據(jù)的時(shí)空覆蓋范圍，因此在相關(guān)性高的條件下，應(yīng)優(yōu)先選擇實(shí)測數(shù)據(jù)多的參數(shù)。本方法中使用的表層海水溫度與葉綠素濃度為衛(wèi)星遙感數(shù)據(jù)，具有足夠大的空間范圍和足夠長時(shí)間的連續(xù)觀測。通過建立與這些參數(shù)間的非線性關(guān)系來推演表層海水二氧化碳分壓變化：

式中，Lon、Lat為經(jīng)過三角函數(shù)換算的經(jīng)緯度，經(jīng)度為0°～360°制，以保證數(shù)據(jù)在空間上的連續(xù)性。Year、Month分別為數(shù)據(jù)對(duì)應(yīng)的年和月；SST、SSS分別為表層海水的溫度（單位：℃）、鹽度；CHL為葉綠素濃度（單位：mg/m3）。使用的所有參數(shù)實(shí)測數(shù)據(jù)來源如表1所示。

表1 數(shù)據(jù)來源Table 1 Data source

3 格點(diǎn)數(shù)據(jù)構(gòu)建方法

3.1 廣義回歸神經(jīng)網(wǎng)絡(luò)原理

廣義回歸網(wǎng)絡(luò)是Specht[15]在1991年建立的一種徑向基網(wǎng)絡(luò)的變形形式，和徑向基網(wǎng)絡(luò)一樣具有良好的非線性問題處理能力，并且訓(xùn)練更為方便。將訓(xùn)練樣本作為后驗(yàn)條件，在Parzen非參數(shù)估計(jì)的基礎(chǔ)上，廣義回歸網(wǎng)絡(luò)計(jì)算輸出時(shí)遵循最大概率原則[16]。

假設(shè)神經(jīng)網(wǎng)絡(luò)的輸入和輸出分別為X和Y，聯(lián)合概率密度可表示為f(X,Y)，以X0代表訓(xùn)練集的觀測值輸入，Y相對(duì)X的回歸為

輸入X0時(shí)，神經(jīng)網(wǎng)絡(luò)的預(yù)測輸出為Y(X0)。給出訓(xùn)練樣本數(shù)據(jù)集X0與Y0的情況下，利用Parzen非參數(shù)估計(jì)對(duì)密度函數(shù)f(X0,Y)進(jìn)行估算并化簡可以得到：

式中，n為樣本總數(shù)，l為輸入變量X的維數(shù)。σ為光滑因子，等同于高斯函數(shù)中的標(biāo)準(zhǔn)差。Xi代表第i個(gè)計(jì)算樣本對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)輸入，Yi代表第i個(gè)計(jì)算樣本對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)輸出；X0j代表訓(xùn)練樣本數(shù)據(jù)集輸入X0的第j個(gè)維度，Xij代表第i個(gè)計(jì)算樣本對(duì)應(yīng)的輸入Xi的第j個(gè)維度。

式（10）即為廣義回歸神經(jīng)網(wǎng)絡(luò)計(jì)算出的預(yù)測值，其分子為訓(xùn)練集中所有樣本求出的Yi的加權(quán)和，權(quán)值等于 e?d(X0,Xi)。

從結(jié)構(gòu)上看，廣義神經(jīng)網(wǎng)絡(luò)分為4層：輸入層、隱含層、加和層和輸出層(圖3)。

圖3 廣義回歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Structure of general regression neural network

輸入層即負(fù)責(zé)接收樣本數(shù)據(jù)的輸入向量X，神經(jīng)元數(shù)量與輸入向量X的維數(shù)l相同，以簡單的線性函數(shù)作為傳輸函數(shù)。其中維數(shù)l等于7，即輸入包含7個(gè)維度，分別為經(jīng)度、緯度、年、月、海表溫度、海表鹽度和葉綠素濃度。一些研究中時(shí)間僅使用月或者僅使用年作為輔助參數(shù)，但同時(shí)使用能略微降低整體的誤差，因?yàn)樵黾恿溯斎胂蛄康木S度，而且這對(duì)計(jì)算時(shí)間影響很小。隱含層的神經(jīng)元數(shù)量為馴良樣本數(shù)量，通常使用高斯函數(shù)作為基礎(chǔ)函數(shù)，Φi代表第i個(gè)隱含層神經(jīng)元，其中心向量為對(duì)應(yīng)的輸入向量Xi。加和層的神經(jīng)元只有兩種，分別為分子單元和分母單元。分子單元將訓(xùn)練集樣本的輸出期望作為權(quán)值，求得隱含層神經(jīng)元的加權(quán)和，即式（12）中的分子部分，分母單元負(fù)責(zé)的是隱含層神經(jīng)元的代數(shù)和，即式（12）中的分母部分，分子單元和分母單元的輸出在輸出層中相除即得到輸入X對(duì)應(yīng)的預(yù)測輸出Y。

3.2 網(wǎng)絡(luò)訓(xùn)練與插值

為快速檢索，原始實(shí)測數(shù)據(jù)根據(jù)時(shí)間和經(jīng)緯度存儲(chǔ)在細(xì)胞數(shù)組中，時(shí)間分辨率為12月×21 a，空間分辨率為1°×1°經(jīng)緯度，對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)需要先將格點(diǎn)化的數(shù)據(jù)集轉(zhuǎn)換成向量，再將其輸入到網(wǎng)絡(luò)中，過程如圖4所示。

圖4 原始數(shù)據(jù)向量化過程Fig. 4 Vectorization of original data

訓(xùn)練使用的樣本數(shù)據(jù)集為1998?2018年的所有數(shù)據(jù)中隨機(jī)抽取的80%，由于數(shù)據(jù)總量大，并且格點(diǎn)數(shù)據(jù)構(gòu)建的目標(biāo)最小時(shí)間分辨率為1個(gè)月，對(duì)同1個(gè)1°×1°格點(diǎn)里同1個(gè)月內(nèi)的pCO2實(shí)測數(shù)據(jù)進(jìn)行了算術(shù)平均化處理。GRNN程序通過MATLAB自帶的廣義回歸神經(jīng)網(wǎng)絡(luò)函數(shù)工具箱實(shí)現(xiàn)，網(wǎng)絡(luò)的創(chuàng)建、訓(xùn)練和插值計(jì)算均可以通過工具箱函數(shù)命令進(jìn)行。其中訓(xùn)練過程在創(chuàng)建的同時(shí)完成，函數(shù)語法為

式中，X0、Y0分別為訓(xùn)練集的輸入和對(duì)應(yīng)的期望輸出，X0是經(jīng)度、緯度、年、月、溫度、鹽度、葉綠素濃度實(shí)測數(shù)據(jù)組成的向量，Y0是pCO2實(shí)測數(shù)據(jù)組成的向量；net為網(wǎng)絡(luò)名，在同時(shí)存在多個(gè)網(wǎng)絡(luò)時(shí)用于辨識(shí)；newgrnn為MATLAB自帶的廣義回歸網(wǎng)絡(luò)工具箱函數(shù)，用于創(chuàng)建并訓(xùn)練網(wǎng)絡(luò)。spread為擴(kuò)散速度，是人為設(shè)定的固定標(biāo)量，默認(rèn)為1.0，其值越大擬合出的曲線越平滑，但如果想更精確地接近訓(xùn)練樣本的期望輸出，應(yīng)該選擇較小的擴(kuò)散速度值，經(jīng)過多次試驗(yàn)后我們擇優(yōu)選取的值為1.4。廣義回歸網(wǎng)絡(luò)的訓(xùn)練過程目的是為了求得式（9）中光滑因子σ值的最佳值，這個(gè)值很大程度地影響網(wǎng)絡(luò)的性能。當(dāng)σ值非常大時(shí)，d(X0,Xi)趨近于0，計(jì)算出的輸出Y(X0)近似于所有訓(xùn)練集樣本輸出的平均值；當(dāng)σ值趨近于0時(shí)，神經(jīng)網(wǎng)絡(luò)會(huì)出現(xiàn)過學(xué)習(xí)的現(xiàn)象，表現(xiàn)為給定的輸入與訓(xùn)練集中某一數(shù)據(jù)相同時(shí)，計(jì)算得到的預(yù)測輸出與實(shí)測值非常接近，但給出的輸入不在訓(xùn)練數(shù)據(jù)集中時(shí)，計(jì)算出的輸出與實(shí)測值偏差較大。避免這各種情況出現(xiàn)的方法是對(duì)輸入的各個(gè)參數(shù)量級(jí)進(jìn)行調(diào)整，保證各參數(shù)變化范圍的數(shù)量級(jí)不相差過大。在我們使用的輸入?yún)?shù)中，除年份外的參數(shù)均在0～40間變化，因此將所有數(shù)據(jù)的年份的數(shù)量級(jí)調(diào)整到與其他參數(shù)一致：

調(diào)整后年份的變化范圍為1～21，這樣就避免了過學(xué)習(xí)現(xiàn)象的出現(xiàn)。

創(chuàng)建并訓(xùn)練網(wǎng)絡(luò)后，輸入二氧化碳分壓空白區(qū)域?qū)?yīng)的溫、鹽等參數(shù)組成的向量X，即可計(jì)算出預(yù)測的二氧化碳分壓值Y，函數(shù)語法為

式中，net和創(chuàng)建時(shí)的net為網(wǎng)絡(luò)名，可替換為其他名稱，但兩個(gè)過程的名稱必須保證一致。在這個(gè)計(jì)算過程中，輸入的向量X包括了所有待插值的格點(diǎn)，不需要每個(gè)格點(diǎn)單獨(dú)計(jì)算。最后再將輸出的二氧化碳分壓預(yù)測值向量Y還原成180°×360°大小的矩陣，存儲(chǔ)到細(xì)胞數(shù)組中，插值方法結(jié)束。

4 構(gòu)建數(shù)據(jù)的準(zhǔn)確性分析

由于在插值方法訓(xùn)練時(shí)僅使用80%的實(shí)測數(shù)據(jù)，剩余的20%實(shí)測數(shù)據(jù)就可用于對(duì)方法進(jìn)行準(zhǔn)確性評(píng)估。這20%實(shí)測數(shù)據(jù)在訓(xùn)練完成后輸入到神經(jīng)網(wǎng)絡(luò)中，比較實(shí)測值Y0和神經(jīng)網(wǎng)絡(luò)計(jì)算出的預(yù)測值Y的差異來評(píng)估所構(gòu)建數(shù)據(jù)的準(zhǔn)確度。通常用標(biāo)準(zhǔn)誤差（RMSE）和平均相對(duì)誤差(MRE)來描述方法的精確度。

其中標(biāo)準(zhǔn)誤差的計(jì)算公式為

式中，Yi代表第i個(gè)樣本的pCO2神經(jīng)網(wǎng)絡(luò)預(yù)測值，Y0i代表第i個(gè)樣本的pCO2實(shí)測值，n為進(jìn)行誤差評(píng)估的測試樣本總數(shù)，參與神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)不用于誤差評(píng)估。標(biāo)準(zhǔn)誤差對(duì)一次預(yù)測中的特大或特小誤差十分敏感，反映出預(yù)測值相對(duì)于實(shí)際值的偏離程度，是用于評(píng)價(jià)擬合效果的指標(biāo)中最常用的。

平均相對(duì)誤差的計(jì)算公式為對(duì)每個(gè)點(diǎn)誤差占實(shí)測值的比重求平均：

對(duì)比廣義回歸網(wǎng)絡(luò)計(jì)算出的預(yù)測值Y和實(shí)測值Y0可以發(fā)現(xiàn)，預(yù)測結(jié)果與實(shí)測數(shù)據(jù)基本一致。以Y為x軸，Y0為y軸作圖，絕大部分?jǐn)?shù)據(jù)點(diǎn)聚集在y=x直線處，部分偏離較遠(yuǎn)但仍均勻地靠近直線并分布在直線兩側(cè)（圖5），回歸線也十分逼近y=x直線。全球大洋的預(yù)測值相較于實(shí)測值的平均相對(duì)誤差為2.97%，標(biāo)準(zhǔn)誤差為16.93 μatm，相關(guān)系數(shù)為0.8847。實(shí)測數(shù)據(jù)多的區(qū)域，如亞熱帶太平洋、赤道太平洋和亞熱帶大西洋，插值預(yù)測的表現(xiàn)最好，標(biāo)準(zhǔn)誤差為10.45～13.87 μatm，平均相對(duì)誤差為1.93%～2.66%。南太平洋數(shù)據(jù)量較少，誤差卻也很低，可能是因?yàn)閿?shù)值變化范圍較其他區(qū)域小，實(shí)測pCO2值均在250～450 μatm之間，而不管哪個(gè)區(qū)域在這一區(qū)間內(nèi)的預(yù)測值與實(shí)測值都很接近。表2給出了與其他方法的標(biāo)準(zhǔn)誤差對(duì)比[11–13,17–21]，在整體上，GRNN略優(yōu)于FFNN與SOM，具體到特定區(qū)域范圍時(shí)，一些機(jī)器學(xué)習(xí)算法的表現(xiàn)可能更加精確，例如Chen等[17]使用隨機(jī)森林算法重建了墨西哥灣的pCO2變化，標(biāo)準(zhǔn)誤差僅9.10 μatm，然而僅適用于主導(dǎo)因素較為單一的小范圍區(qū)域。也有研究將SOM和FFNN結(jié)合在一起，利用SOM將大西洋劃分成多個(gè)區(qū)域，對(duì)每個(gè)區(qū)域訓(xùn)練一個(gè)FFNN來進(jìn)行插值預(yù)測[20]，但精確度并沒有顯著提升，并且由于同時(shí)使用了兩種神經(jīng)網(wǎng)絡(luò)，應(yīng)用起來更加繁瑣。近岸區(qū)域由于受到陸地徑流和人類活動(dòng)等因素影響，規(guī)律十分復(fù)雜，廣義回歸網(wǎng)絡(luò)做出的預(yù)測表現(xiàn)與大洋區(qū)域相比較差，但相近于Laruelle等[21]使用SOM-FFNN法對(duì)近岸區(qū)域的預(yù)測表現(xiàn)。如果包含近岸區(qū)域，整體的標(biāo)準(zhǔn)誤差將上升到21.60 μatm，但其他的研究也只關(guān)注大洋區(qū)域，或者只關(guān)注近岸區(qū)域，并沒有統(tǒng)一研究。

圖5 廣義回歸神經(jīng)網(wǎng)絡(luò)預(yù)測值與實(shí)測值對(duì)比Fig. 5 Comparation of GRNN predict pCO2 and in situ measurements

表2 GRNN與其他方法誤差對(duì)比Table 2 Comparation of errors between GRNN and other approaches

圖6 GRNN與實(shí)測值及其他神經(jīng)網(wǎng)絡(luò)方法同時(shí)間點(diǎn)pCO2數(shù)據(jù)結(jié)果對(duì)比Fig. 6 Comparation of pCO2 distribution between in situ measurements, GRNN and other approaches

盡管存在一定的誤差，GRNN法的結(jié)果與pCO2實(shí)測值的分布在高值和低值區(qū)域的位置上基本一致（圖6a，圖6b）。與同樣使用SOCAT數(shù)據(jù)集的其他神經(jīng)網(wǎng)絡(luò)方法的數(shù)據(jù)產(chǎn)品進(jìn)行對(duì)比(圖6b至圖6d)，圖6c為SOM法，標(biāo)準(zhǔn)誤差為23.3 μatm，圖6d為SOM?FFNN聯(lián)用法，標(biāo)準(zhǔn)誤差為22.8 μatm，幾種方法整體的季節(jié)趨勢表現(xiàn)出高度的一致。在1月份，南半球中緯度海域pCO2高，南太平洋東部高于西部；北半球中緯度海域整體pCO2低，而北太平洋和北大西洋近極地區(qū)域與中緯度區(qū)域相反，pCO2高。7月中緯度海域整體分布規(guī)律與1月大致相反，南大洋pCO2高，北極區(qū)域低，這些特征都與其他方法給出的結(jié)果相一致。盡管使用的實(shí)測pCO2數(shù)據(jù)集一致，不同方法使用的輔助參數(shù)種類也不同，例如圖6中另外兩種方法中，圖6c使用的參數(shù)中沒有經(jīng)度，使用了混合層深度，圖6d沒有經(jīng)緯度和時(shí)間，這可能也是特定區(qū)域的pCO2分布規(guī)律上各有差異的原因，特別是印度洋等實(shí)測數(shù)據(jù)少的區(qū)域。此外，不同研究使用的輔助參數(shù)空間覆蓋范圍不同，導(dǎo)致構(gòu)建出的pCO2空間范圍存在差異。不同類型的神經(jīng)網(wǎng)絡(luò)本身的特性也存在差異，由于SOM給出的是離散的估計(jì)，數(shù)據(jù)的空間連續(xù)性最差，存在明顯的斑塊狀分布。SOM-FFNN雖然是連續(xù)的估計(jì)，但是數(shù)據(jù)過渡也不太平滑，銳利的邊界仍存在。而表層海水并不是相互獨(dú)立的，由于物理混合過程的影響，高分辨率的情況下相鄰網(wǎng)格間月平均pCO2不應(yīng)該相差太大。比起其他方法，GRNN法推演出的數(shù)據(jù)平滑程度更高，不需再進(jìn)行人為的二次處理來達(dá)到平滑過渡效果，有潛力應(yīng)用于更高分辨率的數(shù)據(jù)構(gòu)建上，如0.25°×0.25°甚至更高。

除了神經(jīng)網(wǎng)絡(luò)法外，與Takahashi等[24]通過將數(shù)十年的實(shí)測數(shù)據(jù)校正到同一年，構(gòu)建氣候態(tài)分布的方法對(duì)比，pCO2的整體分布規(guī)律也存在較高的一致性。如圖7b是Takahashi等[24]的研究中給出的校正到2005年的1月pCO2全球分布，圖7a是同時(shí)間GRNN法給出的結(jié)果，北太平洋的高值帶和低值帶、南大洋的低值區(qū)域等非常相似。盡管使用的源數(shù)據(jù)和方法本身上存在一些差異，使不同研究的結(jié)果在具體的區(qū)域分布各有不同，但整體的分布規(guī)律高度相似，結(jié)合標(biāo)準(zhǔn)誤差和平均相對(duì)誤差來看，有足夠的理由相信廣義回歸神經(jīng)網(wǎng)絡(luò)在二氧化碳分壓的插值預(yù)測上是可靠的。

圖7 GRNN法與Takahashi等[24]氣候態(tài)pCO2數(shù)據(jù)對(duì)比（2005年1月）Fig. 7 Comparation of pCO2 distributions between GRNN output and Takahashi[24] climatological mean (January, 2005)

5 結(jié)論

基于廣義回歸神經(jīng)網(wǎng)絡(luò)，建立了表層海水二氧化碳分壓與經(jīng)緯度、時(shí)間、溫度、鹽度和葉綠素濃度間的非線性關(guān)系，并據(jù)此重建了近20年來表層海水二氧化碳分壓的全球分布，標(biāo)準(zhǔn)誤差為16.93 μatm，平均相對(duì)誤差為2.97%。與其他方法的對(duì)比證實(shí)了本插值方法的可靠性，并且廣義回歸神經(jīng)網(wǎng)絡(luò)法的適用性更強(qiáng)，對(duì)近岸區(qū)域也能做出預(yù)測，其表現(xiàn)與只關(guān)注近岸區(qū)域的其他研究相近，網(wǎng)絡(luò)訓(xùn)練的速度也遠(yuǎn)高于其他神經(jīng)網(wǎng)絡(luò)。使用廣義回歸網(wǎng)絡(luò)進(jìn)行插值預(yù)測時(shí)，由于不需要設(shè)定擴(kuò)散速度外的參數(shù)，插值結(jié)果的表現(xiàn)主要受實(shí)測數(shù)據(jù)本身影響。在參數(shù)選擇方面，輸入?yún)?shù)對(duì)神經(jīng)網(wǎng)絡(luò)的預(yù)測表現(xiàn)影響很大，但增加相關(guān)性低的參數(shù)并不能提高精確度，反而會(huì)降低輸出數(shù)據(jù)的平滑度，導(dǎo)致分布呈現(xiàn)斑塊狀，并且會(huì)增加計(jì)算時(shí)間。雖然增加相關(guān)性高的參數(shù)可以顯著地提高精確度，但受該參數(shù)可獲得性的極大限制。例如本研究在pCO2參數(shù)的構(gòu)建中選用的葉綠素濃度，該參數(shù)與pCO2有較高的相關(guān)性，但由于僅能獲取該參數(shù)在1998年以后的大量衛(wèi)星遙感數(shù)據(jù)，也僅能用該參數(shù)重建1998年以后的pCO2數(shù)據(jù)，而由于無法獲得足夠的1998年之前的數(shù)據(jù)，就無法用本研究建立的插值方法重建1998年之前的pCO2數(shù)據(jù)。現(xiàn)有研究也大部分是通過使用衛(wèi)星遙感數(shù)據(jù)來解決參數(shù)可獲得性的問題，但滿足條件的衛(wèi)星遙感數(shù)據(jù)也只有最近幾十年的，這也是大部分現(xiàn)有研究都只能重建近幾十年pCO2數(shù)據(jù)的原因。而更早期的觀測數(shù)據(jù)過少，很難支撐大范圍的預(yù)測插值，因此如何重建早期的pCO2數(shù)據(jù)成為待解決的下一個(gè)難題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡