謝劭峰 曾 印 張繼洪 張亞博 熊 思
1 桂林理工大學(xué)測(cè)繪地理信息學(xué)院,桂林市雁山街319號(hào),541006
2 湖北科技學(xué)院資源環(huán)境科學(xué)與工程學(xué)院,湖北省咸寧市咸寧大道88號(hào),437100
隨著GNSS氣象學(xué)的發(fā)展,Tm作為計(jì)算大氣中水汽含量的關(guān)鍵因素受到廣泛關(guān)注。Ross等[1]研究全球53個(gè)無線電探空站23 a的探空資料發(fā)現(xiàn),Tm與Ts(地表溫度)的相關(guān)性隨地理位置與季節(jié)的變化而變化,且Tm存在一些季節(jié)性變化特征。此后,諸多學(xué)者對(duì)Tm進(jìn)行深入研究,Tm模型因其具有的普適性、廉價(jià)性和實(shí)時(shí)性等特點(diǎn)已成為最受關(guān)注的研究方向,其中構(gòu)建高精度高時(shí)空分辨率的Tm模型更是研究熱點(diǎn)[2-6]。
在眾多通過無線電探空站數(shù)據(jù)基于氣象參數(shù)建立的本地化Tm模型中,其建模方法多為基于最小二乘的線性回歸,但Tm與Ts、es(水汽壓)等因素存在非線性關(guān)系,并且大多數(shù)模型沒有考慮周期性變化造成的誤差。神經(jīng)網(wǎng)絡(luò)具有輸入-隱層-輸出的分層結(jié)構(gòu),而不是某種特定的非線性激活函數(shù)形式,因此擁有幾乎能夠擬合一切函數(shù)的能力[7],已被廣泛用于解決多輸入的非線性優(yōu)化問題[8]??紤]到神經(jīng)網(wǎng)絡(luò)算法對(duì)非線性函數(shù)具有強(qiáng)大的擬合能力,本文將水汽壓(es)、地表溫度(Ts)、緯度(Lat)、高程(H)、年積日(doy)作為Tm模型因子,建立一種顧及水汽壓、測(cè)站高程、地面溫度、緯度及年內(nèi)周期性變化特征的多層感知器(multi-layer perceptron, MLP)神經(jīng)網(wǎng)絡(luò)構(gòu)建中國西南地區(qū)的Tm模型,并對(duì)其精度進(jìn)行驗(yàn)證。
本文以中國西南地區(qū)為研究區(qū)域,該區(qū)域共有23個(gè)探空站,選取其中17個(gè)探空站數(shù)據(jù)建立模型,其余6個(gè)探空站數(shù)據(jù)用來進(jìn)行精度驗(yàn)證。數(shù)據(jù)來源于美國懷俄明州立大學(xué)網(wǎng)站(http:∥weather.uwyo.edu/upperair/sounding.html)免費(fèi)下載的2015~2018年實(shí)測(cè)探空站數(shù)據(jù),采樣間隔為12 h,其中包含氣壓、溫度、水汽壓、露點(diǎn)溫度等相關(guān)氣象數(shù)據(jù),同時(shí)提供地表測(cè)站點(diǎn)的經(jīng)度、緯度及高程信息,使用其中2015~2017年的實(shí)測(cè)數(shù)據(jù)作為建模數(shù)據(jù),2018年的實(shí)測(cè)數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)。
1.2.1 數(shù)值積分法
水汽是對(duì)流層氣體中最活躍多變的部分,其變化與天氣和氣候的變化息息相關(guān),而Tm是計(jì)算水汽含量的關(guān)鍵參數(shù)。目前精確求解Tm的方法是利用探空數(shù)據(jù)通過數(shù)值積分來實(shí)現(xiàn),計(jì)算公式為:
(1)
式中,e為水汽壓(單位hPa),T為氣溫(單位K),h為高程(單位m)。
由式(1)可知,精確計(jì)算Tm需用到水汽壓和氣溫?cái)?shù)據(jù),再通過數(shù)值積分法進(jìn)行求解。然而,探空站的氣象數(shù)據(jù)是分層數(shù)據(jù),故在計(jì)算Tm時(shí)需將積分形式轉(zhuǎn)換為離散的表達(dá)式,步驟較為繁瑣。
1.2.2 Bevis公式
對(duì)于缺乏探空數(shù)據(jù)的地區(qū),可根據(jù)地面溫度Ts采用線性回歸方法計(jì)算Tm。比較著名的是Bevis等[2]利用美國13個(gè)無線電探空站2 a觀測(cè)資料建立的適合中緯度地區(qū)的Tm與Ts的線性回歸公式:
Tm=70.2+0.72×Ts
(2)
1.2.3 GPT3模型
GPT系列模型是目前世界上應(yīng)用最廣、精度最高的對(duì)流層經(jīng)驗(yàn)改正模型,而GPT3模型[9]是GPT系列模型中最新且精度最好的模型,在全球范圍內(nèi)都能提供較高精度的Tm等參數(shù),使用時(shí)只需要輸入年積日和近似的測(cè)站坐標(biāo)即可獲取測(cè)站點(diǎn)的Tm值:
(3)
式中,Tm0為各個(gè)格網(wǎng)點(diǎn)上Tm的平均值,A1、B1為年周期變化的參數(shù),A2、B2為半年周期變化的參數(shù),doy為年積日。
多層感知器(MLP)由單層感知器拓展而來,是一種前饋式監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),包括輸入層、輸出層和至少1個(gè)隱藏層,且不同層之間是全連接的,上層的任意神經(jīng)元與下層的所有神經(jīng)元都有連接,神經(jīng)元之間的連接賦予相關(guān)的權(quán)重,訓(xùn)練學(xué)習(xí)算法在迭代過程中不斷調(diào)整這些權(quán)重,從而使得預(yù)測(cè)誤差最小化并給出預(yù)測(cè)精度。MLP具有非常好的非線性映射能力、高并行性、自適應(yīng)性及高容錯(cuò)性的特點(diǎn)[10],能解決大氣平均溫度與氣象因素及各影響因素之間復(fù)雜的非線性關(guān)系。
數(shù)據(jù)預(yù)處理采用Z-score標(biāo)準(zhǔn)化:
y=(x-μ)/σ
(4)
式中,μ為均值,σ為標(biāo)準(zhǔn)差。
MLP神經(jīng)網(wǎng)絡(luò)隱藏層激活函數(shù)為雙曲正切函數(shù):
(5)
損失函數(shù)為誤差平方和函數(shù):
(6)
中國西南地區(qū)緯度覆蓋范圍大,自西向東跨越地勢(shì)第1級(jí)和第2級(jí)階梯,氣候復(fù)雜多變。研究表明,Tm與水汽壓[4]、高度[11]、地表溫度[2]及緯度[12]都具有一定相關(guān)性,且已知Tm具有明顯的周期性變化,該變化可直接在Tm模型中加以考慮[6]。然而Tm與Ts、es等氣象參數(shù)的函數(shù)表達(dá)式并非呈嚴(yán)格的線性形式,且以往構(gòu)建的Tm模型未充分顧及非氣象參數(shù)(如緯度、高程和季節(jié)性因素等)對(duì)Tm的影響,故本文利用MLP神經(jīng)網(wǎng)絡(luò)對(duì)非線性函數(shù)優(yōu)秀的擬合能力建立新的Tm模型(下文簡(jiǎn)稱MLP模型)。
以年積日代表年周期性變化特征,將其作為季節(jié)性修正因子進(jìn)行模型構(gòu)建,因此將es、Ts、Lat、H、doy作為模型因子進(jìn)行Tm建模。加權(quán)平均溫度與各氣象元素及非氣象因素的線性關(guān)系不夠明確,而MLP神經(jīng)網(wǎng)絡(luò)對(duì)非線性映射關(guān)系具有強(qiáng)大的學(xué)習(xí)能力,因此采用MLP方法對(duì)西南地區(qū)17個(gè)探空站進(jìn)行Tm建模。模型的構(gòu)建步驟如下:
1)選取與Tm具有一定映射關(guān)系的Ts、es、Lat、H、doy作為協(xié)變量輸入到輸入層,Tm作為因變量,因各個(gè)協(xié)變量量綱不同(各協(xié)變量定義標(biāo)準(zhǔn)不同),將其進(jìn)行Z-core標(biāo)準(zhǔn)化處理,以便于不同量綱的協(xié)變量能夠進(jìn)行比較和加權(quán)。
2)將2015~2017年探空站氣象數(shù)據(jù)的70%作為訓(xùn)練集,30%作為驗(yàn)證集,反向優(yōu)化模型參數(shù),利用2018年的探空站實(shí)測(cè)Tm評(píng)估所建模型的性能。
3)定義神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),利用試湊法得到模型隱藏層的層數(shù)為1、節(jié)點(diǎn)數(shù)為4。隱藏層激活函數(shù)為雙曲正切函數(shù),輸出層激活函數(shù)為恒等函數(shù)y=x,損失函數(shù)選用誤差平方和。
4)在模型訓(xùn)練中,需設(shè)置模型訓(xùn)練類型、優(yōu)化算法等。以上訓(xùn)練參數(shù)都會(huì)在一定程度上影響模型的訓(xùn)練準(zhǔn)確率和訓(xùn)練速度,屬于經(jīng)驗(yàn)參數(shù),需要通過反復(fù)訓(xùn)練模型來逐步確定。本文選取批次訓(xùn)練,優(yōu)化算法選擇標(biāo)度共軛梯度法。
5)模型建立完成后將2018年的協(xié)變量(即Ts、es、Lat、H、doy)輸入到神經(jīng)網(wǎng)絡(luò)模型中,得到2018年MLP神經(jīng)網(wǎng)絡(luò)Tm模型估計(jì)值。
為檢驗(yàn)本文建立的神經(jīng)網(wǎng)絡(luò)模型精度,以2018年中國西南地區(qū)23個(gè)探空站Tm數(shù)據(jù)為參考值,采用偏差(bias)和均方根誤差(RMSE)作為精度指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行精度評(píng)定。具體公式為:
(7)
(8)
以中國西南地區(qū)17個(gè)探空站2018年的探空資料為數(shù)據(jù)源,利用數(shù)值積分方法獲得的Tm為參考值,對(duì)新建Tm模型進(jìn)行精度驗(yàn)證,并與Bevis模型及GPT3模型進(jìn)行比較,結(jié)果如表1所示。
表1 2018年3種模型RMSE與bias精度統(tǒng)計(jì)
由表1可知,GPT3模型在中國西南地區(qū)表現(xiàn)出明顯的負(fù)偏差,其年均值為-1.19 K,而Bevis模型及MLP模型表現(xiàn)為明顯的正偏差,其年均值分別為0.85 K和0.15 K。從偏差值可以得出,Bevis模型優(yōu)于GPT3模型,原因是Bevis模型使用了當(dāng)?shù)氐牡乇頊囟冗@個(gè)氣象參數(shù)進(jìn)行Tm計(jì)算,而GPT3模型是利用全球多年的Tm進(jìn)行擬合,精度略有不足;新建立的MLP模型比Bevis和GPT3模型表現(xiàn)出更小的偏差。同時(shí),從RMSE誤差來看,Bevis模型和GPT3模型的年均RMSE相差不大,分別為3.35 K和3.50 K,Bevis模型精度要略優(yōu)于GPT3模型。MLP模型的精度最優(yōu),年均RMSE為1.99 K,其精度相比于Bevis模型提高了約1.36 K (40.6%),與GPT3模型相比提高了約1.51 K (43.1%),說明MLP模型在中國西南地區(qū)相比其他2個(gè)模型精度要高、穩(wěn)定性更好。
為更好地分析模型空間分布精度,以2018年探空站Tm數(shù)據(jù)為參考值,對(duì)各個(gè)探空站的年均bias和RMSE進(jìn)行統(tǒng)計(jì)分析,從而檢驗(yàn)不同模型在中國西南地區(qū)的適用性(圖1)。
由圖1可知,在那曲、拉薩、昌都、甘孜、西昌、貴陽、南寧等12個(gè)探空站,MLP模型相對(duì)于Bevis模型和GPT3模型有更好的適用性;在其他幾個(gè)探空站雖然精度差別不大,但也有所提高。通過直方圖可以明顯看出,精度得到很好改善的探空站,大多處在低緯度沿海地區(qū)和海拔較高地區(qū),這是由于Bevis模型和GPT3模型并未將緯度和海拔作為影響因素進(jìn)行模型構(gòu)建。由此說明,在將海拔和緯度2個(gè)因子作為模型構(gòu)建因素后,新建立的MLP模型對(duì)Tm的計(jì)算精度有了很大改善。對(duì)整個(gè)研究區(qū)域的精度作進(jìn)一步分析表明,對(duì)于年均bias而言,Bevis模型和GPT3模型均在高海拔地區(qū)表現(xiàn)出較大偏差,而MLP模型在西南地區(qū)bias整體分布在1 K左右,明顯比其他2個(gè)模型小且穩(wěn)定;對(duì)于RMSE而言,Bevis模型和GPT3模型的RMSE值總體表現(xiàn)出隨海拔和緯度的降低而減小的特點(diǎn),MLP模型將緯度和海拔作為模型構(gòu)建因子來進(jìn)行Tm計(jì)算,在西南地區(qū)每個(gè)探空站RMSE基本都分布在2 K左右,而Bevis模型和GPT3模型的RMSE浮動(dòng)較大,兩者的最大RMSE甚至達(dá)到了6.59 K和7.1 K,MLP模型精度最優(yōu),其精度比Bevis模型提高了40.6%,比GPT3模型提高了43.1%,且RMSE分布范圍均比Bevis模型和GPT3模型小,進(jìn)一步表明MLP模型性能更穩(wěn)定,更適用于地形復(fù)雜、高低起伏大的中國西南地區(qū)。綜上分析及前人研究結(jié)果[13]表明,海拔和緯度對(duì)Tm模型精度有重要影響。
為了進(jìn)一步探究季節(jié)變化、緯度、海拔等因素對(duì)3種模型Tm的影響,在西南地區(qū)綜合海拔、緯度分布因素均勻選取6個(gè)探空站,利用數(shù)值積分獲得的2018年Tm作為參考值,對(duì)MLP模型、Bevis模型及GPT3模型的Tm模型估計(jì)值的時(shí)間序列變化進(jìn)行分析,結(jié)果如圖2(括號(hào)內(nèi)表示各個(gè)測(cè)站的緯度、經(jīng)度及高程)所示。
由圖2可見,Bevis模型和GPT3模型在高海拔地區(qū)(如拉薩站和甘孜站)有明顯的系統(tǒng)誤差,且2種模型隨著探空站海拔的降低,模型精度有所提高。Bevis模型在威寧、蒙自、沙坪壩、百色等測(cè)站有良好的吻合性,原因在于Bevis模型是利用美國平原地區(qū)的探空站數(shù)據(jù)所建立的適用于本土中低緯度地區(qū)的Tm模型,同樣也適用于中國部分中低緯度平原地區(qū)。而由MLP模型計(jì)算所得的Tm估計(jì)值與所有探空站一年四季實(shí)測(cè)的Tm值均有良好的吻合性,證明MLP模型在整個(gè)西南地區(qū)所有季節(jié)均具有穩(wěn)定性和通適性。另外,Tm值在一年中呈現(xiàn)出明顯的坡度變化,夏秋季高、春冬季低,且在春冬季分布較為離散;Tm值隨著緯度的降低,坡度變化幅度也隨之減小。
為進(jìn)一步檢驗(yàn)不同模型的季節(jié)性表現(xiàn),以2018年數(shù)值積分法計(jì)算得到的昌都站(昌都位于西藏東部,處在西藏與四川、青海、云南交界的咽喉部位,為典型的高山峽谷區(qū),對(duì)于西南地區(qū)復(fù)雜的地形、氣候來說具有代表性)Tm數(shù)據(jù)為參考值,對(duì)2018年昌都站探空資料計(jì)算得到的3種模型Tm估計(jì)值進(jìn)行日偏差檢驗(yàn),統(tǒng)計(jì)不同模型的bias和RMSE。統(tǒng)計(jì)結(jié)果如圖3所示。
從圖3(a)可以看出,新建立的MLP模型比Bevis模型和GPT3模型的精度高,Bevis模型及GPT3 模型分別表現(xiàn)出較大的正偏差和負(fù)偏差,說明這2個(gè)模型在西南地區(qū)具有顯著的系統(tǒng)誤差;另外,MLP模型受季節(jié)的影響要明顯小于GPT3模型和Bevis模型,全年表現(xiàn)較為平穩(wěn)。GPT3模型和Bevis模型受季節(jié)影響較大,有很明顯的坡度變化??梢钥闯?,Bevis模型在夏秋兩季日均bias分布集中,受季節(jié)影響較小,在春冬季節(jié)出現(xiàn)明顯的坡峰,日均bias分布離散,受季節(jié)影響比較大,這是由于Bevis模型未考慮季節(jié)變化因素對(duì)Tm的影響而產(chǎn)生誤差。在全年期間,雖然GPT3模型考慮了Tm的季節(jié)變化,但由于系統(tǒng)誤差影響,GPT3模型顯示出明顯的負(fù)偏差,并且在春季和夏季期間觀察到日均bias分布離散、偏差較大,在秋冬分布略為集中、偏差較小,原因可能與中國西南地區(qū)地形復(fù)雜、海拔高致使日夜溫差大有關(guān)。多天的精度檢驗(yàn)結(jié)果顯示,MLP模型的精度要高于Bevis模型和GPT3模型,特別是在春冬季,3種模型的精度對(duì)比較為明顯,MLP模型要優(yōu)于Bevis模型和GPT3模型,顯示出較小的偏差,且沒有明顯的季節(jié)性變化,穩(wěn)定性良好。
由圖3(b)可以看出,3個(gè)模型均顯示出比較明顯的季節(jié)性變化,主要體現(xiàn)在春季和冬季RMSE值相對(duì)較大,而在夏季和秋季的RMSE值較小。這是因?yàn)樗x取的探空站處于西藏高海拔地區(qū),每年10月至翌年4月,西藏高原上空為西風(fēng)急流,地面為冷高壓控制,干旱多大風(fēng),氣候復(fù)雜,日夜溫差變化較大;而夏、秋兩季高原近地面層為熱低壓控制,熱低壓很少移動(dòng)故而該時(shí)間段溫度變化較為穩(wěn)定,因此在夏季和秋季的Tm值變化較小,而在冬季和春季Tm變化較大。對(duì)于RMSE而言,MLP模型與其他模型的RMSE值相比變化更小、更穩(wěn)定、精度更高,在受到季節(jié)影響的條件下顯示出更好的適應(yīng)性??傊?,與其他模型相比,顧及了年積日季節(jié)變化的MLP模型可明顯提高Tm的計(jì)算精度。
為研究本文所建立Tm模型的有效性和適用性,在用來建模的17個(gè)探空站之外,均勻選取研究區(qū)域外相鄰的玉樹站、漢中站和清遠(yuǎn)站等6個(gè)站進(jìn)行空間域上的外符合精度驗(yàn)證,將這6個(gè)探空站2018年的探空資料為數(shù)據(jù)源分別代入3個(gè)模型,計(jì)算得到Tm模型估計(jì)值,并將利用數(shù)值積分方法所得6個(gè)探空站的Tm作為參考值,統(tǒng)計(jì)各站的年均bias和RMSE,結(jié)果如表2(單位K)所示。
由表2可知,對(duì)研究區(qū)域外相鄰的探空站進(jìn)行模型精度驗(yàn)證,MLP模型的精度依舊保持著良好的穩(wěn)定性和適用性。從年均偏差來看,MLP模型依舊在零周圍分布均勻且保持較小偏差,尤其是對(duì)位于高海拔地區(qū)的玉樹站和低緯度地區(qū)的清遠(yuǎn)站,精度提升明顯。從年均RMSE來看,MLP模型對(duì)于GPT3模型和Bevis模型表現(xiàn)更穩(wěn)定,這是因?yàn)镸LP模型的構(gòu)建顧及了海拔、緯度和周期性變化等多種影響因素的緣故??偠灾?,本文所建立的MLP模型在研究區(qū)域外的空間域上同樣有良好的穩(wěn)定性和適用性,可以為中國西南地區(qū)GNSS反演PWV提供高精度的Tm值。
表2 2018年各個(gè)模型在中國西南地區(qū)研究區(qū)域外的RMSE與bias精度統(tǒng)計(jì)
本文利用多層感知器神經(jīng)網(wǎng)絡(luò)回歸方法,選用中國西南地區(qū)2015~2017年17個(gè)探空站數(shù)據(jù),建立了適用于中國西南地區(qū)的Tm模型(MLP模型),并以2018年探空站獲取的Tm作為參考值,計(jì)算得到西南地區(qū)年均bias和年均RMSE分別為0.15 K和1.99 K,MLP模型相比于Bevis模型的年均bias和年均RMSE分別降低40.6%和82.4%,相比于GPT3模型的年均bias和年均RMSE分別下降43.1%和87.4%,證明本文建立的MLP模型在中國西南地區(qū)的精度要優(yōu)于Bevis模型和GPT3模型,對(duì)西南地區(qū)有著更好的穩(wěn)定性和適用性,驗(yàn)證了MLP神經(jīng)網(wǎng)絡(luò)在大氣加權(quán)平均溫度建模方面的有效性和可靠性,可為進(jìn)一步研究Tm提供參考。