張巍,杜超凡,郭安博宇,宋曉姜,沈世瑩
( 1. 國家海洋環(huán)境預報中心,北京 100081;2. 中國海洋大學 計算機科學與技術學院,山東 青島 266100)
作為海洋學最重要的物理參數(shù)之一,海面風場是海洋上層運動的主要動力來源,幾乎所有的海水運動都與之直接相關[1–7]。與此同時,海面風場對于海洋漁業(yè)、海上交通及工程活動、風能開發(fā)等都有著直接的影響[8–9]。對于海面風場的測量,其中常規(guī)的測量手段包括船舶、浮標以及沿岸站等。相對于全球海洋來說,常規(guī)測量手段獲取到的風場數(shù)據(jù)資料非常缺乏,很難滿足人類的生產(chǎn)或研究的需求。此時,衛(wèi)星遙感技術的出現(xiàn)很好地解決了常規(guī)測量手段所存在的問題。衛(wèi)星遙感技術有著覆蓋范圍廣,空間分辨率高,能夠實時或準實時獲取數(shù)據(jù)的優(yōu)勢[10–11]。但是單一衛(wèi)星提供的海面風場產(chǎn)品在覆蓋率等方面存在著不可避免的缺陷,因此研究如何將多源衛(wèi)星海面風場等產(chǎn)品進行融合,以此提高海面風場數(shù)據(jù)的覆蓋范圍和精度,從而滿足當前數(shù)值預報研究以及海洋中小尺度系統(tǒng)研究的需求變得尤為重要。
當前有許多數(shù)據(jù)融合算法被研究者提出并利用。海面風場作為數(shù)據(jù)融合的應用領域,目前主要的融合方法有插值類融合算法和同化變分類融合算法。其中插值算法有Cressman 插值、Kriging 插值和時空加權分析方法等,同化變分算法包括最優(yōu)插值法、三維變分法等[12]。凌征等[13]通過Cressman 插值融合了我國近海的衛(wèi)星風場和沿岸氣象站風場資料。Zhang 等[14–15]對包括SSM/I、TMI、QuikSCAT、AMSRE 等在內的多顆衛(wèi)星海面風速數(shù)據(jù)進行了時空權重插值融合,產(chǎn)生了全球范圍1987–2006 年的時間分辨率為12 h、每天、每月的0.25°網(wǎng)格的風速。齊亞琳和林明森[16]對海洋二號衛(wèi)星海面風場和NCEP 數(shù)值風場資料進行融合,融合算法中同樣采用時空權重插值。Yan 等[17]對多源散射計和輻射計風場與模式在分析風場進行了融合研究,利用最優(yōu)插值法建立了時間分辨率為6 h,空間分辨率為0.25°的2000–2015年的全球風場產(chǎn)品。Chao 等[18]基于二維變分分析的方法融合了衛(wèi)星散射計海面風場與區(qū)域中尺度大氣模式風場。
綜上所述,不論是插值類融合算法,還是同化變分類融合算法,它們都可以基本解決海面風場融合的問題。但是在實際應用中,受到當前計算能力的制約[19]。這些算法由于計算過程復雜,往往需要使用計算機集群,且較難實現(xiàn)實時化融合。
為了以較低的計算代價實現(xiàn)實時化海面風場融合,本文提出在多源衛(wèi)星數(shù)據(jù)和ERA-5 再分析數(shù)據(jù)重疊區(qū)域,訓練基于XGBoost 的機器學習ERA-5 數(shù)據(jù)修正模型。然后利用該模型在無衛(wèi)星數(shù)據(jù)區(qū)域快速修正(機器學習推理)ERA-5 數(shù)據(jù),使得修正后得到的融合風場數(shù)據(jù)更加貼近衛(wèi)星觀測值,最終得到時間分辨率為12 h、每天的0.25°的網(wǎng)格融合風場數(shù)據(jù),實現(xiàn)無縫網(wǎng)格風場[20]。其中最核心的修正過程是利用已經(jīng)訓練好的模型進行快速推理,而由于機器學習推理的快速性,可以減小計算代價,構建整個海面融合風場。
本文使用的衛(wèi)星有海洋二號B(HY-2B)衛(wèi)星、中法海洋衛(wèi)星(CFOSAT)以及歐洲氣象衛(wèi)星B(MetOp-B)衛(wèi)星。3 顆衛(wèi)星均可提供2020 年12 月以及2021 年1 月的海面風場資料。
HY-2B 衛(wèi)星散射計L2B 級數(shù)據(jù)存儲經(jīng)過風場反演和模糊去除處理后得到軌道各個風元的中心位置、風速、風向、觀測時間及其他相關數(shù)據(jù)。HY-2B衛(wèi)星散射計每天約有16 軌數(shù)據(jù),可覆蓋全球90%的海域[21]。陳克海等[21]使用ECMWF 再分析風場數(shù)據(jù)、熱帶大氣海洋觀測計劃(TAO)浮標和NDBC 浮標實測數(shù)據(jù)對HY-2B 風場進行了總體質量分析。分析發(fā)現(xiàn),在4~24 m/s 風速區(qū)間內,HY-2B 衛(wèi)星風速、風向均方根誤差(RMSE)分別優(yōu)于2 m/s 和20°,能較好滿足HY-2B 衛(wèi)星散射計業(yè)務化應用的精度要求。本文使用2020 年12 月以及2021 年1 月數(shù)據(jù)來進行實驗,選取的HY-2B 衛(wèi)星散射計L2B 級數(shù)據(jù)的時間跨度為12 h,空間分辨率為25 km×25 km,且空間分布在0°~45°N,100°E~180°。
中法海洋衛(wèi)星采用成熟的CAST2000 小衛(wèi)星平臺,設計壽命為3 年,運行于軌道高度為521 km、降交點地方時07:00 的太陽同步軌道,探測數(shù)據(jù)分別傳輸至中法兩國地面站,由兩國地面應用系統(tǒng)接收并進行處理。該衛(wèi)星在海洋動力環(huán)境業(yè)務監(jiān)測、海洋災害監(jiān)測和預報預警、海洋科學研究中發(fā)揮重要作用。本文同樣使用2020 年12 月以及2021 年1 月數(shù)據(jù)來進行實驗,選取的CFOSAT 衛(wèi)星L2B 級數(shù)據(jù)時間跨度為12 h,空間分辨率為12.5 km×12.5 km,且空間分布在0°~45°N,100°E~180°,其風速精度為1.5 m/s,風向精度為20°[22]。
2013 年4 月24 日,歐洲航天局和歐洲氣象衛(wèi)星開發(fā)組織聯(lián)合發(fā)射的MetOp-B 代替MetOp-A 作為主要的業(yè)務觀測衛(wèi)星,其提供的海面風場數(shù)據(jù)產(chǎn)品風速精度為2 m/s,風速范圍為0~50 m/s。本文選取的MetOp-B 風場數(shù)據(jù)空間分辨率為12.5 km×12.5 km,且空間分布在0°~45°N,100°E~180°。
ERA-5 是歐洲中期天氣預報中心對過去40~70 年全球氣候和天氣的第5 代再分析數(shù)據(jù)。目前的數(shù)據(jù)是從1950 年開始的,分為1950–1978 年的氣候數(shù)據(jù)存儲條目和1979 年以后的。ERA-5 提供了大量大氣、海浪和陸地表面數(shù)量的每小時估計數(shù)。本文選用的ERA-5 再分析風場時間區(qū)間為2020 年12 月以及2021 年1 月,其空間分辨率為0.25°×0.25°,其空間分布在0°~45°N,100°E~180°。
浮標數(shù)據(jù)選自離岸50 km 以上,具有連續(xù)風矢量觀測能力的TAO 浮標數(shù)據(jù)。該浮標具有較高的觀測頻率,每10 min 觀測一次風速、風向。由于選定的TAO 浮標上的測風計距離海面4 m,而散射計測量的是高度10 m 處的風速,因此需要將浮標觀測風速轉換到10 m 高度上的風速,轉換公式為
式中,z表示距離海面的高度;s10和sz分別表示10 m高度處的風速和在z高度上的風速。
對于融合風場的生成,研究共分為兩部分進行,即修正融合風場模型的訓練及其機器推理。文中首先以衛(wèi)星數(shù)據(jù)作為實況數(shù)據(jù),通過XGBoost 模型方法對ERA-5 數(shù)據(jù)進行修正訓練,得到修正融合風場模型,使得修正后的ERA-5 數(shù)據(jù)更加接近于衛(wèi)星數(shù)據(jù)分布,然后利用訓練完畢的模型生成海面融合風場。
文中將混合的衛(wèi)星數(shù)據(jù)統(tǒng)一處理成為0.25°×0.25°的標準網(wǎng)格數(shù)據(jù)。在插值處理過程中,由于衛(wèi)星數(shù)據(jù)之間分辨率的不同,即12.5 km×12.5 km 和25 km×25 km不等,為了方便統(tǒng)一插值,本文在空間上采用反距離加權插值算法,時間上采用最近鄰方法對混合衛(wèi)星數(shù)據(jù)進行插值,插值完成后的衛(wèi)星數(shù)據(jù)與ERA-5 數(shù)據(jù)共同完成修正融合風場模型的訓練,并最終得到全區(qū)域的時間分辨率為12 h 的0.25°×0.25°的標準網(wǎng)格數(shù)據(jù),具體融合流程如圖1 所示。
圖1 海面融合風場生成流程Fig. 1 The process of obtaining the sea surface fusion wind
3.1.1 反距離加權插值算法
當前對氣象要素等進行插值的算法有很多[23–28],本文選取的插值算法為反距離權重法(IDW)。IDW插值是一種經(jīng)常使用的空間插值方法,在1972 年被美國國家氣象局首次提出[29–31]。它的邏輯來源于地理學第一定律—相近相似原理。IDW是通過插值點與樣本點之間距離的倒數(shù)為權重進行加權平均,與插值點越靠近的樣本點計算時所被賦予的權重值越大,權重值一般與距離成反比關系,所以稱之為“反距離”加權。其計算公式可以表示為
正如引言所說,本文使用衛(wèi)星數(shù)據(jù)對ERA-5 數(shù)據(jù)進行修正融合,使得修正融合后的風場數(shù)據(jù)更加貼近真實值。研究流程如圖1 所示,首先對混合后的衛(wèi)星數(shù)據(jù)進行插值操作,空間上使用反距離加權插值算法(IDW),時間上采用最近鄰方法將其插值成為0.25°×0.25°的標準網(wǎng)格數(shù)據(jù)。然后利用衛(wèi)星插值數(shù)據(jù)和ERA-5 數(shù)據(jù)獲取訓練樣本后進行訓練,最終得到所需的XGBoost 模型,即修正融合風場模型。
3.2.1 修正融合方法
ERA-5 數(shù)據(jù)是全區(qū)域數(shù)據(jù),其風場數(shù)據(jù)既涵蓋了海洋區(qū)域,也包括了陸地區(qū)域。由于陸地風場和海洋風場的差異較大,詳細分析請見4.1 節(jié)。因此為了研究的科學性及其可靠性,本文采用4 種方法來對ERA-5 數(shù)據(jù)進行修正,具體方法如下:
方法1:風速、風向修正(全區(qū)域)即D_S_A_XGBoost 模型。在XGBoost 訓練的過程中,不區(qū)分海洋和陸地風場數(shù)據(jù),全部用來進行模型的訓練。
方法2:U、V修正(全區(qū)域)即U_V_A_XGBoost模型。與方法1 相同,訓練過程中不區(qū)分海洋和陸地風場數(shù)據(jù)。區(qū)別在于方法1 中使用的訓練數(shù)據(jù)為風速和風向,而方法2 中使用的訓練數(shù)據(jù)為U10 和V10,訓練結束后再合成風速和風向。
方法3:風速、風向修正(陸地掩碼)即D_S_O_XGBoost 模型。訓練過程中區(qū)分海洋和陸地風場數(shù)據(jù),即使用陸地掩碼將陸地風場數(shù)據(jù)剔除,不參與模型的訓練。
方法4:U、V修正(陸地掩碼)即U_V_O_XGBoost模型。與方法3 相同,訓練過程中區(qū)分海洋和陸地風場數(shù)據(jù)。不同點在于方法3 中使用的訓練數(shù)據(jù)為風速和風向,方法4 中使用的訓練數(shù)據(jù)為U10 和V10,訓練結束后再合成風速和風向進行修正。
3.2.2 樣本生成
噪聲與偏差、方差共同構成機器學習的泛化誤差[32]。噪聲普遍存在,具有隨機性和不可控性,例如數(shù)據(jù)采集儀器等帶來的隨機性偏差就是噪聲的一種,本文中海陸交界處的無效數(shù)據(jù)可視為衛(wèi)星觀測的噪聲。機器學習訓練允許且需要數(shù)據(jù)中噪聲的存在,由含噪聲數(shù)據(jù)訓練得到的模型通常更具有魯棒性,能夠更好地在未知分布數(shù)據(jù)上推理。
本文采用局部訓練,全局推理的方式進行研究。即使用所能獲取到的區(qū)域內樣本數(shù)據(jù)進行訓練,訓練得到的模型可以應用于整片區(qū)域。本文對于訓練樣本的獲取過程如圖2 所示。經(jīng)過插值處理后的衛(wèi)星數(shù)據(jù)與ERA-5 數(shù)據(jù)均為0.25°×0.25°的網(wǎng)格數(shù)據(jù),本文使用衛(wèi)星插值風場數(shù)據(jù)作為學習目標,選取衛(wèi)星插值格點及其周圍(5×5 窗口)的ERA-5 值作為訓練特征,進行訓練。圖2a 綠色點表示的是衛(wèi)星插值數(shù)據(jù),周圍5×5 格點為ERA-5 數(shù)據(jù),當ERA-5 數(shù)據(jù)在5×5 空間格點中全部存在時,那么就會得到如圖2b 的訓練樣本,若ERA-5 數(shù)據(jù)存在缺失,那么在該點就無法獲取到訓練樣本。本文使用的訓練樣本為2020 年12 月21日至2021 年1 月21 日數(shù)據(jù),測試數(shù)據(jù)為2021 年1 月31日衛(wèi)星初始數(shù)據(jù)以及修正前后的ERA-5 數(shù)據(jù)。在研究過程中,本文針對0 時和12 時數(shù)據(jù)分別訓練模型,即0 時刻修正模型以及12 時刻修正模型,其中訓練過程中使用的訓練集約400 000,驗證集約40 000,測試集約60 000。
圖2 訓練樣本生成Fig. 2 Generation of training samples
3.2.3 XGBoost 算法
集成學習通過構建并結合多個學習器來完成學習任務,比單一學習器獲得顯著優(yōu)越的泛化性能。XGBoost 是在梯度下降樹(Gradient Boosting Decision Tree,GBDT)的基礎上對boosting 算法進行的改進,由多棵決策樹迭代組成[33–36]。
XGBoost 算法的核心思想是每次構建一棵新樹來學習上次預測得到的殘差,即首先初始構建一棵樹來預測一個值,得到預測值與實際值的殘差,然后構建下一棵樹來學習殘差,直至構建K棵樹,并在訓練中對構建樹不斷優(yōu)化,算法的整體思路如圖3 所示。XGBoost 算法將訓練得到的各個決策樹預測值相加,得到模型最終的預測值。如公式所示:
圖3 XGBoost 模型訓練流程Fig. 3 Training flow of the XGBoost model
式中,y^i為模型對于第i個樣本的預測值;xi為 第i個樣本的標簽;K為分類回歸樹的數(shù)量;fk為第k棵樹模型函數(shù)。
本文采用均方根誤差(Root Mean Square Error,RMSE)、絕對誤差(Mean Absolute Error,MAE)、相關系數(shù)(R)、標準差(σ)以及中心均方根誤差(E')5 種誤差統(tǒng)計方法來對風速模型性能進行評估[21,37]。
對于風向來說,使用常規(guī)的RMSE 以及MAE 并不能夠很好地衡量研究結果,因此本文采用RMSEd以及MAEd[21]進行評價。
在數(shù)據(jù)獲取的過程中對ERA-5 風場數(shù)據(jù)中陸地部分和海洋部分進行分析,如圖4 所示,陸地風場的風速分布和海洋風場的風速分布存在著很大的不同。陸地風場整體風速較小,其分布峰值約為2.5 m/s,大部分風力等級在5 級風以下,而在海洋風場中,風速分布峰值在6~8 m/s 之間,整體分布在0 m/s 至20.0 m/s,并且6 級以上大風發(fā)生頻率較大。本文分析海洋中由于海面寬闊,沒有遮擋物,對空氣移動的摩擦力小,從而風速較大,陸地上由于地面粗糙,地形起伏,有植被及建筑物阻礙等對空氣移動的摩擦較大,導致風速較小。介于陸地風場和海洋風場分布的不同,本研究采用4 種修正方法來對風場進行修正,即3.2 節(jié)中提出的修正方法。
圖4 海陸風場風速統(tǒng)計直方圖Fig. 4 Histogram of wind speed statistics for sea and land wind fields
融合風場模型在(0°~45°N,100°E~180°)研究區(qū)域內進行機器推理,其中全區(qū)域內共計58 101 個點,在推理過程中由于5×5 窗口的存在,模型最終對56 109 個點進行修正。推理過程中模型輸入為ERA-5數(shù)據(jù),且在CPU 上進行,當前實驗使用的CPU 型號為Intel(R) Xeon(R) CPU E5-2 690 v4 @ 2.60GHz,單時刻推理平均用時約為2.1 s。
4.2.1 原始衛(wèi)星數(shù)據(jù)評價
在機器學習領域中,以未參與訓練的真值數(shù)據(jù)檢驗模型(模型測試與評價)必不可少。本文以ERA-5 風場數(shù)據(jù)作為輸入,以衛(wèi)星插值數(shù)據(jù)作為學習目標訓練融合模型,該模型期望從ERA-5 風場推理得出衛(wèi)星風場(本文稱為融合風場便于和衛(wèi)星真值相區(qū)分)。若推理得出的融合風場相較于ERA-5 風場更加接近衛(wèi)星原始數(shù)據(jù),即說明融合風場模型有效。所以本文以未參與模型訓練的衛(wèi)星原始數(shù)據(jù)進行測試評價。
一般機器學習的評價所用真值數(shù)據(jù)和模型推理數(shù)據(jù)處于同樣的網(wǎng)格點。融合模型推理得到數(shù)據(jù)處于ERA-5 的網(wǎng)格點,與衛(wèi)星原始數(shù)據(jù)位置并不一樣,而作為評價的衛(wèi)星原始數(shù)據(jù)是不能做任何插值處理的。本文是將融合風場數(shù)據(jù)再插值回到衛(wèi)星原始數(shù)據(jù)點進行比較。由于模型本身的學習目標是插值后衛(wèi)星數(shù)據(jù),而檢驗和評價卻使用衛(wèi)星原始數(shù)據(jù),這其實是超出一般機器學習檢驗的更高和更嚴的要求。如能在這一更高要求下,融合模型也能得到很好的結果,則說明該融合方法是有效的。
實驗中測試數(shù)據(jù)為2021 年1 月31 日00 時和12 時數(shù)據(jù),共計約130 000 個。實驗使用訓練完畢的XGBoost 模型對ERA-5 數(shù)據(jù)進行修正,得到修正后的ERA-5 數(shù)據(jù)分別插值到對應時間點的衛(wèi)星數(shù)據(jù)上,即將衛(wèi)星數(shù)據(jù)作為真值,計算RMSE 等,最終實驗結果如下所示。
(1)表1 和表2 展示了對于U_V_A_XGBoost 模型和D_S_A_XGBoost 模型的評價信息及結果。
表1 衛(wèi)星評價數(shù)據(jù)信息(全區(qū)域)Table 1 Satellite data information used in the test (whole region)
表2 全區(qū)域訓練模型評價結果Table 2 Evaluation results of the whole regional training model
(2)表3 和表4 展示了對于U_V_O_XGBoost 模型和D_S_O_XGBoost 模型的評價信息及結果。
表3 衛(wèi)星評價數(shù)據(jù)信息(陸地掩碼)Table 3 Satellite data information used in the test (land mask)
表4 陸地掩碼訓練模型評價結果Table 4 Evaluation results of land mask training model
對比表1 數(shù)據(jù)信息和表3 數(shù)據(jù)信息可以發(fā)現(xiàn),表3 中的MetOp-B 衛(wèi)星測試數(shù)據(jù)比表1 中MetOp-B 衛(wèi)星測試數(shù)據(jù)少,這是因為模型U_V_O_XGBoost和U_V_O_XGBoost 是基于陸地掩碼的模型,所以在測試的時候貼近陸地的衛(wèi)星數(shù)據(jù)可能無法進行評估,從而導致了測試數(shù)據(jù)減少。
從表2 中分析,對于風向來說,U_V_A_XGBoost 模型在MAEd方面表現(xiàn)最好,除了在MetOp-B 衛(wèi)星上有所上升,在HY-2B 和CFOSAT 衛(wèi)星上均下降,在RMSEd方面,D_S_A_XGBoost 模型的表現(xiàn)較好,但在2021 年1 月31 日12 時的測試樣例中,在MetOp-B 評價結果中出現(xiàn)了上升的情況,而U_V_A_XGBoost 模型表現(xiàn)穩(wěn)定,全部呈現(xiàn)下降趨勢。對于風速來說,不論是D_S_A_XGBoost 模型還是U_V_A_XGBoost 模型,在RMSE以及MAE 方面結果均下降。整體來說,U_V_A_XGBoost 模型的表現(xiàn)較穩(wěn)定。
從表4 進行分析,對于風向來說,U_V_O_XGBoost模型在MAEd方面表現(xiàn)最好,與表2 中U_V_A_XGBoost模型的表現(xiàn)類似,除了在MetOp-B 衛(wèi)星上有所上升,在HY-2B 和CFOSAT 衛(wèi)星結果中均下降,在RMSEd方面,D_S_O_XGBoost 模型表現(xiàn)整體要好于U_V_O_XGBoost 模型,但是同樣在2021 年1 月31 日12 時的測試樣例中,出現(xiàn)了上升的情況,而U_V_O_XGBoost 模型一直保持下降。對于風速來說,U_V_O_XGBoost 模型和D_S_O_XGBoost 模型均表現(xiàn)良好,不論是在RMSE還是在MAE 方面,測試結果均下降。整體來說,U_V_O_XGBoost 模型的穩(wěn)定性較好。
綜上所述,所有的模型在HY-2B 衛(wèi)星和CFOSAT衛(wèi)星上的測試結果表現(xiàn)良好,但是在MetOp-B 衛(wèi)星的風向修正方面表現(xiàn)不理想,研究分析認為,導致該現(xiàn)象的原因可能有兩點,一是ERA-5 再分析數(shù)據(jù)的制作過程中使用了MetOp-B 衛(wèi)星數(shù)據(jù),所以修正后的ERA-5 數(shù)據(jù)可能會與MetOp-B 衛(wèi)星數(shù)據(jù)偏差增大;二是HY-2B 衛(wèi)星和CFOSAT 衛(wèi)星都是中國參與研制并運行的衛(wèi)星,而MetOp-B 衛(wèi)星是歐洲衛(wèi)星,衛(wèi)星數(shù)據(jù)之間可能存在差異,模型的訓練過程中可能更加偏向了HY-2B 衛(wèi)星和CFOSAT 衛(wèi)星,所以導致MetOp-B 衛(wèi)星的模型結果不佳。根據(jù)表2 和表4 的模型結果發(fā)現(xiàn),使用U、V分量修正風速風向的研究方法在穩(wěn)定性上要好于使用直接風速風向進行修正的研究方法。
圖5 表示的是U_V_O_XGBoost 模型(模型選擇的具體原因參見4.2.2 節(jié))修正結果在HY-2B 衛(wèi)星、CFOSAT 衛(wèi)星以及MetOp-B 衛(wèi)星上的關于風向的展示,挑選的時間為2021 年1 月31 日12 時。其中圖中描述的是ERA-5數(shù)據(jù)的插值結果與該點上衛(wèi)星數(shù)據(jù)偏差的絕對值即MAEd,圖5a 和圖5b 表示HY-2B 衛(wèi)星效果圖,圖5c 和圖5d 表示CFOSAT 衛(wèi)星效果圖,圖5e 和圖5f 表示MetOp-B 衛(wèi)星效果圖。左側圖表示的是原始ERA-5數(shù)據(jù)與衛(wèi)星數(shù)據(jù)之間的偏差,右側圖表示的是修正后的ERA-5 數(shù)據(jù)與衛(wèi)星數(shù)據(jù)之間的偏差。圖6 為U_V_O_XGBoost 模型修正結果在HY-2B、CFOSAT 以及MetOp-B 衛(wèi)星上的關于風速的展示,所選時間為2021 年1 月31 日12 時。其中圖中描述的是ERA-5 數(shù)據(jù)的插值結果與該點上衛(wèi)星數(shù)據(jù)偏差的絕對值即MAE。圖6a 和圖6b 表示HY-2B 衛(wèi)星效果圖,圖6c 和圖6d 表示CFOSAT 衛(wèi)星效果圖,圖6e和圖6f 表示MetOp-B 衛(wèi)星效果圖。
圖5 ERA-5 修正的風向效果圖Fig. 5 Wind direction effect diagram of ERA-5 correction experiment
圖6 ERA-5 修正的風速效果圖Fig. 6 Wind speed effect diagram of ERA-5 correction experiment
4.2.2 浮標評價
本文使用浮標數(shù)據(jù)對ERA-5 數(shù)據(jù)的修正方法進行評價,選取的浮標為經(jīng)緯度在8°N,165°E,距離海面4 m 高的TAO 浮標,選取的時間范圍為2020 年12 月至2021 年1 月共計兩個月的數(shù)據(jù)。本文剔除與浮標風速相差3 倍標準差的數(shù)據(jù),并剔除與浮標風向相差大于90°的數(shù)據(jù)[21,38],原因在于本文認定該點數(shù)據(jù)可能存在較為明顯的誤差,該點數(shù)據(jù)可能會對整體的數(shù)據(jù)評價造成較大的影響。最終ERA-5 數(shù)據(jù)與浮標數(shù)據(jù)匹配后得到123 個測試樣例,計算相關系數(shù)等評價指標,結果如圖7 所示。
圖7 風速泰勒圖Fig. 7 Tyler diagram of wind speed
圖7 中展示的是4 個模型方法的結果和原始ERA-5 風速數(shù)據(jù)與浮標風速數(shù)據(jù)之間的差異,從圖中可以看出,使用U_V_O_XGBoost 模型修正的ERA-5 數(shù)據(jù)與浮標數(shù)據(jù)的相關系數(shù)最高,中心均方根誤差最小,整體結果要好于原始ERA-5 數(shù)據(jù)的結果,意味著生成的融合風場數(shù)據(jù)更加接近浮標數(shù)據(jù)。
圖8 表示的是浮標數(shù)據(jù)與ERA-5 原始數(shù)據(jù)以及U_V_O_XGBoost 模型修正后的融合風場數(shù)據(jù)的匹配情況。從圖中可以看出風速在不同時刻差異明顯,例如風速可以從5 m/s 迅速增到9 m/s,同樣可以從約13 m/s 迅速減小到5 m/s,風速前后相差較大。通過觀察發(fā)現(xiàn),在圖中黑框區(qū)域,修正融合風場數(shù)據(jù)與浮標數(shù)據(jù)的差距明顯減小,表明修正融合風場數(shù)據(jù)更加接近浮標數(shù)據(jù)。圖9 中分別表示的是ERA-5 數(shù)據(jù)與浮標數(shù)據(jù)的風速相關性以及融合風場與浮標數(shù)據(jù)的風速相關性。從圖9 中可以看出融合風場風速相較于ERA-5 數(shù)據(jù)來說相關系數(shù)有所提高。
圖8 浮標數(shù)據(jù)與ERA-5 數(shù)據(jù)的風速對比Fig. 8 Comparison of wind speed between buoy data and ERA-5 data
圖9 風速散點圖Fig. 9 Scatter plot about wind speed
本文采用Adaboost 以及Random Forest 算法進行風場融合研究,與XGBoost 方法進行比較,結果如表5 所示,其中相關系數(shù)、均方根誤差以及標準差的計算公式在第4 章進行了說明。從表中可以看出,Adaboost、Random Forest 以及XGBoost 等算法生成的融合風場數(shù)據(jù)相比ERA-5 數(shù)據(jù)來說與浮標的相關系數(shù)均有所提高,即更加接近于浮標數(shù)據(jù),且XGBoost 算法相對來說效果最好。
表5 不同機器學習算法風場融合結果Table 5 Wind field fusion results of different machine learning algorithms
4.2.3 融合時間對比
本文目的在于降低風場融合的硬件要求,提高融合速度,且保證融合風場的質量。因此本文對融合時間進行統(tǒng)計對比,數(shù)據(jù)結果如表6 所示。表中XGBoost 表示的是本文采用XGBoost 模型針對單一風場要素進行海面風場融合的方法,插值方法表示的是采用傳統(tǒng)的IDW 方法針對單一風場要素進行海面風場融合。本文在0°~45°N ,0°~180°區(qū)域共計58 101個網(wǎng)格點進行海面風場融合,針對1 個月數(shù)據(jù)共計60 次融合時間進行統(tǒng)計分析,結果如表6 所示。XGBoost 模型方法融合時間明顯優(yōu)于傳統(tǒng)插值方法。
表6 融合時間對比Table 6 Comparison of fusion time
本文以ERA-5 數(shù)據(jù)作為模型輸入,以衛(wèi)星插值數(shù)據(jù)作為學習目標進行模型訓練,得到海面風場修正融合模型,最終采用訓練完畢的海面風場修正融合模型進行推理,得到融合風場。圖10 中表示的是2021 年1 月30 日00 時的融合情況,從圖10 中可以看出衛(wèi)星數(shù)據(jù)與ERA-5 數(shù)據(jù)以及融合風場數(shù)據(jù)均具有大致相同的數(shù)據(jù)分布。從上述3 處風場分布來看,融合風場數(shù)據(jù)更加貼近衛(wèi)星數(shù)據(jù),即風速達到12.5 m/s 以上的區(qū)域中融合風場更加接近衛(wèi)星數(shù)據(jù)分布情況。圖11展示的是融合風場中風速在2021 年1 月27 日12 時至2021 年1 月31 日12 時的連續(xù)時空分布情況,其時間分辨率為12 h,圖12 展示的是該時間段融合風場整體分布情況,由圖可以看出該時段西北太平洋區(qū)域風場多為東北風或西北風。
圖10 風速對比圖Fig. 10 Comparison chart of wind speed data
圖11 融合風速效果圖Fig. 11 The effect of wind speed after fusion
圖12 融合風場效果圖Fig. 12 Rendering of the fusion wind field
本文使用CFOSAT 衛(wèi)星、HY-2B 衛(wèi)星、MetOp-B衛(wèi)星數(shù)據(jù)以及ERA-5 再分析數(shù)據(jù),利用傳統(tǒng)機器學習XGBoost 在研究區(qū)域(0°~45°N,100°E~180°)內進行生成融合風場的研究。研究首先以衛(wèi)星數(shù)據(jù)作為學習目標,將ERA-5 數(shù)據(jù)作為模型輸入訓練得到修正融合風場生成模型,然后利用融合風場生成模型進行機器推理最終得到全區(qū)域空間分辨率為0.25°×0.25°,時間分辨率為12 h 的融合風場。其中,在機器推理過程中,生成單時刻全區(qū)域融合風場的時間僅需要約2 s,相比較傳統(tǒng)融合方法來說,該模型方法更加快速高效。文中共提出4 種模型進行融合風場的研究,結論如下:
(1)使用U、V分量修正風速風向的研究方法比直接修正風速風向的研究方法在結果上更加穩(wěn)定。
(2) U_V_O_XGBoost 模型得到的融合風場數(shù)據(jù)在風速方面最為接近浮標數(shù)據(jù),同時風場修正結果穩(wěn)定。
(3)研究中出現(xiàn)了修正融合結果在MetOp-B 衛(wèi)星風向方面上升,在HY-2B 衛(wèi)星和CFOSAT 衛(wèi)星表現(xiàn)良好的情況,分析得到HY-2B 衛(wèi)星和CFOSAT 衛(wèi)星均為中國參與研制并運行,而MetOp-B 衛(wèi)星為歐洲氣象衛(wèi)星,兩者存在差異,該差異導致了模型在學習過程中出現(xiàn)偏向。
總而言之,傳統(tǒng)機器學習方法在對ERA-5 再分析數(shù)據(jù)修正融合的過程中,能夠有效地學習到衛(wèi)星數(shù)據(jù)的分布特征,使得修正融合后的風場數(shù)據(jù)更加貼近研究區(qū)域內衛(wèi)星數(shù)據(jù)分布,從而提高生成的融合風場的質量。對于目前,深度學習取得了重大進展,深度學習擅長抽取高維數(shù)據(jù)的復雜結構,通過足夠多的數(shù)據(jù)和組合,學習到非常復雜的函數(shù)關系[39]。因此本文下一步準備將深度學習方法應用到融合風場的研究中,提高融合風場精度。