鄧澤貴,李醒飛,楊少波
(1.天津大學(xué)精密測量技術(shù)與儀器國家重點(diǎn)實(shí)驗(yàn)室,天津 300072;2.青島海洋科學(xué)與技術(shù)試點(diǎn)國家實(shí)驗(yàn)室,山東 青島 266003;3.天津大學(xué)青島海洋技術(shù)研究院,山東 青島 266200)
海洋是一座巨大的資源寶庫,海洋覆蓋面積占了全球表面積的70.8%。為了加強(qiáng)對海洋的利用,我們需要對海洋環(huán)境進(jìn)行準(zhǔn)確的分析、模擬和預(yù)報。海浪是最重要的海洋環(huán)境之一,有效波高是其主要的衡量參數(shù),因此對海浪的分析我們可以從一定程度上轉(zhuǎn)化為對有效波高(SWH, Significant Wave Height)的分析。精準(zhǔn)的有效波高預(yù)測不僅能為海洋工程和航行提供重要的海洋氣象參考條件,還能減少海洋環(huán)境對軍事作戰(zhàn)造成的影響。例如海浪在潛艇工作時就直接影響著潛艇近水面的穩(wěn)定性,巨大的海浪對其他軍事設(shè)備甚至航母的穩(wěn)定性也有著一定的影響。從能源角度來看,隨著化石能源的快速消耗,可再生能源成為了全人類關(guān)注的焦點(diǎn)。波浪能作為一種清潔并且分布廣泛的可再生能源,相比于太陽能和風(fēng)能擁有更高的可預(yù)測性和更高的能量密度,對其進(jìn)行有效利用與開發(fā)具有的巨大商業(yè)價值和環(huán)境價值[1]。并且波浪能與有效波高的平方成正比,因此精準(zhǔn)的有效波高預(yù)測可以為波浪能的有效利用與轉(zhuǎn)化提供重要參考依據(jù)。
由于受到復(fù)雜海洋環(huán)境和自然混沌現(xiàn)象的影響,有效波高的精準(zhǔn)預(yù)測極為困難。目前國內(nèi)對有效波高預(yù)測的研究還較少,國外在上世紀(jì)就已經(jīng)開始有效波高的預(yù)測研究。對于有效波高的預(yù)測可以分為兩大類,分別是基于能量平衡方程的數(shù)值海浪模型和以數(shù)據(jù)作為研究對象的數(shù)據(jù)驅(qū)動模型。例如第一個業(yè)務(wù)化海浪預(yù)測的模型Wave Model(WAM),適用于近海岸模擬的Simulating Waves Nearshore (SWAN),基于WAM的WAVEWATCH III都是基于能量平衡方程的[2-4]。這類模型由于復(fù)雜的輸入與物理模型本身的復(fù)雜度,其運(yùn)行速度極慢。在這種情況下,經(jīng)典時間序列模型自回歸模型(AR, Autoregressive Model)、移動自回歸模型(ARMA, Autoregressive moving average model)、差分整合移動平均自回歸模型(ARIMA, Autoregressive Integrated Moving Average model)分別被Soares C G、Fusco F、Ge M等人應(yīng)用到有效波高的預(yù)測中[5-7]。近年來,隨著機(jī)器學(xué)習(xí)的蓬勃發(fā)展,許多機(jī)器學(xué)習(xí)模型被應(yīng)用到有效波高的預(yù)測中。Deo M C和Makarynskyy O都研究了神經(jīng)網(wǎng)絡(luò)(ANN, Artificial Neural networks)在有效波高上的預(yù)測性能[8-9]。Cornejo-Bueno L采用遺傳算法(GA, Genetic Algorithm)結(jié)合極限學(xué)習(xí)機(jī)(ELM, Extreme Learning Machine)來預(yù)測有效波高[10]。Kumar N K提出了多個ELM集成的方式預(yù)測有效波高[11]。Mahjoobi J將風(fēng)速和有效波高作為支持向量機(jī)(SVM, Support Vector Machine)的輸入來預(yù)測有效波高[12]。Elbisy M S提出支持向量機(jī)(SVM)結(jié)合遺傳算法(GA)的組合模型來預(yù)測有效波高[13]。Salcedo-Sanz S使用了支持向量回歸(SVR, Support Vector Regression)來預(yù)測有效波高[14]。模糊K近鄰算法被Nikoo M R用來預(yù)測廣闊湖面的有效波高[15]。
然而目前的有效波高預(yù)測研究都是基于不同的數(shù)據(jù)集,無法合理地評估各種模型的預(yù)測性能。為了準(zhǔn)確地評估機(jī)器學(xué)習(xí)模型在有效波波高預(yù)測中的表現(xiàn),本文研究了線性回歸(LR, Linear Regression),支持向量回歸(SVR),神經(jīng)網(wǎng)絡(luò)(ANN),K近鄰(KNN, k-Nearest Neighbor),決策樹(DT, Decision Tree),隨機(jī)森林(RF, Random Forest)六種經(jīng)典機(jī)器學(xué)習(xí)模型在同一個數(shù)據(jù)集上的預(yù)測性能。同時本文的研究對以后有效波高預(yù)測模型及其驅(qū)動數(shù)據(jù)的選擇提供了一定的參考。本文的安排如下:在第一部分介紹有效波高預(yù)測的意義以及相關(guān)論文的回顧;第二部分簡單地介紹了六種模型的主要思想并分析了原始數(shù)據(jù);第三部分進(jìn)行了相關(guān)實(shí)驗(yàn)對比;第四部分對本文進(jìn)行了總結(jié)。
線性回歸(LR)可由公式(1)表示,其中w=(w1,w2,...,wn),b表示截距項(xiàng),x表示輸入特征向量,w和b學(xué)得之后,模型就確定了。一般通過最小化模型在給定數(shù)據(jù)集上預(yù)測的均方誤差求解w和b。支持向量回歸公式與線性回歸類似,但支持向量機(jī)是通過間隔最大化思想來求解參數(shù),并且可以通過引入核函數(shù)的方法使模型具有非線性能力。神經(jīng)網(wǎng)絡(luò)幾乎可以擬合任何線性和非線性函數(shù),對于只有一個隱藏層神經(jīng)網(wǎng)絡(luò),它的前向傳播表達(dá)式如(2)所示,其中x為輸入特征向量;w1、w2為權(quán)重矩陣;b1、b2為偏置;h為隱藏層節(jié)點(diǎn);y′為神經(jīng)網(wǎng)絡(luò)輸出結(jié)果;σ(·)表示激活函數(shù)。其優(yōu)化目標(biāo)可以自己定義,一般通過梯度下降法來求解權(quán)重矩陣和偏置。K近鄰是一種無參數(shù)學(xué)習(xí)的算法,被認(rèn)為是“懶惰學(xué)習(xí)”的著名代表。K近鄰算法的思想很簡單,當(dāng)一個新的樣本需要預(yù)測時,我們只需要在給定數(shù)據(jù)集中找出K個離它最近的樣本,然后將這K個樣本標(biāo)簽的平均值作為新樣本的預(yù)測值。決策樹是一種常見的機(jī)器學(xué)習(xí)算法,它以樹為基礎(chǔ)結(jié)構(gòu),通過對一系列特征的連續(xù)判斷來得到結(jié)果。隨機(jī)森林則是以決策樹為基學(xué)習(xí)器的集成學(xué)習(xí)模型,通過學(xué)習(xí)出m個子決策樹,最終以這m個子決策樹預(yù)測值的加權(quán)作為最終輸出[16-17]。
f(x)=wx+b
(1)
(2)
用于有效波高分析的數(shù)據(jù)通常來源于浮標(biāo)實(shí)測數(shù)據(jù),衛(wèi)星高度計數(shù)據(jù)或再分析數(shù)據(jù)。其中浮標(biāo)數(shù)據(jù)較為準(zhǔn)確數(shù)據(jù),但浮標(biāo)數(shù)量有限,難以提供完整的區(qū)域數(shù)據(jù)。衛(wèi)星高度計數(shù)據(jù)和再分析數(shù)據(jù)雖然能提供完整的區(qū)域數(shù)據(jù),但準(zhǔn)確率稍低。由于本文研究的是單點(diǎn)有效波高預(yù)測,所以我們選擇了美國National Data Buoy Center (https://www.ndbc.noaa.gov) 公開的浮標(biāo)數(shù)據(jù)。其中浮標(biāo)44013提供每小時的標(biāo)準(zhǔn)氣象數(shù)據(jù),并且數(shù)據(jù)較為完整,因此我們選用此浮標(biāo)2013年到2018年的數(shù)據(jù)作為我們的驅(qū)動數(shù)據(jù)。其中選取的數(shù)據(jù)包括風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫五項(xiàng)參數(shù)。浮標(biāo)44013的位置信息、水深及有效波高數(shù)據(jù)的最小值、最大值、平均值、方差如表1所示。
表1 浮標(biāo)44013的統(tǒng)計信息
圖1是編號為44013的浮標(biāo)2013年到2018年有效波高曲線圖。從圖1可以看到,有效波高具有明顯的年周期性,并且每一年有效波高呈現(xiàn)出一定的季節(jié)特性,在春、冬兩季有效波高數(shù)值較大且變化劇烈,相比之下在夏、秋兩季有效波高數(shù)值較小且變化平穩(wěn)。為了充分利用浮標(biāo)44013的數(shù)據(jù)來準(zhǔn)確評估第二節(jié)的六種機(jī)器學(xué)習(xí)模型的預(yù)測性能,本文設(shè)計了三部分實(shí)驗(yàn):第一部分實(shí)驗(yàn)以月為單位研究了未來一小時的有效波高預(yù)測;第二部分實(shí)驗(yàn)以季節(jié)為單位研究了未來一天的日平均有效波高的預(yù)測;第三部分實(shí)驗(yàn)以季節(jié)為單位研究了未來一天的日最大有效波高的預(yù)測。
圖1 浮標(biāo)44013 2013年到2018的有效波高曲線圖
(3)
(4)
(5)
(6)
(7)
(8)
在本文實(shí)驗(yàn)中所有模型都以歷史數(shù)據(jù)作為輸入。從圖1的有效波高圖可以看出有效波高存在一定年周期性與季節(jié)性。因此這部分實(shí)驗(yàn)使用2013到2018年春、夏、秋、冬的3、6、9、12月的數(shù)據(jù)作為模型驅(qū)動數(shù)據(jù),其中2013年到2017年的數(shù)據(jù)作為訓(xùn)練集,2018年的數(shù)據(jù)作為測試集,最終評估經(jīng)過訓(xùn)練的模型在測試集上的表現(xiàn)。并且在這部分實(shí)驗(yàn)中還對比了僅使用歷史有效波高數(shù)據(jù)和使用歷史風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫五項(xiàng)參數(shù)作為模型輸入的預(yù)測結(jié)果,在接下來內(nèi)容中簡稱為單特征和多特征。由于模型的預(yù)測性能與模型參數(shù)有關(guān),因此模型的主要參數(shù)都在附錄中給出。
在僅使用單特征的有效波高預(yù)測中,以2013年到2017年每年3月有效波高數(shù)據(jù)作為訓(xùn)練集,以2018年3月份數(shù)據(jù)作為測試集,并且采取歷史24小時有效波高預(yù)測未來一小時有效波高的方式。在使用多特征預(yù)測未來一小時有效波高時,本文研究了模型在風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫五種特征下的預(yù)測性能,且采用歷史12小時五項(xiàng)參數(shù)預(yù)測未來一小時有效波高。實(shí)驗(yàn)結(jié)果如表2所示,其中括號內(nèi)的百分?jǐn)?shù)表示模型在各個指標(biāo)上相對于持續(xù)性預(yù)測的提升,粗體的數(shù)字表示各個評價指標(biāo)的最優(yōu)值??梢悦黠@看出LR、SVR、ANN三種模型的在各項(xiàng)指標(biāo)上面都優(yōu)于KNN、DT、RF三種模型。其中ANN模型表現(xiàn)最好,在使用多特征時,其MAE、MAPE、RMSE分別僅為0.1354、0.0681、0.2059 m,R2指標(biāo)達(dá)到了0.9840。并且相對于持續(xù)性預(yù)測法,ANN模型的MAE、MAPE、RMSE指標(biāo)提升均超過了10%。相比之下,KNN、DT、RF三種模型的表現(xiàn)甚至不如持續(xù)性預(yù)測法。其中KNN算法的各項(xiàng)評估指標(biāo)最差,其MAE、MAPE、RMSE分別為0.3758、0.2137、0.5759 m,而R2僅為0.8750。通過比較各模型在使用單特征和多特征時的預(yù)測結(jié)果可以發(fā)現(xiàn),在使用多特征后,除KNN和DT外的四種模型基本都取得了更可靠的預(yù)測結(jié)果。表3展示了六種模型的訓(xùn)練時間,可以看到LR、KNN兩組模型的訓(xùn)練時間最短且小于0.1 s,而ANN的訓(xùn)練時間最長,在使用多特征時達(dá)到了54.74 s。在使用單特征時,SVR的訓(xùn)練時間僅為0.24 s,而在使用多特征時,SVR的訓(xùn)練時間為25.27 s,增加了大約100倍。
表2 LR、SVR、ANN、KNN、DT、RF六種模型提前一小時有效波高預(yù)測結(jié)果及其相對提升-2018年3月
表3 LR、SVR、ANN、KNN、DT、RF六種模型的訓(xùn)練時間
圖2展示了六種機(jī)器學(xué)習(xí)模型僅使用單特征時在 2018年3月的有效波高觀測值與預(yù)測值,其中觀測值以散點(diǎn)表示,預(yù)測值以曲線形式表示。同樣可以看出LR、SVR、ANN三種模型的預(yù)測值曲線非常接近觀測值,其中ANN模型的預(yù)測值曲線很好地擬合了幾個極端的觀測值。相比之下KNN、DT、RF三種模型的預(yù)測值曲線在一定程度上偏離了觀測值散點(diǎn),尤其是在第一個峰值附近,KNN、DT、RF三種模型都給出了一個較低的預(yù)測值,其中KNN算法的預(yù)測曲線相比于觀測值在大多數(shù)時候都存在明顯偏離。圖3給出了多特征條件下六種模型在2018年3月預(yù)測值與真實(shí)值散點(diǎn)圖,同樣可看到LR、SVR、ANN三種模型的散點(diǎn)圖比較接近理想擬合直線,而KNN模型的散點(diǎn)圖偏離理想擬合直線最大,其擬合斜率僅為0.8785。
圖2 2018年3月有效波高的觀測值和預(yù)測值曲線
圖3 使用多特征時六種模型在2018年3月的有效波高觀測值與預(yù)測值散點(diǎn)圖
為了研究季節(jié)對模型性能的影響,我們還對比了機(jī)器學(xué)習(xí)模型在2018年6月、9月、12月的有效波高預(yù)測性能。與2018年3月份有效波高預(yù)測類似,模型在2018年6月、9月、12月的預(yù)測結(jié)果如表4所示。從表4可以看到,LR、SVR、ANN三種模型的預(yù)測性能表現(xiàn)仍然明顯好于KNN、DT、RF三種模型。其中ANN和LR模型表現(xiàn)較為穩(wěn)定,相比于持續(xù)性預(yù)測法在各項(xiàng)指標(biāo)上面均有明顯提升,而SVR模型在MAE和MAPE指標(biāo)上面出現(xiàn)了不同的下降。KNN、DT、RF三種模型的預(yù)測指標(biāo)總體來說不如持續(xù)性預(yù)測法,僅RF模型在使用多特征預(yù)測2018年12月份有效波高時優(yōu)于持續(xù)性預(yù)測法。通過比較模型在使用單特征和多特征時的預(yù)測結(jié)果可以看到,LR、SVR、ANN、RF四種模型使用多特征作為模型輸入后都能減少模型的預(yù)測誤差。在6月、9月、12月的有效波高預(yù)測中,所有模型對于6月的預(yù)測誤差最低。其中ANN模型在使用多特征預(yù)測2018年6月有效波高時的MAE、RMSE分別僅為0.0433 m和0.0647 m。
表4 LR、SVR、ANN、KNN、DT、RF六種模型提前一小時有效波高預(yù)測結(jié)果及其相對提升-2018年6月、9月、12月
日平均有效波高同樣也是海浪參數(shù)的一種重要表現(xiàn)形式,因此這部分實(shí)驗(yàn)研究了機(jī)器學(xué)習(xí)模型在日平均有效波高上的預(yù)測性能。相比每小時有效波高,日平均有效波高的時間分辨率變成了一天,因此其預(yù)測難度更大。并且從上一部分的實(shí)驗(yàn)可以看到使用多特征通常會提高模型預(yù)測準(zhǔn)確率。為了降低日平均有效波高的預(yù)測誤差,這部分實(shí)驗(yàn)都采用多特征來預(yù)測日平均有效波高。對于日平均有效波高的預(yù)測,我們以季節(jié)為單位來評估各模型的預(yù)測性能。以2013年到2017年的數(shù)據(jù)作為訓(xùn)練集,2018年春、夏、秋、冬四個季節(jié)的數(shù)據(jù)作為測試集。由于原始數(shù)據(jù)的時間分辨率為小時,因此我們對每天24小時的數(shù)據(jù)進(jìn)行平均得到日平均數(shù)據(jù)。以前6天風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫的日平均數(shù)據(jù)加上前24小時有效波高作為模型的輸入,以未來一天日平均有效波高作為模型輸出進(jìn)行訓(xùn)練與測試,主要以三種誤差指標(biāo)及其相對提升百分比作為評判標(biāo)準(zhǔn)。
通過實(shí)驗(yàn)得到模型在2018年春、夏、秋、冬的預(yù)測結(jié)果如表5所示??梢钥吹絊VR、ANN、RF三種模型的表現(xiàn)較好,LR和DT兩組模型表現(xiàn)一般,KNN模型仍然表現(xiàn)最差。在預(yù)測2018年夏季日平均有效波高時,SVR的MAE、MAPE、RMSE的三種指標(biāo)最好,分別是0.1770、0.2620、0.2862 m。在預(yù)測2018年秋季日平均有效波高時,ANN的MAE、MAPE、RMSE的三種指標(biāo)最好,分別是0.1340、0.1959、0.2184 m。從各模型相對于持續(xù)性預(yù)測法在各個指標(biāo)的提升上來看,ANN在三種指標(biāo)上面都獲得了穩(wěn)定的提升。而SVR和RF模型的MAPE指標(biāo)在秋季都出現(xiàn)了下降,分別下降了3.02%和14.64%。從各模型在四個季節(jié)的預(yù)測結(jié)果來看,模型在春、冬兩季的預(yù)測結(jié)果明顯差于夏、秋兩季的預(yù)測結(jié)果。但在各模型在春、冬兩季的相對提升百分比要遠(yuǎn)大于夏、秋兩季??梢钥吹?,在春季和冬季時KNN、DT、RF三種模型都好于持續(xù)性預(yù)測法。圖4展示了六種模型在2018年春季的日平均有效波高預(yù)測值與真實(shí)值曲線,可以看到除KNN外的五種模型基本都把握住了日平均有效波高的變化趨勢。在日平均有效波高較大的時刻,LR和SVR模型給出了一個較大的預(yù)測值,而ANN和DT模型則是給出了一個較為保守的預(yù)測值。
圖4 六種模型在2018年春季的日平均有效波高觀測值與預(yù)測值曲線圖
表5 LR、SVR、ANN、KNN、DT、RF六種模型提前一天日平均有效波高預(yù)測結(jié)果及其相對提升-2018年春、夏、秋、冬
在海洋中,日最大有效波高與人員安全,設(shè)備可靠性緊密相關(guān)。因此這部分實(shí)驗(yàn)研究了機(jī)器學(xué)習(xí)模型在日平均有效波高上的預(yù)測性能。與日平均有效波高相比,日最大有效波高屬于極端值,其預(yù)測難度更大。對于日最大有效波高的預(yù)測,我們同樣以季節(jié)為單位來評估各模型的預(yù)測性能。以2013年到2017年的數(shù)據(jù)作為訓(xùn)練集,2018年春、夏、秋、冬四個季節(jié)的數(shù)據(jù)作為測試集。以前6天風(fēng)速、有效波高、主導(dǎo)波周期、平均波周期、水溫的日最大值加上前24小時有效波高作為模型的輸入,以未來一天日最大有效波高作為模型輸出進(jìn)行訓(xùn)練與測試。表6列出了模型的日最大有效波高預(yù)測性能,可以明顯的看到,ANN模型的預(yù)測性能最好,SVR和RF兩種模型表現(xiàn)一般,LR、DT、KNN三種模型表現(xiàn)較差。并且季節(jié)對模型預(yù)測能力的影響仍然存在,在夏季和秋季模型的預(yù)測誤差都比春季和冬季低。這是因?yàn)樵诖杭竞投居行Рǜ呦鄬^大且變化更為劇烈,在這種情況下模型很難學(xué)習(xí)到一個普遍適用于所有時刻的規(guī)律。在預(yù)測2018年秋季日最大有效波高時,ANN模型的MAE和MAPE指標(biāo)最低,僅為0.1973 m和0.2117 m;RF模型RMSE指標(biāo)最低,僅為0.3302 m。從相對提升指標(biāo)來看,ANN和SVR模型能夠獲得穩(wěn)定的提升,而KNN和LR模型則在多個指標(biāo)上出現(xiàn)了下降。圖5展示了六種模型在2018年春季的日最大有效波高預(yù)測值與真實(shí)值曲線,可以看到KNN和DT兩種模型的預(yù)測值和真實(shí)值曲線偏離較大。相比之下SVR、ANN、RF模型基本能夠預(yù)測到日最大有效波高的變化趨勢。
圖5 六種模型在2018年春季的日最大有效波高觀測值與預(yù)測值曲線圖
表6 LR、SVR、ANN、KNN、DT、RF六種模型提前一天日平均有效波高預(yù)測結(jié)果及其相對提升-2018年春、夏、秋、冬
作為海浪的關(guān)鍵參數(shù),有效波高在波浪能利用,海事活動規(guī)劃,海洋探索等方面扮演著重要角色。準(zhǔn)確的有效波高不僅可以促進(jìn)波浪能的有效利用,還能為海洋活動提供重要的氣象參考依據(jù)。本文研究了LR、SVR、ANN、KNN、DT、RF六種機(jī)器學(xué)習(xí)模型對于有效波高的預(yù)測表現(xiàn),實(shí)驗(yàn)分為提前一小時有效波高預(yù)測、提前一天日平均有效波高預(yù)測和提前一天日最大有效波高預(yù)測三部分。從實(shí)驗(yàn)結(jié)果來看:
(1) 在預(yù)測未來一小時有效波高時,LR、SVR、ANN三種模型都能取得較好的預(yù)測指標(biāo),相對于持續(xù)性預(yù)測法基本都能取得明顯提升,其中ANN的四種預(yù)測指標(biāo)普遍是最優(yōu)的。而KNN、DT、RF三種模型的表現(xiàn)較差,甚至不如持續(xù)性預(yù)測法,其中KNN表現(xiàn)極差。在使用多特征后,除KNN和DT外的四種模型都能取得明顯的提升。
(2) 在預(yù)測未來一天日平均有效波高時,SVR、ANN、RF三種模型表現(xiàn)較好且差距不明顯。在夏季時SVR模型的各項(xiàng)指標(biāo)是最優(yōu)的,在秋季時ANN的各項(xiàng)指標(biāo)是優(yōu)的,在冬季時RF模型的MAE和RMSE指標(biāo)最好。相比之下,KNN模型表現(xiàn)仍然最差,預(yù)測值與觀測值存在較大偏差。在預(yù)測未來一天日最大有效波高時,ANN模型在大多數(shù)時候都取得了最優(yōu)的預(yù)測指標(biāo),SVR和RF次之,LR、KNN、DT三種模型表現(xiàn)較差。并且SVR和ANN模型相對于持續(xù)性預(yù)測法都有著穩(wěn)定的提升,而RF模型僅在春冬兩季提升比較明顯。
(3) 在時間耗費(fèi)上,LR和KNN兩中模型由于其結(jié)構(gòu)簡單訓(xùn)練速度極快,都低于0.1 s。而ANN作為一個相對復(fù)雜的模型,其訓(xùn)練時間最長,達(dá)到了幾十秒。在輸入維度增加時,SVR的訓(xùn)練時間會急速增加,而其余模型的訓(xùn)練時間增長平緩。
(4) 從所有實(shí)驗(yàn)來看,在春冬兩季模型的預(yù)測誤差都大于夏秋兩季,但相對于持續(xù)性預(yù)測法的提升在春冬兩季更為明顯。并且在所有實(shí)驗(yàn)中,多DT集成的RF模型明顯優(yōu)于單一的DT模型。在三種預(yù)測任務(wù)中,未來一小時有效波高預(yù)測誤差最低,未來一天日最大有效波高預(yù)測誤差最大。
綜上,在預(yù)測未來一小時有效波高時,LR和SVR訓(xùn)練速度快且結(jié)果較好,ANN則擁有稍好的預(yù)測準(zhǔn)確率。在日平均有效波高預(yù)測中SVR、ANN、RF都能提供相對可靠的穩(wěn)定結(jié)果,其中RF速度最快。在日最大有效波高預(yù)測時,ANN總是優(yōu)于 SVR、RF,但三種模型差距不大??傮w來看,ANN是最穩(wěn)定的模型,通常都能獲得最優(yōu)的預(yù)測指標(biāo),而KNN和DT都不是最優(yōu)的選擇。因此在以后基于機(jī)器學(xué)習(xí)的有效波高預(yù)測中,模型的選擇起著至關(guān)重要的作用。在本文實(shí)驗(yàn)中,模型輸入都只選用了單點(diǎn)氣象數(shù)據(jù),而沒有考慮目標(biāo)點(diǎn)周圍的影響,考慮空間相關(guān)性的有效波高預(yù)測將是接下的一個重要研究方向。多模型集成的方式可以在一定程度上提高有效波高預(yù)測的精準(zhǔn)度。另外本文研究的都是單模型的預(yù)測性能,要想提升模型預(yù)測有效波高的精準(zhǔn)度可以結(jié)合一些其他技術(shù),例如促進(jìn)參數(shù)尋優(yōu)的遺傳算法、粒子群算法等;分解原始有效波高序列的小波變換、經(jīng)驗(yàn)?zāi)B(tài)分解等。