国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)的XGBoost模型預(yù)測(cè)南太平洋長(zhǎng)鰭金槍魚(yú)資源豐度

2022-05-08 13:26:10袁紅春高子玥張?zhí)祢?/span>
海洋湖沼通報(bào) 2022年2期
關(guān)鍵詞:金槍魚(yú)模擬退火誤差

袁紅春,高子玥,張?zhí)祢?/p>

(上海海洋大學(xué) 信息學(xué)院,上海 201306)

引 言

近年來(lái),我國(guó)在南太平洋捕撈漁船大量增加,南太平洋長(zhǎng)鰭金槍魚(yú)(Thunnus alalunga)已成為我國(guó)遠(yuǎn)洋延繩釣漁業(yè)的重要捕撈對(duì)象之一。漁場(chǎng)預(yù)報(bào)是漁情預(yù)報(bào)的重要內(nèi)容[1],漁場(chǎng)預(yù)報(bào)準(zhǔn)確性的提高有助于漁業(yè)生產(chǎn)企業(yè)合理安排漁業(yè)生產(chǎn),縮短尋找漁場(chǎng)的時(shí)間,達(dá)到降低成本、提高漁獲產(chǎn)量的目的。

目前,預(yù)測(cè)效果較好的資源豐度回歸預(yù)測(cè)模型主要有線(xiàn)性回歸[2-3]、決策樹(shù)[4-5]、神經(jīng)網(wǎng)絡(luò)[6-7]等。陳芃[2]等建立了多元線(xiàn)性回歸模型(Multiple Linear Regression),以資源量為指標(biāo)對(duì)東南太平洋秘魯鳀進(jìn)行資源豐度預(yù)測(cè),線(xiàn)性回歸也是目前用的最多的資源豐度預(yù)測(cè)方法;魏廣恩[5]等采用隨機(jī)森林(Random Forest, RF)對(duì)資源豐度進(jìn)行預(yù)測(cè)。謝斌[6]等利用BP神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)秋刀魚(yú)資源豐度,BP神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于其他海域的資源豐度預(yù)測(cè)且效果較好。但資源豐度預(yù)測(cè)仍然存在難以有效擬合高維海洋數(shù)據(jù)、易受漁業(yè)生產(chǎn)數(shù)據(jù)缺失值影響的缺陷。

最優(yōu)分布式?jīng)Q策梯度提升樹(shù)(Extreme gradient boosting, XGBoost)[8]的結(jié)構(gòu)能夠很好地減少缺失值較多的樣本對(duì)模型的影響。同時(shí),面對(duì)高維時(shí)空數(shù)據(jù)難以有效提取特征的問(wèn)題,王青松[9]等建立了CNN-XGBoost混合模型對(duì)短時(shí)交通流進(jìn)行預(yù)測(cè),使用CNN對(duì)交通流數(shù)據(jù)進(jìn)行時(shí)空特征提取,預(yù)測(cè)效果良好。但XGBoost存在參數(shù)過(guò)多,難以找到較好的超參數(shù)組合的問(wèn)題。模擬退火算法[10-11](Simulate Anneal,SA)具有良好的全局搜索能力和局部尋優(yōu)能力,能夠有效彌補(bǔ)XGBoost模型的缺陷。

本文利用改進(jìn)的XGBoost模型對(duì)南太平洋長(zhǎng)鰭金槍魚(yú)資源豐度進(jìn)行預(yù)測(cè),通過(guò)CNN進(jìn)行高維海洋數(shù)據(jù)特征提取,再將輸出的特征向量輸入到XGBoost模型進(jìn)行訓(xùn)練。同時(shí),使用模擬退火算法尋找CNN-XGBoost模型最優(yōu)超參數(shù)組合。以降低資源豐度預(yù)測(cè)誤差為目標(biāo),以期為南太平洋長(zhǎng)鰭金槍魚(yú)延繩釣漁業(yè)科學(xué)生產(chǎn)提供依據(jù),為遠(yuǎn)洋漁場(chǎng)預(yù)報(bào)提供新方法。

1 材料與方法

1.1 實(shí)驗(yàn)數(shù)據(jù)來(lái)源

大量研究表明,長(zhǎng)鰭金槍魚(yú)受包括海表溫度、葉綠素a濃度、垂直和表層溫度及海面高度異常等多種因素的影響[12-14]。

表1 原始數(shù)據(jù)尺度

本文所用數(shù)據(jù)分為漁業(yè)生產(chǎn)統(tǒng)計(jì)數(shù)據(jù)和海洋環(huán)境數(shù)據(jù),時(shí)間跨度為2005—2015年。長(zhǎng)鰭金槍魚(yú)漁業(yè)生產(chǎn)數(shù)據(jù)來(lái)源于中西太平洋金槍魚(yú)漁業(yè)委員會(huì)(WCPFC,Western Central Pacific Fisheries Commission),生產(chǎn)數(shù)據(jù)包括作業(yè)日期、經(jīng)度、緯度、放鉤數(shù)和漁獲尾數(shù)等,時(shí)間分辨率為月,空間分辨率為5°×5°。海洋環(huán)境數(shù)據(jù)包括海表面溫度(SST)、葉綠素濃度(Chl-a)、采用Nino3.4區(qū)海表溫度距平值(SSTA)來(lái)表示的ENSO 指數(shù)(厄爾尼諾-南方濤動(dòng))均來(lái)源于OCEANWATCH網(wǎng)站(https://oceanwatch.pifsc.noaa.gov/),時(shí)間分辨率為周,海表面鹽度(SSS)、海水密度(SSD)、海面高度(SSH)、海表面高度異常(SSHA)均來(lái)源于哥白尼海洋環(huán)境監(jiān)測(cè)網(wǎng)站(http://marine.copernicus.eu/),各個(gè)垂直水層結(jié)構(gòu)[15](100,125,150,200,250,300)的溫度(TEMP)和鹽度(SAT)來(lái)源Argo實(shí)時(shí)數(shù)據(jù)中心(http://www.argo.org.cn)。

1.2 數(shù)據(jù)預(yù)處理

1.2.1 CPUE計(jì)算

本文以長(zhǎng)鰭金槍魚(yú)資源豐度指標(biāo)[16]為單位捕撈努力量漁獲量 (Catch per unit effort, CPUE),是指漁場(chǎng)在一定時(shí)期內(nèi),平均每一個(gè)捕撈努力量所能捕獲的漁獲量。本研究定義5°×5°為一個(gè)漁區(qū)[17],計(jì)算每個(gè)漁區(qū)的CPUE(尾/千鉤,ind/khooks),計(jì)算公式如下:

CPUEymij=Catchymij/Effortymij

(1)

其中,CPUEymij表示i經(jīng)度j緯度漁區(qū)m月平均 CPUE,單位為尾/千鉤;Catchymij表示i經(jīng)度j緯度漁區(qū)m月漁獲量,單位為尾數(shù);Effortymij表示i經(jīng)度j緯度漁區(qū)m月捕撈努力量,單位為千鉤。

1.2.2 海洋環(huán)境因子預(yù)處理

由于模型預(yù)測(cè)時(shí)間尺度為月,所以對(duì)各個(gè)環(huán)境因子分別按每年每月求平均值,并用平均值補(bǔ)充各環(huán)境因子同年月的缺失值。同時(shí),由于漁業(yè)數(shù)據(jù)的空間分辨率為5°×5°,時(shí)間分辨率為月,而各環(huán)境因子的時(shí)間和空間分辨率與漁業(yè)數(shù)據(jù)不同,為了使環(huán)境數(shù)據(jù)與生產(chǎn)數(shù)據(jù)匹配,需要分別對(duì)環(huán)境數(shù)據(jù)進(jìn)行空間和時(shí)間尺度上的重采樣,因此,通過(guò)python編程進(jìn)行數(shù)據(jù)處理,轉(zhuǎn)換到與漁業(yè)數(shù)據(jù)相同的時(shí)空分辨率。

1.2.3 歸一化

對(duì)環(huán)境因子和CPUE值分別進(jìn)行歸一化到[0,1]區(qū)間內(nèi),以此消除由于數(shù)據(jù)各因子量級(jí)不同對(duì)訓(xùn)練模型產(chǎn)生的影響。計(jì)算公式如下:

xi'=(xi-xmin)/(xmax-xmin)

(2)

其中,xi'為環(huán)境因子或CPUE歸一化后的值;xi為初始值;xmin、xmax分別代表每個(gè)參數(shù)的最小值與最大值。

1.3 CNN-SA-XGBoost預(yù)測(cè)模型的構(gòu)建

1.3.1 基本XGBoost模型

XGBoost模型是對(duì)梯度提升決策樹(shù)模型[8](Gradient Boosting Decision Tree,GBDT)的改進(jìn),由多棵決策樹(shù)迭代組成。XGBoost算法能夠在生成樹(shù)的過(guò)程中通過(guò)自動(dòng)學(xué)習(xí)得出最優(yōu)分裂方向,減少漁業(yè)生產(chǎn)數(shù)據(jù)中缺失值對(duì)模型的影響,主要步驟如下:

1) 構(gòu)造目標(biāo)函數(shù)

obj(φ)=L(θ)+Ω(θ)

(3)

其中,L(θ)為損失函數(shù),用于衡量模型的好壞;Ω(θ)為正則化項(xiàng),用于控制模型復(fù)雜度。

2) 將上一棵數(shù)的預(yù)測(cè)值與真實(shí)值的殘差作為下一棵樹(shù)的輸入

(4)

(5)

3) 正則化項(xiàng)為決策樹(shù)的復(fù)雜度,可以控制模型的過(guò)擬合。其公式為:

(6)

其中,γ為正則項(xiàng)參數(shù);T為葉子節(jié)點(diǎn)個(gè)數(shù);λ為學(xué)習(xí)率;ω表示葉節(jié)點(diǎn)的數(shù)值。

4) 令集合Ij={i|q(xi)=j}為葉子j的集合,將目標(biāo)函數(shù)進(jìn)行二階泰勒展開(kāi),得:

(7)

其中,ωj為第j個(gè)葉子節(jié)點(diǎn)的權(quán)重;γ為正則項(xiàng)參數(shù);T為葉子節(jié)點(diǎn)個(gè)數(shù);gi、hi分別為第i個(gè)樣本預(yù)測(cè)誤差的一階導(dǎo)數(shù)和二階導(dǎo)數(shù):

(8)

(9)

(10)

(11)

1.3.2 CNN-XGBoost模型

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neutral Network,CNN)是一種以神經(jīng)網(wǎng)絡(luò)為架構(gòu)的算法,其網(wǎng)絡(luò)模型包含卷積層、池化層、全連接層等結(jié)構(gòu)[18]。

如圖1所示,卷積層一般用于數(shù)據(jù)的特征值提取,卷積核的個(gè)數(shù)由CNN的層數(shù)決定。池化層通過(guò)對(duì)特征進(jìn)行降采樣操作從而達(dá)到降低參數(shù)量和防止過(guò)擬合的目的。全連接層是一個(gè)普通的神經(jīng)網(wǎng)絡(luò)層,該層將數(shù)據(jù)特征進(jìn)行線(xiàn)性空間轉(zhuǎn)換,得到期望的輸出。其計(jì)算過(guò)程為:

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

xi+1=f(ωxi+b)

(12)

其中,f為激活函數(shù);ω為權(quán)重矩陣;b為偏置矩陣。

在預(yù)測(cè)模型中,構(gòu)造特征的好壞直接決定了模型性能。對(duì)于海洋數(shù)據(jù)高維、樣本數(shù)量少、變量多的特點(diǎn),CNN模型可以實(shí)現(xiàn)端到端的學(xué)習(xí),中間的特征可通過(guò)模型自動(dòng)學(xué)習(xí)得到。并且XGBoost模型是由多棵回歸樹(shù)迭代而成,優(yōu)勢(shì)在于不容易過(guò)擬合且訓(xùn)練速度快。因此,結(jié)合兩者的優(yōu)點(diǎn),構(gòu)建CNN-XGBoost模型,CNN-XGBoost模型在使用CNN自動(dòng)提取不同層次的特征后,將得到的特征向量作為輸入給XGBoost模型進(jìn)行資源豐度預(yù)測(cè),能夠有效降低預(yù)測(cè)模型的誤差,但XGBoost模型中難以找到最優(yōu)超參數(shù)組合的問(wèn)題并沒(méi)有解決。

1.3.3 CNN-SA-XGBoost預(yù)測(cè)模型

在XGBoost模型中,booster參數(shù)決定了XGBoost中回歸樹(shù)的形成,是決定XGBoost模型預(yù)測(cè)效果的關(guān)鍵部分,但booster參數(shù)數(shù)量過(guò)多,導(dǎo)致XGBoost在訓(xùn)練過(guò)程中難以找到最優(yōu)參數(shù)組合。因此,本文將CNN-XGBoost模型與模擬退火算法相結(jié)合,構(gòu)建CNN-SA-XGBoost資源豐度預(yù)測(cè)模型。

由圖2可知,模擬退火算法在每次迭代中都會(huì)選擇一種booster參數(shù)的超參數(shù)組合訓(xùn)練XGBoost模型,并通過(guò)以均方根誤差為評(píng)估函數(shù)的K折交叉驗(yàn)證得出對(duì)應(yīng)的均方根誤差,即模擬退火算法中的分?jǐn)?shù)(score)。在模擬退火算法過(guò)程中,首先計(jì)算下降幅度ΔE=pre_score-score,其中,pre_score是前一次迭代的分?jǐn)?shù),score為這次迭代的分?jǐn)?shù)。若ΔE≤0,即存在“局部”改進(jìn)(可進(jìn)行局部尋優(yōu)),將該超參數(shù)組合接受為當(dāng)前組合,并根據(jù)當(dāng)前組合來(lái)擾動(dòng)并產(chǎn)生下一次迭代的相鄰組合。若ΔE>0,則新解xj按Metropolis準(zhǔn)則[11]中的接收函數(shù)exp(-ΔE/kTi)接受這個(gè)效果更差(分?jǐn)?shù)更低)的組合作為當(dāng)前組合,以跳出局部最優(yōu),其中,k為Boltzmann常數(shù),Ti為當(dāng)前溫度(實(shí)驗(yàn)中會(huì)設(shè)置一個(gè)初始溫度T0,隨著迭代次數(shù)的增加,溫度T不斷降低,T的衰減函數(shù)為T(mén)k+1=αTk,k=0,1,2,…,α為衰減系數(shù))。然后從“冷卻時(shí)間表”中找到分?jǐn)?shù)最高即最優(yōu)的超參數(shù)組合,最后,用最優(yōu)超參數(shù)組合訓(xùn)練XGBoost模型,并用測(cè)試集驗(yàn)證分?jǐn)?shù)最高的模型預(yù)測(cè)性能。

圖2 CNN-SA-XGBoost模型

1.3.4 模型預(yù)測(cè)結(jié)果評(píng)估

均方根誤差(Root Mean Square Error,RMSE)、均方誤差(Mean Squared Error,MSE)、平均絕對(duì)誤差(Mean Absolute Error,MAE)是機(jī)器學(xué)習(xí)回歸模型預(yù)測(cè)結(jié)果的衡量標(biāo)準(zhǔn)[8]。本文使用RMSE、MSE和MAE來(lái)評(píng)估實(shí)驗(yàn)中回歸模型預(yù)測(cè)的結(jié)果。

(13)

(14)

(15)

1.4 模型驗(yàn)證

本文以每個(gè)漁場(chǎng)的年份、月份、經(jīng)度、緯度、海面溫度、葉綠素濃度、ENSO 指數(shù)、海面高度以及垂直水層結(jié)構(gòu)的溫度、鹽度等變量作為輸入數(shù)據(jù),輸出數(shù)據(jù)為CPUE。將 2005—2015年總共25 344個(gè)樣本,進(jìn)行歸一化處理,隨機(jī)化分配75%作為訓(xùn)練樣本,25%作為測(cè)試樣本評(píng)估模型。

首先利用CNN卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)特征提取和特征選擇等特點(diǎn),自動(dòng)提取多維數(shù)據(jù)特征,再將其輸入到XGBoost中進(jìn)行訓(xùn)練。由于XGBoost參數(shù)過(guò)多,難以找到最優(yōu)超參數(shù)組合,因此同時(shí)利用模擬退火算法不斷尋找最優(yōu)超參數(shù)組合,降低預(yù)測(cè)誤差。并且用均方根誤差RMSE、均方誤差MSE和平均絕對(duì)誤差MAE來(lái)評(píng)估預(yù)測(cè)結(jié)果。

其中,CNN模型采用兩層卷積層和一層全連接層堆疊來(lái)自動(dòng)提取特征,卷積層采用1x1的卷積核。其中,第一層卷積層濾波器數(shù)目設(shè)置為64,第二層設(shè)置為32。全連接層的個(gè)數(shù)為32,采用relu激活函數(shù)。同時(shí),為了防止模型過(guò)擬合,引入Dropout層并設(shè)置參數(shù)為0.2。

在XGBoost模型中,增強(qiáng)迭代的次數(shù)num_rounds設(shè)置為50,這樣能夠縮短處理時(shí)間。同時(shí)為之后的啟發(fā)式搜索選擇了幾個(gè)常用的重要Booster參數(shù):樹(shù)的深度max_depth、訓(xùn)練實(shí)例的子樣本比率subsample、列二次采樣colsample_bytree、步長(zhǎng)eta、節(jié)點(diǎn)分裂所需最小損失函數(shù)下降值gamma、正負(fù)權(quán)重scale_pos_weight、最小葉子結(jié)點(diǎn)樣本權(quán)重和min_child_weight,超參數(shù)可能的組合總數(shù)為648個(gè)。

根據(jù)問(wèn)題規(guī)模,本文將模擬退火算法設(shè)置100次迭代進(jìn)行尋優(yōu),經(jīng)過(guò)多次模擬退火試驗(yàn)后,將初始溫度T0設(shè)置為0.4,衰減函數(shù)的α設(shè)置為0.85時(shí),算法尋優(yōu)效果最佳。

為了驗(yàn)證改進(jìn)的XGBoost資源豐度預(yù)測(cè)模型的有效性,本文設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn),主要包括:

(1)通過(guò)CNN-SA-XGBoost模型自身構(gòu)建過(guò)程對(duì)比,來(lái)驗(yàn)證對(duì)XGBoost模型的改進(jìn)有效降低了模型預(yù)測(cè)誤差。

(2)由于缺少前人對(duì)南太平洋長(zhǎng)鰭金槍魚(yú)的資源豐度預(yù)測(cè)的研究,因此,本文用其他海域應(yīng)用效果較好的資源豐度預(yù)測(cè)模型[2-7](多元線(xiàn)性回歸、隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò))分別對(duì)南太平洋長(zhǎng)鰭金槍魚(yú)資源豐度進(jìn)行資源豐度預(yù)測(cè),旨在驗(yàn)證CNN-SA-XGBoost模型對(duì)南太平洋長(zhǎng)鰭金槍魚(yú)資源豐度預(yù)測(cè)效果。

2 結(jié)果與分析

本文實(shí)驗(yàn)的CPU為Intel(R) Core(TM)i5-9400F CPU@ 2.90GHz,采用NVIDIA GeForce GTX 1660的GPU,RAM為16GB。并借助CUDA8.0調(diào)用基于keras 2.2.4搭建的深度卷積神經(jīng)網(wǎng)絡(luò)。

2.1 CNN-SA-XGBoost模型預(yù)測(cè)結(jié)果分析

表2展示了在CNN-SA-XGBoost模型的訓(xùn)練結(jié)果。其中最優(yōu)超參數(shù)組合是:max_depth為15,colsample_bytree 為0.7,subsample為0.9,scale_pos_weight為1, eta為0.2,gamma為0.05,min_child_weight為6,分?jǐn)?shù)為-0.074 432。

表2 CNN-SA-XGBoost模型訓(xùn)練結(jié)果

圖3展示了模擬退火算法尋優(yōu)過(guò)程中交叉驗(yàn)證所得分?jǐn)?shù)的變化。由圖3(a)為迭代過(guò)程中模擬退火算法的分?jǐn)?shù)變化,可以看出模擬退火算法在尋優(yōu)過(guò)程中不斷跳出局部最優(yōu),僅100次迭代就尋找到分?jǐn)?shù)較高的超參數(shù)組合,圖3(b)為隨著迭代次數(shù)的增加,尋優(yōu)過(guò)程中最佳分?jǐn)?shù)的更新,展示出最優(yōu)解不斷更新為分?jǐn)?shù)更高的解的過(guò)程。圖3尋找最佳分?jǐn)?shù)的過(guò)程體現(xiàn)了模擬退火算法易于跳出局部最優(yōu)、快速搜索最優(yōu)解的特點(diǎn)。

圖3 模擬退火算法尋優(yōu)過(guò)程

最后用測(cè)試集對(duì)訓(xùn)練好的最優(yōu)模型預(yù)測(cè)評(píng)估,測(cè)試集占總樣本25%,共6 336個(gè)樣本。如圖4的回歸分析可知,實(shí)際值CPUE與預(yù)測(cè)值CPUE的相關(guān)系數(shù)為0.669 6,呈正相關(guān)性。均方根誤差為0.486,擬合曲線(xiàn)為y=0.941x+0.0042,具有很好擬合效果,模型的預(yù)測(cè)能力良好。由實(shí)驗(yàn)結(jié)果可以看出,除少量極端數(shù)據(jù)的值預(yù)測(cè)效果較差外,CNN-SA-XGBoost模型的預(yù)測(cè)值與真實(shí)值基本吻合。

圖4 模型預(yù)測(cè)CPUE值與CPUE真實(shí)值相關(guān)性

2.2 模型對(duì)比

2.2.1 CNN-SA-XGBoost模型構(gòu)建對(duì)比

由表3可知,在XGBoost模型的構(gòu)建過(guò)程中,CNN-XGBoost模型比XGBoost基本模型均方根誤差RMSE降低3.24%、MSE降低6.49%、MAE降低7.74%,CNN有效提取了高維海洋環(huán)境數(shù)據(jù)的時(shí)空特征和復(fù)雜關(guān)聯(lián),使XGBoost模型預(yù)測(cè)誤差降低。

表3 CNN-SA-XGBoost模型構(gòu)建結(jié)果對(duì)比(測(cè)試集)

CNN-SA-XGBoost比CNN-XGBoost模型的RMSE降低9.50%、MSE降低18.06%、MAE降低12.04%。實(shí)驗(yàn)表明,模擬退火尋優(yōu)算法明顯降低了模型的預(yù)測(cè)誤差。

最終實(shí)驗(yàn)結(jié)果表明,CNN-SA-XGBoost模型的均方根誤差(RMSE)較XGBoost基本模型減少12.4%,預(yù)測(cè)效果明顯優(yōu)于XGBoost基本模型,本文提出的改進(jìn)方法有效降低了XGBoost預(yù)測(cè)誤差。

2.2.2 改進(jìn)的XGBoost模型和其他資源豐度預(yù)測(cè)模型對(duì)比

表4為改進(jìn)的XGBoost模型和多個(gè)有代表性的資源豐度預(yù)測(cè)模型結(jié)果對(duì)比。本實(shí)驗(yàn)中多元線(xiàn)性回歸(Multiple Linear Regression)模型的回歸方程(最佳擬合線(xiàn))為Y=-218.24+0.01X1+(-0.01)X2+…+1.32X23,其中,X1,X2,…,X23分別為23個(gè)輸入變量。模型的均方根誤差為0.679,預(yù)測(cè)效果較差。相比其他模型,線(xiàn)性模型的結(jié)構(gòu)對(duì)高維數(shù)據(jù)的擬合能力較弱,高維度海洋數(shù)據(jù)的資源豐度預(yù)測(cè)效果不佳。

表4 CNN-SA-XGBoost模型與其他模型結(jié)果對(duì)比(測(cè)試集)

隨機(jī)森林模型(Random Forest, RF)與XGBoost結(jié)構(gòu)類(lèi)似,隨機(jī)森林模型也是由多顆回歸樹(shù)組合而成。本實(shí)驗(yàn)中RF模型的內(nèi)部結(jié)點(diǎn)再劃分樣本數(shù)min_samples_split設(shè)為2,最小樣本數(shù)min_samples_split為2,決策樹(shù)深度max_depth為10。經(jīng)過(guò)模型預(yù)測(cè)結(jié)果評(píng)估,均方根誤差為0.570,預(yù)測(cè)誤差高于CNN-SA-XGBoost模型。

目前,BP神經(jīng)網(wǎng)絡(luò)模型已在其他海域的資源豐度預(yù)測(cè)取得較好的應(yīng)用效果,具有很好的自主學(xué)習(xí)能力和很強(qiáng)的泛化和容錯(cuò)能力,但較容易出現(xiàn)局部最優(yōu)、收斂慢和振蕩等問(wèn)題。由于隱含層結(jié)點(diǎn)數(shù)一般設(shè)為輸入層結(jié)點(diǎn)數(shù)的75%[17],且有23個(gè)輸入變量,因此,本實(shí)驗(yàn)采用結(jié)構(gòu)為23-17-1的BP神經(jīng)網(wǎng)絡(luò),即輸出層為23個(gè)結(jié)點(diǎn),隱含層為17個(gè)結(jié)點(diǎn),輸出層為1個(gè)結(jié)點(diǎn)。模型的均方根誤差為0.551,高于CNN-SA-XGBoost模型。此對(duì)比實(shí)驗(yàn)表明,CNN-SA-XGBoost模型預(yù)測(cè)效果良好,在南太平洋長(zhǎng)鰭金槍魚(yú)資源豐度預(yù)測(cè)中,誤差低于其他應(yīng)用效果較好的預(yù)測(cè)模型。

3 討論

近年來(lái),有關(guān)南太平洋長(zhǎng)鰭金槍魚(yú)的研究多集中于分析環(huán)境因子與漁場(chǎng)的相關(guān)性和漁場(chǎng)的時(shí)空分布變化,鮮有對(duì)其資源豐度預(yù)測(cè)的研究,而在其他海域早已有學(xué)者建立相應(yīng)物種資源豐度回歸預(yù)測(cè)模型。

目前,資源豐度預(yù)測(cè)都是基于一種或多種海洋環(huán)境因子來(lái)構(gòu)建預(yù)測(cè)模型,多選用葉綠素濃度、海面溫度以及海面高度等海表面數(shù)據(jù)進(jìn)行預(yù)測(cè)[12,19]。根據(jù)長(zhǎng)鰭金槍魚(yú)延繩釣的捕獲特性[13]和長(zhǎng)鰭金槍魚(yú)適宜的垂直活動(dòng)水層深度[14],長(zhǎng)鰭金槍魚(yú)在18~30 ℃水層均有分布,但由于季節(jié)變化和地理位置不同等因素的影響,適溫水層深度不斷變化,且本實(shí)驗(yàn)的地理覆蓋范圍較廣,時(shí)間尺度較大,因此添加100~300 m范圍的垂直水層的溫度和鹽度作為輸入變量。其次,考慮到南太平洋會(huì)受到厄爾尼諾或拉尼娜現(xiàn)象的影響,導(dǎo)致部分異常年份的海水溫度異常升高或降低,造成長(zhǎng)鰭金槍魚(yú)的產(chǎn)卵、洄游路線(xiàn)、漁場(chǎng)分布等魚(yú)類(lèi)行為變化,因此,以Nino3.4區(qū)的海表溫距平值(SSTA)表征 ENSO 現(xiàn)象,作為輸入變量加入到預(yù)報(bào)模型中。眾多研究表明[2-7],海表面溫度(SST)是影響大洋性魚(yú)類(lèi)漁場(chǎng)分布的最為重要的環(huán)境因子之一。由于食物鏈原理[21],葉綠素濃度(Chl-a)也可以影響漁場(chǎng)的分布。再結(jié)合其他傳統(tǒng)預(yù)測(cè)模型[12,19]認(rèn)為關(guān)鍵的海洋環(huán)境因子,共選取了19個(gè)海洋環(huán)境因子以及4個(gè)時(shí)空變量作為CNN模型的輸入變量。

對(duì)于海洋數(shù)據(jù)多源化和異構(gòu)性的特點(diǎn),CNN可以更好的擬合復(fù)雜的數(shù)據(jù)形式,自動(dòng)獲取高維海洋環(huán)境數(shù)據(jù)中存在的復(fù)雜關(guān)聯(lián),有效提取出高維數(shù)據(jù)特征,且CNN是“黑盒”模型,不需要考慮各輸入變量間的相互影響,使用方便。但由于CNN提取出的特征向量已轉(zhuǎn)換形式,相當(dāng)于根據(jù)原有的數(shù)據(jù)特征創(chuàng)造了新的變量,模型可解釋性較差,無(wú)法獲取原有的各個(gè)變量對(duì)預(yù)測(cè)模型的重要性大小,因此實(shí)驗(yàn)中對(duì)各個(gè)環(huán)境因子重要性分析有待進(jìn)一步研究。實(shí)驗(yàn)表明,CNN提取的特征向量作為XGBoost的輸入向量,有效提高了XGBoost的預(yù)測(cè)效果。

XGBoost是機(jī)器學(xué)習(xí)中一種新興的集成模型,它將多顆回歸樹(shù)組合起來(lái)形成一個(gè)性能更加強(qiáng)大的學(xué)習(xí)器,不僅對(duì)數(shù)據(jù)的擬合能力強(qiáng)于傳統(tǒng)的線(xiàn)性回歸,而且在模型構(gòu)建過(guò)程中,將目標(biāo)函數(shù)引入正則項(xiàng),有效避免變量較多,樣本較少的資源豐度預(yù)測(cè)模型過(guò)擬合。由于漁業(yè)生產(chǎn)數(shù)據(jù)難以獲取,收集過(guò)程易受到當(dāng)?shù)貧夂?、政策等影響,?dǎo)致漁業(yè)生產(chǎn)數(shù)據(jù)中含有缺失值的樣本較多,相比傳統(tǒng)的決策樹(shù)資源豐度預(yù)測(cè)模型,XGBoost在生成樹(shù)的過(guò)程中通過(guò)自動(dòng)學(xué)習(xí)得出最優(yōu)分裂方向,減少漁業(yè)生產(chǎn)數(shù)據(jù)中缺失值對(duì)模型的影響。同時(shí),模擬退火算法良好的局部尋優(yōu)和全局搜索能力有效彌補(bǔ)了XGBoost參數(shù)過(guò)多,難以找到最優(yōu)超參數(shù)組合的缺陷,有效提高了XGBoost的預(yù)測(cè)效果。因此,CNN-SA-XGBoost模型相比傳統(tǒng)的資源豐度預(yù)測(cè)模型,更適合高維海洋環(huán)境數(shù)據(jù)和含有缺失數(shù)據(jù)的漁業(yè)生產(chǎn)數(shù)據(jù),有效降低了漁場(chǎng)資源豐度預(yù)測(cè)誤差,為漁情預(yù)報(bào)提供了一種新的方法。

4 結(jié)論

本文針對(duì)資源豐度預(yù)測(cè)模型中難以有效擬合高維海洋數(shù)據(jù)、易受漁業(yè)生產(chǎn)數(shù)據(jù)缺失值影響的問(wèn)題,以降低預(yù)測(cè)南太平洋長(zhǎng)鰭金槍魚(yú)資源豐度的誤差為目標(biāo),利用2005—2015年南太平洋長(zhǎng)鰭金槍魚(yú)生產(chǎn)數(shù)據(jù)和獲得的海洋遙感環(huán)境數(shù)據(jù),提出了一種結(jié)合模擬退火算法和卷積神經(jīng)網(wǎng)絡(luò)的CNN-SA-XGBoost模型。實(shí)驗(yàn)結(jié)果表明,CNN-SA-XGBoost模型有效的提取出高維海洋環(huán)境數(shù)據(jù)特征,且擬合效果良好,預(yù)測(cè)誤差明顯低于其他傳統(tǒng)的資源豐度預(yù)測(cè)模型對(duì)南太平洋長(zhǎng)鰭金槍魚(yú)的資源豐度預(yù)測(cè)誤差,為漁場(chǎng)資源豐度預(yù)測(cè)提供了新的方法和思路,有助于企業(yè)合理安排漁業(yè)生產(chǎn)。但由于CNN模型是一種“黑盒”模型,導(dǎo)致無(wú)法分析實(shí)驗(yàn)結(jié)果中漁場(chǎng)與各環(huán)境因子的關(guān)系。因此,下一步將研究更有效的特征提取方法,在進(jìn)一步降低漁場(chǎng)資源豐度預(yù)測(cè)模型誤差的同時(shí),有效分析漁場(chǎng)與環(huán)境因子之間的關(guān)系,為漁場(chǎng)預(yù)報(bào)提供理論指導(dǎo)。

猜你喜歡
金槍魚(yú)模擬退火誤差
金槍魚(yú)淹死事件
可以加速的金槍魚(yú)機(jī)器人
軍事文摘(2021年22期)2022-01-18 06:22:00
金槍魚(yú)與海豚
角接觸球軸承接觸角誤差控制
哈爾濱軸承(2020年2期)2020-11-06 09:22:26
Beidou, le système de navigation par satellite compatible et interopérable
壓力容器制造誤差探究
國(guó)內(nèi)新型遠(yuǎn)洋金槍魚(yú)圍網(wǎng)漁船首航
商周刊(2018年19期)2018-12-06 09:49:41
模擬退火遺傳算法在機(jī)械臂路徑規(guī)劃中的應(yīng)用
基于模糊自適應(yīng)模擬退火遺傳算法的配電網(wǎng)故障定位
九十億分之一的“生死”誤差
山東青年(2016年2期)2016-02-28 14:25:41
克拉玛依市| 万荣县| 疏附县| 宜丰县| 于田县| 湖南省| 来安县| 渭南市| 沅陵县| 封开县| 丁青县| 饶河县| 武夷山市| 青海省| 巴彦淖尔市| 益阳市| 乡城县| 谷城县| 宣汉县| 扶风县| 阆中市| 通山县| 扶沟县| 南城县| 民丰县| 通海县| 合江县| 崇阳县| 镇沅| 东乡县| 巴林左旗| 绥阳县| 四平市| 平顶山市| 镶黄旗| 邵阳市| 长阳| 梨树县| 绥滨县| 永泰县| 将乐县|