宋利明 任士雨 洪依然 張?zhí)祢?隋恒壽 李 彬 張 敏
大西洋熱帶海域長鰭金槍魚漁場預報模型的比較*
宋利明1, 2任士雨1洪依然1張?zhí)祢?隋恒壽3李 彬3張 敏1, 2
(1. 上海海洋大學海洋科學學院 上海 201306; 2. 國家遠洋漁業(yè)工程技術研究中心 上海 201306; 3. 中水集團遠洋股份有限公司 北京 100032)
為提高大西洋熱帶海域長鰭金槍魚()漁場預報的準確率, 對K最近鄰(k nearest neighbor, KNN)、邏輯斯蒂回歸(logistic regression, LR)、決策與分類樹(classfication and regression tree, CART)、梯度提升決策樹(gradient boosting decision tree, GBDT)、隨機森林(random forest, RF)、支持向量機(support vector machine, SVM)和Stacking集成(stacking ensemble learning, STK)共7個模型的預報性能進行了對比分析。該7個模型利用2016~2019年在大西洋公海海域(19°16′S~16°21′N; 46°27′W~2°09′E)作業(yè)的13艘中國遠洋延繩釣漁船的漁業(yè)數(shù)據(jù), 結合0~500 m不同水層的溫度、鹽度、溶解氧、葉綠素濃度、海表面風速、渦動能和混合層深度數(shù)據(jù)建立。各模型取75%數(shù)據(jù)作為訓練數(shù)據(jù), 25%為測試數(shù)據(jù), 采用預報準確率(accuracy, ACC)與接受者操作特征曲線下面積(area under curve, AUC)評價建立的單位努力量漁獲量(catch per unit of effort, CPUE)與海洋環(huán)境因子關系模型的性能。結果表明: (1) STK模型對大西洋長鰭金槍魚漁場的預報性能相比其他模型明顯提高, ACC為75.92%, AUC為0.742; (2) 基于STK模型預測得到的中心漁場范圍總體上與實際作業(yè)漁場一致; (3) 影響大西洋長鰭金槍魚漁場分布的海洋環(huán)境因子主要為100 m水層的溫度、鹽度, 以及100、150、500 m水層的溶解氧。研究表明STK模型對大西洋長鰭金槍魚漁場的預報準確率較高, 性能良好。
長鰭金槍魚; 漁場預報模型; 模型性能比較; 大西洋熱帶海域
長鰭金槍魚()廣泛分布于熱帶、亞熱帶及溫帶海域, 為高度洄游性魚類, 是我國遠洋延繩釣漁業(yè)重要的捕撈對象之一。近年來, 國內外學者研究了長鰭金槍魚分布與海洋環(huán)境之間的關系 (Chen, 2005; Domokos, 2007; Zainuddin, 2008; Briand, 2011; 林顯鵬等, 2011; 楊嘉樑等, 2014; Go?i, 2015; Lehodey, 2015; Williams, 2015; 儲宇航等, 2016; 郭剛剛等, 2016; 宋利明等, 2017a), 宋利明等(2017b)研究得出溫度是影響庫克群島海域長鰭金槍魚分布的主要環(huán)境因子; 閆敏等(2015)認為海表面溫度和葉綠素濃度與長鰭金槍魚漁獲率分布有關; 張嘉容等(2020)認為溫度對長鰭金槍魚分布的影響最大, 葉綠素濃度的影響最小。但大部分模型僅分析海洋表層環(huán)境與長鰭金槍魚分布的關系, 缺乏使用海洋立體環(huán)境因子的分析研究。
目前長鰭金槍魚漁場預測大多使用較為傳統(tǒng)的單一預報模型, 如一元非線性回歸模型(范江濤, 2011)、棲息地指數(shù)模型(任中華等, 2014)和神經(jīng)網(wǎng)絡模型(毛江美等, 2016)等。隨著漁業(yè)生產對漁場預報精度要求的提高, 深度學習開始在長鰭金槍魚漁場預測中得到應用, 如袁紅春等(2019a, 2020)。Stacking集成學習是一種多模型的集成方法, 能夠得到比單模型更準確的結果(羅智青等, 2019; 侯娟等, 2020)。但海洋立體環(huán)境因子間的共線性會影響如邏輯斯蒂回歸(logistic regression, LR)模型的預測精度(Raykov, 2010), 且環(huán)境因子過多容易導致K最近鄰(k nearest neighbor, KNN)、梯度提升決策樹(gradient boosting decision tree, GBDT)、隨機森林(random forest, RF)和支持向量機(support vector machine, SVM)等模型的復雜性, 造成過擬合問題, 降低模型可解釋性(Jou, 2014; Assegie, 2021)。目前大部分機器學習模型均未針對海洋立體環(huán)境因子間的共線性進行分析及因子篩選。
本研究根據(jù)2016~2019年中國船隊在大西洋公海作業(yè)的延繩釣漁業(yè)數(shù)據(jù), 結合不同深度的海洋環(huán)境數(shù)據(jù)進行共線性分析與因子篩選, 建立KNN、LR、決策與分類樹(classfication and regression tree, CART)、GBDT、RF、SVM和Stacking集成(stacking ensemble learning, STK)模型; 各模型取75%站位的數(shù)據(jù)作為訓練數(shù)據(jù), 25%站位的數(shù)據(jù)為測試數(shù)據(jù), 采用預報準確率(accuracy, ACC)與接受者操作特征(receiver operating characteristic, ROC)曲線下面積(area under curve, AUC)進行性能評價, 以提高大西洋熱帶海域長鰭金槍魚漁場預報的準確性。
本研究選取的漁業(yè)數(shù)據(jù)來源于中水集團遠洋股份有限公司, 時間為2016~2019年, 區(qū)域為19°16′S~ 16°21′N; 46°27′W~2°09′E范圍內的大西洋中部熱帶海域, 數(shù)據(jù)信息包括延繩釣捕撈漁船(共13艘)船名、作業(yè)時間(年-月-日)、作業(yè)地點(經(jīng)緯度)、不同魚種的產量、漁獲尾數(shù)及下鉤數(shù)等。將每天長鰭金槍魚的漁獲尾數(shù)劃分到1°×1°的網(wǎng)格內, 并算出CPUE (尾/千鉤)。
海洋環(huán)境因子主要包括表層因子和0~500 m深度因子共29個。其中, 表層因子包括: 葉綠素濃度(chl_)、混合層深度(mixed layer, MLD)、海表面風速(wind speed, WS)、渦動能(eddy kinetic energy, EKE); 0~500 m深度因子包括: 0、50、100、150、200、250、300、400、500 m水深處的溫度(采用0、50、100、150、200、250、300、400、500表示); 0、50、100、150、200、250、300、350、400、450、500 m水深處的溶解氧(采用0、50、100、150、200、250、300、350、400、450、500表示); 100、200、300、400、500 m水深處的鹽度(采用100、200、300、400、500表示)。以上因子數(shù)據(jù)除WS來源于美國國家海洋和大氣管理局(National Oceanic and Atmospheric Administration, NOAA)的數(shù)據(jù)庫(https://oceanwatch. pifsc.noaa.gov/)外, 其他數(shù)據(jù)均來源于哥白尼海洋環(huán)境監(jiān)測服務中心(copernicus marine environment monitoring service, CMEMS)網(wǎng)站(http://marine.copernicus. eu)。環(huán)境因子數(shù)據(jù)的初始時間分辨率為d, 初始空間分辨率為0.25°×0.25°。本文將環(huán)境因子和漁業(yè)數(shù)據(jù)進行了匹配, 最終的空間分辨率統(tǒng)一為1°×1°, 以d為單位。以上數(shù)據(jù)預處理過程通過MATLAB軟件完成。
1.2.1 長鰭金槍魚CPUE的計算方法 CPUE作為評價漁場的指標(沈智賓等, 2015)。將每天的長鰭金槍魚的漁獲尾數(shù)劃分到 1°×1°的網(wǎng)格內, 根據(jù)每天的船位數(shù)據(jù)等得到每天每網(wǎng)格內的總釣鉤數(shù), 算出每天每個網(wǎng)格內的長鰭金槍魚CPUE (尾/千鉤), 計算各網(wǎng)格內CPUE的公式為
, (1)
式(1)中:E,F和H分別表示在第年、第月、第天、第經(jīng)度、第緯度的網(wǎng)格內的CPUE、尾數(shù)和下鉤數(shù)量。
1.2.2 海洋環(huán)境因子的共線性分析 由于建立模型所用的葉綠素濃度、混合層深度、海表面風速、渦動能以及0~500 m水層的溫度、溶解氧、鹽度等海洋環(huán)境因子的量級單位不同, 數(shù)值范圍差別較大, 為防止對模型產生數(shù)值影響且為了提高模型運行的準確度, 對所有環(huán)境變量進行歸一化處理(張?zhí)祢? 2016), 公式為
, (2)
針對29個海洋環(huán)境因子之間存在的多重共線性, 本文采用方差膨脹因子(variance expansion factor, VIF)(Akinwande, 2015)進行分析。
對于方程:
=11+22+33+…+αX++αX+,(3)
式(3)中,為因變量,為自變量,1、2、3、…、α為回歸系數(shù),為常數(shù)項。則第個自變量的VIF計算公式為:
, (4)
式(4)中,表示方差膨脹因子VIF的取值;R為線性方程中的決定系數(shù)。當VIF值較大時, 表示環(huán)境變量之間存在多重共線性, 即VIF值越大, 表示環(huán)境變量之間多重共線性越嚴重, 一般認為<10, 即表示各環(huán)境變量之間沒有多重共線性。選取<10的海洋環(huán)境因子用于建立大西洋熱帶海域長鰭金槍魚的漁場預報模型。
1.2.3 海洋環(huán)境因子相對重要性分析 海洋環(huán)境因子相對重要性的計算方法為: 利用SPSS軟件計算長鰭金槍魚CPUE與篩選后各環(huán)境因子的Pearson相關系數(shù); 根據(jù)Pearson相關系數(shù)絕對值判斷其相對重要性。
漁場分類時, 若CPUE等于0, 為“非漁場”; CPUE大于0, 則為“漁場”, 其中零值比列為40.11%。從數(shù)據(jù)集中隨機選取75%站點的數(shù)據(jù)作為訓練數(shù)據(jù), 25%站點的數(shù)據(jù)為測試數(shù)據(jù); 并使用訓練數(shù)據(jù)分別建立KNN、LR、SVM、CART、RF、GBDT和STK7種模型。系列模型的基本原理和參數(shù)選擇方法如表1。
Stacking算法框架如圖1所示, 第一層由3個基學習器組成, 并輸入原始訓練集, 即第一步將與各個海洋環(huán)境因子匹配好的大西洋熱帶海域長鰭金槍魚CPUE原始數(shù)據(jù)集, 基于非共線性海洋環(huán)境因子的篩選, 劃分為75%的訓練數(shù)據(jù)和25%測試數(shù)據(jù); 第二步從7個模型中選擇預測效果較好的3個模型作為初級學習器, 選取結構簡單的LR作為次級學習器; 第三步將75%的訓練樣本隨機劃分為個數(shù)量相同的訓練集子集1,2, …,D, 取作為測試子集,D–1{1,2, …,D}(D?D–1)作為KNN、RF和GBDT的訓練子集, 接著將各個模型的預測結果統(tǒng)一為LR模型的訓練集′, 各個單模型對測試集的預測結果合并為LR模型的測試集′, 最終輸出預測結果。
將25%測試數(shù)據(jù)代入各模型得出預測結果, 對模型性能進行評價。本文采用AUC和ACC作為模型性能評價指標。其中AUC取值范圍為0~1, 值越大說明該模型的預測性能越好, 反之預測性能越差(張?zhí)祢? 2016); 同理, 所得ACC值越大, 說明該模型整體預測效果越好, 反之預測效果越差, 所以本文按照兩者結果, 對比并選取預測準確度較高且性能穩(wěn)定的模型。
表1 各模型的基本原理與參數(shù)選擇
Tab.1 The basic principle and the parameter selection of each model
圖1 Stacking 集成學習方法
注: KNN: k nearest neighbor, K最近鄰模型; RF: random forest, 隨機森林算法; GBDT: gradient boosting decision tree, 梯度提升決策樹; LR: logistic regression, 邏輯斯蒂回歸
將25%的測試數(shù)據(jù)代入預測能力最佳的模型, 計算得出“漁場”和“非漁場”并使用ArcGIS軟件畫出實際“漁場”和“非漁場”與模型預測得到的“漁場”和“非漁場”疊圖, 定性評價最佳模型的預測能力。
本研究把25%的測試站點的環(huán)境數(shù)據(jù)代入預測能力最佳的模型, 計算得出“漁場”位置, 利用ArcGIS軟件的核密度分析工具計算并畫出“漁場”位置密度分布圖, 把密度大于最大密度的60% (8個/km2)以上的范圍定義為中心漁場。
通過ArcGIS軟件畫出長鰭金槍魚CPUE分布圖(圖2), 得出長鰭金槍魚漁場主要分布在15°N~15°S, 15°~45°W的大西洋中部熱帶海域, 其高CPUE漁區(qū)集中分布在4°~10°N, 30°~45°W海域和5°~10°S, 18°~30°W的海域。
按照各環(huán)境因子的||<10, 篩選得出20個用于漁場預測的環(huán)境因子, 分別是chl、MLD、WS、EKE、0、50、100、150、250、400、0、50、100、150、200、500、100、200、300和500(表2)。相關系數(shù)分析結果表明, 100 m水層溫度(100)與CPUE的相關系數(shù)最高, 達到0.399; 100、150、500 m水層的溶解氧、100 m水層的鹽度與CPUE的相關系數(shù)較高, 分別達到0.372、0.334 、0.322和0.322; 相關系數(shù)較小的是MLD和葉綠素濃度, 分別為0.21和-0.148; 海表面溫度(0)和海表面風速(WS)的相關系數(shù)分別為0.140和0.069; 而渦動能(EKE)的相關系數(shù)最低, 為-0.036, 影響程度最小(表2)。
圖2 2016~2019年大西洋熱帶海域13艘漁船長鰭金槍魚CPUE分布
各個模型總體的ACC和AUC如表3所示, 單個模型預測結果中RF的準確度最高, 為75.57%, KNN和GBDT的準確度并列為第二(73.92%), 因此選取RF、KNN和GBDT用于STK模型; CART最低, 為66.85%。STK模型的ACC最高, 達到75.92%, AUC也達到了0.742。綜合上述結果, 表明STK模型預測性能良好。
表2 多重共線性和相關性分析結果
Tab.2 Results of multi-collinearity diagnosis and correlation analysis
對于STK模型, 將測試數(shù)據(jù)中得到的實際漁場與預測漁場進行疊加, 得出漁場主要分布在2°~14°N, 32°~45°W和2°~10°S, 18°~28°W的海域, 極少分布在5°~10°W附近, 且預測的0°~18°W海域的漁場的誤判率很高(圖3); 將測試數(shù)據(jù)中的實際非漁場與預測非漁場進行疊加, 實際非漁場主要分布在5°~14°N, 30°~45°W和2°S~7°N, 12°~30°W的海域, 極少分布在2°~12°S, 2°~10°W海域附近, 且預測的2°~8°S, 20°~30°W海域的實際非漁場的誤判率較高(圖4)。各模型對漁場和非漁場的判別準確率比較結果見表4。說明Stacking集成模型的預測性能良好。
表3 各個模型預測結果對比
Tab.3 Comparison of forecast results of each model
注: 注:ACC: accuracy, 預報準確率; AUC: area under curve, 曲線下面積
圖3 實際漁場與預報得到的漁場對比圖
圖4 實際非漁場與預報得到的非漁場對比圖
2016~2019年25%的測試數(shù)據(jù)中實際漁場密度分布如圖5a所示, 其中心漁場集中分布在4°~10°N, 33°~43°W海域, 以及5°~8°S, 27°~29°W和7°~9°S, 22°~24°W的海域。STK模型預測漁場密度分布如圖5b所示, 從整體來看預測的中心漁場比實際中心漁場略大, 但基本吻合。
表4 各模型對漁場和非漁場的判別準確率(%)比較
Tab.4 Comparison of discrimination accuracy (%) for fishing ground and non-fishing ground of each model
STK模型的漁場預報性能比6種單一模型(KNN、LR、CART、SVM、RF、GBDT)對大西洋熱帶海域長鰭金槍魚漁場預報的性能要好, 為最佳模型。CART的漁場預報性能最差。這是因為STK是一種堆疊集成方法, 能夠將KNN、RF和GBDT預測結果再次進行次級訓練, 克服單一模型的局限性, 能綜合三種模型的優(yōu)勢, 而CART容易過擬合, 導致泛化能力不強, 且某些自變量的占比過高時, 容易導致預測能力降低。RF對長鰭金槍魚漁場的預報性能與STK模型相近, 這可能是因為RF在構建模型時通過自助采樣選取訓練樣本, 增強其泛化和抗噪能力, 在一定程度上降低了不良數(shù)據(jù)對模型預測能力的影響(方匡南等, 2011)。GBDT與RF都是由多個分類樹通過不同算法構建的模型, 但GBDT的預測性能明顯低于RF, 這是因為GBDT訓練樣本選取的方法與RF不同, 其在模型構建過程中使用同一個訓練樣本, 導致模型泛化能力降低。LR、KNN、SVM的預測性能都比較低, 這幾個模型不能有效克服構建模型所使用的樣本數(shù)據(jù)質量不高的問題(如各類別的樣本數(shù)據(jù)不平衡、數(shù)據(jù)缺失等)。
圖5 25%的測試數(shù)據(jù)中漁區(qū)密度分布圖
由于海洋環(huán)境非常復雜, 環(huán)境因子相互影響, 可能導致環(huán)境變量之間存在多重共線性, 會對預測結果產生偏差。Dormann(2013)認為當環(huán)境變量之間的相關系數(shù)大于0.7時, 說明存在共線性的可能性較大。多重共線性是影響SVM和LR預測精度和運行速率的主要原因之一(惠守博等, 2006; 張玲, 2010), 雖然CART、RF和GBDT在模型訓練的過程中會自動消除多重共線性對預測精度的影響, 但是共線性使得環(huán)境變量的大部分信息相互疊加, 導致數(shù)據(jù)大量冗余, 模型的運行效率降低以及誤判解釋變量的貢獻率。故消除環(huán)境變量之間的多重共線性, 在一定程度上提高了模型的預測精度、穩(wěn)定性和可靠性。
VIF方法雖然可以消除共線性, 但也有可能導致原本生態(tài)學意義重要的因子被刪除, 本研究從29個潛在的影響因子中刪除了9個具有共線性的因子(200、300、500、250、300、350、400、450、400)。這些被刪除的因子均為200 m以深的因子, 由于長鰭金槍魚偏好覓食的水層為160~240 m水層, 且在該水層主要受餌料分布及水溫的影響(楊嘉樑等, 2014), 因此本研究未刪除對長鰭金槍魚具有生態(tài)學重要意義的因子。
研究認為溫度直接或間接影響魚類分布、集群和洄游(陳雪忠等, 2013), 其垂直水溫是影響長鰭金槍魚漁場分布主要原因之一(郭剛剛等, 2016)。研究表明, 100 m水層的溫度、溶解氧和鹽度與長鰭金槍魚CPUE關系較為密切, 可能的原因是該水層是水溫急劇下降的溫躍層, 溫度和鹽度等環(huán)境因子適宜長鰭金槍魚生存, 并且具有豐富的餌料生物資源, 較高的溶解氧含量(張嘉容等, 2020)。張嘉容等(2020)研究分析得到南太平洋中對長鰭金槍魚CPUE具有顯著影響的環(huán)境因子是120 m水層的溫度和鹽度, 這與本研究結果基本一致。葉綠素濃度和WS對長鰭金槍魚漁場分布的影響較小, 這是由于海面風速能夠改變葉綠素的空間位置和含量(Pickett, 2006; Jufaili, 2019), 而較高的葉綠素濃度會吸引更多浮游生物在附近繁殖(楊勝龍等,2012), 但長鰭金槍魚并不會直接捕食浮游生物。EKE對長鰭金槍魚漁場分布的影響最小, 這可能是因為EKE是通過影響環(huán)流、海洋溫度以及葉綠素的垂直和水平分布(Tussadiah, 2018)間接影響長鰭金槍魚漁場的分布。2016~2019年25%的測試數(shù)據(jù)中預測得到的中心漁場比實際中心漁場范圍略大, 可能是由于漁業(yè)生產作業(yè)不能均勻、完全覆蓋整個區(qū)域, 而預測是根據(jù)海洋環(huán)境數(shù)據(jù)進行平滑計算得出的, 預測得到的中心漁場范圍可靠。另外, 準確預測中心漁場能夠使?jié)O船縮短搜索漁場的時間、節(jié)省燃油, 增加長鰭金槍魚的漁獲量, 提高經(jīng)濟效益。
本研究根據(jù)29種海洋環(huán)境因子, 建立6種模型并篩選最佳的三個預測模型構成STK模型, 提高了大西洋熱帶海域長鰭金槍魚漁場預報的精度, 但長鰭金槍魚漁場預報的精度還與數(shù)據(jù)的空間分辨率、漁撈日志記錄的數(shù)據(jù)的準確度、餌料資源分布、洋流、流速等其他環(huán)境變量有關, 還會受到氣候的年代際, 如北大西洋濤動等大尺度海洋事件的影響, 本研究中CPUE為0的比例較高, 還需要進一步收集數(shù)據(jù)開展研究。另外, 本研究結果適用于大西洋熱帶海域長鰭金槍魚漁場的預報, 對于大西洋溫帶水域的長鰭金槍魚漁場的預報還需要進一步收集數(shù)據(jù)開展相關研究。
致謝 本研究得到了中水集團遠洋股份有限公司宗文峰、葉少華和鄧榮成先生的大力支持, 謹致謝意。
王超學, 潘正茂, 馬春森, 等, 2012. 改進型加權KNN算法的不平衡數(shù)據(jù)集分類[J]. 計算機工程, 38(20): 160-163, 168.
毛江美, 陳新軍, 余景, 2016. 基于神經(jīng)網(wǎng)絡的南太平洋長鰭金槍魚漁場預報[J]. 海洋學報, 38(10): 34-43.
方匡南, 吳見彬, 朱建平, 等, 2011. 隨機森林方法研究綜述[J]. 統(tǒng)計與信息論壇, 26(3): 32-38.
田欣, 2017. 決策樹算法的研究綜述[J]. 現(xiàn)代營銷(1): 36.
呂紅燕, 馮倩, 2019. 隨機森林算法研究綜述[J]. 河北省科學院學報, 36(3): 37-41.
任中華, 陳新軍, 方學燕, 2014. 基于棲息地指數(shù)的東太平洋長鰭金槍魚漁場分析[J]. 海洋漁業(yè), 36(5): 385-395.
閆敏, 張衡, 樊偉, 等, 2015. 南太平洋長鰭金槍魚漁場CPUE時空分布及其與關鍵海洋環(huán)境因子的關系[J]. 生態(tài)學雜志, 34(11): 3191-3197.
楊勝龍, 張禹, 樊偉, 等, 2012. 熱帶印度洋大眼金槍魚漁場時空分布與溫躍層關系[J]. 中國水產科學, 19(4): 679-689.
楊嘉樑, 黃洪亮, 宋利明, 等, 2014. 基于分位數(shù)回歸的庫克群島海域長鰭金槍魚棲息環(huán)境綜合指數(shù)[J]. 中國水產科學, 21(4): 832-851.
吳昊, 秦立春, 羅柳容, 2019. 基于提升度的KNN分類子的分類原則改良模型[J]. 廣西師范大學學報(自然科學版), 37(2): 75-81.
沈智賓, 陳新軍, 汪金濤, 2015. 基于海表溫度和海面高度的東太平洋大眼金槍魚漁場預測[J]. 海洋科學, 39(10): 45-51.
宋利明, 周建坤, 沈智賓, 等, 2017a. 基于支持向量機的庫克群島海域長鰭金槍魚棲息環(huán)境綜合指數(shù)[J]. 海洋通報, 36(2): 195-208.
宋利明, 謝凱, 趙海龍, 等, 2017b. 庫克群島海域海洋環(huán)境因子對長鰭金槍魚漁獲率的影響[J]. 海洋通報, 36(1): 96-106.
張玲, 2010. 多重共線性的檢驗及對預測目標影響程度的定量分析[J]. 通化師范學院學報, 31(4): 19-20, 38.
張瑩, 2015. 基于自然最近鄰居的分類算法研究[D]. 重慶: 重慶大學.
張?zhí)祢? 2016. 產漂流性卵小型魚類的生態(tài)位建模及分析[D]. 北京: 中國農業(yè)大學.
張春霞, 張講社, 2011. 選擇性集成學習算法綜述[J]. 計算機學報, 34(8): 1399-1410.
張嘉容, 楊曉明, 戴小杰, 等, 2020. 南太平洋長鰭金槍魚延繩釣漁獲率與環(huán)境因子的關系研究[J]. 南方水產科學, 16(1): 69-77.
陳雪忠, 樊偉, 崔雪森, 等, 2013. 基于隨機森林的印度洋長鰭金槍魚漁場預報[J]. 海洋學報, 35(1): 158-164.
邵元海, 劉黎明, 黃凌偉, 等, 2020. 支持向量機的關鍵問題和展望[J]. 中國科學: 數(shù)學, 50(9): 1233-1248.
范江濤, 2011. 南太平洋長鰭金槍魚延繩釣漁業(yè)漁情預報研究[D]. 上海: 上海海洋大學: 21-22.
林顯鵬, 郭愛, 張洪亮, 等, 2011. 所羅門群島海域長鰭金槍魚的垂直分布與環(huán)境因子的關系[J]. 浙江海洋學院學報(自然科學版), 30(4): 303-306.
羅智青, 莫漢培, 王汝輝, 等, 2019. 基于Stacking模型融合的失壓故障識別算法[J]. 能源與環(huán)保, 41(2): 41-45.
侯娟, 周為峰, 樊偉, 等, 2020. 基于集成學習的南太平洋長鰭金槍魚漁場預報模型研究[J]. 南方水產科學, 16(5): 42-50.
袁紅春, 陳冠奇, 張?zhí)祢? 等, 2020. 基于全卷積網(wǎng)絡的南太平洋長鰭金槍魚漁場預報模型[J]. 江蘇農業(yè)學報, 36(2): 423-429.
袁紅春, 陳驄昊, 2019a. 基于融合深度學習模型的長鰭金槍魚漁情預測研究[J]. 漁業(yè)現(xiàn)代化, 46(5): 74-81.
袁紅春, 胡光亮, 陳冠奇, 等, 2019b. 基于粒子群可拓的南太平洋長鰭金槍魚產量預測方法研究[J]. 漁業(yè)現(xiàn)代化, 46(6): 96-103.
袁培森, 楊承林, 宋玉紅, 等, 2019. 基于Stacking集成學習的水稻表型組學實體分類研究[J]. 農業(yè)機械學報, 50(11): 144-152.
郭剛剛, 張勝茂, 樊偉, 等, 2016. 南太平洋長鰭金槍魚垂直活動水層空間分析[J]. 南方水產科學, 12(5): 123-130.
惠守博, 王文杰, 2006. 支持向量機分類算法中多元變量共線性問題的改進[J]. 計算機工程與設計, 27(8): 1385-1388.
儲宇航, 戴小杰, 田思泉, 等, 2016. 南太平洋延繩釣長鰭金槍魚生物學組成及其與棲息環(huán)境關系[J]. 海洋漁業(yè), 38(2): 130-139.
謝金梅, 王艷妮, 2008. 決策樹算法綜述[J]. 軟件導刊, 7(11): 83-85.
AKINWANDE M O, DIKKO H G, SAMSON A, 2015. Variance inflation factor: as a condition for the inclusion of suppressor variable(s) in regression analysis [J]. Open Journal of Statistics, 5(7): 754-767.
ASSEGIE T A, SUSHMA S J, BHAVYA B G,, 2021. Correlation analysis for determining effective data in machine learning: detection of heart failure [J]. SN Computer Science, 2(3): 213.
BRIAND K, MOLONY B, LEHODEY P, 2011. A study on the variability of albacore () longline catch rates in the southwest Pacific Ocean [J]. Fisheries Oceanography, 20(6): 517-529.
CHEN I C, LEE P F, TZEND W N, 2005. Distribution of albacore () in the Indian Ocean and its relation to environmental factors [J]. Fisheries Oceanography, 14(1): 71-80.
DAHLEM A M, HASSAN A S, SWANSON S P,, 1989. A model system for studying the bioavailability of intestinally administered microcystin‐LR, a hepatotoxic peptide from the cyanobacterium[J]. Pharmacology & Toxicology, 64(2): 177-181.
DOMOKOS R, SEKI M P, POLOVINA J J,, 2007. Oceanographic investigation of the American Samoa albacore () habitat and longline fishing grounds [J]. Fisheries Oceanography, 16(6): 555-572.
DORMANN C F, ELITH J, BACHER S,, 2013. Collinearity: a review of methods to deal with it and a simulation study evaluating their performance [J]. Ecography, 36(1): 27-46.
D?EROSKI S, ?ENKO B, 2004. Is combining classifiers with stacking better than selecting the best one? [J]. Machine Learning, 54(3): 255-273.
FRIEDMAN J H, 2003. Stochastic gradient boosting [J]. Computational Statistics & Data Analysis, 38(4): 367-378.
GO?I N, DIDOUAN C, ARRIZABALAGA H,, 2015. Effect of oceanographic parameters on daily albacore catches in the Northeast Atlantic [J]. Deep Sea Research Part II: Topical Studies in Oceanography, 113: 73-80.
HWANG W J, WEN K W, 1998. Fast KNN classification algorithm based on partial distance search [J]. Electronics Letters, 34(21): 2062-2063.
JOU Y J, HUANG C C L, CHO H J, 2014. A VIF-based optimization model to alleviate collinearity problems in multiple linear regression [J]. Computational Statistics, 29(6): 1515-1541.
JUFAILI S A, PIONTKOVSKI S A, 2019. Seasonal and interannual variations of Yellowfin tuna catches along the Omani Shelf [J]. International Journal of Oceans and Oceanography, 13(2): 427-454.
KRISTENSEN P, JUDGE M E, THIM L,, 1998. Hypothalamic CART is a new anorectic peptide regulated by leptin [J]. Nature, 393(6680): 72-76.
LEHODEY P, SENINA I, NICOL S,, 2015. Modelling the impact of climate change on South Pacific albacore tuna [J]. Deep Sea Research Part II: Topical Studies in Oceanography, 113: 246-259.
OU J J, JIN X D, MA I,, 2002. CMOS RF modeling for GHz communication IC's [C] // Proceedings of 1998 Symposium on VLSI Technology Digest of Technical Papers. Honolulu, HI, USA: IEEE: 94-95.
PICKETT M H, SCHWING F B, 2006. Evaluating upwelling estimates off the west coasts of North and South America [J]. Fisheries Oceanography, 15(3): 256-269.
RAYKOV T, PENEV S, 2010. Testing multivariate mean collinearity via latent variable modelling [J]. British Journal of Mathematical and Statistical Psychology, 63(3): 481-490.
SUYKENS J A K, LUKAS L, VANDEWALLE J, 2000. Sparse approximation using least squares support vector machines [C] // Proceedings of 2000 IEEE International Symposium on Circuits and Systems. Geneva, Switzerland: IEEE: 757-760.
TUSSADIAH A, PRANOWO W S, SYAMSUDDIN M L,, 2018. Characteristic of eddies kinetic energy associated with yellowfin tuna in Southern Java Indian Ocean [J]. IOP Conference Series: Earth and Environmental Science, 176(1): 012004.
WILLIAMS A J, ALLAIN V, NICOL S J,, 2015. Vertical behavior and diet of albacore tuna () vary with latitude in the South Pacific Ocean [J]. Deep Sea Research Part II: Topical Studies in Oceanography, 113: 154-169.
ZAINUDDIN M, SAITOH K, SAITOH S I, 2008. Albacore () fishing ground in relation to oceanographic conditions in the western North Pacific Ocean using remotely sensed satellite data [J]. Fisheries Oceanography, 17(2): 61-73.
ZHANG S C, LI X L, ZONG M,, 2018. Efficient KNN classification with different numbers of nearest neighbors [J]. IEEE Transactions on Neural Networks and Learning Systems, 29(5): 1774-1785.
COMPARISON ON FISHING GROUND FORECAST MODELS OFIN THE TROPICAL WATERS OF ATLANTIC OCEAN
SONG Li-Ming1, 2, REN Shi-Yu1, HONG Yi-Ran1, ZHANG Tian-Jiao1, SUI Heng-Shou3, LI Bin3, ZHANG Min1, 2
(1. College of Marine Sciences, Shanghai Ocean University, Shanghai 201306, China; 2. National Engineering Research Center for Oceanic Fisheries, Shanghai 201306, China; 3. CNFC Overseas Fisheries Co, Ltd, Beijing 100032, China)
To improve the accuracy of the forecast model for albacore tuna ()fishing ground in the tropical waters of Atlantic Ocean, seven fishery forecast models,k-nearest neighbor (KNN), logistic regression (LR), classfication and regression tree (CART), support vector machine (SVM), random forest (RF), gradient boosting decision tree (GBDT), and stacking ensemble learning (STK) model were used and compared based on the data of 13 tuna longliners of Chinese fishing enterprises from 2016 to 2019 in the high seas of the Atlantic Ocean (19°16′S~16°21′N; 46°27′W~2°09′E). Using environmental factors (temperature, salinity and dissolved oxygen) at different water layers from 0 to 500 m, as well as chlorophyll-concentration, sea surface wind speed, eddy kinetic energy, and mixed layer depth, the relationship between albacore tuna CPUE and the environmental factors were analyzed. Seventy-five percent of the data were taken as training data and 25% as test data. The performance of each model was evaluated by prediction accuracy (ACC) and area under receiver operating characteristic curve (AUC). Relationships between CPUE (catch per unit of effort) and marine environmental factors were established. Results show that: (1) the prediction performance of STK model wasobviously better compared with other models and its ACC and AUC is 75.92% and 0.742, respectively; (2) the areas of central fishing ground predicted by STK model for albacore tuna is consistent with the actual fishing ground generally; (3) the marine environmental factors that affect the distribution of albacore tuna fishing grounds in the Atlantic Ocean included mainly temperature and salinity of 100 m layer, and dissolved oxygen at 100, 150, and 500 m layer. The accuracy and the prediction performance of the STK model is high for albacore tuna fishing ground forecast in the tropical waters of Atlantic Ocean.
; fishing ground forecast model; comparative study of model performance; tropical waters of Atlantic Ocean
*國家重點研發(fā)項目, 2020YFD0901205號; 中水集團遠洋股份有限公司技術研發(fā)項目, D-8006-20-0180號。宋利明, 博士生導師, 教授, E-mail: lmsong@shou.edu.cn
2021-10-23,
2021-12-20
S934
10.11693/hyhz20211000253