班學(xué)君 樊博 劉瀚 俞立雄 林俊強(qiáng) 夏繼紅 張迪
摘要:四大家魚作為我國(guó)重要淡水經(jīng)濟(jì)魚類,近年來(lái)產(chǎn)卵規(guī)模大幅衰減,水文條件作為影響家魚自然繁殖的重要因素,確定四大家魚產(chǎn)卵行為與生態(tài)水文指標(biāo)的關(guān)系對(duì)保護(hù)四大家魚早期資源具有重要意義。以長(zhǎng)江中游宜昌段為研究區(qū)域,采用ROC曲線、分類回歸樹、Logistic回歸等方法將生態(tài)水文指標(biāo)對(duì)家魚產(chǎn)卵刺激劃分為“無(wú)效、低效、高效”多分類問(wèn)題,分析家魚產(chǎn)卵行為與生態(tài)水文指標(biāo)間的響應(yīng)關(guān)系,并對(duì)比研究不同方法間的性能與優(yōu)缺點(diǎn)。結(jié)果顯示,ROC曲線判別準(zhǔn)確率、預(yù)測(cè)準(zhǔn)確率、模型魯棒性均最優(yōu),是判定生態(tài)水文指標(biāo)對(duì)四大家魚產(chǎn)卵規(guī)模影響的最優(yōu)方法;當(dāng)流量日增量大于1 370 m?/s且兩次洪峰間隔時(shí)間大于7.5 d時(shí)可以引起四大家魚高效產(chǎn)卵響應(yīng)。辨識(shí)出高效刺激家魚產(chǎn)卵的生態(tài)水文指標(biāo)及其閾值,對(duì)生態(tài)調(diào)度的優(yōu)化改進(jìn)具有重要的現(xiàn)實(shí)意義。
關(guān)鍵詞:四大家魚;生態(tài)水文指標(biāo);ROC曲線;生態(tài)調(diào)度
中圖分類號(hào):Q958.12? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? 文章編號(hào):1674-3075(2024)01-0067-08
水文情勢(shì)改變是引起河流生態(tài)系統(tǒng)改變的主要驅(qū)動(dòng)力(Richter et al,2003),水利水電工程建設(shè)運(yùn)行不可避免地改變河流水文情勢(shì),魚類繁殖季節(jié)洪峰過(guò)程坦化將減弱產(chǎn)漂流性卵魚類繁殖所需的漲水水流刺激,進(jìn)而影響魚類自然繁殖。從眾多生態(tài)水文指標(biāo)中識(shí)別出關(guān)鍵指標(biāo),建立魚類產(chǎn)卵行為與水文指標(biāo)響應(yīng)關(guān)系,并量化相應(yīng)指標(biāo)閾值,是開展生態(tài)調(diào)度人為營(yíng)造洪水過(guò)程的重要基礎(chǔ)。目前國(guó)內(nèi)外學(xué)者應(yīng)用系統(tǒng)重構(gòu)分析法、冗余分析法、遺傳規(guī)劃法分析了四大家魚、銅魚等產(chǎn)漂流性卵魚類產(chǎn)卵行為與生態(tài)水文指標(biāo)的相關(guān)性,篩選了一些代表性水文指標(biāo)并量化了相關(guān)閾值作為水庫(kù)生態(tài)調(diào)度的參考依據(jù)(周雪等,2019;班璇等,2019;陳誠(chéng)等,2020)。已有研究多關(guān)注生態(tài)水文指標(biāo)是否可以有效刺激魚類產(chǎn)卵,即把生態(tài)水文指標(biāo)與魚類行為的響應(yīng)問(wèn)題概化為“是、否”刺激產(chǎn)卵的“二分類”問(wèn)題。隨著水庫(kù)生態(tài)調(diào)度實(shí)踐的深入推進(jìn),在有效刺激魚類產(chǎn)卵的基礎(chǔ)上,如能通過(guò)水文指標(biāo)與魚類行為的響應(yīng)研究,進(jìn)一步辨識(shí)出低效、高效刺激魚類產(chǎn)卵的生態(tài)水文指標(biāo)及其閾值,對(duì)生態(tài)調(diào)度的優(yōu)化改進(jìn)具有重要的現(xiàn)實(shí)意義。
本文以四大家魚為研究對(duì)象,選擇受三峽水庫(kù)生態(tài)調(diào)度影響最為顯著的四大家魚宜昌產(chǎn)卵場(chǎng)江段為研究區(qū)域,基于2013-2023年(除2016、2021年)的水文和魚類繁殖活動(dòng)監(jiān)測(cè)數(shù)據(jù),把生態(tài)水文指標(biāo)“是、否”可以刺激魚類產(chǎn)卵的“二分類”問(wèn)題延拓為“無(wú)效、低效、高效”刺激魚類產(chǎn)卵的“多分類”問(wèn)題,應(yīng)用ROC法、分類回歸樹、logistic回歸等不同數(shù)據(jù)挖掘方法,建立魚類產(chǎn)卵與關(guān)鍵水文指標(biāo)的響應(yīng)關(guān)系模型,并對(duì)比研究了不同方法間的性能與優(yōu)缺點(diǎn),以期為三峽水庫(kù)生態(tài)調(diào)度方案的優(yōu)化提供依據(jù)。
1? ?材料與方法
1.1? ?數(shù)據(jù)收集
本研究使用的魚類早期資源數(shù)據(jù)源于2013-2023年(2016、2021年未監(jiān)測(cè))中國(guó)水產(chǎn)科學(xué)研究院長(zhǎng)江水產(chǎn)研究所與中國(guó)水利水電科學(xué)研究院在四大家魚宜昌產(chǎn)卵場(chǎng)開展的魚類繁殖期聯(lián)合生態(tài)監(jiān)測(cè)(周雪等,2021)。研究使用的水文數(shù)據(jù)源于宜昌水文站逐日流量和水位數(shù)據(jù)。
1.2? ?水文及生物指標(biāo)
以往研究表明,四大家魚產(chǎn)卵行為發(fā)生在產(chǎn)卵場(chǎng)水溫達(dá)到18℃以上(Zhang et al,2000),且親魚感受到水文信號(hào)的刺激時(shí)。由于本次研究選取的5-7月長(zhǎng)江宜昌段水溫均可滿足18℃以上這一要求,故不考慮水溫對(duì)于產(chǎn)卵的影響。據(jù)統(tǒng)計(jì),四大家魚產(chǎn)卵大多數(shù)發(fā)生在漲水過(guò)程中,僅少數(shù)在漲水期受到漲水信號(hào)刺激后于高流量維持期完成產(chǎn)卵。結(jié)合前人研究經(jīng)驗(yàn),本次研究選取漲水持續(xù)天數(shù)、初始流量、洪峰流量、流量日增長(zhǎng)量、流量總增長(zhǎng)量、初始水位、洪峰水位、水位日上漲率、前后兩次洪峰過(guò)程間隔時(shí)間、前后兩個(gè)洪峰過(guò)程的水位差異等10個(gè)生態(tài)水文指標(biāo)描述漲水過(guò)程(Zhang et al,2000;彭期冬,2011;周雪等,2019)。利用這些生態(tài)水文指標(biāo)可有效描述一個(gè)漲水過(guò)程的強(qiáng)度、持續(xù)時(shí)間、強(qiáng)度變化率,用以探究其對(duì)四大家魚產(chǎn)卵的影響。相關(guān)研究表明,四大家魚產(chǎn)卵在不同流速下多發(fā)生在漲水開始的0.5~2 d后(李建等,2013),因此本研究中將連續(xù)漲水時(shí)間大于2 d的漲水過(guò)程認(rèn)定為有效漲水過(guò)程。
選擇魚類早期資源監(jiān)測(cè)得到的四大家魚日均產(chǎn)卵量作為生物指標(biāo)以反映產(chǎn)卵規(guī)模,依據(jù)每次漲水過(guò)程四大家魚產(chǎn)卵量占全年產(chǎn)卵量的百分比,將四大家魚產(chǎn)卵規(guī)模劃分為無(wú)效產(chǎn)卵、低效產(chǎn)卵、高效產(chǎn)卵。其中,將產(chǎn)卵占比低于全年5%的產(chǎn)卵行為界定為無(wú)效產(chǎn)卵(劉瀚等,2023),在2013-2023年(除2016、2021年)66次有效漲水過(guò)程中,有33次漲水過(guò)程刺激了四大家魚有效產(chǎn)卵,有33次未引起有效產(chǎn)卵。將引起四大家魚有效產(chǎn)卵的33次漲水過(guò)程中四大家魚產(chǎn)卵占比的中位數(shù)19.59%作為劃分低效產(chǎn)卵和高效產(chǎn)卵的閾值,一次產(chǎn)卵事件產(chǎn)卵量占比小于等于全年產(chǎn)卵量19.59%且高于5%的認(rèn)為是低效產(chǎn)卵,高于19.59%的認(rèn)為是高效產(chǎn)卵。根據(jù)該劃分標(biāo)準(zhǔn),共有17次漲水過(guò)程被界定為可以引起四大家魚低效產(chǎn)卵,16次漲水過(guò)程被界定為可以引起四大家魚高效產(chǎn)卵。
1.3? ?建立魚類產(chǎn)卵與生態(tài)水文指標(biāo)響應(yīng)關(guān)系模型
本文選擇了在數(shù)據(jù)挖掘領(lǐng)域具有代表性的ROC曲線、分類回歸樹和logistic回歸方法,將生態(tài)水文指標(biāo)作為自變量,四大家魚產(chǎn)卵規(guī)模作為因變量,研究生態(tài)水文指標(biāo)與四大家魚產(chǎn)卵行為的響應(yīng)關(guān)系。
1.3.1? ?ROC曲線? ?受試者工作特征曲線(receiver operator characteristic curve, ROC曲線)是一種用來(lái)評(píng)價(jià)分類器或者診斷系統(tǒng)性能的圖形工具,它可以顯示在不同的閾值下,分類器或者診斷系統(tǒng)的真陽(yáng)性率(靈敏度)和假陽(yáng)性率(1-特異度)之間的關(guān)系。ROC曲線最初應(yīng)用于雷達(dá)性能評(píng)價(jià),后廣泛應(yīng)用于機(jī)器學(xué)習(xí)、醫(yī)療診斷等領(lǐng)域(Schmugge et al,2007;Obuchowski & Bullen,2018;Wu et al,2018)。ROC曲線對(duì)類別的改變不敏感,當(dāng)樣本的正負(fù)比例發(fā)生改變時(shí),其曲線形狀幾乎保持不變,這使得其可以更加客觀地評(píng)價(jià)分類效果的好壞。ROC曲線是1種主要用于評(píng)價(jià)二分類問(wèn)題模型的工具,當(dāng)需要繪制多分類問(wèn)題的ROC曲線時(shí),常用的方法是將多分類問(wèn)題轉(zhuǎn)化為多個(gè)二分類問(wèn)題(李亭亭等,2022),繪制多個(gè)ROC曲線,再將這些曲線整合分析,綜合評(píng)價(jià)多分類問(wèn)題模型。
本文中,漲水過(guò)程對(duì)四大家魚產(chǎn)卵刺激的“無(wú)效、低效、高效”是一個(gè)三分類問(wèn)題,因此,需要將這一問(wèn)題劃分為“無(wú)效”與“低效或高效”對(duì)比、“無(wú)效或低效”與“高效”對(duì)比兩個(gè)二分類問(wèn)題,以選定的生態(tài)水文指標(biāo)作為檢驗(yàn)變量,以產(chǎn)卵規(guī)模“無(wú)效”“低效或高效”產(chǎn)卵和“無(wú)效或低效”“高效”產(chǎn)卵分別作為狀態(tài)變量繪制兩組ROC曲線。在每組ROC曲線中,選擇分類效果最好的指標(biāo)用于閾值的確定。最終整合兩組ROC曲線得出的最優(yōu)閾值,確定該三分類問(wèn)題最終的閾值及分類效果。繪制ROC曲線時(shí),統(tǒng)計(jì)每一檢驗(yàn)變量不同閾值下的真陽(yáng)率、假陽(yáng)率,作為ROC曲線的縱坐標(biāo)、橫坐標(biāo),最佳閾值的確定采用“尤登指數(shù)”,即“敏感性+特異性-1”,該指數(shù)值的最大值處就是最佳的閾值(Raghavan et al,2016)。
對(duì)于每組ROC曲線,由于選取了多個(gè)生態(tài)水文指標(biāo)作為檢驗(yàn)變量,因此可以繪制出多條ROC曲線。綜合比較ROC曲線下面積(AUC)和判別準(zhǔn)確率,選取1個(gè)分類效果最佳的曲線用于最終閾值的確定,其中AUC的值越接近1,表示模型的效果越好。
1.3.2? ?分類回歸樹法? ?分類回歸樹(Classification and regression trees analysis, CART)是一種無(wú)需假設(shè)數(shù)據(jù)分布的非參統(tǒng)計(jì)方法,它通過(guò)二元遞歸分離法,根據(jù)一定的劃分準(zhǔn)則,將數(shù)據(jù)集不斷地劃分為兩個(gè)子集,使得每次劃分后的兩個(gè)子集之間的差異最大(黎明政等,2019)。分類回歸樹的構(gòu)造過(guò)程包括樹的生成、樹的終止、樹的剪枝和最優(yōu)樹的選擇4個(gè)步驟。分類回歸樹算法包括分類樹和回歸樹,其中分類樹和回歸樹的特征選擇采用的是不同的方法,分類樹使用基尼系數(shù),回歸樹使用均方差。本次研究中以選定的生態(tài)水文指標(biāo)作為預(yù)測(cè)變量,將一個(gè)漲水過(guò)程內(nèi)的四大家魚產(chǎn)卵規(guī)模無(wú)效、低效、高效作為響應(yīng)變量,分別定義為“無(wú)、低、高”,構(gòu)建分類樹。
進(jìn)行CART計(jì)算時(shí),樹的最大深度max_depth設(shè)置為2,以防止樹過(guò)擬合。樹的分類權(quán)重class_weigh設(shè)置為“balanced”,也就是在每次分裂時(shí)考慮樣本的類別分布,給少數(shù)類更高的權(quán)重,這樣可以處理不平衡數(shù)據(jù)集的問(wèn)題。每個(gè)葉子節(jié)點(diǎn)最少樣本min_samples_leaf設(shè)置為4,這樣可以防止樹過(guò)于細(xì)分?jǐn)?shù)據(jù),造成過(guò)擬合。樹的分裂標(biāo)準(zhǔn)criterion選擇“gini”,即采用基尼系數(shù)進(jìn)行特征選擇,基尼系數(shù)計(jì)算公式如下:
[Gini(D)=1-k=1K(∣Ck∣∣D∣)2]? ? ? ? ? ? ? ? ? ? ? ①
式中:D為樣本集合,K為類別個(gè)數(shù),[Ck]為第k個(gè)類別的樣本子集,[∣Ck∣∣D∣]為第k個(gè)類別的樣本占比?;嵯禂?shù)越小,表示樣本集合的純度越高。
1.3.3? ?Logistic回歸? ?邏輯回歸(Logistic 回歸)是用于解決二分類問(wèn)題的機(jī)器學(xué)習(xí)方法,它可以估計(jì)某個(gè)事件發(fā)生的可能性,也可以根據(jù)一個(gè)閾值來(lái)劃分不同的類別。邏輯回歸的基本思想是將線性回歸的結(jié)果通過(guò)S形的函數(shù)(sigmoid函數(shù)或邏輯函數(shù))映射到0~1,然后用最大似然估計(jì)來(lái)求解模型的參數(shù)。邏輯回歸雖然名字中有“回歸”,但實(shí)際上是一種分類方法,它可以用于二分類或多分類問(wèn)題(王濟(jì)川和郭志剛,2001)。
對(duì)本文進(jìn)行的“無(wú)效”“低效”“高效”三分類問(wèn)題,常用的方法是有序回歸。有序多分類的Logistic回歸原理是將因變量的多個(gè)分類依次分割為多個(gè)二元的Logistic回歸。但直接使用多個(gè)二元的Logistic回歸進(jìn)行分析相較于使用有序回歸,具有實(shí)現(xiàn)簡(jiǎn)單,易于理解的優(yōu)勢(shì),因此本文將漲水過(guò)程對(duì)魚類產(chǎn)卵無(wú)效、低效、高效刺激的三分類問(wèn)題轉(zhuǎn)化為“無(wú)效”與“低效或高效”對(duì)比、“無(wú)效或低效”與“高效”對(duì)比兩個(gè)二分類問(wèn)題。
以所選的生態(tài)水文指標(biāo)為自變量,產(chǎn)卵規(guī)模為因變量,分別利用邏輯回歸對(duì)其進(jìn)行計(jì)算,最后將兩次分類結(jié)果整合,得出最終的結(jié)果。對(duì)于這兩個(gè)二分類問(wèn)題,二項(xiàng)分布成功的概率p為:
[logit][p=lnp1-p=β1×X1+β2×X2+…+βn×Xn+β0]? ? ②
式中:p為二項(xiàng)分布試驗(yàn)成功的概率,X為協(xié)變量,β為回歸系數(shù)。
利用尤登值確定p的閾值pthreshold,當(dāng)p大于pthreshold時(shí),表明二項(xiàng)分布成功。例如在“無(wú)效”與“低效或高效”對(duì)比這個(gè)二分類問(wèn)題中,當(dāng)計(jì)算出的某次漲水過(guò)程的p>pthreshold,說(shuō)明該漲水過(guò)程對(duì)四大家魚產(chǎn)卵產(chǎn)生了有效刺激,反之為無(wú)效刺激。
1.4? ?訓(xùn)練集、測(cè)試集劃分
為驗(yàn)證模型性能,提供可靠的評(píng)估結(jié)果,將數(shù)據(jù)集按照7:3的比例劃分為訓(xùn)練集、測(cè)試集。利用訓(xùn)練集數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,利用測(cè)試集數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證。
2? ?結(jié)果與分析
2.1? ?指標(biāo)獨(dú)立性
指標(biāo)獨(dú)立性分析結(jié)果(圖1)顯示,初始水位與初始流量、洪峰水位與洪峰流量、水位日上漲率與流量日上漲率間具有高度線性關(guān)系,將其剔除。將篩選后的漲水過(guò)程漲水持續(xù)時(shí)間、初始流量、洪峰流量、流量日增長(zhǎng)量、流量總增長(zhǎng)量、兩次洪峰間隔時(shí)間、兩次洪峰水位差異等7項(xiàng)生態(tài)水文指標(biāo)用于后續(xù)分析。
2.2? ?識(shí)別結(jié)果
2.2.1? ?ROC曲線? ?以指標(biāo)獨(dú)立分析篩選后的7個(gè)生態(tài)水文指標(biāo)為檢驗(yàn)變量,分別以產(chǎn)卵規(guī)模“無(wú)效”“低效或高效”以及“無(wú)效或低效”“高效”為狀態(tài)變量,繪制ROC曲線,如圖2所示。描述各指標(biāo)分類效果的曲線下面積AUC、漸進(jìn)顯著性P,以及各指標(biāo)的最佳判別閾值和該閾值下的判別準(zhǔn)確率列入表1中。
結(jié)果顯示,對(duì)于“無(wú)效”與“低效或高效”對(duì)比問(wèn)題,漲水持續(xù)時(shí)間和初始流量的AUC值較小,分別為0.524、0.587,且對(duì)分類結(jié)果影響不顯著(P>0.05),說(shuō)明這兩個(gè)指標(biāo)的分類效果較差。洪峰流量、流量日增長(zhǎng)量、流量總增長(zhǎng)量、兩次洪峰間隔時(shí)間、兩次洪峰水位差異的AUC值均大于0.7,表明模型的區(qū)分效果較好,綜合考慮各指標(biāo)的AUC值和最佳閾值下的判別準(zhǔn)確率,選擇流量日增長(zhǎng)量作為判別四大家魚產(chǎn)卵規(guī)模是否有效的指標(biāo),最佳判別閾值為1 370 m3/s,即當(dāng)1次漲水過(guò)程的流量日增長(zhǎng)量大于1 370 m3/s時(shí),認(rèn)為該次漲水過(guò)程可以刺激四大家魚有效產(chǎn)卵。
對(duì)于“無(wú)效”與“低效或高效”對(duì)比問(wèn)題,漲水持續(xù)時(shí)間、初始流量、流量日增量作為分類指標(biāo)的AUC值均較?。?0.7),且漸進(jìn)顯著性均大于等于0.05,表明以這些指標(biāo)進(jìn)行分類的模型區(qū)分效果較差,分類效果不顯著。洪峰流量、流量總增長(zhǎng)量、兩次洪峰間隔時(shí)間、兩次洪峰水位差異作為分類指標(biāo)的AUC均值大于0.7(P<0.05),表明模型的區(qū)分效果較好,綜合考慮AUC值和判別準(zhǔn)確率,選擇以兩次洪峰間隔時(shí)間作為判別四大家魚產(chǎn)卵規(guī)模是否高效的指標(biāo),最佳判別閾值為7.5 d,即當(dāng)1次漲水過(guò)程距上次漲水過(guò)程的洪峰間隔時(shí)間大于7.5 d時(shí),認(rèn)為其可以刺激四大家魚高效產(chǎn)卵。
結(jié)合上述兩個(gè)分類標(biāo)準(zhǔn),當(dāng)一次漲水過(guò)程的流量日增量小于1 370 m3/s時(shí),認(rèn)為此次漲水過(guò)程不能刺激四大家魚進(jìn)行有效產(chǎn)卵;當(dāng)流量日增量大于1 370 m3/s時(shí),認(rèn)為此次漲水過(guò)程可以刺激四大家魚進(jìn)行有效產(chǎn)卵;當(dāng)流量日增量大于1 370 m3/s且兩次洪峰間隔時(shí)間大于7.5 d時(shí),認(rèn)為此次漲水過(guò)程可以刺激四大家魚進(jìn)行高效產(chǎn)卵。在訓(xùn)練集46次漲水過(guò)程中,模型最終判別正確33場(chǎng)次,模型判別準(zhǔn)確率達(dá)71.74%。
2.2.2? ?分類回歸樹? ?以篩選后的生態(tài)水文指標(biāo)作為預(yù)測(cè)變量,產(chǎn)卵規(guī)模作為響應(yīng)變量,進(jìn)行分類回歸樹分析。CART分析結(jié)果顯示,流量總增長(zhǎng)量和兩次洪峰間隔時(shí)間是影響四大家魚產(chǎn)卵規(guī)模的重要指標(biāo)。分類樹顯示(圖3),當(dāng)漲水過(guò)程的流量總增長(zhǎng)量小于等于2 145 m3/s時(shí),該漲水過(guò)程對(duì)四大家魚產(chǎn)卵行為刺激效果為“無(wú)效”;當(dāng)流量總增長(zhǎng)量大于2 145 m3/s,且兩次洪峰間隔時(shí)間大于11.5 d時(shí),該漲水過(guò)程對(duì)四大家魚產(chǎn)卵行為刺激效果為“高效”;當(dāng)流量總增長(zhǎng)量大于2 145 m3/s,且兩次洪峰間隔時(shí)間小于11.5 d時(shí),該漲水過(guò)程對(duì)四大家魚產(chǎn)卵行為刺激效果為“低效”。在訓(xùn)練集所有的46次漲水過(guò)程中,經(jīng)分類回歸樹模型判別,有12場(chǎng)次漲水對(duì)四大家魚產(chǎn)卵行為刺激效果為“無(wú)效”,27場(chǎng)次漲水對(duì)四大家魚產(chǎn)卵行為刺激效果為“低效”,7場(chǎng)次漲水對(duì)四大家魚產(chǎn)卵行為刺激效果為“高效”,判別正確28場(chǎng)次,模型的判別準(zhǔn)確率為60.87%。漲水持續(xù)天數(shù)、初始流量、洪峰流量、流量總增長(zhǎng)量、兩次洪峰的水位差異對(duì)四大家魚的產(chǎn)卵規(guī)模不產(chǎn)生影響。
2.2.3? ?Logistic回歸? ?以篩選后的7個(gè)生態(tài)水文指標(biāo)為協(xié)變量,分別以產(chǎn)卵規(guī)模“無(wú)效”“低效或高效”以及“無(wú)效或低效”“高效”作為狀態(tài)變量,利用Logistic回歸對(duì)其進(jìn)行分析,得出經(jīng)過(guò)篩選后進(jìn)入模型的變量及其參數(shù),如表2所示。
對(duì)于“無(wú)效”與“低效或高效”對(duì)比問(wèn)題,分析結(jié)果顯示,漲水過(guò)程的流量日增長(zhǎng)量對(duì)該漲水過(guò)程是否可以刺激四大家魚有效產(chǎn)卵產(chǎn)生影響。漲水過(guò)程可以刺激四大家魚進(jìn)行有效產(chǎn)卵的概率p1可通過(guò)下式計(jì)算得出:
logit[p1=0.001×dQ-1.778]? ? ? ? ? ? ? ? ? ?③
[p1=e0.001×dQ-1.7781+e0.001×dQ-1.778]? ? ? ? ? ? ? ? ? ? ? ? ?④
式中:[p1]為漲水過(guò)程可以刺激四大家魚進(jìn)行有效產(chǎn)卵的概率,[dQ]為漲水過(guò)程的流量日增長(zhǎng)量。
對(duì)于“無(wú)效或低效”與“高效”對(duì)比問(wèn)題,結(jié)果顯示,漲水過(guò)程的漲水持續(xù)天數(shù)和兩次洪峰間隔時(shí)間是刺激四大家魚高效產(chǎn)卵的重要生態(tài)水文指標(biāo)。漲水過(guò)程可以刺激四大家魚進(jìn)行高效產(chǎn)卵的概率[p2]可通過(guò)下式計(jì)算得出:
logit[p2=0.318×t1+0.179×t2-4.16]? ? ? ? ?⑤
[p2=e0.318×t1+0.179×t2-4.161+e0.318×t1+0.179×t2-4.16]? ? ? ? ? ? ? ? ? ? ⑥
式中:[p2]為漲水過(guò)程可以刺激四大家魚進(jìn)行高效產(chǎn)卵的概率,[t1]為漲水持續(xù)時(shí)間(d),[t2]為該漲水過(guò)程距上一漲水過(guò)程的間隔時(shí)間(d)。
利用尤登值最大原則確定[p1]、[p2]的最佳閾值,[p1]的最佳閾值為45.10%,[p2]的最佳閾值為12.53%。[p1]最佳閾值對(duì)應(yīng)的流量日增長(zhǎng)量為1 366 m3/s,[p2]最佳閾值對(duì)應(yīng)的漲水持續(xù)時(shí)間為5 d、兩次洪峰間隔時(shí)間為3.5 d。即當(dāng)流量日增長(zhǎng)量大于1 366 m3/s時(shí),可引起四大家魚有效產(chǎn)卵;當(dāng)流量日增長(zhǎng)量大于1 366 m3/s、漲水持續(xù)時(shí)間大于5 d且兩次洪峰間隔時(shí)間大于3.5 d時(shí),可引起四大家魚高效產(chǎn)卵。以此作為判別標(biāo)準(zhǔn),在訓(xùn)練集46次漲水過(guò)程中,模型判別正確33場(chǎng)次,準(zhǔn)確率達(dá)71.74%。
2.3? ?比較分析
2.3.1? ?模型判別效果比較? ?利用ROC曲線、Logistic回歸判別某一漲水過(guò)程是否可以刺激四大家魚有效產(chǎn)卵判別準(zhǔn)確率均達(dá)71.74%。利用分類回歸樹進(jìn)行判別時(shí),判別準(zhǔn)確率達(dá)60.87%。
2.3.2? ?模型預(yù)測(cè)效果驗(yàn)證? ?利用測(cè)試集數(shù)據(jù)對(duì)上文所建模型進(jìn)行驗(yàn)證,在對(duì)測(cè)試集20場(chǎng)次漲水過(guò)程刺激四大家魚產(chǎn)卵效果預(yù)測(cè)中,ROC曲線、Logistic回歸均預(yù)測(cè)正確15次,預(yù)測(cè)準(zhǔn)確率達(dá)75%,分類回歸樹預(yù)測(cè)正確11次,預(yù)測(cè)準(zhǔn)確率達(dá)55%。
2.3.3? ?模型穩(wěn)定性分析? ?為驗(yàn)證各模型的魯棒性,對(duì)總體數(shù)據(jù)集按7:3的比例隨機(jī)劃分訓(xùn)練集和測(cè)試集,共劃分10組。分別對(duì)各組數(shù)據(jù)利用上述3種方法進(jìn)行計(jì)算,比較不同訓(xùn)練集、測(cè)試集劃分下,各種方法的判別準(zhǔn)確率、預(yù)測(cè)準(zhǔn)確率。結(jié)果顯示,利用ROC曲線進(jìn)行分類的判別準(zhǔn)確率、預(yù)測(cè)準(zhǔn)確率均為最高水平,認(rèn)為ROC曲線是魯棒性較好的模型(表3)。
2.3.4? ?綜合比較分析? ?綜合比較ROC曲線、分類回歸樹、Logistic回歸應(yīng)用于識(shí)別影響四大家魚產(chǎn)卵規(guī)模的關(guān)鍵生態(tài)水文指標(biāo)效果,對(duì)比分析各方法下的判別準(zhǔn)確率、預(yù)測(cè)準(zhǔn)確率、模型魯棒性。結(jié)果顯示,ROC曲線判別準(zhǔn)確率、預(yù)測(cè)準(zhǔn)確率、模型穩(wěn)定性在3種方法中均處于最高水平,認(rèn)為ROC曲線是本次研究中判定生態(tài)水文指標(biāo)對(duì)四大家魚產(chǎn)卵規(guī)模影響的最優(yōu)方法。
3? ?討論
3.1? ?影響四大家魚產(chǎn)卵的生態(tài)水文指標(biāo)
四大家魚產(chǎn)卵規(guī)模與其產(chǎn)卵環(huán)境的生態(tài)水文指標(biāo)密切相關(guān),已有研究表明,漲水持續(xù)時(shí)間、流量日增長(zhǎng)率、水位日增長(zhǎng)率、兩次洪峰間隔時(shí)間等指標(biāo)可以對(duì)四大家魚產(chǎn)卵規(guī)模產(chǎn)生顯著影響(徐薇等,2020)。本研究中,將連續(xù)漲水設(shè)為先決條件,分析描述漲水過(guò)程的生態(tài)水文指標(biāo)對(duì)四大家魚產(chǎn)卵規(guī)模的影響,結(jié)果顯示,長(zhǎng)江中游四大家魚產(chǎn)卵規(guī)模受到流量日增長(zhǎng)量、兩次洪峰間隔時(shí)間影響,與已有研究結(jié)果(徐薇等,2020)一致。
流量日增長(zhǎng)量影響四大家魚能否進(jìn)行有效產(chǎn)卵,流速加大的過(guò)程會(huì)刺激成熟的親魚,促進(jìn)親魚產(chǎn)卵排精(陳永柏等,2009),較大流量增長(zhǎng)率會(huì)加快水流流速增長(zhǎng)過(guò)程,進(jìn)而促進(jìn)四大家魚的產(chǎn)卵行為。兩次洪峰間隔時(shí)間影響四大家魚能否進(jìn)行高效產(chǎn)卵,前后兩次洪峰間隔時(shí)間越長(zhǎng),產(chǎn)卵場(chǎng)內(nèi)等待水流信號(hào)刺激的成熟親魚越多,當(dāng)下一次洪峰過(guò)程到來(lái),這些親魚感受到水流信號(hào)刺激完成大規(guī)模產(chǎn)卵。此外,有研究(李博等,2021)表明,刺激四大家魚產(chǎn)卵的洪峰過(guò)程斷面初始流量需達(dá)到某一定值。但在本次研究中,存在一些初始流量較小的可以刺激四大家魚有效產(chǎn)卵的漲水場(chǎng)次,原因在于這些漲水場(chǎng)次的流量日增長(zhǎng)量和漲水持續(xù)時(shí)間較大,初始流量雖然較小,但流量在漲水過(guò)程內(nèi)可以達(dá)到較高水平,從而導(dǎo)致最終結(jié)果中初始流量與四大家魚產(chǎn)卵規(guī)模相關(guān)性不大。
3.2? ?魚類產(chǎn)卵有效性多分類問(wèn)題計(jì)算方法
對(duì)于魚類產(chǎn)卵有效性的分類問(wèn)題常用計(jì)算方法有ROC曲線法(劉瀚等,2023)、分類回歸樹(黎明政等,2019)、支持向量機(jī)、Logistic回歸(崔雪森等,2016)、廣義加性模型(胡麗娟等,2021;孫浩奇等,2022)等方法。支持向量機(jī)是一種黑箱模型,計(jì)算復(fù)雜度較高,利用支持向量機(jī)只能對(duì)魚類產(chǎn)卵規(guī)模進(jìn)行分類,不能得出分類閾值。廣義加性模型變量間的關(guān)系是非參數(shù)形式,無(wú)法通過(guò)簡(jiǎn)單的數(shù)學(xué)公式來(lái)描述,因此,觀測(cè)變量間依賴性關(guān)系的常用方式是采用圖形化的平滑曲線。但對(duì)平滑參數(shù)的選擇和平滑曲線的解讀需結(jié)合實(shí)際情況進(jìn)行,否則容易產(chǎn)生背離實(shí)際的曲解。因此,本次研究最終選擇了方法簡(jiǎn)單易用,結(jié)果直觀明了的ROC曲線法、分類回歸樹、Logistic回歸用于分析計(jì)算。
本次研究面向的是產(chǎn)卵規(guī)模無(wú)效、低效、高效的三分類問(wèn)題,而ROC曲線、Logistic回歸常用于二分類問(wèn)題。當(dāng)ROC曲線、Logistic回歸用于多分類問(wèn)題時(shí),可以將多分類問(wèn)題轉(zhuǎn)化為多個(gè)二分類問(wèn)題,如本研究關(guān)注的三分類問(wèn)題可以轉(zhuǎn)化為“無(wú)效”與“低效或高效”對(duì)比、“無(wú)效或低效”與“高效”對(duì)比兩個(gè)二分類問(wèn)題,分別確定分類的閾值,最終將兩個(gè)二分類的結(jié)果整合起來(lái),得出分類結(jié)果。經(jīng)上文驗(yàn)證,使用這種方法進(jìn)行的類的判別準(zhǔn)確率、預(yù)測(cè)準(zhǔn)確率均保持在較高水平。
3.3? ?面向魚類產(chǎn)卵需求的生態(tài)流量泄放方法
為滿足四大家魚產(chǎn)卵的生態(tài)水文需求,需要充分發(fā)揮上游水庫(kù)的生態(tài)調(diào)控能力,調(diào)整水庫(kù)出庫(kù)流量(Baumgartner et al,2020)。三峽水庫(kù)自2011年以來(lái),已連續(xù)13年開展生態(tài)調(diào)度,但并非每次生態(tài)調(diào)度過(guò)程都能誘發(fā)四大家魚大規(guī)模產(chǎn)卵(李朝達(dá)等,2021)。為實(shí)現(xiàn)對(duì)四大家魚產(chǎn)卵的有效刺激,需要依據(jù)其產(chǎn)卵需求對(duì)生態(tài)調(diào)度方式不斷優(yōu)化。已有研究表明,當(dāng)水文指標(biāo)滿足較高的水位上漲率和流量日增長(zhǎng)率,較長(zhǎng)的漲水時(shí)間,前后兩次洪峰過(guò)程間隔時(shí)間較長(zhǎng)這些條件時(shí),會(huì)誘發(fā)大規(guī)模產(chǎn)卵(Zhang et al,2000)。徐薇等(2020)基于長(zhǎng)江中游沙市段四大家魚產(chǎn)卵數(shù)據(jù)及水文數(shù)據(jù)開展研究,得出流量日增長(zhǎng)量平均大于2 000 m3/s,與前一次洪峰的間隔時(shí)間在5 d可以增加四大家魚產(chǎn)卵量。黎明政等(2019)認(rèn)為三峽庫(kù)區(qū)忠縣至涪陵江段四大家魚繁殖主要發(fā)生在流量日增量大于840 m3/s。上述研究結(jié)果與本文研究結(jié)果相仿。本次研究將洪水過(guò)程對(duì)于四大家魚產(chǎn)卵刺激劃分為無(wú)效、低效、高效,進(jìn)一步量化了相關(guān)生態(tài)水文指標(biāo),即流量日增長(zhǎng)量大于1 370m3/s且兩次洪峰間隔時(shí)間大于7.5 d的漲水過(guò)程可以刺激四大家魚高效、大規(guī)模產(chǎn)卵,為后續(xù)生態(tài)調(diào)度方案制定提供了依據(jù)。
參考文獻(xiàn)
班璇,Panayiotis D,呂曉蓉,等,2019. 長(zhǎng)江葛洲壩下游魚類資源量的關(guān)鍵水文指標(biāo)識(shí)別[J]. 水利水電科技進(jìn)展,39(1):15-20.
陳誠(chéng),黎明政,高欣,等,2020. 長(zhǎng)江中游宜昌江段魚類早期資源現(xiàn)狀及水文影響條件[J]. 水生生物學(xué)報(bào),44(5):1055-1063.
陳永柏,廖文根,彭期冬,等,2009. 四大家魚產(chǎn)卵水文水動(dòng)力特性研究綜述[J]. 水生態(tài)學(xué)雜志,30(2):130-133.
崔雪森,伍玉梅,周愛忠,等,2016. 基于Logistic回歸模型的西非沿海歐洲沙丁魚漁場(chǎng)與環(huán)境因素關(guān)系模型的構(gòu)建[J]. 大連海洋大學(xué)學(xué)報(bào),31(2):211-218.
胡麗娟,宋超,耿智,等,2021. 長(zhǎng)江口鳳鱭仔稚魚主要繁殖季節(jié)的時(shí)空分布特征[J]. 中國(guó)水產(chǎn)科學(xué),28(9):1152-1161.
李博,郜星晨,黃濤,等,2021. 三峽水庫(kù)生態(tài)調(diào)度對(duì)長(zhǎng)江中游宜昌江段四大家魚自然繁殖影響分析[J]. 長(zhǎng)江流域資源與環(huán)境,30(12):2873-2882.
李朝達(dá),林俊強(qiáng),夏繼紅,等,2021. 三峽水庫(kù)運(yùn)行以來(lái)四大家魚產(chǎn)卵的生態(tài)水文響應(yīng)變化[J]. 水利水電技術(shù)(中英文),52(5):158-166.
李建,夏自強(qiáng),戴會(huì)超,等,2013. 三峽初期蓄水對(duì)典型魚類棲息地適宜性的影響[J]. 水利學(xué)報(bào),44(8):892-900.
黎明政,馬琴,陳林,等,2019. 三峽水庫(kù)產(chǎn)漂流性卵魚類繁殖現(xiàn)狀及水文需求研究[J]. 水生生物學(xué)報(bào),43(S1):84-96.
李亭亭,呂王勇,周嬌,等,2022. 基于類間距離的Logistic序貫多分類的成都空氣質(zhì)量污染分析[J]. 科學(xué)技術(shù)與工程,22(1):409-415.
劉瀚,林俊強(qiáng),秦鑫,等,2023. 基于生物水文響應(yīng)模型的刺激四大家魚繁殖生態(tài)調(diào)度目標(biāo)量化方法研究——以三峽水庫(kù)為例[J]. 湖泊科學(xué),35(5):1741-1751.
彭期冬,2011. 三峽工程對(duì)四大家魚自然繁殖條件影響研究[D]. 北京:中國(guó)水利水電科學(xué)研究院.
孫浩奇,蔣日進(jìn),陳峰,等,2022. 甌江口鳳鱭魚卵、仔稚魚的時(shí)空分布及其與環(huán)境因子關(guān)系[J]. 水生生物學(xué)報(bào),46(7):963-973.
王濟(jì)川,郭志剛,2001. Logistic回歸模型[M]. 北京:高等教育出版社.
徐薇,楊志,陳小娟,等,2020. 三峽水庫(kù)生態(tài)調(diào)度試驗(yàn)對(duì)四大家魚產(chǎn)卵的影響分析[J]. 環(huán)境科學(xué)研究,33(5):1129-1139.
周雪,王珂,陳大慶,等,2019. 三峽水庫(kù)生態(tài)調(diào)度對(duì)長(zhǎng)江監(jiān)利江段四大家魚早期資源的影響[J]. 水產(chǎn)學(xué)報(bào),43(8):1781-1789.
周雪,汪登強(qiáng),段辛斌,等,2021. 長(zhǎng)江中游宜昌江段魚卵時(shí)空分布特征研究[J]. 長(zhǎng)江流域資源與環(huán)境,30(4):861-868.
Baumgartner M T, Pitágoras A P, Baumgartner G, et al, 2020. Storage or Run-of-river Reservoirs: Exploring the Ecological Effects of Dam Operation on Stability and Species Interactions of Fish Assemblages[J].Environmental Management, 65:220-231.
Obuchowski N A, Bullen J A, 2018. Receiver operating characteristic (ROC) curves: review of methods with applications in diagnostic medicine[J]. Physics in Medicine & Biology, 63(7): 07TR01.
Raghavan R, Ashour F S, Bailey R, 2016. A Review of Cutoffs for Nutritional Biomarkers[J]. Advances in Nutrition, 7(1):112-120.
Richter B D, Mathews R, Wigington H R, 2003. Ecologically sustainable water management: Managing river flows for ecological integrity[J]. Ecological Applications, 13(1):206-224.
Schmugge S J, Jayaram S, Shin M C, et al, 2007. Objective evaluation of approaches of skin detection using ROC analysis[J]. Computer Vision and Image Understanding, 108(1):41-51.
Wu W, Li A D, He X H, et al, 2018. A comparison of support vector machines, artificial neural network and classification tree for identifying soil texture classes in southwest China[J]. Computers & Electronics in Agriculture, 144:86-93.
Zhang G, Chang J, Shu G, 2000. Applications of factor-criteria system reconstruction analysis in the reproduction research on grass carp, black carp, silver carp and bighead in the Yangtze River[J]. International Journal of general systems, 29(3):419-428.
(責(zé)任編輯? ?熊美華)
Relationship between Fish Spawning Behavior and Eco-hydrological Indicators:
A Case Study of the Four Major Chinese Carps in the Yangtze River
BAN Xue‐jun1.2, FAN Bo3, LIU Han1, YU Li‐xiong4, LIN Jun‐qiang1, XIA Ji‐hong2, ZHANG Di1
(1. State Key Laboratory of Simulation and Regulation of Water Cycle in River Basin,
China Institute of Water Resources and Hydropower Research, Beijing? ?100038, P.R. China;
2. College of Agricultural Science and Engineering, Hohai University, Nanjing? ?211100, P.R. China;
3. Science and Technology Promotion Center of the Ministry of Water Resources,
Beijing? ?100038, P.R. China;
4. Yangtze River Fisheries Research Institute, Chinese Academy of Fishery Sciences,
Wuhan? ?430223, P.R. China)
Abstract:As important economic freshwater fish in China, the spawning scale of the four major Chinese carps has declined significantly in recent years. Hydrological conditions play an important role in the natural reproduction of the four major Chinese carps. Thus, to protect early stage resources of these four species, it is important to determine the relationship between spawning behavior and eco-hydrological indicators. In this study, the Yichang section of the middle Yangtze River was selected for research, and we analyzed the relationship between the spawning behavior of the four major Chinese carps and eco-hydrological indicators using a receiver operating characteristic (ROC) curve, classification regression tree and logistic regression analysis. The performance, advantages and disadvantages of the three data mining methods were then compared. The study was based on monitoring data for hydrology and reproduction in the investigated section during the period 2013-2023 (except 2016, 2021). Stimulation of spawning behavior by ecohydrological indicators was analyzed for each of the four species and divided into three levels (no response, low response, and high response). The discrimination accuracy rates for each method were as follows: ROC curve (71.74%), logistic regression analysis (71.74%) and classification regression tree (60.87%). The prediction accuracy rates of the three methods were, respectively 75%,75% and 55%, and the ROC curve was the most robust. Therefore, we recommend the ROC curve for estimating the impact of eco-hydrological indicators on the spawning scale of the four major Chinese carps. The best eco-hydrological conditions for effective spawning of the four major Chinese carps was when the daily increment of flow was greater than 1 370 m3/s and the interval time between two flood peaks was more than 7.5 days. In conclusion, our research identified the eco-hydrological indicators and thresholds that effectively stimulate spawning of the four major Chinese carps. This has important practical significance for optimizing and improving the ecological operation of Three Gorges Reservoir.
Key words:four major Chinese carps; eco-hydrological indicators; ROC curve; ecological operation
收稿日期:2023-10-31
基金項(xiàng)目:國(guó)家自然科學(xué)基金聯(lián)合基金項(xiàng)目(U2240214);國(guó)家重點(diǎn)研發(fā)計(jì)劃(2021YFC3200304)。
作者簡(jiǎn)介:班學(xué)君,1998年生,男,碩士研究生,主要從事生態(tài)水文學(xué)研究。E-mail:1021188239@qq.com
通信作者:林俊強(qiáng),1984年生,男,正高級(jí)工程師,主要從事生態(tài)水力學(xué)研究。E-mail:junquang-lin@hotmail.com