鄧 山,胡 立,左 建,周 波,尤家偉
(1.長江水利委員會 水文局,湖北 武漢 430010; 2.長江水利委員會水文局 漢江水文水資源勘測局,湖北 襄陽 441000)
水平式聲學多普勒流速剖面儀(Horizontal Acoustic Doppler Current Profiler,H-ADCP)利用聲學多普勒原理進行流量測驗[1]。通過將聲學換能器固定安裝在水下一定深度,實時監(jiān)測水平層流速,采用代表流速法推算斷面流量,從而實現(xiàn)流量在線監(jiān)測。對于常年水深較大、水平層流速代表性較好的測站具有極大的實用價值,同時可為水資源監(jiān)測管理、考核提供實時數(shù)據(jù)支撐[2-5]。
影響H-ADCP測驗精度的外部因素較多,如測驗斷面及安裝位置選擇、設(shè)備選型與配置、不同水位條件下所測代表流速對斷面平均流速的代表性等。這些因素都對H-ADCP測驗精度具有較大的影響,應(yīng)在安裝前進行分析研究。
H-ADCP流量測驗后處理主要分為以下3步:① 建立H-ADCP代表流速與斷面平均流速的關(guān)系;② 根據(jù)水位面積關(guān)系用水位計算斷面面積;③ 通過平均流速與斷面面積計算出流量。其中第一步是關(guān)鍵也是難點所在,代表流速與斷面平均流速關(guān)系的好壞直接決定了H-ADCP流量測驗的精度。
目前H-ADCP代表流速關(guān)系擬合的主要方法為回歸分析,美國地質(zhì)調(diào)查局(USGU)推薦的H-ADCP代表流速關(guān)系擬合方法有簡單線性回歸、分段線性回歸和加入水位等因素的多元回歸等[6]。國內(nèi)H-ADCP代表流速關(guān)系的擬合主要采用線性回歸。王發(fā)君等利用回歸方程建立了指標流速與斷面平均流速關(guān)系[7],魯青等采用組合方式建立了多元回歸關(guān)系,解決了南京站的流量在線監(jiān)測問題[5]。但這些方法均沒有考慮對H-ADCP代表流速關(guān)系擬合精度影響較大的三大問題:① 線性回歸損失函數(shù)的選擇;② 自變量(代表單元格)的選擇;③ 比測數(shù)據(jù)的粗差剔除。本文主要針對以上3個方面問題,研究了以相對誤差平方和最小作為損失函數(shù)、選擇多自變量進行關(guān)系擬合、對數(shù)據(jù)進行粗差剔除等方法對代表流速關(guān)系擬合精度的影響,并以小河壩水文站H-ADCP代表流速關(guān)系擬合為例進行了驗證。
損失函數(shù)是將隨機事件或其有關(guān)隨機變量的取值映射為非負實數(shù),以表示該隨機事件的“風險”或“損失”的函數(shù)。在統(tǒng)計學和機器學習中被用于模型的參數(shù)估計。
使用通用軟件進行關(guān)系擬合時,默認的擬合原理為最小二乘法,損失函數(shù)為誤差平方和最小[8],即:
(1)
最小二乘法是一種經(jīng)典方法,廣泛應(yīng)用于各個領(lǐng)域。但是由于最小二乘法本身的缺陷,使得它在水文關(guān)系擬合中存在一定的局限性。用最小二乘法進行代表流速關(guān)系擬合時,各點的相對估計誤差往往分布不均勻,表現(xiàn)為大觀測值的相對誤差較小,小觀測值的相對誤差則很大,特別是當觀測點間因變量量級相差較大時。而對于H-ADCP代表流速關(guān)系擬合而言,大流速數(shù)據(jù)和小流速數(shù)據(jù)的重要程度相當,數(shù)據(jù)質(zhì)量需要用相對誤差進行評價,故而用最小二乘法擬合的關(guān)系并不是最優(yōu)解,通常不能滿足定線誤差要求。
為應(yīng)對各行業(yè)的不同需求,最小二乘法有許多不同的改進方法,如加權(quán)最小二乘法[9]、最小二乘橢圓擬合算法[10]、相對誤差最小二乘法算法[11-12]等。考慮水文測驗的數(shù)據(jù)特點,對于H-ADCP代表流速關(guān)系擬合而言,更適合的損失函數(shù)為相對誤差最小二乘法(相對誤差平方和最小)[11],即:
(2)
將線性回歸的損失函數(shù)由誤差平方和最小改為相對誤差平方和最小,可以在一定程度上提高擬合結(jié)果的可靠性,并有效降低擬合公式的系統(tǒng)誤差、隨機不確定度及偏離數(shù)值檢驗的統(tǒng)計值,尋找到更符合水文測站實際的相關(guān)關(guān)系。
目前,多數(shù)水文站H-ADCP代表流速關(guān)系擬合是通過Q-Monitor-H(流量通)[7]軟件完成,主要步驟為:① 進行數(shù)據(jù)回放后選取數(shù)據(jù)相對穩(wěn)定的單元格;② 輸出不同單元格段的平均值;③ 再與實測斷面平均流速進行關(guān)系擬合。采用一段單元格的平均值作為代表流速與斷面平均流速建立相關(guān)關(guān)系,實際上是將多元回歸問題簡化為一元線性回歸問題,通過這種簡化后自變量變得單一,關(guān)系擬合更加簡便。公式如下:
V斷=aV代表+b
(3)
式中:V斷為斷面平均流速;V代表為H-ADCP某選定區(qū)間單元格代表流速平均值;a、b為系數(shù)。
但是,通過這種簡化也難以擬合出最優(yōu)線性關(guān)系,這是因為將代表流速平均,實際上是令選定區(qū)間單元格代表流速系數(shù)相同,相當于給多元回歸的求解增加了多個約束條件,而這些約束條件對于提高代表流速關(guān)系擬合的精度是不利的。
在進行H-ADCP關(guān)系擬合時,可考慮直接選用各單元格流速進行關(guān)系擬合,將一元線性回歸問題轉(zhuǎn)化為多元回歸問題,即:
V斷=aiVi+ai+1Vi+1+…+anVn+b
(4)
實際上,H-ADCP每個單元格流速Vi在其垂線中的相對深度均不相同,同時各垂線平均流速對斷面平均流速的代表性也各不相同,因而用各個單元格流速參與斷面平均流速關(guān)系擬合,使其具有不同系數(shù),也使得H-ADCP流量測驗的物理意義更加明確。
粗大誤差是在一定的測量條件下,超出規(guī)定條件下預期的誤差[13]。
H-ADCP關(guān)系率定產(chǎn)生粗大誤差的原因主要有以下2個方面:① 客觀原因。H-ADCP所測水層受船舶等引起的紊流影響;水中散射體濃度太大或太小;鐵質(zhì)物體影響ADCP磁羅經(jīng)導致流向出現(xiàn)偏差。② 主觀原因。使用的比測儀器本身存在的測驗誤差,如走航式ADCP比測時船速過快或不勻速等因素;還有人為計算錯誤、參數(shù)設(shè)置錯誤等。粗大誤差的存在會使得關(guān)系線偏離,最終導致相關(guān)關(guān)系精度降低。而粗大誤差不能僅因相對誤差較大就刪除,可采用拉依達準則(3σ準則)[14]進行剔除。應(yīng)該注意的是H-ADCP比測數(shù)據(jù)一般為水文站基本測驗數(shù)據(jù),剔除前應(yīng)對測點進行綜合評判。
小河壩水文站為嘉陵江重要支流涪江下游的出口控制站,位于東經(jīng)105°50′,北緯30°11′,集水面積28 901 km2,是涪江下段基本控制站及國家基本水文站。該站測驗河段順直,河床組成主要為卵石夾沙,斷面沖淤變化不大(見圖1),受下游2.5 km處潼南航電樞紐工程蓄放水影響。
圖1 小河壩水文站大斷面及H-ADCP安裝位置Fig.1 Main cross section and H-ADCP installation location in Xiaoheba station
小河壩H-ADCP選用Channel Master 300 kHz H-ADCP,安裝位置位于起點距25.5 m、高程233.20 m處(低于潼南航電樞紐死水位235.5 m)??v、橫搖角度與初始采集安裝角度值變化在±0.5°以內(nèi),且對安裝位置進行了標記以確保放置位置固定。具體參數(shù)設(shè)置為:單元尺寸2 m,單元個數(shù)70個,盲區(qū)2 m,鹽度為0,采樣間隔5 min。本文主要利用現(xiàn)有條件下所獲得的比測數(shù)據(jù)進行代表流速擬合關(guān)系研究,并未考慮設(shè)備安裝、選型、參數(shù)設(shè)置、比測方案等因素對成果質(zhì)量的影響。
采用走航式ADCP進行比測,比測時間為2019年5月14日至8月10日,共收集H-ADCP數(shù)據(jù)19 244組,走航式ADCP實測流量85次。率定期間水位變動范圍為235.86~237.66 m;流量范圍為132~5 460 m3/s;斷面平均流速范圍為0.053~2.550 m/s。
對小河壩站走航式ADCP、H-ADCP數(shù)據(jù)進行分析處理,計算出斷面平均流速,挑選與走航式同時段的H-ADCP數(shù)據(jù)進行回放,檢查回波強度曲線及水平層流速分布情況。經(jīng)綜合評定:4~24單元格段(離儀器距離9.4~51.4 m)流速分布均勻、回波信號穩(wěn)定、流速紊動小、數(shù)據(jù)質(zhì)量較好,選定用此區(qū)間的流速參與關(guān)系率定。剔除無效數(shù)據(jù)及受干擾數(shù)據(jù),最終選定有效比測測次。點繪散點圖后發(fā)現(xiàn)數(shù)據(jù)點呈較明顯的帶狀,適合線性模型,且具有較高精度(見圖2)。
圖2 小河壩站代表流速與斷面平均流速關(guān)系Fig.2 Relationship between the representative velocity and the mean velocity in Xiheba station
采用線性回歸進行小河壩站代表流速與斷面平均流速關(guān)系擬合。為分析比較不同方法對代表流速關(guān)系擬合精度的影響,本文采用以下5種方案進行關(guān)系擬合。
(1) 方案1:常規(guī)方法。在數(shù)據(jù)穩(wěn)定的4~24單元格中通過試算優(yōu)選一定區(qū)間的單元格數(shù)據(jù)進行平均,用選定單元格平均流速與斷面平均流速進行直線擬合。
(2) 方案2:剔除粗差后擬合。方法同方案1,但在確定擬合公式后采用3σ準則進行去粗差處理,然后重新進行關(guān)系擬合。
(3) 方案3:改變損失函數(shù)。在方案2的基礎(chǔ)上采用相對誤差平方和最小作為線性規(guī)劃的損失函數(shù)進行關(guān)系擬合。
(4) 方案4:采用多元回歸。在方案3的基礎(chǔ)上采用多元回歸求解,提取數(shù)據(jù)穩(wěn)定的4~24單元格流速,與斷面平均流速建立多元一次方程。為使關(guān)系式有物理意義,在進行規(guī)劃求解時增加約束條件,使回歸系數(shù)為非負值。經(jīng)規(guī)劃求解,選出最優(yōu)方程,方程式中有9個單元系數(shù)非零,最終表達式為9元一次方程。
(5) 方案5:純擬合分析。在方案4的基礎(chǔ)上取消使回歸系數(shù)為非負值的約束條件,進行純數(shù)值擬合分析,經(jīng)規(guī)劃求解,最優(yōu)方程式中21個單元系數(shù)非零,最終表達式為21元一次方程。
按照2.2節(jié)制定的5種方案進行關(guān)系擬合并統(tǒng)計擬合誤差,系統(tǒng)誤差與隨機不確定度根據(jù)SL242-2012《水文資料整編規(guī)范》計算,結(jié)果列于表1。
表1 不同擬合方案誤差Tab.1 Error values under different fitting schemes
注:在方案1~3中直線擬合選取的代表流速為單元格4~24之間的平均值,通過試算確定,與斷面平均流速的擬合關(guān)系為最佳。表中隨機不確定度取2倍標準差。
通過表1可以發(fā)現(xiàn):方案1~4中,在常規(guī)方法擬合的基礎(chǔ)上對數(shù)據(jù)進行粗差剔除;將損失函數(shù)由誤差平方和最小改為相對誤差平方和最小;將一元一次方程改為多元一次方程,每個步驟都能顯著提高代表流速關(guān)系的擬合精度。系統(tǒng)誤差從最初的-0.91%降到了-0.34%,隨機不確定度從15.26%降到了11.85%。在方案5中,取消回歸系數(shù)為非負值的約束條件雖可進一步提高擬合精度,但是通過分析發(fā)現(xiàn),這樣處理容易造成過擬合[15],同時回歸系數(shù)為負也讓相關(guān)關(guān)系失去了物理意義,不推薦采用。
2.3.1粗差剔除對擬合精度的影響
由方案1到方案2,剔除粗差后擬合精度有了較大提升,系統(tǒng)誤差由-0.91%降至-0.76%,隨機不確定度由15.26%降至13.78%。但實際上在方案2~5中進行去粗差處理后均只剔除了一個樣本數(shù)據(jù),可見粗大誤差對關(guān)系擬合精度影響較大。
2.3.2損失函數(shù)對擬合精度的影響
從方案2到方案3,將線性回歸的損失函數(shù)由誤差平方和最小改為相對誤差平方和最小,系統(tǒng)誤差由-0.76%降至-0.44%,隨機不確定度由13.78%降至13.39%。雖然精度指標的提升并不顯著,但仍然非常有必要,一方面是其在原理上更加符合水文關(guān)系擬合的需求,另一方面是當樣本容量增大、樣本間量級相差較大時兩種損失函數(shù)對擬合精度的影響將會更加明顯。
2.3.3代表單元格選取對擬合精度的影響
從方案3到方案4,通過將回歸方程由一元回歸優(yōu)化為多元回歸,系統(tǒng)誤差由-0.44%降至-0.34%,隨機不確定度由13.39%降至11.85%。
整體而言,方案4通過粗差剔除、將損失函數(shù)改為相對誤差平方和最小、采用多元回歸等手段,成功將誤差指標降低到了規(guī)范要求以內(nèi),推薦采用此方案。
2.4.1擬合結(jié)果
方案4中,H-ADCP代表流速采用5,6,13,14,17,20,21,23,24單元,擬合公式為
V斷=0.07650V5+0.04650V6+0.00014V13+0.00059V14+0.03740V17+0.06760V20+0.19060V21+0.30750V23+0.051850V24+0.00510
(5)
相對誤差分布如圖3所示,可以看出擬合精度較好,所有樣本計算相對誤差均未超過15%,能夠較好地擬合指標流速與斷面平均流速的關(guān)系。
圖3 相對誤差分布Fig.3 Relative error distribution
2.4.2成果檢驗
需要注意的是,進行多元回歸擬合時,自變量數(shù)量的增加會導致計算速度變慢、也可能造成過擬合。可將數(shù)據(jù)分為率定樣本和檢驗樣本,防止過擬合現(xiàn)象發(fā)生。本次研究隨機預留了5組數(shù)據(jù)作為檢驗樣本,檢驗結(jié)果列于表2。結(jié)果表明:檢驗誤差均不超過9%,推薦方案的擬合關(guān)系精度較好,能夠滿足水文測驗精度要求。
表2 檢驗樣本計算結(jié)果Tab.2 Calculation results of test samples
本文對H-ADCP代表流速與斷面平均流速關(guān)系擬合過程中,線性回歸損失函數(shù)的選擇、代表單元格的選取、粗大誤差的剔除等技術(shù)進行了研究。并以小河壩水文站為例,設(shè)計了5套方案,研究了上述方案對代表流速關(guān)系擬合精度的影響。結(jié)果表明:
(1) H-ADCP代表流速關(guān)系率定時,粗大誤差對關(guān)系擬合精度影響較大,必須進行剔除;應(yīng)選擇相對誤差平方和最小作為損失函數(shù),不僅更符合水文實際,也能提高擬合精度;將回歸方程由一元線性回歸優(yōu)化為多元線性回歸,使H-ADCP流量測驗的物理意義更加明確,并能有效提高擬合精度。
(2) 對小河壩水文站代表流速關(guān)系擬合而言,最優(yōu)方案是以相對誤差平方和最小為損失函數(shù),提取4~24單元格流速,與斷面平均流速建立多元一次方程,并進行去粗差處理,同時約束回歸系數(shù)為非負值。該方案將代表流速關(guān)系的系統(tǒng)誤差和隨機不確定度都降低到了規(guī)范要求以內(nèi),并通過了預留樣本檢驗。
(3) 本文的研究成果可為H-ADCP及其他流量在線監(jiān)測設(shè)備的代表流速關(guān)系擬合提供參考。