一種基于強(qiáng)化學(xué)習(xí)的絞吸挖泥船施工參數(shù)智能自主尋優(yōu)方法研究

2022-09-20 00:49:04魯嘉俊楊波徐婷

中國港灣建設(shè) 2022年8期

魯嘉俊，楊波，徐婷

（中交疏浚技術(shù)裝備國家工程研究中心有限公司，上海 201208）

0 引言

絞吸挖泥船是挖泥船中挖掘土質(zhì)最廣泛，排岸距離變化最大的一種吸揚式挖泥船[1]。目前，我國絞吸挖泥船的疏浚作業(yè)基本還停留在手工操作模式，在疏浚作業(yè)過程中，作業(yè)參數(shù)主要由操作人員根據(jù)自己的經(jīng)驗、試挖情況以及挖泥船的實際作業(yè)效果靈活確定[2]。為了降低人工成本并提升疏浚效率，丁樹友等[3]開發(fā)了絞吸挖泥船智能型無人操控自動挖泥控制系統(tǒng)軟件，軟件功能包含集成監(jiān)控功能與自動挖泥功能兩部分，實現(xiàn)了疏浚作業(yè)過程的無人操控，但缺乏疏浚參數(shù)的自主尋優(yōu)功能。Changyun Wei等提出了一種基于強(qiáng)化學(xué)習(xí)的絞吸式挖泥船智能優(yōu)化控制策略，利用神經(jīng)網(wǎng)絡(luò)的泛化能力建立橫移過程的動態(tài)模型，分別采用強(qiáng)化學(xué)習(xí)Sarsa算法[4]和Sarsa-Lambda算法[5]開發(fā)絞吸船擺動過程中的智能決策方法，并仿真驗證了強(qiáng)化學(xué)習(xí)方法能成功模仿經(jīng)驗豐富的人工操作員的疏浚行為。但Sarsa算法和Sarsa-Lambda算法均受限于緩慢的收斂速度，且對狀態(tài)空間要求必須是離散的且空間較小。相關(guān)的研究還有利用強(qiáng)化學(xué)習(xí)的智能體感知環(huán)境并經(jīng)過自學(xué)習(xí)選擇絞吸挖泥船橫移過程的最優(yōu)動作[6]，基于深度強(qiáng)化學(xué)習(xí)的絞吸挖泥船橫移過程控制方法[7]，橫移過程線性二次型產(chǎn)量最優(yōu)控制方法[8]等，但以上研究均只考慮了疏浚過程的橫移問題。

本文利用強(qiáng)化學(xué)習(xí)policy gradient算法在連續(xù)動作空間中更高效、收斂速度快的優(yōu)勢，提出了一種基于強(qiáng)化學(xué)習(xí)的絞吸式挖泥船施工參數(shù)自主尋優(yōu)方法。利用機(jī)器學(xué)習(xí)的方法尋求疏浚過程的最佳作業(yè)參數(shù)，實現(xiàn)疏浚過程的自主分析與決策，可為疏浚技術(shù)的智能化發(fā)展提供思路參考[9]。

1 絞吸船強(qiáng)化學(xué)習(xí)模型設(shè)計

1.1 絞吸挖泥船理論模型

絞吸挖泥船是疏浚工程中使用數(shù)量最多的挖泥船，在疏浚施工中，瞬時產(chǎn)量是評價挖泥船性能最重要的指標(biāo)之一，其直接決定了疏浚工程的效益[10]。絞吸挖泥船的瞬時產(chǎn)量計算公式為：

式中：W為瞬時產(chǎn)量；r為排泥管直徑；v為管道流速；Cw為泥漿濃度。其中管道流速在挖泥過程中變化較小，所以泥漿濃度可直接反映產(chǎn)量情況。在疏浚作業(yè)中，泥漿濃度由絞刀切削泥土的體積量決定。

在挖掘過程中，實際切削的體積與縱向切泥厚度（由臺車推進(jìn)距離決定）、垂直切泥厚度（由斗橋位置決定）和橫移速度有關(guān)：

式中：Vc為單位時間泥沙體積量；Bc為切削寬度，又稱為縱向切泥厚度；Dc為切削深度，又稱為垂直方向切泥厚度；Vs為挖泥船的橫移速度，在傳感器采集數(shù)據(jù)中主要表現(xiàn)為左/右橫移絞車轉(zhuǎn)速或左/右橫移繩速。

在正常疏浚情況下，單位時間內(nèi)絞刀切削泥沙體積按式（3）進(jìn)行換算：

式中：K為絞刀挖掘系數(shù)，取0.8～0.9[11]；Vm為單位時間進(jìn)入管道的泥沙體積。在管道輸送中水下泵轉(zhuǎn)速和甲板泵或艙內(nèi)泵轉(zhuǎn)速也會對泥沙輸送流速產(chǎn)生一定的影響。

通過式（1）～式（3）可知絞刀轉(zhuǎn)速、橫移速度、泥泵轉(zhuǎn)速、步進(jìn)距離、橋架下放深度等均對瞬時產(chǎn)量產(chǎn)生影響。但在實際施工過程中，現(xiàn)場作業(yè)環(huán)境多變，控制參數(shù)與實際操作下輸出量的關(guān)系不明確，難以用傳統(tǒng)的理論研究和數(shù)學(xué)物理方法搭建絞吸挖泥船的疏浚作業(yè)過程模型[12]。而通過強(qiáng)化學(xué)習(xí)的方法來開展相關(guān)研究并建立其仿真環(huán)境模型，然后利用強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)能力獲取知識，改進(jìn)行動方案并適應(yīng)環(huán)境，具備較強(qiáng)的優(yōu)勢。

1.2 強(qiáng)化學(xué)習(xí)Policy Gradient算法

Policy Gradient算法是一種基于策略的算法[13]，相對于基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法通過引入動作價值函數(shù)Q（s，a），策略梯度（Policy Gradient，PG）采用回合更新的方式，通過不斷調(diào)整參數(shù)θ實現(xiàn)策略πθ（s，a）的優(yōu)化更新，收斂速度更快[14]。

為了評估不同參數(shù)對策略πθ（s，a）的影響，引入目標(biāo)函數(shù)，目標(biāo)函數(shù)的值越大，模型質(zhì)量越高。目標(biāo)函數(shù)主要有3種形式：使用初始狀態(tài)的期望為優(yōu)化目標(biāo)（式（4））；對于連續(xù)性任務(wù)，沒有明確的初始狀態(tài)，優(yōu)化目標(biāo)是平均價值（式（5））；將每一時間步的平均獎勵作為優(yōu)化目標(biāo)（式（6））。

本次研究采用式（6）作為目標(biāo)函數(shù)。在策略函數(shù)πθ的設(shè)計上，采用連續(xù)動作空間的高斯策略（Gaussian Policy）：

J（θ）考慮單步的馬爾科夫過程，R（s，a）考慮獎勵函數(shù)，對目標(biāo)函數(shù)求導(dǎo)得到式（8），即對目標(biāo)函數(shù)J（θ）求導(dǎo)最終轉(zhuǎn)化為對策略πθ求梯度。在Policy Gradient算法中，策略πθ按式（9）進(jìn)行參數(shù)更新：

2 基于強(qiáng)化學(xué)習(xí)的絞吸挖泥船疏浚參數(shù)自主尋優(yōu)方法

2.1 數(shù)據(jù)預(yù)處理

1）kalman濾波

絞吸挖泥船上的大部分信號采集裝置在信號產(chǎn)生、轉(zhuǎn)換、傳輸?shù)母鱾€環(huán)節(jié)中易受供電電源及現(xiàn)場施工條件干擾，導(dǎo)致這些信號點存儲的數(shù)據(jù)中包含噪聲和干擾信號，因此有必要對采集的實船數(shù)值進(jìn)行濾波。在濾波方法的選擇上，本次研究嘗試卡爾曼濾波、移動平均濾波、中值濾波、維納濾波等多種方法。對比發(fā)現(xiàn)卡爾曼相比其他濾波方法更為平穩(wěn)，能夠剔除尖刺并反映樣本的整體趨勢。

2）數(shù)據(jù)切割

絞吸挖泥船在步進(jìn)和換樁過程中，瞬時產(chǎn)量是偏低的。為了更精確分析絞吸挖泥船的瞬時產(chǎn)量，篩選出橫移周期內(nèi)的有效數(shù)據(jù)，本次研究采用自動搜索算法尋找絞刀至右邊線距離的所有谷/峰值，在圖1中用圓圈進(jìn)行標(biāo)記。然后用閾值過濾非正常的點，即絞刀頭到邊線上距離小于5 m，或者大于85 m的時段，并取相鄰峰谷值之間的時間作為一個橫移周期。

圖1 橫移周期選取Fig.1 Selection of traverse period

2.2 瞬時產(chǎn)量時滯分析

建立管道內(nèi)的流速分布函數(shù)，根據(jù)管道長度及流速的動態(tài)變化分別計算出泥水混合物通過吸入管、連接管、豎直管的時間，得到瞬時產(chǎn)量的時間延遲為31 s。然后隨機(jī)選取500 s連續(xù)數(shù)據(jù)，驗證瞬時產(chǎn)量的延時時間，結(jié)果見圖2。其中瞬時產(chǎn)量值為時間往前拉31 s的產(chǎn)量值，圖中可見真空度與后31 s的瞬時產(chǎn)量相關(guān)性較高，且變化趨勢一致。

圖2 瞬時產(chǎn)量時滯分析圖Fig.2 Time-delay analysis of instantaneous production

2.3 強(qiáng)化學(xué)習(xí)環(huán)境模型構(gòu)建

在疏浚施工過程中，影響絞吸挖泥船瞬時產(chǎn)量的因素眾多，本次研究將重點放在疏浚員能操縱的控制變量上，在瞬時產(chǎn)量影響因素的特征篩選中使用信息增益率的方法[15]對傳感器采集的數(shù)據(jù)樣本進(jìn)行降維。信息增益是指添加了信息之后能增加多少收益，也即增加信息之后能減少多少不確定性。信息增益率在信息增益的基礎(chǔ)上，除以一個分裂信息量，計算節(jié)點上樣本總的信息熵。信息增益率方法經(jīng)常被用來判斷變量的重要性，利用該方法篩選出和瞬時產(chǎn)量密切相關(guān)并可人工調(diào)控的參數(shù)為水下泵轉(zhuǎn)速、甲板泵或艙內(nèi)泵轉(zhuǎn)速、絞刀轉(zhuǎn)速、左橫移繩速和右橫移繩速。各控制變量的信息增益率見表1。

表1 各控制變量信息增益率Table 1 Information gain rate of control variables

篩選出控制變量后，定義動作區(qū)間action=[水下泵轉(zhuǎn)速，甲板泵或艙內(nèi)泵轉(zhuǎn)速，絞刀轉(zhuǎn)速，左橫移繩速，右橫移繩速]，即強(qiáng)化學(xué)習(xí)中智能體可以控制的變量。同時，設(shè)置各控制參數(shù)的上下限區(qū)間。該動作區(qū)間為連續(xù)動作空間，可以滿足動作區(qū)間完備性、高效性、合法性的要求。

強(qiáng)化學(xué)習(xí)智能體執(zhí)行當(dāng)前動作作用到環(huán)境，環(huán)境反饋對應(yīng)狀態(tài)值，并將其與獎勵值反饋智能體，與此同時環(huán)境轉(zhuǎn)移到下一個狀態(tài)。由此得到強(qiáng)化學(xué)習(xí)的行動狀態(tài)序列：

獎懲函數(shù)的定義見式（11）：

式中：R表示智能體執(zhí)行動作所獲得的獎勵值，即對當(dāng)前動作好壞的評價；O代表絞吸船瞬時產(chǎn)量，瞬時產(chǎn)量越高學(xué)習(xí)系統(tǒng)得到的獎勵值相對也越高；D為該時刻的控制參數(shù)與上一時刻控制參數(shù)的歐氏距離偏差，加入此變量是為了限制兩次輸入信號之間的變化幅度，防止控制參數(shù)劇烈跳變；Dc為D的乘數(shù)項系數(shù)，默認(rèn)值為100；Pf定義為懲罰函數(shù)，若系統(tǒng)控制變量超限，則給予智能體懲罰值。

2.4 強(qiáng)化學(xué)習(xí)仿真結(jié)果與分析

本次學(xué)習(xí)共選取7萬個實船數(shù)據(jù)點，設(shè)置訓(xùn)練回合數(shù)1000，折扣率γ=0.99。隨著訓(xùn)練進(jìn)行，好的動作被選取的概率逐漸增大，不好的動作慢慢淘汰，同時獎勵值漸漸上升，代表著智能體在自學(xué)習(xí)過程中逐步獲得最佳施工參數(shù)。

機(jī)器學(xué)習(xí)中每回合獎勵值變化見圖3。

圖3 獎勵值變化圖Fig.3 Reward value change chart

訓(xùn)練結(jié)束后，通過控制仿真試驗得到強(qiáng)化學(xué)習(xí)控制結(jié)果，與實際人工操作進(jìn)行對比，結(jié)果見圖4。1）瞬時產(chǎn)量對比圖4（a）：采用強(qiáng)化學(xué)習(xí)最優(yōu)參數(shù)控制的瞬時產(chǎn)量比人工操作時高，且可將瞬時產(chǎn)量值維持在高點，可以穩(wěn)定有效提高挖泥船的疏浚產(chǎn)量；2）水下泵轉(zhuǎn)速對比圖4（b）：與人工操作相比，強(qiáng)化學(xué)習(xí)推薦的水下泵轉(zhuǎn)速波動更小，基本穩(wěn)定保持在228和232之間；3）甲板泵或艙內(nèi)泵轉(zhuǎn)速對比圖4（c）：強(qiáng)化學(xué)習(xí)推薦的甲板泵或艙內(nèi)泵轉(zhuǎn)速普遍低于人工操作水平，能耗較??；4）絞刀轉(zhuǎn)速對比圖4（d）：相比人工操作，強(qiáng)化學(xué)習(xí)推薦的絞刀轉(zhuǎn)速更加穩(wěn)定高效；5）左橫移繩速對比圖4（e）：強(qiáng)化學(xué)習(xí)推薦的左橫移繩速無劇烈波動，從長期時間來看，左橫移繩速基本在[2，18]之間，而人工控制的左橫移繩速區(qū)間在[0，25]，且時常出現(xiàn)跳變的情形；6）右橫移繩速對比圖4（f）：同左橫移繩速。

圖4 模型控制與人工操作結(jié)果對比圖Fig.4 Results comparison of model control and manual operation

3 結(jié)語

1）同種工況下，采用智能自主尋優(yōu)的疏浚參數(shù)可以使瞬時產(chǎn)量高于人工操作的平均水平，且泥泵、絞刀和橫移絞車的參數(shù)變化更加平緩，效率更優(yōu)。該智能自主尋優(yōu)方法可為絞吸挖泥船實現(xiàn)智能疏浚提供理論依據(jù)和技術(shù)參考。

2）為了保障施工安全，設(shè)置強(qiáng)化學(xué)習(xí)環(huán)境模型中控制參數(shù)的上下限區(qū)間，添加控制變量超限的懲罰函數(shù)，由此使得強(qiáng)化學(xué)習(xí)推薦的最佳施工參數(shù)均位于安全區(qū)間。

3）尋優(yōu)后的參數(shù)能快速響應(yīng)動態(tài)的環(huán)境變化，深層次原因是智能體能夠評估當(dāng)前狀態(tài)，并尋找使得未來回報最大化的策略，從而靈活調(diào)整控制參數(shù)，使得預(yù)期收益最大化。相比而言，操作員決策依賴于操作面板的數(shù)據(jù)，缺少對未來的預(yù)測判斷。

4）下一步計劃研究多船多工況下絞吸挖泥船的智能優(yōu)化控制方法，并在實船中應(yīng)用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡