国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于強(qiáng)化學(xué)習(xí)的絞吸挖泥船施工參數(shù)智能自主尋優(yōu)方法研究

2022-09-20 00:49:04魯嘉俊楊波徐婷
中國港灣建設(shè) 2022年8期
關(guān)鍵詞:絞刀挖泥船控制參數(shù)

魯嘉俊,楊波,徐婷

(中交疏浚技術(shù)裝備國家工程研究中心有限公司,上海 201208)

0 引言

絞吸挖泥船是挖泥船中挖掘土質(zhì)最廣泛,排岸距離變化最大的一種吸揚式挖泥船[1]。目前,我國絞吸挖泥船的疏浚作業(yè)基本還停留在手工操作模式,在疏浚作業(yè)過程中,作業(yè)參數(shù)主要由操作人員根據(jù)自己的經(jīng)驗、試挖情況以及挖泥船的實際作業(yè)效果靈活確定[2]。為了降低人工成本并提升疏浚效率,丁樹友等[3]開發(fā)了絞吸挖泥船智能型無人操控自動挖泥控制系統(tǒng)軟件,軟件功能包含集成監(jiān)控功能與自動挖泥功能兩部分,實現(xiàn)了疏浚作業(yè)過程的無人操控,但缺乏疏浚參數(shù)的自主尋優(yōu)功能。Changyun Wei等提出了一種基于強(qiáng)化學(xué)習(xí)的絞吸式挖泥船智能優(yōu)化控制策略,利用神經(jīng)網(wǎng)絡(luò)的泛化能力建立橫移過程的動態(tài)模型,分別采用強(qiáng)化學(xué)習(xí)Sarsa算法[4]和Sarsa-Lambda算法[5]開發(fā)絞吸船擺動過程中的智能決策方法,并仿真驗證了強(qiáng)化學(xué)習(xí)方法能成功模仿經(jīng)驗豐富的人工操作員的疏浚行為。但Sarsa算法和Sarsa-Lambda算法均受限于緩慢的收斂速度,且對狀態(tài)空間要求必須是離散的且空間較小。相關(guān)的研究還有利用強(qiáng)化學(xué)習(xí)的智能體感知環(huán)境并經(jīng)過自學(xué)習(xí)選擇絞吸挖泥船橫移過程的最優(yōu)動作[6],基于深度強(qiáng)化學(xué)習(xí)的絞吸挖泥船橫移過程控制方法[7],橫移過程線性二次型產(chǎn)量最優(yōu)控制方法[8]等,但以上研究均只考慮了疏浚過程的橫移問題。

本文利用強(qiáng)化學(xué)習(xí)policy gradient算法在連續(xù)動作空間中更高效、收斂速度快的優(yōu)勢,提出了一種基于強(qiáng)化學(xué)習(xí)的絞吸式挖泥船施工參數(shù)自主尋優(yōu)方法。利用機(jī)器學(xué)習(xí)的方法尋求疏浚過程的最佳作業(yè)參數(shù),實現(xiàn)疏浚過程的自主分析與決策,可為疏浚技術(shù)的智能化發(fā)展提供思路參考[9]。

1 絞吸船強(qiáng)化學(xué)習(xí)模型設(shè)計

1.1 絞吸挖泥船理論模型

絞吸挖泥船是疏浚工程中使用數(shù)量最多的挖泥船,在疏浚施工中,瞬時產(chǎn)量是評價挖泥船性能最重要的指標(biāo)之一,其直接決定了疏浚工程的效益[10]。絞吸挖泥船的瞬時產(chǎn)量計算公式為:

式中:W為瞬時產(chǎn)量;r為排泥管直徑;v為管道流速;Cw為泥漿濃度。其中管道流速在挖泥過程中變化較小,所以泥漿濃度可直接反映產(chǎn)量情況。在疏浚作業(yè)中,泥漿濃度由絞刀切削泥土的體積量決定。

在挖掘過程中,實際切削的體積與縱向切泥厚度(由臺車推進(jìn)距離決定)、垂直切泥厚度(由斗橋位置決定)和橫移速度有關(guān):

式中:Vc為單位時間泥沙體積量;Bc為切削寬度,又稱為縱向切泥厚度;Dc為切削深度,又稱為垂直方向切泥厚度;Vs為挖泥船的橫移速度,在傳感器采集數(shù)據(jù)中主要表現(xiàn)為左/右橫移絞車轉(zhuǎn)速或左/右橫移繩速。

在正常疏浚情況下,單位時間內(nèi)絞刀切削泥沙體積按式(3)進(jìn)行換算:

式中:K為絞刀挖掘系數(shù),取0.8~0.9[11];Vm為單位時間進(jìn)入管道的泥沙體積。在管道輸送中水下泵轉(zhuǎn)速和甲板泵或艙內(nèi)泵轉(zhuǎn)速也會對泥沙輸送流速產(chǎn)生一定的影響。

通過式(1)~式(3)可知絞刀轉(zhuǎn)速、橫移速度、泥泵轉(zhuǎn)速、步進(jìn)距離、橋架下放深度等均對瞬時產(chǎn)量產(chǎn)生影響。但在實際施工過程中,現(xiàn)場作業(yè)環(huán)境多變,控制參數(shù)與實際操作下輸出量的關(guān)系不明確,難以用傳統(tǒng)的理論研究和數(shù)學(xué)物理方法搭建絞吸挖泥船的疏浚作業(yè)過程模型[12]。而通過強(qiáng)化學(xué)習(xí)的方法來開展相關(guān)研究并建立其仿真環(huán)境模型,然后利用強(qiáng)化學(xué)習(xí)的自學(xué)習(xí)能力獲取知識,改進(jìn)行動方案并適應(yīng)環(huán)境,具備較強(qiáng)的優(yōu)勢。

1.2 強(qiáng)化學(xué)習(xí)Policy Gradient算法

Policy Gradient算法是一種基于策略的算法[13],相對于基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法通過引入動作價值函數(shù)Q(s,a),策略梯度(Policy Gradient,PG)采用回合更新的方式,通過不斷調(diào)整參數(shù)θ實現(xiàn)策略πθ(s,a)的優(yōu)化更新,收斂速度更快[14]。

為了評估不同參數(shù)對策略πθ(s,a)的影響,引入目標(biāo)函數(shù),目標(biāo)函數(shù)的值越大,模型質(zhì)量越高。目標(biāo)函數(shù)主要有3種形式:使用初始狀態(tài)的期望為優(yōu)化目標(biāo)(式(4));對于連續(xù)性任務(wù),沒有明確的初始狀態(tài),優(yōu)化目標(biāo)是平均價值(式(5));將每一時間步的平均獎勵作為優(yōu)化目標(biāo)(式(6))。

本次研究采用式(6)作為目標(biāo)函數(shù)。在策略函數(shù)πθ的設(shè)計上,采用連續(xù)動作空間的高斯策略(Gaussian Policy):

J(θ)考慮單步的馬爾科夫過程,R(s,a)考慮獎勵函數(shù),對目標(biāo)函數(shù)求導(dǎo)得到式(8),即對目標(biāo)函數(shù)J(θ)求導(dǎo)最終轉(zhuǎn)化為對策略πθ求梯度。在Policy Gradient算法中,策略πθ按式(9)進(jìn)行參數(shù)更新:

2 基于強(qiáng)化學(xué)習(xí)的絞吸挖泥船疏浚參數(shù)自主尋優(yōu)方法

2.1 數(shù)據(jù)預(yù)處理

1)kalman濾波

絞吸挖泥船上的大部分信號采集裝置在信號產(chǎn)生、轉(zhuǎn)換、傳輸?shù)母鱾€環(huán)節(jié)中易受供電電源及現(xiàn)場施工條件干擾,導(dǎo)致這些信號點存儲的數(shù)據(jù)中包含噪聲和干擾信號,因此有必要對采集的實船數(shù)值進(jìn)行濾波。在濾波方法的選擇上,本次研究嘗試卡爾曼濾波、移動平均濾波、中值濾波、維納濾波等多種方法。對比發(fā)現(xiàn)卡爾曼相比其他濾波方法更為平穩(wěn),能夠剔除尖刺并反映樣本的整體趨勢。

2)數(shù)據(jù)切割

絞吸挖泥船在步進(jìn)和換樁過程中,瞬時產(chǎn)量是偏低的。為了更精確分析絞吸挖泥船的瞬時產(chǎn)量,篩選出橫移周期內(nèi)的有效數(shù)據(jù),本次研究采用自動搜索算法尋找絞刀至右邊線距離的所有谷/峰值,在圖1中用圓圈進(jìn)行標(biāo)記。然后用閾值過濾非正常的點,即絞刀頭到邊線上距離小于5 m,或者大于85 m的時段,并取相鄰峰谷值之間的時間作為一個橫移周期。

圖1 橫移周期選取Fig.1 Selection of traverse period

2.2 瞬時產(chǎn)量時滯分析

建立管道內(nèi)的流速分布函數(shù),根據(jù)管道長度及流速的動態(tài)變化分別計算出泥水混合物通過吸入管、連接管、豎直管的時間,得到瞬時產(chǎn)量的時間延遲為31 s。然后隨機(jī)選取500 s連續(xù)數(shù)據(jù),驗證瞬時產(chǎn)量的延時時間,結(jié)果見圖2。其中瞬時產(chǎn)量值為時間往前拉31 s的產(chǎn)量值,圖中可見真空度與后31 s的瞬時產(chǎn)量相關(guān)性較高,且變化趨勢一致。

圖2 瞬時產(chǎn)量時滯分析圖Fig.2 Time-delay analysis of instantaneous production

2.3 強(qiáng)化學(xué)習(xí)環(huán)境模型構(gòu)建

在疏浚施工過程中,影響絞吸挖泥船瞬時產(chǎn)量的因素眾多,本次研究將重點放在疏浚員能操縱的控制變量上,在瞬時產(chǎn)量影響因素的特征篩選中使用信息增益率的方法[15]對傳感器采集的數(shù)據(jù)樣本進(jìn)行降維。信息增益是指添加了信息之后能增加多少收益,也即增加信息之后能減少多少不確定性。信息增益率在信息增益的基礎(chǔ)上,除以一個分裂信息量,計算節(jié)點上樣本總的信息熵。信息增益率方法經(jīng)常被用來判斷變量的重要性,利用該方法篩選出和瞬時產(chǎn)量密切相關(guān)并可人工調(diào)控的參數(shù)為水下泵轉(zhuǎn)速、甲板泵或艙內(nèi)泵轉(zhuǎn)速、絞刀轉(zhuǎn)速、左橫移繩速和右橫移繩速。各控制變量的信息增益率見表1。

表1 各控制變量信息增益率Table 1 Information gain rate of control variables

篩選出控制變量后,定義動作區(qū)間action=[水下泵轉(zhuǎn)速,甲板泵或艙內(nèi)泵轉(zhuǎn)速,絞刀轉(zhuǎn)速,左橫移繩速,右橫移繩速],即強(qiáng)化學(xué)習(xí)中智能體可以控制的變量。同時,設(shè)置各控制參數(shù)的上下限區(qū)間。該動作區(qū)間為連續(xù)動作空間,可以滿足動作區(qū)間完備性、高效性、合法性的要求。

強(qiáng)化學(xué)習(xí)智能體執(zhí)行當(dāng)前動作作用到環(huán)境,環(huán)境反饋對應(yīng)狀態(tài)值,并將其與獎勵值反饋智能體,與此同時環(huán)境轉(zhuǎn)移到下一個狀態(tài)。由此得到強(qiáng)化學(xué)習(xí)的行動狀態(tài)序列:

獎懲函數(shù)的定義見式(11):

式中:R表示智能體執(zhí)行動作所獲得的獎勵值,即對當(dāng)前動作好壞的評價;O代表絞吸船瞬時產(chǎn)量,瞬時產(chǎn)量越高學(xué)習(xí)系統(tǒng)得到的獎勵值相對也越高;D為該時刻的控制參數(shù)與上一時刻控制參數(shù)的歐氏距離偏差,加入此變量是為了限制兩次輸入信號之間的變化幅度,防止控制參數(shù)劇烈跳變;Dc為D的乘數(shù)項系數(shù),默認(rèn)值為100;Pf定義為懲罰函數(shù),若系統(tǒng)控制變量超限,則給予智能體懲罰值。

2.4 強(qiáng)化學(xué)習(xí)仿真結(jié)果與分析

本次學(xué)習(xí)共選取7萬個實船數(shù)據(jù)點,設(shè)置訓(xùn)練回合數(shù)1000,折扣率γ=0.99。隨著訓(xùn)練進(jìn)行,好的動作被選取的概率逐漸增大,不好的動作慢慢淘汰,同時獎勵值漸漸上升,代表著智能體在自學(xué)習(xí)過程中逐步獲得最佳施工參數(shù)。

機(jī)器學(xué)習(xí)中每回合獎勵值變化見圖3。

圖3 獎勵值變化圖Fig.3 Reward value change chart

訓(xùn)練結(jié)束后,通過控制仿真試驗得到強(qiáng)化學(xué)習(xí)控制結(jié)果,與實際人工操作進(jìn)行對比,結(jié)果見圖4。1)瞬時產(chǎn)量對比圖4(a):采用強(qiáng)化學(xué)習(xí)最優(yōu)參數(shù)控制的瞬時產(chǎn)量比人工操作時高,且可將瞬時產(chǎn)量值維持在高點,可以穩(wěn)定有效提高挖泥船的疏浚產(chǎn)量;2)水下泵轉(zhuǎn)速對比圖4(b):與人工操作相比,強(qiáng)化學(xué)習(xí)推薦的水下泵轉(zhuǎn)速波動更小,基本穩(wěn)定保持在228和232之間;3)甲板泵或艙內(nèi)泵轉(zhuǎn)速對比圖4(c):強(qiáng)化學(xué)習(xí)推薦的甲板泵或艙內(nèi)泵轉(zhuǎn)速普遍低于人工操作水平,能耗較??;4)絞刀轉(zhuǎn)速對比圖4(d):相比人工操作,強(qiáng)化學(xué)習(xí)推薦的絞刀轉(zhuǎn)速更加穩(wěn)定高效;5)左橫移繩速對比圖4(e):強(qiáng)化學(xué)習(xí)推薦的左橫移繩速無劇烈波動,從長期時間來看,左橫移繩速基本在[2,18]之間,而人工控制的左橫移繩速區(qū)間在[0,25],且時常出現(xiàn)跳變的情形;6)右橫移繩速對比圖4(f):同左橫移繩速。

圖4 模型控制與人工操作結(jié)果對比圖Fig.4 Results comparison of model control and manual operation

3 結(jié)語

1)同種工況下,采用智能自主尋優(yōu)的疏浚參數(shù)可以使瞬時產(chǎn)量高于人工操作的平均水平,且泥泵、絞刀和橫移絞車的參數(shù)變化更加平緩,效率更優(yōu)。該智能自主尋優(yōu)方法可為絞吸挖泥船實現(xiàn)智能疏浚提供理論依據(jù)和技術(shù)參考。

2)為了保障施工安全,設(shè)置強(qiáng)化學(xué)習(xí)環(huán)境模型中控制參數(shù)的上下限區(qū)間,添加控制變量超限的懲罰函數(shù),由此使得強(qiáng)化學(xué)習(xí)推薦的最佳施工參數(shù)均位于安全區(qū)間。

3)尋優(yōu)后的參數(shù)能快速響應(yīng)動態(tài)的環(huán)境變化,深層次原因是智能體能夠評估當(dāng)前狀態(tài),并尋找使得未來回報最大化的策略,從而靈活調(diào)整控制參數(shù),使得預(yù)期收益最大化。相比而言,操作員決策依賴于操作面板的數(shù)據(jù),缺少對未來的預(yù)測判斷。

4)下一步計劃研究多船多工況下絞吸挖泥船的智能優(yōu)化控制方法,并在實船中應(yīng)用。

猜你喜歡
絞刀挖泥船控制參數(shù)
高超聲速飛行器滑??刂茀?shù)整定方法設(shè)計*
飛控與探測(2022年6期)2022-03-20 02:16:14
絞吸挖泥船大功率挖巖絞刀的荷載分析*
水運工程(2020年12期)2020-12-23 05:20:00
Birkhoff系統(tǒng)穩(wěn)定性的動力學(xué)控制1)
絞吸挖泥船絞刀長軸系軸承支反力計算方法研究
絞吸挖泥船大功率挖巖絞刀設(shè)計與研究
基于PI與準(zhǔn)PR調(diào)節(jié)的并網(wǎng)逆變器控制參數(shù)設(shè)計
黑龍江電力(2017年1期)2017-05-17 04:25:08
高壓潛水電動機(jī)在絞吸挖泥船上的應(yīng)用管理
7025型絞吸式挖泥船串聯(lián)施工工藝試驗
“吸盤3”號挖泥船核子密度計改進(jìn)設(shè)計
船海工程(2015年4期)2016-01-05 15:53:50
絞吸式挖泥船的穩(wěn)性計算
廣東造船(2015年6期)2015-02-27 10:52:45
北安市| 嵊州市| 洛浦县| 大英县| 孟州市| 土默特左旗| 化德县| 平果县| 周宁县| 镇远县| 霞浦县| 志丹县| 外汇| 寻乌县| 资兴市| 芒康县| 天津市| 浦城县| 新昌县| 绥棱县| 凌海市| 苏州市| 林口县| 五台县| 乐都县| 张家界市| 上饶县| 松江区| 久治县| 海阳市| 门头沟区| 平果县| 保定市| 平武县| 娱乐| 湖州市| 渝中区| 海原县| 亚东县| 福贡县| 昌平区|