国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DDPG算法的耙吸挖泥船耙頭活動罩控制策略研究

2022-10-18 07:05張紅升衣凡鄧伍三
中國港灣建設(shè) 2022年9期
關(guān)鍵詞:挖泥船控制器流量

張紅升,衣凡,鄧伍三

(中交疏浚技術(shù)裝備國家工程研究中心有限公司,上海 200082)

0 引言

耙吸挖泥船廣泛應(yīng)用于港口航道建設(shè)維護(hù)、吹填工程等基礎(chǔ)建設(shè)[1]。耙吸挖泥船主要疏浚設(shè)備包括耙頭、泥泵、泥艙等。耙頭作為耙吸挖泥船的主要挖掘設(shè)備,其挖掘性能的好壞直接關(guān)系到耙吸挖泥船施工效率?,F(xiàn)代耙頭主要部件包括耙齒、耙唇、耐磨塊、液壓缸、高壓沖水系統(tǒng)、引水窗等[2],如圖1所示。

圖1 耙頭結(jié)構(gòu)示意圖Fig.1 Structure diagram of draghead

耙吸挖泥船挖泥施工過程中,通過液壓缸伸出的長度控制耙頭活動罩對地角度,進(jìn)而控制耙頭在泥面的貼合度與耙齒切削角度,影響耙頭吸入密度。尋找合適的活動罩對地角度對耙吸挖泥船施工效果有重要意義。傳統(tǒng)人工操作中,通過操耙手個人經(jīng)驗控制活動罩對地角度,施工效果受操耙手個人能力和工作狀態(tài)影響顯著。為了擺脫人工操作的弊端,亟待研發(fā)自動高效的耙頭活動罩控制系統(tǒng)。

近年來,機(jī)器學(xué)習(xí)技術(shù)在越來越多的工業(yè)領(lǐng)域發(fā)揮出重要作用,替代甚至超越人工操作。強(qiáng)化學(xué)習(xí)是最具代表性的機(jī)器學(xué)習(xí)技術(shù)之一,其不依賴于人工操作經(jīng)驗,在智能體與環(huán)境的不斷交互中通過學(xué)習(xí)策略以達(dá)成回報最大化或?qū)崿F(xiàn)特定目標(biāo)。Watkins和Dayan[3]于1992年首次提出了Q學(xué)習(xí)算法,開創(chuàng)了強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。谷歌深度學(xué)習(xí)團(tuán)隊的Mnih等[4]學(xué)者在Q學(xué)習(xí)算法的基礎(chǔ)上,提出了DQN(深度Q網(wǎng)絡(luò),Deep Q Network)算法,使得計算機(jī)在操作Atari游戲上達(dá)到人類水平。當(dāng)時DQN算法存在著局限性,其只能應(yīng)用于離散動作空間,Lillicrap[5]基于可在連續(xù)動作空間上運(yùn)行的確定性策略梯度,提出了DDPG算法。在操作“打方塊”游戲的測試中,DDPG相比DQN減少了20倍的訓(xùn)練步數(shù)。陳靜秀等[6]提出了基于Q學(xué)習(xí)算法的絞吸挖泥船橫移控制方法并進(jìn)行仿真實(shí)驗,結(jié)果表明Q學(xué)習(xí)算法能夠快速有效達(dá)到目標(biāo),控制效果較好。

本文基于DDPG算法,提出了一種耙吸挖泥船耙頭活動罩控制器,以某耙吸挖泥船為例,對控制算法進(jìn)行了實(shí)船驗證。

1 DDPG算法

DDPG算法的理論基礎(chǔ)是馬爾可夫決策過程,該決策過程由1個四元組(s,a,r,t)表示[7]:

1)狀態(tài)空間s:包含了儲存與感知所有環(huán)境狀態(tài)。

2)動作空間a:包含了智能體在每個決策步上可以采取的所有動作。

3)獎勵函數(shù)r:智能體在狀態(tài)s上采取動作a,轉(zhuǎn)移到狀態(tài)s'后得到的獎勵值。

4)狀態(tài)轉(zhuǎn)移函數(shù)t:智能體在狀態(tài)s下采取動作a轉(zhuǎn)移到狀態(tài)s'的概率。本文耙吸挖泥船挖泥裝艙過程中,狀態(tài)轉(zhuǎn)移概率為1。

在每個馬爾可夫決策過程中,智能體與環(huán)境的交互過程如圖2所示。

圖2 智能體與環(huán)境交互過程Fig.2 Interaction process between agent and environment

智能體感知當(dāng)前狀態(tài)s,在動作空間內(nèi)選擇動作a并執(zhí)行,得到環(huán)境反饋,計算獎勵值r并感知轉(zhuǎn)移后的狀態(tài)s'。智能體的動作選擇依據(jù)策略π,其含義是在某個狀態(tài)下的動作概率分布π∶S→P(A)。智能體在某個狀態(tài)獲取的反饋定義為[4]:

式中:γ為折扣因子,其值表示遠(yuǎn)期的獎勵折算到當(dāng)前決策步時,智能體對獎勵的重視程度。

強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一種策略,使得初始狀態(tài)的回報期望最大化。定義值函數(shù)為:在狀態(tài)s,依據(jù)策略π,執(zhí)行a動作的回報期望:

最優(yōu)值函數(shù)Q*(s,a)表示回報期望的最大值,遵循貝爾曼方程:

DDPG算法除了包含值函數(shù)之外,還包含動作函數(shù)μ(s|θμ),其含義是:當(dāng)網(wǎng)絡(luò)權(quán)重為θμ時,狀態(tài)s對應(yīng)的輸出動作。其功能是根據(jù)當(dāng)前策略確定性地將狀態(tài)映射到一個動作。通過神經(jīng)網(wǎng)絡(luò)擬合動作函數(shù)和值函數(shù)。動作函數(shù)和值函數(shù)各自包含2套神經(jīng)網(wǎng)絡(luò),在訓(xùn)練時實(shí)時更新的“在線”網(wǎng)絡(luò),和在訓(xùn)練時每個一定的訓(xùn)練步數(shù)更新一次的“目標(biāo)”網(wǎng)絡(luò),“目標(biāo)”具有與“在線”網(wǎng)絡(luò)相同的結(jié)構(gòu),更新時,直接將“在線”網(wǎng)絡(luò)的權(quán)重賦值給“目標(biāo)”網(wǎng)絡(luò)。DDPG的算法框架如圖3所示。

圖3 DDPG算法結(jié)構(gòu)圖Fig.3 Structure diagram of DDPG algorithm

智能體在與環(huán)境進(jìn)行交互時,將第i個決策步的狀態(tài)si、智能體選擇的動作ai、環(huán)境反饋獎勵ri和執(zhí)行動作后轉(zhuǎn)移到的新狀態(tài)si+1作為一條記憶存入記憶庫。

DDPG算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練時,首先從記憶庫中提取包含N條記憶的訓(xùn)練集。將狀態(tài)si輸入“執(zhí)行者”網(wǎng)絡(luò)的“在線”網(wǎng)絡(luò),得到網(wǎng)絡(luò)輸出的動作μ(si|θQ)。將μ(si|θQ)輸入“評論者”網(wǎng)絡(luò)的“在線”網(wǎng)絡(luò),得到網(wǎng)絡(luò)輸出Q(si,μ(si|θQ)),“執(zhí)行者”網(wǎng)絡(luò)的“在線”網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)定義為:

其現(xiàn)實(shí)意義為:使損失函數(shù)最小化,即Q值最大化,通過訓(xùn)練使“執(zhí)行者”網(wǎng)絡(luò)的“在線”網(wǎng)絡(luò)輸出能獲得更大Q值的動作。

將si,ai輸入“評論者”網(wǎng)絡(luò)的“在線”網(wǎng)絡(luò),得到網(wǎng)絡(luò)輸出Q(si,ai),將si+1輸入“執(zhí)行者”網(wǎng)絡(luò)的“目標(biāo)”網(wǎng)絡(luò),得到網(wǎng)絡(luò)輸出μ'(si+1|θμ')并輸入到“評論者”網(wǎng)絡(luò)的“目標(biāo)”網(wǎng)絡(luò),得到輸出Q'(si+1,μ'(si+1|θμ')|θQ')。定義“評論者”網(wǎng)絡(luò)的“在線”網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)為:

式中:γ表示折扣因子。經(jīng)過一定的訓(xùn)練步數(shù)后,分別將“執(zhí)行者”網(wǎng)絡(luò)和“評論者”網(wǎng)絡(luò)的“在線”網(wǎng)絡(luò)權(quán)重按照權(quán)值τ加權(quán)更新給“目標(biāo)”網(wǎng)絡(luò),更新方式如式(6)所示:

2 基于DDPG的耙頭活動罩控制器

本文應(yīng)用DDPG算法,設(shè)計了耙頭活動罩控制器,通過自動控制活動罩對地角度,優(yōu)化耙吸挖泥船瞬時產(chǎn)量。定義挖深、泵速、泥漿流速為DDPG算法中的狀態(tài)s,耙頭活動罩對地角度為動作a,瞬時原狀土產(chǎn)量為獎勵r,如式(7)所示,對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。當(dāng)耙唇對地角度改變后,流量計可立即反映真實(shí)流量變化,而耙吸挖泥船密度計安裝于泥泵附近,密度顯示存在滯后性,因此每個狀態(tài)量均選擇1 min內(nèi)的平均值,即當(dāng)耙唇動作后,記錄1 min的平均流速和平均密度作為算法狀態(tài)和獎勵,消除滯后性和測量噪聲產(chǎn)生的影響。

式中:ρ為泥漿密度;ρw為海水密度;ρs為原狀土密度;Q為泥漿流量。

控制器的理論依據(jù)為:當(dāng)控制耙吸挖泥船疏浚作業(yè)時,挖深和泵速一定時,當(dāng)前流速為泥泵揚(yáng)程曲線[8]與管路損失曲線的交點(diǎn),稱為當(dāng)前工況點(diǎn)。遍歷不同密度,得到了多個工況點(diǎn),如圖4所示。

圖4 工況點(diǎn)示意圖Fig.4 Schematic diagram of operating point

將所有工況點(diǎn)連接,得到某個泵速和挖深條件下的流量-產(chǎn)量曲線,如圖5所示。

圖5 流量-產(chǎn)量曲線Fig.5 Flow-production curve

當(dāng)土質(zhì)、挖深和吃水等環(huán)境條件一定時,某一泵速下的流量-產(chǎn)量曲線僅受吸入密度的影響,存在一個最優(yōu)密度,使產(chǎn)量最大。因此可通過耙唇活動罩控制器,控制耙頭活動罩對地角度,進(jìn)而控制吸入密度,使產(chǎn)量達(dá)到最優(yōu)。流量-產(chǎn)量曲線最高點(diǎn)可通過理論計算獲得,但是理論計算中,未考慮泥泵磨損等情況,因此理論計算的流量-產(chǎn)量與實(shí)際流量-產(chǎn)量曲線存在誤差。應(yīng)用強(qiáng)化學(xué)習(xí)理論中的DDPG算法,不依賴人為經(jīng)驗,由計算機(jī)探索當(dāng)前工況的實(shí)際流量-產(chǎn)量曲線。可避免理論計算誤差,優(yōu)化產(chǎn)量,同時減少人工操作??刂破髟谶\(yùn)行過程中,實(shí)時進(jìn)行迭代更新,同時在算法中設(shè)置貪婪策略,即最終輸出的動作,90%的概率執(zhí)行DDPG網(wǎng)絡(luò)輸出的最優(yōu)動作,10%的概率執(zhí)行隨機(jī)動作。因此當(dāng)挖深、吃水等外界條件變化時,算法可做出響應(yīng),尋找新環(huán)境下的流量-產(chǎn)量曲線的最優(yōu)工況點(diǎn),實(shí)現(xiàn)耙吸挖泥船挖泥裝艙過程自動化、智能化。

本文設(shè)計的耙頭活動罩控制器優(yōu)化算法適用于未發(fā)生悶耙等異常情況時??刂破鲗?yōu)過程中,設(shè)置保護(hù)策略,當(dāng)流速小于設(shè)定臨界流速且真空大于設(shè)定值時,認(rèn)為發(fā)生悶耙,此時控制器控制耙頭活動罩上抬,尋優(yōu)過程暫停,當(dāng)悶耙消除后,繼續(xù)尋優(yōu)。

3 算法驗證

本文中所設(shè)計的耙頭活動罩控制器在“新?;?”輪進(jìn)行試驗驗證,試驗進(jìn)行3個船次,施工地點(diǎn)為呂四,土質(zhì)為淤泥,施工區(qū)域挖深12 m。“新?;?”輪為雙耙船,試驗過程中,左耙使用耙頭活動罩控制器,右耙由操耙手人工操作,左右泥泵轉(zhuǎn)速均設(shè)置為額定轉(zhuǎn)速209 r/min。

左右耙頭活動罩對地角度如圖6所示。負(fù)角度表示耙頭活動罩并未壓入土中,其原因在于施工地土質(zhì)為淤泥,壓入土中會造成悶耙,因此需保持活動罩上翹。

圖6 耙頭活動罩對地角度Fig.6 Angle of visor relative to the ground

左右耙瞬時原狀土產(chǎn)量如圖7所示。3個船次平均瞬時產(chǎn)量為左耙1.79 m3/s,右耙1.36 m3/s。

圖7 瞬時產(chǎn)量Fig.7 Instantaneous production

4 結(jié)語

相比人工控制,耙頭活動罩自動控制器控制更為主動頻繁,左耙管路內(nèi)泥漿密度略高于人工控制的右耙,流速略低于右耙,產(chǎn)量高于右耙。應(yīng)用DDPG算法的主動耙頭活動罩控制器的控制效果與理論分析的流量-產(chǎn)量曲線結(jié)果相符合,即在人工控制下,工況點(diǎn)處于流量-產(chǎn)量曲線的最優(yōu)點(diǎn)右側(cè),密度小、流速大。主動耙頭活動罩控制器控制下的工況點(diǎn),相比人工更加趨向于流量-產(chǎn)量曲線的最高點(diǎn)??刂破骺梢酝ㄟ^自主調(diào)整活動罩對地角度,實(shí)現(xiàn)產(chǎn)量優(yōu)化,基于強(qiáng)化學(xué)習(xí)中的DDPG算法設(shè)計的主動耙頭活動罩控制器具有一定的現(xiàn)實(shí)應(yīng)用價值。

猜你喜歡
挖泥船控制器流量
直播助農(nóng)沖流量 勿忘質(zhì)量
三轉(zhuǎn)子式比例控制器設(shè)計與內(nèi)泄漏分析
南京溧水電子3款控制器產(chǎn)品
地球表面的編輯器
尋找書業(yè)新流量
基于NFV的分布式SDN控制器節(jié)能機(jī)制
過去的一年開啟了“流量”明星的凜冬時代?
疏浚工程的施工組合方法
新一代挖泥船旗艦“浚洋1”建成投產(chǎn)
三大運(yùn)營商聯(lián)手阿里巴巴醞釀推出“流量錢包”
庆云县| 炉霍县| 石嘴山市| 泰兴市| 行唐县| 乌恰县| 东阳市| 林周县| 勃利县| 庆城县| 句容市| 海南省| 商南县| 长乐市| 吴堡县| 广灵县| 卓资县| 朝阳县| 宁波市| 青阳县| 高青县| 高密市| 伊金霍洛旗| 博爱县| 呼玛县| 汾西县| 广南县| 潢川县| 阿城市| 柯坪县| 漳平市| 张掖市| 社旗县| 洛隆县| 积石山| 保德县| 成武县| 华容县| 长乐市| 潜山县| 东辽县|