国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于視覺的AUV自主水下管線跟蹤方法

2021-05-09 02:53:19王昊顏承昊任俊麗邵思揚(yáng)
現(xiàn)代信息科技 2021年20期
關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)

王昊 顏承昊 任俊麗 邵思揚(yáng)

摘? 要:對(duì)海下管線的檢測(cè)是保證其正常運(yùn)行的必要環(huán)節(jié)。文章針對(duì)海下管道巡檢問題,提出一種結(jié)合狀態(tài)表示學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的方法,使水下機(jī)器人能夠基于圖像進(jìn)行管線跟蹤。利用無監(jiān)督表征學(xué)習(xí)方法提取海底管線圖像特征,結(jié)合任務(wù)情況設(shè)計(jì)了動(dòng)作、狀態(tài)空間和獎(jiǎng)勵(lì)函數(shù),通過SAC算法學(xué)習(xí)一個(gè)穩(wěn)健的跟蹤控制策略。最后搭建仿真環(huán)境進(jìn)行試驗(yàn),證明了所提出方法的有效性和泛化性。

關(guān)鍵詞:AUV;海底管線跟蹤;狀態(tài)表示學(xué)習(xí);深度強(qiáng)化學(xué)習(xí)

中圖分類號(hào):TP242? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)20-0016-05

Vision-based AUV Autonomous Underwater Pipeline Tracking Method

WANG Hao, YAN Chenghao, REN Junli, SHAO Siyang

(School of Information Engineering, Dalian Ocean University, Dalian 116023, China)

Abstract: The detection of subsea pipelines is a necessary link to ensure its normal operation. For the subsea pipeline inspection problem, this paper proposes a method combining state representation learning and deep reinforcement learning, so that the underwater robot can track the pipeline based on image. The unsupervised representation learning method is used to extract the image features of submarine pipelines. Combined with the task situation, the action, state space and reward function are designed. A robust tracking control strategy is learned through SAC algorithm. Finally, a simulation environment is built to test the effectiveness and generalization of the proposed method.

Keywords: AUV; subsea pipeline tracking; state representation learning; deep reinforcement learning

0? 引? 言

海底管道、線纜是各國(guó)之間實(shí)現(xiàn)石油、天然氣等資源運(yùn)輸?shù)闹匾侄巍W鳛楹5谆A(chǔ)設(shè)施,海底管線在國(guó)際信息傳輸、海上資源開發(fā)、海島開發(fā)等領(lǐng)域發(fā)揮著重要作用。海底管線一般距離長(zhǎng),影響范圍大[1]。近年來,隨著海洋資源的不斷開發(fā)和海底管線的持續(xù)建設(shè),海底管線的數(shù)量和安裝深度也在不斷增加[2]。海底管線長(zhǎng)期運(yùn)行于復(fù)雜的海底環(huán)境中,受海水沖刷、壓力等因素影響,容易形成疲勞損傷導(dǎo)致破裂、泄露[3-5],海底管線的穩(wěn)定性極大地保證了其在整個(gè)運(yùn)營(yíng)周期內(nèi)的安全和經(jīng)濟(jì)效益。因此,定期對(duì)海底管線進(jìn)行監(jiān)測(cè)和檢查是一個(gè)必不可少的環(huán)節(jié),而監(jiān)測(cè)過程中的層層障礙使其成為一項(xiàng)極具挑戰(zhàn)性的任務(wù)。

當(dāng)前,我國(guó)海底管線主要鋪設(shè)于水下200~300米這一區(qū)間,導(dǎo)致一般的人工潛水檢測(cè)無法實(shí)現(xiàn)[6],通常采用遙控水下機(jī)器人(Remote Operated Vehicle, ROV)和自主水下機(jī)器人(Autonomous Underwater Vehicle, AUV)進(jìn)行作業(yè)[7-9]。ROV通過臍帶纜進(jìn)行通信實(shí)現(xiàn)控制和數(shù)據(jù)傳輸,AUV無須線纜即可通信,因此ROV在一定程度上受線纜長(zhǎng)度和操作員經(jīng)驗(yàn)水平的限制,而AUV可自主跟蹤檢測(cè)管線。考慮到實(shí)際應(yīng)用中深海中的環(huán)境復(fù)雜,AUV的精確動(dòng)力學(xué)模型很難獲得,因此AUV的定位和導(dǎo)航是公認(rèn)的難題,如何利用有限的感知數(shù)據(jù)信息實(shí)現(xiàn)管線跟蹤是研究的重點(diǎn)和難點(diǎn)。深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)是深度學(xué)習(xí)(Deep Learning, DL)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)的結(jié)合,深度強(qiáng)化學(xué)習(xí)作為當(dāng)前先進(jìn)的人工智能技術(shù)已廣泛應(yīng)用于機(jī)器人的控制任務(wù)中[10,12]。相較于傳統(tǒng)的基于模型的方法,深度強(qiáng)化學(xué)習(xí)方法因其與環(huán)境交互進(jìn)行自主學(xué)習(xí)的特性,無須建立精確的動(dòng)力學(xué)模型。此外狀態(tài)表示學(xué)習(xí)(State Representation Learning, SRL)作為學(xué)習(xí)高維數(shù)據(jù)特征的有效方法,其與深度強(qiáng)化學(xué)習(xí)的結(jié)合改善了無模型強(qiáng)化學(xué)習(xí)低采樣效率的缺陷[13],使得深度強(qiáng)化學(xué)習(xí)的方法能夠靈活應(yīng)對(duì)海下環(huán)境復(fù)雜、充滿未知變數(shù)的管線自主跟蹤任務(wù)。

綜上,本文采用狀態(tài)表示學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相結(jié)合的SRL-DRL方法,使用AUV搭載的攝像頭所拍攝的圖像作為狀態(tài)感知數(shù)據(jù),通過變分自編碼器(Variational Auto-Encoder, VAE)將高維、連續(xù)的像素狀態(tài)觀測(cè)編碼壓縮成低維矢量,有效減少計(jì)算量,最終利用強(qiáng)化學(xué)習(xí)算法學(xué)習(xí)低維狀態(tài)矢量和動(dòng)作之間的映射,實(shí)現(xiàn)管線自主跟蹤控制。最后通過兩個(gè)實(shí)驗(yàn)案例驗(yàn)證所使用方法的有效性和泛化性,實(shí)驗(yàn)結(jié)果表明,所使用方法所需的傳感器少、效率高、成本低、適應(yīng)性強(qiáng)。

1? AUV管線跟蹤方法

1.1? 狀態(tài)表示學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)

深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合,深度強(qiáng)化學(xué)習(xí)無須像監(jiān)督學(xué)習(xí)一樣事先對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記,而是通過讓智能體與復(fù)雜、未知的環(huán)境進(jìn)行交互,并引入獎(jiǎng)勵(lì)信號(hào)不斷糾正引導(dǎo)智能體從環(huán)境中學(xué)習(xí)最佳策略,深度強(qiáng)化學(xué)習(xí)的最終目標(biāo)是使累計(jì)獎(jiǎng)勵(lì)最大化。強(qiáng)化學(xué)習(xí)基本模型如圖1所示。

近年來,深度強(qiáng)化學(xué)習(xí)已經(jīng)在諸多領(lǐng)域取得了令人矚目的成就。DQN(Deep Q Network)算法第一次將卷積神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)算法Q-learning相結(jié)合,并在諸多Atari游戲中達(dá)到了與人類相當(dāng)?shù)乃?。但其只適用于離散的動(dòng)作空間,而現(xiàn)實(shí)的機(jī)器人控制中大多采用連續(xù)的動(dòng)作空間。

狀態(tài)表示學(xué)習(xí)是特征學(xué)習(xí)的一個(gè)特殊案例,狀態(tài)表示學(xué)習(xí)的目標(biāo)是將觀測(cè)數(shù)據(jù)轉(zhuǎn)化為壓縮的狀態(tài)向量,其中包含最具代表性的特征組,讓壓縮的狀態(tài)可以滿足有效的策略學(xué)習(xí)。例如,水下機(jī)器人傳感器(如相機(jī))提供了高維的數(shù)據(jù),而機(jī)器人的狀態(tài)(如方向、角度、距離等)可能包含在一個(gè)更低維的空間中。這種低維狀態(tài)剔除了原始高維數(shù)據(jù)的不相關(guān)特征,能夠極大地提高機(jī)器人完成任務(wù)的效率,這對(duì)于真實(shí)環(huán)境中的機(jī)器人實(shí)驗(yàn)是至關(guān)重要的。

1.2? Soft Actor-Critic算法

SAC(Soft Actor-Critic)[14]算法是目前最先進(jìn)的深度強(qiáng)化學(xué)習(xí)算法之一,且被廣泛應(yīng)用于機(jī)器人控制任務(wù)中。

SAC是一種基于最大熵?zé)o模型的離策略(off-policy)深度強(qiáng)化學(xué)習(xí)算法,解決了無模型深度強(qiáng)化學(xué)習(xí)中高樣本復(fù)雜性和脆弱收斂性的問題。SAC算法基于最大熵強(qiáng)化學(xué)習(xí)框架,最大熵策略增強(qiáng)算法的探索性和魯棒性。訓(xùn)練的目的不僅是使預(yù)期獎(jiǎng)勵(lì)最大化,也是使策略的熵最大化,從而使得策略在完成目標(biāo)的同時(shí)保持盡可能大的隨機(jī)性。SAC目標(biāo)函數(shù)為:

其中,π為策略,H(π(·|st))為熵,α為溫度系數(shù),控制策略的隨機(jī)程度以及熵在總獎(jiǎng)勵(lì)中的比例。主要目的是使策略隨機(jī)化,分散動(dòng)作概率分布,增強(qiáng)智能體的探索性。

本文使用VAE和SAC,將DRL和SRL結(jié)合起來,將高維的圖像觀測(cè)數(shù)據(jù)降維成包含關(guān)鍵特征的狀態(tài)向量,然后通過將狀態(tài)向量映射到動(dòng)作,確保自主管線跟蹤任務(wù)的實(shí)現(xiàn)。

1.3? 狀態(tài)空間

管線跟蹤任務(wù)主要是控制AUV跟蹤海底管線,并借助搭載的攝像機(jī)拍攝管道的狀態(tài)??紤]到實(shí)際深海環(huán)境下一些常用于陸地定位導(dǎo)航的傳感器受限,無法正常使用,AUV的精確位置亦無法獲得。攝像機(jī)拍攝是用于獲取狀態(tài)信息的一種方便且廉價(jià)的方式,尤其是能夠在復(fù)雜、非結(jié)構(gòu)化的環(huán)境中獲得機(jī)器人的基礎(chǔ)狀態(tài)。因此本文中只采用攝像頭,并將其所拍攝的圖像作為感知數(shù)據(jù)進(jìn)行跟蹤控制策略的學(xué)習(xí)。

盡管深度神經(jīng)網(wǎng)絡(luò)使強(qiáng)化學(xué)習(xí)從高維觀測(cè)數(shù)據(jù)中學(xué)習(xí)一個(gè)策略成為可能,但目前強(qiáng)化學(xué)習(xí)算法依然面臨著采樣效率低等問題。另外像素?cái)?shù)據(jù)是連續(xù)的、高維的,需要大量訓(xùn)練數(shù)據(jù),直接使用圖像進(jìn)行學(xué)習(xí)所需時(shí)間久,對(duì)設(shè)備要求高。因此本文中使用VAE作為特征提取器,將攝像機(jī)拍攝的圖像壓縮到一個(gè)較低維的空間,并保留了相關(guān)特征,利用VAE進(jìn)行特征提取的過程如圖2所示。首先將所拍攝的原始RGB圖像下采樣縮放至64×64大小,然后利用VAE將3×64×64(3為通道數(shù))的圖像編碼至1×10的隱空間,之后將低維的狀態(tài)向量作為輸入,利用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行學(xué)習(xí)。

1.4? 動(dòng)作空間

深度強(qiáng)化學(xué)習(xí)算法SAC能夠輸出連續(xù)動(dòng)作以驅(qū)動(dòng)機(jī)器人。在現(xiàn)實(shí)環(huán)境中,采用連續(xù)的動(dòng)作空間比離散固定的動(dòng)作空間更加符合AUV的特性,因此,我們采用連續(xù)動(dòng)作空間設(shè)計(jì)。AUV的動(dòng)作可表示為:

其中,v為AUV在Surge自由度上的線速度,ω為AUV在Yaw自由度上的角速度,線速度的區(qū)間為(0,0.5)m/s,角速度的區(qū)間為(-0.4,0.4)rad/s。為簡(jiǎn)化起見,我們假設(shè)AUV定深航行,只考慮平面上的運(yùn)動(dòng),AUV和自由度如圖3所示。

1.5? 獎(jiǎng)勵(lì)函數(shù)

深度強(qiáng)化學(xué)習(xí)中通過獎(jiǎng)勵(lì)來指導(dǎo)策略學(xué)習(xí),獎(jiǎng)勵(lì)函數(shù)影響智能體對(duì)動(dòng)作的選擇,獎(jiǎng)勵(lì)用于評(píng)估智能體所執(zhí)行動(dòng)作的好壞,正確的動(dòng)作能夠得到正向的獎(jiǎng)勵(lì),反之,錯(cuò)誤或不好的動(dòng)作就會(huì)得到負(fù)向的獎(jiǎng)勵(lì)。在管線跟蹤任務(wù)檢查中,應(yīng)保證管道處于AUV所搭載攝像機(jī)的可視范圍之內(nèi),AUV沿管線路徑持續(xù)前進(jìn)跟蹤并拍攝,因此我們希望AUV不脫離管線路徑,且自始至終都要盡量將管線保持在攝像機(jī)中心圖像的中心位置。另外,AUV通過其機(jī)身電池倉(cāng)中的電池供電,節(jié)省能源也是需要加以考慮的關(guān)鍵因素之一,因此AUV還應(yīng)當(dāng)盡可能快地完成跟蹤任務(wù)。結(jié)合上述情況,設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)為:

2? 實(shí)驗(yàn)

由于強(qiáng)化學(xué)習(xí)需要不斷交互進(jìn)行學(xué)習(xí),在實(shí)際的水下環(huán)境中進(jìn)行實(shí)驗(yàn)不但成本高,而且危險(xiǎn)性也高,因此本文中的實(shí)驗(yàn)選擇在模擬器中完成。我們?cè)赨UV Simulator[15]中的海洋環(huán)境中構(gòu)建了管線場(chǎng)景,使用的AUV為該平臺(tái)提供的“RexROV2”,管線場(chǎng)景如圖4所示。

如前文所述,我們利用SRL和DRL相結(jié)合的SRL-DRL方法,首先,VAE將圖像編碼壓縮至更容易學(xué)習(xí)的低維度的潛空間中,提取出魯棒性關(guān)鍵特征。然后將低維的狀態(tài)向量作為深度強(qiáng)化學(xué)習(xí)的輸入,學(xué)習(xí)有效的跟蹤控制策略。

在實(shí)驗(yàn)中,我們事先以遙控的方式通過鍵盤控制AUV沿管道前進(jìn),并盡可能覆蓋訓(xùn)練過程中可能出現(xiàn)的狀態(tài),整個(gè)手動(dòng)控制的過程由攝像機(jī)錄制成視頻,然后從所采集的視頻中提取圖像幀。為了降低圖片的相似度,提取過程中每?jī)蓮垐D像之間間隔5幀。最終采集的圖像為8 000張,其中700張作為測(cè)試集,其余的圖像作為訓(xùn)練集。在VAE的預(yù)訓(xùn)練中,通過隨機(jī)翻轉(zhuǎn)和隨機(jī)縮放裁剪來增強(qiáng)數(shù)據(jù),然后下采樣縮放至64×64大小。模型由一個(gè)編碼器和一個(gè)解碼器構(gòu)成,編碼器中使用卷積神經(jīng)網(wǎng)絡(luò),由四層卷積層和兩層全連接層構(gòu)成,最終編碼為向量z,本文輸出的z向量大小為10。解碼器與編碼器相反,由一個(gè)全連接層開始,將向量z調(diào)整為編碼器最后一層卷積層的大小,隨后通過四層反卷積將向量z重構(gòu)為原始輸入的大小,模型訓(xùn)練中使用MSE損失函數(shù)來優(yōu)化VAE,損失值反映了圖像重構(gòu)的效果。訓(xùn)練以64張圖像為一個(gè)小批次,學(xué)習(xí)率為0.001。對(duì)模型進(jìn)行500輪的訓(xùn)練,最終選擇損失最小的模型。最終訓(xùn)練完成的最佳模型的重構(gòu)效果如圖5所示。

在管線跟蹤任務(wù)中,SAC的狀態(tài)輸入為經(jīng)過VAE編碼的低維隱向量。按照上節(jié)中的動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),AUV的初始位置位于管線的起始段,整個(gè)仿真實(shí)驗(yàn)共1 000 000時(shí)間步。

平均回合獎(jiǎng)勵(lì)描述了在一個(gè)回合的時(shí)間步內(nèi),智能體的平均累積即時(shí)獎(jiǎng)勵(lì)。平均回合獎(jiǎng)勵(lì)通常隨著訓(xùn)練時(shí)間的增加而增加,但根據(jù)任務(wù)難易程度的不同也會(huì)有一些小的起伏波動(dòng)。如圖6所示,平均獎(jiǎng)勵(lì)隨著訓(xùn)練時(shí)間步的增加而增加,在開始的前50 000時(shí)間步內(nèi),AUV不斷試錯(cuò)嘗試保持在管線路徑上,在50 000~300 000時(shí)間步內(nèi),累計(jì)獎(jiǎng)勵(lì)不斷增加,在600 000時(shí)間步左右達(dá)到最大值,這表明智能體學(xué)習(xí)到一個(gè)控制策略,能夠輸出正確的動(dòng)作。

圖7顯示了訓(xùn)練過程中,平均回合長(zhǎng)度隨時(shí)間的變化曲線?;睾祥L(zhǎng)度為回合內(nèi)AUV在不偏離管線路徑的情況下累計(jì)航行的時(shí)間,反映了AUV在單回合內(nèi)的航行長(zhǎng)度。在前50 000步內(nèi),平均回合長(zhǎng)度小于200,這一時(shí)期智能體的學(xué)習(xí)是隨機(jī)的,而在300 000時(shí)間步的迭代后,回合長(zhǎng)度不斷增加,這和獎(jiǎng)勵(lì)值保持一致,表明AUV學(xué)習(xí)到有效的策略,能夠在更長(zhǎng)的時(shí)間內(nèi)不偏離管線路徑,保持跟蹤拍攝。

為了驗(yàn)證訓(xùn)練所學(xué)策略的有效性和泛化性,設(shè)計(jì)了兩個(gè)測(cè)試實(shí)驗(yàn),兩個(gè)實(shí)驗(yàn)場(chǎng)景中所使用的管線都不同于訓(xùn)練場(chǎng)景,其中一個(gè)場(chǎng)景中包含一個(gè)有6個(gè)不同角度拐角的管道,另一個(gè)為更細(xì)一些的彎曲線纜,測(cè)試場(chǎng)景如圖8所示。

測(cè)試使用訓(xùn)練之后固定參數(shù)的模型,在兩個(gè)測(cè)試案例中AUV均能夠順利且高效地完成管線跟蹤任務(wù)。順利體現(xiàn)在AUV能夠全程跟蹤覆蓋管線而不偏離,高效體現(xiàn)在AUV總是能夠以較為平滑和相對(duì)較短的路線完成跟蹤任務(wù)。表明在訓(xùn)練環(huán)境中習(xí)得的控制策略能夠完成管線跟蹤任務(wù),具有很好的泛化性。兩個(gè)測(cè)試案例的AUV軌跡通過Rviz可視化軟件繪制,如圖9所示。

3? 結(jié)? 論

本文將狀態(tài)表示學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)相結(jié)合,用于實(shí)現(xiàn)海下管線跟蹤任務(wù)。結(jié)合實(shí)際情況設(shè)計(jì)了動(dòng)作空間、狀態(tài)空間和獎(jiǎng)勵(lì)函數(shù),以確保AUV在跟蹤拍攝過程中能夠保持在管線上方,并且加速訓(xùn)練過程,減少不必要的運(yùn)動(dòng),以減少能源消耗,獲得更好的檢查監(jiān)測(cè)畫面。與傳統(tǒng)深度強(qiáng)化學(xué)習(xí)方法相比,本文結(jié)合使用的自監(jiān)督狀態(tài)表征學(xué)習(xí)方法只使用了少量的樣本進(jìn)行訓(xùn)練,VAE的預(yù)處理提高了樣本效率,促使深度強(qiáng)化學(xué)習(xí)算法以更少的樣本、更快的速度學(xué)習(xí)。同時(shí)該方法對(duì)于設(shè)備性能的要求較低,能夠應(yīng)對(duì)真實(shí)場(chǎng)景下AUV算力較低、能源有限的條件限制。最后搭建仿真環(huán)境進(jìn)行仿真試驗(yàn),最終驗(yàn)證了所使用方法的有效性和泛化性。

參考文獻(xiàn):

[1] 黃潘陽(yáng),來向華,胡濤駿,等.海底電纜管道廊道規(guī)劃初步構(gòu)想 [J].海洋開發(fā)與管理,2020,37(3):8-11.

[2] ZHAO X H,WANG X,Du Z S. Research on Detection Method for the Leakage of Underwater Pipeline by YOLOv3 [C]//2020 IEEE International Conference on Mechatronics and Automation (ICMA).Beijing:IEEE,2020:637-642.

[3] 董紹華,段宇航,孫偉棟,等.中國(guó)海底管道完整性評(píng)價(jià)技術(shù)發(fā)展現(xiàn)狀及展望 [J].油氣儲(chǔ)運(yùn),2020,39(12):1331-1336.

[4] 王文龍,熊指南.聲學(xué)探測(cè)技術(shù)在海底石油管線鋪設(shè)后調(diào)查中的應(yīng)用 [J].海洋科學(xué),2021,45(7):110-120.

[5] 丁安.聲納圖像水下管線檢測(cè)與跟蹤技術(shù)研究 [D].鎮(zhèn)江:江蘇科技大學(xué),2019.

[6] 陳浩.水下巡線機(jī)器人管線識(shí)別與運(yùn)動(dòng)控制算法研究 [D].青島:中國(guó)石油大學(xué)(華東),2018.

[7] 韓銀鋒.基于機(jī)器視覺的ROV水下管線自動(dòng)跟蹤方法 [J].計(jì)算機(jī)測(cè)量與控制,2015,23(2):539-541.

[8] 黃子明,賀繼林.面向水下管網(wǎng)的視覺檢測(cè)系統(tǒng)研究 [J].電子測(cè)量與儀器學(xué)報(bào),2021,35(6):79-87.

[9] 黃明泉.水下機(jī)器人ROV在海底管線檢測(cè)中的應(yīng)用 [J].海洋地質(zhì)前沿,2012,28(2):52-57.

[10] 閆皎潔,張鍥石,胡希平.基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃技術(shù)綜述 [J].計(jì)算機(jī)工程,2021,47(10):16-25.

[11] 李茹楊,彭慧民,李仁剛,等.強(qiáng)化學(xué)習(xí)算法與應(yīng)用綜述 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(12):13-25.

[12] 孫玉山,王力鋒,吳菁,等.智能水下機(jī)器人路徑規(guī)劃方法綜述 [J].艦船科學(xué)技術(shù),2020,42(7):1-7.

[13] GUPTA A,KHWAJA A S,ANPALAGAN A,et al. Policy-Gradient and Actor-Critic Based State Representation Learning for Safe Driving of Autonomous Vehicles [J].Sensors,2020,20(21):5991.

[14] HAARNOJA T,ZHOU A,ABBEEL P,et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [C]//International conference on machine learning. Stockholm:PMLR,2018:1861-1870.

[15] MANH?ES M M M,SCHERER S A,VOSS M,et al. UUV simulator: A gazebo-based package for underwater intervention and multi-robot simulation [C]//OCEANS 2016 MTS/IEEE Monterey.Monterey:IEEE,2016:1-8.

作者簡(jiǎn)介:王昊(1996—),男,漢族,安徽桐城人,碩士研究生在讀,研究方向:水下機(jī)器人、強(qiáng)化學(xué)習(xí);

顏承昊(1998—),男,漢族,遼寧大連人,碩士研究生在讀,研究方向:水下機(jī)器人、強(qiáng)化學(xué)習(xí)。

任俊麗(1996—),女,漢族,河南商丘人,碩士研究生在讀,研究方向:計(jì)算機(jī)視覺;

邵思揚(yáng)(1997-),女,漢族,遼寧本溪人,碩士研究生在讀,研究方向:水下機(jī)器人、強(qiáng)化學(xué)習(xí)。

猜你喜歡
深度強(qiáng)化學(xué)習(xí)
基于DDPG算法的路徑規(guī)劃研究
基于深度強(qiáng)化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評(píng)價(jià)模型研究
基于深度強(qiáng)化學(xué)習(xí)與圖像智能識(shí)別的輸電線路在線監(jiān)測(cè)系統(tǒng)
基于云控制的業(yè)務(wù)服務(wù)機(jī)器人系統(tǒng)設(shè)計(jì)
人工智能深度強(qiáng)化學(xué)習(xí)的原理與核心技術(shù)探究
基于人工智能的無人機(jī)區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
基于策略梯度算法的工作量證明中挖礦困境研究
基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
關(guān)于人工智能阿法元綜述
商情(2019年14期)2019-06-15 10:20:13
深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
阿瓦提县| 青州市| 丰台区| 石嘴山市| 友谊县| 太仓市| 景东| 梁平县| 从化市| 眉山市| 库伦旗| 千阳县| 东港市| 蒙山县| 读书| 南通市| 德惠市| 醴陵市| 陇西县| 通河县| 阜新| 阳泉市| 高雄市| 大兴区| 陕西省| 射洪县| 丰县| 玛沁县| 福建省| 南投市| 威海市| 司法| 水城县| 辽宁省| 涪陵区| 交城县| 兴安县| 塔城市| 巴彦县| 哈尔滨市| 丽水市|