戢澤民 徐野 哈樂(lè)
(1.沈陽(yáng)理工大學(xué)自動(dòng)化與電氣工程學(xué)院 遼寧沈陽(yáng) 110159;2.北部戰(zhàn)區(qū)總醫(yī)院醫(yī)學(xué)工程科 遼寧沈陽(yáng) 110000)
截至2019 年6 月,全國(guó)汽車保有量達(dá)2.5 億輛,私家車達(dá)1.98 億輛。對(duì)交通領(lǐng)域發(fā)展而言,當(dāng)前交通安全事故已經(jīng)成為最大的問(wèn)題。使用車輛不斷增多,引發(fā)的交通安全事故也在不斷增多[1]。人們對(duì)于汽車各個(gè)方面的性能要求也在不斷升高,自動(dòng)駕駛汽車便成為了解決這一問(wèn)題的有效手段,隨著5G 時(shí)代的來(lái)臨,自動(dòng)駕駛汽車的發(fā)展備受關(guān)注[2]。國(guó)外著名的汽車公司和IT巨頭正在競(jìng)相深入研究無(wú)人駕駛汽車技術(shù),如IT 互聯(lián)網(wǎng)企業(yè)、傳統(tǒng)的汽車制造商企業(yè)[3]。國(guó)內(nèi)早期自動(dòng)駕駛汽車由各大高校和研究院所對(duì)智能車輛的技術(shù)的研究[4]。
強(qiáng)化學(xué)習(xí)就是研究每個(gè)狀態(tài)應(yīng)該以什么樣的策略選擇動(dòng)作,使得整個(gè)序貫決策時(shí)最優(yōu)的[5]。所謂強(qiáng)化學(xué)習(xí)是一種以環(huán)境反饋?zhàn)鳛檩斎氲?、特殊的、適應(yīng)環(huán)境的機(jī)器學(xué)習(xí)方法,它的主要思想是與環(huán)境交互和試錯(cuò),利用評(píng)價(jià)性的反饋信號(hào)實(shí)現(xiàn)決策的優(yōu)化[6]。2013 年,DeepMind 團(tuán)隊(duì)將Q-Learning 與深度學(xué)習(xí)相結(jié)合提出深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)[7]。強(qiáng)化學(xué)習(xí)算法與理論的研究為人工智能的復(fù)雜問(wèn)題求解開辟了一條新的途徑,強(qiáng)化學(xué)習(xí)的基于多步序列決策的知識(shí)表示和基于嘗試與失敗的學(xué)習(xí)機(jī)制能夠有效地解決知識(shí)的表示和獲取的問(wèn)題[8]。當(dāng)前,為了提升模型的表征能力,研究者們將深度神經(jīng)網(wǎng)絡(luò)引入強(qiáng)化學(xué)習(xí)中,二者優(yōu)勢(shì)互補(bǔ),形成了能在復(fù)雜環(huán)境中感知并決策的深度強(qiáng)化學(xué)習(xí)算法[9]。不同于深度學(xué)習(xí)側(cè)重于感知和表達(dá),強(qiáng)化學(xué)習(xí)側(cè)重于尋找解決問(wèn)題的策略,強(qiáng)化學(xué)習(xí)中的智能體在與環(huán)境交互的過(guò)程中,為了獲取更大的累計(jì)獎(jiǎng)勵(lì)值而不斷優(yōu)化動(dòng)作策略,當(dāng)累計(jì)的獎(jiǎng)賞值達(dá)到最大后且穩(wěn)定,意味著學(xué)習(xí)到全局或局部最優(yōu)策略[10]。
道路的環(huán)境包括天氣、道路等級(jí)、道路類型、路況、汽車數(shù)據(jù)、行駛環(huán)境。其中天氣包括晴/陰/多云、雨、雪、霧。道路等級(jí)及各道路限速情況如表1所示。
表1 我國(guó)各道路類型的限速標(biāo)準(zhǔn)
考慮行駛動(dòng)作更加直觀,將行駛動(dòng)作包括加速、減速、急加速、急減速和勻速。擁堵情況的設(shè)置考慮真實(shí)世界的復(fù)雜性與隨機(jī)性,將擁堵情況設(shè)置為1 000 m之內(nèi)隨機(jī)產(chǎn)生車輛擁堵和紅燈擁堵,汽車數(shù)據(jù)中的行駛里程按照百分制的方式記錄,速度表示小車行駛的真實(shí)速度。速度公式為
該文分別設(shè)置行駛動(dòng)作本身所產(chǎn)生的獎(jiǎng)勵(lì),行駛動(dòng)作導(dǎo)致車輛狀態(tài)的改變所產(chǎn)生的獎(jiǎng)勵(lì),以及小車在行駛途中產(chǎn)生撞車或者到達(dá)目的地游戲結(jié)束所產(chǎn)生的獎(jiǎng)勵(lì),具體如表2所示。
表2 動(dòng)作本身所產(chǎn)生的獎(jiǎng)勵(lì)
考慮汽車在行駛途中會(huì)進(jìn)行加速、減速,急加速、急減速等一系列的操作所帶來(lái)動(dòng)作本身的影響和動(dòng)作導(dǎo)致狀態(tài)改變的影響,必須要給出一定的界限來(lái)區(qū)分。再參考汽車之家的數(shù)據(jù),該文對(duì)正常加速、正常減速、急加速、急減速的判定:加速度a=-1.11 m/s2為正常減速,加速度a=-3.09 m/s2為急減速。加速、急加速的判定:加速度a=1.11 m/s2為正常加速,加速度a=3.09 m/s2為急加速。
狀態(tài)改變所產(chǎn)生的獎(jiǎng)勵(lì)見表3,天氣對(duì)速度影響的獎(jiǎng)勵(lì)見表4??紤]現(xiàn)實(shí)世界中極端天氣對(duì)汽車速度的影響,這里也會(huì)在加速度后乘以一個(gè)折扣因子b,這里的折扣因子會(huì)因天氣的改變而改變。在由于折扣因子的影響,此時(shí)智能體得到的實(shí)際加速度a'=動(dòng)作本身產(chǎn)生的加速度ax折扣因子b。規(guī)定晴天時(shí)折扣因子b=1,霧天時(shí)b=0.95,雨天時(shí)b=0.85,雪天時(shí)b=0.6。智能體產(chǎn)生其他動(dòng)作時(shí)與其類似。綜上所述,方案流程圖如圖1所示。
圖1 訓(xùn)練環(huán)境搭建流程圖
表3 狀態(tài)改變所產(chǎn)生的獎(jiǎng)勵(lì)
表4 天氣對(duì)速度影響的獎(jiǎng)勵(lì)
該文在pycharm 中通過(guò)python 來(lái)實(shí)現(xiàn)環(huán)境道路天氣動(dòng)作獎(jiǎng)勵(lì)等。建立配置文件,例如道路類型/天氣狀況/堵車位置/行駛動(dòng)作等。建立用來(lái)隨機(jī)的產(chǎn)生一種道路類型。生成一個(gè)19位的向量,其中天氣4位,道路類型9位,紅綠燈擁堵1位,總時(shí)長(zhǎng)1位,疲勞駕駛時(shí)長(zhǎng)1 位,汽車位置1 位,汽車速度1 位,日夜行駛1 位。該文采用0 或1 來(lái)表示無(wú)或有,多位向量中其中一位為1,其余則為0來(lái)表示。建立一個(gè)step,游戲世界的1秒為一幀,計(jì)算狀態(tài)、獎(jiǎng)勵(lì)等。
首先要判斷智能體是否達(dá)到終點(diǎn),若沒(méi)到達(dá)終點(diǎn),則給予智能體一個(gè)負(fù)獎(jiǎng)勵(lì),其中設(shè)置每幀判斷智能體是否到達(dá)終點(diǎn),每幀的獎(jiǎng)勵(lì)都進(jìn)行累加。流程圖如圖2所示。
圖2 產(chǎn)生獎(jiǎng)勵(lì)的順序
智能體根據(jù)當(dāng)前狀態(tài)和動(dòng)作,以每秒為一幀,計(jì)算獎(jiǎng)勵(lì),選出下一動(dòng)作,作用于環(huán)境。環(huán)境反饋新的道路、天氣、擁堵、日夜等狀態(tài)。每一幀的動(dòng)作獎(jiǎng)勵(lì)和動(dòng)作導(dǎo)致狀態(tài)獎(jiǎng)勵(lì)都在進(jìn)行累加。每幀過(guò)程不斷地重復(fù),直到游戲結(jié)束。
在該文中,配置了text.py 用來(lái)進(jìn)行測(cè)試本環(huán)境的搭建是否可用。如圖3所示,第一行運(yùn)行時(shí)間為1 s,第三行路長(zhǎng)為567 100,進(jìn)行歸一化的位置=智能體當(dāng)前位置/路總長(zhǎng)。速度為9.455 4 km/h。19個(gè)狀態(tài)對(duì)應(yīng)參考該文第3.1節(jié)。圖4為新一回合的智能體的信息,這里可以看到相較于圖1 有較多的改變。圖5 為使用強(qiáng)化學(xué)習(xí)算法DDQN 對(duì)該環(huán)境進(jìn)行150 回合訓(xùn)練的結(jié)果。在進(jìn)行了20回合左右,智能體已經(jīng)能夠得到較高的獎(jiǎng)勵(lì),說(shuō)明智能體在面對(duì)該靜態(tài)虛擬鏈路時(shí)效果有所提高。
圖3 運(yùn)行1秒時(shí)的智能體信息
圖4 新一回合的智能體信息
圖5 使用DDQN進(jìn)行訓(xùn)練
基于強(qiáng)化學(xué)習(xí)靜態(tài)虛擬道路用戶駕駛行為的智能體訓(xùn)練環(huán)境研究。將現(xiàn)實(shí)世界汽車行駛的道路、天氣、路況等對(duì)用戶駕駛的影響考慮到虛擬環(huán)境中。使用DDQN 算法對(duì)其進(jìn)行測(cè)試,智能體每回合得到的獎(jiǎng)勵(lì)逐步提高,說(shuō)明搭建的環(huán)境以及設(shè)置的獎(jiǎng)勵(lì)值可靠有效。