余欣磊 周賢文 張依戀 顧偉
摘 要:針對當(dāng)前智能汽車剎車場景下的安全與舒適性問題,提出一種基于區(qū)間分塊的Q學(xué)習(xí)算法。首先在Q表中將前車加速度以一定間隔劃分入等長區(qū)間,用區(qū)間中值做間隔來劃分后車加速度。其次通過在安全條件下與加速度呈負(fù)相關(guān)的獎勵設(shè)置,使智能體在保證安全的前提下盡量降低剎車加速度。最后在智能體訓(xùn)練的過程中遵循ε-貪心策略以減少隨機性,在訓(xùn)練完畢后遵循貪心策略以最大程度利用智能體。將提出的算法與傳統(tǒng)Q學(xué)習(xí)算法在三種常見道路場景上進行仿真測試。實驗結(jié)果顯示使用提出算法的智能車輛在剎車場景中安全率100%、平均剎車加速度小于2 m/s2且能處理連續(xù)剎車加速度,表明提出的算法能夠在確保智能汽車安全剎車的同時實現(xiàn)較低的剎車加速度。同時在連續(xù)剎車加速度與離線環(huán)境等復(fù)雜情況下,算法均能正常使用。
關(guān)鍵詞:智能汽車;智能剎車;Q學(xué)習(xí);區(qū)間分塊
中圖分類號:TP391?? 文獻標(biāo)志碼:A?? 文章編號:1001-3695(2024)01-027-0183-05
doi:10.19734/j.issn.1001-3695.2023.05.0220
Interval-block-based Q-learning algorithm for safe and comfortable braking of intelligent vehicles
Abstract: To address the safety and comfort issues in intelligent vehicle braking scenarios,this paper proposed a Q-learning algorithm based on interval partitioning.Firstly,the algorithm divided the acceleration of the preceding vehicle into equal-length intervals with a certain interval in the Q-table,and used the interval median to partition the acceleration of the following vehicle.Secondly,the algorithm used a reward function that was negatively correlated with acceleration under safe conditions to encourage the agent to minimize braking acceleration while ensuring safety.Finally,the algorithm followed the ε-greedy strategy during the training of the agent to reduce randomness,and followed the greedy strategy after training to maximize the utilization of the agent.This paper simulated the proposed algorithm and the traditional Q-learning algorithm on three common road scenarios.The experimental results show that the intelligent vehicle used the proposed algorithm has a 100% safety rate in braking scenarios,with an average braking acceleration of less than 2 m/s2,and can handle continuous braking acceleration,which indicates that the proposed algorithm can achieve lower braking deceleration to improve passengers comfort while ensuring safe braking of the intelligent vehicles.In addition,the algorithm is effective in complex scenarios including continuous braking deceleration and offline environments.
Key words:intelligent vehicle;intelligent braking;Q-learning;interval block
0 引言
目前智能網(wǎng)聯(lián)技術(shù)快速發(fā)展,各類互聯(lián)網(wǎng)行業(yè)巨頭紛紛涌入,智能汽車領(lǐng)域正成為新一輪科技革命和產(chǎn)業(yè)革命的戰(zhàn)略高地。隨著智能汽車數(shù)量的不斷增加,我國智能汽車行業(yè)也將迎來發(fā)展的黃金期[1]。在發(fā)展過程中,智能汽車暴露出一些問題,如因使用互聯(lián)網(wǎng)而帶來的網(wǎng)絡(luò)安全問題[2]、因緊急剎車導(dǎo)致的汽車追尾等安全問題[3]。據(jù)統(tǒng)計,我國因公路事故傷亡的死亡率高達30%(發(fā)達國家僅3%~4%)[4],而在汽車道路交通事故中,追尾問題占70%以上。其中,緊急剎車是導(dǎo)致追尾問題的一個重要誘因,因此,做好緊急剎車的有效應(yīng)對,對于規(guī)避因汽車追尾產(chǎn)生的交通事故至關(guān)重要。
針對緊急情況下如何安全剎車這一問題,近年來已有許多專家學(xué)者進行了研究,2009年,Mamat等人[5]通過一個模糊邏輯控制器(fuzzy logic controller,F(xiàn)LC)將駕駛員的常見行為量化為一系列的規(guī)則并對其進行設(shè)計,從而對智能汽車的剎車進行自動控制。文獻[6]提出自動緊急剎車系統(tǒng)(automated emergency braking system,AEBS),主要依靠新興的傳感器技術(shù),通過車載傳感器獲取前后車距離,進行機器條件判斷,最終決定是否剎車以及剎車力度調(diào)節(jié)。文獻[7]利用一個集成芯片對智能汽車剎車進行控制。文獻[8]采用深度強化學(xué)習(xí)的方法進行智能決策。隨著深度學(xué)習(xí)(deep learning,DL)的發(fā)展,尤其是深度強化學(xué)習(xí)在圍棋和其他電腦游戲下的展示,強化學(xué)習(xí)(reinforcement learning,RL)吸引了越來越多專家學(xué)者們的關(guān)注[9]。強化學(xué)習(xí)又稱為增強學(xué)習(xí)[10],是機器學(xué)習(xí)下的一個分支,區(qū)別于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí),強化學(xué)習(xí)不存在人為指導(dǎo)和方法,完全由機器對策略集進行學(xué)習(xí)??梢岳斫鉃閺娀瘜W(xué)習(xí)智能體在與環(huán)境進行交互的過程中,通過不斷地嘗試,從錯誤中學(xué)習(xí)經(jīng)驗,并根據(jù)經(jīng)驗調(diào)整其策略,來最大化最終所有獎勵的累積值[11]。這使得強化學(xué)習(xí)具有很強的環(huán)境適應(yīng)力,訓(xùn)練完成后的智能體可以獨立工作,無須外界幫助。汽車剎車場景兼具時間短、網(wǎng)絡(luò)不穩(wěn)定、場景復(fù)雜等特性,因此剎車控制器必須高效穩(wěn)定且能應(yīng)對復(fù)雜場景。而強化學(xué)習(xí)相較傳統(tǒng)的控制器設(shè)計算法效率更高,訓(xùn)練完成后的智能體可不依賴網(wǎng)絡(luò)獨立工作,且對非線性問題處理非常有效。因此,強化學(xué)習(xí)十分切合汽車緊急剎車場景。
目前已有較多關(guān)于Q學(xué)習(xí)的研究,文獻[12]通過雙層深度Q神經(jīng)網(wǎng)絡(luò)(double deep Q network,DDQN)研究飛機姿態(tài)控制,文獻[13]提出一種基于等效因子的汽車能量控制策略,文獻[14]提出一種基于雙Q表與啟發(fā)式因素的Q學(xué)習(xí)并將其應(yīng)用于無人機空戰(zhàn),但這些Q學(xué)習(xí)很少與汽車剎車問題聯(lián)系在一起,且?guī)缀鯖]有考慮乘客舒適度問題。然而,隨著人們對乘車舒適性需求的不斷提高,如何在保證安全的基礎(chǔ)上提升乘客乘車舒適度成了緊急剎車問題的一個研究重點。
本文采用強化學(xué)習(xí)中的Q學(xué)習(xí)實現(xiàn)智能車輛的安全舒適剎車,并在此基礎(chǔ)上,通過區(qū)間分塊方法改進Q學(xué)習(xí),改進后的Q學(xué)習(xí)可以處理連續(xù)狀態(tài)空間問題。本文所做的工作主要有:a)結(jié)合實際駕駛場景,將汽車剎車問題轉(zhuǎn)換為強化學(xué)習(xí)問題,并考慮乘客舒適度,在安全剎車的前提下改善乘客體驗。b)提出區(qū)間分塊方法,對傳統(tǒng)Q學(xué)習(xí)算法改進,改進后的算法能夠有效處理連續(xù)狀態(tài)空間問題,切合實際汽車剎車場景。
1 模型與算法
1.1 汽車跟馳模型
本文考慮文獻[15]中的汽車跟馳模型,該模型包含前后兩輛汽車,其中s代表兩車初始相隔距離,v代表兩車速度,a1代表前車剎車加速度,a2代表后車剎車加速度,l1代表前車剎車距離,l2代表后車剎車距離,l代表兩車最終相隔距離,具體如圖1所示。
考慮如圖1所示模型,兩車以相同的速度行駛,在某一時刻因突發(fā)情況,前車以一定的加速度開始剎車,后車隨即以一定的加速度跟隨前車開始剎車。本文假設(shè)前后兩車的初始相隔距離滿足《中華人民共和國道路交通安全法實施條例》中的安全距離,即兩車距離(m)在數(shù)值上等于兩車速度(km/h)。
根據(jù)模型可以得出,前車剎車距離為
后車剎車距離為
兩車最終相隔距離為
要保證安全剎車,后車的最小加速度為
假設(shè)舒適加速度為ac,則可得到表1關(guān)系。
1.2 Q學(xué)習(xí)算法
強化學(xué)習(xí)由智能體和環(huán)境兩部分組成,智能體是訓(xùn)練的對象,除智能體外均屬于環(huán)境。在學(xué)習(xí)過程中,智能體從環(huán)境中獲取狀態(tài)信息,根據(jù)策略給出相應(yīng)的動作,環(huán)境接收智能體動作后再傳遞回新的狀態(tài)信息與獎勵。在與環(huán)境的不斷交互中,通過值函數(shù)來評價智能體的好壞[16]。
Q學(xué)習(xí)是最有效的強化學(xué)習(xí)獨立模型算法之一[17]。Q學(xué)習(xí)的核心在于創(chuàng)建一個Q表,將狀態(tài)(state)與動作(action)定義為行與列,某一行對應(yīng)某一種狀態(tài),某一列對應(yīng)某一種動作,對應(yīng)行列里的值Q(state,action),一般簡寫為Q(S,A),即對應(yīng)狀態(tài)下采取對應(yīng)動作的動作值函數(shù)。動作值函數(shù)反映的是智能體在某一狀態(tài)下采取某一動作的價值,動作值函數(shù)越大說明在對應(yīng)狀態(tài)下采取對應(yīng)動作的價值越大,智能體一般就越傾向于選取該動作。通過不斷訓(xùn)練,最終得到一個Q表。通過讀取Q表,即可根據(jù)對應(yīng)狀態(tài)采取對應(yīng)動作。智能體是訓(xùn)練的目標(biāo),本質(zhì)是Q表,在汽車跟馳模型中代表的是根據(jù)前車加速度a1選擇后車加速度a2的策略集。狀態(tài)S是前車加速度a1,狀態(tài)空間是所有前車加速度a1構(gòu)成的集合;動作A是后車加速度a2,動作空間是所有后車加速度a2構(gòu)成的集合,Q(S,A)是某一確定前車加速度a1下采取某一確定后車加速度a2的價值。獎勵是關(guān)于最終相隔距離l和后車加速度a2的一個函數(shù),在訓(xùn)練智能體時遵循的是ε-貪心策略,訓(xùn)練完成后,智能體遵循的是貪心策略。智能體訓(xùn)練示意圖如圖2所示。
貪心策略就是在任意狀態(tài)下智能體只選擇該狀態(tài)下Q(S,A)最大的動作,數(shù)學(xué)表達為
π(a|s)=arg maxQ(s,a)(5)
Π是智能體的策略集,Π(A|S)就是指在狀態(tài)S時智能體選擇動作A的策略。ε-貪心策略則是在任意狀態(tài)下以ε的概率隨機選擇該狀態(tài)下的動作,以1-ε的概率選擇該狀態(tài)下Q(S,A)最大的動作,數(shù)學(xué)表達為
之所以在訓(xùn)練和使用智能體時使用兩種不同的策略,是為了處理智能體的探索-利用困境。如果智能體一味地利用先前的經(jīng)驗,很容易因為前期的隨機性,導(dǎo)致最終陷入局部最優(yōu)。如果智能體一味地探索,在有限狀態(tài)空間下會花費大量時間,在無限狀態(tài)空間下會陷入死循環(huán)。所以在訓(xùn)練時遵循ε-貪心策略,既保證對經(jīng)驗的利用,又保留了一定的探索,減少智能體陷入局部最優(yōu)的概率。在最終訓(xùn)練完成后則遵循貪心策略,最大程度利用智能體的經(jīng)驗以獲取最大收益。
1.3 區(qū)間分塊Q學(xué)習(xí)算法
傳統(tǒng)Q學(xué)習(xí)算法適用于離散狀態(tài)空間問題,無法處理現(xiàn)實情況下的連續(xù)狀態(tài)空間問題。因為傳統(tǒng)Q學(xué)習(xí)中的Q表是一個固定大小的有限表格,這就要求傳統(tǒng)Q學(xué)習(xí)必須知道所有狀態(tài)信息與動作,才能將其一一填入Q表,進而加以訓(xùn)練。Q學(xué)習(xí)本質(zhì)是對Q表進行搜索迭代優(yōu)化,Q表搜索維度越小,Q學(xué)習(xí)收斂速度越快。傳統(tǒng)Q學(xué)習(xí)搜索維度數(shù)學(xué)表達為
d=m×n(7)
其中:d是Q學(xué)習(xí)的搜索維度;m是狀態(tài)空間下狀態(tài)的數(shù)量;n是動作空間下動作的數(shù)量。在連續(xù)狀態(tài)空間下,狀態(tài)的數(shù)量是無限的,即m趨于無窮大,所以d趨于無窮大,Q學(xué)習(xí)就無法收斂,問題無法解決。
本文提出一種區(qū)間分塊方法,以區(qū)間的形式表示狀態(tài)空間,將狀態(tài)空間內(nèi)連續(xù)的狀態(tài)按照一定的間隔劃入等長的離散區(qū)間塊中,以離散的區(qū)間塊代表這個區(qū)間內(nèi)所有連續(xù)的狀態(tài),則問題的搜索維度d*就簡化為
其中:m*是將狀態(tài)空間以區(qū)間形式表示的長度,i是區(qū)間劃分的間隔。不論狀態(tài)空間內(nèi)包含多少種狀態(tài),以區(qū)間形式劃分都可以將其變成離散的區(qū)間塊,問題的搜索維度就大大下降了。結(jié)合汽車剎車場景,后車只要保持與前車一致的剎車加速度即可保證安全剎車,所以當(dāng)前車加速度以區(qū)間形式劃分后,以區(qū)間的中值來劃分后車加速度,很符合安全剎車的先驗知識。具體Q表如表2所示。
表格中Q(1,1)代表第一種狀態(tài)(前車加速度處于0~i m/s2)下選取第一種動作(后車加速度變?yōu)?.5i m/s2)的價值。Q(1,1)越大,代表該狀態(tài)下選取該動作的價值越大,智能體就越傾向于在該狀態(tài)(前車加速度處于0~i m/s2)下選取該動作(后車加速度變?yōu)?.5i m/s2)。
Q(S,A)的大小由獎勵函數(shù)累加確定:
Q(s,a)=Q(s,a)+reward(a2)(9)
其中:reward(a2)是獎勵函數(shù),數(shù)學(xué)表達為
其中:l為兩車最終相隔距離(l<0代表兩車相撞,因此獎勵為負(fù),l>0時通過d-a2使后車加速度盡量減少);c是權(quán)重系數(shù),減小前期因隨機性探索產(chǎn)生的優(yōu)勢,使智能體盡可能多地探索,減少智能體陷入局部最優(yōu)的概率。區(qū)間分塊方法通過對前車加速度的區(qū)間劃分解決了連續(xù)狀態(tài)空間下搜索維度無限的問題,結(jié)合實際場景中汽車安全剎車的先驗知識,對后車加速度按前車加速度區(qū)間中值劃分,算法的整體流程如下所示。
輸入:兩車初始相隔距離s、兩車速度v、前車加速度a1。
輸出:后車加速度a2。
while 1 do
初始化Q表,stop=0
for i=0,episode do
初始化前車加速度
區(qū)間分塊前車加速度
純隨機探索
探索與利用
確定獎勵
end for
for i=1,number do
if 訓(xùn)練達標(biāo)
stop+=1
end if
end for
if stop==number
end if
end while
2 實驗與分析
2.1 實驗環(huán)境與總仿真
本文使用 PyCharm建立仿真系統(tǒng),全程在無網(wǎng)絡(luò)狀態(tài)下進行,驗證改進Q學(xué)習(xí)算法剎車的安全性、舒適性與連續(xù)性。將本文的改進Q學(xué)習(xí)算法與傳統(tǒng)Q學(xué)習(xí)算法在城市道路、城市快速路、高速公路三種情況下進行對比,特別指出,此處的傳統(tǒng)Q學(xué)習(xí)算法采用了與本文改進Q學(xué)習(xí)算法一致的獎勵設(shè)置,但是沒有使用區(qū)間分塊,目的是證明區(qū)間分塊方法對連續(xù)狀態(tài)空間問題的處理能力。
根據(jù)文獻[18]對人體震動和乘坐舒適性的大量評估研究,本文設(shè)定舒適加速度ac為2 m/s2,路面可提供的最大加速度為amax為5 m/s2。在0~5 m/s2的加速度區(qū)間內(nèi),i取1 m/s2則智能體不夠精確,i取0.01 m/s2則訓(xùn)練效率偏低,因此綜合智能體準(zhǔn)確性與訓(xùn)練效率,選取i為0.1m/s2。
本文對三種路面情況在各進行100萬次仿真測試,因為0~1 m/s2前車加速度過小,導(dǎo)致最終相隔距離遠超其余區(qū)間,所以將前車加速度在1~5 m/s2隨機產(chǎn)生。最終相隔距離大于0視為安全剎車,將數(shù)據(jù)整理如表3所示。
2.2 城市道路仿真
城市道路限速為60 km/h,對應(yīng)的安全跟車距離為60 m,因為城市事故多發(fā)生于超速時,所以本文使用s=72 m,v=20 m/s,即72 km/h兩車速度與72 m兩車初始相隔距離模擬城市道路緊急剎車情況。
圖3(a)是后車加速度折線圖,將前車加速度以0.1 m/s2為間隔從0~5 m/s2進行劃分,圓形點代表傳統(tǒng)Q學(xué)習(xí)曲線,五角星點代表改進Q學(xué)習(xí)曲線。由圖可知,改進Q學(xué)習(xí)與傳統(tǒng)Q學(xué)習(xí)均能控制加速度在舒適加速度內(nèi),證明改進Q學(xué)習(xí)算法剎車的舒適性。圖3(b)是改進Q學(xué)習(xí)下最終相隔距離圖,由圖可知,改進Q學(xué)習(xí)下最終相隔距離始終大于0,即汽車始終安全剎車。特別指出由于在0~1 m/s2區(qū)間前車加速度過小,導(dǎo)致最終距離遠超其余區(qū)間,所以將1~5 m/s2區(qū)間放大顯示,由放大圖可清晰看出,即使前車加速度取5 m/s2,也有100 m以上的最終相隔距離,證明改進Q學(xué)習(xí)算法剎車的安全性。圖3(c)是后車加速度散點圖,當(dāng)在0~5 m/s2按0.1 m/s2間隔均勻產(chǎn)生50個前車加速度時,因為設(shè)置在傳統(tǒng)Q學(xué)習(xí)離散點上,所以傳統(tǒng)Q學(xué)習(xí)與改進Q學(xué)習(xí)均能給出相應(yīng)后車加速度。當(dāng)在0~5 m/s2內(nèi)隨機產(chǎn)生50個前車加速度時,因為幾乎不可能在傳統(tǒng)Q學(xué)習(xí)離散點上,所以傳統(tǒng)Q學(xué)習(xí)無法處理,只能給出0 m/s2的后車加速度,而改進Q學(xué)習(xí)依然能給出相應(yīng)的后車加速度。所以由圖可知,通過區(qū)間分塊方法改進的Q學(xué)習(xí)可以有效處理連續(xù)前車加速度問題,而傳統(tǒng)Q學(xué)習(xí)則無法解決,證明了改進Q學(xué)習(xí)算法剎車的連續(xù)性。
2.3 城市快速路仿真
城市快速路限速在60~100 km/h,具體由路況決定,對應(yīng)的安全跟車距離為60~100 m,因為城市快速路超速較少,但高速行駛時事故發(fā)生的概率較高,所以本文使用s=90 m,v=25 m/s,即90 km/h兩車速度與90 m兩車初始相隔距離模擬城市快速路緊急剎車情況。圖4(a)是后車加速度折線圖,由圖可知,改進Q學(xué)習(xí)與傳統(tǒng)Q學(xué)習(xí)均能控制加速度在舒適加速度內(nèi),證明改進Q學(xué)習(xí)算法剎車的舒適性;圖4(b)是改進Q學(xué)習(xí)下最終相隔距離,由圖可知,改進Q學(xué)習(xí)下最終相隔距離始終大于0,即汽車始終安全剎車;圖4(c)是后車加速度散點圖,結(jié)論與上文類似。
2.4 高速公路仿真
高速公路限速在100~120 km/h,具體由車道決定,對應(yīng)的安全跟車距離為100~120 m,因為高速公路超速較少,且車輛大多低速行駛,所以本文使用s=108 m,v=30 m/s,即108 km/h兩車速度與108 m兩車初始相隔距離模擬高速公路緊急剎車情況。
圖5(a)是后車加速度折線圖,由圖9可知,改進Q學(xué)習(xí)與傳統(tǒng)Q學(xué)習(xí)均能控制加速度在舒適加速度內(nèi),證明改進Q學(xué)習(xí)算法剎車的舒適性;由圖5(b)可知,改進Q學(xué)習(xí)下最終相隔距離始終大于0,即汽車始終安全剎車;圖5(c)是后車加速度散點圖,結(jié)論與上文類似。
2.5 算法總結(jié)
總仿真實驗中使用改進Q學(xué)習(xí)算法對三種路面情況各進行了100萬次測試,安全率均為100%,體現(xiàn)了算法的安全性與穩(wěn)定性;平均相隔距離城市道路為303 m,城市快速路為421 m,高速公路為562 m,因為在高速情況下,即使微小的擾動也會產(chǎn)生巨大的影響,所以智能體提前預(yù)留更遠的平均相隔距離以應(yīng)對實際情況。平均剎車加速度城市道路為1.48 m/s2,城市快速路為1.65 m/s2,高速公路為1.80 m/s2,因為高速情況下過低的加速度無法保證安全剎車,智能體必須優(yōu)先確保安全性,再考慮舒適性。最終三種路面情況的平均剎車加速度仍符合舒適剎車加速度,體現(xiàn)了算法的安全性與舒適性。
三種道路仿真實驗中,結(jié)合圖3(a)、圖4(a)、圖5(a)可以看出:城市道路上,智能體始終將加速度控制在2 m/s2以下;城市快速路上當(dāng)前車剎車加速度大于4.5 m/s2時,智能體將加速度超出2 m/s2;高速公路上當(dāng)前車加速度大于3.5 m/s2時,智能體已將加速度超出2 m/s2。因為在城市道路的低速情況下,智能體始終可以保證安全剎車,隨著速度的增高,在城市快速路上,智能體會采取更高的剎車加速度以優(yōu)先確保安全性,在高速公路上更是如此。所以圖3(b)、圖4(b)、圖5(b)中智能體始終保持了安全的最終相隔距離:城市道路上均大于100 m;城市快速路上均大于150 m;高速公路上均大于200 m。其體現(xiàn)了該算法在優(yōu)先確保安全性的前提下盡可能地實現(xiàn)了舒適性。結(jié)合圖3(c)、圖4(c)、圖5(c)可以看出,傳統(tǒng)Q學(xué)習(xí)在面對連續(xù)前車加速度時無法處理,只能在離散前車加速度時處理,而改進Q學(xué)習(xí)均能處理,其體現(xiàn)了算法的連續(xù)性。
3 結(jié)束語
針對智能車輛安全舒適剎車問題,本文提出了一種基于區(qū)間分塊的Q學(xué)習(xí)算法,使用速度與兩車初始相隔距離對三種常見路面進行仿真,并與傳統(tǒng)Q學(xué)習(xí)算法進行了對比。仿真結(jié)果表明,提出的算法能夠在確保智能汽車安全剎車的同時實現(xiàn)較低的剎車加速度,能夠處理連續(xù)前車剎車加速度問題且無須網(wǎng)絡(luò)幫助。區(qū)間分塊能實現(xiàn)的前提是前車加速度這一狀態(tài)雖然無限,但是在狀態(tài)空間中均勻分布,所以離散的區(qū)間塊代表了一定大小的無限,如果狀態(tài)空間中的狀態(tài)并不均勻分布,就無法使用區(qū)間分塊方法。但在汽車剎車問題上,區(qū)間分塊方法仍具有泛用性。受限于實際情況,算法未能在真實車輛中進行測試,未來計劃進一步實際研究。
參考文獻:
[1]桂晶晶,吳芯洋,曾月,等.我國智能汽車發(fā)展現(xiàn)狀及前景[J].中國高新科技,2022(4):60-61.(Gui Jingjing,Wu Xinyang,Zeng Yue,et al.Status and prospect of the development of smart cars in China[J].China High and New Technology,2022(4):60-61.)
[2]趙子駿,段希冉.智能汽車安全風(fēng)險分析與應(yīng)對路徑[J].中國電子科學(xué)研究院學(xué)報,2022,17(8):822-827.(Zhao Zijun,Duan Xiran.Analysis of intelligent vehicle safety risks and their countermea-sures[J].Journal of China Academy of Electronics and Information Technology,2022,17(8):822-827.)
[3]肖凌云,胡文浩.智能汽車事故分析與安全應(yīng)對策略研究[J].人工智能,2022(4):88-96.(Xiao Lingyun,Hu Wenhao.Research on intelligent vehicle accident analysis and safety response strategies[J].AI-View,2022(4):88-96.)
[4]李百明.汽車追尾預(yù)警系統(tǒng)設(shè)計[J].機電技術(shù),2015(6):126-127,137.(Li Baiming.Design of automobile rear end warning system[J].Mechanical & Electrical Technology,2015(6):126-127,137.)
[5]Mamat M ,Ghani M N.Fuzzy logic controller on automated car braking system[C]//Proc of IEEE International Conference on Control and Automation.Piscataway,NJ:IEEE Press,2009:2371-2375.
[6]Ariyanto M,Haryadi D G,Munadi M,et al.Development of low-cost autonomous emergency braking system for an electric car[C]//Proc of the 5th International Conference on Electric Vehicular Technology.Piscataway,NJ:IEEE Press,2018:167-171.
[7]黃志芳,宋世杰,陳澤銳,等.汽車智能防撞系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2020,10(5):67-69.(Huang Zhifang,Song Shijie,Chen Zerui,et al.Intelligent collision prevention system for automobiles[J].Internet of Things Technologies,2020,10(5):67-69.)
[8]黃志清,曲志偉,張吉,等.基于深度強化學(xué)習(xí)的端到端無人駕駛決策[J].電子學(xué)報,2020,48(9):1711-1719.(Huang Zhiqing,Qu Zhiwei,Zhang Ji,et al.End-to-end autonomous driving decision based on deep reinforcement learning[J].Acta Electronica Sinica,2020,48(9):1711-1719.)
[9]Silver D,Huang A,Maddison C J,et al.Mastering the game of go with deep neural networks and tree search[J].Nature,2016,529(7587):484.
[10]Sutton R S,Barto A G.Reinforcement learning:an introduction[M].2nd ed.Cambridge,CA:MIT Press,2018.
[11]王揚,陳智斌,吳兆蕊,等.強化學(xué)習(xí)求解組合最優(yōu)化問題的研究綜述[J].計算機科學(xué)與探索,2022,16(2):261-279.(Wang Yang,Chen Zhibin,Wu Zhaorui,et al.Review of reinforcement lear-ning for combinatorial optimization problem[J].Journal of Frontiers of Computer Science and Technology,2022,16(2):261-279.)
[12]Richter J D,Calix A R.Using double deep Q-learning to learn attitude control of fixed-wing aircraft[C]//Proc of the 16th International Conference on Signal-Image Technology & Internet-Based Systems.Pisca-taway,NJ:IEEE Press,2022:646-651.
[13]尹燕莉,張鑫新,潘小亮,等.基于等效因子的Q學(xué)習(xí)燃料電池汽車能量管理策略[J].汽車安全與節(jié)能學(xué)報,2022,13(4):785-795.(Yin Yanli,Zhang Xinxin,Pan Xiaoliang,et al.Equivalent factor of energy management strategy for fuel cell hybrid electric vehicles based on Q-learning[J].Journal of Automotive Safety and Energy,2022,13(4):785-795.)
[14]Qu Hong,Wei Xiaolong,Sun Chuhan,et al.Research on UAV air combat maneuver decision-making based on improved Q-learning algorithm[C]// Proc of the 5th IEEE International Conference on Information Systems and Computer Aided Education.Piscataway,NJ:IEEE Press,2022:55-58.
[15]Wu Zhaohui,Liu Yanfei,Pan Gang.A smart car control model for brake comfort based on car following[C]//Proc of IEEE Conference on Intelligent Transportation Systems.Piscataway,NJ:IEEE Press,2009:42-46.
[16]杜康豪,宋睿卓,魏慶來.強化學(xué)習(xí)在機器博弈上的應(yīng)用綜述[J].控制工程,2021,28(10):1998-2004.(Du Kanghao,Song Ruizhuo,Wei Qinglai.Review of reinforcement learning applications in machine games[J].Control Engineering of China,2021,28(10):1998-2004.)
[17]Lyu Le,Shen Yang,Zhang Sicheng.The advance of reinforcement learning and deep reinforcement learning[C]//Proc of IEEE International Conference on Electrical Engineering,Big Data and Algorithms.Piscataway,NJ:IEEE Press,2022:644-648.
[18]Janeway N R.Vehicle vibration limits to fit the passenger[J].SAE J,1948,56(8):48-49.
(上接第182頁)
[12]Diehl P U,Pedroni B U,Cassidy A,et al.TrueHappiness:neuromorphic emotion recognition on TrueNorth[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2016:4278-4285.
[13]Han Bing,Srinivasan G,Roy K.RMP-SNN:residual membrane potential neuron for enabling deeper high-accuracy and low-latency spiking neural network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:13558-13567.
[14]Sengupta A,Ye Yuting,Wang R, et al.Going deeper in spiking neural networks:VGG and residual architectures[J].Frontiers in Neuroscience,2019,13.https://doi.org/10.3389/fnins.2019.00095.
[15]Kim S,Park S,Na B,et al.Spiking-YOLO:spiking neural network for energy-efficient object detection[C]//Proc of the 34th AAAI Confe-rence on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:11270-11277.
[16]Ding Jianhao,Yu Zhaofei,Tian Yonghong,et al.Optimal ANN-SNN conversion for fast and accurate inference in deep spiking neural networks[C]//Proc of the 30th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:2328-2336.
[17]Li Yuhang,Deng Shikuang,Dong Xin,et al.A free lunch from ANN:towards efficient,accurate spiking neural networks calibration[C]//Proc of the 38th International Conference on Machine Learning.2021:6316-6325.
[18]Bu Tong,F(xiàn)ang Wei,Ding Jianhao,et al.Optimal ANN-SNN conversion for high-accuracy and ultra-low-latency spiking neural networks[C]//Proc of International Conference on Learning Representations.2022:1-19.
[19]Cubuk E D,Zoph B,Mane D,et al.AutoAugment:learning augmentation strategies from data[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:113-123.
[20]George M,Roger M.MIT-BIH arrhythmia database[DB/OL].(2005-02-24)[2023-07-15].https://www.physionet.org/content/mitdb/1.0.0/-31.
[21]張馳,唐鳳珍.基于自適應(yīng)編碼的脈沖神經(jīng)網(wǎng)絡(luò)[J].計算機應(yīng)用研究,2022,39(2):593-597.(Zhang Chi,Tang Fengzhen.Self-adaptive coding for spiking neural network[J].Application Research of Computers,2022,39(2):593-597.)
[22]Rathi N,Roy K.DIET-SNN:a low-latency spiking neural network with direct input encoding and leakage and threshold optimization[J].IEEE Trans on Neural Networks and Learning Systems,2023,34(6):3174- 3182.
[23]Horowitz M.1.1 computings energy problem(and what we can do about it)[C]// Proc of IEEE International Solid-State Circuits Conference Digest of Technical Papers.Piscataway,NJ:IEEE Press,2014:10-14.
[24]Deng Shikuang,Gu Shi.Optimal conversion of conventional artificial neural networks to spiking neural networks[C]//Proc of International Conference on Learning Representations.2021:1-14.
[25]Yan Zhanglu,Zhou Jun,Wong W F.Near lossless transfer learning for spiking neural networks[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:10577-10584.