龔建偉,龔乘,林云龍,李子睿,2,呂超
(1. 北京理工大學(xué) 機(jī)械與車輛學(xué)院, 北京 100081;2. 代爾夫特理工大學(xué), 荷蘭, 代爾夫特 2628CN)
智能車輛是集環(huán)境感知、行為決策、規(guī)劃與控制等多項(xiàng)功能于一體的綜合智能系統(tǒng),涵蓋了機(jī)械、控制、傳感器技術(shù)、信號(hào)處理、模式識(shí)別、人工智能和計(jì)算機(jī)技術(shù)等多學(xué)科知識(shí). 我國(guó)智能車輛相關(guān)技術(shù)的研究近年來取得長(zhǎng)足的進(jìn)展,能夠滿足智能車輛在小范圍、簡(jiǎn)單城區(qū)環(huán)境下的低速行駛要求,以及城際公路簡(jiǎn)單環(huán)境中的高速行駛需求. 然而,要實(shí)現(xiàn)在城區(qū)與越野等動(dòng)態(tài)復(fù)雜交通環(huán)境下的智能車輛自主行駛,仍有很多技術(shù)亟待提升與完善. 其中,智能車輛運(yùn)動(dòng)規(guī)劃與控制技術(shù),作為智能車輛主要關(guān)鍵技術(shù)之一,在復(fù)雜動(dòng)態(tài)真實(shí)場(chǎng)景中的應(yīng)用仍面臨較大挑戰(zhàn).
目前臨床上針對(duì)粘液腺囊腫的常用治療方法除傳統(tǒng)的手術(shù)切除外,還有液氮冷凍、微波切除、碘制劑注射、二氧化碳激光等。各種治療方法都有著各自的優(yōu)點(diǎn)與不足。
智能車輛的規(guī)劃與控制技術(shù)主要包含智能車輛運(yùn)動(dòng)規(guī)劃與智能車輛運(yùn)動(dòng)控制兩個(gè)模塊. 其中,運(yùn)動(dòng)規(guī)劃技術(shù)的主要作用是根據(jù)傳感器探測(cè)的周圍環(huán)境信息與對(duì)場(chǎng)景的理解,規(guī)劃出一條從起點(diǎn)到終點(diǎn)的安全、平緩、可行的最優(yōu)運(yùn)動(dòng)軌跡. 運(yùn)動(dòng)規(guī)劃模塊得到的路徑、速度等規(guī)劃信息將傳遞到控制模塊,而運(yùn)動(dòng)控制模塊再根據(jù)當(dāng)前周圍環(huán)境和位移、姿態(tài)、速度等環(huán)境知識(shí)按照駕駛?cè)蝿?wù)需求,并分別向油門、制動(dòng)及轉(zhuǎn)向等執(zhí)行系統(tǒng)發(fā)出解算的控制指令,進(jìn)而控制車輛的姿態(tài)與行為,使得車輛能夠盡量精確地跟蹤運(yùn)動(dòng)規(guī)劃模塊得到的軌跡.
傳統(tǒng)規(guī)劃與控制算法通過構(gòu)建規(guī)劃與控制多層框架在相對(duì)較低的速度和靜態(tài)環(huán)境中已經(jīng)得到較為成熟的應(yīng)用,但在應(yīng)對(duì)復(fù)雜動(dòng)態(tài)環(huán)境方面仍存在較大局限性. 傳統(tǒng)運(yùn)動(dòng)規(guī)劃方法通常包括基于搜索的方法、基于采樣的方法、基于優(yōu)化的方法三類,但其分別在路徑搜索成本、路徑采樣結(jié)果最優(yōu)性、模型非線性等方面存在一定的局限性,同時(shí)傳統(tǒng)運(yùn)動(dòng)規(guī)劃方法在應(yīng)對(duì)動(dòng)態(tài)性較高的場(chǎng)景時(shí)仍面臨極大挑戰(zhàn).對(duì)于運(yùn)動(dòng)控制方法,在相對(duì)較低的速度下,通常基于車輛的運(yùn)動(dòng)學(xué)模型設(shè)計(jì)控制策略,其中比例-積分-導(dǎo)數(shù)(PID)控制[1]、反饋線性化與模型預(yù)測(cè)控制(model predictive control,MPC)[2]都是實(shí)際工程中常用的方法. 然而,在高速下操作或執(zhí)行激進(jìn)機(jī)動(dòng)時(shí),這些常用方法則存在較大的誤差因而難以應(yīng)用. 非線性最優(yōu)控制[3-4]、MPC[5]或反饋-前饋控制[6]在智能車輛高速穩(wěn)定規(guī)劃控制中取得了一定的成果,然而其存在的實(shí)時(shí)性、調(diào)參難度、以及場(chǎng)景適應(yīng)性問題則限制了其應(yīng)用范圍.
在提高智能車輛的智能化程度方面,機(jī)器學(xué)習(xí)技術(shù)應(yīng)用越來越廣泛. 近年來,許多研究者開始關(guān)注結(jié)合機(jī)器學(xué)習(xí)的規(guī)劃控制算法或利用機(jī)器學(xué)習(xí)框架替代傳統(tǒng)規(guī)劃控制框架以提升智能車輛的規(guī)劃控制性能. 例如,許多互聯(lián)網(wǎng)企業(yè)以及院校利用深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)[7-8]、模仿學(xué)習(xí)(imitation learning, IL)[9-11]等機(jī)器學(xué)習(xí)方法,設(shè)計(jì)了端對(duì)端(End-to-End)的整套規(guī)劃控制系統(tǒng),實(shí)現(xiàn)了由感知層的得到的數(shù)據(jù)信息直接獲得最終的控制指令等功能. 另一方面,部分研究者則利用逆強(qiáng)化學(xué)習(xí)(inverse reinforcement learning,IRL)[12]、深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DPNN)[13]、自適應(yīng)神經(jīng)網(wǎng)絡(luò)(adaptive neural network,ANN)[14]等機(jī)器學(xué)習(xí)方法對(duì)現(xiàn)有規(guī)劃與控制技術(shù)進(jìn)行模塊化替代或改進(jìn),進(jìn)而提升傳統(tǒng)規(guī)劃控制方法的效率與自適應(yīng)性,其中的一些方法還在高速越野等極端工況中取得了較為優(yōu)異的測(cè)試表現(xiàn)[9].
本文對(duì)國(guó)內(nèi)外基于機(jī)器學(xué)習(xí)的規(guī)劃控制方法的研究現(xiàn)狀進(jìn)行回顧與總結(jié). 除了選擇合適的學(xué)習(xí)范式與學(xué)習(xí)策略外,環(huán)境知識(shí)的表征方式也將極大影響智能車輛規(guī)劃與控制策略學(xué)習(xí)效果. 合理、有效的環(huán)境知識(shí)表征是基于機(jī)器學(xué)習(xí)的規(guī)劃與控制算法的學(xué)習(xí)前提,通過選擇相關(guān)性強(qiáng)的環(huán)境感知?jiǎng)屿o態(tài)數(shù)據(jù),減低數(shù)據(jù)輸入維度的同時(shí)保證環(huán)境信息的完備性,進(jìn)而保證策略學(xué)習(xí)效率并降低策略學(xué)習(xí)成本. 進(jìn)一步地,利用場(chǎng)景表征信息,基于機(jī)器學(xué)習(xí)的規(guī)劃與控制方法將應(yīng)用不同的機(jī)器學(xué)習(xí)范式對(duì)規(guī)劃、控制策略進(jìn)行學(xué)習(xí),進(jìn)而最終保證智能車輛安全、高效的行駛表現(xiàn).
在結(jié)合預(yù)測(cè)模型相關(guān)的控制方法研究方面,多倫多大學(xué)CHRIS J. OSTAFEW 等[57]提出了一種用于自主移動(dòng)機(jī)器人的基于學(xué)習(xí)算法的非線性MPC(LB-NMPC)算法,以減少沿著參考路徑的重復(fù)遍歷的路徑跟蹤誤差,該系統(tǒng)可以從通用的先驗(yàn)車輛模型開始,隨后根據(jù)經(jīng)驗(yàn)的學(xué)習(xí)以減少車輛和軌跡特定的路徑跟蹤誤差. 佐治亞理工PAN 等[58]通過訓(xùn)練一個(gè)能將原始高維的觀測(cè)結(jié)果映射到連續(xù)轉(zhuǎn)向和油門命令的深度神經(jīng)網(wǎng)絡(luò)控制策略,實(shí)現(xiàn)了對(duì)MPC 器的模擬. 多倫多大學(xué)的MCKINNON 等[59]提出了一種隨機(jī)MPC( stochastic model predictive control, SMPC)方法,該方法假設(shè)平臺(tái)動(dòng)力學(xué)控制過程為一個(gè)未知的非線性函數(shù)表征,通過學(xué)習(xí)這個(gè)未知函數(shù)和它的逆函數(shù),進(jìn)而對(duì)控制輸入進(jìn)行優(yōu)化與表征,實(shí)現(xiàn)了更準(zhǔn)確且實(shí)時(shí)的控制.
鄂北崗地是湖北省小麥主產(chǎn)區(qū),生態(tài)條件比較適合發(fā)展小麥生產(chǎn),是湖北省小麥單位面積產(chǎn)量最高的區(qū)域,也是湖北省優(yōu)質(zhì)專用小麥生產(chǎn)基地[2]。近年來,當(dāng)?shù)剞r(nóng)業(yè)技術(shù)部門結(jié)合農(nóng)業(yè)農(nóng)村部小麥高產(chǎn)創(chuàng)建活動(dòng),試驗(yàn)示范了小麥規(guī)范化播種、小麥測(cè)土配方施肥、氮肥后移、病蟲害統(tǒng)防統(tǒng)治集成高產(chǎn)栽培技術(shù)[3]等,提高了小麥生產(chǎn)水平,先后小面積創(chuàng)造了7 705.50、7 957.95 和 8 143.50 kg/hm2的湖北省小麥高產(chǎn)新記錄,揭示了該地區(qū)小麥生產(chǎn)的產(chǎn)量潛力[4]。
圖1 本文各節(jié)邏輯架構(gòu)Fig. 1 Logic framework of this paper
強(qiáng)化學(xué)習(xí)主要通過智能體與環(huán)境互動(dòng)并獲得反饋評(píng)價(jià)的機(jī)制對(duì)策略進(jìn)行學(xué)習(xí),其類似于人類通過“試錯(cuò)”進(jìn)行某一任務(wù)的學(xué)習(xí). 智能體在某一特定環(huán)境下進(jìn)行不同的行為行動(dòng),依據(jù)環(huán)境的特性或特定規(guī)則,將得到不同的環(huán)境反饋,通過接收積極的反饋(如人類認(rèn)知中的“獎(jiǎng)勵(lì)”)與消極的反饋(如人類認(rèn)知中的“懲罰”),使得智能體在與環(huán)境的交互中能夠?qū)W習(xí)到在特定的環(huán)境下應(yīng)該采取怎樣的行動(dòng)是符合期待獎(jiǎng)勵(lì)的,而應(yīng)該避免哪些行動(dòng)從而規(guī)避懲罰.環(huán)境的反饋在強(qiáng)化學(xué)習(xí)中,一般通過設(shè)置獎(jiǎng)勵(lì)函數(shù)(reward function)來實(shí)現(xiàn). 具體地,強(qiáng)化學(xué)習(xí)可通過馬爾可夫決策過程來進(jìn)行數(shù)學(xué)描述. 馬爾可夫決策過程可通過狀態(tài)空間S(state space),狀態(tài)空間中所有可能的行動(dòng)A(Action),狀態(tài)轉(zhuǎn)移概率P以及獎(jiǎng)勵(lì)函數(shù)R(reward function),4 個(gè)參數(shù)進(jìn)行描述. 首先,智能體觀察環(huán)境狀態(tài)空間S 中的一系列狀態(tài). 根據(jù)所觀察的狀態(tài),智能體從可能的行動(dòng)集合A中選擇一個(gè)行動(dòng)并執(zhí)行該動(dòng)作,由于智能體的行動(dòng)對(duì)環(huán)境是產(chǎn)生影響的,環(huán)境狀態(tài)依據(jù)此變化以及相應(yīng)的狀態(tài)轉(zhuǎn)移概率更新環(huán)境狀態(tài). 同時(shí),智能體將收到獎(jiǎng)勵(lì)函數(shù)的反饋,函數(shù)的大小反映對(duì)智能體在觀察狀態(tài)下執(zhí)行此動(dòng)作的評(píng)價(jià)優(yōu)劣. 而智能體的學(xué)習(xí)目標(biāo)就是通過對(duì)某一規(guī)則映射的學(xué)習(xí),使得累積的獎(jiǎng)勵(lì)函數(shù)最大化,以此實(shí)現(xiàn)智能體與環(huán)境互動(dòng)并獲取反饋,最終實(shí)現(xiàn)任務(wù)的學(xué)習(xí).
基于環(huán)境、場(chǎng)景的知識(shí)表征,現(xiàn)有大多數(shù)基于機(jī)器學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃與控制方法常使用模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)兩種學(xué)習(xí)范式進(jìn)行規(guī)劃控制算法的學(xué)習(xí). 本節(jié)將分別介紹模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí).
模仿學(xué)習(xí)也稱為示教學(xué)習(xí)(learn from demonstration),其本質(zhì)是將先驗(yàn)知識(shí)通過知識(shí)表征提供給學(xué)習(xí)模型,使模型能夠模仿人類專家的行為. 通常地,在模仿學(xué)習(xí)中,智能體通過尋求一個(gè)由專家演示的訓(xùn)練數(shù)據(jù)集的最佳使用方式來學(xué)習(xí)一定任務(wù)規(guī)則,并盡可能執(zhí)行與專家相近的行為[24],從而達(dá)到“機(jī)器代替人”的學(xué)習(xí)目的.
忻州老干部工作創(chuàng)新很多,特色鮮明,實(shí)施開展的“人生設(shè)計(jì)”“精神富養(yǎng)”“樂齡行動(dòng)計(jì)劃”,緊跟時(shí)代發(fā)展步伐,契合中央倡導(dǎo)的“為黨的事業(yè)增添正能量”精神,體現(xiàn)了工作的前瞻性和實(shí)效性。
在基于模仿學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃與控制方法中,可以通過將車輛復(fù)雜的運(yùn)動(dòng)分解為運(yùn)動(dòng)基元(motion primitives, MPs),進(jìn)而在基元層面進(jìn)行規(guī)劃與控制策略的學(xué)習(xí). 例如,從未標(biāo)注的駕駛數(shù)據(jù)中提取出運(yùn)動(dòng)基元,并將學(xué)習(xí)到的運(yùn)動(dòng)基元與一個(gè)預(yù)先建立的基元庫(kù)進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)了使用動(dòng)態(tài)移動(dòng)基元來表征駕駛員軌跡的目的[25-26].
此外,也可以采用擴(kuò)充訓(xùn)練數(shù)據(jù)的方式提高模型的模仿學(xué)習(xí)表現(xiàn),并在損失函數(shù)的設(shè)計(jì)中加入關(guān)注事件的損失項(xiàng),以此提高模型性能. 例如,谷歌大腦(Google Brain)及Waymo 公司的BANSAL 等[27]則將感知模塊得到的數(shù)據(jù)與作為專家演示的駕駛行為數(shù)據(jù)進(jìn)行融合,進(jìn)而基于融合的數(shù)據(jù)對(duì)車輛的駕駛策略進(jìn)行學(xué)習(xí). 同時(shí),該研究還對(duì)模仿學(xué)習(xí)的損失函數(shù)增加了對(duì)應(yīng)處理,如碰撞或駛出道路的不良駕駛情況事件的損失項(xiàng),避免模型學(xué)習(xí)人類的錯(cuò)誤駕駛經(jīng)驗(yàn). 類似地,百度自動(dòng)駕駛技術(shù)部門的ZHOU 等[28]也在模仿學(xué)習(xí)的損失函數(shù)中引入用于處理碰撞等因素的損失項(xiàng). 此外,他們還設(shè)計(jì)了一種用于數(shù)據(jù)擴(kuò)增的反饋合成器,使得模型可獲得更多先前未曾學(xué)習(xí)過的不同環(huán)境中的駕駛數(shù)據(jù),通過積累更豐富的駕駛經(jīng)驗(yàn),進(jìn)而提高運(yùn)動(dòng)規(guī)劃策略學(xué)習(xí)的性能.
?(xA -xB) (xA +xB)+(yA- yB) (yA + yB-4)=0?x0+k(y0-2)=0① ,點(diǎn) M 在 直 線 AB上:KMP=(y0-1)/( x0-1)=k②,OM=OP: OM=√(x02+y02)=OP=√2③,聯(lián)立①②③三個(gè)方程式,解出x0,y0,然后再根據(jù)M、P、O三點(diǎn)坐標(biāo)求出△OPM的面積=4/5。但這樣解題會(huì)消耗大量時(shí)間,而且過程中極易出現(xiàn)計(jì)算錯(cuò)誤。
另一類模仿學(xué)習(xí)的方式則是通過訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)來替代傳統(tǒng)運(yùn)動(dòng)規(guī)劃與控制模塊功能或是使用模仿學(xué)習(xí)方法與傳統(tǒng)規(guī)控算法結(jié)合的形式,實(shí)現(xiàn)更加高效的規(guī)劃與控制策略學(xué)習(xí). 例如,佐治亞理工學(xué)院的PAN 等[9],通過訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)來模仿學(xué)習(xí)一個(gè)裝備有高級(jí)傳感器的模型預(yù)測(cè)控制器的控制策略,最終神經(jīng)網(wǎng)絡(luò)生成一套可由高維度感知數(shù)據(jù)到連續(xù)方向盤轉(zhuǎn)角以及節(jié)氣門開度的控制指令的映射方法. 該方法的優(yōu)勢(shì)在于不需要對(duì)狀態(tài)進(jìn)行估計(jì),也無需使用實(shí)時(shí)規(guī)劃算法就可實(shí)現(xiàn)對(duì)車輛的規(guī)劃與控制. 美國(guó)波士頓大學(xué)的ZHANG等[29]通過轉(zhuǎn)換主車所觀察到的其他車輛信息視角,利用其他車輛的駕駛演示來學(xué)習(xí)駕駛策略,從而提高了場(chǎng)景數(shù)據(jù)的利用率. 卡耐基梅隆大學(xué)的RHINEHART 等[30]則使用模仿學(xué)習(xí)結(jié)合目標(biāo)導(dǎo)向式規(guī)劃算法,以期望駕駛行為的概率預(yù)測(cè)模型規(guī)劃出解釋性強(qiáng)的專家式軌跡,以實(shí)現(xiàn)到達(dá)指定的目標(biāo)的軌跡規(guī)劃.
此外, 伊朗謝里夫大學(xué)的SAMSAMI 等[10]提出結(jié)合因果分析的模仿學(xué)習(xí)模型(causal imitative model,CIM)來處理基于模仿學(xué)習(xí)的自動(dòng)駕駛車輛算法所產(chǎn)生的不利慣性與碰撞問題. 大部分傳統(tǒng)的模仿學(xué)習(xí)范式是基于知識(shí)表征、演示直接學(xué)習(xí)任務(wù),而該研究則將模型輸入分解為潛在的因果變量,在傳統(tǒng)的模仿學(xué)習(xí)框架中加入因果分析的過程,最終利用因果分析得到的變量進(jìn)行運(yùn)動(dòng)規(guī)劃,避免了由于車輛慣性與碰撞引起的問題. 還有一類模仿學(xué)習(xí)與本文下一節(jié)介紹的強(qiáng)化學(xué)習(xí)方法有關(guān)-逆強(qiáng)化學(xué)習(xí).IRL 一方面與環(huán)境交互另一方面從專家演示中獲得經(jīng)驗(yàn),反向去估計(jì)獎(jiǎng)勵(lì)函數(shù),基于所估計(jì)的獎(jiǎng)勵(lì)函數(shù),再通過強(qiáng)化學(xué)習(xí)的方式來對(duì)模型進(jìn)行優(yōu)化.通過對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行學(xué)習(xí),IRL 能夠避免人工設(shè)定獎(jiǎng)勵(lì)函數(shù)可能帶來的偏差.
環(huán)境知識(shí)表征指的是對(duì)感知得到的數(shù)據(jù)信息進(jìn)行知識(shí)理解與表征。作為連接感知信息與規(guī)劃控制知識(shí)的橋梁,環(huán)境表征模塊將為規(guī)劃控制模塊提供可用的信息. 在環(huán)境知識(shí)表征中,對(duì)于交通場(chǎng)景的理解是其中重要的一個(gè)組成部分. 許多研究致力于實(shí)現(xiàn)對(duì)場(chǎng)景中交通參與者的行為進(jìn)行理解與預(yù)測(cè)(如車輛與行人的軌跡預(yù)測(cè)、駕駛意圖預(yù)測(cè)等). 例如文獻(xiàn)[15]使用圖神經(jīng)網(wǎng)絡(luò)對(duì)行人與車輛的交互行為進(jìn)行建模,提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的分層行為預(yù)測(cè)方法. 此外,文獻(xiàn)[16]還提出了基于遷移學(xué)習(xí)(transfer learning, TF)的駕駛行為建模方法,在數(shù)據(jù)有限的情況下實(shí)現(xiàn)了模型對(duì)不同駕駛員間駕駛行為的遷移學(xué)習(xí). 來自西班牙巴勃羅·德·奧拉維德大學(xué)的PEREZ 等[17]等研究者從人類演示中學(xué)習(xí)了一種使用卷積神經(jīng)網(wǎng)絡(luò)的軌跡預(yù)測(cè)器,并將預(yù)測(cè)的路徑作為粗略的代價(jià)地圖來校正RRT 規(guī)劃器. 德國(guó)弗萊堡大學(xué)的KRETZSCHMAR 等[12]使用最大熵概率分布來對(duì)具有社會(huì)行為的智能體軌跡進(jìn)行建模,并結(jié)合軌跡交互建模與道路幾何結(jié)構(gòu)作為輸入進(jìn)行路徑規(guī)劃. 在上述方法中,提升駕駛行為的預(yù)測(cè)精度是許多新方法的研究方向,除了設(shè)計(jì)不同的網(wǎng)絡(luò)與機(jī)制來更好地表征各交通參與者的行為,還有一類方法則通過直接應(yīng)用機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)(ensemble learning)范式提升環(huán)境知識(shí)表征模型的表現(xiàn). 例如南陽理工的XING等[18],通過集成學(xué)習(xí),提高了基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)駕駛行為意圖(如換道意圖、車道保持意圖)的預(yù)測(cè)表現(xiàn). 類似的,LI 等[19]則提出了一種基于集成學(xué)習(xí)框架,用于提高交互場(chǎng)景中的軌跡預(yù)測(cè)模型的表現(xiàn). 此外,KIM 等[20]使用逆強(qiáng)化學(xué)習(xí)方法,在傳統(tǒng)的規(guī)劃控制系統(tǒng)中,基于IRL 在提取出的特征中學(xué)習(xí)局部代價(jià)函數(shù),使得局部路徑規(guī)劃能夠使用學(xué)習(xí)的代價(jià)函數(shù)來滿足規(guī)劃問題中的人車交互約束. HENRY等[21],同樣使用IRL 來學(xué)習(xí)代價(jià)函數(shù)表征,使得智能車輛具備在車流中無碰撞移動(dòng)、避開所處交通場(chǎng)景的擁擠區(qū)域的能力. 基于機(jī)器學(xué)習(xí)的場(chǎng)景表征,還被用于遵循社會(huì)交互之外的其他導(dǎo)航風(fēng)格. 例如,STEIN 等[22],將子目標(biāo)定義在已知和未知空間的邊界上,并利用神經(jīng)網(wǎng)絡(luò)從全局目標(biāo)的某個(gè)子目標(biāo)學(xué)習(xí)機(jī)動(dòng)成本,如到達(dá)該子目標(biāo)后陷入死路的概率,從而提升智能車輛機(jī)動(dòng)效率. 又如WIGNESS 等[23],利用人類演示和最大熵IRL 學(xué)習(xí)局部代價(jià)地圖,使地面平臺(tái)能夠模仿人類演示者的導(dǎo)航風(fēng)格.
對(duì)“法律術(shù)語”的內(nèi)部特征,學(xué)者們的定義繁簡(jiǎn)不一,角度也不盡一致?!胺梢饬x”內(nèi)涵比較寬泛,包含了“表達(dá)概念”“指稱現(xiàn)象和本質(zhì)”這兩種定義,也為較多學(xué)者采納。此外,許多學(xué)者的定義中都包含了法律語境或法律語體,那么從邏輯上反推,如果同一詞語在非法律語境或語體下,則不必遵照其法律意義,也不必遵照其審定的譯名。
針對(duì)固定目標(biāo)的端對(duì)端規(guī)劃控制,瑞士蘇黎世理工的PFEIFFER 等[43]在2017 年提出了一種將原始激光雷達(dá)數(shù)據(jù)以及固定目標(biāo)位置映射到低級(jí)別速度指令的端對(duì)端神經(jīng)網(wǎng)絡(luò)方法,結(jié)合傳統(tǒng)全局與局部控制的模仿學(xué)習(xí)方法來訓(xùn)練網(wǎng)絡(luò),實(shí)現(xiàn)固定目標(biāo)無碰撞規(guī)劃. 為提高算法的適應(yīng)能力(如改變目的地、行駛環(huán)境),德國(guó)弗萊堡大學(xué)的ZHANG 等[35]在2017年結(jié)合深度強(qiáng)化學(xué)習(xí)方法,通過使用深度卷積神經(jīng)網(wǎng)絡(luò)在離散動(dòng)作空間(動(dòng)作包含停留、左轉(zhuǎn)、右轉(zhuǎn)以及前進(jìn)動(dòng)作)上執(zhí)行導(dǎo)航任務(wù),在仿真與實(shí)物實(shí)驗(yàn)中均取得了較好的效果. 同樣,來自弗萊堡大學(xué)的ZHELO 等[36],在2018 年同樣利用深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練模型進(jìn)行無先驗(yàn)地圖知識(shí)的規(guī)劃控制,他們通過設(shè)置內(nèi)在獎(jiǎng)勵(lì)函數(shù)獲得更快的學(xué)習(xí)速率,較大提升了模型訓(xùn)練效率. 此外,近年來還有許多研究者提出針對(duì)“多智能體”(muti-agents)、固定目標(biāo)的端對(duì)端機(jī)器學(xué)習(xí)技術(shù). 如麻省理工學(xué)院的CHEN 等[37]使用DRL 訓(xùn)練可直接將激光雷達(dá)信息及目標(biāo)位置映射至低級(jí)別導(dǎo)航信息的神經(jīng)網(wǎng)絡(luò),該算法考慮環(huán)境中多個(gè)智能體移動(dòng)的不確定性(周邊的移動(dòng)機(jī)器人),可在有多智能體參與的動(dòng)態(tài)環(huán)境下為固定目的地進(jìn)行無碰撞的速度、路徑規(guī)劃.
相比于端對(duì)端的方法,模塊化方法具備更好地解釋性同時(shí)具備更強(qiáng)的實(shí)用性,在許多場(chǎng)景已取得實(shí)際應(yīng)用. 牛津大學(xué)MARKUS WULFMEIER 等[44]設(shè)計(jì)了一個(gè)基于最大熵的非線性逆向強(qiáng)化學(xué)習(xí)生成同時(shí)滿足人類駕駛員習(xí)慣與系統(tǒng)設(shè)定誤差要求的運(yùn)動(dòng)規(guī)劃框架,其中使用完全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)來代表隱藏在成本函數(shù)下的人類駕駛員的駕駛行為,并采用大量實(shí)車數(shù)據(jù)驗(yàn)證了該方法的可行性. 類似的,加州大學(xué)伯克利分校DOROSA 等[45]也采用IRL 來獲取人機(jī)交互復(fù)雜系統(tǒng)下人類駕駛員規(guī)劃的價(jià)值函數(shù),當(dāng)智能車輛在相似環(huán)境下行駛時(shí),通過采用此價(jià)值函數(shù)可逆向規(guī)劃出類似該人類駕駛員的操作軌跡. 湖南科技大學(xué)肖浩等[46]基于預(yù)測(cè)后再規(guī)劃的思想提出面向?qū)嶋H環(huán)境的無人車駕駛系統(tǒng)框架,并結(jié)合深度Q 學(xué)習(xí)和深度預(yù)測(cè)網(wǎng)絡(luò)技術(shù)提出一種快速全局路徑規(guī)劃方法,減少了車輛的行車時(shí)間. 上海理工大學(xué)劉磊[47]等設(shè)計(jì)了一種基于生存理論的局部路徑規(guī)劃策略學(xué)習(xí)方法,實(shí)現(xiàn)了快速且高精度的路徑優(yōu)化. 文獻(xiàn)[25]提出了一種融合運(yùn)動(dòng)基元的路徑規(guī)劃算法,通過機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)對(duì)人類駕駛員的駕駛經(jīng)驗(yàn)學(xué)習(xí)并以基元形式表征,再對(duì)基元進(jìn)行平滑組合,實(shí)現(xiàn)基于類人經(jīng)驗(yàn)的運(yùn)動(dòng)規(guī)劃,并通過基元泛化改善了生成軌跡的可調(diào)整性.
常用者為頭孢哌酮、頭孢哌酮舒巴坦、頭孢克肟,菌素對(duì)腸桿菌科細(xì)菌等革蘭陰性桿菌具有強(qiáng)大抗菌作用,頭孢他啶和頭孢哌酮除腸桿菌科細(xì)菌外對(duì)銅綠假單胞菌亦具高度抗菌活性。
大多數(shù)基于學(xué)習(xí)的端對(duì)端規(guī)方法直接將原始感知數(shù)據(jù)或經(jīng)一定預(yù)處理的感知數(shù)據(jù)作為輸入,并直接輸出規(guī)劃、控制指令,即將整個(gè)智能系統(tǒng)作為黑箱使用,而無需闡明各模塊及其子模塊間的關(guān)系. 基于智能車輛導(dǎo)航目標(biāo)的不同,端對(duì)端方法主要分為基于固定目標(biāo)的規(guī)劃控制方法與基于移動(dòng)目標(biāo)的規(guī)劃控制方法,其中固定目標(biāo)的規(guī)劃控制方法指的是基于設(shè)定的確定位置,系統(tǒng)能夠使智能車輛安全、高效地到達(dá)此確定位置. 而移動(dòng)目標(biāo)的規(guī)劃控制方法中,系統(tǒng)則偏于使智能車輛保持一定狀態(tài)或?qū)σ苿?dòng)位置進(jìn)行跟蹤,例如車輛跟馳、車道保持等.
強(qiáng)化學(xué)習(xí)依據(jù)學(xué)習(xí)機(jī)制通常分為三大類:基于策略梯度(policy gradient)的強(qiáng)化學(xué)習(xí),基于價(jià)值函數(shù)(value-based)的強(qiáng)化學(xué)習(xí)以及基于執(zhí)行者-批評(píng)者(actor-critic)模型的強(qiáng)化學(xué)習(xí). 其中,基于策略梯度的方法是對(duì)策略進(jìn)行參數(shù)化描述,在訓(xùn)練過程中優(yōu)化策略參數(shù),使之獲得最大的獎(jiǎng)勵(lì)函數(shù)值. 這個(gè)優(yōu)化過程常以梯度下降法進(jìn)行損失函數(shù)的最小化,計(jì)算出的損失函數(shù)梯度下降方向稱為策略梯度,模型參數(shù)以策略梯度進(jìn)行參數(shù)更新. 較為典型的基于策略梯度的強(qiáng)化學(xué)習(xí)方法有Reinforcement[31]等. 加拿大拉瓦爾大學(xué)的DESJARDINS 等[32]利用策略梯度強(qiáng)化學(xué)習(xí)設(shè)計(jì)了一種自適應(yīng)巡航(ACC)控制方法,韓國(guó)漢陽大學(xué)的CHAE 等[33]則基于深層確定性策略梯度(deep deterministic policy gradient)方法設(shè)計(jì)的控制方法降低了實(shí)驗(yàn)中的車輛碰撞率. 基于價(jià)值函數(shù)的強(qiáng)化學(xué)習(xí)方法則通過對(duì)價(jià)值函數(shù)的估計(jì),選擇可帶來最大獎(jiǎng)勵(lì)值的動(dòng)作. 當(dāng)環(huán)境狀態(tài)轉(zhuǎn)移概率P 已知時(shí),該方法將選擇可使當(dāng)前狀態(tài)下對(duì)應(yīng)期望獎(jiǎng)勵(lì)最大的行動(dòng). 當(dāng)環(huán)境狀態(tài)轉(zhuǎn)移概率未知時(shí),則使用通過貪心算法最大化狀態(tài)-行動(dòng)價(jià)值函數(shù)(state-action value function)來尋找最優(yōu)的學(xué)習(xí)策略. 此類方法較為典型的算法如Q-Learning[34]等,在規(guī)劃控制方面的應(yīng)用中[35-37]均將深度學(xué)習(xí)網(wǎng)絡(luò)與基于價(jià)值的強(qiáng)化學(xué)習(xí)方法進(jìn)行結(jié)合,實(shí)現(xiàn)機(jī)器人的導(dǎo)航功能. 上述兩類方法均具有一定的局限性-基于策略梯度的方法的主要缺點(diǎn)是算法所估計(jì)的策略梯度方差較大,基于價(jià)值函數(shù)的方法主要缺點(diǎn)則在于無法保證學(xué)習(xí)后的策略是最優(yōu)策略[38]. 而第三類執(zhí)行者-批評(píng)者模型結(jié)合價(jià)值函數(shù)與參數(shù)化的策略函數(shù),可視作基于策略梯度與基于價(jià)值函數(shù)方法的綜合,較為典型的算法如A3C 等[39]. 此類方法較好地權(quán)衡了前兩類方法的利弊,例如研究基于執(zhí)行者-批評(píng)者模型設(shè)計(jì)出不同的縱向控制方法[40-42],在實(shí)驗(yàn)中取得了較好的性能表現(xiàn).
雖然移動(dòng)至設(shè)定目的地是多數(shù)導(dǎo)航算法的基本目標(biāo),但針對(duì)車輛駕駛?cè)蝿?wù)而言,仍有大量基于學(xué)習(xí)的端對(duì)端方法嘗試去解決更為具體的智能車輛規(guī)劃控制問題-動(dòng)目標(biāo)運(yùn)動(dòng)規(guī)劃控制,即任務(wù)目的地并不是固定的位置. 與這類問題相關(guān)的駕駛行為包含車道保持、避障以及地形適應(yīng)等. 紐約大學(xué)的LECUNN 等[13]使用一個(gè)六層的卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練了一個(gè)端對(duì)端模式的模型,可將原始的圖片數(shù)據(jù)映射輸出為車輛速度與方向盤轉(zhuǎn)角,用于車輛在越野環(huán)境中的高車速避障巡航. 來自英偉達(dá)公司BOJARSKI 等[11]則利用更深層的卷積神經(jīng)網(wǎng)絡(luò)以及大量的人類駕駛員數(shù)據(jù)建立了一個(gè)名為DAVE-2 的自動(dòng)駕駛系統(tǒng),DAVE-2 表明卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)車道和道路跟蹤任務(wù),而無需將任務(wù)分解為獨(dú)立的感知、推理和規(guī)劃步驟.
基于機(jī)器學(xué)習(xí)的規(guī)劃、控制算法較之傳統(tǒng)的基于規(guī)則、優(yōu)化的方法,在處理更加復(fù)雜的場(chǎng)景、任務(wù)時(shí)具備更好的性能表現(xiàn). 本節(jié)將首先介紹基于機(jī)器學(xué)習(xí)的端對(duì)端方法,接著分別回顧國(guó)內(nèi)外基于機(jī)器學(xué)習(xí)的規(guī)劃方法及控制方法研究現(xiàn)狀.
隨著計(jì)算機(jī)科學(xué)的發(fā)展,機(jī)器學(xué)習(xí)能夠?qū)崿F(xiàn)對(duì)復(fù)雜場(chǎng)景與任務(wù)較強(qiáng)的擬合與學(xué)習(xí),已在無人平臺(tái)感知與定位方面取得了較為廣泛的應(yīng)用. 許多國(guó)內(nèi)外研究機(jī)構(gòu)也逐漸開始探索機(jī)器學(xué)習(xí)在運(yùn)動(dòng)規(guī)劃控制算法上的應(yīng)用,通過將機(jī)器學(xué)習(xí)算法與傳統(tǒng)運(yùn)動(dòng)規(guī)劃控制算法結(jié)合,或者直接基于機(jī)器學(xué)習(xí)框架取代傳統(tǒng)運(yùn)動(dòng)規(guī)劃控制算法框架,以提高對(duì)動(dòng)態(tài)復(fù)雜環(huán)境的適應(yīng)能力與算法自身的學(xué)習(xí)能力,突破目前運(yùn)動(dòng)規(guī)劃控制算法的局限.
在傳統(tǒng)的運(yùn)動(dòng)規(guī)劃模塊中,有一部分參數(shù)是可調(diào)節(jié)參數(shù),調(diào)節(jié)參數(shù)以使模型適應(yīng)不同的場(chǎng)景環(huán)境、規(guī)劃偏好等,例如膨脹半徑、采樣率以及軌跡優(yōu)化權(quán)重等. 一些研究則致力基于機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)參數(shù)調(diào)節(jié),從而代替人工,實(shí)現(xiàn)對(duì)這些可調(diào)參數(shù)的自適應(yīng)調(diào)整. 美國(guó)佐治亞理工學(xué)院的Bhardwaj 等[50]在全局規(guī)劃層面提出了一種可微高斯過程運(yùn)動(dòng)規(guī)劃(Gaussian process motion planning 2, GPMP2)算法的可微擴(kuò)展模塊. 該擴(kuò)展模塊旨在通過對(duì)專家演示的學(xué)習(xí),調(diào)節(jié)障礙協(xié)方差這一規(guī)劃參數(shù). 通過反向傳播學(xué)習(xí)對(duì)應(yīng)參數(shù),GPMP2 可規(guī)劃出類似人類專家的全局路徑. 類似的思路也被應(yīng)用在局部規(guī)劃中,西班牙巴斯克大學(xué)的TESO 等[51]提出一種可預(yù)測(cè)DWA,通過對(duì)傳統(tǒng)的DWA 算法增加一個(gè)可預(yù)測(cè)窗口,并使用人工神經(jīng)模糊推理系統(tǒng)(artificial neuro-fuzzy inference system,ANFIS)來優(yōu)化每一個(gè)固定的參數(shù)值-即DWA 的優(yōu)化權(quán)重,以提升DWA 的性能表現(xiàn). 來自美國(guó)奧斯汀大學(xué)及美國(guó)陸軍研究院的XIAO 等[52]提出自適應(yīng)規(guī)劃參數(shù)學(xué)習(xí)(adaptive planner parameter learning,APPL). 該方法可視作一種參數(shù)學(xué)習(xí)范式-所學(xué)習(xí)的策略不直接用于端對(duì)端的運(yùn)動(dòng)控制,而是將所學(xué)策略與傳統(tǒng)的運(yùn)動(dòng)控制器結(jié)合,學(xué)習(xí)參數(shù)其參數(shù)調(diào)整策略,并在運(yùn)行時(shí)動(dòng)態(tài)調(diào)整規(guī)劃參數(shù),以適應(yīng)不同的駕駛場(chǎng)景,實(shí)現(xiàn)優(yōu)于固定參數(shù)規(guī)劃策略的效果.
基于機(jī)器學(xué)習(xí)的類人駕駛控制方法方面,俄亥俄州立大學(xué)SCOTT[53]提出由補(bǔ)償傳遞函數(shù)和基于道路幾何的預(yù)期分量組成的組合駕駛員模型并于單個(gè)駕駛員期望路徑相結(jié)合,實(shí)現(xiàn)比幾何中心線模型更準(zhǔn)確的方向盤轉(zhuǎn)角. 麻省理工學(xué)院CHONG 等[54]提出一種基于規(guī)則的神經(jīng)網(wǎng)絡(luò)模型模擬駕駛員在跟蹤過程和安全檢測(cè)兩種駕駛情況下的駕駛員行為,從車輛軌跡數(shù)據(jù)中獲取駕駛員駕駛規(guī)則,并運(yùn)用機(jī)器學(xué)習(xí)方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)使其能夠模擬單個(gè)駕駛員的駕駛行為. 加州大學(xué)伯克利分校的STEPHANE 等[55]提出了可以從人類示意中學(xué)習(xí)的自主駕駛框架,將其應(yīng)用自動(dòng)駕駛的縱向控制并通過在線和離線兩種方式模擬駕駛員的操縱行為. LU 等[56]則提出了一種新的自動(dòng)超車分層強(qiáng)化學(xué)習(xí)框架,該框架基于半馬爾可夫決策過程和運(yùn)動(dòng)基元,可應(yīng)用于不同的超車階段.
本文第1 節(jié)介紹環(huán)境知識(shí)表征的相關(guān)內(nèi)容,第2 節(jié)介紹兩類常用的規(guī)劃與控制學(xué)習(xí)范式-模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí),在前兩節(jié)的基礎(chǔ)上,第3 節(jié)進(jìn)一步介紹具體的基于機(jī)器學(xué)習(xí)的規(guī)劃控制算法,具體地,將分別回顧基于機(jī)器學(xué)習(xí)的端對(duì)端方法、規(guī)劃方法以及控制方法,并評(píng)述現(xiàn)有的相關(guān)研究,最后進(jìn)行總結(jié)與展望. 圖1 所示為本文各節(jié)邏輯架構(gòu).
在基于機(jī)器學(xué)習(xí)的極端工況控制技術(shù)方面,麻省理工學(xué)院的RUS 等[60]關(guān)注F1TENTH 競(jìng)速機(jī)器人的表現(xiàn),對(duì)比了基于先進(jìn)的有模型深度強(qiáng)化學(xué)習(xí)方法與無模型方法在自動(dòng)駕駛競(jìng)速環(huán)境應(yīng)用時(shí)的表現(xiàn),對(duì)比結(jié)果揭示了基于有模型深度強(qiáng)化學(xué)習(xí)方法在極端工況中的表現(xiàn)勝于無模型的方法. 來自南洋理工大學(xué)的JI 等[14]提出一種針對(duì)車輛駕駛極限工況的、基于ANN 的橫向控制方法. 該方法將基于李亞普諾夫穩(wěn)定性理論的自適應(yīng)控制機(jī)制與徑向基神經(jīng)網(wǎng)絡(luò)(radial basis function neural network,RBFNN)相結(jié)合,設(shè)計(jì)了用于估計(jì)輪胎轉(zhuǎn)彎剛度不確定性的ANN 逼近器,通過學(xué)習(xí)近似非線性函數(shù)來減少其非線性性帶來的不利影響. 美國(guó)陸軍研究院的MAGGIE WIGNESS 等[23]針對(duì)災(zāi)難恢復(fù)與救援等動(dòng)態(tài)環(huán)境中的快速適應(yīng)與學(xué)習(xí)問題,考慮到特殊場(chǎng)景下人員和設(shè)備受到的限制,提出了一種基于學(xué)習(xí)的視覺感知和逆最優(yōu)控制的有監(jiān)督學(xué)習(xí)模型. 該模型將視覺感知模型與逆最優(yōu)控制學(xué)習(xí)結(jié)合,實(shí)現(xiàn)地面無人平臺(tái)控制參數(shù)的學(xué)習(xí),并使用最大熵理論來學(xué)習(xí)從視覺感知中提取的給定環(huán)境特征的獎(jiǎng)勵(lì)函數(shù),以及由人類在環(huán)境中驅(qū)動(dòng)機(jī)器人收集的最優(yōu)軌跡示例,并進(jìn)行了真實(shí)環(huán)境中的多個(gè)測(cè)試,得到了較好的測(cè)試結(jié)果.
在模型自適應(yīng)方面的研究,德克薩斯大學(xué)奧斯汀分校的LIU 等[48]在2021 年提出了一種具備自演進(jìn)能力的、在不同環(huán)境中具備持續(xù)學(xué)習(xí)能力的機(jī)器人規(guī)劃控制框架. 該研究針對(duì)現(xiàn)有的經(jīng)典規(guī)劃方法無法在不同的環(huán)境種積累經(jīng)驗(yàn)而提升自規(guī)劃能力的局限性,提出了基于持續(xù)學(xué)習(xí)的規(guī)劃框架,結(jié)合了傳統(tǒng)方法,通過基于對(duì)傳統(tǒng)方法無法克服的復(fù)雜場(chǎng)景規(guī)劃控制方案進(jìn)行持續(xù)學(xué)習(xí),實(shí)現(xiàn)地面無人平臺(tái)在復(fù)雜環(huán)境中更快速穩(wěn)定的行駛. 美國(guó)陸軍研究院的GARRETT WARNELL 等[49],在2021 年提出了一種基于學(xué)習(xí)的自適應(yīng)規(guī)劃方法. 他們認(rèn)為無人地面平臺(tái)經(jīng)典的導(dǎo)航系統(tǒng)雖然可以提供點(diǎn)到點(diǎn)的無碰撞路徑規(guī)劃,但在一些特定場(chǎng)景下往往給出次優(yōu)的規(guī)劃路徑,而若加入人工干預(yù)修正,次優(yōu)結(jié)果很容易校正為最優(yōu)結(jié)果. 根據(jù)這一思路,他們提出的基于學(xué)習(xí)的自適應(yīng)規(guī)劃方法(adaptive planner parameter learning from interventions, APPLI)能夠從人類干預(yù)系統(tǒng)的過程中學(xué)習(xí),以提升導(dǎo)航性能. 他們的真實(shí)環(huán)境試驗(yàn)結(jié)果表明,較之使用固定參數(shù)的規(guī)劃方案,使用APPLI 的地面移動(dòng)機(jī)器人有著更好的表現(xiàn). 同時(shí),他們還在300個(gè)不同的仿真環(huán)境中做了模擬實(shí)驗(yàn),表明APPLI 具有較好的泛化能力.
針對(duì)基于機(jī)器學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法研究,國(guó)外研究開展較早且已經(jīng)有了一定的基礎(chǔ),包括院校和軍方研究所在內(nèi)的多家機(jī)構(gòu)都進(jìn)行了相關(guān)研究. 美國(guó)麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué)、德國(guó)弗萊堡大學(xué)以及加拿大麥吉爾大學(xué)等院校都先后提出了基于機(jī)器學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃算法的框架,通過結(jié)合機(jī)器學(xué)習(xí)方法對(duì)運(yùn)動(dòng)規(guī)劃參數(shù)進(jìn)行調(diào)整,實(shí)現(xiàn)算法在不同環(huán)境的更強(qiáng)適應(yīng)性,并進(jìn)行了相關(guān)實(shí)驗(yàn). 除院校以外,美國(guó)陸軍研究院也對(duì)機(jī)器學(xué)習(xí)在無人平臺(tái)運(yùn)動(dòng)規(guī)劃方法上的應(yīng)用產(chǎn)生了較大興趣,提出了基于機(jī)器學(xué)習(xí)的自適應(yīng)規(guī)劃算法以提升智能車輛在復(fù)雜環(huán)境中的規(guī)劃能力. 總體上來講,目前基于機(jī)器學(xué)習(xí)方法的運(yùn)動(dòng)規(guī)劃相關(guān)研究仍處于起步階段,且現(xiàn)有方法多關(guān)注于考慮較為簡(jiǎn)單場(chǎng)景中的運(yùn)動(dòng)規(guī)劃策略學(xué)習(xí)方法,難以應(yīng)用到更復(fù)雜的城市與越野場(chǎng)景. 同時(shí),現(xiàn)有研究多只針對(duì)環(huán)境進(jìn)行場(chǎng)景知識(shí)表征,缺乏針對(duì)更復(fù)雜的智能車輛駕駛?cè)蝿?wù)知識(shí)表征相關(guān)研究,難以同時(shí)考慮不同環(huán)境與任務(wù)中的場(chǎng)景特征與任務(wù)知識(shí),如舒適性、經(jīng)濟(jì)型、越野通過性等需求,因而不同環(huán)境與不同任務(wù)中的最優(yōu)運(yùn)動(dòng)規(guī)劃策略構(gòu)建與學(xué)習(xí)方面仍存在較大研究空間.
相較于基于機(jī)器學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃方法研究,基于機(jī)器學(xué)習(xí)的運(yùn)動(dòng)控制算法的相關(guān)研究取得了更多的關(guān)注且已取得了一定實(shí)際應(yīng)用成果. 谷歌、英偉達(dá)、百度等企業(yè)積極開發(fā)基于機(jī)器學(xué)習(xí)的端對(duì)端控制技術(shù),力圖從大數(shù)據(jù)中學(xué)習(xí)得到最優(yōu)的智能車輛控制策略. 美國(guó)麻省理工學(xué)院、卡內(nèi)基梅隆大學(xué),加拿大多倫多大學(xué)等院校各自利用機(jī)器學(xué)習(xí)優(yōu)化了運(yùn)動(dòng)控制模塊,提升了智能車輛運(yùn)動(dòng)控制性能. 此外,美國(guó)軍方和等企業(yè)也在積極開展相關(guān)研究,美國(guó)陸軍研究院針對(duì)無人車動(dòng)態(tài)環(huán)境下的快速適應(yīng)和學(xué)習(xí)任務(wù),提出了使用機(jī)器學(xué)習(xí)的視覺感知和最優(yōu)控制模型.總體上來講,基于端對(duì)端的智能車輛控制策略學(xué)習(xí)相關(guān)研究開展較早且取得了一定進(jìn)展. 針對(duì)端對(duì)端方法存在的數(shù)據(jù)饑渴、可解釋性差、學(xué)習(xí)成本高等局限,許多研究者也開始探索對(duì)模塊化的運(yùn)動(dòng)控制策略進(jìn)行學(xué)習(xí). 然而,國(guó)內(nèi)外現(xiàn)有方法多通過優(yōu)化學(xué)習(xí)模型與增大數(shù)據(jù)量實(shí)現(xiàn)運(yùn)動(dòng)控制策略的提升,較少關(guān)注數(shù)據(jù)稀缺場(chǎng)景中的運(yùn)動(dòng)控制模型學(xué)習(xí)技術(shù),同時(shí),多數(shù)方法多以離線模型學(xué)習(xí)為主,較少關(guān)注運(yùn)動(dòng)控制模型的持續(xù)學(xué)習(xí)與在線優(yōu)化問題,難以實(shí)現(xiàn)模型在更復(fù)雜與動(dòng)態(tài)環(huán)境中的自適應(yīng)能力與自學(xué)習(xí)能力.
如果現(xiàn)場(chǎng)被抽中人員不在場(chǎng),主持人繼續(xù)主持抽獎(jiǎng),直到獎(jiǎng)品被現(xiàn)場(chǎng)的人員領(lǐng)完為止(主持人在邀請(qǐng)讀者上臺(tái)抽獎(jiǎng)時(shí),應(yīng)當(dāng)提醒讀者待主持人確認(rèn)中獎(jiǎng)人員在場(chǎng)后,再進(jìn)行下一輪抽獎(jiǎng),屏幕上也需要彈出一條信息提醒邀請(qǐng)的抽獎(jiǎng)讀者確認(rèn)中獎(jiǎng)的人員是否在場(chǎng))(注:抽獎(jiǎng)的大屏在閑時(shí):左側(cè)滾動(dòng)顯示已被用戶薦購(gòu)的圖書,右邊邊滾動(dòng)已經(jīng)關(guān)注微信公眾號(hào)的用戶,屏幕滾動(dòng)頻率大約7s~10s一次)。
綜上所述,基于機(jī)器學(xué)習(xí)的智能車輛運(yùn)動(dòng)規(guī)劃與控制方法盡管能夠一定程度解決傳統(tǒng)方法存在的一些問題,但仍存在一定局限性,未來發(fā)展方向主要包括:
精氨白樺脂酸的制備及其對(duì)三陰性人乳腺癌細(xì)胞MDA-MB-231增殖的影響 ……………………………… 張麗娟等(7):906
(1)研究動(dòng)態(tài)復(fù)雜場(chǎng)景中的運(yùn)動(dòng)規(guī)劃與控制策略學(xué)習(xí)方法.藉由機(jī)器學(xué)習(xí)較強(qiáng)的環(huán)境知識(shí)表征與場(chǎng)景理解能力,基于學(xué)習(xí)的智能車輛運(yùn)動(dòng)規(guī)劃與控制方法在復(fù)雜動(dòng)態(tài)場(chǎng)景中已經(jīng)初步表現(xiàn)出了更強(qiáng)的泛化與適應(yīng)能力. 因此,未來相關(guān)研究應(yīng)進(jìn)一步利用機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn),深入研究復(fù)雜動(dòng)態(tài)場(chǎng)景中的運(yùn)動(dòng)規(guī)劃與控制策略學(xué)習(xí)方法,將研究與實(shí)際應(yīng)用相結(jié)合,尤其應(yīng)當(dāng)更多考慮具有更多周圍動(dòng)態(tài)交通參與者的城市場(chǎng)景以及具有變化復(fù)雜地形的越野場(chǎng)景.
材料力學(xué)[1-2]是固體力學(xué)的一個(gè)分支,與彈性力學(xué)[3]相比,研究的構(gòu)件局限在桿件這一相對(duì)簡(jiǎn)單的形式上,包括在載荷或溫度變化作用下桿件的強(qiáng)度、剛度和穩(wěn)定性問題。材料力學(xué)是一門重要的技術(shù)基礎(chǔ)課,包括機(jī)械、土木、水利和交通等專業(yè)的學(xué)生都要求必須修讀。雖然大部分學(xué)生在中小學(xué)就學(xué)習(xí)了牛頓力學(xué)的基本常識(shí),但是一般直到開始學(xué)習(xí)材料力學(xué),才開始接觸力學(xué)中最重要的一些概念,比如應(yīng)力和應(yīng)變等。由于材料力學(xué)本身內(nèi)容繁雜,概念抽象,對(duì)數(shù)學(xué)工具的應(yīng)用要求較高,再加上力學(xué)課程的課時(shí)安排在很多高校中并不充裕,在實(shí)際的教學(xué)實(shí)踐中發(fā)現(xiàn)相當(dāng)多的學(xué)生對(duì)這門課的掌握并不理想。
(2)研究具有更強(qiáng)解釋性、模塊化的運(yùn)動(dòng)規(guī)劃與控制策略學(xué)習(xí)方法.早期基于機(jī)器學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃與控制方法多關(guān)注于端對(duì)端的學(xué)習(xí)由感知數(shù)據(jù)至運(yùn)動(dòng)控制的策略模型,然而由于數(shù)據(jù)維度高、模型復(fù)雜等因素導(dǎo)致該類策略學(xué)習(xí)方法往往具備較差的可解釋性,限制了策略的調(diào)整與優(yōu)化,同時(shí)一定程度上可能導(dǎo)致魯棒性與安全性問題. 提高基于學(xué)習(xí)的運(yùn)動(dòng)規(guī)劃與控制策略方法的可解釋性是未來相關(guān)研究的重要方向,一方面可以通過合理知識(shí)表征與可解釋網(wǎng)絡(luò)構(gòu)造實(shí)現(xiàn),另一方面可以通過模塊化學(xué)習(xí)運(yùn)動(dòng)規(guī)劃與控制策略實(shí)現(xiàn)對(duì)傳統(tǒng)方法的優(yōu)化與替代,進(jìn)而保留傳統(tǒng)分層框架的可解釋性.
(3)研究具有持續(xù)學(xué)習(xí)與持續(xù)進(jìn)化能力的運(yùn)動(dòng)規(guī)劃與控制策略學(xué)習(xí)方法.相比于傳統(tǒng)方法,基于學(xué)習(xí)的算法能夠基于數(shù)據(jù)實(shí)現(xiàn)策略模型參數(shù)的自主調(diào)整. 然而現(xiàn)有策略學(xué)習(xí)方法大多依賴于先驗(yàn)知識(shí)或預(yù)先訓(xùn)練實(shí)現(xiàn)模型的參數(shù)學(xué)習(xí),而無法在運(yùn)行過程中利用實(shí)際操作經(jīng)驗(yàn)實(shí)現(xiàn)模型參數(shù)的在線調(diào)整與優(yōu)化. 因此,研究策略模型基于實(shí)際操作經(jīng)驗(yàn)的自主學(xué)習(xí)和進(jìn)化方法,實(shí)現(xiàn)智能車輛在操作過程中在實(shí)際運(yùn)行環(huán)境中性能的不斷提升與進(jìn)化,也是未來運(yùn)動(dòng)規(guī)劃與控制策略學(xué)習(xí)重要方向.