基于隨機(jī)森林的駕駛?cè)笋{駛習(xí)性辨識(shí)策略?

2019-03-11 12:12李偉男韓嘉懿

汽車工程 2019年2期

朱冰，李偉男，汪震，趙健，何睿，韓嘉懿

(1.吉林大學(xué)，汽車仿真與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室，長(zhǎng)春 130022； 2.吉林大學(xué)，工程仿生教育部重點(diǎn)實(shí)驗(yàn)室，長(zhǎng)春 130022)

前言

駕駛?cè)笋{駛習(xí)性(driving style)，是指駕駛?cè)讼鄬?duì)穩(wěn)定的和習(xí)慣性的內(nèi)在駕駛行為傾向，它是個(gè)體駕駛?cè)诵睦硭季S和行為模式的綜合表征，不同駕駛?cè)酥g駕駛習(xí)性差異明顯，典型的駕駛習(xí)性包括激進(jìn)型、一般型和保守型等[1-2]。深入理解駕駛?cè)笋{駛習(xí)性及其表征方法，建立高精度駕駛?cè)笋{駛習(xí)性辨識(shí)模型，對(duì)于實(shí)現(xiàn)在汽車自動(dòng)駕駛、輔助駕駛和主動(dòng)安全等不同控制系統(tǒng)下的人機(jī)和諧交互具有重要意義。

早在20世紀(jì)70年代，國(guó)外學(xué)者即開始關(guān)注駕駛?cè)笋{駛習(xí)性的研究。WAHAB A等學(xué)者認(rèn)為，由于駕駛?cè)藵撘庾R(shí)工作方式的差異，每個(gè)駕駛?cè)藦臐撘庾R(shí)到有意識(shí)的思維轉(zhuǎn)換是獨(dú)一無二的，因此每個(gè)駕駛?cè)俗匀坏鼐哂胁煌鸟{駛習(xí)性[3]。LU J等人引入模糊控制理論對(duì)駕駛?cè)笋{駛習(xí)性進(jìn)行了初步的分類[4]。

國(guó)內(nèi)對(duì)于駕駛?cè)笋{駛習(xí)性的研究起步較晚，但經(jīng)過十余年的積累也有了一定的成果。清華大學(xué)王建強(qiáng)教授通過駕駛?cè)酸尫偶铀偬ぐ搴烷_始制動(dòng)時(shí)刻的碰撞時(shí)間TTC(time to collision)數(shù)據(jù)聚類分析，將駕駛?cè)朔譃橹?jǐn)慎型、正常型和侵略型3類[5]。長(zhǎng)安大學(xué)毛錦根據(jù)真實(shí)車輛道路駕駛數(shù)據(jù)，使用多因素模糊數(shù)學(xué)分類法，基于跟車時(shí)距、最小跟車時(shí)距、換道時(shí)距、超速頻次和換道過程轉(zhuǎn)向盤最大轉(zhuǎn)角與車速的擬合結(jié)果等5個(gè)參數(shù)，將駕駛習(xí)性分為冒進(jìn)型、比較冒進(jìn)型、比較謹(jǐn)慎型和謹(jǐn)慎型4類[6]。

這些相關(guān)研究在駕駛習(xí)性表征與辨識(shí)等方面已經(jīng)有所進(jìn)展，然而，復(fù)雜多變的駕駛習(xí)性因人與工況而異。傳統(tǒng)研究中往往對(duì)駕駛習(xí)性進(jìn)行單純的主觀標(biāo)定，訓(xùn)練樣本標(biāo)簽以及辨識(shí)結(jié)果的準(zhǔn)確性難以保證；此外，駕駛數(shù)據(jù)變量復(fù)雜多樣，需要基于重要性對(duì)其進(jìn)行有效篩選，從而在保障辨識(shí)精度的前提下簡(jiǎn)化模型結(jié)構(gòu)。

為深入研究駕駛?cè)笋{駛習(xí)性的有效表征方法及辨識(shí)策略，本文中搭建駕駛?cè)笋{駛習(xí)性實(shí)車數(shù)據(jù)采集平臺(tái)，采集駕駛?cè)嗽诘湫透嚬r下的駕駛數(shù)據(jù)；應(yīng)用凝聚層次聚類方法對(duì)駕駛?cè)笋{駛習(xí)性進(jìn)行標(biāo)定；采用隨機(jī)森林算法對(duì)駕駛數(shù)據(jù)各個(gè)變量的重要性進(jìn)行分析，選取對(duì)模型辨識(shí)精度貢獻(xiàn)起主導(dǎo)作用的變量進(jìn)行隨機(jī)森林模型訓(xùn)練；最后，采用留一法對(duì)測(cè)試駕駛?cè)诉M(jìn)行駕駛習(xí)性辨識(shí)測(cè)試，驗(yàn)證辨識(shí)模型的辨識(shí)效果。

1 駕駛?cè)笋{駛習(xí)性數(shù)據(jù)采集

1.1 實(shí)車數(shù)據(jù)采集平臺(tái)

為了實(shí)時(shí)采集駕駛?cè)嗽趯?shí)際駕駛狀態(tài)下的駕駛數(shù)據(jù)，搭建了實(shí)車數(shù)據(jù)采集平臺(tái)，如圖1所示。采集平臺(tái)由一輛主車和一輛交通車組成，兩車內(nèi)分別布置有相應(yīng)的儀器設(shè)備用于自車、車-車之間運(yùn)動(dòng)狀態(tài)和運(yùn)動(dòng)姿態(tài)等駕駛習(xí)性相關(guān)數(shù)據(jù)的實(shí)時(shí)采集。

圖1 實(shí)車數(shù)據(jù)采集平臺(tái)

實(shí)車數(shù)據(jù)采集平臺(tái)原理如圖2所示。通過主車CAN總線實(shí)時(shí)采集制動(dòng)主缸壓力、加速踏板行程和轉(zhuǎn)向盤轉(zhuǎn)角等駕駛?cè)瞬倏匦畔?；通過Oxford Technical Solutions公司的RT3002組合導(dǎo)航系統(tǒng)精確測(cè)量本車的車速、加速度等狀態(tài)信息；通過RT-Range實(shí)現(xiàn)兩個(gè)車輛之間的相對(duì)距離、相對(duì)車速等相對(duì)狀態(tài)信息的精確測(cè)量。采集得到的駕駛數(shù)據(jù)通過CAN總線傳輸?shù)絛Space MicroAutoBox進(jìn)行時(shí)間同步，進(jìn)而通過以太網(wǎng)電纜傳輸至工控機(jī)進(jìn)行存儲(chǔ)。

圖2 實(shí)車數(shù)據(jù)采集平臺(tái)原理

1.2 工況設(shè)計(jì)

駕駛?cè)笋{駛習(xí)性數(shù)據(jù)采集工況應(yīng)該能夠在最大程度上激勵(lì)出不同駕駛?cè)说牟町惢{駛習(xí)性，經(jīng)過多組試驗(yàn)對(duì)比，發(fā)現(xiàn)當(dāng)前車車速變化時(shí)間歷程表現(xiàn)為“加-減-加”時(shí)，后車駕駛?cè)说鸟{駛數(shù)據(jù)差異最為明顯。

最終選取單車道直線結(jié)構(gòu)化瀝青道路進(jìn)行測(cè)試。測(cè)試時(shí)，前車車速變化曲線如圖3所示。前車按照0-70-40-70km/h的速度行駛，期間依次歷經(jīng)加速、勻速、減速、勻速、加速和勻速等不同的行駛狀況，以盡可能激勵(lì)后車駕駛?cè)笋{駛習(xí)性。后車首先按照被測(cè)駕駛?cè)肆?xí)慣運(yùn)動(dòng)至與前車相距一定距離的位置，隨后被測(cè)駕駛?cè)税凑兆约毫?xí)慣的駕駛方式進(jìn)行跟車駕駛。

圖3 目標(biāo)車速度時(shí)間歷程曲線

1.3 被測(cè)駕駛?cè)?/h3>
試驗(yàn)通過社會(huì)招募方式，共招募了34名駕駛?cè)诉M(jìn)行駕駛習(xí)性數(shù)據(jù)采集試驗(yàn)，其基本信息如表1所示。其中，男性駕駛?cè)?8人，女性駕駛?cè)?人；駕駛?cè)四挲g范圍為22-50周歲，平均年齡為34.5周歲；駕齡范圍為1-17年，平均駕齡為4.7年。
表1 被測(cè)駕駛?cè)嘶拘畔?/p>

2 駕駛?cè)笋{駛習(xí)性表征

駕駛?cè)笋{駛習(xí)性具有很強(qiáng)的不確定性，本文中采用層次聚類方法對(duì)駕駛?cè)笋{駛數(shù)據(jù)進(jìn)行分析，以期將駕駛習(xí)性相近的被測(cè)駕駛?cè)四蹫殛P(guān)系緊密的簇[7-8]，并利用簇的關(guān)系實(shí)現(xiàn)駕駛習(xí)性的準(zhǔn)確表征。

選取與縱向跟車行為密切相關(guān)的制動(dòng)主缸壓力最大值X1、加速踏板位置最大值X2、縱向加速度最大值X3、相對(duì)距離平均值X4、相對(duì)速度平均值X5、相對(duì)速度最大值X6和車頭時(shí)距平均值X7等7組參數(shù)進(jìn)行分析。其中車頭時(shí)距表示前后兩輛車的前端通過同一地點(diǎn)的時(shí)間差，可通過兩車相對(duì)距離除以后車速度計(jì)算得到。

得到的原始駕駛數(shù)據(jù)樣本集T為

式中：p=34，q=7。

為便于聚類分析，首先對(duì)駕駛習(xí)性數(shù)據(jù)進(jìn)行歸一化處理，歸一化后的樣本集為

Y=(yij)p×q

式中：i=1，2，…，34；j=1，2，…，7；xjmin和xjmax分別為第j列駕駛數(shù)據(jù)的最大值和最小值。

采用基于離差平方法的凝聚層次聚類方法對(duì)同類駕駛習(xí)性原子簇進(jìn)行合并，即具有相似特征的駕駛習(xí)性數(shù)據(jù)樣本之間的離差平方和應(yīng)較小，而駕駛習(xí)性特征差別較大的樣本之間的離差平方和應(yīng)較大。

假定在凝聚層次聚類過程中，將p個(gè)駕駛習(xí)性數(shù)據(jù)樣本分成k個(gè)類別G1，G2，…，Gk，用 Yti(1≤t≤k)表示類別Gt中的第i個(gè)駕駛習(xí)性數(shù)據(jù)樣本向量，nt表示類別Gt中數(shù)據(jù)樣本的個(gè)數(shù)，表示類別Gt中數(shù)據(jù)樣本的向量均值，則類別Gt中數(shù)據(jù)樣本的離差平方和St的計(jì)算公式為

對(duì)p個(gè)駕駛習(xí)性數(shù)據(jù)樣本進(jìn)行凝聚層次聚類遍歷求解，選擇使離差平方和增加最小的兩類(即駕駛習(xí)性最為相似的兩類)進(jìn)行合并，直到所有的樣本歸為一類，聚類過程如圖4所示。駕駛習(xí)性相近的被測(cè)駕駛?cè)瞬粩啾荒鄣酵粋€(gè)簇中，每個(gè)簇對(duì)應(yīng)不同風(fēng)格的駕駛習(xí)性。

對(duì)應(yīng)圖4中3個(gè)最大的簇，將駕駛習(xí)性數(shù)據(jù)樣本最終凝集聚類為3組，結(jié)合3個(gè)簇內(nèi)部駕駛數(shù)據(jù)的共性特征，層次聚類結(jié)果如表2所示。

表2 層次聚類結(jié)果

圖4 駕駛習(xí)性數(shù)據(jù)樣本層次聚類過程

分別繪制3類不同駕駛習(xí)性駕駛?cè)讼鄬?duì)車速-相對(duì)距離統(tǒng)計(jì)分布如圖5所示。

可見，保守型駕駛?cè)擞捎隈{駛行為較為謹(jǐn)慎，跟車過程中相對(duì)距離較大，相對(duì)距離在20m以上的占比達(dá)96%，同時(shí)，保守型駕駛?cè)说南鄬?duì)速度大部分為正值(即本車速度小于前車速度)，占比達(dá)64%。

激進(jìn)型駕駛?cè)藙t跟車距離較近，相對(duì)速度多為負(fù)值，占比達(dá)71%；一般型駕駛?cè)说鸟{駛數(shù)據(jù)位于二者之間。

3 駕駛?cè)笋{駛習(xí)性辨識(shí)模型

在對(duì)駕駛?cè)笋{駛習(xí)性進(jìn)行準(zhǔn)確表征的基礎(chǔ)上，引入隨機(jī)森林算法構(gòu)建駕駛?cè)笋{駛習(xí)性辨識(shí)模型。隨機(jī)森林模型(random forest model)是利用多棵決策樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器，其對(duì)異常值和噪聲有很強(qiáng)的容忍度，并可以在分析數(shù)據(jù)的同時(shí)給出各個(gè)變量重要性的評(píng)分(variable importance measure， VIM)[9-10]。

3.1 基于Gini指數(shù)的各屬性變量重要性分析

采用Gini指數(shù)分析各駕駛習(xí)性數(shù)據(jù)變量對(duì)駕駛?cè)笋{駛習(xí)性辨識(shí)精度的影響。對(duì)于駕駛數(shù)據(jù)樣本集T，其Gini指數(shù)定義為

圖5 不同駕駛習(xí)性駕駛?cè)讼鄬?duì)車速-相對(duì)距離統(tǒng)計(jì)分布

式中：N為駕駛習(xí)性類別，取N=3，分別代表保守型、一般型和激進(jìn)型駕駛習(xí)性；Cn表示樣本集T中屬于第n類駕駛習(xí)性的樣本子集。

如果依照某一駕駛數(shù)據(jù)變量Xj(1≤j≤7)將駕駛數(shù)據(jù)樣本集 T 分為b個(gè)部分，即 T1，T2，…，Tb。那么在屬性變量Xj的條件下，集合T的Gini指數(shù)定義為

駕駛數(shù)據(jù)變量Xj在隨機(jī)森林模型中任一節(jié)點(diǎn)m處的重要性可以用節(jié)點(diǎn)m分枝前后Gini指數(shù)變化量來表示：

式中：GIm，GIm1和GIm2分別為節(jié)點(diǎn)m分裂前和分裂成2個(gè)新節(jié)點(diǎn)的Gini指數(shù)。

如果駕駛數(shù)據(jù)變量Xj在隨機(jī)森林模型中的第e棵樹中出現(xiàn)過M次，則變量Xj在第e棵樹中的重要性為

因此，駕駛數(shù)據(jù)變量Xj在整個(gè)隨機(jī)森林模型中的重要性可以表示為

式中z為隨機(jī)森林模型中決策樹的棵數(shù)，即分類器的數(shù)量。

計(jì)算、繪制駕駛?cè)笋{駛習(xí)性數(shù)據(jù)集中各個(gè)變量參數(shù)的Gini重要性散點(diǎn)圖，如圖6所示。

圖6 Gini重要性散點(diǎn)圖

可見，在縱向跟車工況下，不同的駕駛習(xí)性數(shù)據(jù)變量對(duì)于隨機(jī)森林模型辨識(shí)精度的重要性會(huì)有所差別，各個(gè)變量參數(shù)對(duì)駕駛?cè)笋{駛習(xí)性辨識(shí)模型辨識(shí)精度的重要性依次為：加速踏板位置最大值X2＞車頭時(shí)距平均值X7＞相對(duì)距離平均值X4＞相對(duì)速度最大值X6＞縱向加速度最大值X3＞主缸壓力最大值X1＞相對(duì)速度平均值X5。

其中，加速踏板位置最大值X2、車頭時(shí)距平均值X7和相對(duì)距離平均值X43個(gè)變量對(duì)模型辨識(shí)精度的影響相對(duì)其它幾個(gè)變量要更加明顯，說明這3組參數(shù)更能體現(xiàn)駕駛?cè)嗽诟囘^程中的駕駛習(xí)性。

3.2 基于變量重要性的隨機(jī)森林模型

在盡可能不影響辨識(shí)精度的前提下，選用更少的變量訓(xùn)練隨機(jī)森林模型可以有效降低模型的復(fù)雜度，縮短運(yùn)算時(shí)間。因此，基于變量重要性分析，選取加速踏板位置最大值、車頭時(shí)距平均值和相對(duì)距離平均值3個(gè)變量建立隨機(jī)森林模型，其訓(xùn)練原理如圖7所示[11]。

圖7 隨機(jī)森林模型訓(xùn)練原理

隨機(jī)森林模型具體實(shí)現(xiàn)流程如下。

步驟1：在p個(gè)駕駛習(xí)性數(shù)據(jù)樣本中，有放回地隨機(jī)選擇p個(gè)樣本(即允許其中存在重復(fù)的樣本)形成1個(gè)自動(dòng)樣本集，利用這個(gè)樣本集訓(xùn)練1棵決策樹。

步驟2：在決策樹的每個(gè)節(jié)點(diǎn)需要分裂時(shí)，隨機(jī)從加速踏板位置最大值、車頭時(shí)距平均值和相對(duì)距離平均值3個(gè)屬性變量中選取出r個(gè)屬性(r＜3)，針對(duì)選出的每一個(gè)屬性遍歷所有可能的分裂方法，并分別求取其Gini指數(shù)，最終選擇具有最小Gini指數(shù)的屬性作為該節(jié)點(diǎn)分裂屬性。按此方法確定決策樹的每個(gè)節(jié)點(diǎn)，直到不能夠再分裂為止。

步驟3：重復(fù)步驟1和步驟2，得到z棵決策樹，構(gòu)成用于駕駛習(xí)性辨識(shí)的隨機(jī)森林模型。

這里，步驟1中有放回地隨機(jī)選取樣本以及步驟2中隨機(jī)選取r個(gè)屬性會(huì)使得決策樹的相關(guān)性顯著降低。這兩個(gè)過程中的隨機(jī)性和不確定性，可以使隨機(jī)森林模型不會(huì)隨著分類樹數(shù)目的增加而產(chǎn)生過度擬合的問題。

利用訓(xùn)練得到的隨機(jī)森林模型可以進(jìn)行駕駛?cè)笋{駛習(xí)性辨識(shí)。辨識(shí)時(shí)，模型中每一棵決策樹對(duì)輸入的駕駛數(shù)據(jù)進(jìn)行投票，計(jì)算各類駕駛習(xí)性(保守型、一般型和激進(jìn)型)獲得的投票數(shù)，最終得票數(shù)最高的即為所輸入的駕駛數(shù)據(jù)對(duì)應(yīng)的駕駛?cè)笋{駛習(xí)性。

3.3 測(cè)試驗(yàn)證分析

采用留一法(leave-one-out)對(duì)提出的駕駛?cè)笋{駛習(xí)性辨識(shí)模型進(jìn)行測(cè)試驗(yàn)證分析，即逐一將34個(gè)駕駛習(xí)性數(shù)據(jù)樣本劃分為兩個(gè)子集，第一個(gè)子集包含33個(gè)樣本用來訓(xùn)練辨識(shí)模型，另一個(gè)子集包含1個(gè)樣本用來測(cè)試驗(yàn)證，如此，從001到034號(hào)被測(cè)駕駛?cè)说鸟{駛數(shù)據(jù)都可以得到有效的辨識(shí)測(cè)試，測(cè)試驗(yàn)證原理如圖8所示。

圖8 留一法測(cè)試驗(yàn)證原理

取300棵決策樹建立隨機(jī)森林模型進(jìn)行測(cè)試，測(cè)試結(jié)果如表3所示。針對(duì)保守型、一般型和激進(jìn)型駕駛習(xí)性所建立的隨機(jī)森林模型辨識(shí)的正確率分別為100%，100%和87.5%；隨機(jī)森林模型整體精準(zhǔn)度達(dá)到97.1%?？梢?，所建立的基于變量重要性的隨機(jī)森林模型可以有效辨識(shí)駕駛?cè)笋{駛習(xí)性。

表3 測(cè)試結(jié)果

為進(jìn)一步分析隨機(jī)森林模型辨識(shí)性能，分別采用基于Gini重要性分析獲取的3個(gè)特征變量以及全部的7個(gè)特征變量訓(xùn)練隨機(jī)森林模型，并從5棵開始逐漸增加隨機(jī)森林模型中決策樹的數(shù)目進(jìn)行測(cè)試，得到模型整體精準(zhǔn)度隨決策樹數(shù)量變化的結(jié)果，如圖9所示。

可見，當(dāng)隨機(jī)森林模型中決策樹的數(shù)目較少時(shí)，模型整體精準(zhǔn)度會(huì)隨著決策樹棵數(shù)的增加而提升。但當(dāng)決策樹超過300棵后，模型整體精準(zhǔn)度不但不會(huì)繼續(xù)提升，還會(huì)使模型過于復(fù)雜、增加計(jì)算量。此外，當(dāng)隨機(jī)森林模型中決策樹的數(shù)目較少時(shí)，采用7個(gè)特征變量訓(xùn)練的駕駛習(xí)性辨識(shí)模型的整體精準(zhǔn)度會(huì)略高，但當(dāng)決策樹超過200棵后，兩種模型的精度幾乎一致，采用基于變量重要性的隨機(jī)森林模型會(huì)更加簡(jiǎn)單易行。

4 結(jié)論

本文中提出了一種基于隨機(jī)森林模型的駕駛?cè)笋{駛習(xí)性辨識(shí)策略。首先，搭建了實(shí)車數(shù)據(jù)采集平臺(tái)，并設(shè)計(jì)了能最大程度激勵(lì)出不同駕駛?cè)瞬町惢{駛習(xí)性的試驗(yàn)工況，采集了駕駛?cè)烁囘^程中的典型駕駛數(shù)據(jù)。然后，采用層次聚類方法，將駕駛習(xí)性相近的被測(cè)駕駛?cè)笋{駛數(shù)據(jù)凝聚為關(guān)系緊密的3個(gè)簇，對(duì)應(yīng)3種類型：保守型、一般型和激進(jìn)型。在此基礎(chǔ)上，引入隨機(jī)森林模型理論，基于Gini指數(shù)對(duì)各屬性變量重要性進(jìn)行了分析，建立了基于變量重要性的隨機(jī)森林模型。最后，采用留一法對(duì)辨識(shí)模型進(jìn)行了測(cè)試驗(yàn)證分析。結(jié)果表明，本文中建立的辨識(shí)模型可以有效地辨識(shí)駕駛?cè)笋{駛習(xí)性，模型整體精準(zhǔn)度可以達(dá)到97.1%。當(dāng)隨機(jī)森林模型中決策樹的數(shù)目較少時(shí)，模型整體精準(zhǔn)度會(huì)隨著決策樹棵數(shù)和特征變量的增加而提升；但當(dāng)決策樹超過一定數(shù)量后，這些影響將顯著降低，采用基于變量重要性的隨機(jī)森林模型會(huì)更加簡(jiǎn)單易行。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡