国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向駕駛員的個(gè)性化健康導(dǎo)航

2021-05-26 01:14:04牟倫田趙藝遠(yuǎn)趙鵬飛BaharehNakisaRameshJain尹寶才
關(guān)鍵詞:駕駛員注意力準(zhǔn)確率

牟倫田, 周 朝, 趙藝遠(yuǎn), 趙鵬飛, Bahareh Nakisa, Ramesh Jain, 尹寶才

(1.北京工業(yè)大學(xué)信息學(xué)部北京人工智能研究院多媒體與智能軟件技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100124;2.迪肯大學(xué)科學(xué)工程與建造環(huán)境學(xué)部信息技術(shù)學(xué)院, 維多利亞 3216, 澳大利亞;3.加州大學(xué)歐文分校未來(lái)健康研究所, 爾灣 92697, 美國(guó))

據(jù)世界衛(wèi)生組織(world health organization, WHO)報(bào)道[1],道路交通事故每年造成全球約130萬(wàn)人死亡、2 000萬(wàn)~5 000萬(wàn)人受到非致命性傷害. 聯(lián)合國(guó)《2030年可持續(xù)發(fā)展議程》[2]確定2020年全球道路交通碰撞死亡和傷害數(shù)量減半的宏偉目標(biāo),這一目標(biāo)已經(jīng)無(wú)法實(shí)現(xiàn),減少道路交通傷害仍然任重道遠(yuǎn). 根據(jù)WHO的統(tǒng)計(jì)[1],引發(fā)交通事故的主要風(fēng)險(xiǎn)因素包括超速、在酒精或其他精神活性物質(zhì)影響下駕駛、不系安全帶和分心駕駛等. 根據(jù)美國(guó)國(guó)家公路交通安全管理局的報(bào)告[3],大約94%的交通碰撞事故是由于駕駛員的認(rèn)知錯(cuò)誤、決策錯(cuò)誤、操作錯(cuò)誤和非操作錯(cuò)誤(比如瞌睡)造成的. 因此,在加強(qiáng)道路安全執(zhí)法的同時(shí),從技術(shù)上和源頭上對(duì)駕駛員的身心健康狀態(tài)和駕駛行為進(jìn)行實(shí)時(shí)監(jiān)測(cè)并采取相應(yīng)的風(fēng)險(xiǎn)預(yù)警和健康調(diào)優(yōu)措施是減少道路交通事故、提升駕駛安全性的迫切需要.

傳感技術(shù)與物聯(lián)網(wǎng)技術(shù)的發(fā)展使得實(shí)時(shí)獲取駕駛員、車輛、道路和環(huán)境的多模態(tài)大數(shù)據(jù)變得容易,而機(jī)器學(xué)習(xí)等技術(shù)則為數(shù)據(jù)到知識(shí)的轉(zhuǎn)化提供了引擎. 針對(duì)駕駛員的健康,國(guó)內(nèi)外研究者已在壓力檢測(cè)、情緒檢測(cè)和疲勞檢測(cè)等方面取得一定研究進(jìn)展[4-6]. 例如,通過(guò)采集駕駛員心電圖(electrocardiogram,ECG)數(shù)據(jù)來(lái)檢測(cè)壓力,因?yàn)樵谟袎毫Φ那闆r下駕駛會(huì)激活自主神經(jīng)系統(tǒng)(autonomic neural system, ANS)的交感神經(jīng)部分,從而導(dǎo)致心臟活動(dòng)的突然增加[7]. 或者通過(guò)記錄腦電圖(electroencephalogram, EEG)來(lái)對(duì)睡眠進(jìn)行評(píng)分,因?yàn)樗甙l(fā)作和睡眠階段是根據(jù)腦電圖來(lái)定義的[8]. 有的研究人員用面部表情識(shí)別駕駛員因壓力引起的憤怒、厭惡等負(fù)面情緒[9]. 也有研究人員提出一種廣泛使用的基于車輛數(shù)據(jù)的駕駛員睡意水平檢測(cè)方法,使用轉(zhuǎn)向角傳感器測(cè)量方向盤運(yùn)動(dòng)[10].

采集單一的數(shù)據(jù)對(duì)駕駛員壓力、情緒和疲勞的檢測(cè)都有各自的優(yōu)點(diǎn)和缺點(diǎn),而使用多模態(tài)的混合數(shù)據(jù)可以有效提高檢測(cè)準(zhǔn)確率. 一些研究表明,基于行為數(shù)據(jù)和車輛數(shù)據(jù)相結(jié)合的檢測(cè)方法,其準(zhǔn)確性和可靠性明顯高于使用單一傳感器的方法[11-13]. 針對(duì)情緒檢測(cè),基于包括生理信號(hào)(如EEG)、環(huán)境數(shù)據(jù)(如天氣)、視頻數(shù)據(jù)(如捕獲的面部表情和手勢(shì))以及車輛的運(yùn)動(dòng)和位置數(shù)據(jù)在內(nèi)的多模態(tài)數(shù)據(jù)進(jìn)行建模,使用卷積神經(jīng)網(wǎng)絡(luò)[14](convolutional neural network, CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)[15](long short-term memory, LSTM)的混合神經(jīng)網(wǎng)絡(luò)對(duì)情感狀態(tài)進(jìn)行識(shí)別. 結(jié)果表明,基于深度學(xué)習(xí)方法的人類情感分類性能表現(xiàn)出色,并且多模態(tài)數(shù)據(jù)模型的性能優(yōu)于單模態(tài)數(shù)據(jù)模型[16]. 為了有效融合多模態(tài)數(shù)據(jù),本文引入注意力機(jī)制. 注意力機(jī)制早期用于機(jī)器翻譯,可以快速提取稀疏特征以完成自然語(yǔ)言處理任務(wù)[17]. 自注意力機(jī)制是注意力機(jī)制的一種改進(jìn)方法,它可以減少對(duì)外部數(shù)據(jù)的依賴并捕獲較長(zhǎng)數(shù)據(jù)或特征的內(nèi)部關(guān)系[18]. 自注意力機(jī)制可用于處理LSTM的隱藏狀態(tài)以完成分類任務(wù). 近年來(lái),研究人員將CNN- LSTM網(wǎng)絡(luò)[19]與自注意力機(jī)制結(jié)合起來(lái). 在場(chǎng)景文本圖像和視頻腳本的腳本識(shí)別問(wèn)題中,研究者提出一種基于自注意力機(jī)制的CNN- LSTM框架來(lái)提取局部和全局特征,從而對(duì)特征進(jìn)行動(dòng)態(tài)加權(quán)[20].

基于生理和行為數(shù)據(jù)的駕駛員壓力、情緒和疲勞檢測(cè)方法已取得一定進(jìn)展,但離應(yīng)用還有較遠(yuǎn)的距離. 究其原因,一是單模態(tài)模型的檢測(cè)性能還有待提升,二是接觸式檢測(cè)不便于實(shí)際推廣應(yīng)用. 雖然基于多模態(tài)數(shù)據(jù)的檢測(cè)方法已經(jīng)受到研究者的關(guān)注,但主要聚焦于駕駛員本身的生理數(shù)據(jù)和行為數(shù)據(jù)的結(jié)合,對(duì)車輛[21-22]和駕駛環(huán)境[23]等變化數(shù)據(jù)評(píng)估駕駛員健康狀態(tài)的重要性尚缺少深入研究. 另外研究者對(duì)于駕駛員的健康狀態(tài)還停留在檢測(cè)階段,忽略了對(duì)駕駛員的健康狀態(tài)進(jìn)行持續(xù)的引導(dǎo)和優(yōu)化.

針對(duì)上述的問(wèn)題和挑戰(zhàn),本文的主要工作如下:

1) 提出面向駕駛員的個(gè)性化健康導(dǎo)航架構(gòu). 具體而言,首先基于駕駛員的日志構(gòu)建個(gè)性化健康模型,然后結(jié)合實(shí)時(shí)采集的多模態(tài)數(shù)據(jù)(駕駛員、車輛和環(huán)境等)對(duì)駕駛員的當(dāng)前健康狀態(tài)做出全面評(píng)估,從而針對(duì)駕駛員預(yù)設(shè)目標(biāo)健康狀態(tài),給出可操作的行為建議.

2) 提出基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型,以構(gòu)建一個(gè)精確的駕駛員健康檢測(cè)系統(tǒng). 這種多模態(tài)融合模型不僅可以自動(dòng)提取特征,還可以權(quán)衡來(lái)自不同模態(tài)的特征,以提高駕駛員健康等級(jí)分類的性能.

3) 面向壓力、情緒和疲勞檢測(cè)分別構(gòu)建具體的多模態(tài)融合模型. 對(duì)于駕駛員壓力和情緒檢測(cè),結(jié)合了眼部、車輛和環(huán)境的多模態(tài)數(shù)據(jù),相比于生理數(shù)據(jù)可減少對(duì)駕駛員的干擾.

1 駕駛員個(gè)性化健康導(dǎo)航架構(gòu)與方法

1.1 總體架構(gòu)

受啟發(fā)于Nag等[24-25]提出的個(gè)性化健康導(dǎo)航(personal health navigation, PHN)研究范式,本文提出面向駕駛員的個(gè)性化健康導(dǎo)航(personal health navigation for drivers, PHN- D)架構(gòu),如圖1所示. 首先,根據(jù)駕駛員歷史日志,建立駕駛員個(gè)性化健康模型與個(gè)性化健康狀態(tài)空間. 然后,根據(jù)對(duì)駕駛員、車輛和道路環(huán)境實(shí)時(shí)監(jiān)測(cè)得到的各種數(shù)據(jù)進(jìn)行多模態(tài)分析,并結(jié)合個(gè)性化健康模型進(jìn)行健康狀態(tài)估計(jì),獲得駕駛員當(dāng)前健康狀態(tài). 最后,對(duì)比當(dāng)前健康狀態(tài)與目標(biāo)健康狀態(tài),并依據(jù)一定的優(yōu)化策略給駕駛員提供可執(zhí)行的健康狀態(tài)優(yōu)化行為建議. 針對(duì)架構(gòu)中最關(guān)鍵的健康狀態(tài)估計(jì)環(huán)節(jié),本文分別提出駕駛員壓力、情緒和疲勞檢測(cè)方法,以獲得對(duì)駕駛員健康狀態(tài)的綜合表征. 下文將詳細(xì)介紹各檢測(cè)方法,并給出實(shí)驗(yàn)驗(yàn)證.

圖1 駕駛員個(gè)性化健康導(dǎo)航架構(gòu)Fig.1 Architecture of personalized health navigation for drivers

1.2 壓力檢測(cè)方法

針對(duì)壓力檢測(cè),提出基于注意力的一維(1D)CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型,如圖2所示. 提出的模型通過(guò)融合眼部、車輛和環(huán)境數(shù)據(jù)來(lái)提取與壓力相關(guān)的特征,以對(duì)駕駛員的壓力水平進(jìn)行分類. 每位模擬駕駛員的駕駛數(shù)據(jù)均以隨機(jī)的順序在5個(gè)駕駛場(chǎng)景(城市1、城市2、高速公路、CBD1和CBD2)中采集. 每個(gè)駕駛場(chǎng)景都包含多個(gè)不同的壓力源,如表1所示,以使駕駛員產(chǎn)生不同程度的壓力. 數(shù)據(jù)標(biāo)簽是通過(guò)口頭問(wèn)答獲得. 每種場(chǎng)景下,每2 min要求駕駛員對(duì)他們的平均壓力水平提供簡(jiǎn)短回答. 即要求他們給出自己在0~3.0的壓力水平(0表示無(wú)壓力,3.0為高壓力). 這些數(shù)字隨后被映射到3個(gè)不同的壓力級(jí)別(0.1~1.0為低,1.1~2.0為中,2.1~3.0為高). 所提出的駕駛員壓力檢測(cè)模型包括4個(gè)步驟:預(yù)處理、特征提取、特征融合和分類,分述如下.

首先,使用滑動(dòng)窗口方法將每個(gè)模態(tài)的每個(gè)特征劃分為具有固定窗口大小和重疊度的時(shí)間窗口. 新的訓(xùn)練數(shù)據(jù)集由生成的時(shí)間窗口組成,每個(gè)時(shí)間窗口的標(biāo)簽與原始數(shù)據(jù)集相同. 為了減少駕駛員之間數(shù)據(jù)的個(gè)體差異,將所有數(shù)據(jù)特征(X)進(jìn)行標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)偏差.

(1)

式中:μ和σ分別為每個(gè)參與者所有特征的平均值

圖2 面向駕駛員壓力檢測(cè)的多模態(tài)融合模型Fig.2 Multimodal fusion model for driver stress detection

表1 搖不同駕駛場(chǎng)景中的不同壓力源 Table 1 Different stressors in different driving scenarios

在特征提取步驟中,將每種模態(tài)的訓(xùn)練數(shù)據(jù)集輸入到1D- CNN- LSTM框架以提取特征. 具體而言,訓(xùn)練數(shù)據(jù)集的分段時(shí)間窗口數(shù)據(jù)首先被送入1D- CNN來(lái)自動(dòng)學(xué)習(xí)特征. 由于時(shí)間窗口是時(shí)間序列,因此使用1D卷積層. 該特征提取框架由3個(gè)1D卷積層、3個(gè)最大池化層和2層LSTM組成. 表2列出了詳細(xì)的參數(shù)設(shè)置. 通過(guò)反復(fù)實(shí)驗(yàn)選擇具有最佳檢測(cè)精度的參數(shù)組合和模型框架. 卷積層使用滑動(dòng)濾波器提取有效特征. 卷積層的激活函數(shù)是指數(shù)線性單元(exponential linear unit,ELU),可以加快收斂速度并提高模型的魯棒性. 每一層卷積后都有一個(gè)最大池化層. 為了降低數(shù)據(jù)復(fù)雜度,最大池化層將數(shù)據(jù)量減少到原始的一半. 為了避免過(guò)度擬合,在池化層之后采用了退化(dropout)層. LSTM網(wǎng)絡(luò)通過(guò)門控機(jī)制處理時(shí)間序列,該門控機(jī)制包括遺忘門f、輸入門i和輸出門o,以及存儲(chǔ)單元c. 在每個(gè)時(shí)間步驟t,LSTM首先

表2 壓力檢測(cè)的1D- CNN- LSTM模型參數(shù)

計(jì)算門激活it(2)和ft(3),將存儲(chǔ)單元從ct-1更新到ct(4). 然后計(jì)算輸出門激活ot(5),最后輸出隱藏表示ht(6). LSTM的輸入是輸入觀察值xt和來(lái)自前一個(gè)時(shí)間步的隱藏表示ht-1,LSTM的更新操作公式為

it=σg(Wi*xt+Ui*ht-1+Vi°ct-1+bi)

(2)

ft=σg(Wf*xt+Uf*ht-1+Vf°ct-1+bf)

(3)

ct=ft°ct-1+it°σc(Wc*xt+Uc*ht-1+bc)

(4)

ot=σg(Wo*xt+Uo*ht-1+Vo°ct-1+bo)

(5)

ht=ot°σh(ct)

(6)

式中:Wi、Wf、Wo和Wc分別為輸入門、遺忘門、輸出門和存儲(chǔ)單元的權(quán)重矩陣;Vi、Vf和Vo分別為窺視孔連接的對(duì)角線權(quán)重矩陣;此外,Uw為隱藏表示的連接權(quán)重矩陣(其中w∈{i,f,o,c});bw分別為輸入、遺忘、輸出和存儲(chǔ)單元的偏置向量(其中w∈{i,f,o,c});σg(·) 為邏輯sigmoid函數(shù);σc(·)和σh(·)為tanh激活函數(shù);“*”為矩陣乘法;“°”為元素乘法.

在特征融合步驟中,將從眼部數(shù)據(jù)、車輛數(shù)據(jù)和環(huán)境數(shù)據(jù)生成的n個(gè)隱藏表示ht串接成隱藏表示族H

H=(h1,h2,…,hn)

(7)

由于不同的隱藏表示對(duì)壓力檢測(cè)的影響程度不同,因此引入自注意力機(jī)制來(lái)權(quán)衡所有隱藏表示. 隱藏表示ht通過(guò)注意力層計(jì)算出向量表示s,其公式為

ut=tanh (Wht+b)

(8)

(9)

(10)

式中:W為權(quán)重矩陣;b為偏置向量,u為一個(gè)可訓(xùn)練的參數(shù)向量,用于表示上下文信息. 首先,將隱藏表示ht送入全連接層,激活函數(shù)為tanh,得到ut作為ht的向量表示.ut的轉(zhuǎn)置乘以可訓(xùn)練的參數(shù)向量u,得到注意力的對(duì)齊系數(shù). 然后,利用softmax函數(shù)對(duì)對(duì)齊系數(shù)進(jìn)行歸一化處理,得到注意力向量αt. 最后,利用注意力向量αt計(jì)算出ht的加權(quán)和,得到向量表示s.

在分類步驟中,Softmax層將向量表示s轉(zhuǎn)換成條件概率分布. 該模型可以通過(guò)反向傳播的方式進(jìn)行端到端訓(xùn)練,其中目標(biāo)函數(shù)(損失函數(shù))為交叉熵?fù)p失(L). 設(shè)y和分別為目標(biāo)分布和預(yù)測(cè)分布,訓(xùn)練的目標(biāo)是使y和之間的交叉熵誤差最小化,公式為

=softmax(Wss+bs)

(11)

(12)

式中:Ws和bs分別為Softmax層的權(quán)重矩陣和偏置向量;i為樣本索引;j為類別索引. 壓力分類器包含低、中、高3種壓力級(jí)別.

1.3 情緒檢測(cè)方法

將基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型應(yīng)用在情緒檢測(cè)中,提出面向駕駛員情緒檢測(cè)的多模態(tài)融合模型,如圖3所示. 此模型在總體結(jié)構(gòu)上沿用壓力檢測(cè)模型框架.

首先,模型共享壓力檢測(cè)同一數(shù)據(jù)集,但對(duì)數(shù)據(jù)標(biāo)簽進(jìn)行了針對(duì)情緒的標(biāo)注. 為了描述駕駛員復(fù)雜的情感,采用基于認(rèn)知心理學(xué)的愉悅度- 興奮度- 支配度(valence-arousal-dominance,VAD)三維情感模型. 其中,愉悅度(valence)表示情感從消極到積極的愉悅程度;興奮度(arousal)表示情感從平靜到激動(dòng)的興奮程度;支配度(dominance)表示從被支配到處于高度支配的控制程度[26]. 情感維度標(biāo)記的方法采用自我評(píng)估人體模型表[27](self-assessment manikins,SAM),如圖4所示,愉悅度等級(jí)從左邊皺眉的圖形依次過(guò)渡到最右邊開(kāi)心的圖形,表示從消極到積極的愉悅程度(1~9). 興奮度等級(jí)從左邊閉眼平靜的圖形依次變化到最右邊睜眼激動(dòng)的圖形表示從平靜到激動(dòng)的興奮程度(1~9). 支配度的等級(jí)從左邊到右邊圖形依次變大,圖片越大表示支配程度越高(1~9). 圖中每一維度的人體模型只有5個(gè),任意2個(gè)人體模型圖之間的等級(jí)為介于2種等級(jí)之間更精細(xì)的等級(jí).

圖3 面向駕駛員情緒檢測(cè)的多模態(tài)融合模型Fig.3 Multimodal fusion model for driver’s emotion detection

圖4 自我評(píng)估人體模型描述維度情感的等級(jí)Fig.4 SAM used to describe levels of dimensional emotion

維度情感的標(biāo)注具體過(guò)程開(kāi)始于駕駛前. 首先在開(kāi)始實(shí)驗(yàn)前,要求參與實(shí)驗(yàn)者放松幾分鐘以便記錄其生理基線. 然后,參與者被要求駕駛車輛通過(guò)6種駕駛場(chǎng)景,第1個(gè)駕駛場(chǎng)景是一條簡(jiǎn)單的道路,參與者駕駛車輛通過(guò)這條道路去熟悉車輛模擬器的駕駛操作和實(shí)驗(yàn)流程. 經(jīng)過(guò)一些實(shí)驗(yàn)操作的訓(xùn)練后,參與者要在其余5個(gè)場(chǎng)景(城市1、城市2、高速公路、CBD1和CBD2)中進(jìn)行實(shí)驗(yàn). 在參與者駕駛的過(guò)程中傳感器會(huì)持續(xù)采集眼部、車輛和環(huán)境等模態(tài)數(shù)據(jù),而且在每個(gè)場(chǎng)景駕駛結(jié)束后由參與者在自我情緒評(píng)估表上選上自己的各維度情感等級(jí). 由于一些標(biāo)簽的缺失以及考慮到各標(biāo)簽的均衡性問(wèn)題,作者把每個(gè)維度由原來(lái)的9個(gè)等級(jí)聚合為5個(gè)等級(jí)(1~2為等級(jí)一,3~4為等級(jí)二,5為等級(jí)三,6~7為等級(jí)四,8~9為等級(jí)五).

在特征提取步驟中,對(duì)1D CNN模型的結(jié)構(gòu)進(jìn)行了微調(diào),如表3所示,將中間卷積層的卷積核使用多個(gè)較小的卷積核級(jí)聯(lián)代替,在保持感受視野不變的同時(shí),減小了計(jì)算的參數(shù)量,從而縮短了模型訓(xùn)練時(shí)間,此外,這種改變?cè)黾臃蔷€性的變換操作,使模型性能進(jìn)一步提升.

在分類步驟中,由于要實(shí)現(xiàn)對(duì)目標(biāo)情感的多分類任務(wù),因此,引入3個(gè)Softmax層同時(shí)對(duì)3個(gè)維度的情感(愉悅度、興奮度和支配度)進(jìn)行識(shí)別檢測(cè). 最后,模型通過(guò)最小化3個(gè)交叉熵?fù)p失函數(shù)的損失值總和進(jìn)行反向傳播,對(duì)模型網(wǎng)絡(luò)權(quán)重更新,從而實(shí)現(xiàn)對(duì)模型的優(yōu)化,以實(shí)現(xiàn)對(duì)駕駛員維度情感的準(zhǔn)確識(shí)別.

表3 情緒檢測(cè)的1D- CNN- LSTM模型參數(shù)

1.4 疲勞檢測(cè)方法

將基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型應(yīng)用在疲勞檢測(cè)中,提出面向駕駛員疲勞檢測(cè)的多模態(tài)融合模型,如圖5所示. 此模型在總體結(jié)構(gòu)上沿用壓力檢測(cè)模型框架.

圖5 面向駕駛員疲勞檢測(cè)的多模態(tài)融合模型Fig.5 Multimodal fusion model for driver’s fatigue detection

在預(yù)處理步驟中,使用預(yù)訓(xùn)練的人臉檢測(cè)器來(lái)提取面部圖像,該檢測(cè)器是對(duì)定向梯度的標(biāo)準(zhǔn)直方圖和線性支持向量機(jī)(support vector machines, SVM)的改進(jìn)[28]. 然后,利用面部標(biāo)志點(diǎn)定位和提取眼部、嘴部圖像[29]. 最后,使用改進(jìn)的全變差(total variation, TV)正則化和魯棒的L1范數(shù)(TV-L1)來(lái)實(shí)時(shí)提取頭部圖像相鄰幀的光流圖像[30].

在特征提取步驟中,由于ResNet[31]的殘差網(wǎng)絡(luò)可以解決或緩解深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失問(wèn)題,并且考慮到模型的復(fù)雜度對(duì)計(jì)算資源的要求,因此采用ResNet18作為圖像編碼器. 殘差網(wǎng)絡(luò)的結(jié)構(gòu)如圖6所示,殘差網(wǎng)絡(luò)塊提供了快捷連接,它將原始輸入信號(hào)x的身份映射添加到堆疊層的輸出. 殘差映射函數(shù)為

F(x)∶=H(x)+x

(13)

式中:H(x)為期望的底層映射;F(x)為堆疊的非線性層. 原始映射重新定義為F(x)+x. 殘差網(wǎng)絡(luò)的結(jié)構(gòu)既不會(huì)增加額外的參數(shù),也不會(huì)增加計(jì)算的復(fù)雜性,并能加快網(wǎng)絡(luò)訓(xùn)練速度. 在圖像處理中,ResNet能很好地提取圖像特征,是一種成功的圖像識(shí)別架構(gòu). 由于在同一模型下訓(xùn)練的3種模態(tài)會(huì)相互干擾模型參數(shù),因此采用獨(dú)立的ResNet18模型對(duì)眼部、嘴部和頭部光流的圖像進(jìn)行特征提取. 由于ResNet18的全局平均池化特征可以很好地保持圖像的空間結(jié)構(gòu),因此作者提取各模態(tài)圖像序列中每一幀的全局平均池化特征. 然后,利用2層LSTM模型在時(shí)間維度上對(duì)駕駛員的狀態(tài)進(jìn)行分析,其隱藏層維度為128. 最后,隱藏狀態(tài)族H經(jīng)過(guò)注意力層進(jìn)行特征融合,并通過(guò)Softmax層判斷駕駛員狀態(tài)是清醒或疲勞. 模型的損失通過(guò)使用二分類交叉熵?fù)p失函數(shù)計(jì)算.

圖6 殘差網(wǎng)絡(luò)的架構(gòu)Fig.6 Structure of the residual network

2 實(shí)驗(yàn)結(jié)果

2.1 數(shù)據(jù)集

針對(duì)駕駛員壓力和情緒檢測(cè)實(shí)驗(yàn)所需數(shù)據(jù)集,在澳大利亞昆士蘭科技大學(xué)的CARRS- Q高級(jí)駕駛模擬器[32]上獲取眼部數(shù)據(jù)、車輛數(shù)據(jù)和環(huán)境數(shù)據(jù)并實(shí)時(shí)監(jiān)控駕駛員的壓力和情緒狀態(tài),每個(gè)模態(tài)包含的特征如表4所示. 如圖7所示,該模擬器包括180°的前視屏幕、后視鏡圖像、真實(shí)的駕駛艙、可模擬駕駛環(huán)境的音頻系統(tǒng)和一個(gè)六自由度的運(yùn)動(dòng)平臺(tái),以及SCANeRTM系統(tǒng)[33]和FaceLABTM遠(yuǎn)程視頻眼動(dòng)儀[34]. 在實(shí)驗(yàn)中,22位參與者參與了數(shù)據(jù)收集,年齡21~40歲(男性55%).

圖7 CARRS- Q高級(jí)駕駛模擬器Fig.7 CARRS- Q advanced driving simulator

針對(duì)駕駛員疲勞檢測(cè)實(shí)驗(yàn),利用公開(kāi)的視頻數(shù)據(jù)集(NTHU- DDD)檢測(cè)駕駛員的疲勞狀態(tài)[35]. 該數(shù)據(jù)集包含22名參與者和380個(gè)視頻. 受試者坐在椅子上,用模擬驅(qū)動(dòng)輪和踏板玩簡(jiǎn)單的駕駛游戲時(shí)其數(shù)據(jù)被記錄下來(lái). 每個(gè)受試者記錄的序列可以被視為2個(gè)分支:清醒和疲勞. 視頻數(shù)據(jù)集是在5種不同的情況下收集的(白天戴眼鏡、白天不戴眼鏡和太陽(yáng)鏡、夜間不戴眼鏡、夜間戴眼鏡),每種情況都包括正常駕駛、緩慢眨眼、打哈欠、點(diǎn)頭和說(shuō)笑,如圖8所示.

圖8 NTHU- DDD數(shù)據(jù)集的一些樣本幀F(xiàn)ig.8 Some sample frames of NTHU- DDD dataset

表4 不同模態(tài)下的特征數(shù)據(jù)

2.2 壓力檢測(cè)實(shí)驗(yàn)結(jié)果

對(duì)于數(shù)據(jù)集的劃分,壓力檢測(cè)實(shí)驗(yàn)采用10折交叉驗(yàn)證方法來(lái)驗(yàn)證模型的性能. 具體來(lái)說(shuō),將數(shù)據(jù)集隨機(jī)打亂并分成10個(gè)等份,然后將其中1份用作測(cè)試集,將其余部分依次用作訓(xùn)練集. 最后,實(shí)驗(yàn)結(jié)果是10次壓力檢測(cè)結(jié)果的平均準(zhǔn)確率,下文簡(jiǎn)稱為平均準(zhǔn)確率.

表5展示了在單模態(tài)數(shù)據(jù)和多模態(tài)數(shù)據(jù)下不同模型的壓力檢測(cè)性能. 這3個(gè)多模態(tài)融合模型依次是基于LSTM的多模態(tài)融合模型、基于CNN- LSTM的多模態(tài)融合模型和基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型(CNN- LSTM- Attention),顯然,3個(gè)多模態(tài)融合模型的準(zhǔn)確率都優(yōu)于單模態(tài)模型,這意味著每種模態(tài)的信息可以通過(guò)融合模型互補(bǔ). 其中,眼部數(shù)據(jù)和車輛數(shù)據(jù)對(duì)壓力水平檢測(cè)結(jié)果的影響較大,而環(huán)境數(shù)據(jù)的影響較小. 由于不同模態(tài)的數(shù)據(jù)差異很大,因此利用注意力機(jī)制來(lái)處理具有不同影響程度的特征. 最終,基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型的平均準(zhǔn)確率達(dá)到95.5%,比傳統(tǒng)的CNN- LSTM模型高了4.7%,表明其在駕駛員壓力檢測(cè)中具有優(yōu)越性能.

表5 不同模型在不同模態(tài)下的駕駛員壓力檢測(cè)的平均準(zhǔn)確率

圖9 融合模型在不同窗口大小下的平均準(zhǔn)確率Fig.9 Average accuracy of the fusion model in different window sizes

在不同窗口大小下,基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型與其他模型的比較結(jié)果如圖9所示. 結(jié)果表明,提出的多模態(tài)融合模型在不同的窗口大小下都具有最優(yōu)的性能. 隨著窗口大小的增加,提出的多模態(tài)融合模型的平均準(zhǔn)確率在10 s和15 s窗口下分別提高了0.8%和1.8%. LSTM模型的平均準(zhǔn)確率不會(huì)隨著窗口大小的增加而提高. 盡管CNN- LSTM模型在10 s窗口中獲得良好的結(jié)果,但其平均準(zhǔn)確率仍低于提出的多模態(tài)融合模型. 特別地,提出的多模態(tài)融合模型在15 s窗口中的平均準(zhǔn)確率達(dá)到97.3%,與LSTM模型和CNN- LSTM模型相比,分別提高了29.1%和9.4%. 盡管大的窗口可以提高模型的平均準(zhǔn)確率,但提升的幅度并不明顯,并且5 s窗口下提出的多模態(tài)融合模型的平均準(zhǔn)確率仍高于其他模型. 本研究的目標(biāo)是建立一個(gè)自動(dòng)的駕駛員壓力檢測(cè)系統(tǒng),以便在實(shí)際情況下實(shí)時(shí)應(yīng)用,因此選擇了較小的窗口大小.

2.3 情緒檢測(cè)實(shí)驗(yàn)結(jié)果

圖10 各情感維度在不同模型下的平均準(zhǔn)確率Fig.10 Average accuracy of each emotional dimension in different models

對(duì)于數(shù)據(jù)集的劃分和平均準(zhǔn)確率的計(jì)算標(biāo)準(zhǔn),情緒檢測(cè)實(shí)驗(yàn)采用與壓力檢測(cè)的相同方法. 如圖10所示,實(shí)驗(yàn)結(jié)果為愉悅度、興奮度、支配度3個(gè)情感維度在不同模型結(jié)構(gòu)下的平均準(zhǔn)確率. 其中CNN- MLP是基于卷積神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)的多模態(tài)融合模型. 從圖中可以清晰地看出在3個(gè)模型下各情感維度的平均準(zhǔn)確率呈現(xiàn)一種逐漸上升的趨勢(shì),其中在提出的多模態(tài)融合模型下的各情感維度的平均準(zhǔn)確率最高. 通過(guò)3個(gè)模型的對(duì)比可以得知LSTM網(wǎng)絡(luò)在處理序列數(shù)據(jù)上的有效性,以及在LSTM層基礎(chǔ)上引入注意力層使得模型性能有了很大提升. 這是因?yàn)橐隠STM網(wǎng)絡(luò)層是考慮了各個(gè)特征數(shù)據(jù)序列之間的時(shí)間信息,加入注意力層能夠有效地權(quán)衡不同模態(tài)的特征進(jìn)而突出有效特征信息的作用.

在不同模態(tài)數(shù)據(jù)融合下,情感的各維度平均準(zhǔn)確率性能指標(biāo)如表6所示. 在僅使用環(huán)境或車輛單一模態(tài)數(shù)據(jù)時(shí)可以看出整體的平均準(zhǔn)確率較低,而使用眼部模態(tài)數(shù)據(jù)時(shí)有較高的平均準(zhǔn)確率,這表明眼部數(shù)據(jù)對(duì)于情感識(shí)別有著很大的相關(guān)性. 在使用任意2種模態(tài)數(shù)據(jù)相結(jié)合時(shí)可以看出各個(gè)情感維度的性能都有較大的提升. 以環(huán)境模態(tài)數(shù)據(jù)為例,雖然在僅使用環(huán)境的數(shù)據(jù)時(shí)測(cè)試出整體的平均準(zhǔn)確率很低,但在與不同模態(tài)數(shù)據(jù)結(jié)合時(shí)都使各維度的平均準(zhǔn)確率在原來(lái)單一模態(tài)數(shù)據(jù)基礎(chǔ)上有所提升. 由此可得出雖然使用單一模態(tài)時(shí)模型識(shí)別的平均準(zhǔn)確率很低,但可能在與其他模態(tài)數(shù)據(jù)結(jié)合時(shí)發(fā)揮重要作用,因?yàn)樗赡軐?duì)與其他模態(tài)數(shù)據(jù)存在著一定程度的影響關(guān)系,比如環(huán)境的變化可能會(huì)引起司機(jī)駕駛車輛行為或者眼部的變化. 在環(huán)境、車輛和眼部數(shù)據(jù)模態(tài)相融合時(shí),在興奮度這一維度的平均準(zhǔn)確率略低于環(huán)境和眼部數(shù)據(jù)融合時(shí)的平均準(zhǔn)確率,但總體上3種模態(tài)相融合時(shí)的平均準(zhǔn)確率較高. 綜上所述,多模態(tài)數(shù)據(jù)融合對(duì)于模型情感識(shí)別的性能有著很重要的影響,同時(shí)也證明了多模態(tài)數(shù)據(jù)融合對(duì)于提升駕駛員情緒檢測(cè)性能是一種有效的方法.

表6 不同模態(tài)下的各情感維度的平均準(zhǔn)確率

2.4 疲勞檢測(cè)實(shí)驗(yàn)結(jié)果

在駕駛員疲勞檢測(cè)方法中,數(shù)據(jù)集的視頻被分割成5 s的視頻段. 駕駛員眼部、嘴部和頭部圖像序列中視頻段的幀數(shù)(T)是不同的,對(duì)于眼部圖像序列T=75,對(duì)于嘴部圖像序列和頭部生成的光流圖像序列T=25. 為了公平地比較模型的性能,選擇每個(gè)數(shù)據(jù)集中70%的視頻片段作為訓(xùn)練集,10%作為驗(yàn)證集,20%作為測(cè)試集. 每個(gè)數(shù)據(jù)集的所有視頻片段被隨機(jī)分割5次,并報(bào)告5次疲勞檢測(cè)結(jié)果的平均F1值和平均準(zhǔn)確率. 遵循疲勞檢測(cè)的常規(guī)評(píng)估指標(biāo)[35],不僅將平均準(zhǔn)確率用作評(píng)估指標(biāo),而且還使用了F1評(píng)估指標(biāo),因?yàn)樗梢詫?duì)不平衡的樣本進(jìn)行合理的評(píng)估.F1由精度P和召回率R計(jì)算得出,即

(14)

為了驗(yàn)證基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型在疲勞檢測(cè)方面的有效性,在不同模態(tài)下對(duì)融合模型的性能進(jìn)行了對(duì)比實(shí)驗(yàn),如表7所示. 從實(shí)驗(yàn)結(jié)果可以看出,單模態(tài)的平均F1值和平均準(zhǔn)確率低于多模態(tài)組合. 其中眼部和嘴部的組合與單眼部模態(tài)相比平均準(zhǔn)確率提高了4.15%,眼部和頭部光流的組合與單眼部模態(tài)相比平均準(zhǔn)確率提高了3.35%. 嘴部和頭部光流的平均F1值和平均準(zhǔn)確率低于其他2個(gè)組合,結(jié)果表明眼部在3種模態(tài)中起著關(guān)鍵的作用. 最終,將眼部、嘴部和頭部光流數(shù)據(jù)結(jié)合起來(lái),提出的多模態(tài)融合模型的平均F1值和平均準(zhǔn)確率分別達(dá)到94.66%和93.77%,相比單模態(tài)眼部的平均F1值和平均準(zhǔn)確率分別提高了3.88%和4.57%. 結(jié)果表明,基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型在駕駛員疲勞檢測(cè)方面具有優(yōu)越的性能.

表7 融合模型在不同模態(tài)下的疲勞檢測(cè)性能

3 結(jié)論

1) 本文提出了一種面向駕駛員的個(gè)性化健康導(dǎo)航研究架構(gòu)與方法. 針對(duì)傳統(tǒng)研究只監(jiān)測(cè)駕駛員駕駛風(fēng)險(xiǎn)的做法,提出基于控制論基本原理的個(gè)性化健康導(dǎo)航方法,構(gòu)建從駕駛員個(gè)性化健康建模到健康狀態(tài)估計(jì)(多模態(tài)分析)再到健康狀態(tài)優(yōu)化的閉環(huán)控制系統(tǒng),從而使駕駛員健康得到持續(xù)優(yōu)化、駕駛安全得到持續(xù)提升.

2) 針對(duì)駕駛員壓力、情緒和疲勞檢測(cè),提出了一種基于注意力的CNN- LSTM網(wǎng)絡(luò)的多模態(tài)融合模型. 模型具有無(wú)接觸、高精度和實(shí)時(shí)性的特點(diǎn). 在高級(jí)駕駛模擬器采集的數(shù)據(jù)集和公開(kāi)數(shù)據(jù)集上,進(jìn)行了大量的實(shí)驗(yàn)來(lái)驗(yàn)證模型的性能. 實(shí)驗(yàn)結(jié)果表明,所提出的多模態(tài)融合模型可以有效地補(bǔ)充和權(quán)衡來(lái)自眼部、車輛和環(huán)境數(shù)據(jù)的信息,并且可以有效地融合來(lái)自眼部、嘴部和頭部光流的面部信息.

3) 下一步的工作將按照提出的個(gè)性化健康導(dǎo)航架構(gòu)完成系統(tǒng)的開(kāi)發(fā),并對(duì)健康狀態(tài)估計(jì)算法進(jìn)行改進(jìn),利用無(wú)監(jiān)督學(xué)習(xí)[36]在未標(biāo)注的數(shù)據(jù)上學(xué)習(xí)與駕駛員健康狀態(tài)相關(guān)的特征,從而解決標(biāo)注數(shù)據(jù)費(fèi)力、煩瑣、不準(zhǔn)確的問(wèn)題. 同時(shí),也希望能夠爭(zhēng)取到企業(yè)的合作,獲得真實(shí)的數(shù)據(jù)集,以便更加有效地開(kāi)展研究和推廣應(yīng)用.

猜你喜歡
駕駛員注意力準(zhǔn)確率
基于高速公路的駕駛員換道意圖識(shí)別
讓注意力“飛”回來(lái)
駕駛員安全帶識(shí)別方法綜述
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
起步前環(huán)顧四周是車輛駕駛員的義務(wù)
公民與法治(2016年4期)2016-05-17 04:09:26
松潘县| 绥化市| 二手房| 布拖县| 泊头市| 保定市| 柯坪县| 陵川县| 新绛县| 西和县| 高密市| 静海县| 安化县| 潮安县| 扎鲁特旗| 宾川县| 南汇区| 泌阳县| 大英县| 吴旗县| 固阳县| 大埔区| 永宁县| 高台县| 西乌| 茂名市| 嘉鱼县| 昌乐县| 乌拉特后旗| 平遥县| 揭阳市| 长治县| 同心县| 界首市| 潢川县| 安徽省| 鄂温| 无锡市| 颍上县| 永安市| 宜都市|