国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于眼動信號的感興趣檢測方法研究*

2024-03-23 07:30王新志張華宇宋愛國
傳感器與微系統(tǒng) 2024年3期
關(guān)鍵詞:眼動殘差尺度

王新志,曾 洪,張華宇,宋愛國

(東南大學(xué)儀器科學(xué)與工程學(xué)院,江蘇 南京 210096)

0 引 言

如今,基于機器智能的目標(biāo)檢測技術(shù)飛速發(fā)展,并在人臉識別、遙感圖像識別等領(lǐng)域取得廣泛應(yīng)用。然而,對于目標(biāo)遮擋或部分缺失等難例樣本,機器智能難以有效檢測,使用輸入設(shè)備,如鍵盤、鼠標(biāo)等為機器智能提供人工標(biāo)注難例樣本是常見的解決方案,但是存在標(biāo)注效率較低的問題[1,2]。

眼動信號是人眼球注視位置隨時間變化的時間序列數(shù)據(jù),其中的注視事件能夠分析人的相關(guān)認(rèn)知信息。通過分析被試執(zhí)行標(biāo)注任務(wù)的眼動信號可以自然地實現(xiàn)難例樣本標(biāo)注,已在實踐中探索出許多應(yīng)用[3,4],但現(xiàn)有研究多基于提取眼動信號特征、使用淺層模型分類的方法。受到深度學(xué)習(xí)取得廣泛應(yīng)用的啟發(fā),有學(xué)者提出InceptionTime 網(wǎng)絡(luò)[5],卷積長短期記憶(convolutional long short-term memory,ConvLSTM)網(wǎng)絡(luò)[6],LSTM-全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[7]等用于時間序列分類的深度網(wǎng)絡(luò)。深度學(xué)習(xí)方法具有無需特征工程、支持端到端訓(xùn)練等優(yōu)勢,但以上研究中未充分提取注視序列的不同尺度特征,未考慮各卷積通道的重要性關(guān)系。因此,研究多尺度特征和卷積通道權(quán)重分配對注視序列分類的影響很有意義。

本文提出一種基于眼動信號的感興趣檢測深度學(xué)習(xí)方法,旨在提高感興趣檢測精度,應(yīng)用于難例樣本標(biāo)注場景中。本文的創(chuàng)新點在于:一方面,使用眼動儀無接觸采集被試瀏覽圖像的眼動信號,并通過自適應(yīng)閾值算法提取出注視序列;另一方面,設(shè)計多尺度卷積殘差模塊學(xué)習(xí)注視序列不同尺度特征,并結(jié)合特征通道權(quán)重重分配模塊為不同卷積通道分配權(quán)重,提升感興趣檢測的精度和魯棒性。

1 感興趣檢測方法的總體設(shè)計

感興趣檢測方法的總體設(shè)計(圖1)先通過眼動儀采集被試瀏覽圖像的眼動信號;其次,通過自適應(yīng)閾值算法提取出注視序列,注視序列是信息加工的主要過程,也即當(dāng)前感興趣區(qū)域(region of interest,ROI);最后,通過多尺度殘差網(wǎng)絡(luò)對目標(biāo)ROI和非目標(biāo)ROI識別,提高感興趣檢測精度。

圖1 感興趣檢測方法的總體設(shè)計

1.1 注視序列提取算法

人的眼球運動能夠反映大腦內(nèi)部信息的加工過程,根據(jù)眼動速度可分為3 種基本眼動事件:注視(fixation)、掃視(saccade)和追隨運動(pursuit movement)。注視眼動是眼睛在目標(biāo)物體上的停留,是進行信息加工的主要過程,也即當(dāng)前ROI[8]。眼動儀以高時空分辨率精確地記錄眼睛注視位置以及運動軌跡,為研究視覺信息加工過程提供了有效的數(shù)據(jù)支持。

在眼動數(shù)據(jù)分析研究中,區(qū)分具體的眼動事件是至關(guān)重要的步驟。常用的眼動事件檢測是根據(jù)經(jīng)驗設(shè)置眼動速度閾值,根據(jù)閾值區(qū)分不同的眼動事件[9,10],但是由于個體差異,具體閾值的設(shè)置會對事件檢測結(jié)果產(chǎn)生影響。鑒于此,本文使用自適應(yīng)閾值算法實現(xiàn)眼動事件檢測,該算法主要包含預(yù)處理和眼動事件檢測。

首先,眼動信號預(yù)處理,目的是去除噪聲和獲取眼動速度序列。采用尖峰濾波器濾除異常尖峰,之后通過中值濾波和Savitzky-Golay濾波對數(shù)據(jù)平滑處理。最后按式(1)和式(2)分別計算出眼動角速度v和眼動角加速度a

式中t為2個注視點之間的時間間隔;x0,y0為第1 個注視點的像素坐標(biāo);xt,yt為第2個注視點的像素坐標(biāo);d為被試物與顯示器的距離。

其次,眼動事件檢測。計算掃視速度閾值,初始速度閾值為PT1(初始值范圍100 ~300°/s)[8],逐步計算n-1 范圍內(nèi)眼動角速度的中值和方差更新掃視速度閾值,更新公式如式(3)所示

式中 median 為中值;F為絕對中位差(median absolute deviation,MAD)縮放因子;vn-1為前n-1 個眼動角速度序列。

不斷更新掃視速度閾值,直到其穩(wěn)定在一定范圍內(nèi),停止條件如式(4)所示

在獲得掃視速度閾值后,將眼動角速度序列按照該閾值分塊,將大于追隨速度閾值的樣本標(biāo)注為追隨事件,其余樣本歸類為注視事件。保存所有注視序列,作為感興趣檢測樣本數(shù)據(jù)。

1.2 多尺度殘差網(wǎng)絡(luò)模型

注視序列是一種隨時間變換的時間序列,感興趣檢測是判斷某個注視序列是否為目標(biāo)注視序列,即注視目標(biāo)的認(rèn)知過程,非目標(biāo)注視序列是由圖片中干擾信息產(chǎn)生[11]。針對目前模型缺乏多尺度特征和各卷積通道重要性的研究,本文提出一種基于特征通道權(quán)重重分配的多尺度殘差網(wǎng)絡(luò)Res_Fix(如圖2),不但通過多尺度卷積捕獲不同時間尺度的眼動信號特征,而且通過特征通道權(quán)重重分配模塊分配各卷積特征通道的權(quán)重。網(wǎng)絡(luò)模型包括卷積濾波模塊、特征學(xué)習(xí)模塊和分類輸出模塊3 部分。卷積濾波模塊主要功能是增強眼動信號信噪比,特征提取模塊通過多尺度卷積和卷積特征通道權(quán)重重分配實現(xiàn),最后使用全連接(fully connected,F(xiàn)C)層和SoftMax函數(shù)實現(xiàn)分類,以下內(nèi)容將主要介紹多尺度卷積和卷積特征通道權(quán)重重分配的具體實現(xiàn)方法。

圖2 Res_Fix網(wǎng)絡(luò)結(jié)構(gòu)

一個健壯的時間序列分類算法應(yīng)該能夠捕獲不同時間尺度的序列數(shù)據(jù),因為長期特征反映總體趨勢,短期特征反映局部區(qū)域的細(xì)節(jié)變化。本文提出一種新的神經(jīng)網(wǎng)絡(luò)構(gòu)建塊ResTnet,通過在單個殘差塊內(nèi)構(gòu)建分層類殘差連接,增加了每層網(wǎng)絡(luò)感受野(receptive field)的多樣性,從而更好地獲得時間序列的多尺度特征。ResTnet 將多個一維卷積組通過殘差連接,增加了每層網(wǎng)絡(luò)感受野的多樣性,其內(nèi)部結(jié)構(gòu)如圖3(右)所示,圖3(左)表示殘差網(wǎng)絡(luò)的瓶頸(Bottleneck)模塊結(jié)構(gòu)。ResTnet采用一維卷積核處理時間序列,將不同卷積組之間以類似分層殘差的方式連接起來,最后將卷積輸出特征塊按通道拼接。這種特征先拆分后融合的方案,使得單個殘差塊內(nèi)融合多尺度特征。

圖3 Bottleneck模塊(左)和ResTnet模塊結(jié)構(gòu)(右)

SE 模塊的內(nèi)部結(jié)構(gòu)如圖4 右圖所示[12],包括“壓縮”(squeeze)操作、“激勵”(exciation)操作和“縮放”(scale)操作。首先,通過全局平均池化(Global pooling)實現(xiàn)二維張量的壓縮整合;其次,使用2個含激活函數(shù)且無偏置的FC層實現(xiàn)不同卷積通道特征重要性權(quán)重學(xué)習(xí),r為控制FC層通道數(shù)的超參數(shù);最后,將學(xué)習(xí)的權(quán)值與原特征映射進行逐通道的自適應(yīng)加權(quán),實現(xiàn)卷積特征通道權(quán)重重分配。

圖4 嵌入SE模塊的ResTnet結(jié)構(gòu)(左)和SE模塊內(nèi)部結(jié)構(gòu)(右)

2 實驗平臺與方案

2.1 實驗平臺

本文使用實驗室現(xiàn)有設(shè)備搭建感興趣檢測實驗平臺,主要使用Tobii Eye Tracker 4C眼動儀、戴爾臺式計算機和戴爾1 920 ×1 080 LCD 顯示器等硬件設(shè)備,圖5 為本文的實驗現(xiàn)場。視覺刺激程序和分類算法在Spyder 編譯器下通過Python編程實現(xiàn),所有深層網(wǎng)絡(luò)模型均通過調(diào)用開源深度學(xué)習(xí)框架Keras實現(xiàn),交叉驗證、模型評估和淺層模型通過調(diào)用開源機器學(xué)習(xí)框架Scikit-learn實現(xiàn)。

圖5 實驗現(xiàn)場

本文實驗所使用的圖像是從圖像公開數(shù)據(jù)集RSOD[13]、UCAS_AOD 中篩選出的,共包含198 張實驗圖像,圖像中1 ~3架飛機作為待搜索對象,為了緩解被試疲勞,單個被試實驗分為4 組。本文使用自由搜索視覺(free view)刺激范式采集被試搜索飛機目標(biāo)過程中的眼動信號,實驗流程如圖6所示。實驗前先校正眼動儀,并顯示提示語,1 s后開始實驗;然后,被試者自由搜索圖片中的飛機目標(biāo),眼動儀記錄搜索過程中的眼動信號,搜索完顯示1 s灰色背景;最后,每搜索10 張圖片休息1 min,直到完成一組實驗,休息5 min后進行下一組實驗。

圖6 自由搜索視覺刺激范式流程

按照此實驗范式,本文共采集8 位健康被試者的眼動數(shù)據(jù),其中包括2名女性,6 名男性,年齡范圍在23 ~26 歲之間。所有被試者實驗前精神狀態(tài)良好,均熟悉了自由搜索視覺刺激實驗流程。

2.2 實驗方案

本文感興趣檢測實驗的具體方案為,首先,采用自適應(yīng)閾值算法從自由搜索視覺范式采集的眼動數(shù)據(jù)中提取注視序列,所有被試共提取到4 300 個有效的待檢測注視序列;其次,采用本文提出的基于特征通道權(quán)重重分配多尺度殘差網(wǎng)絡(luò)對注視序列分類實現(xiàn)感興趣檢測,主要目的是對眼動數(shù)據(jù)中由“飛機”目標(biāo)(target)誘發(fā)的注視序列與其他非目標(biāo)(nontarget)注視序列進行分類。設(shè)計對比驗證實驗,將基于傳統(tǒng)淺層機器學(xué)習(xí)模型的方法支持向量機(support vector machine,SVM)和K 近鄰(K-nearest neighbor,KNN),以及文獻[5,6]提出的基于深層模型方法InceptionTime、ConvLSTM為基線(baseline),模型的特征、參數(shù)設(shè)置參考原文中的設(shè)置,在注視序列分類實驗中與本文所提方法的結(jié)果進行對比。網(wǎng)絡(luò)訓(xùn)練采用Adam優(yōu)化器和交叉熵?fù)p失函數(shù),在對模型分類結(jié)果進行評估時,使用準(zhǔn)確率(accuracy)作為評價指標(biāo)。

3 實驗結(jié)果與分析

3.1 網(wǎng)絡(luò)模型超參數(shù)選擇

本文對Res_Fix 中降維超參數(shù)r(圖4)的數(shù)值選取進行調(diào)試,結(jié)果如表1所示??芍稻S超參數(shù)使FC 層有不同的神經(jīng)元,對分類結(jié)果和參數(shù)量略有影響,當(dāng)r=4 時新增訓(xùn)練參數(shù)量較少且分類準(zhǔn)確率較高。因此,以下實驗中Res_Fix降維超參數(shù)均設(shè)置為4。

表1 Res_Fix中超參數(shù)r調(diào)試結(jié)果

3.2 注視序列分類結(jié)果分析

本文使用共計5種方法對注視序列數(shù)據(jù)進行了分類實驗,實驗結(jié)果如圖7 所示。為了比較各方法間是否具有顯著性差異(統(tǒng)計顯著性閾值選取為0.05),首先對所有方法的分類結(jié)果進行單因素方差檢驗,然后對各方法進行多重比較檢驗。實驗結(jié)果表明,相比于KNN、SVM、文獻[5,6]中深層模型,本文提出的Res_Fix 模型在注視序列分類上取得最優(yōu)結(jié)果。本文提出多尺度殘差網(wǎng)絡(luò)的分類準(zhǔn)確率和標(biāo)準(zhǔn)差達到0.960 5 ±0.005 1,一方面,說明本文提出的多尺度殘差網(wǎng)絡(luò)充分提取了注視序列特征、SE模塊能合理分配各卷積通道的權(quán)重;另一方面,深層模型分類結(jié)果的標(biāo)準(zhǔn)層較低,說明其對被試者的個體差異性具有更好的魯棒性。才會在注視序列分類任務(wù)上具有較好的準(zhǔn)確率和魯棒性。

圖7 各方法注視序列分類結(jié)果

統(tǒng)計顯著性檢驗結(jié)果表明,本文各方法的分類結(jié)果單因素方差檢驗中,P值遠(yuǎn)小于0.01,因此各方法分類結(jié)果之間存在統(tǒng)計顯著性差異。首先,文獻[5,6]以及本文的基于深層模型的方法(ConvLSTM,InceptionTime,Res_Fix)相比于基于淺層模型的方法(SVM、KNN)在注視序列分類任務(wù)上存在顯著性差異。本文提出模型與現(xiàn)有注視序列分類方法均存在顯著性差異,說明基于特征通道權(quán)重重分配多尺度殘差網(wǎng)絡(luò)能夠自動的學(xué)習(xí)注視序列中的特征信息并對其進行分類,該模型通過提取多尺度特征和特征通道權(quán)重重分配提高了刻意注視序列的預(yù)測準(zhǔn)確率。

4 結(jié) 論

為解決機器視覺中難例樣本標(biāo)注問題,本文引入視線追蹤技術(shù),通過檢測目標(biāo)誘發(fā)的感興趣注視序列來實現(xiàn)難例樣本標(biāo)注。該方案創(chuàng)新性在于,采用自適應(yīng)閾值算法提取出注視序列;使用多尺度殘差網(wǎng)絡(luò)模型提取注視序列不同尺度特征、為不同卷積通道分配權(quán)重。對比實驗結(jié)果表明,本文提出的基于特征通道權(quán)重重分配多尺度殘差網(wǎng)絡(luò)的感興趣檢測方法,在注視序列分類準(zhǔn)確率和魯棒性上優(yōu)于對比模型,達到了96%的檢測準(zhǔn)確率且提升效果具有統(tǒng)計差異。

本文研究的基于眼動信號的感興趣檢測方法可準(zhǔn)確分類注視序列,方便在難例樣本標(biāo)注應(yīng)用中使用。在未來工作中,將考慮融合多種自主神經(jīng)信號(如腦電信號)實現(xiàn)感興趣檢測,進一步提升感興趣檢測的精度和魯棒性。

猜你喜歡
眼動殘差尺度
基于雙向GRU與殘差擬合的車輛跟馳建模
基于眼動的駕駛員危險認(rèn)知
基于ssVEP與眼動追蹤的混合型并行腦機接口研究
基于殘差學(xué)習(xí)的自適應(yīng)無人機目標(biāo)跟蹤算法
財產(chǎn)的五大尺度和五重應(yīng)對
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
宇宙的尺度
國外翻譯過程實證研究中的眼動跟蹤方法述評
平穩(wěn)自相關(guān)過程的殘差累積和控制圖
眼動技術(shù)在數(shù)字媒體中的應(yīng)用