胡志明,李 勝,蓋 孟
用戶任務預測研究進展與算法分析
胡志明1,2,李 勝1,2,蓋 孟1,2
(1. 北京大學信息科學技術學院,北京 100871;2. 北京大學北京市虛擬仿真與可視化工程技術研究中心,北京 100871)
用戶在執(zhí)行不同任務時,會表現(xiàn)出不同的感知行為。知道用戶正在執(zhí)行的任務可以幫助進行用戶行為的分析,也可以作為智能交互系統(tǒng)的輸入,使得系統(tǒng)自動根據(jù)用戶不同的任務提供不同的功能,改善用戶的體驗。用戶任務預測指的是根據(jù)用戶的眼睛運動特征、場景內(nèi)容特征等相關信息來預測用戶正在執(zhí)行的任務。用戶任務預測是視覺研究領域中的一個熱門研究課題,研究者們針對不同的場景提出了很多有效的任務預測算法。然而,以往工作中提出的算法大多是針對一種特定類型的場景,且不同算法之間缺乏統(tǒng)一的測試和分析。本文首先回顧了圖片場景、視頻場景、以及現(xiàn)實場景中用戶任務預測問題的相關進展,接著對目前主要的任務預測算法進行了詳細的介紹。并在一個現(xiàn)實場景任務數(shù)據(jù)集上對相關算法進行了測試和分析,為未來的相關研究提供了有意義的見解。
用戶任務預測;感知狀態(tài)預測;任務分類;掃描路徑分類;機器學習
用戶在執(zhí)行不同的任務時,會表現(xiàn)出不同的感知行為[1-6]。知道用戶正在執(zhí)行的任務可以幫助研究者們更好地理解用戶的行為。用戶執(zhí)行的任務這一信息也可以作為智能交互系統(tǒng)的輸入[7-10],讓系統(tǒng)能夠根據(jù)用戶不同的任務來實現(xiàn)不同的功能,提升系統(tǒng)的智能化水平,改善用戶的體驗。
用戶任務預測指的是根據(jù)用戶的眼睛運動特征、場景內(nèi)容特征等相關信息來預測用戶正在執(zhí)行的任務。用戶任務預測是視覺研究領域中的一個熱門研究課題,受到了研究者們極大的關注和重視。并針對圖片場景、視頻場景、以及現(xiàn)實場景開展了大量的相關工作,提出了很多有效的任務預測算法。
然而,以往工作中提出的算法往往都是針對某一種特定類型的場景,例如人物圖片場景,這些算法在其他類型場景中的表現(xiàn)還有待研究。此外,不同的任務預測算法之間缺乏統(tǒng)一的測試和分析。
本文首先回顧了圖片場景、視頻場景以及現(xiàn)實場景中用戶任務預測問題的研究進展,接著對目前主要的幾種任務預測算法,即線性判別分析算法(linear discriminant analysis,LDA)、支持向量機(support vector machine,SVM)算法、Boosting算法、隨機森林算法(random forest,RFo)以及隨機蕨算法(random ferns,RFe)進行了詳細的介紹,并在一個現(xiàn)實場景任務數(shù)據(jù)集上對相關算法進行了測試和分析。本文的工作對未來有關用戶任務預測問題的研究具有重要的指導意義。
在1967年,YARBUS[11]針對用戶執(zhí)行的任務對其眼睛運動的影響開展了一項定性研究。其使用一張人物圖片作為實驗場景,收集了一名用戶分別在7個任務下的眼睛運動數(shù)據(jù)。這7個任務分別是:①自由觀看圖片;②判斷圖片中家庭的物質條件;③判斷圖片中人物的年齡;④猜測客人到來前該家庭做了什么;⑤記住人物的衣服;⑥記住房間里的人物和物體的位置;⑦判斷客人和這個家庭分離了多長時間。圖1展示了文獻[11]使用的實驗圖片以及用戶在這7個任務下的眼睛運動數(shù)據(jù)。發(fā)現(xiàn)用戶執(zhí)行的任務對其眼睛的運動產(chǎn)生了極大的影響。
圖1 YARBUS[11]使用的實驗圖片及其記錄的用戶在7個任務下的眼睛運動數(shù)據(jù)
文獻[11]的實驗結果暗示了可以通過用戶的眼睛運動來預測用戶的任務。受到啟發(fā),大量研究者開始探索逆YARBUS問題(inverse YARBUS problem),即用戶任務預測問題,指的是通過用戶的眼睛運動信息來預測用戶正在執(zhí)行的任務。YARBUS問題研究的是視覺任務到眼睛運動的映射,而逆YARBUS問題(用戶任務預測問題)研究的則是眼睛運動到視覺任務的映射。針對逆YARBUS問題,研究者們嘗試了使用用戶的眼睛運動特征、場景內(nèi)容特征等相關信息來預測用戶正在執(zhí)行的任務,并且在圖片場景、視頻場景、以及現(xiàn)實場景中均取得了顯著的進展。
圖片場景的用戶任務預測問題是計算機視覺和感知科學中的一個熱門研究課題,受到了研究者們極大的關注和重視。
GREENE等[12]研究了人物圖片場景中的用戶任務預測問題。其收集了64張人物圖片,每張圖片至少包含2個人物。用戶被要求去觀看圖片,并完成4個任務:記憶(memory),記住圖片的內(nèi)容;年代(decade),判斷圖片拍攝的年代;人物(people),判斷圖片中人物之間彼此熟悉的程度;財富(wealth),判斷圖片中人物的財富多少。其收集了用戶分別在以上4個任務中的眼睛運動數(shù)據(jù),用于研究該場景中的任務預測問題。
基于文獻[12]的工作,KANAN等[13]對用戶的眼睛運動數(shù)據(jù)重新進行了分析,并使用了SVM算法來預測用戶的任務,取得了更好的預測效果。
BORJI和ITTI[14]重新分析了文獻[12]收集的數(shù)據(jù),并進行了新的實驗來收集數(shù)據(jù)。其使用了15張人物圖片,并且要求用戶在觀看圖片時,完成文獻[11]原始的7個任務。用戶的眼睛運動數(shù)據(jù)被記錄下來,用于任務預測算法的訓練和測試。采用Boosting算法來預測用戶的任務,該算法在文獻[12]收集的數(shù)據(jù)和新收集的數(shù)據(jù)上都取得了良好的預測效果。
KüBLER等[15]也開展了與文獻[12]相似的工作。并使用2張人物油畫作為實驗場景,收集了用戶在自由觀察和年齡估計(估計油畫中人物的年齡) 2個不同任務下的眼睛運動數(shù)據(jù)。采用SVM算法來預測用戶的任務,并且在新收集的數(shù)據(jù)、文獻[12]和[14]的數(shù)據(jù)上分別進行了測試。結果表明,該算法具有較好的預測效果。
在文獻[12]和[14]工作的基礎上,F(xiàn)UHL等[16]提出了一種隨機蕨算法來預測用戶的任務,并分別在文獻[12]和[14]的數(shù)據(jù)上進行了模型的訓練和測試。結果表明,該算法的效果明顯優(yōu)于之前的方法。
文獻[7]關注自然圖片和文本圖片中的任務預測問題。其使用了196張自然圖片和140張文本圖片作為實驗場景。其中,自然圖片包含了室內(nèi)和室外的環(huán)境;文本圖片則取自網(wǎng)上的新聞報道,且包含了40~60個單詞。用戶在觀看圖片時,被要求完成4個不同的任務:場景記憶(scene memorization),記憶場景的內(nèi)容并完成相應的記憶測試;閱讀(reading),閱讀文本的內(nèi)容;場景搜索(scene search),在場景圖片中搜索嵌入的目標字母(“L”或“T”);偽閱讀(pseudo-reading),閱讀一些偽文本,偽文本中的文字由一些小方塊組成。文獻[7]收集了用戶在這4種任務下的眼睛運動數(shù)據(jù),且進行用戶任務的預測。
KOEHLER等[17]研究了自然圖片場景中,不同的任務對用戶視覺注意的影響。其使用了800張室內(nèi)和室外的場景自然圖片作為實驗場景。用戶被要求完成3個不同的任務即自由觀察(free viewing)、顯著性搜索(saliency search)以及特定目標搜索(cued object search)。并收集了用戶在這3個任務中的眼睛運動數(shù)據(jù),還分析了不同的任務對用戶眼睛運動產(chǎn)生的影響。
基于文獻[17]收集的數(shù)據(jù),BOISVERT和BRUCE[18]研究了用戶注視位置的空間分布、用戶注視位置的動態(tài)信息以及用戶觀察的圖片內(nèi)容3方面特征在任務預測這一問題中的重要性。并提出了一個隨機森林算法,結合了以上3方面特征來預測用戶的任務,取得了良好的預測效果。
COUTROT等[19]提出了一種基于線性判別分析的任務預測方法。其使用隱馬爾可夫模型從用戶的眼睛運動數(shù)據(jù)中提取特征,用于算法的訓練和測試。在文獻[17]收集的數(shù)據(jù)上進行了模型的測試,結果表明,該算法具有較高的預測精度。
研究者們還探索過視頻場景的用戶任務預測問題。
HILD等[20]專注于動態(tài)視頻場景中的用戶任務預測,并使用了如圖2所示的動態(tài)視頻來進行用戶數(shù)據(jù)的收集。該視頻是由一個固定視角的攝像機在街道上拍攝的,其時長為4 min。視頻中的動態(tài)信息主要包括走動的行人以及車輛的往來。用戶在觀看視頻的時候,被指派了4個任務:探索(explore),觀看視頻以熟悉視頻的內(nèi)容;觀察(observe),觀察視頻并檢測行人和車輛違反交通規(guī)則的情況;搜索(search),在視頻中尋找特定穿著的路人;追蹤(track),追蹤位于場景內(nèi)的并且距離自己最近的物體。文獻[20]收集了用戶在這4種任務下的眼睛運動數(shù)據(jù),用于預測用戶的任務。
圖2 文獻[20]研究的動態(tài)視頻場景
HADNETT-HUNTER等[21]則研究了虛擬場景中不同的任務對用戶視覺注意帶來的影響。使用了如圖3所示的3種虛擬場景,從左到右依次為室內(nèi)辦公室場景(indoor office space)、郊區(qū)街道場景(suburban street)以及沙漠垃圾場場景(desert junkyard)。用戶被要求在場景中分別完成自由觀察(free viewing)、目標搜索(object search)、以及路徑導航(path navigation) 3種不同的任務。其收集了用戶在3種任務下的眼睛運動數(shù)據(jù),用于分析不同的任務對用戶視覺注意產(chǎn)生的影響。
研究者們針對現(xiàn)實場景任務預測這一問題,開展了很多研究工作。
BULLING等[22]針對辦公室環(huán)境(office environment),預測了用戶日常進行的6種任務。圖4為文獻[22]所研究的辦公室場景以及場景中相應的6種日常任務。其任務包括:拷貝文本(copy)、閱讀打印下來的文件(read)、手寫做筆記(write)、觀看視頻(video)、瀏覽網(wǎng)頁(browse)、以及沒有具體任務的空閑狀態(tài)(null)。文獻[22]收集了用戶在6種任務下的眼動電波圖(electrooculography,EOG)數(shù)據(jù),用于進行用戶任務的預測。
文獻[8]對日常生活場景的任務預測問題進行了探索。圖5為文獻[8]所研究的日常生活場景,以及場景中相應的4種日常任務。從左至右的任務分別是:社交(social),和別人進行互動;感知(cognitive),專注在某件事上;物理(physical),進行物理上的運動;空間(spatial),進行空間上的移動。文獻[8]收集了用戶在日常生活中4種任務下的眼睛運動數(shù)據(jù),用于進行用戶任務的預測。
文獻[9]專注于閱讀場景,研究了預測用戶閱讀的文檔類型這一問題。圖6為文獻[9]所研究的閱讀場景以及所研究的5種文檔類型,從左至右依次是漫畫書(manga comic)、課本(textbook)、時尚雜志(fashion magazine)、小說(novel)以及報紙(newspaper)。并收集了用戶在閱讀不同類型的文檔時的眼睛運動數(shù)據(jù),用于預測用戶閱讀的文檔類型。
圖3 文獻[21]使用的實驗場景
圖4 文獻[22]所研究的辦公室場景和場景中相應的6種日常任務
圖5 文獻[8]所研究的日常生活場景和場景中相應的4種日常任務
圖6 文獻[9]研究的閱讀場景和相應的5種文檔類型
LIAO等[23]研究了現(xiàn)實環(huán)境行人導航(pedestriannavigation)場景中的用戶任務預測問題。5種常見的導航任務(navigation task)分別是:定位自己的位置和方向(self-localization and orientation)、搜索局部環(huán)境中的目標(local environment target search)、搜索地圖中的目標(map target search)、路線記憶(route memorization)以及步行至目的地(walking to the destination)。收集了用戶在5種導航任務中的眼睛運動數(shù)據(jù),用于預測用戶的任務。
LDA亦被稱為Fisher判別分析,是一種經(jīng)典的線性學習方法。該方法通過找到樣本特征的一個線性組合,形成一個線性分類器,以用來區(qū)分不同類別的樣本。
文獻[20]將線性判別分析應用到了用戶任務預測之中。首先采用I-VT算法[24]從原始的眼睛運動數(shù)據(jù)(raw gaze data)中提取了用戶的注視(fixation)信息,并進一步提取了用戶的注視特征來進行用戶任務的分類。提取的注視特征包括注視持續(xù)時間(fixation duration)、眼跳幅度(saccade amplitude)、眼跳速度(saccade velocity)的均值和方差、每秒平均的注視數(shù)目(number of fixations per second)、注視直徑(fixation diameter)的均值以及注視角度(fixation angle)的均值和方差。其中,注視直徑是以屬于一個注視的所有原始眼睛運動位置的最小包圍圓(smallest enclosing circle)來計算的。注視角度則是由相鄰3個注視的中心位置所形成的夾角來確定的。文獻[20]以類內(nèi)協(xié)方差(intra-class covariance)最小、并且類間協(xié)方差(inter-class covariance)最大為優(yōu)化目標,學習不同注視特征的權重,并對特征進行線性組合形成一個線性判別分類器,區(qū)分用戶不同的任務。
文獻[19]也將線性判別分析應用到了任務預測之中。與文獻[20]不同的是,其采用隱馬爾可夫模型(hidden Markov models)從原始的眼睛運動數(shù)據(jù)中提取特征,并為用戶的每一個掃描路徑(scanpath)訓練了一個隱馬爾可夫模型,提取了24個特征值。接著學習了不同特征值的權重,以生成線性判別分類器,用于區(qū)分用戶不同的任務。
3.游覽目的以陪伴小朋友及家人、放松身心、舒緩壓力和增長知識占據(jù)主導地位,這說明動物園核心吸引力并沒有被削弱。但動物園的娛樂項目的滿意度卻得到最高的評價,說明動物園在創(chuàng)新發(fā)展與轉型過程中,核心吸引物有被削弱的趨勢。
SVM是一種經(jīng)典的機器學習分類模型。其基本思想是找到一個定義在特征空間上的間隔最大的線性分類器,對樣本進行分類。通過引入核技巧,其將輸入特征隱式映射到高維特征空間中,可以有效地實現(xiàn)非線性分類。
文獻[22]將SVM應用到了用戶任務預測的問題之中,采用眼動電波圖測量技術(electrooculography,EOG)記錄了用戶在不同任務中的眼球運動信息,并從中提取了用戶的注視(fixation)、眼跳(saccade)、以及眨眼(blink)等信息。其使用了極小冗余極大相關性(minimum redundancy maximum relevance)的特征提取方法,從原始的特征中選取了較為重要的特征,訓練一個具有線性核函數(shù)的SVM,并取得了良好的任務預測效果。
文獻[8]也從用戶的眼睛運動中提取了相應的特征進行SVM的訓練,用于預測用戶的任務。其將用戶原始的眼睛運動編碼為可以代表眼睛在不同方向運動的字符串(string of symbols)。其中,連續(xù)的眼睛運動被編碼為具有不同長度的單詞(word),用來作為進行分類的基本特征。接著采用字符串核函數(shù)(string kernel function)將輸入的字符特征映射到高維特征空間,以此進行SVM的學習和分類。
文獻[13]也將SVM應用到了任務預測之中,并采用Fisher核學習(Fisher kernel learning)的方法[25]從原始的眼睛運動數(shù)據(jù)中提取Fisher核特征,還采用主成分分析(principal component analysis)的方法降低特征的維度。最后采用高斯徑向基函數(shù)(Gaussian radial basis function)作為核函數(shù),進行SVM的學習和分類。
COCO和KELLER[26]使用了用戶眼睛運動的空間特征和時間特征來預測用戶的任務。使用的特征包含了用戶開始第一次眼睛運動的時間、用戶注視的數(shù)目、眼跳幅度的均值、用戶在物體上注視的總數(shù)以及場景中視覺注意空間分布的信息熵(the entropy of the attentional landscape),并使用SVM對用戶眼睛運動的空間和時間特征進行學習,用于預測用戶的任務。
文獻[15]從用戶的眼睛運動數(shù)據(jù)中提取了序列特征來進行用戶任務的預測,并將用戶的掃描路徑(scanpath)編碼為字符串,將其切分為多個短小的子序列。其提取了子序列的頻率特征,訓練一個具有線性核函數(shù)的SVM,用于預測任務。
文獻[19]則是使用了隱馬爾可夫模型(hidden Markov models)從原始的眼睛運動數(shù)據(jù)中提取特征,接著將提取的特征輸入到具有線性核函數(shù)的SVM中進行學習和預測。
Boosting算法也稱為提升算法,是一種經(jīng)典的集成學習算法。其通過對訓練樣本的權重進行調(diào)整,學習多個不同的弱分類器,并進行線性組合,用以提升分類的效果。
文獻[19]則使用了Boosting算法中的AdaBoost來進行用戶任務的預測。其是一種非常具有代表性的Boosting算法,可通過提高前一輪錯誤分類樣本的權重以及降低正確分類樣本的權重,以此不斷調(diào)整訓練數(shù)據(jù)的權重來迭代地訓練多個弱分類器。接著采用加權多數(shù)表決的方式,即加大分類誤差小的弱分類器的權重、減小分類誤差大的弱分類器的權重,并將多個弱分類器進行組合分類。文獻[19]采用了隱馬爾可夫模型提取用戶眼睛運動數(shù)據(jù)中的特征,并進而用于AdaBoost的訓練和測試。
RFo是一種簡單、高效的集成學習算法。其以決策樹(decision tree)作為基本的弱分類器,并且在決策樹的訓練過程中使用了隨機屬性選擇的策略,使得集成后的分類器具有更好的泛化性能。
SUGANO等[27]將RFo應用到了用戶任務預測之中,并提取了多種不同的用戶注視和眼跳特征,進行RFo的訓練和測試。提取的用戶注視特征包括注視位置的均值、方差、協(xié)方差(covariance),注視持續(xù)時間的均值、方差、總和,注視起始時間的均值、方差以及注視的總數(shù)。提取的眼跳特征包括眼跳方向的均值、方差、協(xié)方差,眼跳長度和眼跳持續(xù)時間的均值、方差、總和,眼跳起始時間的均值、方差以及眼跳的總數(shù)。RFo以注視和眼跳的特征作為輸入,進行用戶任務的預測。
文獻[18]也使用了RFo來預測用戶的任務,并從用戶注視位置的空間分布、用戶注視位置的動態(tài)信息以及用戶觀察的圖片內(nèi)容上提取了不同的特征,研究其與用戶任務之間的聯(lián)系。具體來說,其統(tǒng)計了用戶注視位置在圖片內(nèi)容上的空間分布,并提取了用戶注視位置的分布密度圖(fixation density map)。共使用了包含48個濾波器的Leung–Malik濾波器組(Leung–Malik filter bank)[28],從圖片內(nèi)容上用戶注視位置所在的區(qū)域上提取了相應的圖像特征。也從圖片中用戶注視的區(qū)域中計算了不同方向梯度的直方圖分布(histogram of oriented gradients)。還使用Gist描述子[29]從圖像內(nèi)容中提取了場景的整體結構特征。最后,將提取的所有特征整合到一起,進行RFo的訓練,并取得了良好的預測效果。
文獻[20]也將RFo應用到了用戶任務預測這一問題之中,并從用戶的注視信息中提取了相應的特征,用于進行RFo的訓練。提取的特征包括注視持續(xù)時間的均值和方差、眼跳幅度的均值和方差、眼跳速度的均值和方差、每秒平均的注視數(shù)目、注視直徑的均值以及注視角度的均值和方差。RFo由一系列的決策樹組成,文獻[20]嘗試了不同數(shù)目的決策樹組合,最終選定了100個決策樹組成了RFo,用于預測用戶的任務。
文獻[19]也使用了RFo來預測用戶的任務。利用了隱馬爾可夫模型從原始的眼睛運動數(shù)據(jù)中提取了相應的特征,進行RFo的訓練和測試。
文獻[23]從用戶的眼睛運動數(shù)據(jù)中提取了統(tǒng)計特征、空間特征以及時間特征,用于進行RFo的學習。具體來說,眼睛運動的統(tǒng)計特征包括注視、眼跳、眨眼以及瞳孔直徑(pupil diameter) 4個典型眼睛運動參數(shù)的基本統(tǒng)計信息,例如頻率、最大值、最小值、均值及偏度(skewness)。眼睛運動的空間特征包括注視分布特征和眼跳方向特征。眼睛運動的時間特征包括不同時間分段(time slicing)的統(tǒng)計特征,以及從眼跳時間序列中提取的特征。所有的特征都被作為RFo的輸入,用于模型的訓練和預測。
RFe是一種以蕨(fern)算法作為基本分類器的集成學習算法,具有容易訓練、分類速度快、分類精度高等優(yōu)點。蕨算法通過對輸入特征進行(是蕨算法的尺寸參數(shù))次二進制測試(binary test),將輸入特征映射為了一個長度為,每一位的值為0或者1的特征向量。將該特征向量轉換到10進制,就得到了范圍在[0, 2–1]之間的一個數(shù)值。換言之,蕨算法的功能是將輸入特征映射為[0, 2–1]范圍內(nèi)的一個特征值。在訓練的過程中,蕨算法將所有的輸入特征都映射為特征值,并統(tǒng)計了屬于每個類別的特征值直方圖分布。在預測時,蕨算法先將輸入特征映射為特征值,再從每個類別的直方圖上查看該特征值的分布概率,并選取使得特征值具有最大分布概率的類別作為預測的類別。RFe算法則是集成了多個蕨算法來進行預測。使用了多個獨立的蕨算法,每個蕨算法隨機選取了輸入特征的一個子集作為輸入來進行訓練。對輸入特征進行分類時,首先查找該輸入特征的相應子集在各個蕨算法中得到的不同類別的分布概率,再將不同蕨算法得到的分布概率相乘,得到該輸入特征在所有類別上的概率,最后選取概率最大的類別作為預測的類別。
文獻[16]將RFe算法應用到了用戶任務預測之中,并取得了良好的預測效果。其從用戶原始的眼睛運動數(shù)據(jù)中提取了用戶的注視和眼跳信息,以連續(xù)的眼跳角度(saccade angle succession)作為輸入特征,進行RFe算法的訓練和測試。分別在2個用戶任務預測的數(shù)據(jù)集[12,14]上測試了模型的效果。結果表明,該算法具有較好的預測精度。
本文對第2節(jié)介紹的任務預測算法進行了測試。采用了文獻[19]提供的MATLAB工具箱中實現(xiàn)的LDA,SVM,Boosting算法以及RFo來進行測試。該工具箱使用隱馬爾可夫模型從用戶原始的眼睛運動數(shù)據(jù)中提取了相應的特征,作為任務預測算法的輸入進行模型的訓練。本文采用了文獻[16]提供的源代碼,對RFe算法進行測試。
本文采用分類準確率,即正確分類的樣本數(shù)占總樣本數(shù)的比例,作為任務預測算法的評價指標。
本文采用最近發(fā)布的一個現(xiàn)實場景任務數(shù)據(jù)集,即GW數(shù)據(jù)集[30]進行算法的測試。該數(shù)據(jù)集收集了19名用戶在現(xiàn)實環(huán)境中,執(zhí)行4種不同任務時的眼睛運動數(shù)據(jù),每個任務的持續(xù)時間是3 min左右。圖7為GW數(shù)據(jù)集的實驗場景和相應的4種任務。從左至右依次是:室內(nèi)導航(indoor navigation),在室內(nèi)按照指定的路徑來行走;接球(ball catching),接住扔過來的球;視覺搜索(visual search),在場景中搜索具有幾何形狀(例如三角形、矩形)的物體;沏茶(tea making)。
圖7 GW數(shù)據(jù)集的實驗場景和相應的4種任務[30]
該數(shù)據(jù)集是目前公布的最大的任務數(shù)據(jù)集。因而,本文選擇在該數(shù)據(jù)集上進行任務預測算法的測試。
本文將GW數(shù)據(jù)集中的用戶眼睛運動數(shù)據(jù)以25 Hz的頻率進行采樣,并以10 s為一個窗口來進行切片,并用于模型的訓練。相鄰2個窗口的間距設置為1 s。本文采用五折交叉驗證的方法來測試各個算法的效果。具體而言,本文將GW數(shù)據(jù)集中的數(shù)據(jù)按照用戶的不同,平均分成了5份(五折),每次使用其中4份數(shù)據(jù)進行模型的訓練,在剩下的1份數(shù)據(jù)上進行測試,一共進行了5組測試。表1為五折交叉驗證的測試結果??梢钥吹?,RFo算法在五折平均的預測表現(xiàn)是最優(yōu)的。
表1 不同任務預測算法的五折交叉驗證測試結果(%)
本文在一臺處理器為Intel(R) Xeon(R) CPU E3-1230 v5 @3.40 GHz,內(nèi)存為16.0 GB的機器上,對各個算法的運行效率進行了測試。本文在測試時發(fā)現(xiàn),各算法在訓練時比較耗時,模型訓練好后,測試時的效率都非常高,各算法對單個樣本的測試時間均小于1 ms。因而,本文著重測試了各算法的訓練時間。表2為各算法的訓練時間??梢钥吹?,LDA算法的訓練效率顯著高于其他算法。
表2 不同任務預測算法的訓練時間對比
表3總結了本文測試的不同任務預測算法的特點。就預測精度而言,預測效果最好的是RFo算法,其次是LDA算法。就時間復雜度而言,LDA算法的時間復雜度最低,Boosting和RFo算法的時間復雜度也不高。綜合預測精度和時間復雜度2方面來考慮,最好的2個任務預測算法分別是LDA和RFo算法。
表3 不同任務預測算法的特點對比
LDA算法由于只使用了樣本特征的一個線性組合生成一個線性分類器來進行分類,因而其時間復雜度非常低,訓練效率特別高。RFo算法在決策樹的訓練過程中使用了隨機屬性選擇的策略,使得集成后的分類器具有更好的泛化性能,因而具有非常好的預測精度。
針對一般的用戶任務預測問題,推薦先使用訓練速度快的LDA算法獲取一個初步的結果,再嘗試使用RFo算法,取得更好的預測性能。
目前,針對用戶任務預測這一問題,研究者們大都只關注某一種特定類型的場景,例如自然圖片場景、視頻場景,并通過收集用戶在場景中執(zhí)行不同任務時的實驗數(shù)據(jù)來進行用戶任務的預測。由于一種特定類型的場景中收集的用戶數(shù)據(jù)往往規(guī)模較小,研究者們通常都是采用所需訓練樣本較少的傳統(tǒng)機器學習算法,例如RFo算法來進行用戶任務的預測。
近年來,基于大量訓練數(shù)據(jù)的深度學習算法開始被廣泛地應用于各個領域之中,并且取得了很多突破性的成果。相信隨著任務數(shù)據(jù)集規(guī)模的進一步擴大,深度學習算法很快也將被引入到用戶任務預測這一問題之中,以實現(xiàn)更高的預測精度。
用戶任務預測是視覺研究領域中的一個熱門課題,任務預測算法在智能交互系統(tǒng)以及相關領域中具有重要的應用前景。本文重點回顧了圖片場景、視頻場景以及現(xiàn)實場景中用戶任務預測問題的相關研究進展。本文深入介紹了目前主要的幾種任務預測算法,即LDA,SVM,Boosting算法、RFo和RFe。本文進一步在一個現(xiàn)實場景任務數(shù)據(jù)集上測試了各個算法的效果,并進行了相關的分析與討論。本文的工作對未來有關用戶任務預測的研究具有重要的指導作用。
[1] HU Z M, ZHANG C Y, LI S, et al. SGaze: a data-driven eye-head coordination model for realtime gaze prediction[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(5): 2002-2010.
[2] HU Z M. Gaze analysis and prediction in virtual reality[C]// 2020 IEEE Conference on Virtual Reality and 3D User Interfaces (VR). New York: IEEE Press, 2020: 543-544.
[3] HU Z M, LI S, GAI M. Temporal continuity of visual attention for future gaze prediction in immersive virtual reality[J]. Virtual Reality & Intelligent Hardware, 2020, 2(2): 1-11.
[4] HU Z M, LI S, ZHANG C Y, et al. DGaze: CNN-based gaze prediction in dynamic scenes[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(5): 1902-1911.
[5] HU Z M, BULLING A, LI S, et al. FixationNet: forecasting eye fixations in task-oriented virtual environments[J]. IEEE Transactions on Visualization and Computer Graphics, 2021, 27(5): 2681-2690.
[6] HU Z M. Eye Fixation Forecasting in Task-Oriented Virtual Reality[C]//2020 IEEE Conference on Virtual Reality and 3D User Interfaces (VR). New York: IEEE Press, 2021: 707-708.
[7] HENDERSON J M, SHINKAREVA S V, WANG J, et al. Predicting cognitive state from eye movements[J]. PLoS ONE, 2013, 8(5): e64937.
[8] BULLING A, WEICHEL C, GELLERSEN H. EyeContext: recognition of high-level contextual cues from human visual behaviour[C]//2013 SIGCHI Conference on Human Factors in Computing Systems. New York: ACM Press, 2013: 305-308.
[9] KUNZE K, UTSUMI Y, SHIGA Y, et al. I know what you are reading: recognition of document types using mobile eye tracking[C]//2013 International Symposium on Wearable Computers. New York: ACM Press, 2013: 113-116.
[10] LETHAUS F, BAUMANN M R, K?STER F, et al. A comparison of selected simple supervised learning algorithms to predict driver intent based on gaze data[J]. Neurocomputing, 2013, 121: 108-130.
[11] YARBUS A L. Eye movements and vision[M]. Heidelberg: Springer, 1967: 171-211.
[12] GREENE M R, LIU T, WOLFE J M. Reconsidering Yarbus: a failure to predict observers’ task from eye movement patterns[J]. Vision Research, 2012, 62: 1-8.
[13] KANAN C, RAY N A, BSEISO D N, et al. Predicting an observer’s task using multi-fixation pattern analysis[C]//2014 Symposium on Eye Tracking Research & Applications. New York: ACM Press, 2014: 287-290.
[14] BORJI A, ITTI L. Defending Yarbus: eye movements reveal observers’ task[J]. Journal of Vision, 2014, 14(3): 29-29.
[15] KüBLER T C, ROTHE C, SCHIEFER U, et al. SubsMatch 2.0: scanpath comparison and classification based on subsequence frequencies[J]. Behavior Research Methods, 2017, 49(3): 1048-1064.
[16] FUHL W, CASTNER N, KüBLER T, et al. Ferns for area of interest free scanpath classification[C]//The 11th ACM Symposium on Eye Tracking Research & Applications. New York: ACM Press, 2019: 1-5.
[17] KOEHLER K, GUO F, ZHANG S, et al. What do saliency models predict?[J]. Journal of Vision, 2014, 14(3): 14-14.
[18] BOISVERT J F, BRUCE N D. Predicting task from eye movements: on the importance of spatial distribution, dynamics, and image features[J]. Neurocomputing, 2016, 207: 653-668.
[19] COUTROT A, HSIAO J H, CHAN A B. Scanpath modeling and classification with hidden Markov models[J]. Behavior Research Methods, 2018, 50(1): 362-379.
[20] HILD J, VOIT M, KüHNLE C, et al. Predicting observer's task from eye movement patterns during motion image analysis[C]//2018 Symposium on Eye Tracking Research & Applications. New York: ACM Press, 2018: 1-5.
[21] HADNETT-HUNTER J, NICOLAOU G, O'NEILL E, et al. The effect of task on visual attention in interactive virtual environments[J]. ACM Transactions on Applied Perception (TAP), 2019, 16(3): 1-17.
[22] BULLING A, WARD J A, GELLERSEN H, et al. Eye movement analysis for activity recognition using electrooculography[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(4): 741-753.
[23] LIAO H, DONG W H, HUANG H S, et al. Inferring user tasks in pedestrian navigation from eye movement data in real-world environments[J]. International Journal of Geographical Information Science, 2019, 33(4): 739-763.
[24] SALVUCCI D D, GOLDBERG J H. Identifying fixations and saccades in eye-tracking protocols[C]//2000 Symposium on Eye Tracking Research & Applications. New York: ACM Press, 2000: 71-78.
[25] VAN DER MAATEN L. Learning discriminative fisher kernels[C]//2011 International Conference on Machine Learning. Washington, DC: Omnipress, 2011: 217-224.
[26] COCO M I, KELLER F. Classification of visual and linguistic tasks using eye-movement features[J]. Journal of Vision, 2014, 14(3): 11-11.
[27] SUGANO Y, OZAKI Y, KASAI H, et al. Image preference estimation with a data-driven approach: a comparative study between gaze and image features[J]. Journal of Eye Movement Research, 2014, 7(3): 5, 1-9.
[28] LEUNG T, MALIK J. Representing and recognizing the visual appearance of materials using three-dimensional textons[J]. International Journal of Computer Vision, 2001, 43(1): 29-44.
[29] OLIVA A, TORRALBA A. Building the gist of a scene: the role of global image features in recognition[J]. Progress in Brain Research, 2006, 155: 23-36.
[30] KOTHARI R, YANG Z, KANAN C, et al. Gaze-in-wild: a dataset for studying eye and head coordination in everyday activities[J]. Scientific Reports, 2020, 10(1): 1-18.
Research progress of user task prediction and algorithm analysis
HU Zhi-ming1,2, LI Sheng1,2, GAI Meng1,2
(1. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China;2. Beijing Engineering Technology Research Center of Virtual Simulation and Visualization, Peking University, Beijing 100871, China)
Users’ cognitive behaviors are dramatically influenced by the specific tasks assigned to them. Information on users’ tasks can be applied to many areas, such as human behavior analysis and intelligent human-computer interfaces. It can be used as the input of intelligent systems and enable the systems to automatically adjust their functions according to different tasks. User task prediction refers to the prediction of users’ tasks at hand based on the characteristics of his or her eye movements, the characteristics of scene content, and other related information. User task prediction is a popular research topic in vision research, and researchers have proposed many successful task prediction algorithms. However, the algorithms proposed in prior works mainly focus on a particular scene, and comparison and analysis are absent for these algorithms. This paper presented a review of prior works on task prediction in scenes of images, videos, and real world, and detailed existing task prediction algorithms. Based on a real-world task dataset, this paper evaluated the performances of existing algorithms and conducted the corresponding analysis and discussion. As such, this work can provide meaningful insights for future works on this important topic.
user task prediction; cognitive state prediction; task classification; scanpath classification; machine learning
TP 391
10.11996/JG.j.2095-302X.2021030367
A
2095-302X(2021)03-0367-09
2021-03-15;
2021-04-19
15 March,2021;
19 April,2021
國家自然科學基金項目(61632003)
National Natural Science Foundation of China (61632003)
胡志明(1995-),男,安徽安慶人,博士研究生。主要研究方向為人機交互與虛擬現(xiàn)實。E-mail:jimmyhu@pku.edu.cn
HU Zhi-ming (1995-), male, PhD candidate. His main research interests cover human-computer interaction and virtual reality.E-mail:jimmyhu@pku.edu.cn
蓋 孟(1988-),男,山東萊陽人,助理研究員,博士。主要研究方向為計算機圖形學、虛擬仿真等。E-mail:gm@pku.org.cn
GAI Meng (1988-), male, research associate, Ph.D. His main research interests cover computer graphics, virtual reality and simulation, etc. E-mail:gm@pku.org.cn