劉建民
摘要:隨著計(jì)算機(jī)視覺應(yīng)用技術(shù)的發(fā)展研究,眼睛注視的行為預(yù)測(cè)受到了國內(nèi)外眾多學(xué)者的廣泛關(guān)注,同時(shí)在生物信息識(shí)別領(lǐng)域中也具有重要的研究意義。在智能手機(jī)平板普及的時(shí)代為改善人機(jī)交互而精確的預(yù)測(cè)移動(dòng)端的用戶注視行為變得尤為重要。根據(jù)現(xiàn)有視覺技術(shù)方面的研究利用大數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)以及卷積神經(jīng)網(wǎng)絡(luò)知識(shí)提出了一種解決移動(dòng)端的用戶注視行為推測(cè)方案,并分析了大規(guī)模數(shù)據(jù)集在視覺運(yùn)用方面的重要性。
關(guān)鍵詞:視覺注視;移動(dòng)端;數(shù)據(jù)集;行為推測(cè)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)01-0254-03
Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.
Key words: visual gaze; mobile end; data set; behavior conjecture
1 概述
伴隨著計(jì)算機(jī)軟硬件性能和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,大規(guī)模的并行計(jì)算技術(shù)突飛猛進(jìn),不斷地發(fā)展使各種現(xiàn)有技術(shù)變得越來越成熟,同時(shí)機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域也都得到了飛速發(fā)展。視覺技術(shù)的發(fā)展變得越來越重要,并且可以應(yīng)用到實(shí)際生活中的很多方面。人類大量的視覺信息現(xiàn)在可以利用計(jì)算機(jī)來輔助處理,并完成相關(guān)的一些工作。相對(duì)于生物信息識(shí)別技術(shù)這一計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)技術(shù)來說,也已廣泛應(yīng)用于日常生活中[1]。比如指紋識(shí)別器,人臉考勤器等平時(shí)在許多地方可以經(jīng)常見到,還有居民家用的攝像頭智能報(bào)警系統(tǒng)以及近期炒得火熱的運(yùn)用支付寶進(jìn)行刷臉而完成的支付技術(shù)等,這些都是運(yùn)用了生物信息識(shí)別技術(shù)?,F(xiàn)實(shí)中的種種跡象已經(jīng)表明運(yùn)用生物信息識(shí)別的計(jì)算機(jī)技術(shù)已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時(shí)下發(fā)展較快也比較常見的生物特征有視網(wǎng)膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個(gè)體差異性和自身穩(wěn)定性特點(diǎn),從用戶的角度來看該特征具有便攜和低侵入等一些優(yōu)點(diǎn)。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說眼是心靈的窗戶,因?yàn)檠劬χ刑N(yùn)含著表情、意圖等多種信息。因此,眼睛注視的行為預(yù)測(cè)受到了國內(nèi)外眾多學(xué)者的廣泛關(guān)注,同時(shí)在生物信息識(shí)別領(lǐng)域中也具有重要的研究意義[2]。
2 注視預(yù)測(cè)問題
2.1 問題的背景
在心理、認(rèn)知和用戶交互研究中的注視跟蹤最近已朝向移動(dòng)解決方案發(fā)展,因?yàn)樗鼈兪沟每梢灾苯釉u(píng)估用戶在自然環(huán)境中的視覺注意。 除了注意,注視還可以提供關(guān)于用戶的動(dòng)作和意圖的信息:用戶正在做什么以及接下來將做什么。然而,在自然狀態(tài)下非結(jié)構(gòu)化的任務(wù)中注視行為是相當(dāng)復(fù)雜的,并且不能使用在受控的實(shí)驗(yàn)室環(huán)境中創(chuàng)建的模型來得到令人滿意的解釋。自然條件下和實(shí)驗(yàn)室環(huán)境有著很大的不同。為了演化在自然環(huán)境中對(duì)注視行為的推斷,需要一種更加整體的方法,將從認(rèn)知科學(xué)到機(jī)器學(xué)習(xí)的許多學(xué)科結(jié)合在一起[3]。
從人機(jī)交互技術(shù)到醫(yī)學(xué)診斷到心理學(xué)研究再到計(jì)算機(jī)視覺,眼睛注視跟蹤在許多領(lǐng)域都有應(yīng)用。注視是外部可觀察的人類視覺注意的指標(biāo),許多人試圖記錄它。對(duì)于眼睛視線方面的研究可以追溯到十八世紀(jì)后期。而現(xiàn)如今已經(jīng)存在各種解決方案(其中許多是商業(yè)化的),但是所有的解決方案都具有以下一個(gè)或多個(gè)方面的問題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現(xiàn)實(shí)中的自然條件下,這些因素對(duì)實(shí)際的應(yīng)用會(huì)造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(jī)(例如,智能手機(jī)或網(wǎng)絡(luò)攝像頭)的人應(yīng)該可以使用的普及技術(shù)。如何才能使得這種技術(shù)普及并且得到應(yīng)用,提出了一種解決方案。
2.2問題的提出
研究中首先要解決的就是用戶的約束問題,也就是自然條件下使用過程中所受到的各種限制問題。到目前為止,基于注視數(shù)據(jù)推斷用戶動(dòng)作的研究受到許多的限制,特別是在自然環(huán)境中。限制因素可能包括可用的商業(yè)解決方案的昂貴性,其專有性和封閉性以及缺乏實(shí)時(shí)交互能力等方面。目前的注視跟蹤系統(tǒng),只是盡量在移動(dòng)設(shè)置中設(shè)置各種條件進(jìn)行補(bǔ)救。商業(yè)化定制化的解決方案都有其獨(dú)自的閉合性質(zhì),因此阻礙了注視跟蹤算法的發(fā)展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復(fù)雜的現(xiàn)象,涉及認(rèn)知過程的相互作用。這些過程在設(shè)置計(jì)算上的建模是非常困難的,尤其是涉及一些未知因素,使得構(gòu)建實(shí)驗(yàn)設(shè)置成為一個(gè)很大的挑戰(zhàn)。此外,來自跟蹤實(shí)驗(yàn)的數(shù)據(jù)因?yàn)槠渖虡I(yè)化的原因很少共享,即使共享數(shù)據(jù)很大部分也是有其獨(dú)立的實(shí)驗(yàn)條件。這些方面的問題都阻礙了跨學(xué)科方法在分析和利用注視數(shù)據(jù)和實(shí)驗(yàn)的相關(guān)研究與發(fā)展。
2.3 解決問題的研究方向
對(duì)基于注視的推斷的個(gè)體貢獻(xiàn)通常保持孤立,不能形成更大的整體以促進(jìn)對(duì)注視動(dòng)作行為的研究。隨著這方面的技術(shù)發(fā)展和應(yīng)用,最近出現(xiàn)了一些開源的解決方案。雖然在不同的應(yīng)用和用戶界面中使用注視已經(jīng)相當(dāng)有限,但是移動(dòng)注視跟蹤的新穎應(yīng)用開始出現(xiàn)并得到了很快的發(fā)展。然而使用移動(dòng)注視跟蹤來推斷用戶動(dòng)作的問題是高度多學(xué)科的,需要深入理解各個(gè)研究領(lǐng)域,包括人眼的功能,數(shù)學(xué)建模,計(jì)算機(jī)視覺,機(jī)器學(xué)習(xí),信息技術(shù),認(rèn)知過程,用戶交互以及心理學(xué)。任何一個(gè)研究員或甚至任何研究小組都不可能擁有所有研究領(lǐng)域的專家,因此需要相互的協(xié)作共同推進(jìn)技術(shù)的發(fā)展[5]。
目前的研究主要是從以下幾個(gè)方面進(jìn)行:
1)研究移動(dòng)注視跟蹤的認(rèn)知方面,例如增強(qiáng)對(duì)任務(wù)中的注視行為的理解或識(shí)別不同任務(wù)的特征和階段;
2)開發(fā)用于從注視數(shù)據(jù)推斷用戶動(dòng)作的計(jì)算方法,諸如應(yīng)用機(jī)器學(xué)習(xí)用于行為推斷,優(yōu)選地實(shí)時(shí)地;
3)增強(qiáng)用于改善移動(dòng)注視跟蹤方法和性能的技術(shù)軟件/硬件解決方案,并使得設(shè)備更容易訪問;
4)發(fā)現(xiàn)注視數(shù)據(jù)在自然環(huán)境和虛擬和增強(qiáng)現(xiàn)實(shí)應(yīng)用中的潛在用途,以及定義任務(wù),其中注視可以是用戶動(dòng)作的有用的預(yù)測(cè)器。
3 解決方案
首先選擇移動(dòng)端進(jìn)行研究,因?yàn)槟壳氨容^普遍的移動(dòng)設(shè)備比如智能手機(jī)、平板電腦都有自己可靠的工作系統(tǒng),且不需要外部附件。移動(dòng)設(shè)備相對(duì)于其他平臺(tái)具有以下優(yōu)勢(shì):
1)使用的廣泛性。據(jù)估計(jì),到2019年,世界上超過三分之一的人口擁有智能手機(jī),遠(yuǎn)遠(yuǎn)超過臺(tái)式機(jī)/筆記本電腦用戶;
2)軟硬件技術(shù)升級(jí)的采用率較高。大部分的移動(dòng)設(shè)備具有允許使用擁有計(jì)算復(fù)雜數(shù)據(jù)方法的實(shí)時(shí)的最新軟硬件;
3)移動(dòng)設(shè)備上相機(jī)的大量使用已經(jīng)導(dǎo)致相機(jī)技術(shù)的快速開發(fā)和部署;
4)相機(jī)相對(duì)于屏幕的固定位置減少了未知參數(shù)的數(shù)量,潛在地允許開發(fā)高精度的校準(zhǔn)跟蹤應(yīng)用。
3.1 注視類型分析
注視估計(jì)方法可以分為基于模型或基于外觀[6]。基于模型的方法使用眼睛的幾何模型,并且可以被細(xì)分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質(zhì)量和可變的照明條件?;谕庥^的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認(rèn)為需要更大量的用戶特定的訓(xùn)練數(shù)據(jù)。通過使用深度學(xué)習(xí)和大規(guī)模數(shù)據(jù)不必依賴于視覺,以實(shí)現(xiàn)準(zhǔn)確的無校準(zhǔn)注視估計(jì)。這種方案提出建立一個(gè)基于外觀的數(shù)據(jù)模型,而不使用任何手工設(shè)計(jì)的功能,例如頭部姿勢(shì)或眼球中心位置。
3.2 技術(shù)方案
深度學(xué)習(xí)的最近成功在計(jì)算機(jī)視覺的各種領(lǐng)域中是顯而易見的,但是它對(duì)改善眼睛跟蹤性能的影響還是相當(dāng)有限。因?yàn)樯疃葘W(xué)習(xí)是需要大量的數(shù)據(jù)作為支持,而視線追蹤這方面的數(shù)據(jù)集還比較少,普通的研究所得到的數(shù)據(jù)集比較有限,最大的數(shù)據(jù)集通常只是具有50個(gè)受試者左右,由于缺乏大規(guī)模數(shù)據(jù)的可用性,因此發(fā)展比較緩慢。因而提出了使用深度學(xué)習(xí)進(jìn)行研究的一套方案,就是構(gòu)造大規(guī)模的數(shù)據(jù)集。利用網(wǎng)絡(luò)資源構(gòu)造一個(gè)大規(guī)模的基于移動(dòng)的眼動(dòng)跟蹤數(shù)據(jù)集,它包含來自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運(yùn)動(dòng)下記錄[7]。運(yùn)用現(xiàn)有的智能算法得到一個(gè)可以進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)端到端的注視預(yù)測(cè)的后臺(tái)決策網(wǎng)絡(luò)。不依賴任何預(yù)先存在的系統(tǒng),不需要頭部姿態(tài)估計(jì)或其他手動(dòng)設(shè)計(jì)的特征用于預(yù)測(cè)。使用只有雙眼和臉部的特征訓(xùn)練網(wǎng)絡(luò),在這個(gè)領(lǐng)域的性能優(yōu)于現(xiàn)有的眼睛跟蹤方法。雖然現(xiàn)在的決策網(wǎng)絡(luò)在精度方面實(shí)現(xiàn)了很先進(jìn)的性能,但是數(shù)據(jù)輸入的大小和參數(shù)的數(shù)量使得難以在移動(dòng)設(shè)備上實(shí)時(shí)使用。 為了解決這個(gè)問題,需要培養(yǎng)學(xué)習(xí)得到一個(gè)更小更快的網(wǎng)絡(luò),在移動(dòng)設(shè)備上實(shí)現(xiàn)實(shí)時(shí)性能,使得精度損失進(jìn)一步降低。
3.3 大規(guī)模數(shù)據(jù)集
為了達(dá)到這一方案的預(yù)測(cè)效果,首先要進(jìn)行的是數(shù)據(jù)集的建立。網(wǎng)絡(luò)上相關(guān)的研究中有許多公開的注視數(shù)據(jù)集[8]??偨Y(jié)對(duì)比這些相關(guān)的數(shù)據(jù)集,分析出有些早期的數(shù)據(jù)集不包含顯著性的頭部姿勢(shì)變化或具有粗略的注視點(diǎn)采樣密度。需要對(duì)這些數(shù)據(jù)進(jìn)行篩選,使得到的數(shù)據(jù)具有隨機(jī)分布特點(diǎn)。雖然一些現(xiàn)代數(shù)據(jù)集遵循類似的方法,但它們的規(guī)模(尤其是參與者的數(shù)量)相當(dāng)有限。大多數(shù)現(xiàn)有的眼動(dòng)追蹤數(shù)據(jù)集已經(jīng)由邀請(qǐng)實(shí)驗(yàn)室參與者的研究人員收集,這一過程導(dǎo)致數(shù)據(jù)缺乏變化,并且成本高且效率不高。因此需要大量的進(jìn)行數(shù)據(jù)收集和篩選分析。大規(guī)模數(shù)據(jù)可以通過卷積神經(jīng)網(wǎng)絡(luò)有效地識(shí)別人臉(他們的眼睛)上的細(xì)粒度差異,從而做出準(zhǔn)確的預(yù)測(cè)。
收集眼動(dòng)跟蹤數(shù)據(jù)應(yīng)該注意的方面:
1)可擴(kuò)展性。數(shù)據(jù)應(yīng)該是自然條件下的使得用戶具有靈活性;
2)可靠性。運(yùn)用現(xiàn)有的智能移動(dòng)設(shè)備真實(shí)的應(yīng)用圖像而非設(shè)計(jì)處理過的圖像;
3)變異性。盡量使數(shù)據(jù)具有較大的變異性,使得模型更加穩(wěn)健,適應(yīng)各種環(huán)境下的操作。
4 結(jié)束語
文章介紹了一種針對(duì)移動(dòng)設(shè)備的用戶注視行為推測(cè)解決方案。首先建立一個(gè)大規(guī)模眼動(dòng)跟蹤數(shù)據(jù)集,收集大量的注視數(shù)據(jù)。大型數(shù)據(jù)集的重要性,以及具有大量各種數(shù)據(jù)以能夠訓(xùn)練用于眼睛跟蹤的魯棒模型。然后,訓(xùn)練得到一個(gè)深層卷積神經(jīng)網(wǎng)絡(luò),用于預(yù)測(cè)注視。通過仔細(xì)的評(píng)估,利用深度學(xué)習(xí)可以魯棒地預(yù)測(cè)注視,達(dá)到一個(gè)較好的水平。此外,雖然眼睛跟蹤已經(jīng)存在了幾個(gè)世紀(jì),相信這種新方案的策略可以作為下一代眼動(dòng)跟蹤解決方案的關(guān)鍵基準(zhǔn)。希望能通過這方面的研究,使人機(jī)交互得到更好的發(fā)展。
參考文獻(xiàn):
[1] 崔耀 視控人機(jī)交互系統(tǒng)技術(shù)研究與實(shí)現(xiàn)[D].西安,西安電子科技大學(xué),2013.
[2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機(jī)械工業(yè)出版社, 2011.
[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer Vision–ECCV 2012. Springer, 314-327.
[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/
6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.
[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.
[6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術(shù)研究 [D].山東:山東大學(xué),2012.
[7] Lu F, Okabe T, Sugano Y, et al. Learning gaze biases with head motion for head pose-free gaze estimation. Image and Vision Computing, 2014.
[8] Zhou B, Khosla A,Lapedriz A, et al. Places2:A large-scale database for scene understanding. arXiv, 2016. 3