孫曉帥 姚鴻勛
摘 要:人類視覺系統(tǒng)通過選擇性視覺注意機(jī)制來對場景中位于重要位置的視覺內(nèi)容進(jìn)行動態(tài)的序列采樣,進(jìn)而獲取必要的視覺信息。本文系統(tǒng)的總結(jié)了計算化注意模型和顯著度計算領(lǐng)域的研究現(xiàn)狀。通過在YORK-120和MIT-1003這兩個國際標(biāo)準(zhǔn)數(shù)據(jù)庫上進(jìn)行的人眼視點預(yù)測實驗,本文對20種計算模型的實際性能進(jìn)行了詳細(xì)的評估和對比。結(jié)果表明,基于統(tǒng)計的模型要比其它的方法更容易獲取較好的預(yù)測結(jié)果。
關(guān)鍵詞:視覺注意;顯著度;生物啟發(fā)式方法;人眼注視點預(yù)測
中圖分類號:TP391.4 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-2163(2014)05-
A Survey of Visual Attention and Saliency Computation
SUN Xiaoshuai, YAO Hongxun
(School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)
Abstract: Human vision system acquires essential information from the environment by sequentially sampling visual contents at important locations under the control of selective visual attention mechanism. This paper systematically investigates the state-of-the-arts of computational visual attention modeling and saliency computation. And the paper compares the performance of 20 state-of-art models via dense eye-fixation prediction experiments conducted on YORK-120 and MIT-1003 datasets. The results show that statistical models tend to achieve better predictions against the rest approaches.
Key words: Visual Attention; Saliency; Biological Inspired Approach; Eye-Fixation Prediction
0引 言
人類的視覺系統(tǒng)在感知外界環(huán)境的過程中存在著極強(qiáng)的動態(tài)選擇性,這同時體現(xiàn)在其視神經(jīng)系統(tǒng)的生理結(jié)構(gòu)及作用機(jī)理上。以眼睛的生理結(jié)構(gòu)為例,在視網(wǎng)膜盤顳側(cè)約3.5mm處,有一個黃色小區(qū),稱黃斑(macula lutea),其中央的凹陷叫做中央凹,此處的視神經(jīng)細(xì)胞分布最為密集,感知到的視覺信息最精確。中央凹雖然只占整個視覺面的0.01%,但是視神經(jīng)里10% 的信息是由連接在這里的軸突傳遞到大腦。當(dāng)人們觀察一個場景的時候,并不是一次性地感知場景中的所有信息,而是基于注意轉(zhuǎn)移機(jī)制通過一系列的視點移動來對場景進(jìn)行逐步采樣。觀察者能夠利用視網(wǎng)膜中央凹的高分辨率感知機(jī)構(gòu),主動地探索環(huán)境中的重要視覺信息。得益于這種動態(tài)選擇性行為,人類以及大多數(shù)的靈長類動物,能夠在有限的時間內(nèi)高效靈動地處理復(fù)雜環(huán)境中的信息。在過去的25年中,神經(jīng)計算領(lǐng)域的科研工作者們通過理論推理和計算模型構(gòu)建等手段,試圖揭示指導(dǎo)眼動行為的基本原則和作用機(jī)理,取得的相關(guān)成果不但能夠幫助人們更好地理解人類的動態(tài)認(rèn)知行為,同時也為視覺相關(guān)的應(yīng)用領(lǐng)域,如視頻壓縮[1] 、照片質(zhì)量評價[2] 、場景理解[3] 、目標(biāo)檢測[4] 及識別[5] 、圖像重構(gòu)圖[6] 等,提供了強(qiáng)大的信息分析和處理工具。
本文將系統(tǒng)介紹視覺注意建模及信號顯著性計算領(lǐng)域的國際相關(guān)工作,并以研究思路為線索對領(lǐng)域發(fā)展的現(xiàn)狀進(jìn)行梳理和分析,同時基于人眼注視點分類實驗來對多種模型的實際性能進(jìn)行量化的比較。
注意是一個心理學(xué)概念,屬于認(rèn)知過程的一部分,具體來說,指的是選擇性地將處理資源集中到環(huán)境中的某個部分而將其余部分忽略的過程。注意能夠?qū)⒅X選擇性地集中,并導(dǎo)致局部刺激的意識水平的提高。例如,側(cè)耳傾聽某人的說話,而忽略房間內(nèi)其他人的交談。注意并不是一種獨立的心理過程,而是心理過程的一種共同特征。人在同一時間內(nèi)不能感知很多對象,只能感知環(huán)境中的少數(shù)對象。而要獲得對事物的清晰、深刻和完整的反映,就需要使心理活動有選擇地指向有關(guān)的對象。人在清醒的時候,每一瞬間總是注意著某種事物。通常所謂“沒有注意”,只不過是對當(dāng)前所應(yīng)當(dāng)指向的事物沒有注意,而注意了其他無關(guān)的事物。注意有兩個基本特征:指向性和集中性。指向性表現(xiàn)為對出現(xiàn)在同一時間的許多刺激的選擇;集中性表現(xiàn)為對干擾刺激的抑制,其產(chǎn)生和范圍以及持續(xù)時間取決于外部刺激的特點和人的主觀因素。學(xué)界普遍認(rèn)為眼動行為是由自底向上(Bottom-Up)和自頂向下(Top-Down)的兩種注意因素所驅(qū)動[7-11]。自頂向下的注意因受到具體任務(wù)和人的主觀意識的影響,其研究結(jié)果往往呈現(xiàn)出較大的差異性[12-19];相比較而言,自底向下的研究工作探索的是人類視覺系統(tǒng)中不受特定任務(wù)和特定人物個性約束的共性機(jī)理,具有更可控的研究環(huán)境和更廣泛的應(yīng)用場景,因此,本章著重從自底向上的角度對注意建模相關(guān)工作展開分析和討論。表 1按照模型對注意和顯著性的不同度量標(biāo)準(zhǔn),包括對近年來提出的有代表性的注意和顯著度計算模型進(jìn)行了梳理及呈現(xiàn)。
1.1 生物啟發(fā)式建模方法
視覺注意建模的理論研究工作始于20世紀(jì)80年代。1980年,美國普林斯頓大學(xué)的Treisman和Gelade提出了注意的特征集成理論(Feature Integration Theory)[20],該理論給出了視覺注意計算的重要視覺特征,同時也解釋了這些特征是如何在視覺搜索任務(wù)中被集成起來并進(jìn)一步指引人類注意的分配。1985年,加州理工大學(xué)的Koch和Ullman[21]提出了“顯著圖”(Saliency Map)的概念,即一張與輸入信號相同大小的二維圖像,其中每個像素的值代表了圖像源中對應(yīng)位置視覺信息的顯著性。基于顯著圖的概念,Koch 和Ullman隨之構(gòu)建了首個有可信生理依據(jù)的計算化視覺注意模型(后文簡稱KU 模型)。KU模型主要包括四個功能模塊:(1)底層視覺特征提??;(2)基于中央-外圍差分的特征圖(Feature Map)計算;(3)多通道、多尺度特征圖融合;(4)注意選擇(Attentional selection)和返回抑制(Inhibition of Return)。KU模型的建立為視覺注意建模研究的發(fā)展奠定了穩(wěn)固且良好的基礎(chǔ)。1998年,Itti和Koch[7]通過可運行的計算機(jī)程序?qū)U模型進(jìn)行仿真模擬和驗證,并在顯著圖計算的基礎(chǔ)上,利用WTA(Winner-Takes-All)和IOR(Inhibition of Return)來掃描視覺信號,生成仿真的動態(tài)注視點序列,同時就人類和該程序?qū)σ曈X場景,心理模式圖像等視覺刺激的響應(yīng)進(jìn)行了分析比較,這種創(chuàng)新的做法使得本項工作成為KU 模型提出后的另一個里程碑,目前該文獻(xiàn)被他人引用次數(shù)已達(dá)到5 062次(2014年3月)。
1.2 數(shù)學(xué)及信息論建模方法
從神經(jīng)計算科學(xué)的角度來看,KU模型只描述了視覺注意的初級階段,模擬的神經(jīng)元僅局限于視網(wǎng)膜,側(cè)膝體和視覺初級皮層的簡單細(xì)胞。由于KU模型本身具有的局限性,以及稀疏編碼[22]等新理論的提出,推動了視覺注意研究的新發(fā)展。此時研究者們已經(jīng)不再關(guān)注于對人類視覺系統(tǒng)的相關(guān)神經(jīng)處理過程作一一對應(yīng)的模擬,而是從數(shù)學(xué)上入手,嘗試建立符合注意問題實質(zhì)并且具有生理上可信性的理論模型或方法。期間則誕生了很多有代表性的工作。
加拿大約克大學(xué)的Bruce等認(rèn)為人們傾向于注意那些場景中具有較高不可預(yù)測性的區(qū)域,而這種不可預(yù)測性恰恰可以用該區(qū)域相對于場景整體的自信息(Self-Information)來度量,即顯著度正比于自信息,由此而提出了注意的信息最大化模型[23-24];與Bruce的工作不同,加州大學(xué)圣迭亞哥分校的Zhang等[25]認(rèn)為信號的顯著度可以由其自身的不可預(yù)測性(自底向上)和其對目標(biāo)的預(yù)測能力(自頂向下)來共同衡量,并可以由貝葉斯推理計算得出。根據(jù)Zhang 的理論,自底向上的注意可以用輸入信號片相對于一個較大的信號片集合的自信息來度量,而自頂向下的注意則可以用該信號片與目標(biāo)信號片集合的互信息(互信息)來度量。從稀疏編碼理論出發(fā),上海交通大學(xué)的Hou 等,認(rèn)為視覺信息的顯著性是以一種動態(tài)的方式計算得出的,而且又提出了一種增量編碼長度(Incremental Coding Length[26])的顯著性度量準(zhǔn)則。同樣基于稀疏編碼,北京大學(xué)的Wang 等借鑒了人腦認(rèn)知機(jī)理和神經(jīng)元活動的相關(guān)生理事實,提出了點熵率(Site Entropy Rate[27])的顯著性度量,并在之后的工作中,將SER 成功應(yīng)用于眼動行為模擬[28]。
除傳統(tǒng)的信息論角度,近期的一些工作還從分類判別力(Discriminability[29-30])、頻域簽名(Signature[31])、空間不相似性(Spacial Dissimilarity[32])、稀缺性(Rareness[33])、驚訝度(Surprise[34-39])等信號的頻率及空間屬性方面展開探索。加州大學(xué)圣迭亞哥分校的Gao等[29-30]認(rèn)為顯著度的計算問題可以轉(zhuǎn)換為對像素進(jìn)行“顯著—不顯著”的二分類問題。較強(qiáng)區(qū)分能力的特征更適合于參與顯著——不顯著分類。由此可以將自頂向下的注意建模成一個以目標(biāo)為訓(xùn)練集的二分類器,該分類器通過訓(xùn)練集選取有判別力的特征進(jìn)行分類,而自底向上的注意則可建模成一個以周邊區(qū)域為訓(xùn)練集的二分類器。基于以上想法,Gao 提出了有判別力的中央- 外圍差分算子(Discriminative Center-Surround Difference)來對視覺信號的顯著性進(jìn)行度量?;陬l率域相位分析,加州理工大學(xué)的Hou等提出了譜殘差(Spectral Residual)[40]和圖像簽名(Image Signature)[31]方法,利用傅里葉變換估計出圖像中的前景,即引人注意的顯著區(qū)域。卡爾斯魯厄理工學(xué)院的Schauerte等[41]進(jìn)一步提出了四元傅里葉變換,對Hou的工作進(jìn)行了的理論擴(kuò)展。不同于以往工作的復(fù)雜理論背景,法國蒙斯大學(xué)的Riche[28]和美國南加州大學(xué)的Borji 等[42]直接采用底層特征的稀缺性作為自底向上的顯著性度量,并在注視點預(yù)測實驗中取得了極好的效果。Itti 等在1998 年的針對KU 模型的工作以后,重新考察了生理心理學(xué)中的各種有價值的概念,發(fā)現(xiàn)注意的起源很可能是“驚訝”(Surprise)[35]。Itti的新理論認(rèn)為,信息量大(熵值較大)的視覺輸入不一定就是容易引起注意的區(qū)域,相比而言,人們更傾向于關(guān)注那些能使其驚訝的地方。進(jìn)一步地,Itti 提出用先驗知識與后驗預(yù)測之間的KL散度來計算“驚訝”,并預(yù)測人類在觀看視頻過程中的注視點。
與上述方法基于啟發(fā)式的思路不同,本文通過直接對人眼注視點的分布進(jìn)行統(tǒng)計分析,歸納得到了顯著度的超高斯先驗,并結(jié)合投影追蹤技術(shù),發(fā)展且提出了能夠同時進(jìn)行眼動行為模擬和信號顯著度估計的統(tǒng)計注意模型[43]。
2 模型評估及對比分析
目前國際主流的評測策略是考察探求模型在預(yù)測人眼真實注視點時的ROC響應(yīng)曲線,并通過ROC線下區(qū)域的大小來對模型的性能進(jìn)行量化評估。這一評測方法主要考察的是待測模型生成的顯著圖與真實的人眼注視點之間的一致性。
2.1 測試數(shù)據(jù)集合與評估指標(biāo)
本節(jié)用于實驗的數(shù)據(jù)集包括:兩個圖像數(shù)據(jù)集,分別是加拿大約克大學(xué)的YORK-120[24]和美國麻省理工大學(xué)的MIT-1003[44]。由Bruce和Tsotsos[24]提供的注視點數(shù)據(jù)庫(YORK-120)包含了采集自20 個志愿者在觀察120張室內(nèi)外自然圖像的過程中(4秒一張)產(chǎn)生的11 999個注視點。為了減少志愿者個性差異所造成的影響,本文在實驗中還通過濾除空間分布上孤立的注視點創(chuàng)建了兩個子數(shù)據(jù)庫:YORK-120-SUB-1 和YORK-120-SUB-2。具體地,首先將數(shù)據(jù)庫中附有的視點分布密度圖正則化至[0,1] 區(qū)間來量化描述注視點的空間聚集度,而后通過閾值化操作來構(gòu)建具有不同聚集度的子數(shù)據(jù)庫。YORK-120-SUB-1 包含了8 190 個密度值大于0.2 的注視點,而YORK-120-SUB-2則包含了4 339個密度值大于0.5的注視點。由Judd提供的MIT-1003[44]數(shù)據(jù)庫包含了采集自LabelMe的1 003張風(fēng)景和人物圖像。為了和有監(jiān)督的方法進(jìn)行公正的比較,本節(jié)使用從MIT-1003隨機(jī)抽取的子集作為測試數(shù)據(jù)庫,每個子集包含了不重疊的100張圖像。與對YORK-120的處理類似,本測試僅使用MIT-1003中每個志愿者在各張圖像上的前6個注視點,以保證視點在空間分布上的一致性。
本實驗采用ROC線下區(qū)域(Area Under ROC Curve,簡稱AUC)和KL散度(Kullback–Leibler divergence,簡稱KL[24-25,35]作為模型的量化性能度量。正如以往的工作所指出的那樣[7, 23,25-27,40,44-45],不同的人在觀察同一場景的過程中可能會產(chǎn)生完全不同的注視點序列,而同一個人在不同的上下文環(huán)境下觀察同一場景時產(chǎn)生的序列也可能會有不同,這種序列模式在人與人之間、不同上下文之間的差異性使得直接對眼動序列進(jìn)行對比評測變得極其困難。因此,為了保證評測的通用性和公正性,本文采用了被學(xué)界廣泛接受和使用的AUC 和KL評價體系對提出的模型以及基線方法進(jìn)行評估。原始的AUC和KL評測策略依據(jù)注視點的位置在顯著圖上采集正例樣本,同時在隨機(jī)位置上采集負(fù)例樣本,進(jìn)而計算得到AUC和KL指標(biāo)。傳統(tǒng)的評測策略在很大程度上受到“邊緣效應(yīng)”的影響,因為在人工拍攝的大多數(shù)自然圖像中,顯著的目標(biāo)往往安置在畫面的中心區(qū)域(即所謂的中心偏置,Center Bias),這就導(dǎo)致評測規(guī)則偏好于中心顯著性強(qiáng)而邊緣顯著性弱的顯著圖。加州大學(xué)圣迭亞哥分校的Zhang 等人指出,一個簡單的置于圖像中心的高斯團(tuán)塊,可以在傳統(tǒng)的AUC評測中得到0.80 的高分(基于YORK-120 數(shù)據(jù)庫)。雖然這種“顯著圖”完全不是根據(jù)圖像內(nèi)容所計算得出,但卻可以在傳統(tǒng)AUC 評價體系中擊敗領(lǐng)域中提出的大多數(shù)模型。為了消除由“邊緣效應(yīng)”所帶來的干擾,本節(jié)采用了Zhang[25]設(shè)計的一種改進(jìn)的基于隨機(jī)排列的評測策略來計算AUC 和KL 指標(biāo),該評價策略使用非同一場景的注視點作為抽樣集來構(gòu)建負(fù)例樣本集合,可以從根本上消除中心偏置的影響。具體地,隨機(jī)排列的迭代次數(shù)設(shè)為100,用于KL 散度計算的概率密度分布函數(shù)則采選16個Bin 的直方圖來表示。
2.2 性能對比分析
圖1和圖2展示了本文作者發(fā)表在文獻(xiàn)[46]中的基于YORK-120和MIT-1003上的大規(guī)模對比實驗結(jié)果。
圖1 模型的AUC和KL性能排序
Fig.1 AUC and KL performance of the tested models
圖1以從高到低的順序直觀的展示了表1中所有測試模型的SL-AUC和SL-KL指標(biāo)。其中本文作者提出的SGP模
型分為單尺度(Ours-SS)和多尺度(Ours-MS)兩種方案。圖 2展示一些視覺對比結(jié)果,包括測試數(shù)據(jù)庫的示例圖像以及各個模型所生成的顯著圖??梢钥闯鯯GP[43]和RARE[33]這兩種基于統(tǒng)計的模型在測試數(shù)據(jù)庫上均能取得非常好的效果。
3 結(jié)束語
視覺“顯著性”是人類視覺智能中一個十分重要的認(rèn)知屬性。本文通過人眼視點分類實驗對20中國際主流模型進(jìn)行了量化的綜合對比。結(jié)果表明,相對于傳統(tǒng)方法,基于統(tǒng)計的模型在性能表現(xiàn)上有著精度高、穩(wěn)定性強(qiáng)等明確的優(yōu)越性。
參 考 文 獻(xiàn):
[1] ITTI L. Automatic foveation for video compression using a neurobiological model of visual attention[C]//Image Processing, IEEE Transactions on, 2004, 13(10):1304–1318.
[2] SUN X, YAO H, JI R, et al. Photo assessment based on computational visual attention model[C]// ACM Multimedia. 2009:541–544.
[3] SIAGIAN C, ITTI L. Rapid biologically-inspired scene classification using features shared with visual attention[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007:300–312.
[4] ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2009:1597–1604.
[5] ELAZARY L, ITTI L. A bayesian model of visual search and recognition[C]//Proc. Vision Science Society Annual Meeting (VSS08), 2008.
[6] GOFEMAN S, ZELNIK-MANOR L, TAL A. Context-aware saliency detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10):1915–1926.
[7] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254–1259.
[8] ITTI L, KOCH C. Computational modelling of visual attention[J]. Nature Reviews Neuroscience, 2001, 2(3):194–203
[9] TSOTSOS J, CULHANE S, KEI W W, et al. Modeling visual attention via selective tuning[J].Artificial intelligence, 1995, 78(1):507–545.
[10] OLIVA T A C M, A., HENDERSON J. Top-down control of visual attention in object detection[C]// Proceedings of International Conference on Image Processing (ICIP2003). Barcelona, Catalonia, 2003: 253–256.
[11] BORJI A, ITTI L. State-of-the-art in visual attention modeling[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2013, 35(1):185–207.
[12] Yarbus A. Eye movements and Vision[M]. Plenum Press, 1967.
[13] FOULSHAM T, UNDERWOOD G. What can saliency models predict about eye movements? Spatial and sequential aspects of fixations during encoding and recognition[J]. Journal of Vision, 2008, 8(2).
[14] HAYHOE M, BALLARD D. Eye movements in natural behavior[J]. Trends in cognitive sciences, 2005, 9(4):188–194.
[15] HAYHOE M, SHRIVASTAVA A, MRUCZEK R, et al. Visual memory and motor planning in a natural task[J]. Journal of Vision, 2003, 3(1).
[16] LAND M, MENNIE N, RUSTED J, et al. The roles of vision and eye movements in the control of activities of daily living[J]. PERCEPTION-LONDON, 1999, 8(11):1311–1328.
[17] TATLER B, HAYHOE M, LAND M, et al. Eye guidance in natural vision: Reinterpreting salience[J]. Journal of vision, 2011, 11(5).
[18] FOERSTER R, CARBONE E, KOESLING H, et al. Saccadic eye movements in a high-speed bimanual stacking task: Changes of attentional control during learning and automatization[J]. Journal of Vision, 2011, 11(7).
[19] RENNINGER L, VERGHESE P, COUGHLAN J. Where to look next? Eye movements reduce local uncertainty[J]. Journal of Vision, 2007, 7(3).
[20] M. T A, GARRY G. A feature-integration theory of attention[J]. Cognitive Psychology, 1980, 12(1):97–136.
[21] KOCH C, ULLMAN S. Shifts in selective visual attention: towards the underlying neural circuitry[J]. Human neurobiology, 1985, 4(4):219.
[22]BELL A, SEJNOWSKI T. The “independent components”of natural scenes are edge filters[J]. Vision research, 1997, 37(23):3327–3338.
[23]BRUCE N, TSOTSOS J. Saliency, attention, and visual search: an information thretic approach[J]. Journal of Vision, 2009, 9(3):1–24.
[24]BRUCE N, TSOTSOS J. Saliency based on information maximization[J]. Advances in Neural Information Processing Systems,(NIPS)., 2006, pp. 155–162.
[25]ZHANG L, TONG M, MARKS T, et al. SUN: a bayesian framework for saliency using natural statistics[J]. Journal of Vision, 2008, 8(7):1–20.
[26]HOU X, ZHANG L. Dynamic visual attention: searching for coding length increments[J]. Advances in Neural Information Processing Systems, (NIPS), 2008:681–688.
[27]WANG W, WANG Y, HUANG Q, et al. Measuring visual saliency by site entropy rate[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010:2368–2375.
[28]WANG W, CHEN C, WANG Y, et al. Simulating human saccadic scanpaths on natural images[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011:441–448.
[29]GAO D, VASCONCELOS N. Discriminant saliency for visual recognition from cluttered scenes[J]. Advances in neural information processing systems, 2005, 17:481–488.
[30]GAO D, MAHADEVAN V, VASCONCELOS N. The discriminant center-surround hypothesis for bottom-up saliency[J]. Neural Information Processing Systems (NIPS), 2007:1–8.
[31]HOU X, HAREL J, KOCH C. Image signature: highlighting sparse salient regions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(1):194–201.
[32]DUAN L, WU C, MIAO J, et al. Visual saliency detection by spatially weighted dissimilarity[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011: 473–480.
[33]RICHE N, MANCAS M, DUVINAGE M, et al. RARE2012: A multi-scale rarity-based saliency detection with its comparative statistical analysis[J]. Signal Processing: Image Communication, 2013.
[34]ITTI L, BALDI P F. A surprise theory of attention[C]//Proc. Vision Science Society Annual Meeting (VSS05),2005.
[35]ITTI L, BALDI P F. Bayesian surprise attracts human attention[C]//Advances in Neural Information Processing Systems,(NIPS), 2006:547–554.
[36]ITTI L, BALDI P F. Bayesian Surprise Attracts Human Attention[J]. Vision Research, 2008.
[37]BERG D J, BOEHNKE S E, MARINO R A, et al. Characterizing Surprise in Humans and Monkeys[C]// Proc. Vision Science Society Annual Meeting (VSS06), 2006.
[38]Byrne E. Surprise moves eyes. Primary Visual Cortex, 2008.
[39]MUNDHENK T N, EINHAEUSER W, ITTI L. Automatic computation of an images statistical surprise predicts performance of human observers on a natural image detection task[J]. Vision Research, 2009.
[40]HOU X, ZHANG L. Saliency detection: A spectral residual approach[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2007:1–8.
[41]SCHAUERTE B, STIEFELHAGEN R. Quaternion-based spectral saliency detection for eye fixation prediction[C]// ECCV, 2012:116–129.
[42]BORJI A, ITTI L. Exploiting local and global patch rarities for saliency detection[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012:478–485.
[43]SUN Xiaoshuai, YAO Hongxun, JI Rongrong. What are we looking for: Towards Statistical Modeling of Saccadic Eye-Movement and Visual Saliency[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012:1552-1559.
[44]JUDD T, EHINGER K, DURAND F, et al. Learning to predict where humans look[C]//IEEE 12th International Conference on Computer Vision, 2009: 106–2113.
[45]MURRAY N, VANRELL M, OTAZU X, et al. Saliency estimation using a non-parametric low-level vision model[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011: 433–440.
[46]SUN Xiaoshuai, YAO Hongxun, JI Rongrong Ji, et al. Towards statistical modeling of saccadic eye-movement and visual saliency[C]//IEEE Transactions on Image Processing,July 5, 2014. In Press.
[47]ITTI L, KOCH C. Computational modelling of visual attention[J]. Nature Reviews Neuroscience, 2001, 2(3):194–203.
[48]TORRALBA A, CASTELHANO M S, OLIVA A, et al. Contextual guidance of eye movements and attention in real-world scenes: the role of global features in object search[J]. Psychological Review, 2006, 113:766–786.
[49] HAREL J, KOCH C, PERONA P. Graph-based visual saliency[C]// Advances in neural information processing systems. 2006: 545–552.
[50]GUO C, MA Q, ZHANG L. Spatio-temporal Saliency detection using phase spectrum of quaternion fourier transform[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2008: 1–8.
[51]SEO H, MILANFARr P. Nonparametric bottom-up saliency detection by self-resemblance[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 2009. CVPR Workshops,2009: 45–52.
[52]LI J, LEVINE M D, AN X, et al. Visual saliency based on scale-space analysis in the frequency domain, 2013.