李福進(jìn) 杜建 任紅格 史濤
摘 ?要: 針對(duì)Itti視覺選擇性注意模型不具有子特征圖顯著圖歸一化過程中權(quán)值隨任務(wù)改變而改變的問題,借鑒自主發(fā)育在視覺選擇性注意學(xué)習(xí)的研究成果,提出一種權(quán)值可發(fā)育視覺選擇性注意模型作為圖像特征提取的學(xué)習(xí)機(jī)制。該算法采用三層自組織神經(jīng)網(wǎng)絡(luò)和Itti視覺選擇性注意模型相結(jié)合的決策進(jìn)行尋優(yōu),通過對(duì)模型的訓(xùn)練學(xué)習(xí)獲取最優(yōu)權(quán)值更新。這樣既可以保證在初期特征提取內(nèi)容的完整性,又降低了系統(tǒng)對(duì)不同任務(wù)條件的約束性,提高了模型特征提取能力。利用權(quán)值可發(fā)育視覺選擇性注意模型對(duì)圖像進(jìn)行感興趣區(qū)域特征提取實(shí)驗(yàn),結(jié)果表明,該方法能夠提高特征提取準(zhǔn)確性、減少運(yùn)算時(shí)間,獲得了良好的動(dòng)態(tài)性能。
關(guān)鍵詞: Itti視覺選擇性注意模型; 權(quán)值可發(fā)育; 自主發(fā)育; 特征提取; 顯著圖; 模型訓(xùn)練
中圖分類號(hào): TN911.73?34; TP391.4 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2018)10?0183?04
Abstract: In the Itti visual selective attention model, the weight does not change as the task changes during the saliency map normalization of child feature map. Therefore, a visual selective attention model with weight development is proposed to be the learning mechanism of image feature extraction by learning from the research achievements of autonomous development in visual selective attention learning. In the algorithm, the strategy of combining three?layer self?organized neural network with Itti visual selective attention model is used for optimization. The optimal weight update is obtained by training and learning of the model, which can not only guarantee the completeness of the initial feature extraction content, but also reduce the constraint of the system on different task conditions, and improve the feature extraction capability of the model. An interested?area feature extraction experiment was carried out for images by using the visual selective attention model with weight development. The results show that the proposed method can improve the accuracy of feature extraction, reduce the computation time, and obtain a good dynamic performance.
Keywords: Itti visual selective attention model; weight development; autonomous development; feature extraction; saliency map; model training
視覺選擇性注意(Visual Selective Attention)機(jī)制[1]是一種視覺感知機(jī)能,它是靈長(zhǎng)目類動(dòng)物長(zhǎng)期進(jìn)化的結(jié)果。研究表明,人類在感知外界信息信號(hào)過程中大約有75%的信息來源于視覺,在面對(duì)海量的感知信息時(shí),為確保大腦處理信息的效率,視覺系統(tǒng)會(huì)選擇感知信息中的一個(gè)子集做優(yōu)先處理。在認(rèn)知心理學(xué)中,這種選擇有限信息進(jìn)行優(yōu)先處理的機(jī)制稱為視覺選擇性注意機(jī)制?;诖耍芯空邆兏鶕?jù)心理學(xué)、生理學(xué)、認(rèn)知科學(xué)的相關(guān)實(shí)驗(yàn)結(jié)果,模擬出一系列視覺選擇性注意模型,1998年Itti和Koch提出顯著性模型[1?2](Itti模型),該模型是以特征整合理論為基礎(chǔ),利用高斯金字塔生成多尺度圖像,對(duì)圖像濾波提取顏色、亮度、方向特征,后由中心周邊差得到三種特征的子顯著圖(Saliency Map),通過子顯著圖歸一化生成總的顯著圖,并采用贏者求全機(jī)制和返回抑制機(jī)制控制視覺注意焦點(diǎn)的轉(zhuǎn)移,該模型是最為經(jīng)典的可計(jì)算視覺注意模型之一。2007年Taatgen提出基于SR的顯著性模型[3],計(jì)算空域下的顯著圖,分析圖像對(duì)數(shù)頻譜抽取圖像剩余殘譜。其特點(diǎn)是計(jì)算速度快,但是模型在邊緣信息處理方面表現(xiàn)效果一般。2009年Judd提出一種自頂向下[4?6]的注意模型,該模型具有一定的仿生特性,訓(xùn)練過程采用眼動(dòng)數(shù)據(jù),針對(duì)特定目標(biāo)訓(xùn)練模型計(jì)算過程耗時(shí)略長(zhǎng)。2016年王鳳嬌提出了一種視覺注意分類模型(CMVA)[7],該模型是在基于眼動(dòng)數(shù)據(jù)的基礎(chǔ)上搭建而成,以預(yù)測(cè)視覺顯著性,與其他現(xiàn)有幾種視覺選擇性注意模型的比較,特征顯著點(diǎn)選擇效果比較好,但要求的初始條件約束比較多,計(jì)算量很大。
近些年,隨著仿生學(xué)在視覺感知領(lǐng)域的深入發(fā)展,越來越多的仿生模型[8?9]出現(xiàn),也使得自主發(fā)育[10]成為視覺選擇性注意研究領(lǐng)域的熱點(diǎn)。本文針對(duì)Itti模型在子特征顯著圖歸一化過程中權(quán)值不能隨自上而下的任務(wù)而自動(dòng)調(diào)整問題,提出了一種權(quán)值可發(fā)育的視覺選擇性注意模型(權(quán)值可發(fā)育Itti模型)。采用三層自組織發(fā)育神經(jīng)網(wǎng)絡(luò)[11]與Itti模型結(jié)合發(fā)育學(xué)習(xí),其中發(fā)育學(xué)習(xí)由感知端[X]、腦分析端[Y]和效應(yīng)端[Z]組成,來模仿人類大腦。通過發(fā)育學(xué)習(xí)訓(xùn)練對(duì)網(wǎng)絡(luò)中神經(jīng)元權(quán)值進(jìn)行更新,由神經(jīng)元的更新實(shí)現(xiàn)Itti模型的底層特征圖提取的準(zhǔn)確性和快速性,發(fā)育學(xué)習(xí)后將學(xué)習(xí)結(jié)果存儲(chǔ)在神經(jīng)元中,來實(shí)現(xiàn)對(duì)新知識(shí)的學(xué)習(xí)和理解。仿真結(jié)果表明,這種權(quán)值可發(fā)育Itti模型在特征提取上更符合靈長(zhǎng)目類的視覺感知特性,表現(xiàn)了該模型的權(quán)值自主學(xué)習(xí)的動(dòng)態(tài)變化特性,并生動(dòng)地模擬了圖像中感興趣區(qū)域的特征提取過程。
可計(jì)算Itti模型是由Itti提出的視覺選擇性注意模型,也是目前最具影響力的一種數(shù)據(jù)驅(qū)動(dòng)型模型,主要根據(jù)所尋目標(biāo)與周圍環(huán)境之間的差異,提取圖像中感興趣區(qū)域。
本文采用Weng提出的自主發(fā)育神經(jīng)網(wǎng)絡(luò)[12],由[X,Y,Z]三層組成。其中[X]為感知輸入層,[Y]為腦分析層,[Z]為輸出端。發(fā)育網(wǎng)絡(luò)一般模型如圖1所示,[X]與[Y]、[Y]與[Z]之間均可雙向傳遞信息,[X]作為輸入端感知外界信息,[Y]收集來自[X]的信息并傳遞給[Z]。設(shè)計(jì)者并沒有事先知道智能體將來要學(xué)習(xí)的任務(wù),設(shè)計(jì)者只是設(shè)計(jì)一些自主學(xué)習(xí)規(guī)則。因此,發(fā)育學(xué)習(xí)程序是任務(wù)非特定性的,其核心思想是,在不同的環(huán)境下,智能體(具備感知,處理和行動(dòng)的物體)通過它的感知端[X]和效應(yīng)端[Z]與外部環(huán)境和內(nèi)部大腦交互,自我構(gòu)建腦中的連接,來適應(yīng)不同的外部環(huán)境。
3.1 ?權(quán)值可發(fā)育Itti模型結(jié)構(gòu)
由于Itti視覺選擇性注意模型在感興趣區(qū)域特征提取上并無主動(dòng)學(xué)習(xí)能力,而只是通過環(huán)境自底向上地做出選擇,因此不能做出準(zhǔn)確的特征提取。而靈長(zhǎng)目類視覺系統(tǒng)具有學(xué)習(xí)、理解特性,能將自下而上的數(shù)據(jù)和大腦分析相交互處理,通過發(fā)育學(xué)習(xí),在視覺選擇性注意上遠(yuǎn)遠(yuǎn)超出簡(jiǎn)單的自下而上型注意機(jī)制功能,權(quán)值可發(fā)育Itti模型如圖2所示。
感知輸入端[X]接受環(huán)境傳入信號(hào)傳送至腦分析端[Y],[Y]端傳出信息調(diào)整效應(yīng)端[Z],信息可向反饋調(diào)整后權(quán)值結(jié)果。整個(gè)過程都使權(quán)值的調(diào)整處于一個(gè)可控范圍,并隨前端任務(wù)動(dòng)態(tài)調(diào)整。
3.2 ?發(fā)育網(wǎng)絡(luò)算法
通過發(fā)育神經(jīng)網(wǎng)絡(luò)模型簡(jiǎn)單模仿人類大腦。使感知端[X]與效應(yīng)端[Z]通過大腦分析建立連接,以適應(yīng)感知端輸入圖像的變化。同時(shí),[Y]端理解并存儲(chǔ)所學(xué)“知識(shí)”,以神經(jīng)元的形式存儲(chǔ)記憶,整個(gè)過程類似大腦發(fā)現(xiàn)?思考?記憶?注意過程。用神經(jīng)元的激活、抑制來實(shí)現(xiàn)Itti模型的底層特征圖提取過程中權(quán)值的分配,發(fā)育算法如下:
式中,[k=1],所以只有惟一獲勝的神經(jīng)元被激活,其余的神經(jīng)元?jiǎng)t被抑制。在發(fā)育學(xué)習(xí)階段,被激活后的神經(jīng)元更新相應(yīng)的突觸權(quán)重,三層神經(jīng)元之間相聯(lián)系的向量便可得到更新。這是一種增量式學(xué)習(xí)過程,每當(dāng)環(huán)境產(chǎn)生變化時(shí),不需要更新所有神經(jīng)元權(quán)值,僅做由于新增數(shù)據(jù)所引起的更新,是符合人類視覺的學(xué)習(xí)過程。
為了檢驗(yàn)本文所提方法的可靠性,將Itti模型算法與本文算法分別在實(shí)驗(yàn)室所提供上位機(jī)(Intel[?] CoreTM?i5?2430M CPU@2.4 GHz,RAM4.00 GB,Windows 7)和Matlab 2012b編程環(huán)境下實(shí)現(xiàn)仿真處理。圖像選自Caltech?101數(shù)據(jù)庫(kù)圖像,從中選取三幅圖像,圖3a)為所選取的汽車、鶴和花的原圖,圖3b)為Itti模型算法仿真所得結(jié)果圖,圖3c)為本文所提的權(quán)值可發(fā)育Itti模型算法所得結(jié)果。三幅Itti模型算法仿真結(jié)果圖都注意到了感興趣區(qū)域,基本上能識(shí)別出目標(biāo)的大體輪廓,但注意目標(biāo)的細(xì)節(jié)信息還是被復(fù)雜地背景模糊掉了。權(quán)值可發(fā)育Itti模型算法結(jié)果圖能注意到最顯著區(qū)域,對(duì)于復(fù)雜背景下的目標(biāo)對(duì)象識(shí)別效果還是比較優(yōu)秀的,在背景簡(jiǎn)單的目標(biāo)上表現(xiàn)更出色,如圖3c)中的鶴和花相比Itti模型算法所得結(jié)果具有非常好的顯著性。
仿真時(shí)間對(duì)比如表1所示。
由表1可以看出,Itti模型算法仿真計(jì)算耗時(shí)較多,本文所提出的權(quán)值可發(fā)育Itti模型算法在時(shí)間上占有明顯優(yōu)勢(shì)。
為了改善Itti視覺選擇性注意模型中存在的特征提取不精確、無自主選擇性、耗時(shí)較多等缺點(diǎn),提出一種權(quán)值可發(fā)育的視覺選擇性注意模型。通過訓(xùn)練三層自組織發(fā)育網(wǎng)絡(luò)來對(duì)注意模型進(jìn)行發(fā)育學(xué)習(xí),有效地降低了模型對(duì)不同任務(wù)的條件約束性,提高了模型特征提取能力和自主學(xué)習(xí)能力,改善了Itti模型無自主選擇性、耗時(shí)多等缺點(diǎn)。
通過仿真實(shí)驗(yàn)證明,權(quán)值可發(fā)育Itti模型較傳統(tǒng)Itti模型有著良好的表現(xiàn),也符合靈長(zhǎng)目類視覺感知機(jī)能,具有較高的理論研究和實(shí)踐價(jià)值,如何將方法應(yīng)用到實(shí)際的問題中將成為下一步的研究重點(diǎn)。
[1] ITTI L, KOCH C, NIEBUR E. A model of saliency?based visual attention for rapid scene analysis [J]. IEEE transactions on pattern analysis & machine intelligence, 1998, 20(11): 1254?1259.
[2] ITTI L, KOCH C. Computational modelling of visual attention [J]. Nature reviews neuroscience, 2001, 2(3): 194?203.
[3] NYAMSUREN E, TAATGEN N A. The synergy of top?down and bottom?up attention in complex task: going beyond saliency models [C]// Proceedings of the 35th Annual Conference of the Cognitive Science Society. Austin: Cognitive Science Society, 201: 3181?3186.
[4] JUDD T, EHINGER K, DURAND F, et al. Learning to predict where humans look [C]// Proceedings of 12th IEEE International Conference on Computer Vision. Kyoto: IEEE, 2009: 2106?2113.
[5] BORJI A. Boosting bottom?up and top?down visual features for saliency estimation [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 438?445.
[6] ZHAO Q, KOCH C. Learning a saliency map using fixated locations in natural scenes [J]. Journal of vision, 2011, 11(3): 74?76.
[7] 王鳳嬌,田媚,黃雅平,等.基于眼動(dòng)數(shù)據(jù)的分類視覺注意模型[J].計(jì)算機(jī)科學(xué),2016,43(1):85?88.
WANG Fengjiao, TIAN Mei, HUANG Yaping, et al. Classification model of visual attention based on eye movement data [J]. Computer science, 2016, 43(1): 85?88.
[8] ALM?SSY N, EDELMAN G M, SPORNS O. Behavioral constraints in the development of neuronal properties: a cortical model embedded in a real?world device [J]. Cerebral cortex, 1998, 8(4): 346?361.
[9] BERRIDGE K C. Motivation concepts in behavioral neuroscience [J]. Physiology & behavior, 2004, 81(2): 179?209.
[10] WENG J. Three theorems: brain?like networks logically reason and optimally generalize [C]// Proceedings of International Joint Conference on Neural Networks. San Jose: IEEE, 2011: 2983?2990.
[11] LUCIW M, WENG J. Where?what network 3: developmental top?down attention for multiple foregrounds and complex backgrounds [C]// Proceedings of International Joint Conference on Neural Networks. Barcelona: IEEE, 2010: 1?8.
[12] WENG J, LUCIW M. Brain?like emergent spatial processing [J]. IEEE transactions on autonomous mental development, 2012, 4(2): 161?185.