傅惟真,王靜,陸燕玉,吳昊,柴新禹
上海交通大學(xué)生物醫(yī)學(xué)工程學(xué)院,上海市,200240
根據(jù)世界衛(wèi)生組織發(fā)布的統(tǒng)計(jì)報(bào)告,截至2010年,全球約有2.8億人患有由于眼睛疾病或者未經(jīng)矯正的屈光不正所造成的視力受損,其中約3936萬為盲人。在中國,有大約7500萬人為視力受損患者,其中盲人數(shù)達(dá)到820萬[1]。致盲原因有多種,在視覺通路(Visual Pathway)上任何一段的損傷都可能會導(dǎo)致失明。視網(wǎng)膜色素變性(Retinitis Pigmentosa,RP)與老年黃斑變性(Age-related Macular Degeneration,AMD)等視網(wǎng)膜病變是造成失明的主要病癥,對此,目前仍缺乏有效的治療措施。近年來視覺假體(Visual Prosthesis)已經(jīng)成為神經(jīng)工程領(lǐng)域研究的熱點(diǎn)。隨著仿生學(xué)、神經(jīng)科學(xué)及神經(jīng)工程、信息科學(xué)、生物材料科學(xué)及臨床醫(yī)學(xué)等綜合交叉學(xué)科的發(fā)展,研究者們開展了視覺修復(fù)基礎(chǔ)理論和關(guān)鍵科學(xué)問題的研究,這將為盲人復(fù)明帶來希望。
視覺假體按電極陣列的植入位置分為視皮層視覺假體(Cortical Prosthesis),視神經(jīng)視覺假體(Optic Nerve Prosthesis)以及視網(wǎng)膜視覺假體(Retinal Prosthesis)。其中,視網(wǎng)膜假體是由外置的微型攝像機(jī)采集外界圖像信息,然后通過信息處理模塊把圖像信息轉(zhuǎn)換為相應(yīng)的電刺激模式,多路電脈沖通過微電流刺激器加載于微電極陣列上,通過電刺激視網(wǎng)膜神經(jīng)節(jié)細(xì)胞并引起興奮,進(jìn)而在視覺中樞產(chǎn)生光幻視(Phosphene),最終修復(fù)假體植入者的部分視覺功能。
由于電極制造工藝、能量傳輸系統(tǒng)、植入體封裝和植入電極的安全性等方面的技術(shù)局限,現(xiàn)階段視覺假體的電極數(shù)量仍然有限。盡管Humayun等[2]研制的視網(wǎng)膜上假體的電極數(shù)量從2002年的16個(Argus I)上升2006年的60個(Argus II),包含250及1000個刺激位點(diǎn)的微電極陣列的假體裝置也正在研制中;Zrenner等[3]研制的視網(wǎng)膜下假體的光電二極管數(shù)量達(dá)到1500個,但是,相對于正常視覺系統(tǒng)中約1.3億光感受細(xì)胞和130萬個左右的神經(jīng)節(jié)細(xì)胞而言還是非常有限。視覺假體中較少數(shù)量的刺激電極也只能誘發(fā)有限數(shù)量的光幻視點(diǎn),從而僅能實(shí)現(xiàn)低分辨率的視覺感受。
目前,在低分辨率視覺感受的假體視覺情況下,尋找最佳的圖像處理策略以優(yōu)化光幻視陣列所呈現(xiàn)的信息,已經(jīng)成為視覺假體研究中的一個重要方面。通過相應(yīng)的圖像處理策略將最重要的視覺信息從攝像頭所采集的圖像序列中提取出來,并在低分辨率的條件下以最優(yōu)方式呈現(xiàn)給假體植入者,提高其完成日常視覺任務(wù)的能力。而基于視覺注意機(jī)制模型的圖像處理策略能模擬人類視覺注意過程,并有效利用圖像中的最主要特征優(yōu)化所呈現(xiàn)的視覺信息,在一定程度上彌補(bǔ)了低分辨率假體視覺下色彩信息的缺失以及低灰度級等不足,進(jìn)而提高假體植入者的導(dǎo)航、躲避障礙物[4-5]、物體及場景識別[6-10]等能力。本文主要對仿真假體視覺下基于視覺注意機(jī)制模型的圖像處理策略以及相關(guān)心理物理學(xué)的主要研究和進(jìn)展進(jìn)行綜述。
視覺注意(Visual Attention)是人類視覺的一項(xiàng)重要的心理調(diào)節(jié)機(jī)制,是人類視覺系統(tǒng)根據(jù)圖像本身的特性以及有關(guān)場景、目標(biāo)及其關(guān)系的知識選擇、過濾視覺信息的過程[11]。選擇性視覺注意機(jī)制幫助人類視覺系統(tǒng)在復(fù)雜場景中搜索感興趣的區(qū)域(Region-of-Interest,ROI)和目標(biāo)。選擇性視覺注意由自上而下的任務(wù)驅(qū)動因素和自下而上的數(shù)據(jù)驅(qū)動因素相結(jié)合而產(chǎn)生,使人的視覺系統(tǒng)可以迅速感知外界信息[12]。自1972年Eriksen[13]提出關(guān)于視覺注意的描述,Posner和Raichle等[14]又從生理學(xué)和神經(jīng)科學(xué)的角度研究了選擇性注意的大腦成像。隨著認(rèn)知心理學(xué),視覺心理學(xué),信息科學(xué)等學(xué)科的發(fā)展,科學(xué)家們能夠更加深入得理解人類視覺注意機(jī)制,并提出了多種模擬視覺注意機(jī)制的計(jì)算模型[11,15-19]。
在1985年,Koch和Ullman[20]基于Marr[21]的視覺計(jì)算理論提出了視覺注意的第一個計(jì)算模型。他們首次提出顯著圖理論,并引入勝者全?。╓inner-Take-All,WTA)機(jī)制與抑制返回(Inhibit of Return,IOR)機(jī)制對注意的選取和轉(zhuǎn)移過程進(jìn)行初步探討與思考。Itti與Koch[19]在1998年率先將視覺選擇性注意機(jī)制模型的研究工作從建模思想的定性分析提高到了模型化定量計(jì)算分析層次。該仿生模型將視覺系統(tǒng)的“中心-外周”(Center-Surround,CS)機(jī)制、WTA、IOR和顯著圖的計(jì)算結(jié)合在一起,并實(shí)現(xiàn)了定量分析。該模型首先提取出輸入圖像的亮度、顏色和方向信息形成特征圖,再采用8層金字塔模型模擬CS機(jī)制,在每種特征圖內(nèi)部進(jìn)行競爭,然后通過線性組合得到總的顯著圖來引導(dǎo)注意,最后WTA和IOR機(jī)制進(jìn)行注意轉(zhuǎn)移。這個內(nèi)隱性模型成為了目前視覺選擇性注意機(jī)制研究領(lǐng)域中較為經(jīng)典的模型。除了上述的建模思想外,另外還有外顯性即引入眼動的選擇性注意機(jī)制模型,以及自上而下與自下而上驅(qū)動相結(jié)合的計(jì)算模型也逐漸發(fā)展起來[15,22-23]。
顯著圖的生成是選擇性注意機(jī)制模型中的重點(diǎn)之一。自下而上的數(shù)據(jù)驅(qū)動機(jī)制中,圖像中物體在預(yù)注意階段通過比較每個位點(diǎn)的特征信息與其周邊信息的區(qū)別大小來定義顯著性[20]。視覺生理實(shí)驗(yàn)結(jié)果表明,許多動物視網(wǎng)膜中的視椎細(xì)胞對顏色信息敏感,而視桿細(xì)胞對亮度信息敏感[24]。而方位、邊緣信息則能夠刺激大腦皮層VI區(qū)域[25],這可以利用Gabor 模型[26]來模擬這些方向選擇性神經(jīng)元的反應(yīng)。因此,較多文獻(xiàn)采用顏色、亮度、方向、尺度、大小和運(yùn)動等初級視覺特征來衡量顯著性,如Itti提出的集合亮度、顏色、方向特征的顯著性計(jì)算,Wolfe提出的GS 2.0模型[15],Li提出的集合對比度、邊緣、方向和對稱性特征的顯著性計(jì)算。此外,還有基于信息熵的度量方法來衡量圖像中各區(qū)域的復(fù)雜度[27-28]。
另一方面,科學(xué)家們經(jīng)過視覺生理實(shí)驗(yàn)發(fā)現(xiàn)了視覺系統(tǒng)的CS機(jī)制[29]。視覺生理中將能影響某些特定視神經(jīng)細(xì)胞反應(yīng)的視網(wǎng)膜區(qū)域稱為該神經(jīng)元的“感受野”。許多動物視神經(jīng)細(xì)胞由顏色和亮度信息刺激產(chǎn)生反應(yīng)的感受野為同心圓的形狀,而且如果對該類型感受野的中心和四周施加刺激將引起相反的反應(yīng)。它有利于動物視覺系統(tǒng)對對比度信息的抽取。這個機(jī)制可以用DoG(Difference of Gaussian)模型[30]或者多層金字塔模型[19]來模擬。而神經(jīng)生理學(xué)實(shí)驗(yàn)也進(jìn)一步證實(shí)了IOR機(jī)制[31],促進(jìn)了視覺轉(zhuǎn)移控制的建模。
目前視覺假體還不能為植入者提供有效的圖像色彩信息,同時(shí),植入者感受到假體視覺的灰度、紋理、等信息與正常視覺相比也不同程度地有所減弱。這使得圖像一些重要的特征信息不足以顯著到“跳出”(Pop-out)圖像。因此,假體植入者無法利用其視覺注意機(jī)制快速準(zhǔn)確地選擇重要的、顯著的信息。研究者們希望仿照人類視覺注意機(jī)制運(yùn)用機(jī)器算法確定圖像中感興趣的目標(biāo),然后對圖像進(jìn)行特征信息提取,增強(qiáng)圖像中重要特征信息的顯著性,從而能夠充分利用有限數(shù)量的光幻視點(diǎn)來呈現(xiàn)圖像中的重要信息,達(dá)到提高圖像識別率的目的。許多小組開始研究仿真假體視覺下基于視覺注意機(jī)制模型的圖像處理策略。
清華大學(xué)的Li等[6]提出了一個假體視覺下基于視覺注意機(jī)制的低像素化圖像處理策略。該算法首先從圖像中提取視覺特征中對比度、邊緣、方向以及對稱性信息。然后對每一個特征信息進(jìn)行心理物理學(xué)實(shí)驗(yàn)評估,幫助確定最終顯著圖中各個視覺特征的權(quán)重。最終各個特征通道疊加成顯著圖,并根據(jù)每個點(diǎn)的顯著性找出圖像中的突出區(qū)域。通過以上方法依據(jù)突出區(qū)域的位置調(diào)整圖像各部分的分辨率并生成仿真假體視覺下的低像素化圖像,越突出的區(qū)域分辨率越高。Li等人通過仿真實(shí)驗(yàn)平臺評估這一模型在物體、室內(nèi)室場景中的有效性。結(jié)果表明,加入權(quán)重后的特征提取模型可以有效地找到視覺的感興趣特征和區(qū)域。
Boyle等[7]提出了假體視覺下基于ROI的圖像處理策略。他們將六類分別取自海灘、街道、辦公室、家、咖啡館的場景圖像和人體上半身圖像,在25 × 25分辨率下應(yīng)用不同的數(shù)字變焦(Digital Zoom)圖像處理策略,并呈現(xiàn)給被試完成識別任務(wù)。分別采用六種不同的ROI放大窗口:(1)重要特征映射圖剪裁窗口。首先計(jì)算原圖的重要特征映射圖(Importance Map,IM),即用統(tǒng)計(jì)方法確定不同場景中亮度對比度、尺度、形狀、中心度、前景與背景對比度、邊緣等特征信息的權(quán)重,再將特征圖根據(jù)權(quán)重大小重新疊加處理形成IM。然后從IM的最邊緣開始逐步根據(jù)灰度值剪裁,若灰度值低于最大灰度值95%,則裁去該縱列或橫排。(2)重要特征映射圖掃描窗口。同樣應(yīng)用了IM,定義一個原圖1/4大小的框?qū)M進(jìn)行掃描,獲得灰度值總和最大的區(qū)域即為窗口。(3)顯著圖剪裁窗口。根據(jù)Itti提出的選擇性注意機(jī)制模型生成的顯著圖[19]進(jìn)行剪裁,剪裁方法和(1)相同。(4)最大顯著性掃描窗口。仍然選用Itti提出的注意機(jī)制模型顯著圖,窗口的選取方法與(2)相同。(5)中央窗口。選取圖像中央大小為原圖1/4的窗口。(6)底部中央窗口。選取圖像底部居中的區(qū)域作為放大窗口,大小為原圖的1/4。這六種數(shù)字變焦策略與原圖進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明基于選擇性注意機(jī)制的顯著圖剪裁法優(yōu)于其它方法。
Parikh和Itti[4]在2010年報(bào)道了提高運(yùn)算速度的選擇性注意機(jī)制改進(jìn)模型。該自下而上的改進(jìn)模型選取亮度、色彩飽和度以及邊緣信息引導(dǎo)注意,代替了之前的顏色和方向信息。模型共生成18張?zhí)卣饔成鋱D(原始模型為42張圖),減少了模型的運(yùn)算時(shí)間。Itti同時(shí)用量化方法評估了模型的有效性,在150張場景圖片數(shù)據(jù)庫中將模型生成的顯著區(qū)域與人類注視焦點(diǎn)相匹配得到了較優(yōu)的結(jié)果。簡化后的模型在基于TMS320 DM642 的數(shù)字信號處理器系統(tǒng)上運(yùn)行速度達(dá)到了1 fps,處理速度遠(yuǎn)遠(yuǎn)快于原先的計(jì)算模型。希望該模型的進(jìn)一步優(yōu)化能夠應(yīng)用到視覺假體的圖像處理中,幫助假體植入者完成躲避障礙物和導(dǎo)航等任務(wù)。
Van Rheede等[9]基于仿真假體視覺搭建了一套實(shí)時(shí)的處理系統(tǒng),該系統(tǒng)可以實(shí)現(xiàn)基于眼動的ROI放大和魚眼放大的圖像處理策略。通過視敏度測試、表情識別、躲避障礙物、手眼互動及找路幾項(xiàng)視覺任務(wù)評估幾類策略的有效性。對于視敏度、表情識別任務(wù),結(jié)果ROI放大和魚眼放大處理策略的識別率有顯著提高;對于眼手互動任務(wù),ROI方法的準(zhǔn)確率也有明顯提高。但是,對于找路任務(wù)來說,ROI放大和魚眼放大處理策略完成任務(wù)的時(shí)間相對均有所增加。結(jié)論表明:完成不一樣的視覺任務(wù)需要不同的有效算法,ROI放大可以更加細(xì)節(jié)地描述場景,而直接低像素化略組則可以提供更為宏觀的場景信息。
視覺假體圖像處理策略能夠優(yōu)化低分辨率的假體視覺信息,是目前視覺假體中研究的重要內(nèi)容。本文系統(tǒng)介紹了仿真假體視覺下基于視覺注意機(jī)制模型的圖像處理策略研究進(jìn)展。在介紹視覺注意機(jī)制模型的基礎(chǔ)上,論述了了其在仿真假體視覺下的應(yīng)用研究進(jìn)展。基于視覺注意機(jī)制模型的圖像處理策略在仿真假體視覺下有助于找到圖像中顯著性高的目標(biāo)和區(qū)域,提高其完成視覺任務(wù)的能力。希望這些圖像處理策略能在未來的視覺假體臨床中得到廣泛應(yīng)用。
[1]Pascolini D,Mariotti SP.Global estimates of visual impairment:2010[J].Br J Ophthalmol,2012,96 (5):614-618.
[2]Chader GJ,Weiland J,Humayun MS.Artificial vision:needs,functioning,and testing of a retinal electronic prosthesis[J].Prog Brain Res,2009,175:317-332.
[3]Zrenner E.Restoring neuroretinal function by subretinal microphotodiode arrays[C].ARVO,Fort Lauerdale,USA,2007.
[4]Parikh N,Itti L,Weiland J.Saliency-based image processing for retinal prostheses[J].J Neural Eng,2010,7 (1):16006.
[5]顧柳君,王靜,陸燕玉,等.仿真假體視覺下的行動能力研究進(jìn)展[J].中國醫(yī)療器械雜志,2012,36 (2):110-113.
[6]Li R,Zhang X,Hu G.A computational pixelization model based on selective attention for artificial visual prosthesis[M]. Advances in Natural Computation.Berlin:Springer,2005.
[7]Boyle JR,Maeder AJ,Boles WW.Region-of-interest processing for electronic visual prostheses[J].J Electron Imaging,2008,17(1):013002-1-12.
[8]Boyle JR,Maeder AJ,Boles WW.Image enhancement for electronic visual prostheses[J].Australas Phy Eng Sci Med,2002,25 (2):81-86.
[9]van Rheede JJ,Kennard C,Hicks SL.Simulating prosthetic vision:Optimizing the information content of a limited visual display[J].J Vision,2010,10 (14),pii:32.doi:10.1167/10.14.32.
[10]史靜茹,陸燕玉,顧柳君,等.基于仿真假體視覺的圖像識別研究進(jìn)展[J].中國醫(yī)療器械雜志,2011,35 (3):48-52.
[11]Itti L,Koch C.Computational modeling of visual attention[J].Nat Rev Neurosci,2001,2:194-203.
[12]Bergen JR,Julesz B.Parallel versus serial processing in rapid pattern discrimination[J].Nature,1983,303 (5919):696-698.
[13]Eriksen CW,Hoffman JE.Temporal and spatial characteristics of selective encoding from visual displays[J].Percept Psychophys,1972,12 (2):201-204.
[14]Posner MI,Raichle ME.Images of mind[M].New York,US:Scientific American Library/Scientific American Books,1994.
[15]Wolfe JM.Guided Search 2.0 A revised model of visual search[J].Psychonom Bull Rev,1994,1 (2):202-238.
[16]Navalpakkam V,Itti L.An integrated model of top-down and bottom-up attention for optimizing detection speed[C].Proc CVPR 2006:2049-2056.
[17]Walther D.Interactions of visual attention and object recognition:computational modeling,algorithms,and psychophysics[D].California Institute of Technology,2006.
[18]Bamidele A,Stentiford FWM.An attention based similarity measure used to identify image clusters[C].EWIMT 2005,(Ref.No.2005/11099),67-71.
[19]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Trans Pattern Anal Mach Intell,1998,20 (11):1254-1259.
[20]Koch C,Ullman S.Shifts in selective visual attention:towards the underlying neural circuitry[J].Hum Neurobiol,1985,4 (4):219-227.
[21]Marr D,Poggio T.A computational theory of human stereo vision[J].P Roy Soc B,1979,204 (1156):301-328.
[22]Itti L,Koch C.A saliency-based search mechanism for overt and covert shifts of visual attention[J].Vision Res,2000,40 (10-12):1489-1506.
[23]Frintrop S,Backer G,Rome E.Goal-directed search with a topdown modulated computational attention system[M].Pattern Recogn.Berlin:Springer,2005.
[24]Selig Hecht.Vision:II,the nature of the photoreceptor process:a handbook of general experimental psychology[M].Worcester,US:Clark University Press,1934.
[25]De Valois RL,Albrecht DG,Thorell LG.Spatial frequency selectivity of cells in macaque visual cortex[J].Vision Res,1982,22 (5):545-559.
[26]Daugman JG.Two-dimensional spectral analysis of cortical receptive field profiles[J].Vision Res,1980,20 (10):847-856.
[27]Jagersand M.Saliency maps and attention selection in scale and spatial coordinates:an information theoretic approach[C].5th ICCV,1995:195-195.
[28]Ferraro M,Boccignone G,Caelli T.On the pepresentation of image structures via scale space entropy conditions[J].IEEE Trans Pattern Anal Mach Intell,1999,21 (11):1199-1203.
[29]Barlow HB.Action potentials from the frog's retina[J].J Physiol,1953,119 (1):58-68.
[30]Rodieck RW.Quantitative analysis of cat retinal ganglion cell response to visual stimuli[J].Vision Res,1965,5 (12):583-601.
[31]Posner MI,Rafal RD,Choate LS,et al.Inhibition of return:neural basis and function[J].Cogn Neuropsychol,1985,2 (3):211-228.