許躍穎 郎 波 黃 靜
(北京師范大學珠海分校信息技術學院 珠海 519087)
利用非經(jīng)典感受野競爭機制實現(xiàn)有效圖像表征的方法?
許躍穎 郎 波 黃 靜
(北京師范大學珠海分校信息技術學院 珠海 519087)
論文是在人類視覺的基礎上,利用神經(jīng)節(jié)細胞非經(jīng)典感受野的神經(jīng)機制原型對圖像實現(xiàn)通用表征。該模型利用生物視覺處理中的反饋機制設計了一種神經(jīng)計算回路,模擬了非經(jīng)典感受野在不同的刺激狀態(tài)下能夠動態(tài)調節(jié)的生理特性來對圖像進行基于鄰域相似度的圖像局部分割與壓縮表征,從而在神經(jīng)表征層面實現(xiàn)了圖像的內(nèi)在表征,以便于進一步提取圖像的語義,實現(xiàn)圖像的理解。為更加有效、充分地表征圖像提供了一種新的研究思路。
非經(jīng)典感受野;神經(jīng)節(jié)細胞;圖像表征
提取圖像的語義、實現(xiàn)圖像理解是一項對人工智能而言非常具有挑戰(zhàn)性的任務。就目前所知,高等哺乳動物的視覺系統(tǒng)也是經(jīng)過了長期的生物進化過程才得到了這種能力。在視覺信息加工的多個環(huán)節(jié)中,對刺激進行客觀、全面的表征是一個關鍵的環(huán)節(jié)。圖像處理和計算機視覺有著很多不同層次的任務,對于簡單任務(如邊緣銳化)和復雜的任務(如場景理解)來說,它們的本質區(qū)別在于語義的復雜程度和介入程度,前者比較低,而后者比較高。場景理解等高層次視覺任務的最終目標是形成圖像的整體性語義和掌握內(nèi)容的總體框架,而這是圖像像素及其陣列本身不可能提供的,只能由主動加工過程來實現(xiàn)。這種加工過程把物理層面上的數(shù)百萬個像素點變成了意義層面的數(shù)十個對象,這種抽取過程的中心操作便是聚合。大腦通過建立關于外部世界刺激的內(nèi)在表征,形成一個待加工的近似物,使得圖像的不同局部能夠被能動地操縱(選擇、分解、組合),以便與記憶進行對比從而得到對近似物的合理解釋。
目前對視覺的神經(jīng)機制已經(jīng)做了很深入的研究,對于非經(jīng)典感受野在視覺處理中所具備的作用也做了詳細的闡述,證據(jù)表明[10],在視皮層V2區(qū)細胞感受野的非經(jīng)典感受野區(qū)域有非局部性的長程連接,可以接受來自更高層次的神經(jīng)元的反饋輸入,從而形成視覺處理中的反饋通路。這為設計非經(jīng)典感受野計算模型提供了解剖學的證據(jù)。神經(jīng)生物學研究表明,根據(jù)不同亮度、不同刺激、不同背景圖像、不同的運動速度,感受野的大小會進行動態(tài)的調整變化?;谶@個特點,可以設計這樣一種基于非經(jīng)典感受野的圖像表征算法。它能夠根據(jù)刺激的性質進行調節(jié)。
非經(jīng)典感受野動態(tài)調整的算法如圖1所示。
圖1 非經(jīng)典感受野示意圖
在圖1中,除CRF之外,外面的圓環(huán)代表非經(jīng)典感受野,分別設為 n1,n2,n3… ,由于非經(jīng)典感受野并不是無限擴張的,它的大小約為經(jīng)典感受野的3~6倍。在算法中設定了非經(jīng)典感受野的最大擴張范圍。每個圓環(huán)又是由若干個亞區(qū)組成,每個亞區(qū)覆蓋一部分像素點。首先計算亞區(qū)內(nèi)像素點的波長的平均值,然后利用式(1)計算出圓環(huán)內(nèi)所有亞區(qū)的方差。
其中n表示單個圓環(huán)中亞區(qū)的個數(shù);ki表示第i個亞區(qū)的波長值;K表示所有亞區(qū)波長的平均值。
首先確定經(jīng)典感受野的尺寸,外面的環(huán)帶表示非經(jīng)典感受野的擴張。每一個環(huán)帶被分為若干個亞區(qū),計算每一個亞區(qū)所覆蓋的波長的平均值后并求方差。如果波長方差的平均值小于給定的閾值,表示該區(qū)域顏色變化平緩,感受野會擴張。如果波長方差大于給定的閾值,表示該區(qū)域顏色變化劇烈,感受野將停止擴張。圓環(huán)的擴大和縮小表明了它所覆蓋的區(qū)域是否是相似的。通過非經(jīng)典感受野的這種動態(tài)變化關系可以將圖像分割成若干個區(qū)域,這樣在表征圖像的時候就從數(shù)以萬計的像素點過渡到若干個“塊”的表示。
神經(jīng)節(jié)細胞的輸出可以表示為
其中
式(2)中GC表示神經(jīng)節(jié)細胞的響應,I(x,y)表示輸入的圖像。(x ,y)表示光感受器細胞的位置,(x0,y0)表示感受野的中心坐標,Wcenter,Wsurround,Wextend表示的是權值函數(shù),A1,A2,A3表示的是感受野的最大范圍,σ1,σ2,σ3表示的是權值函數(shù)的標準差值,在本實驗中,設定 σ3=4σ2,σ2=5σ1,A1=1,A2=0.18,A3=0.05。
去除冗余感受野,最大程度的保留能夠表征圖像的“有效感受野”。在實現(xiàn)感受野競爭的時候,要遵循以下基本原則:1)輸出內(nèi)容不同的GC不形成競爭;2)覆蓋范圍相差比較大的感受野不形成競爭;3)輸出高度相似、空間位置鄰近、感受野又存在大面積交疊的GC存在競爭。
圖2 用于形成表征的感受野競爭網(wǎng)絡示意圖
如何實現(xiàn)感受野競爭機制呢?在圖2中,四個神經(jīng)節(jié)細胞分別在圖像上投射了四個感受野A,B,C和D,分別是獨立、重疊和交叉的位置關系。從圖4中可以看到,由于C包含在B中,C感受野所能表征的范圍同樣包含在B感受野的表征范圍內(nèi),所以C就被抵消了,最后的輸出應該是A,B,D。在模型里設計了兩個控制層:分別是反饋控制層(FCL)和輸出控制層(OCL)。FCL發(fā)送信號給OCL,OCL打開相應的輸出開關,則感受野所表征的范圍也被輸出。反之,F(xiàn)CL將發(fā)送相反的信號給OCL,OCL會關閉輸出,則感受野表征的范圍也不會被輸出,相當于感受野被屏蔽了。感受野的競爭機制使得用戶可以花費最小的代價去表征圖像。
從圖3的實驗結果可以看到,在顏色相近的區(qū)域,感受野連續(xù)的擴張,在邊界或者是顏色對比度比較大的區(qū)域,感受野急劇縮小。通過非經(jīng)典感受野的這種動態(tài)調節(jié),原來由成千上萬的像素點組成的圖像就被感受野理解為若干個“塊”。在競爭之前有很多感受野,相當于每一個神經(jīng)節(jié)細胞都有自己的感受野投射到圖像上,每一個感受野覆蓋的區(qū)域稱之為“塊”。但其中有許多是重疊的,也就是說它們表征的范圍和內(nèi)容是相同的。引入競爭機制以后,一些重疊的感受野就被消除了,只保留了最能表征圖像特征的感受野。
圖3 引入競爭機制后的非經(jīng)典感受野在自然圖像中的變化情況
圖3 (a)是沒有引入競爭機制前感受野在圖像上的分布情況。圖3(b)是引入競爭機制以后感受野的變化情況,其中圖中的圓點表示被消除掉的感受野的圓心坐標點。圓圈經(jīng)表示經(jīng)過競爭以后保留下來的感受野。圖3(c)競爭完成以后最終保留下來的感受野分布情況。
3.2.1 圖像“連續(xù)塊”與感受野變化的關系
統(tǒng)計圖像中“連續(xù)塊”的數(shù)量、尺寸和分布,所謂的“連續(xù)塊”,是指圖像中某一區(qū)域的像素值是相等或相近的。顏色塊數(shù)量與感受野的數(shù)量成正比關系。當顏色連通塊的數(shù)量比較多時,表示圖像中的色彩變化劇烈,則該圖像的復雜程度較高,表征所需要的感受野個數(shù)也比較多;當顏色連通塊的數(shù)量比較少時,表示圖像中的色彩變化平緩,則該圖像的復雜程度較低,表征所需要的感受野的個數(shù)也比較少。結果如圖4所示。
圖4 引入競爭之后感受野個數(shù)的變化與自然圖像顏色塊的關系
3.2.2 圖像頻率與感受野變化的關系
圖像頻率是用來表征圖像灰度變化的重要指標。對所測試圖像進行傅里葉變換,分析圖像中高頻信息和低頻信息與表征該圖像所需感受野個數(shù)之間的關系。圖像中包含的高頻分量越多,表明圖像復雜度越高,表征圖像所需的感受野個數(shù)也較多。如圖5所示。
圖5 圖像頻率與感受野個數(shù)變化之間的關系
眾所周知,一幅數(shù)字圖像就是由若干個像素點組成的陣列,但是分散的、單獨的像素點只是單純的物理元素,它不能表示深層的語義信息。我們需要把像素組織成為一些有意義的集合或者區(qū)域。被組合的像素點比起單獨的像素點具有更深層次的意義,可以幫助我們進一步提取圖像的語義。這就需要設計一種行之有效的表征方式。這種表征方法能夠完整地提取圖像中最具有本質的特征信息,并且這些特征能夠在更高的層次上被操作,它應該具有更好的表現(xiàn)形式和更高的執(zhí)行效率,能夠完整而快速的表征不同的圖像,并且表征的結果能夠進行后續(xù)處理。幸運的是,人類的視覺系統(tǒng)經(jīng)過億萬年的演化,已經(jīng)具備了強大的表征功能,由此,我們利用神經(jīng)節(jié)細胞及其非經(jīng)典感受野模型的特點,來設計這樣一種滿足上述特點的圖像表征算法,為數(shù)字圖像處理技術提供一種新的解決途徑。
[1]Willson H R,Humanski R.Spatial frequency adaptation and gain control[J].Vision Res 33,1993,234(6):1133-1149.
[2]Gilbert CD,Wiesel TN.The influence of contextual stim?uli on the orientation selectivity of cells in primary visual cortex of the cat[J].Vision Research,1990,30(1):1689-1701.
[3]Sillito AM,Grieve KL,Jones H E,Cudeiro J,Davis J.Vi?sual cortical mechanisms detecting local focal orientation discontinuities[J].Nature,1995,378(6):492-496.
[4]Wilson HR,Richards WA.Curvature and separation dis?crimination attextureboundaries[J].Neuroscience,1992,9(1):1653-1662.
[5]Knierim J,Van Essen DC.Neural responses to static tex?ture patterns in area V1 of the alert macaque monkey[J].Journal of Neurophysiology,1992,67(3):961-980.
[6]Li Wu,Li,C.Y.Integration Field Beyond The Classical Visual Receptive Field[J].Chinese Journal of Neurosci?ence,1994,634(6):123-136.
[7]Jones JP,Stepnoski A,Palmer LA.The two-dimensional spectral structure of simple receptive fields in cat striate cortex[J].Journal of Neurophysiology,1987,58(4):1212-32.
[8]李冠彬,吳賀豐.基于顏色紋理直方圖的帶權分塊均值漂移目標跟蹤算法[J].計算機輔助設計與圖形學學報,2011,23(12):2059-2066.LI Guanbin,WU Hefeng.Weighted fragments-based meanshift tracking using color-texture histogram[J].Jour?nal of Computer-Aided Design&Computer Graphics,2011,23(12):2059-2066.
[9]Yang,X.L.,Gao,F(xiàn).,Wu,Samuel M.,Modulation of horizontal cell function by GABA(A)and GABA(C)re?ceptors in dark-and light-adapted tiger salamander retina[J].Vision Neuroscience,16(3):967-979.
[10]邱芳土,李朝義.視網(wǎng)膜神經(jīng)節(jié)細胞空間傳輸特性的模擬[J].生物生理學報,1995,11(2):214-220.QIU Fangtu,LI Chaoyi.Mathematical simulation of disin?hibitory properties of concentric receptive field[J].Acta Biophysica Sinica,1995,11(2):214-220.
[11]姜求平,邵楓,蔣剛毅,等.基于視覺重要區(qū)域的立體圖像視覺舒適度客觀評價方法[J].電子與信息學報,2014,36(4):875-881.JIAN Qiuping,SHAO Feng,JIAN Gangyi,et al.An ob?jective stereoscopic image visual comfort assessment met?ric based on visual important regions[J].Journal of Elec?tronics& Information Technology,2014,36(4):875-881.
A Model of Image Representation Based on Non-Classical Receptive Fields
XU YueyingLANG BoHUANG Jing
(School of Information Technology,Beijing Normal University,Zhuhai 519087)
In this paper,the physiological mechanism of non-classical receptive field is utilized and a hierarchical network model for image representation is designed based on neurobiology.It is different from the contour detection,edge detection,and oth?er practices using the classical receptive fields,it simulates the non-classical receptive field's physiological mechanism which can be dynamically adjusted according to stimulation for image local segmentation and compression based on image neighborhood region similarity,thus to realize the inner image representation in neural representation level and convenient for extract the semantic fur?ther.
non-classical receptive field,ganglion cell,image representation
Class Number TP391
TP391
10.3969/j.issn.1672-9722.2017.12.034
2017年6月7日,
2017年7月30日
國家自然科學基金項目(編號:61272364)資助。
許躍穎,男,碩士,助教,研究方向:數(shù)字圖像處理。郎波,男,博士,教授,研究方向:模式識別與人工智能。黃靜,女,博士,教授,研究方向:計算機圖形圖像。