鄭新想+段士雷
摘要:該文首先簡(jiǎn)單介紹多層次卷積ICA-HMAX模型;然后提出卷積核的可視化方法實(shí)現(xiàn)對(duì)不同層次卷積核的理解。提出采用ICA-HMAX模型的S3層特征實(shí)現(xiàn)不同類別的視覺(jué)的相似度計(jì)算。通過(guò)在Caltech101數(shù)據(jù)集上實(shí)現(xiàn)對(duì)不同的類別之間的視覺(jué)相似度計(jì)算,并與類別之間的語(yǔ)義相似度進(jìn)行對(duì)比分析進(jìn)而探討語(yǔ)義相似與視覺(jué)相似之間的關(guān)系。
關(guān)鍵詞:ICA-HMAX模型;視覺(jué)相似度;卷積核;語(yǔ)義相似度
中圖分類號(hào):TP317 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)08-0177-05
Abstract: This paper firstly introduces a multi-level convolutional ICA-HMAX model; then propose visualization methods of the convolution kernel convolution kernel to achieve different levels of understanding. Proposed using S3 layer feature of the ICA-HMAX model to achieve visual similarity calculation of different categories. By implementing different categories of visual similarity between calculated on Caltech 101 datasets, and compared with the semantic similarity between categories and further explore the relationship between semantic similarity and visual similarity between.
Key words: ICA-HMAX model ;visual similarity; kernel convolution kernel; semantic similarity
1 概述
21世紀(jì)以來(lái),數(shù)字成像技術(shù)和存儲(chǔ)技術(shù)得到了空前的發(fā)展;使得每天有數(shù)量巨大的數(shù)字圖像進(jìn)入人們的生活,成為人類生活、工作、娛樂(lè)中的組成部分。另一方面,互聯(lián)網(wǎng)技術(shù)的發(fā)展給圖像的迅速傳播提供了有利的條件。此外,圖像是視覺(jué)信息的重要來(lái)源之一,蘊(yùn)含豐富的語(yǔ)義信息。圖像理解是人工智能領(lǐng)域中的一個(gè)新的方向,其核心問(wèn)題是研究如何使計(jì)算機(jī)能夠像人腦一樣有效正確理解圖像中所表達(dá)的高層語(yǔ)義信息。
仿生多層模型在計(jì)算機(jī)視覺(jué)和人工智能鄰域取得了顯著的成果。20世紀(jì)末,Poggio和Riesenhuber根據(jù)IT皮層的生理學(xué)數(shù)據(jù)提出了標(biāo)準(zhǔn)HMAX模型[1],該模型模擬視皮層中腹側(cè)通路中簡(jiǎn)單細(xì)胞(Simple Cell)和復(fù)雜細(xì)胞(Complex Cell)的交替處理的功能,實(shí)現(xiàn)多層次特征提取。在此基礎(chǔ)上,Serre等人提出一種具有隨著層次的增加復(fù)雜度和不變性逐漸增強(qiáng)的圖像特征表達(dá)[2],并將其應(yīng)用到真實(shí)場(chǎng)景的目標(biāo)識(shí)別中,其識(shí)別性能明顯優(yōu)于傳統(tǒng)的特征表達(dá)(如SIFT特征[3]);Hu等人根據(jù)大腦神經(jīng)元響應(yīng)的稀疏特性進(jìn)一步擴(kuò)展HMAX模型,提出了Sparse-HMAX模型[4],在分類性能上遠(yuǎn)遠(yuǎn)優(yōu)于HMAX模型,同時(shí)較好模擬和解釋神經(jīng)元對(duì)視覺(jué)信號(hào)的稀疏響應(yīng)。
本文內(nèi)容章節(jié)安排如下:第2節(jié)首先簡(jiǎn)要描述了本文的ICA-HMAX模型;然后介紹卷積核的可視化方法;第3節(jié)介紹基于WordNet的語(yǔ)義相似度計(jì)算和基于ICA-HMAX的視覺(jué)相似度計(jì)算方法。第4節(jié)實(shí)驗(yàn)結(jié)果和分析。第5節(jié)總結(jié)與展望。
2 ICA-HMAX模型與卷積核可視化
2.1 ICA-HMAX模型簡(jiǎn)介
前饋ICA-HMAX模型由五層構(gòu)成如圖1所示。自底向上依次為S1→C1→S2→C2→S3五層,其中S1層卷積核(W1、V1)由獨(dú)立成分析(Independent Component Analysis,ICA)方法從彩色圖像的數(shù)據(jù)塊中學(xué)習(xí)獲得,為了使得C1層具有局部空間平移不變性,在S1層的每個(gè)二維平面響應(yīng)圖上進(jìn)行局部最大值匯聚(max pooling)操作;同理,S2層卷積核(W2、V2)也是采用ICA方法從C1層采樣塊中學(xué)習(xí)獲得;同樣,為了使得C2層也具有局部空間平移不變性,在S2層的每個(gè)二維平面響應(yīng)圖上進(jìn)行最大值匯聚(max pooling)操作;同理可以獲得S3層的卷積核(W3、V3)以及S3層的特征表達(dá)。值得注意的是該前饋模型的卷積核均為單尺度。
2.2 卷積核的可視化
若要實(shí)現(xiàn)對(duì)多層模型ICA-HMAX的深入的了解,需要知道不同層次的卷積核編碼的圖像信息。由于S1層特征卷積核是在彩色圖像的原始像素層上學(xué)習(xí),可以在像素空間上直接觀察S1層卷積核編碼的圖像信息。而S2、S3層的卷積核是在圖像C1、C2層的響應(yīng)圖上經(jīng)過(guò)ICA學(xué)習(xí)獲得高維數(shù)據(jù),因此不能直接觀察其卷積核編碼的圖像信息。為了觀察S2、S3層的卷積核所編碼的圖像信息,當(dāng)給定一個(gè)某個(gè)類別的卷積核的條件下,本文提出在該類別的圖像上找出使得該卷積核的刺激最大的前50個(gè)感受野區(qū)域,并將這些區(qū)域與其刺激的響應(yīng)值進(jìn)行加權(quán)求和,然后取平均;所得結(jié)果具有表示S2、S3層卷積核所編碼的圖像信息從而作為S2、S3層的卷積核可視化。
3 相似度計(jì)算
3.1 基于WordNet的語(yǔ)義相似度計(jì)算
WordNet是由普林斯頓大學(xué)心理學(xué)家,語(yǔ)言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語(yǔ)言學(xué)的英語(yǔ)詞典。它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個(gè)“單詞的網(wǎng)絡(luò)”。一般來(lái)講,國(guó)內(nèi)外的研究學(xué)者將經(jīng)典的基于語(yǔ)義的相似度的計(jì)算方法分為三個(gè)類型[6,7]:基于距離的相似度計(jì)算(Path Counting Measures)、基于信息內(nèi)容的相似度計(jì)算(Information Content Measures)和基于特性的相似度計(jì)算(Feature-based Measures)。本文主要介紹基于距離的相似度計(jì)算方法——Shortest Path算法和Leacock and Chodorow算法。
3.2 基于視覺(jué)的類別相似度
眾所周知,不同類別之間存在部分外觀相似性,比如山貓和豹、狼和哈士奇、浣熊和果子貍等等??梢?jiàn),分別在兩個(gè)類別的訓(xùn)練集上訓(xùn)練ICA-HMAX模型,若兩個(gè)類別視覺(jué)相似度越高,則這兩個(gè)類別的S3層卷積核相似的基元個(gè)數(shù)越多;反之,兩類別的S3層卷積核中的相似的基元個(gè)數(shù)越多,兩個(gè)類別的視覺(jué)相似度越高。
我們知道兩個(gè)類別的相似度越高,則兩個(gè)類別的ICA-HMAX模型越能較好地實(shí)現(xiàn)對(duì)異類圖像的相互表達(dá)。因此采用配對(duì)字典的方法[10]實(shí)現(xiàn)對(duì)S3特征表達(dá)的重構(gòu)。然后,將重構(gòu)圖像與輸入圖的結(jié)構(gòu)相似度[11](SSIM)作為衡量S3層特征對(duì)輸入圖像描述的好壞。若重構(gòu)圖像與輸入圖的結(jié)構(gòu)相似度越高,則兩個(gè)類別的視覺(jué)語(yǔ)義相似度越高,反之亦然?;谀繕?biāo)類別的視覺(jué)語(yǔ)義相似度算法流程如表1所示:
4 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)設(shè)置:實(shí)驗(yàn)所使用的PC機(jī)配置為Intel(R) Core(TM) i7-4770、CPU 3.4GHz × 8 cores、RAM 16 GB、Windows 7操作系統(tǒng)。為了探索不同類別之間的語(yǔ)義相似度和基于ICA-HMAX模型S3層的特征描述子的視覺(jué)語(yǔ)義相似度之間的關(guān)系,本文選擇了Caltech 101數(shù)據(jù)集[12]進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集以彩色自然場(chǎng)景圖像為主(包含一定數(shù)量的人造圖像)。包括動(dòng)物、花、人臉等101個(gè)目標(biāo)類別以及一個(gè)背景類別。除背景類別之外,每個(gè)類別中的每張圖片只包括一個(gè)類別中的一個(gè)實(shí)例,這有利于本實(shí)驗(yàn)進(jìn)行。在進(jìn)行實(shí)驗(yàn)之前,首先對(duì)數(shù)據(jù)集中每張圖像做如下預(yù)測(cè)處理:統(tǒng)一圖像高度為140個(gè)像素,保持圖像的長(zhǎng)寬比不變,采用雙三次插值對(duì)其進(jìn)行縮放。將每個(gè)類別中的圖片按照4:1的比例分成訓(xùn)練集和測(cè)試集,在訓(xùn)練上訓(xùn)練各個(gè)類別的ICA-HMAX模型,采用3.2節(jié)介紹的視覺(jué)語(yǔ)義相似度方法在測(cè)試集上測(cè)試不同類別之間的視覺(jué)相似度。
4.1卷積核的可視化
圖3(b)、(c)、(d)分別給出了S1、S2和S3層卷積核的可視化結(jié)果。結(jié)果表明,不同層次的卷積核編碼了圖像不同類型的特征。圖3(b)中的S1層卷積核均編碼了圖像底層特征(如彩色邊緣、彩色表面、拐角等結(jié)構(gòu)信息等),并且不同類別的底層特征具有相似的結(jié)構(gòu)特征;值得注意的是,通過(guò)ICA在彩色圖像上的學(xué)習(xí),獲得了重要的顏色信息如彩色邊緣、彩色表面等。S2層卷積核編碼了各類別的中層部件特征,例如face_easy類別的S2層編碼了人臉的眼睛、嘴巴、鼻子等信息,如圖3(c)所示。由圖3(d)可以看出,由于S3層卷積核的感受野比S2層大,編碼信息更趨于類別信息。研究表明:這符合圖像理解的層次特性[13]。
4.2 相似度
數(shù)據(jù)集Caltech101圖像部分類別之間的基于路徑的Shortest Path算法和Leacock and Chodorow的相似度矩陣分別如圖4和圖5所示。由圖4和圖5可以看出這兩個(gè)矩陣都是對(duì)稱矩陣。與一個(gè)類別最相似的類別有的不止一個(gè),如與ant類別最相近的類別是butterfly、dragonfly、mayfly。值得注意的是圖5中基于路徑的Leacock and Chodorow算法的類別相似度數(shù)據(jù)是經(jīng)過(guò)歸一化處理后的數(shù)據(jù)。
本文采用基于ICA-HMAX模型的S3層的特征計(jì)算視覺(jué)相似,其視覺(jué)相似度矩陣的結(jié)果如圖6所示。在該相似度矩陣中,把同一類別之間的視覺(jué)相似度設(shè)置為1作參考,來(lái)衡量不同類別之間的視覺(jué)相對(duì)度。在圖6中橫軸表示ICA-HMAX模型的類別。縱軸表示測(cè)試圖像的類別。由圖6可見(jiàn),不同類別之間的視覺(jué)相似度矩陣不是對(duì)稱。比如用airplane的ICA-HMAX模型對(duì)helicopter類別的圖像進(jìn)行表達(dá),并計(jì)算其視覺(jué)相似度其值為0.506;而當(dāng)用helicopter的ICA-HMAX模型對(duì)airplane類別的圖像進(jìn)行表達(dá),并計(jì)算其視覺(jué)相似度其值為0.253。且與一個(gè)類別最相似的類別只有一個(gè)。在Caltech101數(shù)據(jù)集中helicopter類別的直升機(jī)的實(shí)例圖片上都存在較為明顯的螺旋槳。在airplane類別的飛機(jī)圖像沒(méi)有明顯的螺旋槳。而在忽略helicopter類別的直升機(jī)螺旋槳后,直升機(jī)的機(jī)體形狀與airplane類別的機(jī)體在視覺(jué)上存在相似。基于語(yǔ)義和視覺(jué)的相似度統(tǒng)計(jì)如表2所示。
兩種相似度之間的差異性分析:由表2可知,基于語(yǔ)言的語(yǔ)義的相似度與基于視覺(jué)的相似度之間存在一致性和差異性。一致性:由表2可知,20個(gè)類別中基于語(yǔ)義和視覺(jué)的相似度一致有5對(duì),分別sunflower和bonsai、rhino和llama、airplane和helicopter、ant和mayfly、hedgehog和llama。比如airplane和helicopter這兩個(gè)類別的實(shí)例如圖7所示。由圖可見(jiàn),不同類別之間存在視覺(jué)相似,兩個(gè)類別實(shí)例在的某些局部形狀、顏色、紋理等方面具有視覺(jué)上的相似性。差異性:由表2可知:20個(gè)類別中基于語(yǔ)義和視覺(jué)的相似度不一致的較多。如圖8所示,ant、butterfly和dragonfly這三個(gè)類別的語(yǔ)義相對(duì)度很高但是它們的視覺(jué)相似度相差較大。原因在于:語(yǔ)義即語(yǔ)言意義,是人腦對(duì)客觀上事物的認(rèn)識(shí)和理解,它具有高度的概括性和抽象性。類別之間的語(yǔ)義往往根據(jù)類別所屬范疇、關(guān)系、屬性、功能等綜合特性來(lái)進(jìn)行劃分。而僅僅從事物的視覺(jué)外觀上無(wú)法體現(xiàn)出上述種種關(guān)系。
5 結(jié)論與展望
通過(guò)ICA-HMAX不同層次卷積核的可視化分析可知:自底層到高層不同層次的卷積編碼規(guī)律如下:不同層次的卷積核編碼了圖像不同類型的特征。模型的層次越高,卷積核編碼的信息越趨向于反映目標(biāo)類別的特性,S1層卷積核編碼體現(xiàn)底層共享特征(如拐角、 彩色邊緣、彩色表面等)。S2層卷積核編碼中層部件特征,比如face_easy類別的S2層編碼了人臉的眼睛、嘴巴、鼻子等局部信息。S3層編碼信息更趨于類別的全局信息。研究表明:這符合圖像理解的層次特性。
通過(guò)視覺(jué)的相似和語(yǔ)義的相似度分析可知,基于ICA-HMAX模型的S3層特性的視覺(jué)相似度與語(yǔ)義相似之間存在一致性和差異性。這種一致性和差異性在計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域具有互補(bǔ)性。比如對(duì)于那些語(yǔ)義和視覺(jué)的相似度一致的類別,尤其是視覺(jué)相似度較高的類別之間可以進(jìn)行遷移學(xué)習(xí),使得計(jì)算機(jī)實(shí)現(xiàn)人類的類比學(xué)習(xí)能力。對(duì)于語(yǔ)義和視覺(jué)的相似度差異性在圖像的檢索和圖像理解等方面可以實(shí)現(xiàn)互補(bǔ)。通過(guò)語(yǔ)義的相似度我們可以檢索到較多的相似類別,如與ant語(yǔ)義相似的有ant、dragonfly、butterfly。這樣我們可以實(shí)現(xiàn)大范圍的查找。然后在通過(guò)視覺(jué)的相似度進(jìn)一步篩選正確的類別圖片。反之,通過(guò)語(yǔ)義可以指導(dǎo)基于視覺(jué)的機(jī)器學(xué)習(xí)。
參考文獻(xiàn):
[1] Riesenhuber M, Poggio T. Hierarchical models of object recognition in cortex [J]. Nature neuroscience, 1999, 2(11): 1019-1025.
[2] Serre T, Wolf L, Bileschi S, et al. Robust object recognition with cortex-like mechanisms [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2007, 29(3): 411-426.
[3] Lowe D G. Distinctive image features from scale-invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91-110.
[4] Hu X, Zhang J, Li J, et al. Sparsity-regularized HMAX for visual recognition [J]. PloS one, 2013, 9(1): e81813-e81813
[5] Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines [C] //Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010: 807-814.
[6] Hliaoutakis A. Semantic Similarity Measures in MeSH Ontology and their application to Information Retrieval on Medline [J]. 2005.
[7] Raftopoulou P, Petrakis E. Semantic similarity measures: A comparison study [J]. Technical University of Crete, Department of Electronic and Computer Engineering, Tech. Rep. TR-TUC-ISL-04-2005, 2005.
[8] R. Rada, H. Mili, E. Bicknell and M. Blettner, “Development and Application of a Metric on Semantic Nets”, IEEE Transactions on Systems, Man and Cybernetics, vol. 19, Issue 1, (1989) January-February, pp. 17 - 30.
[9] H. Bulskov, R. Knappe and T. Andreasen, “On Measuring Similarity for Conceptual Querying”, Proceedings of the 5th International Conference on Flexible Query Answering Systems, (2002) October 27-29, Copenhagen, Denmark.
[10] Vondrick C, Khosla A, Malisiewicz T, et al. HOGgles: Visualizing Object Detection Features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1-8.
[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[12] Li Fei-Fei, Rob Fergus, and Pietro Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories [J]. Computer Vision and Image Understanding, 2007, 106(1): 59-70.
[13] 謝昭. 圖像理解的關(guān)鍵問(wèn)題和方法研究[D]. 合肥工業(yè)大學(xué), 2007.