占善華,黃少麗
(廣東司法警官職業(yè)學(xué)院信息管理系,廣州 510520)
基于圖嵌入的圖像分類(lèi)已在許多框架中得到了深入研究,例如文獻(xiàn)[1-3]。傳統(tǒng)上,這些方法使用手工設(shè)計(jì)的特征來(lái)表示圖像并構(gòu)造圖形,其中頂點(diǎn)顯示特征,而邊緣對(duì)特征之間的關(guān)系進(jìn)行編碼。然后,這些方法將圖嵌入到某些幾何空間中,以使相似的圖位于附近,而相異的圖則位于更遠(yuǎn)的位置。文獻(xiàn)[4-5]使用AlexNet 數(shù)據(jù)集圖像分類(lèi)任務(wù)以來(lái),諸如VGG[6]、Inception[7]、ResNet[8]、DenseNet[9]之 類(lèi) 的 深 度 神 經(jīng) 網(wǎng) 絡(luò)(DNN)成為了主導(dǎo)方法。而且,DNN 已顯示出學(xué)習(xí)更多具有代表性和區(qū)分性的圖像分類(lèi)功能。因此,圖嵌入方法利用深層特征而不是手工設(shè)計(jì)特征來(lái)進(jìn)行圖形構(gòu)建。
在本文中,我們提出了一種使用具有深層特征的無(wú)失真圖嵌入的新穎圖像分類(lèi)方法。具體來(lái)說(shuō),從圖像中提取深層特征后,我們基于這些深層特征構(gòu)建了一個(gè)完整的圖,以使其頂點(diǎn)表示特征,其邊緣顯示相應(yīng)特征之間的距離。然后,我們?cè)趌∞下執(zhí)行無(wú)失真圖嵌入,以將輸入圖表示為幾何空間中的一組點(diǎn)。最后,我們使用KNN-Random Forest 進(jìn)行圖像分類(lèi)。我們對(duì)所提方法的進(jìn)行了相應(yīng)的實(shí)驗(yàn)評(píng)估(包括與以前的圖形嵌入框架的比較),并證明該方法的有效性。簡(jiǎn)單來(lái)說(shuō),我們提出了一種基于深度特征和KNN 隨機(jī)森林的無(wú)失真圖嵌入的新穎框架。
ImageNet 這樣的大型圖像數(shù)據(jù)集的可用性以及GPU 的計(jì)算能力的增長(zhǎng)為我們提供了使用深度學(xué)習(xí)技術(shù)進(jìn)行圖像分類(lèi)的可能性。研究表明,這種方法優(yōu)于傳統(tǒng)方法。深度學(xué)習(xí)技術(shù)可以以端到端的方式很好地學(xué)習(xí)圖像的辨別表示。使用預(yù)訓(xùn)練的遷移學(xué)習(xí)模型,可以獲得性能較好的基于深度學(xué)習(xí)的圖像分類(lèi)模型。一直以來(lái),提取區(qū)分性和代表性特征一直是計(jì)算機(jī)視覺(jué)的一項(xiàng)基本任務(wù)。常見(jiàn)的特征提取方法之一是使用尺度不變特征變換(SIFT)[10],該變換已成功應(yīng)用于許多問(wèn)題,例如對(duì)象識(shí)別、全景拼接和3D 建模。諸如CNN之類(lèi)的深度學(xué)習(xí)體系結(jié)構(gòu)可以通過(guò)使用擠壓函數(shù)和編碼來(lái)用作自動(dòng)特征提取器。
在不同的實(shí)際應(yīng)用程序中,大多數(shù)問(wèn)題都可以轉(zhuǎn)換為基于圖形的問(wèn)題。圖表示的一種可能方法是將一個(gè)或多個(gè)圖節(jié)點(diǎn)轉(zhuǎn)換為向量空間。由于圖形表示法的盛行,這種類(lèi)型的轉(zhuǎn)換在獲得了普及。根據(jù)嵌入空間的復(fù)雜性和維度等特征,圖嵌入技術(shù)可分為三類(lèi):基于分解的、基于隨機(jī)游走以及基于深度學(xué)習(xí)。近些年,有很多的方法在提取步驟都容易出錯(cuò),這就限制了在實(shí)踐中的適用性。通過(guò)使用深度學(xué)習(xí)功能,可以一定程度解決解決步驟出錯(cuò)的問(wèn)題。
本文所提框架包括6 個(gè)主要步驟。第一步,對(duì)框架中使用的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,并將深度學(xué)習(xí)模型進(jìn)行微調(diào);第二步,通過(guò)在深度學(xué)習(xí)模型中計(jì)算穩(wěn)定性值,為每個(gè)圖像及其降序提取深度特征;第三步,創(chuàng)建一個(gè)完整的圖,使每個(gè)節(jié)點(diǎn)代表一個(gè)特征,并且每個(gè)邊的權(quán)重反映相應(yīng)特征值之間的絕對(duì)差;第四步,將每個(gè)圖形嵌入到l∞且無(wú)失真的幾何空間中;第五步,應(yīng)用混合算法KNN-Random 森林進(jìn)行圖像分類(lèi);第六步,最后生成分類(lèi)輸出。
本文使用VGG19 模型對(duì)ImageNet 數(shù)據(jù)集及其類(lèi)別的子集進(jìn)行了相關(guān)實(shí)驗(yàn)。我們知道,在沒(méi)有對(duì)VGG19 進(jìn)行微調(diào)的情況下提取特征,這些特征并不是一組具有代表性的特征,因?yàn)樵嫉腣GG19 模型已經(jīng)過(guò)1000 次訓(xùn)練。因此,對(duì)于這種情況,可以應(yīng)用遷移學(xué)習(xí)技術(shù)進(jìn)行處理。在我們的方法中,我們具有針對(duì)性地、選擇性地訓(xùn)練了最后一層,而不僅僅是替換了最后一層。這樣做的好處顯而易見(jiàn),其與VGG19 方法相比,這可以表示具有較少深度特征的圖像。更準(zhǔn)確地說(shuō),我們鎖住了VGG19 的最后兩層,并分別添加了200和150 個(gè)節(jié)點(diǎn)的層。從計(jì)算復(fù)雜角度看,這種變化極大地弱化了計(jì)算深度,因?yàn)槲覀儾恍枰鎯?chǔ)所有4096個(gè)VGG19 深度特征,而只需存儲(chǔ)150 個(gè)特征即可正確表示圖像。職業(yè)當(dāng)我們構(gòu)造完一個(gè)完整的圖后,該圖的節(jié)點(diǎn)表示較深的特征,并且其邊緣反映了相應(yīng)特征之間的距離,使用切比雪夫距離作為距離值,最后進(jìn)行無(wú)失真圖嵌入。需要提到的是,從圖像中獲得150 個(gè)深層特征后,我們將根據(jù)它們的值按降序?qū)λ鼈冞M(jìn)行排序,并以此構(gòu)建完全連接的圖形。這些節(jié)點(diǎn)之間的距離的計(jì)算方法為要素之間的絕對(duì)差。計(jì)算出的該距離也稱(chēng)為Chebyshev,具體的方法,即點(diǎn)X 和Y 之間的距離計(jì)算為:
其中,i 是相應(yīng)坐標(biāo)的索引。
無(wú)失真圖嵌入包括幾個(gè)步驟。令G=(V,E)為輸入圖,令 V={v0,v1,v2,v3,v4}為節(jié)點(diǎn)集。該圖中一個(gè)節(jié)點(diǎn)的嵌入是集合Ω={d0,d1,d2,d3,d4},其中 di是到圖中相應(yīng)節(jié)點(diǎn)的最短距離。例如,圖1 中v0的矢量表示為{0.0,2.0,3.5,2.0,1.0},其中集合中的每個(gè)元素都是到相應(yīng)節(jié)點(diǎn)的最短距離。以此類(lèi)推,我們計(jì)算并獲得v3 的嵌入,該嵌入給出值序列為{2.0,2.5,4.0,0.0,1.5}。通過(guò)這樣的方法,可以找到每個(gè)節(jié)點(diǎn)的坐標(biāo)。特征排序是嵌入過(guò)程中最重要的部分之一,因?yàn)樵撉度雽?duì)特征的順序非常敏感。先前的工作通過(guò)特征相對(duì)于其鄰居的相對(duì)位置來(lái)對(duì)特征進(jìn)行排序,這既昂貴又容易出錯(cuò)。在提出的框架中,我們僅使用深度學(xué)習(xí)模型中計(jì)算出的值。這樣可以確保穩(wěn)定性。另外,由于對(duì)于輸入圖像始終獲得相同數(shù)量的特征,本次工作不處理均等化問(wèn)題。
圖1 帶有邊緣權(quán)重的樣本連接圖
在先前的很多工作中,有很多研究者使用混合算法,基于這些受混合算法用于分類(lèi)任務(wù)的啟發(fā),SVMKNN 組合已成功用作圖像分類(lèi)器[11]。KNN 存在高方差問(wèn)題,而SVM 在計(jì)算上卻很昂貴。研究表明,SVMKNN[11]應(yīng)用的大型多類(lèi)數(shù)據(jù)集的實(shí)驗(yàn)效果優(yōu)于KNN 和SVM。該算法的主要原理是通過(guò)以下方式使用混合SVM-KNN:
計(jì)算從查詢(xún)到所有其他訓(xùn)練圖像的距離。
●如果所有K 個(gè)鄰居都具有相同的標(biāo)簽,相應(yīng)地進(jìn)行標(biāo)記查詢(xún)。
●如果不是,將距離矩陣轉(zhuǎn)換為內(nèi)核矩陣之后應(yīng)用多類(lèi)SVM。
●使用SVM 獲取查詢(xún)標(biāo)簽。
基于上述方法,本文采用KNN-Random 森林作為圖像分類(lèi)器。在這里,隨機(jī)森林被用作SVM 的替代。之所以進(jìn)行此替換的關(guān)鍵原因是由于SVM 的計(jì)算要求,尤其是對(duì)于具有多個(gè)類(lèi)的大型數(shù)據(jù)集。
圖2 圖像示例
ImageNet 是圖像數(shù)據(jù)集,它是根據(jù)“WordNet”層次結(jié)構(gòu)進(jìn)行組織的,在文獻(xiàn)[4]中有詳細(xì)介紹。WordNet中所有有意義的概念都可以用多個(gè)單詞或一個(gè)稱(chēng)為“同義詞集”的單詞來(lái)描述。WordNet 中的同義詞集總數(shù)超過(guò)100000,其中80000+是名詞。每個(gè)類(lèi)別用1000-1500 張圖像表示。為了增加數(shù)據(jù)集中的圖像數(shù)量,我們使用了數(shù)據(jù)增強(qiáng)功能,該功能通過(guò)創(chuàng)建數(shù)據(jù)集中所有圖像的修改版本來(lái)人為地?cái)U(kuò)展訓(xùn)練和測(cè)試數(shù)據(jù)集的大小。通過(guò)提供新的圖像變體,此技術(shù)提高了對(duì)模型進(jìn)行概括的能力。特別是,我們?yōu)槊繌垐D片使用20 度旋轉(zhuǎn)和水平翻轉(zhuǎn),從而在數(shù)據(jù)集中為每張圖片創(chuàng)建了另外5 個(gè)變體。圖2 顯示了這種數(shù)據(jù)增強(qiáng),其中每行中的第一張圖像是原始圖像,其余的分別顯示了針對(duì)“紫羅蘭”、“狼蛛”和“獵豹”類(lèi)別的變換圖像。我們使用ImageNet 的子集,使得圖像總數(shù)為71326。訓(xùn)練和測(cè)試的拆分比例為80%到20%,其中57000 幅圖像用于訓(xùn)練,其余14260 幅圖像用于測(cè)試。結(jié)果顯示,基于K=3 的KNN-Random Forest 提出的框架在5 個(gè)類(lèi)的ImageNet 子集上獲得了96.1%的圖像分類(lèi)精度,在10 個(gè)類(lèi)中獲得了92.3%的圖像分類(lèi)精度,這證明了所提出框架提高了圖像分類(lèi)的準(zhǔn)確性。
圖嵌入技術(shù)已被幾種不同的框架采用,用于解決許多問(wèn)題,例如圖像分類(lèi)、特征對(duì)應(yīng)和圖像索引。在本文中,我們提出了一種基于具有深層特征的無(wú)失真圖嵌入的圖像分類(lèi)框架。盡管以前已經(jīng)提出了具有手工特征的無(wú)失真圖形嵌入方法,但是我們使用深度特征來(lái)應(yīng)用這種嵌入方法來(lái)克服替代技術(shù)所面臨的一些問(wèn)題的方法是新穎的。我們已經(jīng)在ImageNet 的子集中顯示了所提出框架的有效性。但是,我們的未來(lái)目標(biāo)是在更大的數(shù)據(jù)集中執(zhí)行更全面的評(píng)估,并將其與更多替代方法進(jìn)行比較。