王 光,陶 燕,沈慧芳,周樹東
1.遼寧工程技術(shù)大學(xué)軟件學(xué)院,遼寧 葫蘆島 125000
2.中國科學(xué)院海西研究院泉州裝備制造研究所遙感信息工程實(shí)驗(yàn)室,福建 泉州 362000
近幾十年來,隨著遙感技術(shù)的快速發(fā)展以及數(shù)據(jù)獲取的成本降低,對遙感圖像的研究逐漸成為遙感領(lǐng)域的熱點(diǎn)之一。遙感圖像的語義解譯在多種應(yīng)用中扮演著重要角色,如城市規(guī)劃、交通控制、土地利用制圖以及災(zāi)害監(jiān)測等[1-4]。場景分類的目的是給當(dāng)前圖像分配對應(yīng)的語義標(biāo)簽,是遙感圖像語義解譯的重要手段。因此,如何在圖像中捕捉具有鑒別性的特征并取得精確的圖像分類結(jié)果是遙感場景圖像分類亟待解決的難題。
現(xiàn)有的場景分類方法,大多數(shù)主要依賴于傳統(tǒng)手工設(shè)計(jì)的局部特征描述子。其中,基于視覺的詞袋模型(bag-of-visual-words,BoVW)首先提取像素點(diǎn)局部不變特征作為視覺單詞,然后根據(jù)視覺單詞出現(xiàn)頻率構(gòu)建直方圖表示整張圖像[4-5]。雖然該方法在場景分類中取得了一定的效果,但是BoVW模型完全忽略了產(chǎn)生的視覺單詞的位置信息,無法得到圖像之間的相互聯(lián)系。因此Lazebnik 等人[6]提出了空間金字塔匹配核(spatial pyramid matching kernel,SPMK),首先將圖像劃分為不同尺度的網(wǎng)格,計(jì)算每個(gè)尺度上單元格中各個(gè)視覺單詞的頻率,以此估計(jì)兩幅圖像的相似度。然而,SPMK 模型只能計(jì)算兩幅圖像中固定位置之間的聯(lián)系,無法體現(xiàn)鄰接單元之間的相關(guān)性。Yang 等人[4]提出的空間共現(xiàn)核(spatial co-occurrence kernel,SCK)能夠同時(shí)捕捉固定位置和相鄰單元之間的相互聯(lián)系。雖然局部特征描述子在場景分類中取得了較好的成果,但由于遙感圖像自身存在的一些特性,如不同語義圖像通常包含相同的對象或者同一語義圖像尺度差異大,傳統(tǒng)的手工設(shè)計(jì)方法難以獲得魯棒的特征,因此限制了圖像分類的性能。
為了彌補(bǔ)手工制作特征的局限,提出了無監(jiān)督特征學(xué)習(xí)的方法,通過模擬圖像中的差異對圖像進(jìn)行分類。Hu 等人[7]采用線性流形分析技術(shù)將原始圖像塊從高維空間映射到低維空間中,然后在流形空間中使用K均值聚類對圖像塊進(jìn)行編碼。Risojevic等人[8]首先采用四元數(shù)特征過濾器進(jìn)行無監(jiān)督特征學(xué)習(xí),然后基于四元數(shù)正交匹配追蹤進(jìn)行稀疏編碼,該方法能夠捕捉像素顏色與強(qiáng)度之間的內(nèi)部聯(lián)系。Othmana等人[9]采用無監(jiān)督的方式將初始的卷積特征送入稀疏編碼器對土地利用場景進(jìn)行分類。無監(jiān)督的特征學(xué)習(xí)方法雖然具備捕捉差異信息的能力,但由于缺乏圖像的語義標(biāo)簽,無法根據(jù)識(shí)別結(jié)果對聚類過程進(jìn)行改善,因此對圖像分類性能的提升能力有限。
近來,卷積神經(jīng)網(wǎng)絡(luò)以其自主的特征學(xué)習(xí)能力和強(qiáng)大的特征表示能力在多種任務(wù)上取得了重要進(jìn)展,不僅克服了手工制作特征表達(dá)能力單一等缺陷,而且能夠通過訓(xùn)練過程中的損失函數(shù)對模型參數(shù)進(jìn)行優(yōu)化。Chen等人[10]基于單層的玻爾茲曼機(jī)和多層的深度置信網(wǎng)絡(luò)分別學(xué)習(xí)低水平特征和高水平特征,然后使用邏輯回歸分類器對高光譜圖像進(jìn)行分類。張康等人[11]利用8層深度的網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合softmax和支持向量機(jī)對遙感圖像復(fù)雜場景進(jìn)行分類。Flores 等人[12]采用預(yù)訓(xùn)練的ResNet-50 DCNN模型對特定遙感場景數(shù)據(jù)中的訓(xùn)練集進(jìn)行特征提取,以此得到高斯混合模型的先驗(yàn)知識(shí),然后用得到的模型對測試集進(jìn)行分類。雖然深度卷積神經(jīng)網(wǎng)絡(luò)在眾多分類任務(wù)中取得了良好的表現(xiàn),但是大多數(shù)網(wǎng)絡(luò)精度依賴于網(wǎng)絡(luò)的深度或者大量的標(biāo)簽數(shù)據(jù)。然而,大量標(biāo)簽數(shù)據(jù)集意味著需要耗費(fèi)更多的人力物力,而且網(wǎng)絡(luò)越深,訓(xùn)練復(fù)雜度越高。因此,本文基于遷移學(xué)習(xí)的思想,選取具備一定圖像理解能力的預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),采用實(shí)驗(yàn)數(shù)據(jù)集對其進(jìn)行特定領(lǐng)域圖像分類的參數(shù)微調(diào),實(shí)現(xiàn)運(yùn)用淺層的卷積神經(jīng)網(wǎng)絡(luò)、有限數(shù)據(jù)集進(jìn)行準(zhǔn)確場景分類的目的。針對單一的預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提取特征的能力有限,本文融合三種不同結(jié)構(gòu)的預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)全方位多尺度的特征提取。
針對直接使用卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)作為最終的分類器訓(xùn)練時(shí)間長、難度大等問題,研究學(xué)者們提出了采用預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器結(jié)合簡單高效的線性分類器的解決方案。其中,支持向量機(jī)(support vector machine,SVM)[13]是目前使用最為廣泛的分類器,但其表現(xiàn)能力對參數(shù)的選擇比較敏感,而且需要足夠的訓(xùn)練數(shù)據(jù),分類結(jié)果無法在兩者之間取得平衡。Huang等人[14]提出了一種基于單隱藏層前饋神經(jīng)網(wǎng)絡(luò)的極限學(xué)習(xí)機(jī)(extreme learning machine,ELM),該方法通過隨機(jī)初始化隱藏節(jié)點(diǎn)的參數(shù),然后通過計(jì)算Moore-Penrose 廣義逆矩陣求解輸出權(quán)重,能夠避免一般方法通過反向傳播的迭代求解最優(yōu)參數(shù)的緩慢過程,在一定程度上提高了網(wǎng)絡(luò)的訓(xùn)練速度?;诖祟惙椒ǎ琄annojia等人[15]設(shè)計(jì)了一種三個(gè)并行的卷積神經(jīng)網(wǎng)絡(luò),分別結(jié)合ELM對MNIST數(shù)據(jù)集進(jìn)行分類,達(dá)到了超高的分類精度。但是ELM 中隱藏節(jié)點(diǎn)的參數(shù)是隨機(jī)初始化的,并且卷積層得到的特征送入隱藏層之前沒有進(jìn)行任何的正則化操作,因而會(huì)導(dǎo)致節(jié)點(diǎn)利用率低以及過擬合等問題。為了解決此問題,Zhu等人[16]提出了ELM的改進(jìn)版本CELM。該方法能夠根據(jù)樣本分布初始化隱藏節(jié)點(diǎn)的參數(shù),并且對深度卷積特征進(jìn)行L2 正則化之后送入分類器,不僅保證了模型的訓(xùn)練速度,而且提升了網(wǎng)絡(luò)的泛化能力。本文將在特定數(shù)據(jù)集上進(jìn)行精調(diào)的CaffeNet、VGG-F、VGG-M 三種預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,將提取的三種特征融合后送入CELM分類器,得到最終的遙感圖像語義分類結(jié)果。
綜上所述,本文的主要貢獻(xiàn)如下:
(1)利用有限的實(shí)驗(yàn)數(shù)據(jù)集對在強(qiáng)大的ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào),實(shí)現(xiàn)了少量數(shù)據(jù)集的高分類性能;
(2)融合CaffeNet、VGG-F、VGG-M 三種不同的網(wǎng)絡(luò)框架提取到的全方位多尺度特征,加強(qiáng)了圖像的特征理解能力;
(3)引入了具有良好泛化能力的CELM 分類器,實(shí)現(xiàn)了高效的分類性能和快速的訓(xùn)練速度。
本文采用由武漢大學(xué)發(fā)布的SIRI-WHU 和WHURS19 RGB3 通道遙感影像數(shù)據(jù)集以及由UC-Merced計(jì)算機(jī)視覺實(shí)驗(yàn)室發(fā)布的UC-Merced高分辨率遙感影像數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。其中,SIRI-WHU 數(shù)據(jù)集含有12 類土地場景,每類場景含有200 張圖像,總計(jì)2 400 張圖像,圖像像素大小為200×200,空間分辨率為2 m;WHU-RS19數(shù)據(jù)集涵蓋19類土地場景,每類場景中包含50~61 張圖像,每類圖像的具體數(shù)據(jù)如表1所示,共計(jì)1 005 張圖像,圖像像素大小為600×600;UC-Merced 數(shù)據(jù)集包含21 類土地場景,每類場景包含100 張圖像,共計(jì)2 100 張圖像,圖像像素大小為256×256,空間分辨率為1 英尺。圖1~圖3 分別顯示了UCMerced、SIRI-WHU 與WHU-RS19 數(shù)據(jù)集中不同類別的圖像樣本。
圖1 UC-Merced樣本Fig.1 Samples of UC-Merced
圖2 SIRI-WHU樣本Fig.2 Samples of SIRI-WHU
圖3 WHU-RS19樣本Fig.3 Samples of WHU-RS19
表1 WHU-RS19數(shù)據(jù)集樣本分布Table 1 Sample distribution of WHU-RS19 dataset
CaffeNet、VGG-F 與VGG-M 三種卷積神經(jīng)網(wǎng)絡(luò)接收的是固定像素大小的圖像輸入,因此實(shí)驗(yàn)數(shù)據(jù)集的圖像在進(jìn)入網(wǎng)絡(luò)之前,需要將對應(yīng)的圖像規(guī)則化為統(tǒng)一規(guī)格。對于CaffeNet 網(wǎng)絡(luò),輸入像素大小為227×227;VGG-F 與VGG-M 網(wǎng)絡(luò)的輸入像素大小為224×224。文章采用縮放的方式對圖像進(jìn)行預(yù)處理,規(guī)則化輸入圖像。
本文提出了一種結(jié)合多特征融合與CELM 的方法對遙感圖像進(jìn)行場景分類。網(wǎng)絡(luò)的輸入為3 通道RGB圖像,首先利用SIRI-WHU 數(shù)據(jù)集對3 種不同的預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)微調(diào);接著將圖像送入微調(diào)后的網(wǎng)絡(luò)并對提取到的3種特征進(jìn)行融合;最終送入CELM分類器,網(wǎng)絡(luò)的輸出為對應(yīng)圖像在不同語義標(biāo)簽上的類別分?jǐn)?shù)。網(wǎng)絡(luò)的總體結(jié)構(gòu)設(shè)計(jì)如圖4所示。
圖4 網(wǎng)絡(luò)的總體結(jié)構(gòu)模型Fig.4 Structure model of proposed network
場景圖像不同于單一的對象圖像,通常具有類間差異小、類內(nèi)差異大等特征,分類難度較高。在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的CaffeNet、VGG-F 與VGG-M 模型雖然已經(jīng)具備強(qiáng)大的圖像理解能力,但是針對于更加復(fù)雜的場景分類,仍有提升的空間。因此,采用一定的遙感場景訓(xùn)練樣本對3種網(wǎng)絡(luò)進(jìn)行參數(shù)微調(diào),優(yōu)化特征提取性能。因?yàn)?種網(wǎng)絡(luò)均由5個(gè)卷積模塊和3個(gè)全連接層組成,最后采用softmax 分類器得到最終類別概率。3 種網(wǎng)絡(luò)參數(shù)的調(diào)整方法基本相同,此處僅對VGG-F模型的參數(shù)調(diào)整過程進(jìn)行闡述。
最后采用交叉熵的方式計(jì)算網(wǎng)絡(luò)的損失函數(shù),并根據(jù)隨機(jī)梯度下降的方法最小化損失函數(shù)對預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào),求解最優(yōu)的網(wǎng)絡(luò)參數(shù)θ*。
預(yù)訓(xùn)練的CaffeNet、VGG-F與VGG-M模型中分別有5個(gè)卷積模塊,每個(gè)模塊中卷積層的核大小與核數(shù)量不同,具體參數(shù)如表2所示??梢缘贸?,CaffeNet與VGG-F的每層卷積核的大小相同,因此感受野相同,但由于卷積核內(nèi)參數(shù)以及卷積核的數(shù)量不同,因此能夠捕捉到圖像中相同尺度下的不同特征;VGG-M 的卷積核大小略小于其他兩個(gè)網(wǎng)絡(luò),因此對圖像中的細(xì)節(jié)信息的鑒別能力更強(qiáng);并且由于模型的輸入圖像規(guī)格不同,因此相同大小的卷積核捕捉到的圖像感受野也有所不同。對3種網(wǎng)絡(luò)的特征進(jìn)行融合,最終實(shí)現(xiàn)全方位多尺度的特征提取。
表2 模型的卷積核概況Table 2 Convolution kernel overview of model
預(yù)訓(xùn)練的CaffeNet、VGG-F 與VGG-M 模型在經(jīng)過特定領(lǐng)域數(shù)據(jù)集的參數(shù)調(diào)優(yōu)之后,舍棄最后一層全連接層與softmax層以及對應(yīng)的參數(shù)。gC(Xi;θC)、gF(Xi;θF)和gM(Xi;θM)分別表示樣本Xi在CaffeNet、VGG-F 與VGG-M 最后一層提取到的特征表示。隨后,將3 個(gè)特征向量以元素相加的方式送入融合層,得到全方位多尺度的融合特征:f([gC(Xi;θC),gF(Xi;θF),gM(Xi;θM)])。
將提取到的融合特征送入CELM 分類器得到最終樣本標(biāo)簽。CELM 是一種基于單隱藏層的前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)分類器,能夠通過學(xué)習(xí)不同類別樣本間的差異來初始化輸入權(quán)重和偏置,根據(jù)最小二乘法求解分類器的輸出權(quán)重。分類器模型的結(jié)構(gòu)如圖5所示,其中f為樣本的融合特征,m為類別個(gè)數(shù)。
圖5 約束極限學(xué)習(xí)分類器Fig.5 Classifier of CELM
CELM模型輸入N個(gè)樣本的融合特征{f1,f2,…,fN}、隱藏節(jié)點(diǎn)的個(gè)數(shù)L以及激活函數(shù)g(?);模型輸出為輸入層到隱藏層的權(quán)重矩陣WN×L和偏置向量b1×L,以及隱藏層到輸出層的權(quán)重矩陣βL×m。模型的詳細(xì)過程闡述如下:
(1)判斷差異特征的個(gè)數(shù)是否小于L,若小于L,進(jìn)行第(2)步,否則結(jié)束運(yùn)算。
(2)從任意兩個(gè)類別中隨機(jī)選取兩個(gè)樣本Xc1和Xc2,并計(jì)算差異特征fc1-fc2。
(3)對差異特征進(jìn)行標(biāo)準(zhǔn)化并計(jì)算對應(yīng)的偏置:
(4)采用w和b構(gòu)建輸入權(quán)重矩陣WN×L和偏置向量b。
(5)計(jì)算輸出矩陣:
(6)通過求解最小二乘問題計(jì)算輸出層的權(quán)重矩陣:
本文提出的基于多特征融合與CELM 的場景分類算法實(shí)驗(yàn)過程中,每種類別中包含的訓(xùn)練樣本與測試樣本的比例為7∶3,CELM 的隱藏節(jié)點(diǎn)數(shù)為3 000,采用sigmiod 激活函數(shù)。UC-Merced、SIRI-WHU 數(shù)據(jù)集與WHU-RS19 數(shù)據(jù)集的總分類準(zhǔn)確率分別為97.70%、99.25%與98.26%。圖6~圖8 分別顯示了3 種數(shù)據(jù)集中測試集對應(yīng)的混淆矩陣。
圖6 UC-Merced數(shù)據(jù)集混淆矩陣Fig.6 Confusion matrix of UC-Merced dataset
圖7 WHU-RS19數(shù)據(jù)集混淆矩陣Fig.7 Confusion matrix of WHU-RS19 dataset
圖8 SIRI-WHU數(shù)據(jù)集混淆矩陣Fig.8 Confusion matrix of SIRI-WHU dataset
由圖中可以得出,在每種數(shù)據(jù)集中,大多數(shù)場景類能夠被正確分類。且每個(gè)場景中,至多有兩張圖像分類錯(cuò)誤。因此,提出的基于多特征融合與CELM 的場景分類算法在遙感場景數(shù)據(jù)集中能夠取得比較普遍的適用性。
為了驗(yàn)證提出的基于多特征融合與CELM 的場景分類算法的有效性,針對微調(diào)效應(yīng)、特征融合效應(yīng)以及分類器的選擇設(shè)計(jì)了3組對比實(shí)驗(yàn)。
本組實(shí)驗(yàn)采用SIRI-WHU 數(shù)據(jù)集分別對預(yù)訓(xùn)練CaffeNet、VGG-F 與VGG-M 模型進(jìn)行參數(shù)調(diào)優(yōu)。每個(gè)網(wǎng)絡(luò)的迭代訓(xùn)練次數(shù)為20,圖9顯示了迭代過程中的訓(xùn)練集與驗(yàn)證集的top1錯(cuò)誤率,實(shí)驗(yàn)選取驗(yàn)證集錯(cuò)誤率最低的模型作為最終的微調(diào)模型。表3顯示了3種預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)與微調(diào)網(wǎng)絡(luò)在UC-Merced、WHU-RS19和SIRI-WHU數(shù)據(jù)集上的分類準(zhǔn)確率。
表3 數(shù)據(jù)集的微調(diào)效應(yīng)比較Table 3 Comparison of fine-tuned effects in datasets%
圖9 預(yù)訓(xùn)練網(wǎng)絡(luò)微調(diào)過程Fig.9 Fine-tuned process of pre-trained CNN
由表3 可見,3 種網(wǎng)絡(luò)在經(jīng)過參數(shù)調(diào)優(yōu)后的分類效果均有不同程度的提高。因此可以得出,微調(diào)后的卷積神經(jīng)網(wǎng)絡(luò)更有利于場景分類。
本組實(shí)驗(yàn)是為了驗(yàn)證不同網(wǎng)絡(luò)中卷積結(jié)構(gòu)相對于單獨(dú)的網(wǎng)絡(luò)卷積結(jié)構(gòu),能夠捕捉多尺度互補(bǔ)特征。針對單特征、雙特征融合以及多特征融合進(jìn)行了7組對比實(shí)驗(yàn)。此外,對預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)與精調(diào)的卷積神經(jīng)網(wǎng)絡(luò)上的特征融合結(jié)果也進(jìn)行了實(shí)驗(yàn)對比。表4 顯示了每組對比實(shí)驗(yàn)的分類精度。
表4 數(shù)據(jù)集特征融合效應(yīng)對比Table 4 Comparison of feature fusion effects in datasets%
可以看出,單特征的分類性能有限,雙特征融合的分類精度比單特征高,多特征融合的分類精度比雙特征融合高,并且精調(diào)后融合的分類精度比預(yù)訓(xùn)練融合的分類精度高。此外,多特征融合在3 種種數(shù)據(jù)集上產(chǎn)生的99.25%、98.26%以及97.70%的分類精度表明,采用CaffeNet、VGG-F 與VGG-M 網(wǎng)絡(luò)結(jié)構(gòu)融合結(jié)合約束極限學(xué)習(xí)分類器捕捉的特征幾乎涵蓋圖像的全部信息。
為了驗(yàn)證不同分類器的分類性能,分別采用SVM、ELM與CELM分類器對UC-Merced、SIRI-WHU與WHURS19 數(shù)據(jù)集進(jìn)行分類。其中,ELM 分類器的隱藏節(jié)點(diǎn)設(shè)為10 000。表5、6 和表7 分別顯示了3 種分類器在每種數(shù)據(jù)集的單個(gè)類別上的分類結(jié)果,可以看出,與其他分類器相比,CELM分類器取得了相對較好的性能。
表5 UC-Merced數(shù)據(jù)集分類器性能Table 5 Classifier performance of UC-Merced dataset%
表6 SIRI-WHU數(shù)據(jù)集分類器性能Table 6 Classifier performance of SIRI-WHU dataset%
表7 WHU-RS19數(shù)據(jù)集分類器性能Table 7 Classifier performance of WHU-RS19 dataset%
本文提出了一種基于多特征融合與CELM 分類器相結(jié)合的卷積神經(jīng)網(wǎng)絡(luò)模型用于場景圖像分類。方法首先選用3種不同的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型,采用特定數(shù)據(jù)集對其進(jìn)行參數(shù)微調(diào);微調(diào)后的網(wǎng)絡(luò)對圖像進(jìn)行特征提取,采用元素相加的方式對提取的3種互補(bǔ)特征進(jìn)行融合;將融合后的特征送入CELM 分類器,得到每個(gè)類別的概率分?jǐn)?shù),并將概率最大的類別作為圖像的語義標(biāo)簽。在UC-Merced、SIRI-WHU 與WHU-RS19 數(shù)據(jù)集上的分類結(jié)果表明,本文提出的場景分類模型采用深度較淺的卷積神經(jīng)網(wǎng)絡(luò),在特定的數(shù)據(jù)集上實(shí)現(xiàn)了較高的分類效果。下一步工作將采用無監(jiān)督學(xué)習(xí)的方法獲取低水平的卷積核參數(shù),使融合網(wǎng)絡(luò)能夠捕捉更具針對性的特征。