葉發(fā)茂,董 萌,羅 威,肖 慧,趙旭青,閔衛(wèi)東,3
基于卷積神經(jīng)網(wǎng)絡和重排序的農(nóng)業(yè)遙感圖像檢索
葉發(fā)茂1,2,董 萌1,羅 威1,肖 慧1,趙旭青1,閔衛(wèi)東1,3※
(1. 南昌大學信息工程學院,南昌 330031; 2. 東華理工大學測繪工程學院,南昌 330013;3.南昌大學軟件學院,南昌 330047)
卷積神經(jīng)網(wǎng)絡具有很強的分類能力,并在圖像分類等應用中取得顯著成效,但遙感圖像檢索應用中還較少利用該分類能力。為了提高農(nóng)業(yè)遙感圖像檢索性能,該文提出一種利用卷積神經(jīng)網(wǎng)絡分類能力的遙感圖像檢索方法。首先利用微調(diào)的卷積神經(jīng)網(wǎng)絡模型提取查詢圖像的檢索特征和估計查詢圖像的每個類別權(quán)重,然后利用根據(jù)CNN模型判斷的檢索圖像類別和初始排序結(jié)果計算類別查準率,根據(jù)查詢圖像的類別權(quán)重和類別查準率計算加權(quán)類別查準率,最后根據(jù)加權(quán)類別查準率對圖像類別進行排序,并根據(jù)排序結(jié)果對初始檢索結(jié)果進行重排序,從而得到最終的檢索結(jié)果。試驗結(jié)果表明:該檢索方法在PatternNet數(shù)據(jù)集中平均查準率達到97.56%,平均歸一化調(diào)整后的檢索秩達到0.020 1;在UCM_LandUse數(shù)據(jù)集中平均查準率達到93.67%,平均歸一化調(diào)整后的檢索秩達到0.049 2,較之其他遙感圖像檢索方法下降0.2358,降幅超過82.7%;平均每張檢索圖像重排序時間大約是初始排序時間的1%。該文提出的重排序方法可以得到更好的遙感圖像檢索結(jié)果,提高了遙感圖像檢索性能,將有助于農(nóng)業(yè)信息領域信息化和智能化。
遙感;圖像檢索;特征提?。恢嘏判?;卷積神經(jīng)網(wǎng)絡
隨著傳感技術(shù)的發(fā)展,有關(guān)農(nóng)業(yè)的遙感圖像數(shù)據(jù)量不斷增加,如何快速和準確地從龐大的數(shù)據(jù)庫中檢索出用戶需要的圖像已成為一個亟需解決的問題。傳統(tǒng)的以文本為索引的檢索方法已不能完全滿足人們新的需求,如查找農(nóng)作物中病蟲害圖像、查詢同類的農(nóng)作物以及尋找具有某種形狀特征的農(nóng)作物等。這些需求需要檢索系統(tǒng)具有從大量圖像中尋找主題目標的能力,基于內(nèi)容的圖像檢索(content-based image retrieval,CBIR)是較好的解決方法。因此基于內(nèi)容圖像檢索技術(shù)在農(nóng)業(yè)信息領域里的應用研究具有深遠的意義[1-4]。
基于內(nèi)容的圖像檢索技術(shù)充分利用視覺內(nèi)容識別相關(guān)圖像,有效地彌補了基于文本圖像檢索的不足,使得圖像信息的表示更加簡潔,圖像檢索更加高效。傳統(tǒng)的基于內(nèi)容的遙感圖像檢索(content-based remote sensing image retrieval, CBRSIR)主要提取遙感圖像底層視覺特征,包括顏色特征、光譜特征、紋理特征、尺度不變特征轉(zhuǎn)換(scale invariant feature transform, SIFT)特征等。肖秦琨等[5]將融合顏色和紋理特征的方法運用到遙感圖像檢索;葛蕓等[6]采用SIFT特征,通過聚類的方式構(gòu)建成低維的視覺詞袋(bag of visual words, BoVW)模型并與Gabor紋理特征融合在一起進行遙感圖像檢索。然而,這些底層特征都是人工提取,缺少靈活性,且只針對特定的目標對象,同時由于圖像內(nèi)容的多樣性和復雜性,圖像底層特征到高層語義特征之間存在較大差異,即語義鴻溝,所以該特征提取方法容易導致檢索結(jié)果不理想[7]。
近年來,隨著深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)[8]在圖像識別[9-11]、模式識別[12]和自然語言處理[13]等領域的研究已取得巨大成功,同時也開始應用于遙感圖像檢索[14-20]。例如李宇等[14]運用CNN提取圖像的高層特征進行遙感圖像檢索;Ge等[15]分別提取了2類CNN特征用于遙感圖像檢索,一種是直接從高層的輸出中提取,另一種是用平均池化來聚合中間層的輸出。這些方法證明利用卷積神經(jīng)網(wǎng)絡提取的高層特征能夠提高遙感圖像檢索精度。
近幾年的研究表明,圖像檢索的重排序可以進一步提高圖像檢索的準確率[21-23]。圖像檢索的重排序是利用圖像的內(nèi)容信息對于初始查詢結(jié)果中的圖像進行重新的排列,使最終的查詢結(jié)果能夠更符合用戶的需求。例如金婕[21]提出基于多特征融合和結(jié)果重排的圖像檢索,在提取高層特征后通過多特征融合方法得到最可能的相似備選集,以精確特征重新排序,得到最優(yōu)的檢索結(jié)果,但是此方法僅針對特定圖像,具有一定的局限性;Tang等[22]為了提高合成孔徑雷達(synthetic aperture radar, SAR)圖像檢索的性能,提出了一種基于融合相似性的圖像重排序(fusion similarity-based reranking, FSR)算法,從初始檢索列表中排名靠前的SAR圖像中提取3種視覺特征后,然后融合相似度分數(shù)再重新排序,但是此方法受初始排名靠前的不相關(guān)圖像影響較大。
遙感圖像檢索方法中已經(jīng)較好地應用了CNN強大的特征提取能力,但忽視了CNN在圖像分類、識別等應用中顯示出的強大分類能力。為了提高遙感圖像檢索性能,本文利用CNN特征提取的同時將CNN的強大圖像分類能力應用于遙感圖像的檢索。根據(jù)加權(quán)類別查準率對初始檢索結(jié)果進行重排序,以提高遙感圖像檢索精度。
基于重排序的農(nóng)業(yè)遙感圖像檢索過程主要包括CNN特征提取、CNN模型微調(diào)、基于CNN的圖像分類和基于加權(quán)類別查準率的重排序4個步驟,具體流程如圖1所示。
圖1 基于重排序的農(nóng)業(yè)遙感圖像檢索流程
CNN是一種深度學習的結(jié)構(gòu),主要由卷積層、池化層、全連接層、輸入輸出層等組成,其基本框架如圖2所示。CNN能夠利用輸入的圖像數(shù)據(jù)的二維結(jié)構(gòu),即可以直接將原始圖像輸入到CNN中,能夠避免對圖像進行復雜預處理工作,得到了廣泛應用[24]。
圖2 CNN的基本框架
目前已有很多CNN模型被提出,其中VGG和ResNet模型在圖像分類和目標識別等眾多領域取得令人矚目的成就。VGG16模型結(jié)構(gòu)[25]幾乎全部采用多個3×3小卷積核來代替大的卷積核,不僅可以使參數(shù)量顯著減少,而且比大卷積核具有更多的非線性變換,使得 CNN 對特征的學習能力更強;ResNet模型[26]在圖像分類上具有非常好的效果,并且結(jié)構(gòu)簡單,全部由殘差塊組成,收斂快。Ge等[15]利用CNN(VGG16,ResNet)模型提取CNN特征用于遙感圖像檢索,取得了較好的結(jié)果。因此,本文采用VGG16和ResNet50這2個模型用于遙感圖像檢索。
VGG16中全連接層(fully connected layers,F(xiàn)C)特征是復雜的深層特征,由于FC8層的輸出是圖像類別的概率分數(shù),通常被用于圖像分類,因此本文摒棄FC8層,而選擇其前2層,即FC7和FC6層的輸出作為檢索特征,這2層的維數(shù)都是4 096。ResNet50中最后一層的輸出頁是圖像類別的概率分數(shù),因此選擇其前一層,即2 048維度的pool5層的輸出作為檢索特征。
因為缺乏大量用于訓練CNN模型的帶標簽樣本,所以本文采用在ImageNet數(shù)據(jù)集上預訓練的CNN模型。由于ImageNet數(shù)據(jù)集中的圖像與遙感圖像差別較大,導致從預訓練的CNN模型中提取的特征不太適合遙感圖像檢索。為了提取更適合遙感圖像檢索任務的檢索特征和對遙感圖像的類別進行估計,需要對預訓練的CNN模型進行微調(diào)。
本文在ImageNet上預訓練好的CNN模型基礎上,利用部分檢索庫中部分圖像對預訓練CNN模型進行微調(diào)。首先將CNN模型最后一層的維數(shù)修改為遙感數(shù)據(jù)集類別數(shù),然后采用均值為0、方差為0.01的高斯分布對CNN模型最后一層的權(quán)重進行隨機初始化;最后將學習速率的初始值設為0.001,權(quán)重設為0.005,批大小(batchSize)設為256,動量設為0.9,采用Adam(adaptive moment estimation)學習方法[27],設置迭代300次訓練。對預訓練的CNN模型進行微調(diào),使CNN模型更適合遙感圖像檢索。
對初始檢索結(jié)果進行重排序過程中需要用到遙感圖像的類別信息,所以要先對檢索圖像進行分類。本文利用微調(diào)后的CNN模型進行遙感圖像分類。
通常CNN模型的最后一層被用于圖像分類,本文的CNN模型最后一層采用一個非線性分類能力強的Softmax回歸層作為分類器[28]。Softmax回歸在邏輯回歸的基礎上推廣而來,可以解決多分類問題。Softmax回歸分類器的輸入維度與CNN的最后一層輸出維度相同,并且該輸出維度與數(shù)據(jù)集中圖像的類別數(shù)一致。
由于遙感圖像的復雜性,導致有些利用CNN提取的圖像特征不能較好反映圖像內(nèi)容,從而使得初始圖像檢索結(jié)果較差。為了改善初始檢索結(jié)果,需要對初始檢索結(jié)果進行重新排序。本文利用初始排序結(jié)果計算每個類別的加權(quán)類別查準率,并根據(jù)其對遙感圖像的類別進行排序。
初始排序方法如下:首先將查詢圖像輸入到微調(diào)后的CNN模型中,得到相應查詢圖像的CNN特征;再計算查詢圖像和檢索圖像的CNN特征之間的距離;最后根據(jù)距離大小進行排序,得到初始檢索結(jié)果。本文采用歐式距離,計算公式如式(2)所示。
式中x和y分別表示查詢圖像與檢索圖像的特征向量,為查詢圖像與檢索圖像的特征向量的長度。
得到初始檢索結(jié)果后,利用其計算每個類別的加權(quán)類別查準率。加權(quán)類別查準率計算過程如下:
假設有1張查詢圖像,利用前個檢索圖像計算類別查準率。檢索圖像數(shù)據(jù)集中有個與查詢圖像類別相同的圖像。根據(jù)初始檢索結(jié)果和以下公式計算出查詢圖像屬于第個類別圖像的類別查準率CAP(class average precision)。
通過公式(4)得到查詢結(jié)果中每個圖像類別查準率。某個類別的圖像類別查準率越大,查詢圖像是該圖像類別的可能性越大。因此,根據(jù)圖像類別查準率可以衡量查詢圖像為某個類別的可能性。
(6)
本文方法的檢索流程分為2個過程,一是離線過程,二是在線過程。離線過程是為在線過程事先提取檢索圖像特征和確定檢索圖像類別,從而提高檢索速度。在線過程是指一幅查詢圖像的整個檢索過程。2個過程的具體步驟如下:
離線過程:
1)使用遙感圖像訓練集在預訓練的CNN模型上進行微調(diào),得到微調(diào)之后的CNN模型。
2)利用微調(diào)之后的模型提取檢索圖像集的CNN特征,得到特征庫;利用最后softmax分類層,對檢索圖像分類。
在線過程:
2)根據(jù)查詢圖像與檢索圖像集的特征向量計算圖像之間的相似度,并根據(jù)相似度排序,得到初始的檢索列表。
本文方法的時間復雜度主要包含2部分:1)初始排序;2)利用加權(quán)類別查準率重排序。初始排序過程主要包括計算查詢圖像與所有檢索圖像間相似度度量的復雜度()和根據(jù)相似度對檢索圖像進行排序的復雜度(log2);根據(jù)加權(quán)類別查準率的重排序過程包括計算類別查準率值的復雜度(),計算加權(quán)類別查準率值并排序的復雜度(log2),對初始排序結(jié)果利用加權(quán)類別查準率結(jié)果進行重排的復雜度()。其中為圖像特征向量的長度,為檢索圖像的數(shù)量,為圖像庫的類別數(shù)量。本文方法時間復雜度主要在初始排序過程,而重排序的時間復雜度僅為(),因此本文提出的重排序方法的算法復雜度很低。
本文試驗在MS Windows 10系統(tǒng)下利用MATLAB進行,使用的工具包為matconvnet,處理器為英特爾i7-7700,內(nèi)存16 GB,GPU為Nvidia GeForce GTX 1080。
本文的試驗數(shù)據(jù)集是UCM_LandUse(UCMD)和PatternNet。UCMD中包含農(nóng)田、森林、河流等21個類別,每類包含100幅256×256像素的圖像,共2 100張。PatternNet包含了沙灘、河流等38個分類,每類包含800幅256×256像素的圖像,共30 400張。
評價遙感圖像檢索方法的常用性能指標有多種,本文采用常用的平均查準率(mean average precision,mAP)[29]和平均歸一化調(diào)整后的檢索秩(average normalized modified retrieval rank,ANMRR)[15]作為檢索性能的評判標準。
為了驗證重排序是否有助于提高遙感圖像的檢索精度,本文首先取UCMD數(shù)據(jù)集中一幅圖像作為查詢圖像,利用微調(diào)后的模型提取圖像的pool5特征進行檢索,對初始排序結(jié)果和利用加權(quán)類別查準率重排序結(jié)果進行比較分析。其中,初始排序結(jié)果見圖3a,其重排序檢索結(jié)果如圖3b。從圖3中可以看出,初始檢索結(jié)果中前15張圖像有10張不相關(guān)圖像,而重排序結(jié)果中只有1張不相關(guān)圖像。同時,該查詢圖像的初始檢索結(jié)果的查準率是43.25%,而重排序后的查準率是86.31%,檢索精度有了明顯的提升,可以看出重排序的效果明顯。
注:圖中第1幅圖像為待檢索圖像;“√”表示檢索到的圖像是相關(guān)圖像,“×”表示檢索到的圖像是不相關(guān)圖像。
為了定量分析重排序?qū)z索性能的影響,在UCMD數(shù)據(jù)集上進行測試,將初始檢索結(jié)果和重排序后的結(jié)果在不同特征下的類別mAP進行比較,結(jié)果如圖4所示。
從圖4中可以看出,重排序方法能夠有效提高初始檢索結(jié)果的精度,但特征是否微調(diào)對檢索結(jié)果影響不大。例如FC6、FC7和pool5層預訓練特征初始檢索結(jié)果的mAP均值分別為56.16%、54.68%和57.69%,其重排序檢索結(jié)果的mAP均值分別為90.39%、90.84%和92.70%,重排序檢索結(jié)果比初始檢索結(jié)果的mAP均值大約提升30%。而FC6、FC7和pool5層微調(diào)特征重排序檢索結(jié)果的mAP均值分別為90.64%、90.87%和93.67%,其中,F(xiàn)C6層和FC7層微調(diào)特征與其對應的預訓練特征的mAP均值非常接近,而pool層微調(diào)特征比對應的預訓練特征的mAP均值僅提高0.97%,說明微調(diào)前后的特征對重排序檢索結(jié)果影響很微弱。建筑物,十字路口,油罐倉庫等初始檢索效果不好的類別,經(jīng)過重排序后檢索精度有明顯的提升。例如十字路口這類圖像,pre_pool5特征初始檢索結(jié)果的mAP值為34.3%,而pre_pool5_rerank特征和ft_pool5_rerank特征重排序檢索結(jié)果的mAP值分別為86.76%和91.69%,均比初始檢索結(jié)果提升50%左右,因此采用重排序方法能夠取得較好的檢索結(jié)果。
注:a為農(nóng)田;b為飛機;c為棒球場;d為海灘;e為建筑物;f為灌叢;g為稠密居住區(qū);h為森林;i為高速公路;j為高爾夫球場;k為港口;l為十字路口;m為中等稠密居住區(qū);n為活動房區(qū);o為立交橋;p為停車場;q為河流;r為跑道;s為居住區(qū);t為油罐倉庫;u為網(wǎng)球場。pre_FC6,pre_FC7,pre_pool5分別表示FC6、FC7和pool5層預訓練特征的初始檢索結(jié)果;pre_FC6_rerank,pre_FC7_rerank,pre_pool5_rerank分別表示FC6、FC7和pool5層的預訓練特征重排序后檢索結(jié)果;ft_FC6_rerank,ft_FC7_rerank,ft_pool5_rerank分別表示FC6、FC7和pool5層微調(diào)特征重排序后檢索結(jié)果。mAP表示平均查準率,AVG表示每個類別的平均查準率的平均值,下同。
微調(diào)過程中使用的訓練集圖像數(shù)量是影響分類精度以及檢索特征是否能夠很好表達圖像信息的一個重要因素,對檢索效果影響較大,因此本文通過大小不同的訓練集進行對比試驗,分析訓練集數(shù)量對檢索性能的影響。試驗所需要的數(shù)據(jù)集分為訓練集和檢索集2部分。在PatternNet庫中,每個類別中分別隨機取5、10、20、30、40、50、60、70、80、90幅圖像作為訓練集,剩余圖像為檢索集。將訓練集中的每類圖像分別隨機取80%用作訓練CNN模型,另20%作為CNN模型的測試數(shù)據(jù)集。此外,在檢索集中每類各隨機取20%作為查詢圖像集,剩余圖像作為檢索圖像集。結(jié)果如表1和表2所示。
由表1可知,微調(diào)過程中使用的訓練集圖像數(shù)量對檢索效果影響較大,3種特征中均表現(xiàn)為:隨著訓練樣本增加,mAP值逐漸增大,但增長幅度逐步降低。例如,對于ft_pool5_rerank特征,樣本數(shù)量為5時,mAP值為75.89%,當樣本數(shù)量達到90時,mAP值為97.56%,當樣本數(shù)量由5變?yōu)?0時,mAP值增加了11.31%,而當樣本數(shù)量由80變?yōu)?0時,mAP值僅增加4.8%。由表2可知,在3種特征中,ANMMR值隨著訓練樣本增加逐漸下降,但下降速度逐步降低。例如,ft_pool5_rerank特征,樣本數(shù)量為5時,ANMRR值為0.210 5,當樣本數(shù)量達到90時,ANMRR值為0.020 1,ANMRR值不斷降低;當樣本數(shù)量由5變?yōu)?0時,ANMRR值下降了0.097 4,而當樣本數(shù)量由80變?yōu)?0時,ANMRR值僅下降0.002 2。
表1 不同訓練圖像數(shù)量時各特征的mAP
表2 不同訓練圖像數(shù)量時各特征的ANMRR
由表1和表2可知, pool5特征能夠得到最好的檢索性能,說明pool5的特征更適用于本文重排序的農(nóng)業(yè)遙感圖像檢索方法。例如,重排序檢索結(jié)果ft_pool5_rerank特征的mAP值最高達97.56%,而ft_FC6_rerank和ft_FC7_rerank特征的mAP值最高為95.57%和95.76%;ft_pool5_rerank特征的ANMRR值最低,為0.020 1,而ft_FC6_rerank和ft_FC7_rerank特征的mAP值最低為0.033 5和0.033 9,由此知,ft_FC6_rerank和ft_FC7_rerank的特征檢索性能接近,但均劣于ft_pool5_rerank。
為了測試本文方法的檢索速度,對初始排序過程和重排序過程運行時間進行分析。如表3所示,在UCMD數(shù)據(jù)集,3種特征中,F(xiàn)C6層和FC7層特征的平均初始檢索時間很相近,分別為13.5和13.44 ms,平均重排序時間分別為0.12和0.22 ms,總檢索時間為13.62和13.66 ms,總檢索時間相對于初始檢索時間的增長率分別為0.89%和1.6%,pool5層特征的平均初始檢索時間為6.68 ms,平均重排序時間為0.04 ms,總檢索時間相對于初始檢索時間的增長率為0.6%;在PatternNet數(shù)據(jù)集上,3種特征的總檢索時間相對于初始檢索時間的增長率分別為0.3%、0.18%和1.01%。本文重排序檢索時間比初始排序時間增加不超過1%,不影響實際檢索速度。
表3 不同數(shù)據(jù)集上的運行時間比較
Table 3 Running time comparison of different datasets
為進一步驗證本文方法的有效性,與已有文獻研究方法的ANMRR進行比較,結(jié)果如表4所示。
表4 UCMD數(shù)據(jù)集上不同遙感圖像檢索方法的ANMRR比較
從表4中可以看到,在UCMD數(shù)據(jù)集中,本文方法的檢索結(jié)果明顯優(yōu)于其他檢索方法。例如,文獻[19] 中MultiPacth+PCA(GoogleNet) 的ANMRR值為0.285,是除本文方法之外檢索結(jié)果最好的。而本文采用3種特征的重排序方法中,ft_FC6_rerank 、ft_FC7_rerank和ft_pool5_rerank的ANMRR值分別為0.075 5、0.074 0、0.049 2,比MultiPacth+PCA(GoogleNet)分別降低0.209 5、0.211、0.235 8。其中ft_pool5_rerank的ANMRR值降幅超過了82.7%。
本文提出了一種基于卷積神經(jīng)網(wǎng)絡和重排序的農(nóng)業(yè)遙感圖像檢索方法,首先利用CNN的分類能力對檢索圖像進行分類;然后根據(jù)分類結(jié)果計算初始檢索結(jié)果中每個類別的權(quán)重類別查準率;最后根據(jù)權(quán)重類別查準率對初始檢索結(jié)果進行重排序,得到最終檢索結(jié)果。試驗結(jié)果表明:
1)通過定性和定量的分析,重排序方法能夠有效提高初始檢索結(jié)果的精度,在UCMD數(shù)據(jù)集中, 3種特征重排序結(jié)果比初始檢索結(jié)果的mAP均值大約提升30%。
2)隨著訓練樣本數(shù)量的增加,檢索特征的平均查準率逐漸增加,平均歸一化調(diào)整后的檢索秩逐漸下降,其變化幅度逐漸趨于平緩。并且pool層的特征比FC6、FC7層特征的檢索效果要好,更適用于重排序的遙感圖像檢索。
3)在PatternNet數(shù)據(jù)集中,本文方法的平均查準率達到97.56%,平均歸一化調(diào)整后的檢索秩能夠達到0.020 1。平均運行時間總計最少的是pool5層特征,為223.06 ms,其初始排序時間為220.82 ms,重排序時間為2.24 ms,總時間對初始時間的增長率為1.01%。
4)在UCMD數(shù)據(jù)集中,本文方法的平均查準率達到93.67%,平均歸一化調(diào)整后的檢索秩達到0.049 2,相比其他方法降幅超過了82.7%。pool5層特征的平均總運行時間最少,為6.72 ms,其中初始排序時間為6.68 ms,重排序時間為0.04 ms,總檢索時間對初始檢索時間的增長率為0.6%,有效提高了遙感圖像檢索精度。
由于本文方法在檢索圖像分類過程中使用了有標簽樣本數(shù)據(jù),這些樣本數(shù)據(jù)需要手工進行標注。后續(xù)的研究中將進行無監(jiān)督深度學習分類方法的研究,以提高方法的適用性。
[1] 閆薇,張長利. 基于綜合特征的圖像檢索在農(nóng)業(yè)信息化中的應用[J]. 農(nóng)機化研究,2011,33(7):205-208.
Yan Wei, Zhang Changli. Comprehensive feature- based image retrieval and the application in agriculture[J]. Journal of Agricultural Mechanization Research, 2011, 33(7): 205-208. (in Chinese with English abstract)
[2] 陳桂蘭,田淑梅,王偉. 基于內(nèi)容的圖像檢索技術(shù)在農(nóng)業(yè)信息化中的應用[J]. 農(nóng)機化研究,2010,32(5):176-179.
Chen Guilan, Tian Shumei, Wang Wei. The technique of content-based image retrieval and the applicationin agriculture[J]. Journal of Agricultural Mechanization Research, 2010, 32(5): 176-179. (in Chinese with English abstract)
[3] 朱玲,李振波,楊照璐,等. 基于混合特征的互聯(lián)網(wǎng)茄子圖像檢索方法與系統(tǒng)[J]. 農(nóng)業(yè)工程學報,2017,33(增刊1):177-183.
Zhu Ling, Li Zhenbo, Yang Zhaolu, et al. Internet eggplant image retrieval method and system based on mixed features[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(Supp.1): 177-183. (in Chinese with English abstract)
[4] 濮永仙. 基于病斑特征融合的煙草病害圖像檢索方法[J]. 河南農(nóng)業(yè)科學,2015,44(2):71-76.
Pu Yongxian. Image searching method of tobacco disease based on disease spot feature fusion[J]. Journal of Henan Agricultural Sciences, 2015, 44(2): 71-76. (in Chinese with English abstract)
[5] 肖秦琨,劉米娜,高嵩. 基于顏色和紋理特征的遙感圖像檢索[J]. 計算機技術(shù)與發(fā)展,2013,23(4):107-110.
Xiao Qinkun, Liu Mina, Gao Song. Remote sensing image retrieval based on color and texture[J]. Computer Technology and Development, 2013, 23(4): 107-110. (in Chinese with English abstract)
[6] 葛蕓,江順亮,葉發(fā)茂,等. 視覺詞袋和Gabor紋理融合的遙感圖像檢索[J]. 光電工程,2016,43(2):76-81.
Ge Yun, Jiang Shunliang, Ye Famao, et al. Remote sensing image retrieval based on the fusion of BoVW and gabor texture[J]. Opto-Electronic Engineering, 2016, 43(2): 76-81. (in Chinese with English abstract)
[7] 王新建,羅光春,秦科,等. 一種基于SVM和主動學習的圖像檢索方法[J]. 計算機應用研究,2016,33(12):3836-3838.
Wang Xinjian, Luo Guangchun, Qin Ke, et al. Image retrieval method based on SVM and active learning[J]. Application Research of Computers, 2016, 33(12): 3836-3838. (in Chinese with English abstract)
[8] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems, Curran Associates Inc. 2012: 1097-1105.
[9] 龍滿生,歐陽春娟,劉歡,等. 基于卷積神經(jīng)網(wǎng)絡與遷移學習的油茶病害圖像識別[J]. 農(nóng)業(yè)工程學報,2018,34(18):194-201.
Long Mansheng, Ouyang Chunjuan, Liu Huan, et al. Image recognition of camellia oleifera diseases based on convolutional neural network & transfer learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(18): 194-201. (in Chinese with English abstract)
[10] 傅隆生,馮亞利,Elkamil Tola,等. 基于卷積神經(jīng)網(wǎng)絡的田間多簇獼猴桃圖像識別方法[J]. 農(nóng)業(yè)工程學報,2018,34(2):205-211.
Fu Longsheng, Feng Yali, Elkamil Tola, et al. Image recognition method of multi-cluster kiwifruit in field based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(2): 205-211. (in Chinese with English abstract)
[11] 盧偉,胡海陽,王家鵬,等. 基于卷積神經(jīng)網(wǎng)絡面部圖像識別的拖拉機駕駛員疲勞檢測[J]. 農(nóng)業(yè)工程學報,2018,34(7):192-199.
Lu Wei, Hu Haiyang, Wang Jiapeng, et al. Driver fatigue detection based on convolution neural network and facial image recognition[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(7): 192-199. (in Chinese with English abstract)
[12] 羅建豪,吳建鑫. 基于深度卷積特征的細粒度圖像分類研究綜述[J]. 自動化學報,2017,43(8):1306-1318.
Luo Jianhao, Wu Jianxin. A survey on fine-grained image categorization using deep convolutional features[J]. Acta Automatica Sinica, 2017, 43(8): 1306-1318. (in Chinese with English abstract)
[13] 金麗嬌,傅云斌,董啟文. 基于卷積神經(jīng)網(wǎng)絡的自動問答[J]. 華東師范大學學報:自然科學版,2017(5):66-79.
Jin Lijiao, Fu Yunbin, Dong Qiwen. The auto-question answering system based on convolution neural network[J]. Journal of East China Normal University: Natural Science, 2017(5): 66-79. (in Chinese with English abstract)
[14] 李宇,劉雪瑩,張洪群,等. 基于卷積神經(jīng)網(wǎng)絡的光學遙感圖像檢索[J]. 光學精密工程,2018,26(1):200-207.
Li Yu, Liu Xueying, Zhang Hongqun, et al. Optical remote sensing image retrieval based on convolutional neural networks[J]. Optics and Precision Engineering, 2018, 26(1): 200-207. (in Chinese with English abstract)
[15] Ge Yun, Jiang Shunliang, Xu Qingyong, et al. Exploiting representations from pre-trained convolutional neural networks for high-resolution remote sensing image retrieval[J]. Multimedia Tools & Applications, 2017(5): 1-27.
[16] Ye F M, Su Y F, Xiao H, et al. Remote Sensing Image Registration Using Convolutional Neural Network Features[J]. IEEE Geoscience & Remote Sensing Letters, 2018, 15(2): 232-236.
[17] 彭晏飛,宋曉男,訾玲玲,等. 基于深度卷積神經(jīng)網(wǎng)絡和改進模糊C均值的遙感圖像檢索[J]. 激光與光電子學進展,2018,55(9):091008.
Peng Yanfei, Song Xiaonan, Zi Lingling, et al. Remote sensing image retrieval based on convolutional neural network and modified fuzzy C-Means[J]. Laser & Optoelectronics Progress, 2018, 55(9): 091008. (in Chinese with English abstract)
[18] 張洪群,劉雪瑩,楊森,等. 深度學習的半監(jiān)督遙感圖像檢索[J]. 遙感學報,2017,21(3):406-414.
Zhang Hongqun, Liu Xueying, Yang Sen, et al. Retrieval of remote sensing image based on semisupervised deep learing[J]. Journal of Remote Sensing, 2017, 21(3): 406-414. (in Chinese with English abstract)
[19] Zhou Weixun, Newsam Shawn, Li Congmin, et al. Learning low dimensional convolutional neural networks for high-resolution remote sensing image retrieval[J]. Remote Sensing, 2017, 9(5): 489.
[20] Hu Fan, Tong Xinyi, Xia Guisong, et al. Delving into deep representations for remote sensing image retrieval[C]// IEEE International Conference on Signal Processing. IEEE, 2017: 198-203.
[21] 金婕. 基于多特征融合和結(jié)果重排的特定圖像檢索[D]. 上海:上海交通大學,2015.
Jin Jie. CBIR of Specific Object Based on Multi-feature Fusion and Re-ranking[D]. Shanghai: Shanghai Jiaotong University, 2015. (in Chinese with English abstract)
[22] 唐旭. 基于圖像學習表征和重排序的遙感影像內(nèi)容檢索[D]. 西安:西安電子科技大學,2017.
Tang Xu. Remote Sensing Image Content Retrieval Based on Image Learning Representation and Reranking[D]. Xi’an: Xidian University, 2017. (in Chinese with English abstract)
[23] Tang Xu, Li Chengjiao, William J Emery, et al. Two-stage reranking for remote sensing image retrieval[J]. IEEE Transactions on Geoscience & Remote Sensing, 2017, 55(10): 5798-5817.
[24] 王征,李皓月,許洪山,等. 基于卷積神經(jīng)網(wǎng)絡和SVM的中國畫情感分類[J]. 南京師范大學學報:自然科學版,2017,40(3):74-79.
Wang Zheng, Li Haoyue, Xu Hongshan, et al. Chinese painting emotion classification based on onvolution neural network and SVM[J]. Journal of Nanjing Normal University: Natural Science Edition, 2017, 40(3): 74-79. (in Chinese with English abstract)
[25] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. [2015-04-10], https://arxiv.org/abs/1409.1556.
[26] Wu Zifeng, Shen Chunhua, Hengel A V D. Wider or deeper: Revisiting the resNet model for visual recognition[J/OL]. [2016-11-30], https://arxiv.org/abs/1611.10080.
[27] Kingma D P, Ba J. Adam: A Method for stochastic optimization[J/OL]. [2017-01-30], https://arxiv.org/abs/1412.6980.
[28] 胡二雷,馮瑞. 基于深度學習的圖像檢索系統(tǒng)[J]. 計算機系統(tǒng)應用,2017,26(3):8-19.
Hu Erlei, Feng Rui. Image retrieval system based on deep learning[J]. Computer Systems & Applications, 2017, 26(3): 8-19. (in Chinese with English abstract)
[29] 劉海龍,李寶安,呂學強,等. 基于深度卷積神經(jīng)網(wǎng)絡的圖像檢索算法研究[J]. 計算機應用研究,2017,34(12):3816-3819.
Liu Hailong, Li Baoan, LüXueqiang, et al. Image retrieval based on deep convolutional neural network[J]. Application Research of Computers, 2017, 34(12): 3816-3819. (in Chinese with English abstract)
[30] 葛蕓,江順亮,葉發(fā)茂,等. 聚合CNN特征的遙感圖像檢索[J]. 國土資源遙感,2019,31(1) :49-57.
Ge Yun, Jiang Shunliang, Ye Famao, et al. Aggregating CNN features for remote sensing image retrieval[J]. Remote Sens Land Resour, 2019, 31(1): 49-57. (in Chinese with English abstract)
Agricultural remote sensing image retrieval based on convolutional neural network and reranking
Ye Famao1,2, Dong Meng1, Luo Wei1, Xiao Hui1, Zhao Xuqing1, Min Weidong1,3※
(1.,330031,;2.,330013,;3.,330047,)
Convolutional neural network (CNN), a hierarchical neural network, can extract powerful feature representations and make accurate classification at the same time. CNN has already made remarkable achievements in various fields such as image classification and object recognition. The ability of feature extraction of CNN has been used to retrieve images in lots of works, however, the powerful classification ability of CNN is ignored by most researchers. To improve the agricultural image retrieval performance, this paper proposes a reranking method that uses the classification ability of CNN. Firstly, the fine-tuned cnn model is used to extract the retrieval features of the query image and estimate the weight of each category of the query image. Second, the retrieved images are sorted according to the image similarity of the CNN features between the query image and each retrieved image, and then the initial retrieval results are obtained. Third, the initial retrieval results are used to calculate the weighted class average precision (CAP) of each image class. Finally, the order of image classes is obtained through sorting the classes according to the weighted CAP, and the retrieved images are re-ranked by the order of image classes. The images in the same class are retained their order in the initial result. Hence, the final retrieval result is obtained. Experiments of two publicly available datasets of remote sensing, PatternNet and UCM_LandUse, are carried to verify the validation of the proposed method. The experimental results are concluded as follows: 1) The reranking method can improve the initial results and get more relevant images in a contrast experiment. 2) Per class mean average precision (mAP) values of three features (FC6 and FC7 of VGG16, pool5 of ResNet50) are evaluated on UCM_LandUse dataset, and the reranking retrieval results have increased by approximately 30% than the initial results. 3) To determine the optimal parameter values, an experiment of the different training data volume on PatternNet is conducted to evaluate the influence of different number of training images on the retrieval performance. It can be seen that the mAP and ANMRR(Average normalized modified retrieval rank) improves with the increases of the number of training image. For example, the mAP of ft_pool5_rerank feature increases from 75.89% to 97.56% as the number of the training image per class grows from 5 to 90. 4) The average resort retrieval time increases by no more than 1% over the initial retrieval time. 5) The mAP of the proposed method on UCMD is 93.67%, and the ANMRR is 0.049 2, which is 0.235 8 lower than that of the state-of-the-art methods.The proposed method can realize higher retrieval performance of agricultural remote sensing image retrieval, it will be helpful to improve the level of information and intellectualization in the agricultural information field.
remote sensing; image retrieval; feature extraction; reranking; convolutional neural network
10.11975/j.issn.1002-6819.2019.15.018
TP394.1; TH691.9
A
1002-6819(2019)-15-0138-08
2018-11-05
2019-04-25
國家自然科學基金(41261091, 61762061);江西省自然科學基金資助項目(20161ACB20004)
葉發(fā)茂,副教授,博士,主要從事遙感圖像處理和人工智能方面的研究。Email:yefamao@gmail.com
閔衛(wèi)東,教授,博士,博士生導師,主要從事計算機圖形圖像處理、人工智能、大數(shù)據(jù)等方面的研究。Email:minweidong@ncu.edu.cn
葉發(fā)茂,董 萌,羅 威,肖 慧,趙旭青,閔衛(wèi)東. 基于卷積神經(jīng)網(wǎng)絡和重排序的農(nóng)業(yè)遙感圖像檢索[J]. 農(nóng)業(yè)工程學報,2019,35(15):138-145. doi:10.11975/j.issn.1002-6819.2019.15.018 http://www.tcsae.org
Ye Famao, Dong Meng, Luo Wei, Xiao Hui, Zhao Xuqing, Min Weidong. Agricultural remote sensing image retrieval based on convolutional neural network and reranking[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 138-145. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.15.018 http://www.tcsae.org