国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于場(chǎng)景語(yǔ)義的遙感圖像目標(biāo)識(shí)別

2017-06-12 02:31劉寧波孫艷麗王杰
現(xiàn)代電子技術(shù) 2017年11期

劉寧波++孫艷麗+王杰

摘 要: 高分辨率遙感圖像的信息解譯的通常思路是從特定類型目標(biāo)的檢測(cè)與識(shí)別分析入手,最終實(shí)現(xiàn)圖像場(chǎng)景的認(rèn)知理解。給出一種利用CSIFT特征的遙感圖像視覺(jué)特征表示方法和基于PLSA的遙感圖像場(chǎng)景語(yǔ)義識(shí)別方法,并利用10類典型遙感圖像場(chǎng)景進(jìn)行實(shí)驗(yàn),充分驗(yàn)證了該方法的有效性。

關(guān)鍵詞: 高分辨率遙感圖像; 場(chǎng)景語(yǔ)義識(shí)別; 視覺(jué)特征表示; 概率潛在語(yǔ)義分析

中圖分類號(hào): TN751?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)11?0043?03

Remote sensing image target recognition based on scene semanteme

LIU Ningbo1, SUN Yanli2, WANG Jie2

(1. Research Institute of Information Fusion, Naval Aeronautical and Astronautical University, Yantai 264001, China;

2. Department of Basic Experiment, Naval Aeronautical and Astronautical University, Yantai 264001, China)

Abstract: The typical thought of information interpretation for high?resolution remote sensing image proceeds from the detection and recognition analysis of the specific targets to understand the image scene. A remote sensing image visual feature representation method based on CSIFT feature and a remote sensing image scene semantic recognition method based on probabilistic latent semantic analysis (PLSA) are given. Effectiveness of the proposed methods was verified in the experiment with ten typical remote sensing image scenes.

Keywords: high?resolution remote sensing image; scene semantic recognition; visual feature representation; PLSA

0 引 言

高分辨率遙感圖像的信息解譯是近年來(lái)的研究熱點(diǎn),從特定類型目標(biāo)的檢測(cè)與識(shí)別分析入手,最終實(shí)現(xiàn)圖像場(chǎng)景的認(rèn)知理解[1]是廣泛采用的研究范式,乃至形成一種思維定勢(shì),即只有完整地檢測(cè)與識(shí)別場(chǎng)景中的各種目標(biāo)才能進(jìn)行場(chǎng)景的認(rèn)知理解。然而,在軍事偵察中經(jīng)常需要從高分辨率遙感圖像中快速識(shí)別出諸如港口、機(jī)場(chǎng)、油庫(kù)等有明確語(yǔ)義的局部圖像場(chǎng)景,這些局部場(chǎng)景往往對(duì)應(yīng)一個(gè)復(fù)雜的目標(biāo)群,由很多不同類型的剛性子目標(biāo)按照一定的空間拓?fù)潢P(guān)系構(gòu)成。如果采用常規(guī)的方法,首先檢測(cè)復(fù)雜目標(biāo)群的子目標(biāo),然后利用其空間拓?fù)潢P(guān)系進(jìn)行推理以確定復(fù)雜目標(biāo)群語(yǔ)義屬性,其處理效率將是非常低的。而且對(duì)子目標(biāo)的分析主要是利用其隱含的啟發(fā)式特征在像素層進(jìn)行,這種完全像素層的處理與圖像的語(yǔ)義理解之間存在難以逾越的鴻溝[2]。建立一種能夠快速識(shí)別遙感圖像中復(fù)雜局部場(chǎng)景的語(yǔ)義認(rèn)知方法,進(jìn)而指導(dǎo)該場(chǎng)景中特定目標(biāo)的檢測(cè)與識(shí)別具有非常重要的意義。本文首先概述圖像場(chǎng)景語(yǔ)義識(shí)別的有關(guān)概念與方法,然后給出遙感圖像的視覺(jué)特征表示和基于PLSA的遙感圖像場(chǎng)景語(yǔ)義識(shí)別方法,最后利用10類典型遙感圖像場(chǎng)景進(jìn)行實(shí)驗(yàn)驗(yàn)證。

1 圖像場(chǎng)景語(yǔ)義識(shí)別的概念與方法

圖像中層語(yǔ)義建模主要有以下三類方法:

(1) 構(gòu)建語(yǔ)義對(duì)象法[3],通過(guò)檢測(cè)或識(shí)別出圖像中的語(yǔ)義對(duì)象來(lái)描述整幅場(chǎng)景。

(2) 文獻(xiàn)[4]提出的場(chǎng)景Gist模型,該模型避開(kāi)了對(duì)單個(gè)目標(biāo)或區(qū)域的分割,利用一種低維的空域包絡(luò)描述場(chǎng)景的結(jié)構(gòu),其中自然度、開(kāi)放度、粗糙度、展開(kāi)度和崎嶇度這五種感官屬性分別對(duì)應(yīng)于空域包絡(luò)空間中的一維,每一維均對(duì)應(yīng)于場(chǎng)景中的某一個(gè)有意義的空間屬性,作為場(chǎng)景語(yǔ)義劃分的依據(jù)。

(3) 建立圖像的局部語(yǔ)義概念[5],首先在圖像中自動(dòng)地檢測(cè)出感興趣點(diǎn),并采用局部描述子描述這些點(diǎn),隨后建立局部描述子到某種局部語(yǔ)義概念的映射,再利用圖像中局部語(yǔ)義概念的分布實(shí)現(xiàn)圖像場(chǎng)景的識(shí)別。本文針對(duì)遙感圖像的場(chǎng)景識(shí)別主要采取此方法。

2 遙感圖像的視覺(jué)特征包表達(dá)

為了實(shí)現(xiàn)遙感圖像場(chǎng)景的準(zhǔn)確識(shí)別,無(wú)論采取低層特征建模法還是中層語(yǔ)義建模法,都必須從遙感圖像中提取有鑒別力的特征。如區(qū)域特征、分塊特征、局部不變特征等。由于不同的特征反映不同的類別信息,對(duì)特定的類別各有其優(yōu)勢(shì),而在很多情形下,分析圖像內(nèi)容也需要結(jié)合不同的特征,所以集成多種特征對(duì)提高圖像場(chǎng)景識(shí)別的性能是有益的。詞袋模型(Bag of Words,BOW)[6]是文本處理領(lǐng)域最常使用的文本簡(jiǎn)化描述模型,該模型不考慮語(yǔ)法與詞序,將文本表達(dá)成無(wú)序的單詞組合。在文本分類應(yīng)用中,BOW模型常和SVM分類器、樸素貝葉斯分類器結(jié)合,獲得了非常好的分類效果。該模型應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域后被推廣為特征包(Bag of Features, BOF)方法[5,7],其基本原理是通過(guò)矢量量化各種局部視覺(jué)特征,生成視覺(jué)詞語(yǔ)或詞匯表來(lái)描述圖像或圖像集。

對(duì)于一幅待識(shí)別遙感圖像(或區(qū)域),采用與訓(xùn)練圖像相同的方法提取其CSIFT特征[8],根據(jù)最近鄰規(guī)則,確定各個(gè)CSIFT的視覺(jué)詞匯類別,統(tǒng)計(jì)待分類遙感圖像(或區(qū)域)中各視覺(jué)詞匯出現(xiàn)的頻率,即得到待識(shí)別遙感圖像的視覺(jué)特征包表達(dá)。遙感圖像的視覺(jué)特征包表達(dá)避開(kāi)了場(chǎng)景中目標(biāo)分割和檢測(cè)的過(guò)程,將場(chǎng)景的識(shí)別問(wèn)題轉(zhuǎn)化為對(duì)視覺(jué)詞匯分布的學(xué)習(xí)問(wèn)題,從而為跨越圖像低層特征表示與高層語(yǔ)義之間的“語(yǔ)義鴻溝”搭建了橋梁。

3 基于PLSA的圖像場(chǎng)景語(yǔ)義識(shí)別

盡管視覺(jué)詞匯的出現(xiàn)頻率可以作為區(qū)分不同場(chǎng)景的一項(xiàng)重要依據(jù),但是在復(fù)雜的遙感圖像場(chǎng)景中,由于相同的目標(biāo)實(shí)體可能出現(xiàn)在不同的場(chǎng)景類別中,由此導(dǎo)致視覺(jué)詞匯與場(chǎng)景語(yǔ)義之間出現(xiàn)多義性和相似性問(wèn)題。在訓(xùn)練樣本不充分的情況下,采用將場(chǎng)景類別與提取的特征向量直接相關(guān)聯(lián)的識(shí)別方式,無(wú)法逼近實(shí)際的場(chǎng)景語(yǔ)義,導(dǎo)致場(chǎng)景識(shí)別的準(zhǔn)確性下降。本文的思路是將概率潛在語(yǔ)義分析(PLSA)模型[9]應(yīng)用到典型的訓(xùn)練圖像中,提取圖像中的潛在語(yǔ)義,根據(jù)潛在語(yǔ)義的概率分布完成待識(shí)別圖像的場(chǎng)景類型判斷。

算法流程具體如下:

(1) 提取所有圖像的特征。從每類訓(xùn)練圖像集中隨機(jī)選取部分圖像,提取這些圖像的CSIFT特征向量,用K?均值聚類算法生成個(gè)視覺(jué)詞匯。把各視覺(jué)詞匯與每一幅訓(xùn)練圖像的特征向量進(jìn)行相似性度量,得到維的“圖像?詞匯”共現(xiàn)頻率矩陣其中表示視覺(jué)詞匯在圖像中出現(xiàn)的頻率。

(2) 利用EM算法求得PLSA模型的近似最大似然解,獲取圖像中潛在語(yǔ)義出現(xiàn)時(shí)視覺(jué)詞匯的分布規(guī)律。

(3) 提取測(cè)試圖像的特征向量,分別與步驟(1)中得到的個(gè)視覺(jué)詞匯進(jìn)行相似性度量,得到測(cè)試圖像的“圖像?詞匯”共現(xiàn)頻率矩陣將和測(cè)試圖像的共現(xiàn)頻率矩陣作為PLSA模型的輸入,保持不變,得到測(cè)試圖像的潛在語(yǔ)義分布,構(gòu)成測(cè)試圖像的維語(yǔ)義向量。

(4) 對(duì)測(cè)試圖像的潛在語(yǔ)義向量應(yīng)用KNN分類器,完成圖像的場(chǎng)景識(shí)別。

4 實(shí)驗(yàn)結(jié)果與分析

從Google Earth上截取來(lái)自10類不同場(chǎng)景的圖像切片共計(jì)1 794幅,對(duì)圖像分辨率和大小不做限定,場(chǎng)景類型是由切片中的主體目標(biāo)確定的。從10類圖像中分別隨機(jī)選取50幅作為訓(xùn)練圖像,其余作為測(cè)試圖像。

為了驗(yàn)證本文算法的性能,首先分析采取不同特征提取方法對(duì)識(shí)別結(jié)果的影響,再進(jìn)一步比較直接采用基于CSIFT特征的BOF表達(dá)進(jìn)行最近鄰分類和引入PLSA模型的識(shí)別效果,最后比較不同視覺(jué)詞匯數(shù)和不同潛在語(yǔ)義主題數(shù)條件下的識(shí)別效果。

4.1 采用不同低層特征提取方法的比較

本文設(shè)計(jì)的視覺(jué)詞匯生成方法是CSIFT特征,而最常用的SIFT特征主要針對(duì)灰度圖像,提取該特征時(shí)首先將彩色圖像轉(zhuǎn)換為灰度圖像。密集網(wǎng)格采樣間隔為8×8,視覺(jué)詞匯數(shù)量為600個(gè),潛在語(yǔ)義主題數(shù)為20。圖1給出了采用不同低層特征描述方法得到的實(shí)驗(yàn)結(jié)果。

從圖1中來(lái)看,利用CSIFT特征作為低層特征整體優(yōu)于常規(guī)的基于灰度的SIFT特征,僅對(duì)于“oil?fuel depot”場(chǎng)景基于灰度的SIFT特征識(shí)別性能略優(yōu)。這主要是因?yàn)檫@類場(chǎng)景中處于主體地位的目標(biāo)是一些圓筒狀的儲(chǔ)油罐,其形狀特征是最有效的鑒別特征,而不同地區(qū)的油庫(kù)在色調(diào)上的差異較大,因此,對(duì)于該類型的場(chǎng)景,CSIFT的優(yōu)勢(shì)并不明顯。就10類目標(biāo)的平均識(shí)別率而言,CSIFT為90.2%,SIFT為79.67%,前者明顯占優(yōu)。

4.2 引入PLSA對(duì)識(shí)別結(jié)果的改善

本文算法是在遙感圖像BOF表達(dá)的基礎(chǔ)上引入PLSA模型訓(xùn)練KNN分類器而實(shí)現(xiàn)的,記為PLSA+BOF?KNN,而實(shí)際上得到遙感圖像的BOF表達(dá)也可以直接訓(xùn)練KNN分類器進(jìn)行場(chǎng)景識(shí)別,記為BOF?KNN。仍然設(shè)置密集網(wǎng)格采樣間隔為8×8,視覺(jué)詞匯數(shù)量為600個(gè)。識(shí)別結(jié)果以分類混淆矩陣的形式分別給出,如圖2所示,直接應(yīng)用BOF進(jìn)行識(shí)別,部分場(chǎng)景之間由于共享了大量視覺(jué)詞匯,由此導(dǎo)致識(shí)別結(jié)果存在較大歧義,而引入PLSA后,可有效消除這種“一詞多義”的現(xiàn)象,提高場(chǎng)景識(shí)別性能。

4.3 不同視覺(jué)詞匯數(shù)量對(duì)識(shí)別結(jié)果的影響

前面的實(shí)驗(yàn)中,視覺(jué)詞匯的數(shù)量均設(shè)置為600,下面僅調(diào)整視覺(jué)詞匯數(shù)量,密集網(wǎng)格采樣間隔和潛在語(yǔ)義主題數(shù)均不變,比較最終的平均識(shí)別率。結(jié)果如圖3所示,視覺(jué)詞匯數(shù)量在500~900之間取值時(shí),總體性能相對(duì)較好,較少的視覺(jué)詞匯數(shù)量會(huì)導(dǎo)致有鑒別力的潛在語(yǔ)義主題缺失,過(guò)多的視覺(jué)詞匯中大量冗余信息增大了部分潛在語(yǔ)義主題的模糊性,因而導(dǎo)致總體性能的下降。

4.4 不同潛在語(yǔ)義主題數(shù)目對(duì)識(shí)別結(jié)果的影響

實(shí)驗(yàn)中待識(shí)別場(chǎng)景類型數(shù)目為10,視覺(jué)詞匯提取方法不變,固定視覺(jué)詞匯的數(shù)量為600,潛在語(yǔ)義主題數(shù)目在8~50之間變化,比較其平均識(shí)別率,結(jié)果如圖4所示。

當(dāng)潛在語(yǔ)義主題數(shù)為20時(shí)的平均識(shí)別率最高,過(guò)多或過(guò)少的潛在語(yǔ)義主題數(shù)都會(huì)導(dǎo)致識(shí)別率的下降。盡管最優(yōu)視覺(jué)詞匯數(shù)和潛在語(yǔ)義主題數(shù)在理論上是存在的,但在實(shí)際應(yīng)用中要準(zhǔn)確求解卻是十分困難的,目前主要是通過(guò)大量實(shí)驗(yàn)來(lái)確定一個(gè)經(jīng)驗(yàn)值。

為進(jìn)一步驗(yàn)證場(chǎng)景語(yǔ)義識(shí)別方法的可行性,沿用前述實(shí)驗(yàn)中訓(xùn)練得到的識(shí)別模型對(duì)朝鮮平壤地區(qū)的一幅遙感影像進(jìn)行交互式標(biāo)注??紤]到該識(shí)別模型僅對(duì)10類典型的場(chǎng)景進(jìn)行了有針對(duì)性的訓(xùn)練,因此在交互式選擇時(shí),盡量選取能夠人工判定為前述10類場(chǎng)景的區(qū)域。識(shí)別結(jié)果如圖5所示,可以看出對(duì)不同類型的場(chǎng)景都有較好的識(shí)別效果。

5 總 結(jié)

圖像場(chǎng)景的語(yǔ)義識(shí)別是高分辨率遙感圖像解譯的重要內(nèi)容,本文在梳理圖像場(chǎng)景語(yǔ)義識(shí)別有關(guān)概念與方法的基礎(chǔ)上,給出一種利用CSIFT特征的遙感圖像視覺(jué)特征表示方法和基于PLSA的遙感圖像場(chǎng)景語(yǔ)義識(shí)別方法,并利用10類典型遙感圖像場(chǎng)景進(jìn)行實(shí)驗(yàn),充分驗(yàn)證了該方法的有效性。訓(xùn)練得到的識(shí)別模型還可進(jìn)一步應(yīng)用于對(duì)大幅遙感圖像進(jìn)行交互式標(biāo)注。

參考文獻(xiàn)

[1] 高雋,謝昭.圖像理解理論與方法[M].北京:科學(xué)出版社,2009.

[2] GROSKY W I, ZHAO R. Negotiating the semantic gap:from feature maps to semantic landscapes [C]// Proceedings of the 28th Conference on Current Trends in Theory and Practice of Informatics Piestany: Theory and Practice of Informatics. London: Springer, 2001: 33?52.

[3] BARNARD K, FORSYTH D. Learning the semantics of words and pictures [C]// Proceeding of 2001 IEEE International Conference on Computer Vision. Vancouver: IEEE, 2001: 408?415.

[4] OLIVA A, TORRALBA A. Building the gist of a scene: the role of global image features in recognition [J]. Progress in brain research, 2006, 155(2): 23?26.

[5] LI F F, PERONA P. A Bayesian hierarchical model for learning natural scene categories [C]// Proceedings of 2013 IEEE Confe?rence on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 524?531.

[6] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories [C]// Proceedings 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2006: 2169?2178.

[7] XU Sheng, FANG Tao, LI Deren, et al. Object classification of aerial images with bag?of?visual words [J]. IEEE geoscience and remote sensing letters, 2010, 7(2): 366?370.

[8] LOWE D G. Distinctive image features from scale?invariant keypoints [J]. International journal of computer vision, 2004, 60(2): 91?110.

[9] HOFMANN T. Unsupervised learning by probabilistic latent semantic analysis [J]. Machine learning, 2001, 42(1/2): 177?196.

贵溪市| 芦溪县| 遵义县| 民乐县| 益阳市| 福安市| 东乌珠穆沁旗| 巩义市| 连南| 堆龙德庆县| 三门峡市| 商洛市| 海城市| 绩溪县| 盘锦市| 新巴尔虎右旗| 九龙城区| 大埔县| 新化县| 会理县| 加查县| 东乡族自治县| 河间市| 仁寿县| 宁德市| 永和县| 东兴市| 霍林郭勒市| 丰宁| 巫山县| 分宜县| 伊宁市| 安陆市| 西乌| 峨边| 进贤县| 城市| 嵊州市| 景德镇市| 四平市| 大安市|