国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

稀疏相關指數(shù)在SAR圖像特征選擇中的應用

2018-04-13 14:25尹潔珺李建偉夏慧婷
制導與引信 2018年4期
關鍵詞:訓練樣本信息熵特征選擇

尹潔珺,李建偉,王 平,夏慧婷

(上海目標識別與環(huán)境感知工程技術研究中心,上海201109)

0 引言

合成孔徑雷達(SAR)圖像的目標識別技術在SAR圖像解譯中起著重要作用。成像高分辨與時間的矛盾導致單幅SAR圖像的數(shù)據(jù)量增大,但很難獲取完備的圖像樣本集。SAR圖像目標識別是典型的“小樣本”問題,許多經(jīng)典的機器學習算法很難獲得理想的泛化性能。為了解決這個問題,近年來開始關注特征融合方法。單個特征往往只包含目標信息的一部分,融合多個特征則能提供目標更多細節(jié)。多任務學習(MTL)作為一種特征融合方法在圖像處理領域受到關注[1-5]。文獻[4]首次將多任務稀疏表示(MTSR)引入多視SAR圖像目標識別中。約束目標不同角度所成圖像共享相似的稀疏模式,從而獲得對角度變化穩(wěn)定的目標識別結果。文獻[5-7]給出了MTSR的正則化結構(RMTSR),采用凸優(yōu)化算法求解稀疏系數(shù)。文獻[5]中提取單演特征,將每個特征域下的稀疏表示定義為RMTSR中的一個單任務(STL)。實驗驗證了SAR目標識別的穩(wěn)定性,卻缺乏對特征相關性或冗余性的分析。文獻[8]指出:將兩個特征直接用于訓練多任務學習的模型,會使該模型性能下降。此外,文獻[5]的方法忽略字典規(guī)模增長時,計算量快速變大的問題。因此,應研究特征相關性,避免無關特征組合使識別率下降,實現(xiàn)特征選擇,使計算量適當降低。一種稀疏相關指數(shù)(SCI)被提出度量兩個稀疏表示之間的相關性。多個特征兩兩組合,它們的SCI構成非線性相關矩陣(NCM)。從信息論的觀點出發(fā),可由NCM計算得到的非線性相關信息熵(NCIE)來衡量所有特征整體關聯(lián)性[9]。

1 RMTSR中特征選擇的必要性

首先給出在SAR圖像目標識別中應用的RMTSR模型,然后分析研究特征關聯(lián)性的必要性和皮爾遜相關系數(shù)評價特征冗余性的不足。

(1)多任務稀疏表示

若有訓練樣本圖像集合{Ii}(i=1,2,…N),尺寸都為m×n。首先對每個樣本進行特征提取,提取算子為Ft(·)(t=1,2,…,T),得到集合為圖像特征組,即

為構成稀疏表示字典,將I(t)i按列相接,得到一個列向量:

將每幅圖像的某一特征得到的列向量作為字典原子,得到字典集合{Φ(t)},每個字典為

類似地,每幅測試樣本圖像經(jīng)過同樣特征提取過程得到向量集合{s(t)}。

文獻[10]指出,沒有適用于所有目標識別問題的特征。如灰度直方圖缺乏目標空間信息,靜態(tài)小波的邊緣提取精度較低。采用RMTSR模型可將多種特征同時用于稀疏表示,實現(xiàn)特征互補。RMTSR約束多個稀疏表示的結構相同,稀疏系數(shù)最優(yōu)解為

式中:A為稀疏系數(shù)構成的矩陣。矩陣計算范數(shù)‖A‖2,1示意圖如圖1所示。列向量是在每個特征下稀疏表示得到的稀疏向量,范數(shù)運算‖A‖2,1是對矩陣的行向量求L2范數(shù),得到一個列向量,再求列向量的L1范數(shù)。

對于求解稀疏系數(shù)矩陣,本文選擇的加速迭代收縮閾值算法(FISTA)稀疏求解,收斂速度與其他閾值收縮方法相比,具有優(yōu)勢。

訓練樣本包含C類目標,每個特征對應的字典Φ(t)可以按訓練樣本類別劃分為,由矩陣乘法運算,Φ(t)c(c=1,2,…,C)對應的稀疏向量為α(t)c。

與稀疏表示的分類方法相似,多任務稀疏表示將目標分類為重構誤差的最小的一類,即分類結果K(s)為

(2)特征選擇必要性與特征關聯(lián)性分析

稀疏表示中,原子代表的是某目標的一個樣本數(shù)據(jù)。稀疏系數(shù)幅值越大,表示測試樣本與該樣本越相關,將被判別為對應目標。不同特征獨立稀疏表示,它們的非零元素分布并不相同,甚至會得到不同的分類結果。本文從稀疏向量分布相似性的角度,分析特征關聯(lián)性。

式(4)中的正則項約束系數(shù)矩陣只有少量的行向量為非零向量。RMTSR使不同特征的稀疏表示具有相同分布。若將關聯(lián)性弱的特征組合,不能提高模型的泛化性能甚至引起性能下降,導致“負遷移”[8]。

皮爾遜相關系數(shù)只度量x與y間的線性相關的強弱,不能表征特征關聯(lián)性對目標識別結果的貢獻。假設稀疏度參數(shù)或正則化參數(shù)相同,兩個相同的字典所得到的稀疏向量相同。稀疏向量的ρp為1,但兩個相同特征并不能使識別率提升。因此,在面對RMTSR中衡量稀疏向量相似性問題時,皮爾遜相關系數(shù)有兩個缺陷:一、僅表示線性相關程度;二、缺少對稀疏向量分布的描述,不能體現(xiàn)稀疏表示識別的有效性。所以,應提出稀疏表示相關系數(shù)的定義以度量廣義的相關關系。

2 基于稀疏相關指數(shù)的特征選擇

本節(jié)提出稀疏相關指數(shù)表征特征間相關性。然后,基于熵的非線性相關系數(shù)表示多特征之間的關聯(lián)。根據(jù)特征關聯(lián)性強弱,得到特征選擇結果。

(1)計算稀疏相關指數(shù)

訓練樣本圖像經(jīng)特征提取后構成字典,若有兩種不同特征,則得到字典φ(i)與φ(j)。每個驗證集樣本在字典φ(i)與φ(j)下稀疏表示,分別得到稀疏向量α(i)與α(j)。稀疏向量對應于訓練樣本類別可被劃分為C個子列。記第C個子列的稀疏度為kic,那么向量α(i)按樣本類別劃分成子列,子列的稀疏度構成的向量ki為

稀疏度分布的計算公式為

計算流程如圖2所示。

稀疏向量分布相似度的特點:

b)rij非負,向量稀疏度皆為非負數(shù),稀疏分布相似性不存在正負的區(qū)別;

c)rij滿足對稱性,交換?ki和?kj的位置對rij的大小沒有影響,因此相似度矩陣為對稱陣。

度量稀疏向量相似度需考慮非零系數(shù)分布的特點。測試樣本的非零系數(shù)并不集中于該類別標號對應的區(qū)域中,甚至分散在稀疏向量中。由式(9)定義可得,當且僅當兩個稀疏度向量都為e時,稀疏相關指數(shù)達到最大值1。從兩個特征尺度對目標進行測量,測試樣本為同一類的訓練樣本的線性組合。稀疏相關指數(shù)與稀疏向量非零元素是否集中在正確單元子集聯(lián)系起來。

(2)特征選擇

得到表征兩個特征的稀疏表示任務關聯(lián)后,采用非線性相關信息熵衡量特征集多任務整體關聯(lián)性。首先特征集合中兩兩任務的稀疏相關指數(shù)構成相關矩陣:

當稀疏向量之間分布完全不同時,相關系數(shù)矩陣為單位陣,特征值都為1,非線性相關信息熵的值最小為0。當稀疏相關指數(shù)大于0時,互相關系數(shù)矩陣特征值不為0,且相關系數(shù)矩陣特征值不再相等。隨著稀疏相關指數(shù)愈來愈大,相關系數(shù)矩陣特征值愈來愈不平衡。當稀疏向量之間完全相關時,相關系數(shù)矩陣元素全為1,此時非線性相關信息熵的值最大為1。因此,非線性相關信息熵愈大表示稀疏向量分布相似性愈高,相應的特征集適合于多任務稀疏表示的SAR圖像目標識別。

基于稀疏相似度分布的特征選擇方法步驟如下:

a)將訓練樣本與測試樣本進行多尺度特征提取,構造出完備字典,對測試樣本特征進行稀疏表示;

b)對兩個不同特征進行相關度分析,由稀疏向量α(i)和α(j),計算出稀疏相關指數(shù)rij;

c)特征集合中的兩兩特征之間進行步驟b)的計算,得到特征子集的相關系數(shù)矩陣R;

d)對R進行特征值分解,根據(jù)式(11)計算非線性相關信息熵,得到特征子集對應稀疏表示的總體相似性;

e)比較得到的特征子集在稀疏表示中的NCIE,選擇NCIE最大的特征子集作為多任務學習的輸入量。

3 SAR圖像特征分析試驗

選擇MSTAR數(shù)據(jù)庫的一個子集如表1所示,在擴展操作條件(EOC)下進行實驗。目標共有四類,分別是BMP2(步兵戰(zhàn)車)、T72(主戰(zhàn)坦克)、BTR70(裝甲運兵車)、和T62(主戰(zhàn)坦克)。由17°俯仰角的圖像構成訓練樣本集,共1 020幅圖像,15°俯仰角的圖像構成測試樣本集,共1 246幅圖像。訓練樣本總數(shù)為1 020,測試樣本總數(shù)為1 246。實驗共分為兩個部分:先得到稀疏向量分布相似度構成的相關度矩陣,然后計算非線性相關信息熵。熵愈大則目標識別的可靠性愈高,選擇相關信息熵較大的特征子集進行冗余性對比實驗。

表1 訓練樣本與測試樣本的目標型號及數(shù)量

(1)SAR圖像預處理

為了除去冗余的背景,從圖像中截取中心64×64大小的樣本,并在提取特征構成列向量后,進行高斯隨機矩陣的壓縮觀測,壓縮為64×1的向量作為字典原子。本文選擇的五個特征為緊支撐小波近似分量、多孔小波分量和sym基的三層近似小波分量,分別記為①~⑤。特征進行自由組合,本文選擇三個特征以上的情況進行分析。其中序號對應的特征集為1—①②③④,2—①②③⑤,3—①②④⑤,4—①③④⑤,5—②③④⑤,6—①②③,7—①②④,8—①②⑤,9—①③④,10—①③⑤,11—①④⑤,12—②③④,13—②③⑤,14—②④⑤,15—③④⑤。

(2)識別率對比實驗

在不同特征集合下,采用多任務稀疏表示方法進行SAR圖像識別,并計算特征集合的非線性相關信息熵。為了說明本文特征選擇方法的有效性,按照識別正確率降序排列非線性相關信息熵,圖3中給出非線性相關信息熵與目標識別正確率的折線圖。可以看到,非線性相關信息熵與目標識別正確率的趨勢基本一致,但是特征集7、11、15是較為明顯的異常點。雖然本文算法還不完善,但對于大部分特征集,非線性相關信息熵與識別率是正相關的。

(3)特征冗余性分析實驗

基于多尺度的稀疏表示對SAR圖像目標進行識別的本質(zhì)是對目標的不同分量同時進行測量,根據(jù)多尺度下的重構誤差和分類得到識別結果。特征的冗余度越小,則特征本身越不相關,那么聯(lián)合稀疏表示對目標挖掘的信息則越多。這里將特征的冗余性定義為互信息熵:式中:P(t)為圖像的小波系數(shù)重構圖像的灰度分布。互信息熵愈接近0,說明特征之間的冗余性愈大,特征包含的信息增益愈低。互信息熵的缺點是值域不在[0,1]范圍內(nèi),不能根據(jù)特征值求出總體信息增益。這里將特征子集中的互信息熵的平均值作為指標,當非相關信息熵相當時,選擇互信息大的特征子集。于是保證多特征稀疏表示可靠性的同時,選擇冗余信息少的特征子集,有利于得到穩(wěn)健的目標識別結果。

綜合非相關信息熵與特征冗余性的判斷,給出在不同訓練樣本量下,特征集3與特征5的目標識別率的折線圖如圖4所示。從表2中可以看出:特征集3的非相關信息熵大且互信息較高,而在圖4中,當樣本量減少一半時,仍達到90%的正確率;特征集5的互信息最小,當樣本量較少時,目標識別率惡化,目標識別率在樣本量為340時,較特征集5高4.26%。

表2 特征集總體冗余度與非相關信息熵

4 結論

本文針對RMTSR簡單羅列特征的問題,提出采用稀疏相關指數(shù)衡量特征關聯(lián)性,實現(xiàn)SAR圖像特征選擇,并在SAR圖像目標識別中驗證了方法的有效性。在MSTAR上進行的實驗表明,即使在有限的訓練樣本情況下,RMTSR的識別性能保持穩(wěn)定并且顯著降低了數(shù)據(jù)量。

猜你喜歡
訓練樣本信息熵特征選擇
基于信息熵可信度的測試點選擇方法研究
人工智能
近似邊界精度信息熵的屬性約簡
基于小波神經(jīng)網(wǎng)絡的網(wǎng)絡流量預測研究
基于智能優(yōu)化算法選擇特征的網(wǎng)絡入侵檢測
基于信息熵的承運船舶短重風險度量與檢驗監(jiān)管策略研究
信息熵及其在中醫(yī)“證癥”關聯(lián)中的應用研究
故障診斷中的數(shù)據(jù)建模與特征選擇
reliefF算法在數(shù)據(jù)發(fā)布隱私保護中的應用研究
一種多特征融合的中文微博評價對象提取方法