基于多模態(tài)深度學(xué)習(xí)的圖像序列弱小目標(biāo)識(shí)別

2022-03-15 09:45:34紀(jì)沖，王琛

計(jì)算機(jī)仿真 2022年2期

紀(jì) 沖，王琛

(內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院，內(nèi)蒙古呼和浩特 010018)

1 引言

圖像序列是指在不同時(shí)間、不同方位對(duì)目標(biāo)依序連續(xù)獲取的系列圖像，是一種多模態(tài)圖像。一般情況下，在復(fù)雜的圖像序列背景中，弱小目標(biāo)只會(huì)呈現(xiàn)出一個(gè)或幾個(gè)像素大小，并且容易受強(qiáng)波干擾，信噪比較低[1]，因此有效且準(zhǔn)確的對(duì)其進(jìn)行識(shí)別逐漸發(fā)展成熱門研究?jī)?nèi)容，隨著人們對(duì)不同識(shí)別方法的深入探究，多模態(tài)深度學(xué)習(xí)以其在圖像分類和識(shí)別方面的優(yōu)異效果成為了被廣泛應(yīng)用的技術(shù)手段。深度學(xué)習(xí)的理論概念起源于對(duì)神經(jīng)網(wǎng)絡(luò)的研究，其學(xué)習(xí)結(jié)構(gòu)分為多隱層和多層感知器兩部分，是機(jī)器學(xué)習(xí)中的一個(gè)新領(lǐng)域，其主要運(yùn)行動(dòng)機(jī)在于對(duì)人腦進(jìn)行模擬并且對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行分析學(xué)習(xí)，然后通過(guò)模擬人腦機(jī)制對(duì)數(shù)據(jù)解釋。

當(dāng)前已有學(xué)者對(duì)圖像序列弱小目標(biāo)識(shí)別做出了研究。文獻(xiàn)[2]提出基于小波分解的離焦模糊圖像序列微弱運(yùn)動(dòng)目標(biāo)自動(dòng)檢測(cè)方法，采用小波分解法分解圖像，計(jì)算小波系數(shù)局部方差，縮減小波系數(shù)，濾除圖像噪聲，根據(jù)動(dòng)態(tài)聚類完成目標(biāo)檢測(cè)。該方法，檢測(cè)效率較好但對(duì)相似物體的檢測(cè)精度較低，文獻(xiàn)[3]提出基于時(shí)空非局部相似性的紅外圖像弱小目標(biāo)檢測(cè)方法，根據(jù)紅外圖像序列及每幀局部背景圖像的相似特性，采用時(shí)空域圖像塊模型求解圖像目標(biāo)，完成圖像序列弱小目標(biāo)識(shí)別。該方法的檢測(cè)精度較好，但對(duì)相似物體的檢測(cè)精度較差。

針對(duì)上述方法存在的問(wèn)題，提出基于多模態(tài)深度學(xué)習(xí)的弱小目標(biāo)識(shí)別方法。利用弱小目標(biāo)與背景灰度相關(guān)性之間的差對(duì)單幀圖像進(jìn)行背景抑制，去除圖像冗雜信息，通過(guò)圖像目標(biāo)分割處理濾除高頻噪聲。使用加入稀疏性約束的自編碼器不斷調(diào)節(jié)其自身參數(shù)，壓縮輸入信息，并且提取出有用的輸入特征，訓(xùn)練出最優(yōu)向量，最后使用優(yōu)化后的CNN深度學(xué)習(xí)模型完成弱小目標(biāo)識(shí)別，在識(shí)別的過(guò)程中加入了連續(xù)幀和非連續(xù)幀的特征對(duì)識(shí)別進(jìn)行了優(yōu)化。

2 圖像預(yù)處理

圖像序列中，弱小目標(biāo)為點(diǎn)狀，SNR較低，若直接識(shí)別較為困難，因此對(duì)弱小目標(biāo)識(shí)別前需要對(duì)圖像進(jìn)行背景抑制，分離弱小目標(biāo)和高頻噪聲，構(gòu)建高頻噪聲和弱小目標(biāo)的概率密度函數(shù)，獲取弱小目標(biāo)，實(shí)現(xiàn)目標(biāo)分割，據(jù)此實(shí)現(xiàn)圖像預(yù)處理。

2.1 單幀圖像背景抑制

通常情況下，圖像背景變化較為平緩，且背景像素之間的灰度是相互聯(lián)系的，而弱小目標(biāo)和背景的相關(guān)性相對(duì)較差，與背景中的高頻分量相對(duì)應(yīng)。若用弱小目標(biāo)區(qū)域的像素點(diǎn)灰度值來(lái)預(yù)測(cè)弱小目標(biāo)的灰度值，則預(yù)測(cè)結(jié)果會(huì)與該點(diǎn)實(shí)際的灰度值存在較大差異，由此即可實(shí)現(xiàn)目標(biāo)像素點(diǎn)與背景像素點(diǎn)的抑制和區(qū)分。

背景抑制模型如下

m=0，1，…，M-1，n=0，1，…，N-1

(1)

式(1)中，f表示輸入圖像；y代表預(yù)測(cè)圖像；wj表示y的權(quán)重矩陣；sj表示背景像素點(diǎn)集合，背景像素點(diǎn)與權(quán)重矩陣的權(quán)值取決于圖像背景的復(fù)雜程度。在式(1)的基礎(chǔ)上可得預(yù)測(cè)和輸入圖像間的差圖像，可以表示為

e(m，n)=f(m，n)-y(m，n)

(2)

式(2)中，y(m，n)表示在(m，n)像素點(diǎn)上的背景灰度；e表示差圖像，當(dāng)像素點(diǎn)(m，n)與sj的像素點(diǎn)處于同一背景時(shí)，e(m，n)≈0，則起到了背景抑制的效果。

2.2 目標(biāo)分割

原圖像經(jīng)過(guò)背景抑制后，會(huì)得到弱小目標(biāo)和高頻噪聲，弱小目標(biāo)可近似看作為均勻分布，而圖像中的高頻噪聲一般可視為高斯分布，則高頻噪聲和弱小目標(biāo)的概率密度函數(shù)[4]分別可表示為

(3)

式(3)中，z表示圖像序列上某一點(diǎn)的觀測(cè)值，m1、m2分別代表背景噪聲[5]和弱小目標(biāo)，k代表z的分布范圍。當(dāng)P(z|m1)和P(z|m2)分別小于λ時(shí)，該像素點(diǎn)表示弱小目標(biāo)；當(dāng)P(z|m1)和P(z|m2)分別大于λ時(shí)，則該像素點(diǎn)表示背景噪聲，其中λ表示決策權(quán)限。

當(dāng)z2>-2σ2[In(2πσλ)-Ink]時(shí)，即可將該像素點(diǎn)判定為目標(biāo)點(diǎn)并且加以標(biāo)記，同時(shí)將其余像素點(diǎn)的灰質(zhì)度置零。據(jù)此實(shí)現(xiàn)高頻噪聲和弱小目標(biāo)分析，獲取弱小目標(biāo)。

3 基于多模態(tài)學(xué)習(xí)的圖像序列弱小目標(biāo)識(shí)別

圖像序列是一種多模態(tài)數(shù)據(jù)[6]，是指在不同的時(shí)間、方位對(duì)目標(biāo)依序連續(xù)獲取的序列圖像。本文將稀疏自編碼和CNN深度學(xué)習(xí)模型相結(jié)合，通過(guò)時(shí)間相關(guān)性對(duì)似然函數(shù)完成弱小目標(biāo)識(shí)別。

3.1 稀疏自編碼

稀疏自編碼器[7]指的是在自編碼器的基礎(chǔ)上加入稀疏性約束，少量激活隱藏層的神經(jīng)元，其結(jié)構(gòu)圖如圖1所示。

圖1 稀疏自編碼器結(jié)構(gòu)

若x∈Rd×1為無(wú)類別輸入向量，通過(guò)非線性激活函數(shù)映射后，獲得隱藏層y∈RN×1如下

y=fθ(Wx+b)

(4)

式(4)中，W表示權(quán)值矩陣，b表示偏置向量。fθ(x)=1/(1+e-x)代表Sigmoid函數(shù)。y由式(5)再次進(jìn)行映射，構(gòu)造出向量z∈Rd×1

(5)

當(dāng)激活函數(shù)為線性函數(shù)，且隱藏層神經(jīng)元數(shù)量要少于輸入層時(shí)，則可以學(xué)到與主成分分析類似的低維表示結(jié)果。當(dāng)隱藏層中包含較大數(shù)量的神經(jīng)元[9]時(shí)，通過(guò)加入稀疏性約束規(guī)則，從而獲得輸入數(shù)據(jù)中所包含的隱藏信息和其詳細(xì)的內(nèi)在結(jié)構(gòu)。

(6)

(7)

由此實(shí)現(xiàn)了稀疏性限制[10]，通過(guò)加入懲罰因子，總體代價(jià)函數(shù)也發(fā)生了改變，其具體表達(dá)式為

(8)

式(5)中，W代表權(quán)值矩陣，b代表偏置向量，β為一個(gè)常數(shù)，J(W，b)表示代價(jià)函數(shù)。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過(guò)程中，將權(quán)值矩陣和偏置向量進(jìn)行調(diào)整，達(dá)到式(8)的極小值。

遞歸神經(jīng)網(wǎng)絡(luò)是指數(shù)據(jù)在輸出到輸入的過(guò)程中，會(huì)產(chǎn)生反饋連接的一種神經(jīng)網(wǎng)絡(luò)，能夠降低維度，同時(shí)也能夠?qū)D像抽象特征進(jìn)行有效的學(xué)習(xí)，一般可以將其視為卷積與池化的結(jié)合。

本文采用樹(shù)形網(wǎng)絡(luò)結(jié)構(gòu)合并每一層的向量塊。若遞歸神經(jīng)網(wǎng)絡(luò)輸入矩陣x∈RK×r×r，則其目標(biāo)是將X合并然后轉(zhuǎn)化成向量y∈RK，其過(guò)程如下：

圖2 遞歸神經(jīng)網(wǎng)絡(luò)

一般情況下，如果合并塊的大小是K×b×b，那么每個(gè)合并塊中存在b2個(gè)向量，通過(guò)式(9)即可獲得向量為

p=f(W×[X1，…Xb2]T)

(9)

式(9)中，Xi表示向量塊，W∈RK×b2×K，f代表非線性函數(shù)。利用式(9)將相同權(quán)重向量塊進(jìn)行合并，獲得向量矩陣。

3.2 基于CNN多模態(tài)學(xué)習(xí)弱小目標(biāo)識(shí)別算法

CNN是一種多層感知機(jī)的變種模型[11]，是現(xiàn)階段快速發(fā)展并被廣泛應(yīng)用的一種性能較高的識(shí)別方法，從生物學(xué)理論逐漸演化而成的。

CNN中包含了特征提取層和映射層兩種內(nèi)部結(jié)構(gòu)。特征提取的主要目的是將神經(jīng)元的輸入信息與前一層接收域之間建立連接，并且對(duì)該部分特征進(jìn)行提取，當(dāng)特征提取完成后，局部特征與其它特征的位置關(guān)系也會(huì)被確定；特征映射層主要目的是生成計(jì)算層，每個(gè)特征映射層均可視為平面，并且平面上的神經(jīng)元權(quán)重相等。

特征映射是將sigmoid函數(shù)[12]作為激活函數(shù)，使其具有位移不變性。利用卷積神經(jīng)網(wǎng)絡(luò)中的各個(gè)卷積層和計(jì)算層之間的關(guān)系，計(jì)算出局部平均值，并且進(jìn)行二次提取。該特征提取結(jié)構(gòu)能夠有效降低特征的分辨率。

(10)

子抽樣層Sl在每個(gè)出入位面上使用Kl×Kl平滑濾波

(11)

CNN中每個(gè)卷積層在運(yùn)算過(guò)程中均會(huì)使用到非線性函數(shù)tanh(·)，并且會(huì)采用全連接層對(duì)標(biāo)簽向量進(jìn)行識(shí)別，本文引入“softmax”層對(duì)這些向量進(jìn)行解釋，其計(jì)算公式如下

(12)

通過(guò)最小化似然函數(shù)L(θ)為目標(biāo)對(duì)CNN網(wǎng)絡(luò)中的每個(gè)參數(shù)θ進(jìn)行優(yōu)化，其數(shù)學(xué)表達(dá)式如下

(13)

進(jìn)行優(yōu)化處理后，采用隨機(jī)梯度下降算法對(duì)參數(shù)θ進(jìn)行訓(xùn)練，計(jì)算出隨機(jī)樣本(x，y)的梯度?L(θ)/?θ后，接著對(duì)其進(jìn)行更新，如下式

(14)

為了使θ能夠得到更好的訓(xùn)練，以達(dá)到更準(zhǔn)確的識(shí)別率，使用時(shí)間相關(guān)性對(duì)似然函數(shù)進(jìn)一步進(jìn)行優(yōu)化。

(15)

式(15)中，δ表示邊緣尺寸。

在弱小目標(biāo)識(shí)別的過(guò)程中，本文方法利用了圖像連續(xù)幀、非連續(xù)幀的固定特征對(duì)識(shí)別方法進(jìn)行了優(yōu)化，從而保證了識(shí)別結(jié)果的高準(zhǔn)確率。

4 仿真研究

為驗(yàn)證所提方法的有效性，設(shè)計(jì)仿真。采用MATLAB仿真軟件作為實(shí)驗(yàn)測(cè)試平臺(tái)，以Imagenet 小尺寸圖像數(shù)據(jù)集(http：∥image-net.org/small/download.php)為實(shí)驗(yàn)對(duì)象，從中選取1.0Gb大小的圖像作為樣本訓(xùn)練圖像。

采用多模態(tài)深度學(xué)習(xí)識(shí)別算法及文獻(xiàn)[2]、文獻(xiàn)[3]算法對(duì)樣本圖像弱小目標(biāo)識(shí)別，為確定隱藏層神經(jīng)元個(gè)數(shù)K1和遞歸神經(jīng)網(wǎng)格數(shù)目K2對(duì)識(shí)別結(jié)果的影響，對(duì)樣本圖像進(jìn)行實(shí)驗(yàn)測(cè)試來(lái)獲取二者的合理取值。首先選取圖像樣本通過(guò)稀疏自編碼器對(duì)輸入數(shù)據(jù)進(jìn)行訓(xùn)練，在訓(xùn)練獲得數(shù)據(jù)的基礎(chǔ)上，對(duì)圖像序列進(jìn)行卷積特征提取，最后以現(xiàn)有的結(jié)構(gòu)和樣本圖像為基礎(chǔ)，確定K1、K2的取值。

將K1和K2從增量8變化至80，二者對(duì)不同特征圖像識(shí)別的準(zhǔn)確率的影響分別如圖3所示：

圖3 遞歸神經(jīng)網(wǎng)絡(luò)和隱藏神經(jīng)元個(gè)數(shù)對(duì)準(zhǔn)確率的影響

從圖3中可以看出，隨著K1、K2的增加，所提算法的圖像特征識(shí)別的準(zhǔn)確率越來(lái)越高，當(dāng)K1、K2的個(gè)數(shù)為64時(shí)，其識(shí)別準(zhǔn)確率達(dá)到最優(yōu)。因此在采用所提方法進(jìn)行圖像序列弱小目標(biāo)識(shí)別時(shí)，設(shè)置K1、K2個(gè)為64，能夠得到最準(zhǔn)確的目標(biāo)識(shí)別率；而文獻(xiàn)對(duì)比方法的目標(biāo)識(shí)別準(zhǔn)確率始終低于所提算法，且圖像特征識(shí)別的準(zhǔn)確率波動(dòng)較大。

為進(jìn)一步驗(yàn)證本文方法的有效性，將其與文獻(xiàn)[2]方法、文獻(xiàn)[3]方法進(jìn)行對(duì)比。將圖像樣本平均分為6組，并且分為訓(xùn)練集和測(cè)試集，將訓(xùn)練集和測(cè)試集分為以下3種情況：

1)1個(gè)訓(xùn)練集和5個(gè)測(cè)試集。

2)2個(gè)訓(xùn)練集和4個(gè)測(cè)試集。

3)5個(gè)訓(xùn)練集和1個(gè)測(cè)試集。

采用不同識(shí)別算法分別對(duì)這三種情況進(jìn)行識(shí)別，其識(shí)別率如表1所示。

表1 不同算法識(shí)別率比較

從表1可以看出，本文方法在只有1組訓(xùn)練集時(shí)識(shí)別率為92.5%，當(dāng)訓(xùn)練集增加到5時(shí)，識(shí)別率達(dá)到最大，為99.21%，誤差僅為0.79%。各弱小目標(biāo)識(shí)別方法的識(shí)別準(zhǔn)確性隨著訓(xùn)練集的規(guī)模增大而得到顯著的提高，但是與另外兩種識(shí)別方法相比，本文方法能夠不依賴大量對(duì)象進(jìn)行識(shí)別訓(xùn)練，始終保持較高的識(shí)別率。

5 結(jié)論

針對(duì)現(xiàn)有弱小目標(biāo)識(shí)別對(duì)相似物體識(shí)別精度較低等問(wèn)題，提出基于多模態(tài)深度學(xué)習(xí)的圖像序列弱小目標(biāo)識(shí)別。在圖像預(yù)處理及稀疏自編碼的基礎(chǔ)上，使用優(yōu)化后的CNN深度學(xué)習(xí)模型完成弱小目標(biāo)識(shí)別。在實(shí)驗(yàn)中，與傳統(tǒng)目標(biāo)識(shí)別方法相比，本文方法能夠在不依賴大量識(shí)別訓(xùn)練的前提下保持較高的弱小目標(biāo)識(shí)別率，充分證明本文方法的有效性和準(zhǔn)確性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡