紀(jì) 沖,王 琛
(內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010018)
圖像序列是指在不同時(shí)間、不同方位對(duì)目標(biāo)依序連續(xù)獲取的系列圖像,是一種多模態(tài)圖像。一般情況下,在復(fù)雜的圖像序列背景中,弱小目標(biāo)只會(huì)呈現(xiàn)出一個(gè)或幾個(gè)像素大小,并且容易受強(qiáng)波干擾,信噪比較低[1],因此有效且準(zhǔn)確的對(duì)其進(jìn)行識(shí)別逐漸發(fā)展成熱門研究?jī)?nèi)容,隨著人們對(duì)不同識(shí)別方法的深入探究,多模態(tài)深度學(xué)習(xí)以其在圖像分類和識(shí)別方面的優(yōu)異效果成為了被廣泛應(yīng)用的技術(shù)手段。深度學(xué)習(xí)的理論概念起源于對(duì)神經(jīng)網(wǎng)絡(luò)的研究,其學(xué)習(xí)結(jié)構(gòu)分為多隱層和多層感知器兩部分,是機(jī)器學(xué)習(xí)中的一個(gè)新領(lǐng)域,其主要運(yùn)行動(dòng)機(jī)在于對(duì)人腦進(jìn)行模擬并且對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行分析學(xué)習(xí),然后通過(guò)模擬人腦機(jī)制對(duì)數(shù)據(jù)解釋。
當(dāng)前已有學(xué)者對(duì)圖像序列弱小目標(biāo)識(shí)別做出了研究。文獻(xiàn)[2]提出基于小波分解的離焦模糊圖像序列微弱運(yùn)動(dòng)目標(biāo)自動(dòng)檢測(cè)方法,采用小波分解法分解圖像,計(jì)算小波系數(shù)局部方差,縮減小波系數(shù),濾除圖像噪聲,根據(jù)動(dòng)態(tài)聚類完成目標(biāo)檢測(cè)。該方法,檢測(cè)效率較好但對(duì)相似物體的檢測(cè)精度較低,文獻(xiàn)[3]提出基于時(shí)空非局部相似性的紅外圖像弱小目標(biāo)檢測(cè)方法,根據(jù)紅外圖像序列及每幀局部背景圖像的相似特性,采用時(shí)空域圖像塊模型求解圖像目標(biāo),完成圖像序列弱小目標(biāo)識(shí)別。該方法的檢測(cè)精度較好,但對(duì)相似物體的檢測(cè)精度較差。
針對(duì)上述方法存在的問(wèn)題,提出基于多模態(tài)深度學(xué)習(xí)的弱小目標(biāo)識(shí)別方法。利用弱小目標(biāo)與背景灰度相關(guān)性之間的差對(duì)單幀圖像進(jìn)行背景抑制,去除圖像冗雜信息,通過(guò)圖像目標(biāo)分割處理濾除高頻噪聲。使用加入稀疏性約束的自編碼器不斷調(diào)節(jié)其自身參數(shù),壓縮輸入信息,并且提取出有用的輸入特征,訓(xùn)練出最優(yōu)向量,最后使用優(yōu)化后的CNN深度學(xué)習(xí)模型完成弱小目標(biāo)識(shí)別,在識(shí)別的過(guò)程中加入了連續(xù)幀和非連續(xù)幀的特征對(duì)識(shí)別進(jìn)行了優(yōu)化。
圖像序列中,弱小目標(biāo)為點(diǎn)狀,SNR較低,若直接識(shí)別較為困難,因此對(duì)弱小目標(biāo)識(shí)別前需要對(duì)圖像進(jìn)行背景抑制,分離弱小目標(biāo)和高頻噪聲,構(gòu)建高頻噪聲和弱小目標(biāo)的概率密度函數(shù),獲取弱小目標(biāo),實(shí)現(xiàn)目標(biāo)分割,據(jù)此實(shí)現(xiàn)圖像預(yù)處理。
通常情況下,圖像背景變化較為平緩,且背景像素之間的灰度是相互聯(lián)系的,而弱小目標(biāo)和背景的相關(guān)性相對(duì)較差,與背景中的高頻分量相對(duì)應(yīng)。若用弱小目標(biāo)區(qū)域的像素點(diǎn)灰度值來(lái)預(yù)測(cè)弱小目標(biāo)的灰度值,則預(yù)測(cè)結(jié)果會(huì)與該點(diǎn)實(shí)際的灰度值存在較大差異,由此即可實(shí)現(xiàn)目標(biāo)像素點(diǎn)與背景像素點(diǎn)的抑制和區(qū)分。
背景抑制模型如下
m=0,1,…,M-1,n=0,1,…,N-1
(1)
式(1)中,f表示輸入圖像;y代表預(yù)測(cè)圖像;wj表示y的權(quán)重矩陣;sj表示背景像素點(diǎn)集合,背景像素點(diǎn)與權(quán)重矩陣的權(quán)值取決于圖像背景的復(fù)雜程度。在式(1)的基礎(chǔ)上可得預(yù)測(cè)和輸入圖像間的差圖像,可以表示為
e(m,n)=f(m,n)-y(m,n)
(2)
式(2)中,y(m,n)表示在(m,n)像素點(diǎn)上的背景灰度;e表示差圖像,當(dāng)像素點(diǎn)(m,n)與sj的像素點(diǎn)處于同一背景時(shí),e(m,n)≈0,則起到了背景抑制的效果。
原圖像經(jīng)過(guò)背景抑制后,會(huì)得到弱小目標(biāo)和高頻噪聲,弱小目標(biāo)可近似看作為均勻分布,而圖像中的高頻噪聲一般可視為高斯分布,則高頻噪聲和弱小目標(biāo)的概率密度函數(shù)[4]分別可表示為
(3)
式(3)中,z表示圖像序列上某一點(diǎn)的觀測(cè)值,m1、m2分別代表背景噪聲[5]和弱小目標(biāo),k代表z的分布范圍。當(dāng)P(z|m1)和P(z|m2)分別小于λ時(shí),該像素點(diǎn)表示弱小目標(biāo);當(dāng)P(z|m1)和P(z|m2)分別大于λ時(shí),則該像素點(diǎn)表示背景噪聲,其中λ表示決策權(quán)限。
當(dāng)z2>-2σ2[In(2πσλ)-Ink]時(shí),即可將該像素點(diǎn)判定為目標(biāo)點(diǎn)并且加以標(biāo)記,同時(shí)將其余像素點(diǎn)的灰質(zhì)度置零。據(jù)此實(shí)現(xiàn)高頻噪聲和弱小目標(biāo)分析,獲取弱小目標(biāo)。
圖像序列是一種多模態(tài)數(shù)據(jù)[6],是指在不同的時(shí)間、方位對(duì)目標(biāo)依序連續(xù)獲取的序列圖像。本文將稀疏自編碼和CNN深度學(xué)習(xí)模型相結(jié)合,通過(guò)時(shí)間相關(guān)性對(duì)似然函數(shù)完成弱小目標(biāo)識(shí)別。
稀疏自編碼器[7]指的是在自編碼器的基礎(chǔ)上加入稀疏性約束,少量激活隱藏層的神經(jīng)元,其結(jié)構(gòu)圖如圖1所示。
圖1 稀疏自編碼器結(jié)構(gòu)
若x∈Rd×1為無(wú)類別輸入向量,通過(guò)非線性激活函數(shù)映射后,獲得隱藏層y∈RN×1如下
y=fθ(Wx+b)
(4)
式(4)中,W表示權(quán)值矩陣,b表示偏置向量。fθ(x)=1/(1+e-x)代表Sigmoid函數(shù)。y由式(5)再次進(jìn)行映射,構(gòu)造出向量z∈Rd×1
(5)
當(dāng)激活函數(shù)為線性函數(shù),且隱藏層神經(jīng)元數(shù)量要少于輸入層時(shí),則可以學(xué)到與主成分分析類似的低維表示結(jié)果。當(dāng)隱藏層中包含較大數(shù)量的神經(jīng)元[9]時(shí),通過(guò)加入稀疏性約束規(guī)則,從而獲得輸入數(shù)據(jù)中所包含的隱藏信息和其詳細(xì)的內(nèi)在結(jié)構(gòu)。
(6)
(7)
由此實(shí)現(xiàn)了稀疏性限制[10],通過(guò)加入懲罰因子,總體代價(jià)函數(shù)也發(fā)生了改變,其具體表達(dá)式為
(8)
式(5)中,W代表權(quán)值矩陣,b代表偏置向量,β為一個(gè)常數(shù),J(W,b)表示代價(jià)函數(shù)。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,將權(quán)值矩陣和偏置向量進(jìn)行調(diào)整,達(dá)到式(8)的極小值。
遞歸神經(jīng)網(wǎng)絡(luò)是指數(shù)據(jù)在輸出到輸入的過(guò)程中,會(huì)產(chǎn)生反饋連接的一種神經(jīng)網(wǎng)絡(luò),能夠降低維度,同時(shí)也能夠?qū)D像抽象特征進(jìn)行有效的學(xué)習(xí),一般可以將其視為卷積與池化的結(jié)合。
本文采用樹(shù)形網(wǎng)絡(luò)結(jié)構(gòu)合并每一層的向量塊。若遞歸神經(jīng)網(wǎng)絡(luò)輸入矩陣x∈RK×r×r,則其目標(biāo)是將X合并然后轉(zhuǎn)化成向量y∈RK,其過(guò)程如下:
圖2 遞歸神經(jīng)網(wǎng)絡(luò)
一般情況下,如果合并塊的大小是K×b×b,那么每個(gè)合并塊中存在b2個(gè)向量,通過(guò)式(9)即可獲得向量為
p=f(W×[X1,…Xb2]T)
(9)
式(9)中,Xi表示向量塊,W∈RK×b2×K,f代表非線性函數(shù)。利用式(9)將相同權(quán)重向量塊進(jìn)行合并,獲得向量矩陣。
CNN是一種多層感知機(jī)的變種模型[11],是現(xiàn)階段快速發(fā)展并被廣泛應(yīng)用的一種性能較高的識(shí)別方法,從生物學(xué)理論逐漸演化而成的。
CNN中包含了特征提取層和映射層兩種內(nèi)部結(jié)構(gòu)。特征提取的主要目的是將神經(jīng)元的輸入信息與前一層接收域之間建立連接,并且對(duì)該部分特征進(jìn)行提取,當(dāng)特征提取完成后,局部特征與其它特征的位置關(guān)系也會(huì)被確定;特征映射層主要目的是生成計(jì)算層,每個(gè)特征映射層均可視為平面,并且平面上的神經(jīng)元權(quán)重相等。
特征映射是將sigmoid函數(shù)[12]作為激活函數(shù),使其具有位移不變性。利用卷積神經(jīng)網(wǎng)絡(luò)中的各個(gè)卷積層和計(jì)算層之間的關(guān)系,計(jì)算出局部平均值,并且進(jìn)行二次提取。該特征提取結(jié)構(gòu)能夠有效降低特征的分辨率。
(10)
子抽樣層Sl在每個(gè)出入位面上使用Kl×Kl平滑濾波
(11)
CNN中每個(gè)卷積層在運(yùn)算過(guò)程中均會(huì)使用到非線性函數(shù)tanh(·),并且會(huì)采用全連接層對(duì)標(biāo)簽向量進(jìn)行識(shí)別,本文引入“softmax”層對(duì)這些向量進(jìn)行解釋,其計(jì)算公式如下
(12)
通過(guò)最小化似然函數(shù)L(θ)為目標(biāo)對(duì)CNN網(wǎng)絡(luò)中的每個(gè)參數(shù)θ進(jìn)行優(yōu)化,其數(shù)學(xué)表達(dá)式如下
(13)
進(jìn)行優(yōu)化處理后,采用隨機(jī)梯度下降算法對(duì)參數(shù)θ進(jìn)行訓(xùn)練,計(jì)算出隨機(jī)樣本(x,y)的梯度?L(θ)/?θ后,接著對(duì)其進(jìn)行更新,如下式
(14)
為了使θ能夠得到更好的訓(xùn)練,以達(dá)到更準(zhǔn)確的識(shí)別率,使用時(shí)間相關(guān)性對(duì)似然函數(shù)進(jìn)一步進(jìn)行優(yōu)化。
(15)
式(15)中,δ表示邊緣尺寸。
在弱小目標(biāo)識(shí)別的過(guò)程中,本文方法利用了圖像連續(xù)幀、非連續(xù)幀的固定特征對(duì)識(shí)別方法進(jìn)行了優(yōu)化,從而保證了識(shí)別結(jié)果的高準(zhǔn)確率。
為驗(yàn)證所提方法的有效性,設(shè)計(jì)仿真。采用MATLAB仿真軟件作為實(shí)驗(yàn)測(cè)試平臺(tái),以Imagenet 小尺寸圖像數(shù)據(jù)集(http:∥image-net.org/small/download.php)為實(shí)驗(yàn)對(duì)象,從中選取1.0Gb大小的圖像作為樣本訓(xùn)練圖像。
采用多模態(tài)深度學(xué)習(xí)識(shí)別算法及文獻(xiàn)[2]、文獻(xiàn)[3]算法對(duì)樣本圖像弱小目標(biāo)識(shí)別,為確定隱藏層神經(jīng)元個(gè)數(shù)K1和遞歸神經(jīng)網(wǎng)格數(shù)目K2對(duì)識(shí)別結(jié)果的影響,對(duì)樣本圖像進(jìn)行實(shí)驗(yàn)測(cè)試來(lái)獲取二者的合理取值。首先選取圖像樣本通過(guò)稀疏自編碼器對(duì)輸入數(shù)據(jù)進(jìn)行訓(xùn)練,在訓(xùn)練獲得數(shù)據(jù)的基礎(chǔ)上,對(duì)圖像序列進(jìn)行卷積特征提取,最后以現(xiàn)有的結(jié)構(gòu)和樣本圖像為基礎(chǔ),確定K1、K2的取值。
將K1和K2從增量8變化至80,二者對(duì)不同特征圖像識(shí)別的準(zhǔn)確率的影響分別如圖3所示:
圖3 遞歸神經(jīng)網(wǎng)絡(luò)和隱藏神經(jīng)元個(gè)數(shù)對(duì)準(zhǔn)確率的影響
從圖3中可以看出,隨著K1、K2的增加,所提算法的圖像特征識(shí)別的準(zhǔn)確率越來(lái)越高,當(dāng)K1、K2的個(gè)數(shù)為64時(shí),其識(shí)別準(zhǔn)確率達(dá)到最優(yōu)。因此在采用所提方法進(jìn)行圖像序列弱小目標(biāo)識(shí)別時(shí),設(shè)置K1、K2個(gè)為64,能夠得到最準(zhǔn)確的目標(biāo)識(shí)別率;而文獻(xiàn)對(duì)比方法的目標(biāo)識(shí)別準(zhǔn)確率始終低于所提算法,且圖像特征識(shí)別的準(zhǔn)確率波動(dòng)較大。
為進(jìn)一步驗(yàn)證本文方法的有效性,將其與文獻(xiàn)[2]方法、文獻(xiàn)[3]方法進(jìn)行對(duì)比。將圖像樣本平均分為6組,并且分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集和測(cè)試集分為以下3種情況:
1)1個(gè)訓(xùn)練集和5個(gè)測(cè)試集。
2)2個(gè)訓(xùn)練集和4個(gè)測(cè)試集。
3)5個(gè)訓(xùn)練集和1個(gè)測(cè)試集。
采用不同識(shí)別算法分別對(duì)這三種情況進(jìn)行識(shí)別,其識(shí)別率如表1所示。
表1 不同算法識(shí)別率比較
從表1可以看出,本文方法在只有1組訓(xùn)練集時(shí)識(shí)別率為92.5%,當(dāng)訓(xùn)練集增加到5時(shí),識(shí)別率達(dá)到最大,為99.21%,誤差僅為0.79%。各弱小目標(biāo)識(shí)別方法的識(shí)別準(zhǔn)確性隨著訓(xùn)練集的規(guī)模增大而得到顯著的提高,但是與另外兩種識(shí)別方法相比,本文方法能夠不依賴大量對(duì)象進(jìn)行識(shí)別訓(xùn)練,始終保持較高的識(shí)別率。
針對(duì)現(xiàn)有弱小目標(biāo)識(shí)別對(duì)相似物體識(shí)別精度較低等問(wèn)題,提出基于多模態(tài)深度學(xué)習(xí)的圖像序列弱小目標(biāo)識(shí)別。在圖像預(yù)處理及稀疏自編碼的基礎(chǔ)上,使用優(yōu)化后的CNN深度學(xué)習(xí)模型完成弱小目標(biāo)識(shí)別。在實(shí)驗(yàn)中,與傳統(tǒng)目標(biāo)識(shí)別方法相比,本文方法能夠在不依賴大量識(shí)別訓(xùn)練的前提下保持較高的弱小目標(biāo)識(shí)別率,充分證明本文方法的有效性和準(zhǔn)確性。