曹 琳,彭 圓,牟 林,孫 悅,徐劍秋
(水下測(cè)控技術(shù)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116013)
如何在復(fù)雜的海洋環(huán)境下對(duì)水聲信號(hào)進(jìn)行識(shí)別是目前亟需解決的難題。傳統(tǒng)的基于信號(hào)特征的水聲目標(biāo)信號(hào)識(shí)別方法,特征受時(shí)/頻/空域變換算法的制約不可避免地丟失目標(biāo)信息。深度學(xué)習(xí)方法能夠自動(dòng)地通過(guò)逐層訓(xùn)練學(xué)習(xí)到數(shù)據(jù)高級(jí)的特征表示,從而得到更豐富的特征信息。該方法集特征提取與分類于一體,完成從輸入信號(hào)到輸出分類的處理。隨著深度學(xué)習(xí)在圖像識(shí)別、語(yǔ)音識(shí)別等領(lǐng)域取得了巨大的成功,國(guó)內(nèi)外學(xué)者陸續(xù)嘗試將深度學(xué)習(xí)方法應(yīng)用于水聲信號(hào)識(shí)別中。一些學(xué)者將卷積神經(jīng)網(wǎng)絡(luò)對(duì)水聲信號(hào)的時(shí)頻譜特征進(jìn)行學(xué)習(xí)和識(shí)別[1],有效降低了噪聲的影響,分類精度可達(dá)98.57%,取得了很好的識(shí)別效果,李俊豪等學(xué)者根據(jù)水聲信號(hào)的特點(diǎn),從水聲信號(hào)時(shí)頻特征出發(fā)設(shè)計(jì)了深度卷積網(wǎng)絡(luò)[2],有助于提取到具有一定物理意義的譜特征,識(shí)別率顯著提高。但由于水聲信號(hào)的獲取難度大,導(dǎo)致水聲數(shù)據(jù)樣本是小樣本,樣本較少模型容易產(chǎn)生過(guò)擬合的現(xiàn)象。深度自編碼網(wǎng)絡(luò)可以對(duì)原始數(shù)據(jù)進(jìn)行有效的降維,避免模型出現(xiàn)過(guò)擬合。陳越超等學(xué)者基于降噪自編碼器對(duì)水聲數(shù)據(jù)進(jìn)行特征提取與識(shí)別[3],結(jié)果表明,對(duì)于不同類型目標(biāo)與同一目標(biāo)的不同狀態(tài),降噪自編碼器都能提取可分性特征,識(shí)別率也高于其他對(duì)比方法。薛靈芝等學(xué)者對(duì)深度自編碼網(wǎng)絡(luò)進(jìn)行了改進(jìn),在最后一層隱藏層的輸入值中加入第一層的特征值,有效地避免了單一通道中由于連乘導(dǎo)致的梯度消失問(wèn)題[4],結(jié)果表明,該算法能有效地對(duì)水聲信號(hào)進(jìn)行特征提取和分類,并具有良好的魯棒性。但是自編碼器一般基于全連接的方式構(gòu)建網(wǎng)絡(luò)模型,但是全連接網(wǎng)絡(luò)的運(yùn)算量較大,對(duì)實(shí)時(shí)性要求較高的應(yīng)用來(lái)說(shuō)有較大的局限性。
綜上所述,本文綜合利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和卷積去噪自編碼器(CDAE)的優(yōu)勢(shì),構(gòu)建了適應(yīng)水聲信號(hào)的深度卷積網(wǎng)絡(luò)和卷積去噪自編碼器(CDAE-CNN),將水聲信號(hào)的Lofar譜特征作為模型的輸入,進(jìn)行特征提取和分類,利用更少的參數(shù)學(xué)習(xí)更豐富的特征,實(shí)現(xiàn)對(duì)水聲信號(hào)的分類。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是被設(shè)計(jì)用來(lái)處理多維數(shù)組數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)[5],例如時(shí)間序列數(shù)據(jù)和圖像數(shù)據(jù)。它在圖像檢測(cè)、語(yǔ)音識(shí)別等領(lǐng)域表現(xiàn)優(yōu)異。卷積網(wǎng)絡(luò)具有局部連接、權(quán)值共享、池化以及使用多個(gè)網(wǎng)絡(luò)層的特點(diǎn)[5],可以識(shí)別數(shù)據(jù)中的局部模式,利用更少的參數(shù)獲得更豐富的特征。一般卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的基本組件都是卷積層、池化層交替使用的,其后跟著全連接層,對(duì)于分類任務(wù)而言,需要經(jīng)過(guò)Softmax操作后進(jìn)行最終的分類輸出。
卷積層是CNN的核心層,主要是通過(guò)卷積核提取輸入數(shù)據(jù)的特征,它是在做卷積過(guò)程中的濾波算子。卷積核大小的設(shè)置決定了卷積網(wǎng)絡(luò)提取樣本特征的能力的強(qiáng)弱,將卷積核的高(h)和寬(w)設(shè)置成w>h的矩形能夠提取圖像中與頻率相關(guān)的特征,相反,將卷積核的高和寬設(shè)置成w
圖1 卷積核尺寸
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
自編碼器是一種經(jīng)過(guò)無(wú)監(jiān)督訓(xùn)練后能將輸入復(fù)制到輸出的神經(jīng)網(wǎng)絡(luò)[6]。該網(wǎng)絡(luò)由兩部分組成:編碼器和解碼器,編碼器可以用h=f(x)表示,式中x為輸入數(shù)據(jù),f為編碼函數(shù),h為x的特征表達(dá),解碼器可以用解碼函數(shù)r=g(h)表示,式中g(shù)為解碼函數(shù),r為輸出數(shù)據(jù),它們之間通過(guò)隱藏空間相連接。去噪自編碼器是與自編碼器具有相同的結(jié)構(gòu)[3],只是在訓(xùn)練樣本中向x中加入了噪聲,得到估計(jì)值x′,訓(xùn)練時(shí)學(xué)習(xí)從含噪聲的輸入中去除噪聲獲得純凈的輸入,這樣就增強(qiáng)了模型對(duì)信號(hào)的特征提取能力。傳統(tǒng)的自編碼器最小化以下目標(biāo)[6]:
L(x,g(f(x)))
(1)
其中L是一個(gè)損失函數(shù),懲罰g(f(x))與x的差異。
而去噪自編碼器最小化為[6]:
L(x,g(f(x′)))
(2)
其中x′是被某種噪聲損壞的x的副本,圖3是去噪自編碼器的模型結(jié)構(gòu)圖。
圖3 去噪自編碼器結(jié)構(gòu)
圖4 卷積去噪自編碼器結(jié)構(gòu)
本文結(jié)合CDAE和CNN特點(diǎn)設(shè)計(jì)適合水聲Lofar譜的分類網(wǎng)絡(luò)(如圖5所示)。模型主要由三個(gè)網(wǎng)絡(luò)組合而成,即網(wǎng)絡(luò)1、網(wǎng)絡(luò)2和網(wǎng)絡(luò)3,網(wǎng)絡(luò)1和網(wǎng)絡(luò)2主要是CDAE網(wǎng)絡(luò)結(jié)構(gòu)。其中網(wǎng)絡(luò)1中主要由卷積層、激活層和池化層交替4次組成編碼器。第一個(gè)卷積層采用64個(gè)卷積核,第二個(gè)卷積層采用32個(gè)卷積核,第三個(gè)卷積層采用16個(gè)卷積核,第四個(gè)卷積層采用8個(gè)卷積核,每個(gè)卷積層的卷積核大小都設(shè)置成3×3,激活層采用ReLU函數(shù)來(lái)激活,它能更好地增加模型的非線性,并簡(jiǎn)化模型來(lái)學(xué)習(xí)水聲信號(hào)中更復(fù)雜的關(guān)系。池化層采用最大池化來(lái)對(duì)特征進(jìn)行降維,同時(shí)降低卷積層對(duì)特征位置的敏感性。128×128×3的水聲Lofar譜圖經(jīng)過(guò)網(wǎng)絡(luò)1的編碼器后輸出被壓縮成16×16×8的特征,壓縮后的特征雖然保留了水聲信號(hào)中最重要的信息,但是大部分的細(xì)節(jié)信息都丟失了,這時(shí)需要解碼器來(lái)獲取更多水聲信號(hào)的細(xì)節(jié)信息。網(wǎng)絡(luò)2為模型結(jié)構(gòu)種的解碼器,主要由上采樣層、卷積層和激活層交替3次組成,其中每個(gè)上采樣層的窗口大小被設(shè)置成2×2。第一個(gè)卷積層采用8個(gè)卷積核,第二個(gè)卷積層采用16個(gè)卷積核,第三個(gè)卷積層采用3個(gè)卷積核,用于恢復(fù)水聲Lofar譜圖原RGB通道數(shù),每個(gè)卷積核的大小都設(shè)置為3×3。在訓(xùn)練前,對(duì)水聲Lofar譜數(shù)據(jù)集添加噪聲系數(shù)為0.15的隨機(jī)噪聲,這樣就能保證構(gòu)建的CDAE提取出水聲Lofar譜圖的穩(wěn)定特征。此外,為了適應(yīng)水聲信號(hào)自身的特點(diǎn),本文將CNN的結(jié)構(gòu)進(jìn)行了改進(jìn),設(shè)計(jì)了網(wǎng)絡(luò)3用于對(duì)水聲Lofar譜圖進(jìn)行分類(如表1所示),該網(wǎng)絡(luò)卷積層的卷積核設(shè)置成了w>h大小,提取水聲Lofar譜圖中穩(wěn)定的特征信息。由于本文使用的數(shù)據(jù)集樣本量較小,為了防止網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合,本文在全連接層的后面加入了Dropout層,以簡(jiǎn)化網(wǎng)絡(luò)模型的結(jié)構(gòu)。
表1 網(wǎng)絡(luò)3的CNN網(wǎng)絡(luò)模型結(jié)構(gòu)
圖5 CDAE-CNN網(wǎng)絡(luò)模型結(jié)構(gòu)圖
本文使用實(shí)測(cè)的水聲信號(hào)對(duì)方法的有效性進(jìn)行驗(yàn)證,現(xiàn)有數(shù)據(jù)的種類為A、B兩類目標(biāo),共713個(gè)樣本,每個(gè)數(shù)據(jù)樣本時(shí)長(zhǎng)10 s。首先對(duì)水聲原始音頻信號(hào)進(jìn)行FFT處理,得到Lofar譜數(shù)據(jù)集,將Lofar譜圖像結(jié)構(gòu)被統(tǒng)一調(diào)整成128×128×3。訓(xùn)練時(shí)將所有的數(shù)據(jù)隨機(jī)劃分為82%的訓(xùn)練集,為604個(gè)樣本,18%的測(cè)試集,為109個(gè)樣本,數(shù)據(jù)集情況如表2所示。
表2 水聲信號(hào)數(shù)據(jù)集
本文在TensorFlow框架下利用水聲Lofar譜數(shù)據(jù)集對(duì)設(shè)計(jì)的CNN、CDAE-CNN網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,訓(xùn)練學(xué)習(xí)率設(shè)置為0.000 5,動(dòng)量超參數(shù)設(shè)置為0.9,訓(xùn)練批次大小為16。
經(jīng)過(guò)100次的迭代后,分別得到CNN網(wǎng)絡(luò)模型和CDAE-CNN網(wǎng)絡(luò)模型的訓(xùn)練損失率(如圖6、圖7所示),水聲Lofar譜圖的識(shí)別測(cè)試準(zhǔn)確率如表3所示。
表3 不同方法的測(cè)試準(zhǔn)確率對(duì)比 %
圖6 CNN模型訓(xùn)練過(guò)程損失率曲線
圖7 CDAE-CNN模型訓(xùn)練過(guò)程損失率曲線
從圖6、圖7的模型訓(xùn)練損失率曲線中可以看出,CDAE-CNN模型的擬合效果較好,另外,從表3中可以看出,與CNN方法進(jìn)行對(duì)比,本文提出的CDAE-CNN模型的測(cè)試準(zhǔn)確率更高。
本文根據(jù)水聲信號(hào)的特點(diǎn),設(shè)計(jì)了卷積網(wǎng)絡(luò)與卷積去噪自編碼器的組合網(wǎng)絡(luò),通過(guò)卷積去噪自編碼器對(duì)輸入數(shù)據(jù)進(jìn)行降維和特征提取,將卷積神經(jīng)網(wǎng)絡(luò)中卷積核的形狀進(jìn)行了改進(jìn),以適應(yīng)水聲信號(hào)Lofar譜中頻率隨時(shí)間穩(wěn)定分布的特點(diǎn),提取出用于識(shí)別的更穩(wěn)定的特征。針對(duì)水聲數(shù)據(jù)集樣本量較小,模型容易出現(xiàn)過(guò)擬合的問(wèn)題,在CNN全連接層的后面加入了Dropout層,試驗(yàn)結(jié)果表明,本文提出的模型的總體測(cè)試準(zhǔn)確率為81.2%,性能高于CNN網(wǎng)絡(luò)。
本文的不足之處在于所使用的數(shù)據(jù)類型單一,數(shù)據(jù)集樣本量較少,下一步需繼續(xù)擴(kuò)充數(shù)據(jù)集,同時(shí)充分考慮海洋環(huán)境對(duì)數(shù)據(jù)集的影響,不斷優(yōu)化網(wǎng)絡(luò)模型參數(shù),提升模型的泛化性能。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2023年11期