徐承,李勇,張夢,汪小斌,方磊
(合肥訊飛數(shù)碼科技有限公司,安徽 合肥 230088)
近年,水聲目標識別技術(shù)作為一個重要的熱點方向被廣泛研究。水聲目標識別任務因其復雜性成為長期攻而不克的技術(shù)難題,主要原因有:1)水聲目標識別需求的是從船舶的功能或用途來分類,如專用船舶、商船,而技術(shù)分類只能從其輻射噪聲的差異來進行,存在可分性問題;2)船舶工況復雜;3)海洋環(huán)境對船舶輻射噪聲特征具有重要影響;4)目標的主動隱藏特性使得識別特征數(shù)據(jù)庫建立困難;5)聲納信息獲取能力先天不足;6)對抗性使問題進一步復雜化[1]。
水下目標識別(Underwater Acoustic Target Recognition,UATR)任務可以分為基于主動聲納的目標識別任務和基于被動聲納的目標識別任務,本文將基于被動聲納獲取的目標輻射噪聲開展相應的UATR 研究工作。水下目標輻射的噪聲主要由機械噪聲、螺旋槳噪聲和水動力噪聲共同組成,需要通過分析聲源屬性,提取目標的固有特征,進而進行分類識別?;趥鹘y(tǒng)的UATR 方法獲取到的特征表達能力不足,導致模型識別率低,泛化性和魯棒性整體表現(xiàn)較差,因此研究如何提升UATR 效果是非常必要的。
針對上述問題,本文提出一種基于注意力機制的多特征融合網(wǎng)絡模型識別方法,通過引入基于數(shù)據(jù)驅(qū)動的無監(jiān)督學習特征彌補傳統(tǒng)低頻線譜[1](Low Frequency Analysis Record,LOFAR)和梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征在場景失配下的不足。首先基于注意力機制獲取多種特征的權(quán)重,在特征空間維度進行加權(quán)融合,獲得表征能力更強的融合特征,然后使用Transformer 結(jié)構(gòu)對不同時刻的融合特征相互計算注意力得分,進而完成隱空間特征的提取。通過實驗證明本文方法取得較好的目標識別準確率。
水下目標識別任務一直以來是各國研究的重點工作,近30 年來,隨著信號處理、人工智能技術(shù)的不斷發(fā)展,UATR 技術(shù)不斷得到發(fā)展,主要分為傳統(tǒng)的UATR 技術(shù)和基于深度學習的UATR 技術(shù)[1]。
傳統(tǒng)的UATR 技術(shù)將整體任務主要分成特征選擇和分類器設計兩個部分,且特征選擇技術(shù)被認為是UATR 任務中更為重要的部分。傳統(tǒng)的UATR 技術(shù)中特征提取的方式多種多樣,其最主要的特征提取方式是獲取目標信號的譜特征,整體可分為2 類,即物理意義明確的特征量和具有統(tǒng)計意義的特征量。物理意義明確的特征有:螺旋槳轉(zhuǎn)速、槳葉數(shù)、推進器類型等特征,具有統(tǒng)計意義的特征有:譜中心、譜帶寬、譜形等[1]。邱政[2]等人利用小波變換進行 調(diào) 制 譜(Detection of Envelope Modulation on Noise,DEMON)融合獲取更為明顯的線譜,再通過頻域周期法最終提取到可靠的線譜。Jiang[3]詳細分析了水聲目標數(shù)據(jù)的過零率、譜中心、MFCC 等多種特征在水聲數(shù)據(jù)中的應用,對每種特征的表現(xiàn)進行可解釋性分析和整體分布對比統(tǒng)計,并在分類識別任務上驗證工作。傳統(tǒng)的UATR 的分類器設計主要有:模板匹配、近鄰分類器、支持向量機等方法[1]。傳統(tǒng)的UATR 技術(shù)可以獲取到具有可解釋性的特征,針對在一定條件下獲取到的數(shù)據(jù)可以提取出具有區(qū)分性的特征,但是由于不同海域的背景噪聲不同、海底地形不同導致不同的多途效應、專用船舶隱身技術(shù)的發(fā)展等因素,使得基于傳統(tǒng)方法難以獲取到有效的線譜特征,導致整體系統(tǒng)泛化性和魯棒性表現(xiàn)較差。
由于傳統(tǒng)UATR 技術(shù)的不足,基于深度學習方法的UATR 技術(shù)不斷被提出,且取得了較好的效果[4]。Hu[5]使用卷積層作為特征提取器,后端連接極限學習機構(gòu)建整體的網(wǎng)絡結(jié)構(gòu),將得到的結(jié)果與傳統(tǒng)的MFCC 和希爾伯特-黃系數(shù)特征(Hilbert-Huang Feature)進行對比,所提出的網(wǎng)絡結(jié)構(gòu)得到了更好的識別準確率。王升貴[6]等人采用CNN網(wǎng)絡對目標輻射噪聲的LOFAR 譜圖進行分類識別,一定程度上解決傳統(tǒng)水下目標識別依賴先驗知識問題嚴重、識別率較低的問題。張健[7]首先研究了基于MFCC 特征的傳統(tǒng)UATR 方法,同時采用基于諧振的稀疏信號分解方法獲取更為純凈的高諧振分量信號。針對UATR 的小樣本問題,曹[8]提出一種深度卷積孿生網(wǎng)絡,采用目標輻射噪聲數(shù)據(jù)所提取出的DEMON 譜特征進行分類識別,在不同多普勒頻移和信噪比加噪的數(shù)據(jù)上驗證分類識別效果(但該方法需構(gòu)造大量復雜正負樣本對,且DEMON 譜中主要含有的信息為目標軸頻和槳葉數(shù)信息,可區(qū)分性信息較少,在復雜海洋環(huán)境場景下表征性受限)。Sang[9]針對水下目標識別任務,提出了一種稠密卷積網(wǎng)絡模型,利用不同網(wǎng)絡層提取出的特征,文中通過與支持向量機、K 近鄰算法等多種傳統(tǒng)機器學習算法,以及CNN-ELM、ResNet18 等多種深度學習算法進行對比,驗證所提算法的有效性。Yang 等人將深度長短時記憶網(wǎng)絡和深度自編碼網(wǎng)絡結(jié)合起來,使用數(shù)據(jù)進行無監(jiān)督訓練,將高維數(shù)據(jù)壓縮到更緊湊的隱空間中,在完成自編碼網(wǎng)絡的訓練之后,使用全連接層替換掉網(wǎng)絡中的解碼部分構(gòu)成最終的網(wǎng)絡結(jié)構(gòu),最后使用數(shù)據(jù)對網(wǎng)絡進行訓練獲取到最終的模型,驗證了方法的有效性[10]。Luo 等人提出基于受限玻爾茲曼機和全連接網(wǎng)絡相結(jié)合的網(wǎng)絡結(jié)構(gòu)形式進行UATR 任務,通過受限玻爾茲曼機構(gòu)建自編碼網(wǎng)絡的構(gòu)建,在網(wǎng)絡充分訓練之后使用全連接層替換掉自編碼網(wǎng)絡中解碼部分,形成網(wǎng)絡的最終結(jié)構(gòu)形式[11]。Jin 等人針對小樣本問題,使用生成對抗網(wǎng)絡完成數(shù)據(jù)的增廣,提高模型的識別效果[12]。Xiao等人基于注意力機制搭建了深度神經(jīng)網(wǎng)絡,使用低頻段的頻譜數(shù)據(jù)作為網(wǎng)絡的輸入特征進行分類識別工作,最后對網(wǎng)絡中輸入特征的不同頻率分量的注意力權(quán)重進行可視化分析,以分析不同頻率點對整體網(wǎng)絡分類效果的貢獻[13]。Luo 等人采用多窗譜圖分析方法,解決傳統(tǒng)時頻分析方法難以同時提取多個信號特征的問題,將多窗獲取的不同分辨率的譜圖作為分類器的特征,并使用對抗生成網(wǎng)絡進行數(shù)據(jù)增廣,得到較高的識別效果[14]。
目前傳統(tǒng)的目標識別方法主要利用基于具有物理含義的譜特征和經(jīng)典聲學特征,并已證明其有效性,但此類特征一般是建立在一定假設的基礎之上,在假設條件不成立時會導致失配。大量的研究表明特征融合的方式可以得到更加全面的數(shù)據(jù)表示,進而獲取到更具代表性的空間特征[15-17],因此本文引入對比預測編碼(Contrastive Predictive Coding,CPC)無監(jiān)督特征并與LOFAR、MFCC 特征使用自注意力機制進行融合,提升對數(shù)據(jù)的整體表征能力。同時考慮到水聲目標信號是時序信號,不同時刻的特征之間存在一定的相關(guān)性,本文引入基于Transformer 結(jié)構(gòu)的ViT(Vision Transformer)網(wǎng)絡對水聲數(shù)據(jù)在時間維度上進行特征整合,達到抑制噪聲信息干擾、提升弱信息表征能力的目的,從而提升識別系統(tǒng)的整體性能[18]。
LOFAR 譜作為UATR 任務的傳統(tǒng)特征被廣泛應用,其線譜具有明確的物理意義,不同目標的LOFAR 譜不同,具有較好的可區(qū)分性,聲吶員經(jīng)過訓練后,可以通過人耳聽聲對目標進行識別。MFCC 作為一種可以較好地模擬人耳響應的經(jīng)典聲學特征被廣泛地應用到語音識別任務當中,也被應用到UATR 任務當中。CPC 特征作為一種無監(jiān)督特征被成功應用到自然語音處理、圖像識別、語音識別領域,該方法是將高維信號壓縮到更加緊湊的隱空間中,在抽取高維信號不同部分的基礎共享特征的同時,丟棄掉更底層的低級信息和噪聲,獲取到數(shù)據(jù)中更具表征性的信息。本文基于無監(jiān)督學習的CPC 特征,結(jié)合傳統(tǒng)LOFAR 譜和MFCC 經(jīng)典聲學特征,引入注意力機制,獲取魯棒性更強的弱信息識別特征
LOFAR 譜是一種在短時傅里葉變換基礎之上產(chǎn)生的特征。該特征可反映信號非平穩(wěn)特性,常被聲吶員用于判斷目標是否存在以及判斷其目標類型,其主要由離散的線譜和連續(xù)譜組成。由于其線譜具有顯著的聲源信息且信噪比較高,被廣泛應用到UATR 任務當中[7]。LOFAR譜提取具體包括以下幾個步驟。
(1)分幀。由于水下目標信號具有非平穩(wěn)特點,需先將音頻數(shù)據(jù)分幀,分幀后獲取的較短時間長度的音頻可假設處于穩(wěn)定狀態(tài),分幀長度需包含信號的周期信息。每幀數(shù)據(jù)之間應有一定的數(shù)據(jù)重疊,可根據(jù)任務特點確定分幀及相鄰幀之間的重疊長度。
(2)去均值。對每幀信號去除均值的影響,以消除聲納在錄制過程中產(chǎn)生的直流分量。
(3)幅值規(guī)整。幅值規(guī)整即將數(shù)據(jù)規(guī)整到[-1,1] 范圍內(nèi),使得接收到的信號幅度(或方差)在時間維度上分布均勻。
(4)加窗。由于對截取數(shù)據(jù)直接采用FFT 算法易導致能量泄露問題,故采用加窗算法,可使得信號兩端幅值平滑趨向于零,常采用以下窗函數(shù):漢明窗、海寧窗等[6]:
(5)傅里葉變換。即對加窗后的信號進行FFT 變換。
(6)求對數(shù)譜。該步驟可選,通過計算獲取到的頻譜數(shù)據(jù)幅值的對數(shù)值,相對降低頻譜數(shù)據(jù)中的高幅值部分,使頻譜能量分布更為緊湊。
MFCC 特征是一種能夠較好模擬人耳響應、被廣泛用于解決語音識別問題的特征,該特征同樣也可應用于UATR 任務中[7,16]。當?shù)陀? 000 Hz 時,人耳對于頻率的響應呈線性關(guān)系,當高于1 000 Hz 時呈對數(shù)關(guān)系。Mel 頻率尺度從該角度出發(fā),可整體性描述人耳聽覺感知關(guān)系,從而推出Mel 頻率與人耳感知頻率之間的線性映射關(guān)系,并進一步設計Mel 濾波器組。首先,通過使用Mel 濾波器組中不同的三角濾波器計算出其對應頻率區(qū)間內(nèi)的能量總和;其次,取對數(shù)并按照Mel 濾波器組中各個濾波器的排列順序拼接為向量;最后,通過離散余弦變換(Discrete Cosine Transform,DCT),即可得到MFCC 特征。
MFCC 特征提取過程中分幀信號、加窗和FFT 步驟同LOFAR 譜中對應一致,其關(guān)鍵內(nèi)容在于采用設計的Mel 濾波器組對傅里葉變換之后的頻率數(shù)據(jù)進行加權(quán)求和的過程。使用Meli表示Mel 濾波器組中第i個濾波器,可得到該濾波器下的能量Ei[19]:
獲取Mel 能量譜之后,對其進行離散余弦變換,即可得到MFCC 系數(shù):
其中,r表示MFCC 系數(shù)的階數(shù)。
CPC 網(wǎng)絡是一種無監(jiān)督學習算法模型,該算法將高維數(shù)據(jù)中不同部分的基礎共享特征進行抽取的同時,還可對低級信息和噪聲起到一定的抑制作用,最終該網(wǎng)絡將基礎共享特征壓縮到更加緊湊的低維度的隱空間中[20]。CPC 網(wǎng)絡的結(jié)構(gòu)如圖1 所示:
圖1 CPC網(wǎng)絡結(jié)構(gòu)
CPC 特征提取的步驟如下:
(1)分幀。對音頻數(shù)據(jù)按照一定的窗長進行分幀。
(2)特征提取。CPC 網(wǎng)絡中使用CNN 結(jié)構(gòu)的編碼器(CNN Encoder)進行特征提取,得到不同時刻幀的特征ft。
(3)構(gòu)建上下文表示。按照一定規(guī)則選擇時間t,進而將該時刻及其之前的特征送入自回歸模型GRU 網(wǎng)絡中,最終構(gòu)建出t時刻的上下文表示Ct。
(4)預測。根據(jù)設定的時間步長,使用Ct預測t時刻之后固定時間步長之內(nèi)的特征表示。
(5)網(wǎng)絡更新。通過上述4 個步驟完成CPC 網(wǎng)絡的前向計算過程,通過上下文表示預測出的特征與使用編碼器提取的特征進行對比,計算得出損失值,完成參數(shù)更新。
典型的聲學特征建立在一定的假設基礎之上,由于水聲環(huán)境極其復雜,在環(huán)境失配的條件下,表現(xiàn)效果較差。鑒于此,本文基于CPC 特征,融合LOFAR 譜和MFCC 傳統(tǒng)經(jīng)典聲學特征的優(yōu)點,引入注意力機制,通過網(wǎng)絡結(jié)構(gòu)自適應的模式實現(xiàn)三種特征有效信息的提取與融合,獲得表征能力更強的融合特征,從而提升后端識別網(wǎng)絡的識別性能
LOFAR、MFCC 和CPC 三種不同的特征所包含的信息可以相互補充,提升對數(shù)據(jù)的整體表征能力,但每種特征中會包含冗余信息,可通過注意力機制對冗余信息進行抑制并增強有用信息。本文采用基于注意力機制的特征融合模塊完成三種特征有效信息的抽取和融合,其模塊結(jié)構(gòu)如圖2 所示。其中LOFAR 特征和CPC 特征都是768 維,而MFCC 特征是13 維,為保證特征維數(shù)相同,通過將MFCC 特征進行復制拼接,得到768 維的MFCC 特征。
圖2 基于注意力機制的特征融合模塊結(jié)構(gòu)圖
具體融合流程如下:
(1)對三種特征經(jīng)過結(jié)構(gòu)相同的特征權(quán)重提取網(wǎng)絡完成特征點權(quán)重向量提取,特征權(quán)重提取網(wǎng)絡主要由2 個CNN 網(wǎng)絡層和1 個Softmax 組成。第一個CNN 網(wǎng)絡層為8 個單通道的1×1 大小的卷積核,將特征映射到不同的8個特征空間中,以充分挖掘原特征中的信息;第二個CNN網(wǎng)絡層為1 個8 通道的1×1 大小的卷積核,該網(wǎng)絡層對獲取到的多通道特征進行整合,壓縮到一個通道中;再使用Softmax 對整合的特征中每個特征點計算其對應得分,得到三種特征對應的權(quán)重向量。特征權(quán)重向量中每個位置的得分代表對應原特征中的特征點對整體網(wǎng)絡的貢獻。
(2)用特征權(quán)重向量與原始特征的對應位置相乘,得到基于注意力機制加權(quán)的特征。該特征可有效地將注意力集中到原始特征中有用的特征信息,同時抑制噪聲信息,加快網(wǎng)絡的收斂速度,提升網(wǎng)絡的整體效果。
(3)使用包含2 個CNN 層的網(wǎng)絡對加權(quán)特征進行融合。第一個CNN 網(wǎng)絡層為8 個3 通道1×1 大小的卷積核,主要用于將不同加權(quán)后的特征進行融合后映射到8 個不同的特征空間,再使用1 個8 通道1×1 大小的卷積核進行特征融合,得到最終的LOFAR、MFCC 和CPC 融合特征。
針對UATR 任務,不同類別目標數(shù)據(jù)中含有特定的特征信息,同時也包含大量的無關(guān)信息,通過注意力機制可以獲取重點需要關(guān)注的特征點,從而加快網(wǎng)絡的收斂速度,提升網(wǎng)絡的整體效果。在得到LOFAR、MFCC 和CPC 融合特征后,本文采用基于Transformer 的網(wǎng)絡結(jié)構(gòu)的ViT 模塊進一步在時間維度上對不同幀特征進行相關(guān)性計算和深度特征融合,最終構(gòu)建水聲特征空間到類別空間的映射關(guān)系,完成目標識別任務。
ViT 網(wǎng)絡是Transformer 結(jié)構(gòu)在圖像領域中的成功應用,通過將圖像不同位置的區(qū)域塊輸入Transformer 的編碼器部分,計算圖像不同部分之間的注意力得分,完成不同空間數(shù)據(jù)的特征提取和融合,再使用全連接層完成分類任務。ViT 網(wǎng)絡利用自注意力機制捕獲圖像特征中的長距離依賴關(guān)系,使得提取的特征中考量了所有圖像區(qū)域的特征信息,獲取到全局信息。鑒于水聲數(shù)據(jù)是時序數(shù)據(jù),可基于ViT 網(wǎng)絡并行對數(shù)據(jù)中不同時間維度的特征計算相關(guān)性,進而得到更具表達能力深層次的表征信息。
根據(jù)ViT 網(wǎng)絡特點,本文中ViT 模塊的輸入為水聲數(shù)據(jù)所提取每幀的768 維融合特征,將其類符號向量拼接后再與幀位置編碼相加,可得到編碼模塊(Encoder block)的輸入數(shù)據(jù)。先通過編碼模塊對數(shù)據(jù)計算注意力得分并完成特征融合,再經(jīng)過全連接層得到分類結(jié)果。
水聲識別網(wǎng)絡架構(gòu)的設計需要在提取數(shù)據(jù)基礎特征的同時,構(gòu)建具有分類意義的弱特征提取機制,其本質(zhì)是建立數(shù)據(jù)表征信息的抽取和分析能力。不同特征的表征方式,分別建立在不同的假設的基礎上,因此單一類型的特征形式對于復雜的水聲數(shù)據(jù)難以全面獲取到具有分類意義的表示信息,若選擇的網(wǎng)絡模型與水聲特征之間存在失配,則難以構(gòu)建水聲特征到類別之間的映射關(guān)系。本文在分析水聲數(shù)據(jù)特點的基礎上,提出基于注意力機制的特征融合的ViT 網(wǎng)絡結(jié)構(gòu)(FFVNAM,F(xiàn)eature Fusion ViT Network based on Attention Mechanism),采用多種不同領域的特征補充單一領域特征的表征局限性問題,同時考慮特征與模型之間的適配性問題,引入Transformer 構(gòu)建水聲識別網(wǎng)絡架構(gòu),在時間維度上對不同特征之間的相關(guān)性進行計算及融合,使得特征與網(wǎng)絡模型之間更加適配。整體網(wǎng)絡結(jié)構(gòu)如圖3 所示。
由圖3 可知,將每幀水聲數(shù)據(jù)的三種不同特征采用注意力機制進行特征融合,可得到更具表征性的融合特征。該操作是在特征維度進行,幀間特征信息不共享。所獲得的融合特征,既能提取并結(jié)合幀內(nèi)不同特征的有效信息,又能抑制對分類效果產(chǎn)生干擾的噪聲信息。
圖3 基于注意力機制的特征融合的ViT網(wǎng)絡結(jié)構(gòu)圖
雖然不同幀的融合特征可抽取出對應幀數(shù)據(jù)的特征信息,但并不包含幀之間的時間位置信息,所以,可通過將幀位置編碼向量加入到融合特征中以獲取到時間信息,從而豐富融合特征攜帶的信息量。此外,采用自注意力機制計算不同時間特征的相關(guān)性,從時間維度建立不同時刻間的特征提取機制,通過對特征不同層面的分解和融合,實現(xiàn)識別效果的整體提升。通過將特征融合模塊和識別分類模型進行整合,完成特征融合模塊中參數(shù)的自動更新,有效解決特征與分類模型之間的失配問題。
由于網(wǎng)絡模型的復雜度主要受網(wǎng)絡深度影響,故本文模型的復雜度由編碼模塊的數(shù)量決定。即編碼模塊數(shù)量越多,模型的擬合能力就越強。但是,由于水聲目標數(shù)據(jù)集有限,數(shù)量過多的編碼模塊易導致過擬合現(xiàn)象,經(jīng)過實驗確定,當編碼模塊和多頭個數(shù)均為2 時,既能保障模型具有強擬合能力,同時一定程度上避免模型的過擬合現(xiàn)象。
本文基于真實水聲數(shù)據(jù)開展相關(guān)實驗。首先,將CPC模型在水聲領域訓練集上完成訓練任務,訓練完成后得到的CPC 網(wǎng)絡可對輸入的水聲數(shù)據(jù)提取對應的CPC 特征。其次,分別使用LOFAR 特征、MFCC 特征和CPC 特征在ResNet32 和ViT 網(wǎng)絡上分別進行訓練和測試,通過測試集結(jié)果對比,即可驗證Transformer 結(jié)構(gòu)在UATR 任務上的適用性以及高效性。最后,分別使用單特征和融合特征在ResNet32 和FFVNAM 網(wǎng)絡上進行實驗,通過對比實驗結(jié)果,驗證融合特征和FFVNAM 網(wǎng)絡結(jié)構(gòu)的有效性。
本數(shù)據(jù)集綜合近幾年在不同海域錄制的數(shù)據(jù),數(shù)據(jù)樣本涵蓋的聲納類型、錄制海域、采樣率、格式等均不盡相同。本次任務將所有數(shù)據(jù)集分成三種類別:A 類、B 類和C 類。其中A 類為商船,B 類為漁船,C 類為專用船舶。每種類別的數(shù)據(jù)中涵蓋多種用途的船舶輻射噪聲數(shù)據(jù)。例如,A 類數(shù)據(jù)為商船類型,包括散貨船、油船等類型。
本文中,將每個音頻樣本的錄制時間分割為4 s,不同樣本之間的數(shù)據(jù)相互獨立,每個場景下錄制的樣本數(shù)范圍為15 到100 條。首先,需將數(shù)據(jù)格式和采樣率統(tǒng)一為:數(shù)據(jù)格式wav,采樣率16 k/16 bit;其次,將數(shù)據(jù)集隨機打亂順序,并按8:2 比例劃分為訓練集和測試集,其中訓練集和測試集中一般存在同源樣本數(shù)據(jù)。各類別數(shù)據(jù)具體分布情況如表1 所示:
表1 數(shù)據(jù)集分布情況表
為驗證上述融合特征方案的合理性與先進性,針對UATR 任務,首先基于傳統(tǒng)特征來驗證確認后端識別網(wǎng)絡的先進性,然后基于確定的后端識別網(wǎng)絡來對比融合特征的創(chuàng)新性與先進性。設計以下實驗:(1)基于傳統(tǒng)特征的VIT 后端識別網(wǎng)絡對比驗證;(2)基于融合特征的改進型VIT 后端識別(FFVNAM)網(wǎng)絡對比實驗。
(1)基于傳統(tǒng)特征的VIT 后端識別網(wǎng)絡對比驗證
本節(jié)采用LOFAR、MFCC 和CPC 特征在ResNet32和ViT 網(wǎng)絡分別進行實驗,不僅驗證了基于Transformer結(jié)構(gòu)的ViT 網(wǎng)絡的有效性,此外還驗證了CPC 特征的有效性。實驗中所用數(shù)據(jù)采用4.1 節(jié)中介紹的數(shù)據(jù)集。
首先,使用訓練集完成CPC 網(wǎng)絡的訓練工作,訓練參數(shù)設置批量大小為64,訓練代數(shù)為400 代,測試集在最優(yōu)模型的識別準確率為93.95%。
其次,針對每個樣本數(shù)據(jù)采用1 s 窗長和0.032 s 窗移獲取每幀數(shù)據(jù),并分別提取LOFAR、MFCC 和CPC特征,實驗結(jié)果如表2 所示:
表2 各單類型特征分別在ResNet32和ViT網(wǎng)絡上的實驗結(jié)果對比
通過表2 可看出,基于CPC 特征在ResNet32 和ViT網(wǎng)絡上均表現(xiàn)出較高的識別準確率,表明了CPC 特征在UATR 任務中的適用性和有效性。CPC 特征在ResNet32和ViT 網(wǎng)絡中的識別率基本相同。但是,采用LOFAR 特征在ViT 網(wǎng)絡上的準確率比在ResNet32 網(wǎng)絡上高5.45個百分點,采用MFCC 特征則高2.25 個百分點,該實驗結(jié)果說明了ViT 網(wǎng)絡的相對先進性。
圖4 顯示了測試集在每組實驗上的準確率曲線:
圖4 各組實驗對應的測試集準確率曲線圖
從圖4 中可以看出,當使用MFCC 特征時,ViT網(wǎng)絡的準確率曲線相對優(yōu)于ResNet32 網(wǎng)絡;當使用LOFAR 特征時,ViT 網(wǎng)絡的準確率曲線不僅明顯高于ResNet32 網(wǎng)絡,且具有更好的穩(wěn)定性;當使用CPC 特征時,ViT 和ResNet32 網(wǎng)絡均表現(xiàn)出較高的準確率,且網(wǎng)絡模型迭代到約40 次時基本達到收斂,進一步證明了CPC 特征在UATR 領域的優(yōu)越性。
此外,基于LOFAR 特征的ResNet32 網(wǎng)絡在訓練過程,準確率曲線出現(xiàn)大幅振蕩,其主要原因在于水聲數(shù)據(jù)缺少。模型在學習過程中,當驗證數(shù)據(jù)與訓練數(shù)據(jù)匹配時,精度較高,失配時則會顯著下降,造成訓練過程中的強烈抖動現(xiàn)象。
(2)基于融合特征的改進型VIT 后端識別(FFVNAM)網(wǎng)絡對比實驗
本節(jié)通過單類型特征和融合特征之間的對比實驗,驗證基于LOFAR、MFCC 和CPC 特征的融合特征的有效性,并再次驗證了本文提出的FFVNAM 網(wǎng)絡相對ResNet32網(wǎng)絡結(jié)構(gòu)表現(xiàn)更優(yōu)。具體實驗結(jié)果如表3 所示:
表3 分別采用融合特征及單類型特征在不同網(wǎng)絡結(jié)構(gòu)下的實驗結(jié)果對比
由表3 前4 組實驗可知,本文基于特征融合的網(wǎng)絡架構(gòu)FFVNAM 網(wǎng)絡的識別率為99.60%,比ViT 網(wǎng)絡中采用單類型特征的最優(yōu)效果絕對提升了1.2%;對比后2組實驗,在均使用融合特征的條件下,F(xiàn)FVNAM 網(wǎng)絡的準確率比ResNet32 網(wǎng)絡高0.4 個百分點,進一步證明了本文提出的FFVNAM 網(wǎng)絡結(jié)構(gòu)的有效性。
5 組實驗在訓練過程中,測試集的準確率曲線變化如圖5 所示。
由圖5 可知,基于特征融合的ResNet32 網(wǎng)絡準確率曲線在整個過程中振蕩劇烈,主要原因在于:融合特征受到LOFAR 特征影響,易降低網(wǎng)絡穩(wěn)定性。
圖5 各組實驗對應的測試集準確率曲線圖
基于Transformer 結(jié)構(gòu)的ViT 和FFVNAM 網(wǎng)絡在迭代到40 代時基本已達到收斂狀態(tài)。當?shù)螖?shù)大于40時,基于FFVNAM 網(wǎng)絡的準確率始終高于其他組,表明FFVNAM 結(jié)構(gòu)具有有效性及較強的魯棒性。
為提升對水聲數(shù)據(jù)的特征表達,解決傳統(tǒng)特征在復雜場景下的失配問題,本文提出一種基于注意力機制的多特征融合算法,該方法利用特征空間信息,使用注意力機制獲取到每個特征中各分量對于有效特征的貢獻得分,獲取更具表征性的融合特征,基于該融合特征能夠獲取到較好的識別效果。同時從時間維度考慮,引入Transformer 結(jié)構(gòu)以充分利用數(shù)據(jù)中不同時刻間特征的相關(guān)性,實現(xiàn)全局信息共享,加快了模型的收斂速度并提高了模型的穩(wěn)定性,有效提升了UATR 任務的識別率。
盡管通過本文算法可整體提升實驗效果,但仍有如下問題有待深入研究:1)文中使用的訓練集和測試集存在同源問題,但實際場景中,獲取的數(shù)據(jù)樣本涵蓋的聲納類型、錄制海域、目標工況不盡相同,易導致測試數(shù)據(jù)與訓練數(shù)據(jù)不匹配,影響實際應用效果;2)隨著降噪隱身技術(shù)的發(fā)展,目標輻射噪聲信號被海洋環(huán)境噪聲淹沒,在此場景下如何從其中提取出有效的信息表征有待深入研究。