徐 晶 張譯方 邱光輝 張生杰 徐才進(jìn)
(西南電子設(shè)備研究所 成都 610036)
雷達(dá)輻射源識別是電子偵察的重要環(huán)節(jié),在信號分選基礎(chǔ)上,對偵收的雷達(dá)參數(shù)進(jìn)行分析,完成對雷達(dá)型號甚至個體的準(zhǔn)確判識,為作戰(zhàn)籌劃、戰(zhàn)術(shù)決策等提供重要的情報支撐[1]。
近年來,隨著雷達(dá)技術(shù)體制不斷升級更新,現(xiàn)代作戰(zhàn)空間呈現(xiàn)電磁信號數(shù)量繁多、密級重疊、動態(tài)交疊、樣式變化快的特點(diǎn)。大數(shù)據(jù)人工智能技術(shù)的發(fā)展,為雷達(dá)輻射源識別帶來了新的思路:基于大量偵收數(shù)據(jù),通過機(jī)器學(xué)習(xí)訓(xùn)練方法,自動完成對雷達(dá)特征的提取及識別空間的構(gòu)建,以此解決對新體制、多功能雷達(dá)的準(zhǔn)確判識。常見的智能化雷達(dá)輻射源識別有基于機(jī)器學(xué)習(xí)的識別方法[1]及基于神經(jīng)網(wǎng)絡(luò)的識別方法[3-4]。另一方面,受實(shí)戰(zhàn)環(huán)境、戰(zhàn)術(shù)使用及技術(shù)條件的限制,雷達(dá)輻射源識別所面臨的信號是一種“小樣本空間”[5],對應(yīng)的數(shù)據(jù)存在完備性不足、連續(xù)性差、類別不均衡的缺點(diǎn),基于數(shù)據(jù)驅(qū)動的人工智能識別方法存在對訓(xùn)練數(shù)據(jù)過擬合、泛化能力差、魯棒性不足的問題,造成人工智能技術(shù)無法良好適應(yīng)于電子戰(zhàn)系統(tǒng)和裝備的應(yīng)用。
為解決上述問題,本文提出針對偵察低截獲雷達(dá)的型號識別技術(shù),具體地,提出基于K-means和組合采樣的樣本擴(kuò)展技術(shù),實(shí)現(xiàn)對小樣本類別數(shù)據(jù)的擴(kuò)展,達(dá)到不同類別數(shù)據(jù)的樣本均衡,以此解決基于機(jī)器學(xué)習(xí)的雷達(dá)型號識別技術(shù)對大樣本數(shù)據(jù)過擬合的問題,提高模型的泛化能力,提升對偵察低截獲雷達(dá)的型號識別準(zhǔn)確度。
本文提出一種針對低偵察目標(biāo)的雷達(dá)型號識別技術(shù)框架,如圖1所示。在已有智能處理識別基礎(chǔ)上,增加基于K-means和組合采樣的樣本均衡技術(shù):首先,運(yùn)用K-means算法對各型號樣本進(jìn)行聚小類處理;進(jìn)一步,對于樣本數(shù)量少的小類,運(yùn)用SMOTE方法進(jìn)行樣本擴(kuò)充,對于樣本數(shù)量過多的小類,運(yùn)用隨機(jī)采樣方法進(jìn)行樣本抽樣。以此形成數(shù)量充足、分布均衡的樣本數(shù)據(jù),達(dá)到對機(jī)器學(xué)習(xí)算法的充分訓(xùn)練,形成泛化能力更強(qiáng)、適應(yīng)性更廣的智能識別模型,解決運(yùn)用人工智能方法對偵察低截獲雷達(dá)型號識別率低的問題,提升電子戰(zhàn)系統(tǒng)或裝備對威脅電子目標(biāo)的識別效果。
圖1 針對偵察低截獲雷達(dá)的型號識別框架
受限于戰(zhàn)場環(huán)境和偵收條件,所收集的雷達(dá)型號樣本數(shù)據(jù)往往存在類別不均衡的現(xiàn)象。因此,雷達(dá)型號識別問題屬于不平衡分類問題,導(dǎo)致運(yùn)用基于機(jī)器學(xué)習(xí)方法的識別結(jié)果向樣本數(shù)量多的類別傾斜,而忽略樣本少的類別,造成整體分類效果不理想。
針對上述問題,提出一種基于K-means和組合采樣的樣本均衡方法,用以對雷達(dá)型號樣本庫進(jìn)行均衡處理,以此降低由于樣本不均衡造成識別準(zhǔn)確度低的問題,以二分類為例,所提出的技術(shù)識別流程如圖2所示。
圖2 基于組合樣本采樣的識別流程圖
SMOTE是一種被廣泛應(yīng)用于不平衡分類問題的數(shù)據(jù)預(yù)處理方法[6]。SMOTE基本思想是在每個少數(shù)類樣本和K個類內(nèi)近鄰樣本之間線性插值,隨機(jī)地生成一個新樣本。因為合成的樣本是兩個樣本間的隨機(jī)值,所以能有效增加少數(shù)類樣本多樣性,解決了由隨機(jī)過采樣導(dǎo)致的過擬合問題。SMOTE原理如圖3所示。
圖3 SMOTE算法說明圖
SMOTE算法運(yùn)用K-NN算法計算近鄰,K-NN分類算法是數(shù)據(jù)挖掘領(lǐng)域一種非常成熟而典型的分類方法,具有思路簡單、易于實(shí)現(xiàn)的優(yōu)點(diǎn),同時往往具有較高的分類準(zhǔn)確率。算法基本思路是給定含有類別標(biāo)簽的標(biāo)記樣本集,對于無標(biāo)簽的待測樣本,計算其與所有已標(biāo)記樣本集中所有樣本的距離,選擇聚類最近的K個樣本作為近鄰,然后根據(jù)這K個近鄰樣本的類別標(biāo)簽,采用少數(shù)服從多數(shù)的原則對待測樣本進(jìn)行類別標(biāo)注。
SMOTE的基本步驟為:
首先,利用K-NN算法,在類內(nèi)尋找少數(shù)類樣本Xi的K個近鄰樣本,作為合成新樣本的根樣本,樣本間的相似性度量用歐氏距離來表示為
(1)
然后,從K個根樣本中隨機(jī)選擇一個作為合成樣本的輔助樣本,重復(fù)n次,在Xi和每個輔助樣本Xij之間進(jìn)行線性插值,最終得到n個新合成樣本。線性插值可表示為
Xnew=Xi+(Xi-Xij)·γ
(2)
其中,Xi是原有樣本;Xij是近鄰樣本,j=1,2,…,K;γ是[0,1]之間的隨機(jī)數(shù);Xnew是新合成的樣本。
新體制、多功能雷達(dá)呈現(xiàn)模式多樣、頻率捷變快、參數(shù)變化多的特點(diǎn)。同一雷達(dá)型號的樣本數(shù)據(jù)呈現(xiàn)離散程度高,分布不平衡的特點(diǎn)。如機(jī)載相控陣?yán)走_(dá),大部分時間工作于搜索或跟蹤模式,造成我方偵收、處理形成的參數(shù)大多為上述兩種模式的樣本,而缺少LPI、頻率分集等特殊運(yùn)用模式的樣本。造成同一雷達(dá)型號的樣本數(shù)據(jù)呈現(xiàn)出類內(nèi)不均衡的特點(diǎn)。
如果直接運(yùn)用SMOTE方法對上述類內(nèi)不均衡的樣本進(jìn)行采樣,所形成的樣本數(shù)據(jù)分布無法擬合真實(shí)的樣本分布情況,難以全面刻畫雷達(dá)型號的樣本特征,造成對LPI等特殊模式下雷達(dá)的識別準(zhǔn)確度低。直接運(yùn)用SMOTE擴(kuò)增造成識別錯誤的示意如圖4所示。
圖4 類內(nèi)不均衡導(dǎo)致識別錯誤示意
針對上述問題,本文提出結(jié)合K-means和SMOTE的樣本均衡方法。運(yùn)用K-means方法對不同類別的雷達(dá)型號進(jìn)行類內(nèi)的聚類,形成類內(nèi)的小類劃分;進(jìn)一步,運(yùn)用SMOTE和隨機(jī)采樣方法對所有小類進(jìn)行均衡處理,以此形成類內(nèi)、類間分布均衡的樣本數(shù)據(jù)集。
K-means聚類是一種無監(jiān)督學(xué)習(xí)方法,可用于分析數(shù)據(jù)的分布特性[7]?;静襟E如下:
1)選取K個初始聚類中心;
2)分別計算每個樣本點(diǎn)到K個簇心的距離(一般為歐氏距離),找到離該點(diǎn)最近的簇心,將其劃分到對應(yīng)的簇;
3)所有樣本點(diǎn)被劃分到K個簇后,重新計算各簇中心(平均距離中心);
4)反復(fù)迭代步驟2)和3),直到達(dá)到終止條件。
為獲取同一類別內(nèi)樣本的分布信息,利用K-means對每類樣本進(jìn)行聚類,使特征參數(shù)接近的樣本歸為統(tǒng)一小類。每種型號的樣本可被劃分為多個小類。
對于樣本數(shù)量少的小類,運(yùn)用SMOTE方法進(jìn)行插值擴(kuò)增。對于樣本數(shù)量冗余的小類,運(yùn)用隨機(jī)不放回抽取的方法,對樣本進(jìn)行抽樣精簡。以此,形成小類間樣本數(shù)據(jù)相當(dāng)?shù)木鈽颖炯?。對小類進(jìn)行處理的過程如圖5所示。
圖5 樣本均衡過程示意
本節(jié)運(yùn)用仿真形成的7型雷達(dá)型號數(shù)據(jù)驗證所提出方法的有效性。利用識別率RC評估分類效果(NC為識別正確的樣本個數(shù),NA為待識別樣本總數(shù))
(3)
本文分別運(yùn)用原始樣本和均衡后樣本對卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并對比分析上述兩種情況的識別準(zhǔn)確度。
本文采用的卷積神經(jīng)網(wǎng)絡(luò)由三個卷積計算層(卷積層+池化層)和一個全連接層組成。網(wǎng)絡(luò)結(jié)構(gòu)示意如圖6所示。
圖6 本文采用的卷積神經(jīng)網(wǎng)絡(luò)示意
圖7、圖8分別為A、D兩種型號均衡前后的樣本分布圖。由圖可以看出,對于每一種型號,采用本文提出的樣本擴(kuò)展方法,能在不改變原有樣本總體分布的基礎(chǔ)上,對各參數(shù)范圍內(nèi)的樣本進(jìn)行合理擴(kuò)充,既能讓每個新增樣本與原有樣本保持相似,也能夠?qū)颖颈壤M(jìn)行一定調(diào)整,使得各小類的樣本數(shù)目更加均衡,從而確保模型具有良好的訓(xùn)練效果。
圖7 型號A原始樣本與均衡后樣本分布圖
圖8 型號D原始樣本與均衡后樣本分布圖
表1為均衡前后各型號樣本數(shù)量的對比情況,從表1中可看出,運(yùn)用所提出方法進(jìn)行樣本均衡后,各型號的樣本數(shù)量能夠達(dá)到相同的數(shù)量級。
表1 各型號樣本數(shù)量
為進(jìn)一步說明組合樣本均衡方法對識別性能提升的有效性,表2給出了樣本均衡前后,卷積神經(jīng)網(wǎng)絡(luò)對不同型號的識別準(zhǔn)確度。
表2 不同型號的識別結(jié)果
由表2可知,低偵察型號A、B、F、G的識別準(zhǔn)確率均得到顯著提高。圖9詳細(xì)給出了均衡前樣本和均衡后樣本訓(xùn)練生成模型對型號A的識別結(jié)果對比圖(其中0為正確識別、1為錯誤識別)??傻贸觯岢龇椒軌蛴行岣邔Φ蛡刹煨吞柕淖R別準(zhǔn)確度。
圖9 型號A識別結(jié)果圖
對于樣本數(shù)據(jù)充足的型號C、D、E,識別準(zhǔn)確度仍能保持在98%以上,表明對于樣本充足型號,所提出方法能夠保持原有的高識別準(zhǔn)確度。
以上實(shí)驗結(jié)果表明,本文提出的組合均衡方法能夠有效解決樣本數(shù)據(jù)不平衡的問題,改善機(jī)器學(xué)習(xí)算法對大樣本過擬合情況,使得訓(xùn)練生成的識別模型能夠同時適用于大樣本和小樣本場景,具備更強(qiáng)的泛化能力,整體提升機(jī)器學(xué)習(xí)算法對雷達(dá)型號的識別準(zhǔn)確度。
本文研究并設(shè)計了一種基于K-means和組合采樣的樣本均衡方法:針對新體制雷達(dá)參數(shù)分布廣的特點(diǎn),首先提出運(yùn)用K-means算法對各型號雷達(dá)樣本進(jìn)行聚類處理,將特征相似的樣本劃分為同一小類;進(jìn)一步,提出了基于組合采樣的樣本均衡策略,對樣本量較少的低偵察型號采用SMOTE擴(kuò)充,對樣本量充足的型號采用均勻抽樣去冗余,以實(shí)現(xiàn)各型號樣本數(shù)量的平衡。仿真結(jié)果表明,本文方法能有效增強(qiáng)智能識別模型的可靠性和泛化能力,明顯提升了偵察低截獲雷達(dá)的型號識別準(zhǔn)確率,同時也能保持樣本充足型號的高識別準(zhǔn)確度,具有較高的工程應(yīng)用價值。