方 芳,李永貴,牛英滔,王昱陶
(1.陸軍工程大學,江蘇 南京 210000;2.國防科技大學第六十三研究所,江蘇 南京 210000)
信息化作戰(zhàn)條件下,指控、情報、武器系統(tǒng)、導航測控等各種信息系統(tǒng)都高度依賴無線通信,無線通信系統(tǒng)和網絡已成為敵方蓄意干擾的重要目標。通信蓄意干擾指削弱或破壞敵方電子系統(tǒng)對有用信號檢測所采取的各種電子擾亂措施[1]。常見的具有代表性的干擾樣式有:單音干擾、多音干擾、寬帶噪聲干擾、部分頻帶干擾、掃頻干擾、脈沖干擾[1],這些典型干擾樣式既可以獨立運用,也可以根據具體通信信號靈活配置和組合運用,以達到更高效的干擾效果。因此,有效識別典型干擾樣式,對無線通信系統(tǒng)或網絡采取針對性抗干擾措施具有重要意義。
對于典型干擾樣式的識別,國內外學者已做出大量研究?,F有的文獻大多采用模式識別的方法識別典型干擾樣式。其識別流程一般分為三個階段,首先采集干擾信號并對采集的干擾信號數據預處理,然后從眾多數據中提取特征參數,最后根據識別算法分類識別,而識別重點在于特征提取和識別算法。目前,干擾特征通常采用關聯維數、展寬特征、頻譜相像系數和高階累積量等方法表征。文獻[2]提出了一種基于信號特征空間的支持向量機干擾分類算法,從文獻可見該算法分類繁瑣、運算量大且需要在高干噪比條件下才能達到較好的識別效果。文獻[3]提出一種基于高階累積量與神經網絡的識別方法,該方法存在識別樣式較少、窄帶干擾識別性能差以及復雜度高的缺點。文獻[4]從多維域上提取特征,并基于決策樹和支持向量機的兩種干擾識別器對多種典型干擾樣式進行仿真識別,但該方法所需提取的特征參數多,計算復雜度高,識別干擾樣式較少。
因此,本文采用一種提取多維特征參數的基于ID3決策樹算法的干擾識別方法。該算法提取幅度峰均比系數、歸一化帶寬、單頻因子系數、歸一化頻譜平坦度數、分數階傅里葉域能量聚集度五種特征參數,然后運用ID3決策樹算法識別典型干擾樣式,與文獻[2-4]相比,該方法特征參數較少、算法簡單、計算量較小。
干擾信號的特征參數是反映干擾信號多維域特征的參數,用于識別或區(qū)分不同的干擾樣式。但特征參數的選取應遵循數量少、計算量小、區(qū)分度大的特點,即使用最少的、計算簡便的特征參數能夠較準確區(qū)分較多種類的蓄意干擾。因此,本節(jié)重點考察了幅度峰均比系數、歸一化帶寬、單頻因子系數、歸一化頻譜平坦度數、分數階傅里葉域能量聚集度五個特征參數,具體如下。
幅度峰均比系數是干擾在時域幅度最大值與幅度均值比。由于脈沖干擾具有較寬的帶寬,在頻域很難與寬帶干擾區(qū)分開,但根據時域脈沖的沖激特征,幅度峰均比參數能夠較好反映脈沖干擾的幅度特征,能夠將脈沖干擾與其它干擾較好的區(qū)分開。其提取方法是:對干擾信號時域采樣,記干擾信號的幅度A(i),i∈[1,N]為采樣時刻,記Amax為幅度最大值,Amean為幅度平均值,峰均比系數表達式為式(1)所示。
頻域的歸一化帶寬是幅度譜歸一化后計算超過0.5的幅度所占比,反映了干擾在頻域的帶寬大小,由于寬帶和窄帶干擾的頻譜帶寬存在明顯差異,因此用歸一化帶寬區(qū)分寬帶干擾與窄帶干擾。信號進行離散傅里葉變換,得到頻譜F(n),并計算得到幅度譜R(n),歸一化處理后,得到Bw。
其中Rmax為幅度譜R(n)最大值,MH為歸一化幅度譜大于0.5的下標最大值為歸一化幅度譜大于0.5的下標最小值N為數據長。
頻域的單頻因子系數是干擾幅度譜最大值與幅度值之和的比,由于單音干擾的能量聚集在一個頻率上,因而此頻率點的幅度值R(n)遠大于其它點,可以用單頻因子系數區(qū)分單音干擾與其它干擾。將幅度譜R(n)按從大到小排序,得到最大幅度Rmax,單頻因子系數表達式為式(5)所示。
歸一化頻譜平坦度數反應了干擾信號在頻域的起伏情況,根據該參數的大小可以判斷干擾在頻域有無脈沖。歸一化頻譜平坦系數主要反映了干擾在功率譜中是否含有明顯的沖激部分:信號沖激部分波動越大,平坦度越低,平坦系數越大,窄帶瞄準式干擾和梳狀多音干擾的歸一化頻譜平坦度數明顯[4]。為了獲得歸一化頻譜中的陡峭部分,用歸一化頻譜減去滑動窗函數的平均頻譜。
其中滑動窗口的寬度L一般為0.01N向下取整,根據Rp(n)標準差得歸一化頻譜平坦度數。
其中均值。在其它參數無法較好 地區(qū)分多音干擾與其它干擾的情況下,通過比較歸一化頻譜平坦度數,可將其與其它寬帶干擾區(qū)分開。
與時域、頻域特征比較,變換域的分數階傅里葉域能量聚集度往往能夠更直觀地反映干擾信號的能量聚集差異,并且在干噪比較低的條件下該參數也能夠充分、明顯地區(qū)分干擾。如果僅僅根據線性掃頻干擾和寬帶干擾的時域、頻域特征參數,則很難將兩者區(qū)分。但在分數階傅里葉變換域,寬帶噪聲干擾具有平坦的頻譜;而線性掃頻干擾具有比較高的能量聚集度。因此,利用分數階傅里葉域能量聚集度可以區(qū)分線性掃頻和寬帶干擾。
首先離散分數階傅里葉變換:
其中uk是離散值,P為離散傅里葉階數,P∈[0,2],r(n)位干擾時域表達式,然后計算分數階傅里葉變換域幅度譜的最大值和平均值的比值,得到Rfr(p)。
上述五種特征參數其值域變化范圍受干噪比的影響,為準確估測上述特征參數的取值范圍、研究干噪比對算法識別的影響,本文在-20 dB到20 dB干噪比范圍內每種干擾樣式隨機產生1 000個樣本,根據式(1)~(10)仿真出參數變化范圍,如表1所示。
表1 6種干擾樣式特征參數比較
本文的干擾識別系統(tǒng)主要由干擾信號采集、預處理及特征提取、分類識別三個部分組成。干擾信號采集模塊是采集干擾信號;預處理及特征提取模塊是從數據中提取出區(qū)分度最大的特征參數,一般提取數據的時域、頻域、變換域特征,形成訓練樣本集和測試樣本集;分類識別模塊是根據決策樹算法識別訓練樣本的結果調整算法的參數,再通過誤差檢驗的結果優(yōu)化算法參數,最后輸入測試樣本進行識別,過程如圖1所示。
不同的識別算法,識別的效率和準確率也不盡相同。本章提出基于經典的ID3決策樹算法[6]的快速識別方法。ID3[7]的關鍵是選擇信息增益作為屬性測試的標準,每次都選擇信息增益最大的那個屬性,使分類的效率和質量大大提高。
設樣本集X的樣本種類為n,每種樣本的概率為pi,那么屬性A的信息增量為:
其中H(X)稱為平均信息量[8]:
H(X,A)為已知屬性A后,樣本集X的信息量,它的數學表達式為:
其中c為屬性A的取值個數。
圖1 干擾樣式的模式識別圖
本章提出的基本干擾識別算法的過程如下:
設S是6種干擾信號的訓練樣本集合,H是干擾信號的5種特征參數集。首先將訓練樣本集S和特征參數集H并成新的集合Q(S,H)。由于每種干擾有1 000個樣本,那么Q為6 000x6的二維數據。它的前5列為幅度峰均比、歸一化帶寬、單頻因子系數、歸一化頻譜平坦度數、分數階傅里葉域能量聚集度特征參量,第6列為干擾樣式標簽,單音干擾為1、寬帶噪聲干擾為2、多音干擾為3、部分頻帶干擾為4、掃頻干擾為5、脈沖干擾為6。
然后從每個干擾的1000個樣本中隨機選取300個訓練樣本,形成訓練集Train(1800,H)和測試集Test(4200,H)接著從訓練集Train(1800,H)中任意選取其中一個特征A,計算它的信息增量,根據6種干擾數值的不同將分類出新的節(jié)點,依次選取其它屬性,重復上述過程,得到訓練好的決策樹。
最后利用測試集Test測試決策樹的識別性能。當識別基本干擾信號的決策樹構造完成時,可能會出現過擬合現象,需要剪枝去掉一些不合理的節(jié)點,剪枝時利用測試數據集Test測試葉子剪掉后識別率是否降低,若沒有降低,則減去該葉子,若降低,則保留該葉子,從而得到一棵精簡的樹。[8,6]
基于ID3決策樹算法的干擾信號識別:
1.數據初始化,干擾信號樣本以及預處理后的特征參數樣本
2.隨機選取干擾樣本形成訓練集Train和測試集Test。
3.利用訓練集Train創(chuàng)建決策樹分類器,計算時幅度均比系數、歸一化帶寬、單頻因子系數、歸一化頻譜平坦度數、分數階傅里葉域能量聚集度的信息增益,將特征參數的信息增益按大小排序作為識別干擾信號的順序。
4.使用測試集Test對決策樹進行仿真測試,得到6種干擾樣式的識別率。
5.通過訓練集Train和測試集Test交叉驗證誤差值,找到最小錯誤的最大修剪級別bestlevel。
6.根據最大修剪級別bestlevel剪枝。
7.計算剪枝后決策樹的交叉驗證誤差,保證剪枝后決策樹的正確識別率。
具體識別流程如圖2所示。
為驗證決策樹算法的有效性,分別對6類干擾信號數據集進行實驗,并與傳統(tǒng)的K最近鄰算法識別器進行對比。K最近鄰算法的思路是在特征空間中的K個最近鄰的樣本中的大多數屬于一個類別,則該樣本識別為這個類別。其中K的取值是算法的核心要素之一,本文K取300。該算法簡單易于實現,但需要計算待測樣本和訓練樣本所有樣本數據的距離,所以非常耗時。
在仿真中單音干擾的中心頻率在100 kHz~300 kHz之間隨機變化,多音干擾以200 kHz為中心頻率,頻點數在2~5之間隨機取值。寬帶噪聲采用高斯白噪聲。部分頻帶干擾采用高斯白噪聲通過窄帶濾波器產生[9],中心頻率為200 kHz,頻帶寬度在10~60 kHz之間隨機取值。掃頻干擾的中心頻率為200 kHz,掃頻帶寬在280 kHz、240 kHz、215 kHz、200 kHz、180 kHz、150 kHz、125 kHz、100 kHz中隨機選擇。脈沖干擾的占空比在0.1%~1%之間隨機取值。干擾信號采樣點數為100 000,隨機產生1 000個干噪比在-20~20 dB的干擾樣本,取其中300個樣本作為仿真的訓練樣本,700個樣本作為仿真的測試樣本。
圖2 基于決策樹的干擾信號識別圖
從圖3中可以看出,決策樹算法在JNR等于-5 dB時,識別率已達到80%,對單音干擾具有良好的識別能力。相比之下,K最近鄰算法性能較為穩(wěn)定,但JNR小于10 dB時,識別率提高的很慢。從圖4中可以看出,決策樹算法對多音干擾識別性能較好,JNR大于-5 dB時,識別率接近100%。這是由于多音干擾特征參數與其他干擾樣式具有較大差異,故具有較好的識別性能。從圖5中可以看出,JNR低于-5 dB時,K最近鄰算法的識別率較好,JNR大于-5 dB時,決策樹算法的識別率較好。從圖6中可以看出,兩種算法對部分頻帶干擾的識別性能都很好。圖7、8可以看出,JNR大于-10 dB時,決策樹算法的識別率始終高于K最近鄰算法的識別率,決策樹算法對掃頻干擾、脈沖干擾識別性能好于K最近鄰算法。從圖9可以看出,JNR低于-5 dB時,決策樹算法的識別率較低,JNR大于-5 dB時,決策樹算法的識別率會提高的非常明顯。因為在低干噪比的情況下,無法準確提取各種干擾的特征參數。隨著干噪比變大,干擾樣式特征參數的差異變化明顯,因此識別率明顯提高。通過仿真可以得出:在低干噪比條件下(一般在-10 dB下),K最近鄰方法的識別性能優(yōu)于本文方法,但現實環(huán)境中為保證較好的干擾效果干擾功率必須達到一定要求,因此在高干噪比條件下(一般0 dB以上),本文方法計算簡單、運行較快且識別率能達到99%。
圖3 單音干擾識別率
圖4 多音干擾識別率
圖5 寬帶干擾識別率
圖6 部分頻帶干擾識別率
圖7 掃頻干擾識別率
圖8 脈沖干擾識別率
圖9 決策樹算法對6種干擾的識別率
為了在復雜電磁環(huán)境中簡單、快速地識別典型的干擾樣式,提供有效的對抗決策,本文深入分析干擾信號多維域的特征參數,提取了一組計算簡單且個數較少的特征參數,給出了基于決策樹算法的干擾識別方法,并進行了干擾識別性能對比分析。仿真結果表明,對于典型干擾樣式,本文所提干擾識別算法比傳統(tǒng)的K最近鄰算法具有更好的識別性能。