王易麗,楊宇明
(電子科技大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,成都 611731)
雷達(dá)信號分選是指從隨機交疊的脈沖流中分離出每一部雷達(dá)脈沖列的過程。分選是雷達(dá)信號處理的第一步,是后續(xù)工作如融合、定位等處理的重要基礎(chǔ),也是雷達(dá)工作模式識別和態(tài)勢分析最重要的步驟。準(zhǔn)確地分離雷達(dá)信號對電子情報系統(tǒng)具有極大的指導(dǎo)作用,能為電子戰(zhàn)提供重要的情報信息。
比較典型的雷達(dá)信號脈間參數(shù)分選方法由預(yù)分選加主分選構(gòu)成。預(yù)分選是基于脈沖描述字(Pulse Description Word,PDW)的多參數(shù)分選方法,起到初步實現(xiàn)信號去交錯、降低信號密度的作用,然后再根據(jù)脈沖重復(fù)間隔(Pulse Repetition Interval,PRI)的交錯進行主分選。傳統(tǒng)預(yù)分選算法一般采用小盒算法[1],但面對日益復(fù)雜的電磁環(huán)境,小盒算法中容差參數(shù)選取變得困難,制約著分選效率。
隨著機器學(xué)習(xí)的發(fā)展,無監(jiān)督學(xué)習(xí)中聚類方法在預(yù)分選方法中得到了有效應(yīng)用。最常見的是K-均值算法,因其計算速度快和實現(xiàn)簡單,在信號分選中應(yīng)用廣泛。文獻[2-4]針對聚類數(shù)和初始聚類中心進行改進,文獻[5]通過對模糊C均值算法對閾值進行改進提高了分選效果,但模糊C均值和K-均值算法在分布不均的數(shù)據(jù)集上聚類效果均不好?;诿芏鹊腄BSCAN算法[6-7]有處理不規(guī)則數(shù)據(jù)集的優(yōu)勢,但仍受閾值參數(shù)設(shè)置的限制?;趫D論的聚類算法能有效識別形狀復(fù)雜簇,但遇到大規(guī)模數(shù)據(jù),計算效率不高[8],并且預(yù)先設(shè)定的聚類數(shù)對分選效果有著直接影響。
為了克服上述缺陷,本文在基于地標(biāo)稀疏表示的譜聚類基礎(chǔ)上,聯(lián)合數(shù)據(jù)場理論和網(wǎng)格密度劃分算法,提出一種新的雷達(dá)信號預(yù)分選算法。實驗證明該方法提升了雷達(dá)脈沖數(shù)據(jù)分布形式復(fù)雜時的分選正確率,解決了未知輻射源數(shù)目參數(shù)設(shè)定的問題,減少了噪聲對聚類算法的影響,在雷達(dá)信號分選上的效果表現(xiàn)良好。
場的概念首先在物理學(xué)中出現(xiàn)。場是物質(zhì)存在的基本形態(tài)之一。數(shù)據(jù)場理論將場引入數(shù)域空間,以描述數(shù)據(jù)在空間中的分布情況。數(shù)據(jù)場理論假定數(shù)據(jù)空間中的點都是具有一定質(zhì)量的輻射源粒子,每個數(shù)據(jù)粒子都會與其他的數(shù)據(jù)粒子產(chǎn)生相互作用力,作用力的大小與粒子之間的距離成負(fù)相關(guān),作用力的范圍命名為數(shù)據(jù)場[9]。信號分選利用數(shù)據(jù)場的性質(zhì),可以在數(shù)據(jù)預(yù)處理中剔除干擾點,輔助譜聚類算法確定聚類數(shù)。本文提到的分選方法主要用到了數(shù)據(jù)場中的以下幾個概念。
數(shù)據(jù)點在數(shù)據(jù)場中產(chǎn)生的相互作用力用場強函數(shù)來衡量,場強函數(shù)采用高斯勢函數(shù)來描述。某一數(shù)據(jù)點x在場中y點產(chǎn)生的作用力為
(1)
數(shù)據(jù)粒子通過場強函數(shù)與其他粒子建立聯(lián)系,每一個數(shù)據(jù)粒子在場中勢值是與其他數(shù)據(jù)粒子作用力的累和,即場強函數(shù)的累加和??臻g中y點的勢值函數(shù)為
(2)
輻射因子影響數(shù)據(jù)點與其他數(shù)據(jù)對象之間的作用力大小。由公式(1)可知,數(shù)據(jù)點的場強函數(shù)值與輻射因子的大小成正比關(guān)系。為了得到更好的勢值函數(shù),最佳輻射因子值δ由文獻[10]計算得到。設(shè)點y的勢值為Fi,定義勢熵為
(3)
對一組數(shù)據(jù)而言,取使得其勢熵最小的δ為輻射因子。當(dāng)數(shù)據(jù)集標(biāo)準(zhǔn)化后,δ最優(yōu)值應(yīng)在0~1范圍內(nèi)。
勢心是局部勢值的極大值點,勢心的數(shù)量可以確定初始聚類數(shù)目。勢心的數(shù)學(xué)描述為,如果
Fmax(x,y)≥F(i,j)
(4)
對(x,y)鄰域內(nèi)的任一點(i,j)都成立,則(x,y)為勢心,Fmax為勢心值。
譜聚類是由圖論演變出的聚類算法。利用圖論的思想可以將數(shù)據(jù)點的聚類問題轉(zhuǎn)作帶權(quán)無向圖的切割問題。圖切割的目的是使類內(nèi)的權(quán)重值高,而類間的權(quán)重值低,最后達(dá)到聚類的效果。數(shù)據(jù)點集V={v1,v2,…,vn}∈m,其中,n表示數(shù)據(jù)點的個數(shù),m表示數(shù)據(jù)維度,數(shù)據(jù)點連接形成邊集合記為E,點集V和邊集E聯(lián)合構(gòu)成圖G,即G=(V,E)。兩兩數(shù)據(jù)點之間的權(quán)重由權(quán)重矩陣W∈n×n描述,其元素ωij≥0表示點vi和vj之間的相似度權(quán)重。常見的權(quán)重構(gòu)造方法有ε-鄰近法、K鄰近法和全連接法三種。度矩陣D是由權(quán)重矩陣W的行和構(gòu)成的,如式(5)所示:
(5)
L=D-W被稱為拉普拉斯矩陣。根據(jù)切圖的性質(zhì),最后問題的目標(biāo)轉(zhuǎn)換為
或者
基礎(chǔ)譜聚類流程如下:
輸入:n個數(shù)據(jù)點x1,x2,…,xn∈m;聚類數(shù)k。
輸出:k個簇/聚類結(jié)果標(biāo)簽。
Step1 構(gòu)造權(quán)重矩陣W∈n×n,度量矩陣D∈n×n。
Step4 矩陣Q每一行表示一個樣本,對該n個樣本進行K-均值聚類算法,得到聚類簇。
針對譜聚類在大規(guī)模數(shù)據(jù)中計算效率低的問題,文獻[11]提出了加速譜聚類的方法——基于地標(biāo)稀疏表示的譜聚類算法,在減少計算復(fù)雜度的同時能夠提高聚類正確率。該算法利用矩陣分解的思想降低譜聚類的復(fù)雜度。原始數(shù)據(jù)矩陣X={x1,x2,…,xn}∈m×n,找到p個m維地標(biāo)點,點集記為U∈m×p,通過權(quán)重矩陣Z∈p×n近似表示原始數(shù)據(jù)集:
X≈UZ。
(6)
(7)
式中:uj是U中第j列向量,表示第j個地標(biāo)點;zij是矩陣Z中第j行第i列的元素。為了進一步減少計算量,如果uj不在點xi最近的r(≤p)個地標(biāo)點鄰域中,則zij置為0,因此Z就變成了稀疏權(quán)重矩陣。U(i)∈m是由xi的r個最鄰近的地標(biāo)點組成的U的子矩陣。zij可由下式計算:
(8)
(9)
下一步需要求標(biāo)準(zhǔn)化后拉普拉斯矩陣的特征向量。根據(jù)圖切割的性質(zhì)可以得到
LB=(DB-WB)q=λDBq。
(10)
將式(9)代入式(10)得到
(11)
地標(biāo)點的選取是影響基于地標(biāo)譜聚類算法的關(guān)鍵因素。常見的選取方法有隨機選取和K-均值算法選取:隨機選取地標(biāo)點計算速度快,但是聚類準(zhǔn)確率不高;K-均值算法可提高準(zhǔn)確率,但計算量大,計算時間長。針對以上問題,本文提出基于網(wǎng)格密度劃分選取地標(biāo)點的方法。
數(shù)據(jù)集X={x1,x2,…,xn}∈m×n,對歸一化后的m維空間的每個維度進行等量劃分,將全空間劃分為互不交叉的網(wǎng)格單元,參考文獻[13],網(wǎng)格的步長l滿足
(12)
(13)
式中:n為數(shù)據(jù)個數(shù);a為可變參數(shù),與數(shù)據(jù)量和數(shù)據(jù)維度有關(guān),一般情況下可設(shè)定為數(shù)據(jù)維度m。
將落入網(wǎng)格點中的數(shù)據(jù)點進行統(tǒng)計,劃分到對應(yīng)每個網(wǎng)格頂點中,落入單個網(wǎng)格里數(shù)量越多,表明數(shù)據(jù)聚集程度越大;p為地標(biāo)點數(shù),找出滿足密度值前p個的網(wǎng)格為高密度網(wǎng)格,取高密度網(wǎng)格中隨機一點為地標(biāo)點。
基于改進地標(biāo)點選取的譜聚類算法流程如下:
輸入:n個數(shù)據(jù)點x1,x2,…,xn∈m;聚類數(shù)k;地標(biāo)點數(shù)p;近鄰個數(shù)r。
輸出:k個簇/聚類結(jié)果標(biāo)簽。
Step1 利用網(wǎng)格密度劃分選取p個地標(biāo)點。
Step2 通過式(8)在地標(biāo)點和數(shù)據(jù)點間構(gòu)造稀疏的相似矩陣Z∈p×n。
Step4 矩陣B的每一行表示一個樣本,對該n個樣本進行k均值聚類算法,得到聚類簇。
單部雷達(dá)的載頻(Radio Frequency,RF)、脈沖寬度(Pulse Width,PW)、到達(dá)方向(Direction of Arrival,DOA)參數(shù)變化范圍有限,數(shù)據(jù)抱團特征較為明顯,因此選用 PDW中 RF、PW、DOA 三個特征參數(shù)對復(fù)雜的交疊脈沖去交錯,利用聯(lián)合數(shù)據(jù)場理論、網(wǎng)格密度劃分算法和基于地標(biāo)稀疏表示的譜聚類算法的融合算法進行分選。
3.1.1 極差歸一化變換
三個參數(shù)不在一個維度,因此需要根據(jù)公式(14)對三維數(shù)據(jù)進行標(biāo)準(zhǔn)化,將數(shù)據(jù)全部轉(zhuǎn)化為[0,1]之間的數(shù)據(jù)。
(14)
3.1.2 數(shù)據(jù)場去除干擾點
3.1.3 確定初始聚類數(shù)
勢值局部極大值的位置為勢心,找出勢心并以勢心的個數(shù)作為初始聚類數(shù)。
經(jīng)過預(yù)處理后的數(shù)據(jù),進入到主要的聚類過程。首先通過網(wǎng)格密度劃分算法找到合適的地標(biāo)點,最后使用基于地標(biāo)稀疏表示的譜聚類算法進行最后聚類,得到聚類結(jié)果。分選流程如圖1所示。
圖1 融合聚類算法流程
為了驗證分選算法流程有效性和可靠性,分別模擬了兩組實驗數(shù)據(jù),比較不同情況下的實驗效果。
數(shù)據(jù)預(yù)處理部分,實驗1采用類型單一且脈沖數(shù)量少的4部雷達(dá)仿真數(shù)據(jù),并加入200個輻射源取值范圍內(nèi)的隨機干擾點。數(shù)據(jù)參數(shù)設(shè)置見表1。
表1 實驗1雷達(dá)輻射源仿真參數(shù)
由公式(3)計算出實驗1最佳輻射因子值為0.11,利用數(shù)據(jù)場理論去除干擾點150個,去除效果如圖2所示。
(a)原數(shù)據(jù)集三維示意圖
(b)預(yù)處理后三維示意圖圖2 實驗1的干擾點剔除效果
為了降低計算復(fù)雜度,選取兩兩參數(shù)進行數(shù)據(jù)場勢值計算,并根據(jù)公式(3)得出最佳輻射因子δ值分別為0.1,0.07,0.12,繪制出DOA-RF、DOA-PW、RF-PW二維等勢線分布圖(圖3),根據(jù)公式(4)可以找到4個勢心,因此初始聚類數(shù)目為4。
(a)DOA-RF等勢圖
(b)DOA-PW等勢圖
(c)RF-PW等勢圖圖3 實驗1的二維等勢線分布圖
下面進行聚類分選結(jié)果分析。
定義分選正確率公式為
為驗證本文改進譜聚類算法的聚類分選效果,與K-均值算法、DBSCAN算法、FCM算法、SC(譜聚類)算法、LSC-K(基于K-均值選取地標(biāo)點的譜聚類)算法、LSC-R(基于隨機選取地標(biāo)點的譜聚類)算法進行對比分析,每個算法均進行100次實驗,實驗結(jié)果取平均值。其中LSC-K、LSC-R、本文算法中地標(biāo)點參數(shù)均取p=200,r=5,分選結(jié)果見表2。
表2 實驗1的聚類分選結(jié)果
數(shù)據(jù)預(yù)處理部分,實驗2模擬6部雷達(dá)數(shù)據(jù),其中設(shè)置的仿真輻射源具有頻率跳變、頻率捷變、脈寬抖動、脈寬滑變等功能,并加入500個隨機干擾點。數(shù)據(jù)參數(shù)設(shè)置見表3。
表3 實驗2的雷達(dá)輻射源仿真參數(shù)
實驗2最佳輻射因子δ值為0.11,去除干擾點444個,去除效果見圖4。除了混雜在數(shù)據(jù)中的干擾點,其他位置的干擾點均大部分去除,可知基于數(shù)據(jù)場理論剔除干擾點的效果較好。
(a)原數(shù)據(jù)集三維示意
(b)預(yù)處理后三維示意
同樣,由公式(3)先計算得到輻射因子δ,δ均取0.04,然后計算得到實驗2的二維等勢線分布圖,見圖5??梢钥吹絉F-PW二維等勢圖數(shù)據(jù)嚴(yán)重混疊,數(shù)據(jù)場尋找勢心的效果不佳。
(a)DOA-RF等勢圖
(b)DOA-PW等勢圖
(c)RF-PW等勢圖
下面進行聚類分選結(jié)果分析。實驗2中參數(shù)p=500,r=5,實驗2聚類分選結(jié)果如表4所示。對比實驗1的聚類分選結(jié)果可以看出,本文算法在兩組實驗上的正確率均達(dá)到95%以上,表明本文算法在雷達(dá)輻射源聚類分選中效果較好。本文算法在兩個實驗中的分選效果如圖6所示。
表4 實驗2的聚類分選結(jié)果
(a)實驗1
本文基于非協(xié)作輻射源信號的預(yù)分選問題進行研究,提出了一種融合數(shù)據(jù)場理論和改進譜聚類的分選算法,通過仿真實驗驗證了其有效性。該算法具有一定的應(yīng)用價值且有以下優(yōu)勢:一是能夠提供聚類分選初始條件的設(shè)置,確定聚類數(shù)目,無需人工的設(shè)置;二是對于多種分布復(fù)雜數(shù)據(jù)類型,能夠得到較好的分選效果;三是遇到大規(guī)模數(shù)據(jù)時,能夠兼顧時間效率和正確率。但是實際情況會更加復(fù)雜,當(dāng)多部雷達(dá)數(shù)據(jù)混疊嚴(yán)重時,基于數(shù)據(jù)場理論會得到多個勢心,影響聚類數(shù)的確定。針對此問題還需做進一步研究。