呂昊遠(yuǎn),俞 璐
(陸軍工程大學(xué),江蘇 南京,210007)
通信輻射源個體識別技術(shù)通過獲取到的輻射源信號樣本,檢測由于輻射源個體不同而導(dǎo)致的細(xì)微特征差異,提取所需的反映輻射源目標(biāo)身份的信息,從而準(zhǔn)確區(qū)分輻射源個體,針對性地把握目標(biāo)屬性特征,并實(shí)施有效的監(jiān)控。該技術(shù)在通信網(wǎng)絡(luò)結(jié)構(gòu)分析和電子設(shè)備管制等方面發(fā)揮著巨大作用[1]。
深度學(xué)習(xí)具有強(qiáng)大表征能力,在多個領(lǐng)域中得以快速發(fā)展和應(yīng)用,也為通信輻射源個體識別問題開辟了新的研究道路,即無需任何先驗(yàn)知識的深度網(wǎng)絡(luò)可以直接在一個整體框架內(nèi)端到端地對獲取的信號樣本進(jìn)行特征提取和分類識別[2]?;谏疃葘W(xué)習(xí)的通信輻射源個體識別方法不僅大大節(jié)約了科研成本,還有效地提升了識別準(zhǔn)確率;因此,吸引了眾多科研人員的關(guān)注。但通信方式在多數(shù)情況下都是非合作的,所以實(shí)際的電磁環(huán)境中存在少量的有標(biāo)簽信號樣本和大量的無標(biāo)簽信號樣本,這嚴(yán)重阻礙了有監(jiān)督深度學(xué)習(xí)個體識別方法的發(fā)展[3]。如何根據(jù)現(xiàn)有的信號數(shù)據(jù)研究出基于深度框架的半監(jiān)督個體識別方法就顯得尤為重要。
偽標(biāo)簽半監(jiān)督通信輻射源個體識別方法在面對“小樣本”問題時取得了一定的效果,但此方法中深度模型性能會受偽標(biāo)簽質(zhì)量的影響而產(chǎn)生較大波動。本文提出基于協(xié)同訓(xùn)練Tri-net 的半監(jiān)督通信輻射源個體識別方法,增加深度網(wǎng)絡(luò)數(shù)目,并采取輪次標(biāo)簽的偽標(biāo)簽賦值有效提升信號樣本偽標(biāo)簽的質(zhì)量。實(shí)驗(yàn)中在實(shí)際采集的通用軟件無線電外設(shè)(Universal Software Radio Peripheral,USRP)通信輻射源信號數(shù)據(jù)集上進(jìn)行驗(yàn)證,并和全監(jiān)督方法、單一的偽標(biāo)簽半監(jiān)督方法以及改進(jìn)前的Tri-net 半監(jiān)督方法對比。實(shí)驗(yàn)結(jié)果表明本文方法具有更高的識別準(zhǔn)確率和更強(qiáng)的魯棒性。
協(xié)同訓(xùn)練作為一種半監(jiān)督訓(xùn)練方法,可以有效緩解由于有標(biāo)簽樣本數(shù)目過少帶來的網(wǎng)絡(luò)過擬合問題。本節(jié)內(nèi)容介紹了協(xié)同訓(xùn)練中多視圖學(xué)習(xí)的概念和Tri-net 模型的算法過程。
作為協(xié)同訓(xùn)練的前提思想,面對大量的無標(biāo)記樣本時,多視圖學(xué)習(xí)假設(shè)可以從不同的視覺角度對每個數(shù)據(jù)進(jìn)行學(xué)習(xí)[4],然后根據(jù)從不同角度訓(xùn)練出的深度網(wǎng)絡(luò)再對無標(biāo)記樣本進(jìn)行分類,挑選出高置信度的無標(biāo)記樣本以及其偽標(biāo)簽作為新的有標(biāo)簽樣本加入訓(xùn)練集中[5]。協(xié)同訓(xùn)練的目標(biāo)就是學(xué)習(xí)獨(dú)特的預(yù)測函數(shù)為各個視圖下的數(shù)據(jù)建模,并共同優(yōu)化所有用于提高泛化性能的功能,不同視圖的結(jié)果相互補(bǔ)充,達(dá)到不同網(wǎng)絡(luò)可以相互協(xié)作以提高彼此的性能[6]。
Tri-net 是一種擴(kuò)展的協(xié)同訓(xùn)練模型,它從3 個分類網(wǎng)絡(luò)的角度對樣本進(jìn)行協(xié)同訓(xùn)練,模型的訓(xùn)練過程如圖1 所示。整個模型中網(wǎng)絡(luò)架構(gòu)分為兩部分,其中共享模塊(Shared Module)為底層部分,3 個獨(dú)立個性模塊(Module1,Module2,Module3)為高層部分[7]。
圖1 Tri-net 模型訓(xùn)練過程
Tri-net 在半監(jiān)督協(xié)同訓(xùn)練過程中,首先,對有標(biāo)簽信號樣本進(jìn)行隨機(jī)加噪,獲得3 個有標(biāo)簽訓(xùn)練集,通過對少量有標(biāo)簽信號樣本預(yù)訓(xùn)練從每個訓(xùn)練集產(chǎn)生一個分類網(wǎng)絡(luò);其次,每個網(wǎng)絡(luò)分別對無標(biāo)簽信號樣本預(yù)測其標(biāo)簽值,如果其中兩個網(wǎng)絡(luò)對同一個無標(biāo)記信號樣本的預(yù)測標(biāo)簽值相同,則該樣本及其偽標(biāo)簽就被認(rèn)為具有較高的標(biāo)簽置信度,并作為有標(biāo)簽樣本加入第3 個網(wǎng)絡(luò)的訓(xùn)練集[8]。由此可見,Tri-net 中每個網(wǎng)絡(luò)所獲得新的有標(biāo)簽信號樣本都由另外兩個網(wǎng)絡(luò)協(xié)作提供。
本文提出Tri-net 半監(jiān)督通信輻射源個體識別方法,并且為提高偽標(biāo)簽的質(zhì)量而改進(jìn)算法的訓(xùn)練過程,在偽標(biāo)簽賦值中加入加權(quán)平均的輪次標(biāo)簽法。
如圖2 所示,Tri-net 半監(jiān)督輻射源個體識別方法包括3 個步驟。
圖2 方法步驟
偽標(biāo)簽賦值過程中使用加權(quán)平均的輪次標(biāo)簽法,其中每個訓(xùn)練周期迭代結(jié)束后得到的偽標(biāo)簽是之前所有訓(xùn)練周期得到預(yù)測值的加權(quán)平均和[9]。
網(wǎng)絡(luò)訓(xùn)練前初始化設(shè)置Z=0[N×C]、=0[N×C],分別表示每個訓(xùn)練周期的標(biāo)簽預(yù)測值和最終經(jīng)過輪次標(biāo)簽法后得到的標(biāo)簽預(yù)測值,其中:N表示樣本數(shù)目,C表示類別數(shù)(標(biāo)簽采取one-hot 向量編碼)。標(biāo)簽預(yù)測值的迭代計算方式為:
式中:t為訓(xùn)練迭代周期數(shù);B為每次迭代過程中的小批次信號樣本集;i是小批次中的每個信號樣本;j為3 個高層網(wǎng)絡(luò)的編號。
每個訓(xùn)練周期結(jié)束后計算所有周期預(yù)測值的加權(quán)平均結(jié)果,計算方式為:
式中:α表示加權(quán)平均的平衡系數(shù)。為了避免訓(xùn)練初期網(wǎng)絡(luò)的錯誤預(yù)測,就需要減弱初期的標(biāo)簽影響力,所以在加權(quán)平均后通過偏差校正得到最終的本輪次標(biāo)簽值。
在進(jìn)行有標(biāo)簽信號樣本初始化訓(xùn)練Tri-net 前,通過在有標(biāo)簽信號樣本中添加隨機(jī)噪聲為3 個高層網(wǎng)絡(luò)分別構(gòu)建訓(xùn)練集,使得高層網(wǎng)絡(luò)多樣化,從而代表了不同的視圖學(xué)習(xí)。為了防止網(wǎng)絡(luò)訓(xùn)練趨于一致化,無標(biāo)簽信號樣本訓(xùn)練過程中,每3 個輪次為訓(xùn)練集中的信號樣本添加隨機(jī)噪聲,繼續(xù)增強(qiáng)多樣化,結(jié)合原本Tri-net 模型中的多網(wǎng)絡(luò)投票機(jī)制,由此,Tri-net 半監(jiān)督算法在增強(qiáng)偽標(biāo)簽樣本的穩(wěn)定度和可靠性方面發(fā)揮出了作用。
網(wǎng)絡(luò)訓(xùn)練過程中,xl為無標(biāo)簽信號樣本,表示其在每個高層網(wǎng)絡(luò)對應(yīng)的偽標(biāo)簽,Ly為交叉熵?fù)p失函數(shù)。將3 個高層網(wǎng)絡(luò)的損失值相加并取平均構(gòu)建出的半監(jiān)督總體訓(xùn)練損失函數(shù)為:
圖3 展示了Tri-net 半監(jiān)督輻射源個體識別方法具體算法過程。
圖3 Tri-net 半監(jiān)督算法過程
如圖4 所示,樣本集的準(zhǔn)備工作包括前后3 個環(huán)節(jié)。
圖4 樣本集準(zhǔn)備過程
實(shí)驗(yàn)中使用LabVIEW 軟件平臺設(shè)計信號收發(fā)的程序,基于此,搭建采集環(huán)境,調(diào)整采樣參數(shù),完成信號的發(fā)射與接收[11]。實(shí)際采集到5 臺USRP N210 通信設(shè)備的信號數(shù)據(jù)。在接收端經(jīng)過解調(diào)得到同向、正交(In-phase、Quadrature,IQ)兩路載波信號數(shù)據(jù)后進(jìn)行預(yù)處理操作,具體包括采用數(shù)據(jù)清洗的方式去除采樣初始階段幀間切換時產(chǎn)生的不穩(wěn)定暫態(tài)信息,進(jìn)行功率歸一化的比例變換。得到信號樣本的形式為二維數(shù)組,其中數(shù)組寬度為2 表示IQ 兩路載波數(shù)據(jù),數(shù)組長度設(shè)置 為128。
對于5 臺USRP 輻射源通信設(shè)備,將輻射源個體進(jìn)行類別編號,即所有的信號樣本設(shè)置5 類標(biāo)簽值,接著將樣本集按照一定比例分為訓(xùn)練集和測試集,其中訓(xùn)練集中包括有標(biāo)簽信號樣本和無標(biāo)簽信號樣本兩部分,最終完成樣本集的構(gòu)建。
本文實(shí)驗(yàn)的硬件條件為i7 10870H 的CPU 和RTX 2070 Max-Q 的GPU,軟件條件為PyCharm+Anaconda(2020.02)+PyTorch(1.7.1)的開發(fā)環(huán)境。
本節(jié)根據(jù)實(shí)際的深度網(wǎng)絡(luò)需求關(guān)系,設(shè)計出適合于本文使用的USRP 信號樣本的Tri-net 網(wǎng)絡(luò)結(jié)構(gòu)。MS、M1、M2、M3具體的網(wǎng)絡(luò)結(jié)構(gòu)組成如表1 所示。
表1 不同網(wǎng)絡(luò)的結(jié)構(gòu)組成
其中,MS包括一個卷積層,卷積核大小為(1×3);M1包括一個卷積層和兩個全連接層,卷積核大小為(2×3);M2包括兩個全連接層;M3包括兩個卷積層和兩個全連接層,卷積核大小為(1×1)和(1×3)。每次卷積或者全連接操作之后都有dropout 正則防止訓(xùn)練過擬合,設(shè)置其參數(shù)值為0.3,每個高層網(wǎng)絡(luò)最后都連接softmax 分類層。實(shí)驗(yàn)中選用Adam 優(yōu)化器和交叉熵?fù)p失函數(shù)。
實(shí)驗(yàn)中將加入輪次標(biāo)簽的Tri-net 半監(jiān)督個體識別方法與全監(jiān)督個體識別方法、單一的偽標(biāo)簽半監(jiān)督方法以及改進(jìn)前的Tri-net 半監(jiān)督個體識別方法進(jìn)行對比。在包含900 個信號樣本的測試集上進(jìn)行實(shí)驗(yàn),訓(xùn)練集中設(shè)置不同的有標(biāo)簽信號樣本數(shù)與無標(biāo)簽信號樣本數(shù)的比例大小,通過100 次蒙特卡洛實(shí)驗(yàn)得出4 種方法的識別準(zhǔn)確率。表2 和表3 分別展示了當(dāng)有1 000 和2 000 個標(biāo)簽樣本數(shù)時,4 種方法的識別準(zhǔn)確率,其中,帶*為加入輪次標(biāo)簽的Tri-net 半監(jiān)督個體識別方法。
表2 識別準(zhǔn)確率(1 000 個有標(biāo)簽樣本) %
表3 識別準(zhǔn)確率(2 000 個有標(biāo)簽樣本) %
現(xiàn)對表中的一些數(shù)值進(jìn)行解釋并分析。因?yàn)槿O(jiān)督方法不使用無標(biāo)簽信號樣本,所以改變樣本數(shù)比例大小其識別準(zhǔn)確率值不變;在一定范圍內(nèi)增大無標(biāo)簽信號樣本數(shù)的比例,半監(jiān)督方法的識別準(zhǔn)確率有所提升;相比之下Tri-net 半監(jiān)督個體識別方法的效果更好。Tri-net 模型為無標(biāo)簽信號樣本賦予了偽標(biāo)簽,對作為訓(xùn)練數(shù)據(jù)的有標(biāo)簽信號樣本起到了擴(kuò)充作用。此外,3 個網(wǎng)絡(luò)的協(xié)同訓(xùn)練選擇高置信度的偽標(biāo)簽信號樣本,也有效地避免了錯誤偽標(biāo)簽對于網(wǎng)絡(luò)訓(xùn)練的干擾,而加入輪次標(biāo)簽之后達(dá)到了最好的性能表現(xiàn),這是因?yàn)檩喆螛?biāo)簽可以平滑掉訓(xùn)練初始階段網(wǎng)絡(luò)的錯誤預(yù)測,增強(qiáng)模型對于錯誤預(yù)測的容忍,有效增強(qiáng)偽標(biāo)簽的質(zhì)量,最終加強(qiáng)Tri-net 模型的魯棒性。
比較表2 和表3 中的數(shù)據(jù)可以看出,表2 中添加輪次標(biāo)簽的Tri-net 半監(jiān)督方法相比于全監(jiān)督方法的性能提升更為明顯。這也說明了Tri-net 半監(jiān)督方法在標(biāo)簽信號樣本數(shù)目較少的情況下性能提升更明顯。
在固定有標(biāo)簽與無標(biāo)簽的信號樣本數(shù)比例為1:3,分別計算標(biāo)簽信號樣本數(shù)目為1 000 和2 000 個情況下,得到添加輪次標(biāo)簽后Tri-net 半監(jiān)督方法在測試集上的識別準(zhǔn)確率的混淆矩陣,如圖5 和圖6 所示。
圖5 有標(biāo)簽樣本數(shù)為1 000 的混淆矩陣
圖6 有標(biāo)簽樣本數(shù)為2 000 的混淆矩陣
其中矩陣方格中的數(shù)值表示識別準(zhǔn)確率,通過顏色深度可以更清晰地反映識別結(jié)果。對角線上的數(shù)值表示識別正確的概率,根據(jù)圖中數(shù)值看出第2個輻射源的類內(nèi)聚集度最好,與其他輻射源的區(qū)別較大,即使當(dāng)有標(biāo)簽信號樣本數(shù)目較少時,也能達(dá)到很高的識別準(zhǔn)確率。相比之下,第1 個輻射源識與其他輻射源的差別較小,有一定的區(qū)分難度,識別準(zhǔn)確率最低。
由于相似的通信輻射源調(diào)制方式識別問題的數(shù)據(jù)集中經(jīng)常設(shè)置樣本長度為128,因此,本文也借鑒這種設(shè)置方法。為探究樣本長度對實(shí)驗(yàn)結(jié)果的影響,分別設(shè)置1 000 和2 000 個有標(biāo)簽信號樣本,且無標(biāo)簽信號樣本數(shù)目是有標(biāo)簽樣本數(shù)目的3 倍,測試在不同樣本長度下添加輪次標(biāo)簽前后Tri-net 半監(jiān)督方法在測試集上的識別準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖7 所示。實(shí)驗(yàn)結(jié)果表明,較短的樣本長度劃分會割裂信號樣本的連續(xù)性,不利于特征提取,導(dǎo)致識別準(zhǔn)確率較低;但隨著樣本長度的增加,在128 時識別準(zhǔn)確率達(dá)到穩(wěn)定。然而,長度繼續(xù)增長,識別率不會有明顯提升甚至有所降低,并且會伴隨著訓(xùn)練時間增加,訓(xùn)練過擬合泛化能力減弱,所以128 的樣本長度是最好的設(shè)置方式。
圖7 不同樣本長度下模型識別準(zhǔn)確率
深度學(xué)習(xí)方法在通信輻射源個體識別問題中經(jīng)常面臨有標(biāo)簽信號樣本數(shù)目不足而導(dǎo)致模型性能下降狀況,因此,本文提出了基于Tri-net 的半監(jiān)督個體識別方法,介紹了協(xié)同訓(xùn)練中多視圖學(xué)習(xí)的概念以及Tri-net 模型結(jié)構(gòu)和訓(xùn)練過程,并加入了輪次標(biāo)簽進(jìn)行方法改進(jìn)。
實(shí)驗(yàn)階段通過采集信號數(shù)據(jù)、預(yù)處理信號數(shù)據(jù)和劃分樣本集完成樣本的準(zhǔn)備,并根據(jù)信號樣本的具體形式完成Tri-net中深度網(wǎng)絡(luò)的參數(shù)設(shè)置。然后,比較分析了添加輪次標(biāo)簽前后Tri-net 半監(jiān)督方法和全監(jiān)督方法、偽標(biāo)簽半監(jiān)督方法在測試集上的識別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,添加輪次標(biāo)簽的Tri-net半監(jiān)督方法的識別性能明顯提升,當(dāng)有標(biāo)簽信號樣本數(shù)為1 000 和2 000,所占樣本總數(shù)的四分之一時,分別得到90.77%和94.89%的最高識別準(zhǔn)確率。