集成學(xué)習(xí)在高誤碼率下AOS協(xié)議識別中的應(yīng)用研究

2020-09-11 06:00:06王春梅姚秀娟

宇航計測技術(shù) 2020年3期

朱明王春梅姚秀娟李雪

(1.中國科學(xué)院國家空間科學(xué)中心，北京 100190；2.中國科學(xué)院大學(xué)，北京 100049)

1 引言

隨著空間通信服務(wù)需求多樣化發(fā)展，空間業(yè)務(wù)種類不斷增多，實現(xiàn)衛(wèi)星星座異構(gòu)網(wǎng)絡(luò)的融合，構(gòu)建天地一體化的通信系統(tǒng)成了未來衛(wèi)星通信網(wǎng)絡(luò)技術(shù)發(fā)展的必然趨勢[1,2]。由于衛(wèi)星星座異構(gòu)網(wǎng)絡(luò)是由面向不同通信需求、采用不同接入方式及應(yīng)用不同通信協(xié)議的多顆衛(wèi)星組成，面對天地一體化通信系統(tǒng)中天基網(wǎng)絡(luò)高誤碼率的傳輸特點，為實現(xiàn)天基網(wǎng)絡(luò)及地基網(wǎng)絡(luò)的融合，并保證各個異構(gòu)網(wǎng)絡(luò)之間的數(shù)據(jù)能夠高效可靠的傳輸，星上需要具備快速且適應(yīng)高誤碼率的協(xié)議識別功能。

協(xié)議識別是采用一定算法和工具，通過特征分析，確定目標(biāo)信息所采用的協(xié)議類型[1]。由于識別算法的好壞直接決定協(xié)議識別的性能[3]，所以對識別算法的研究極為重要。文獻(xiàn)[3]中利用頻繁項集挖掘的算法對CCSDS協(xié)議中的數(shù)據(jù)鏈路層協(xié)議進(jìn)行識別。而基于機器學(xué)習(xí)的方法是根據(jù)比特流所表現(xiàn)出的統(tǒng)計特征，達(dá)到對比特流自動分類目的[4]。文獻(xiàn)[4]中對模式匹配和機器學(xué)習(xí)的識別技術(shù)進(jìn)行了深入研究。集成學(xué)習(xí)作為機器學(xué)習(xí)的一個分支，隨著集成學(xué)習(xí)的不斷發(fā)展，已經(jīng)被廣泛用于解決各種實際的分類和回歸問題，例如：天氣預(yù)測、醫(yī)療疾病診斷、遙感數(shù)據(jù)分析、時間序列分析、蛋白質(zhì)結(jié)構(gòu)分類、網(wǎng)絡(luò)異常入侵檢測等[5]。此外，目前空間鏈路層協(xié)議識別方法在較高誤碼率的情況下還不能保持較好且穩(wěn)定的識別效果。

鑒于此，通過對AOS協(xié)議和集成學(xué)習(xí)模型算法的研究，使用集成學(xué)習(xí)模型，設(shè)計一種基于集成學(xué)習(xí)的AOS協(xié)議識別方法，構(gòu)建該AOS協(xié)議識別系統(tǒng)，從而達(dá)到對AOS協(xié)議有效識別的目的，并通過對比實驗，驗證該AOS協(xié)議識別系統(tǒng)的識別準(zhǔn)確率、識別效率以及在高誤碼率情況下的穩(wěn)定性。

2 AOS協(xié)議及其幀格式

為了適應(yīng)航天任務(wù)對空間科學(xué)衛(wèi)星數(shù)據(jù)處理系統(tǒng)的更高要求，CCSDS提出了AOS協(xié)議。目前，AOS協(xié)議系統(tǒng)已經(jīng)成為各國航天任務(wù)使用的標(biāo)準(zhǔn)系統(tǒng)，也是在航天任務(wù)中被廣泛采用的數(shù)據(jù)鏈路層協(xié)議。AOS協(xié)議與OSI模型的對應(yīng)關(guān)系如圖1所示[6]。從圖1中可以看出，AOS協(xié)議處于CCSDS分層中的數(shù)據(jù)鏈路協(xié)議子層，對應(yīng)著OSI分層的數(shù)據(jù)鏈路層。為了在信噪比較低的空間鏈路實現(xiàn)穩(wěn)定可靠的傳輸，AOS協(xié)議采用固定長度的數(shù)據(jù)傳輸數(shù)據(jù)[7]。AOS協(xié)議的數(shù)據(jù)幀結(jié)構(gòu)如圖2所示[6,8]，主幀頭的幀結(jié)構(gòu)如圖3所示[6]。

圖1 與OSI模型的對應(yīng)關(guān)系框圖Fig.1 Correspondence between AOS protocol and OSI model

圖2 AOS傳輸幀結(jié)構(gòu)圖Fig.2 AOS transmission frame structure

圖3 AOS協(xié)議主幀頭結(jié)構(gòu)圖Fig.3 Main frame header structure of AOS protocol

3 數(shù)據(jù)集仿真

仿真的數(shù)據(jù)集共包含兩部分，分別是訓(xùn)練集與測試集。每種數(shù)據(jù)集均由正例AOS協(xié)議數(shù)據(jù)和負(fù)例TM與HDLC協(xié)議數(shù)據(jù)組成。為了更好的體現(xiàn)正例AOS協(xié)議數(shù)據(jù)的識別評價指標(biāo)，在實驗數(shù)據(jù)集中應(yīng)含有與正例數(shù)量相當(dāng)?shù)呢?fù)例數(shù)據(jù)，本實驗的正、負(fù)例實驗數(shù)據(jù)數(shù)量均為62768幀。由于傳輸幀長度主要區(qū)別在數(shù)據(jù)域部分，對協(xié)議的分類沒有影響，因此本章實驗部分的幀長度均以CCSDS-TM同步與信道編碼藍(lán)皮書中Turbo編碼的要求塊長度223字節(jié)為例。由于本文的實驗為兩部分，因此本文也仿真了兩種測試集。第一部分實驗的測試集誤碼率為10-7，共125536幀數(shù)據(jù)。第二部分實驗的測試集誤碼率分別為10-1，10-3，10-5，10-7，每個誤碼率均有125536幀測試數(shù)據(jù)。噪聲方式均采用高斯白噪聲。

3.1 正例數(shù)據(jù)仿真

本文正例AOS協(xié)議的仿真數(shù)據(jù)傳輸幀結(jié)構(gòu)如圖4所示，其中數(shù)據(jù)傳輸幀數(shù)據(jù)域部分為213字節(jié)。

圖4 正例數(shù)據(jù)結(jié)構(gòu)圖Fig.4 Positive example data structure

a)幀同步碼(SYN，4字節(jié))：CCSDS協(xié)議體系標(biāo)準(zhǔn)建議數(shù)據(jù)固定為“0x1ACFFC1D”；

b)幀版本號(TPVN，2bit)：這2bits字段將把數(shù)據(jù)單元標(biāo)識為推薦標(biāo)準(zhǔn)定義的傳輸幀，CCSDS標(biāo)準(zhǔn)建議的值是固定為“01”，表示虛擬信道數(shù)據(jù)單元。但是該字段包含兩位，因此會出現(xiàn)4種情況；

c)航天器標(biāo)識符(SCID，8bit)：表示航天器的標(biāo)識，每次任務(wù)中固定；

d)虛擬信道標(biāo)識符(VCID，6bit)：最多標(biāo)識64個；

e)虛擬信道幀計數(shù)(VCFC，3字節(jié))：最多224個；

f)信號域(Signal，8bit)：該域是由1位的重播標(biāo)記、1位的VC幀計數(shù)使用標(biāo)記、2位的RSVD預(yù)留位和4位的VC幀計數(shù)循環(huán)組成；

g)傳輸幀數(shù)據(jù)域(Data，213字節(jié))：數(shù)據(jù)域填充為正弦。

3.2 負(fù)例數(shù)據(jù)仿真

仿真的負(fù)例數(shù)據(jù)包含兩種協(xié)議數(shù)據(jù)，一種是TM協(xié)議[9]，另外一種是HDLC協(xié)議[10]。TM協(xié)議的仿真結(jié)構(gòu)如圖5所示[9]，其中傳輸幀數(shù)據(jù)域部分占213字節(jié)。

圖5 負(fù)例TM數(shù)據(jù)結(jié)構(gòu)圖Fig.5 Negative example TM data structure

a)幀同步碼(SYN，4字節(jié))：CCSDS協(xié)議體系標(biāo)準(zhǔn)建議數(shù)據(jù)固定為“0x1ACFFC1D”；

b)幀版本號(TPVN，2bit)：CCSDS協(xié)議體系標(biāo)準(zhǔn)建議數(shù)據(jù)固定為“00”，其他同3.1節(jié)該字段說明；

c)航天器標(biāo)識符(SCID，10bit)：表示航天器的標(biāo)識，每次任務(wù)中固定；

d)虛擬信道標(biāo)識符(VCID，3bit)：最多標(biāo)識8個；

e)OCF標(biāo)記(OCFF，1bit)：該位標(biāo)記用來表示OCF標(biāo)記是否使用。根據(jù)CCSDS協(xié)議體系標(biāo)準(zhǔn)建議，“1”表示使用該字段；“0”不使用該字段；

f)主信道幀計數(shù)(MCFC，1字節(jié))：最多256個；

g)虛擬信道幀計數(shù)(VCFC，1字節(jié))：同上；

h)傳輸幀數(shù)據(jù)域狀態(tài)(TFDFS，2字節(jié))：此部分共包含5個字段，分別是：1)傳輸幀副導(dǎo)頭標(biāo)識(TFSHF，1bit)：該標(biāo)識位用來顯示傳輸幀中此字段是否使用。根據(jù)CCSDS協(xié)議體系標(biāo)準(zhǔn)建議，“1”表示使用，“0”表示不使用，并且在整個任務(wù)過程中保持不變；2)同步標(biāo)識(SF，1bit)：插入傳輸幀數(shù)據(jù)域部分的數(shù)據(jù)類型在該標(biāo)識位顯示；3)包順序標(biāo)志(POF，1bit)：若SF為“0”，則包順序標(biāo)志為“0”，表示數(shù)據(jù)包順序標(biāo)志保留供CCSDS將來使用。若SF為“1”，包順序標(biāo)志的使用未定義；4)段長標(biāo)識符(SLI，2bits)：若SF為“0”，則段長標(biāo)識符為“11”。若SF為“1”，則段長標(biāo)識符未定義；5)首導(dǎo)頭指針(FHP，11bits)：如果SF設(shè)置為“0”，則首導(dǎo)頭指針應(yīng)包含從傳輸幀數(shù)據(jù)字段開始的第一個分組的第一個八位字節(jié)的位置，如果SF設(shè)置為全“0”，則首導(dǎo)頭指針未定義。特殊的，如果在傳輸幀數(shù)據(jù)字段中沒有數(shù)據(jù)包開始，則首導(dǎo)頭指針應(yīng)設(shè)置為“ 11111111111”。如果傳輸幀的傳輸幀數(shù)據(jù)字段中只包含空閑數(shù)據(jù)，則首導(dǎo)頭指針應(yīng)設(shè)置為“111111110”；

i)數(shù)據(jù)域(Data，213字節(jié))：數(shù)據(jù)域填充為正弦。

HDLC協(xié)議的仿真結(jié)構(gòu)如圖6所示[11]，其中傳輸幀數(shù)據(jù)域部分占217字節(jié)。

a)起始標(biāo)志(StartFlag，8bit)：數(shù)據(jù)固定為0x7E；

b)地址數(shù)據(jù)(AdressData，8bit)：數(shù)據(jù)填充方式為遞增序列；

圖6 負(fù)例HDLC數(shù)據(jù)結(jié)構(gòu)圖Fig.6 Negative HDLC data structure

c)控制數(shù)據(jù)(ControlData，8bit)：可為信息幀、監(jiān)控幀和無編碼幀[11]；

d)信息數(shù)據(jù)(Data，217字節(jié))：數(shù)據(jù)填充方式為正弦；

e)幀校驗序列字段(FrameCheckSqquence，2字節(jié))：對起始標(biāo)志字段“0x7E”和結(jié)束標(biāo)志字段“0x7E”之間的所有內(nèi)容進(jìn)行校驗；

f)結(jié)束標(biāo)志(OverFlag，8bit)：數(shù)據(jù)固定為0x7E。

4 集成學(xué)習(xí)的AOS協(xié)議識別系統(tǒng)

基于集成學(xué)習(xí)的AOS協(xié)議識別流程如圖7所示。數(shù)據(jù)預(yù)處理的主要任務(wù)是生成并轉(zhuǎn)換成完整的可用數(shù)據(jù)，其包括數(shù)據(jù)規(guī)整、數(shù)據(jù)集成、特征選取及數(shù)據(jù)標(biāo)準(zhǔn)化四部分。模型構(gòu)建的主要任務(wù)是通過調(diào)用一些簡單的基分類學(xué)習(xí)模型，從而獲得多個不同的基學(xué)習(xí)機，然后按照集成方法將基學(xué)習(xí)機組合成一個強分類學(xué)習(xí)器作為最終的集成學(xué)習(xí)機[5]，最后達(dá)到協(xié)議識別的目的。

圖7 集成學(xué)習(xí)識別流程圖Fig.7 Ensemble learning identification process

4.1 數(shù)據(jù)預(yù)處理

原始仿真數(shù)據(jù)存儲在二進(jìn)制的DAT數(shù)據(jù)文件中，為了得到規(guī)整的結(jié)構(gòu)化數(shù)據(jù)集，因此需要規(guī)整原始數(shù)據(jù)。本文根據(jù)第3節(jié)中正例AOS協(xié)議與負(fù)例TM與HDLC協(xié)議數(shù)據(jù)結(jié)構(gòu)對原始正例AOS協(xié)議數(shù)據(jù)與負(fù)例TM與HDLC協(xié)議數(shù)據(jù)分別進(jìn)行截取，從而獲得具有結(jié)構(gòu)化的正負(fù)例數(shù)據(jù)。數(shù)據(jù)規(guī)整操作共包含判定同步頭、判定幀長度、驗證幀長度和傳輸幀截取四個操做。

首先是判定同步頭，即將原始的數(shù)據(jù)文件采用模式串匹配的方法匹配同步頭。為了防止數(shù)據(jù)不完整對訓(xùn)練的影響，匹配完成后將進(jìn)行冗余剔除操作，即剔除首個同步頭之前的冗余數(shù)據(jù)。然后，進(jìn)行判定幀長度，判定幀長度的方法是比較相鄰兩個同步頭之間的差距長度。接下來進(jìn)行驗證幀長度，驗證幀長度的方法是根據(jù)連續(xù)判斷幾個傳輸幀幀長度，然后對比每個幀長度的判定結(jié)果是否相同，若大部分相同，則表明長度判定準(zhǔn)確。最后是傳輸幀截取，即根據(jù)傳輸幀長度截取每個傳輸幀；根據(jù)字段長度截取傳輸幀字段。最終獲得截取后的結(jié)構(gòu)化數(shù)據(jù)。

從圖4、圖5及圖6可知，正例與負(fù)例的數(shù)據(jù)結(jié)構(gòu)是不相同的。為了防止正負(fù)例的數(shù)據(jù)結(jié)構(gòu)不一致影響模型的訓(xùn)練，本文據(jù)根據(jù)字段的類別將正例數(shù)據(jù)和負(fù)例數(shù)集成成為具有統(tǒng)一結(jié)構(gòu)的數(shù)據(jù)集。詳細(xì)的數(shù)據(jù)集成內(nèi)容為：

1)將負(fù)例HDLC數(shù)據(jù)的StartFlag與負(fù)例TM、正例AOS數(shù)據(jù)的SYN集成為SYN；

2)負(fù)例HDLC數(shù)據(jù)的AdressData與負(fù)例TM、正例AOS數(shù)據(jù)的VCFC集成為VCFC；

3)負(fù)例HDLC數(shù)據(jù)的ControlData、負(fù)例TM數(shù)據(jù)的TFDFS與正例AOS數(shù)據(jù)的Signal集成為Signal；

4)負(fù)例HDLC、TM數(shù)據(jù)的Data與正例AOS數(shù)據(jù)的Data集成為Data。

集成后的數(shù)據(jù)集結(jié)構(gòu)如圖8所示，英文標(biāo)識含義詳見第二節(jié)。其中OCFF為OCF標(biāo)記，MCFC為主信道幀計數(shù)，F(xiàn)CS為幀校驗序列，OF為結(jié)束標(biāo)志，這四部分均為負(fù)例的結(jié)構(gòu)，詳見3.2節(jié)負(fù)例數(shù)據(jù)仿真。若數(shù)據(jù)不含該特征，則填“0”占位。y為數(shù)據(jù)標(biāo)簽，正例為1，負(fù)例為0。

圖8 數(shù)據(jù)集結(jié)構(gòu)示意圖Fig.8 Dataset structure

數(shù)據(jù)集成完成后，接下來對圖8所示的數(shù)據(jù)集的特征進(jìn)行分析及選取。根據(jù)第3節(jié)的字段含義可知，Data是一個必選字段，表示傳輸數(shù)據(jù)。但是傳輸?shù)臄?shù)據(jù)信息對協(xié)議的分類并沒有實際的意義，因此在對模型訓(xùn)練時，不選取Data特征作為訓(xùn)練特征。

對于同一特征，不同樣本中的取值可能相差非常大，一些非常小或者非常大的數(shù)據(jù)會影響模型的正常訓(xùn)練。因此本文通過標(biāo)準(zhǔn)化處理來避免極值對訓(xùn)練的影響，標(biāo)準(zhǔn)化處理計算公式如式(1)所示

(1)

式中：X'——新生成的特征值；X——原始特征值；Mean——該特征所有值的均值；StandardDeviation——該特征的標(biāo)準(zhǔn)差。

經(jīng)過數(shù)據(jù)預(yù)處理以后，即可得到可使用的結(jié)構(gòu)化和標(biāo)準(zhǔn)化的數(shù)據(jù)集。

4.2 模型構(gòu)建

由圖7可知，模型構(gòu)建是由基分類器、集成方法和強分類器三部分組成。其中，本文的基分類器為CART樹。

模型構(gòu)建的關(guān)鍵環(huán)節(jié)在于模型所采用的集成方法。目前，集成學(xué)習(xí)已經(jīng)形成了Bagging和Boosting兩種方法。

Bagging方法的過程如下：

過程：

1：Fort= 1 toT

2：ht=C(D,Dbs)，依據(jù)Bootstrap分布，隨機建立子集訓(xùn)練基分類器；

3：E=E∪Ct，將訓(xùn)練完的基分類機集成；

4：end For

輸出：強學(xué)習(xí)機E及預(yù)測結(jié)果。

該方法的主要思想是對原始訓(xùn)練集通過有放回的隨機抽樣，為每個CART樹都構(gòu)造出一個大小相同但訓(xùn)練個體不同的訓(xùn)練集，從而訓(xùn)練出有分類差異的CART樹模型[12]。在對新個體進(jìn)行預(yù)測的時候，將每個基分類器預(yù)測的結(jié)果采取多數(shù)投票的方式最終確定[12]。通過Bagging方法形成的典型的強分類器算法為隨機森林(Random Forests)算法。該方法的解釋性較強，并且由于決策結(jié)果是由多棵樹共同決定，因此該方法對異常值、缺失值都不敏感。除此之外，它還能夠處理高維數(shù)據(jù)且不需要特征選擇。

而Boosting方法的過程如下：

過程：

1：Fort= 1 toT

2：ht=C(Dt)，訓(xùn)練基分類器；

3：θ(t)=P(ht(x)≠f(x))，計算ht誤差；

4：Dt+1=Adjust(Dt,θt)，調(diào)整樣本分布；

5：E=E∪Ct，將訓(xùn)練完的基分類機集成；

6：end For

輸出：強學(xué)習(xí)機E及預(yù)測結(jié)果。

該方法的主要思想是首先在已有的樣本集上開始訓(xùn)練基分類器(即分類回歸樹)，之后在下一輪迭代過程中，將打破基分類器在已有樣本上的優(yōu)勢，提高錯誤樣本的關(guān)注度，即提高每一輪訓(xùn)練過程中錯誤樣本的權(quán)重，迫使下一個基分類器更加關(guān)注錯誤樣本[13]。與此同時，該算法還是用了加權(quán)投票的策略，即為準(zhǔn)確率較高的基分類器提高權(quán)值，進(jìn)而提高整個強分類器的分類準(zhǔn)確率[13]。采用該思想典型分類算法是Adaboost算法。而同是基于Boosting方法的梯度提升決策樹(GBDT)算法的主要思想是使用下一顆CART樹去擬合本輪CART樹產(chǎn)生的殘差，使每輪的殘值逐步減小[14]。這兩種方法均不需要復(fù)雜的特征工程。此外，它對缺失值魯棒，因此預(yù)測的結(jié)果比較穩(wěn)定。

5 模型的評價指標(biāo)

本文采用F1-score和AUC(Area Under ROC Curve)作為評價指標(biāo)。對于AOS協(xié)議識別結(jié)果有四種情況，分別是真陽性TP即預(yù)測為正，實際也為正；假陽性FP即預(yù)測為正，但實際為負(fù)；假陰性FN即預(yù)測為負(fù)，但實際為正；真陰性TN即預(yù)測為負(fù)，實際也為負(fù)。

5.1 F1分?jǐn)?shù)

F1-score是統(tǒng)計學(xué)中用來衡量分類問題中二分類問題準(zhǔn)確度的一種評價指標(biāo)，其計算公式如式(2)

(2)

式中：precision——被預(yù)測的正例中真實也為正的比例，即準(zhǔn)確率；recall——被預(yù)測的正例占總正例的比例，即召回率。

其中，

(3)

(4)

它能夠綜合考量精確率及召回率，其值的范圍是0-1，該值越大，說明該AOS協(xié)議識別系統(tǒng)的識別準(zhǔn)確率越高。

5.2 ROC曲線

ROC曲線是以假陽性率，即FP的概率為橫軸，范圍為0-1；以真陽性率，即TP的概率為縱軸，范圍為0-1。兩種概率構(gòu)成坐標(biāo)軸形成曲線圖，但是從ROC曲線圖中很難對多種模型進(jìn)行量化的比較，因此本文引入了AUC作為本實驗的評價指標(biāo)。AUC是ROC曲線下的面積，反映的是模型對樣本的排序能力，其值的范圍是0-1，且該值越大，說明該AOS協(xié)議識別系統(tǒng)的識別準(zhǔn)確率越高。

6 實驗驗證與結(jié)果分析

為了驗證基于集成學(xué)習(xí)的空間鏈路層AOS協(xié)議識別系統(tǒng)在識別AOS協(xié)議的識別準(zhǔn)確率、識別效率和高誤碼率情況下的穩(wěn)定性。本文的實驗分為兩部分，第一部分是集成學(xué)習(xí)模型與其他非集成學(xué)習(xí)模型的對比實驗；第一部分實驗將三種集成學(xué)習(xí)模型：Adaboost、GBDT及RandomForest模型與三種非集成學(xué)習(xí)算法：基于徑向基核函數(shù)的支持向量機(SVM_rbf)、基于平均權(quán)重的K鄰近(KNN_uni)、基于距離加權(quán)的K鄰近(KNN_dis)模型進(jìn)行對比。各模型參數(shù)均采用默認(rèn)參數(shù)，測試數(shù)據(jù)集的誤碼率為10-7。

根據(jù)以上兩種評價指標(biāo)，6種協(xié)議識別模型的識別結(jié)果見表1。通過對表1分析可以看出，在F1-score和AUC兩種評價指標(biāo)情況下，Adaboost、GBDT及RandomForest三種集成學(xué)習(xí)模型的識別準(zhǔn)確率與KNN_uni、KNN_dis、SVM_rbf等單學(xué)習(xí)模型的識別準(zhǔn)確率相當(dāng)，表明了該系統(tǒng)的可行性。但是，從測試運行時間上看，Adaboost、GBDT及RandomFroest三種集成學(xué)習(xí)模型的運行時間遠(yuǎn)好于KNN_uni、KNN_dis、SVM_rbf等單學(xué)習(xí)模型的運行時間，且集成模型最差的Adaboost方法運行時間比非集成學(xué)習(xí)模型最優(yōu)的SVM方法的運行時間提升95.94%，表明了該系統(tǒng)具有更好的運行效率方面的優(yōu)勢。

表1 識別模型評價結(jié)果Tab.1 Identification model evaluation results模型F1-scoreAUC測試運行時間(s)RandomForest1.0001.0001.64GBDT1.0001.0002.33Adaboost1.0001.00013.28SVM_rbf1.0001.000327.64KNN_dis1.0001.00014421.78KNN_uni1.0001.00015762.92

由于在航天任務(wù)中，傳輸數(shù)據(jù)是在帶噪聲的環(huán)境下進(jìn)行傳輸。第二部分實驗是為了驗證各該系統(tǒng)在不同誤碼率的情況下的穩(wěn)定性。該部分實驗數(shù)據(jù)采用的誤碼率分別是10-1，10-3，10-5和10-7。評價指標(biāo)采用F1-score時，在不同誤碼率的情況下，基于集成學(xué)習(xí)的AOS協(xié)議識別系統(tǒng)的識別結(jié)果見表2。評價指標(biāo)采用AUC時，在不同誤碼率的情況下，基于集成學(xué)習(xí)的AOS協(xié)議識別系統(tǒng)的識別結(jié)果見表3。

表2 不同誤碼率的結(jié)果(F1-score)Tab.2 Results of Different Bit Error Rates(F1-score)模型10-110-310-510-7RandomForest1.0001.0001.0001.000GBDT1.0001.0001.0001.000Adaboost0.9781.0001.0001.000

表3 不同誤碼率的結(jié)果(AUC)Tab.3 Results of Different Bit Error Rates(AUC)模型10-110-310-510-7RandomForest1.0001.0001.0001.000GBDT1.0001.0001.0001.000Adaboost0.9791.0001.0001.000

通過對三種集成學(xué)習(xí)算法的分析，對于基于Bagging思想的隨機森林算法而言，由于新的訓(xùn)練子集是由其有放回的采樣方式產(chǎn)生的，因此一些樣本重復(fù)采樣，而一些樣本被忽略。這導(dǎo)致基分類器對被重復(fù)采樣的樣本空間樣本有很高的分類精度，而對于被忽略的樣本則有較大誤差。但是，由于最終結(jié)果是由多個基分類器共同投票產(chǎn)生，所以當(dāng)基分類器識別精度越高且基分類器之間的差異越大時，該算法的識別效果也就越好。因此，該方法對高誤碼數(shù)據(jù)依然能保持較好的識別效果且穩(wěn)定。對于基于Boosting思想的Adaboost算法和GBDT算法來說，下一個基分類器的出現(xiàn)都是對上一個基分類器的修正，因此這樣可以有效的降低模型的偏差。但是隨著繼續(xù)訓(xùn)練，識別精度在不斷提高同時也導(dǎo)致了整體方差的變大。在訓(xùn)練過程中，就可以通過特征的隨機采樣來降低各個基分類模型的間的相關(guān)性，從而降低整體模型的方差[15]。當(dāng)主分類器無法對誤碼樣本進(jìn)行準(zhǔn)確分類時，將會把該數(shù)據(jù)傳輸?shù)叫碌妮o助分類器，并將其輔助分類器加入到模型當(dāng)中，提高模型的識別準(zhǔn)確率，保持識別穩(wěn)定性[16]。通過表2及表3看以看出，在不同誤碼率的情況下，三種基于集成學(xué)習(xí)模型的識別系統(tǒng)依然保持較高識別準(zhǔn)確率，且在高誤碼率10-1時依然保持了較好的識別效果，表明了該系統(tǒng)在高誤碼率情況下具有較好的穩(wěn)定性。

7 結(jié)束語

本文通過對集成學(xué)習(xí)方法和空間鏈路層協(xié)議研究的基礎(chǔ)上，設(shè)計一種基于集成學(xué)習(xí)的空間鏈路層AOS協(xié)議識別方法，搭建該AOS協(xié)議識別系統(tǒng)，該系統(tǒng)對空間鏈路層AOS協(xié)議在高誤碼率情況下進(jìn)行有效的識別。通過實驗對比了三種非集成學(xué)習(xí)模型，實驗結(jié)果表明該系統(tǒng)在空間鏈路層協(xié)議識別方面具有較好且穩(wěn)定的識別效果，識別效率也得到顯著提升。此外，在高誤碼率10-1時兩種評價指標(biāo)下均能保持較好且穩(wěn)定的識別效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡