陳俊夫,皮德常,張 強(qiáng)
(1. 南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106;2. 北京航天飛行控制中心,北京 100094)
衛(wèi)星是人類探測(cè)宇宙的重要設(shè)備,也是通信工具的主要載體。衛(wèi)星在惡劣的空間環(huán)境運(yùn)行,一旦發(fā)生嚴(yán)重的故障是難以進(jìn)行修復(fù)的。及時(shí)有效的異常檢測(cè)和故障定位能夠保障衛(wèi)星安全可靠的運(yùn)行[1]。因此,衛(wèi)星遙測(cè)數(shù)據(jù)異常檢測(cè)是衛(wèi)星故障早期預(yù)警中最為關(guān)鍵的一部分。
目前工程領(lǐng)域異常檢測(cè)的方法大體上可以分為兩類:基于模型的異常檢測(cè)方法和基于數(shù)據(jù)驅(qū)動(dòng)的異常檢測(cè)方法?;谀P偷漠惓z測(cè)方法需要建立精準(zhǔn)的物理模型來(lái)描述飛行器工作特征,從而達(dá)到識(shí)別異常數(shù)據(jù)的目的。例如Li等[2]采用非線性加權(quán)最小二乘估計(jì)技術(shù)對(duì)燃?xì)廨啓C(jī)建立了性能模型,該模型能夠有效預(yù)測(cè)燃?xì)廨啓C(jī)性能的退化;胡宇等[3]采用三階容積積分方法近似描述發(fā)動(dòng)機(jī)的非線性統(tǒng)計(jì)特征,改良了傳統(tǒng)的卡爾曼濾波異常檢測(cè)方法。然而,基于模型的異常檢測(cè)方法,需要具有豐富知識(shí)的領(lǐng)域?qū)<襾?lái)構(gòu)建物理模型。對(duì)于空間飛行器而言,往往有多個(gè)分系統(tǒng)組成,每個(gè)系統(tǒng)都有大量的傳感器,在飛行過(guò)程中會(huì)產(chǎn)生大量的、復(fù)雜的高維數(shù)據(jù),將導(dǎo)致基于模型的異常檢測(cè)方法在實(shí)際過(guò)程中操作難度很大。
基于數(shù)據(jù)驅(qū)動(dòng)的異常檢測(cè)不需要依賴相關(guān)領(lǐng)域知識(shí),通過(guò)對(duì)飛行器歷史數(shù)據(jù)建立有效的異常檢測(cè)模型。近年來(lái),一些基于機(jī)器學(xué)習(xí)的方法在飛行器異常檢測(cè)領(lǐng)域中陸續(xù)出現(xiàn)。例如, Codetta-Raiteri等[4]提出了利用數(shù)據(jù)特征和基于概率圖模型的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),對(duì)歐洲航天局火星探測(cè)器供配電系統(tǒng)的遙測(cè)數(shù)據(jù)進(jìn)行異常檢測(cè);康旭等[5]針對(duì)高維復(fù)雜衛(wèi)星遙測(cè)分系統(tǒng)數(shù)據(jù),利用共享近鄰算法建立相關(guān)數(shù)據(jù)集空間,并利用角度偏離算法來(lái)對(duì)遙測(cè)數(shù)據(jù)進(jìn)行異常檢測(cè)。
隨著計(jì)算能力和神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的進(jìn)展,深度學(xué)習(xí)方法也開(kāi)始用于高維時(shí)序數(shù)據(jù)的異常檢測(cè)。Zhao等[6]提出了一種面向風(fēng)力發(fā)電機(jī)組運(yùn)行監(jiān)控和數(shù)據(jù)采集的深度學(xué)習(xí)方法。該方法利用自編碼器網(wǎng)絡(luò)的輸入和輸出重構(gòu)值,來(lái)計(jì)算重構(gòu)誤差,并將其定義為反映當(dāng)前健康狀況的狀態(tài)檢測(cè)指標(biāo)。文獻(xiàn)[7]提出了一種可以學(xué)習(xí)到相位相同的樣本特征的代表性特征自編碼器,用于檢測(cè)周期性遙測(cè)數(shù)據(jù)的異常。但是,目前的大多數(shù)異常檢測(cè)方法都忽視了遙測(cè)數(shù)據(jù)的不平衡性,即正常樣本和異常樣本之間的比例嚴(yán)重失衡,這對(duì)預(yù)測(cè)模型造成嚴(yán)重的影響。同時(shí),忽略了這些深度學(xué)習(xí)模型的可遷移性。例如,利用已有訓(xùn)練好的某衛(wèi)星分系統(tǒng)異常檢測(cè)模型,去解決另一衛(wèi)星或者另一分系統(tǒng)異常檢測(cè)任務(wù)。當(dāng)目標(biāo)系統(tǒng)的異常標(biāo)簽樣本非常少時(shí),通過(guò)模型遷移可以構(gòu)建一個(gè)性能優(yōu)秀的異常檢測(cè)模型。
針對(duì)上述問(wèn)題和技術(shù)發(fā)展的需求,本文提出了一種無(wú)領(lǐng)域知識(shí)且代價(jià)敏感的一維卷積神經(jīng)網(wǎng)絡(luò)(cost-sensitiveone-dimensional CNN, cs-1dCNN)衛(wèi)星分系統(tǒng)異常檢測(cè)模型。它利用遷移學(xué)習(xí)實(shí)現(xiàn)對(duì)缺乏有標(biāo)簽數(shù)據(jù)的目標(biāo)衛(wèi)星分系統(tǒng)的異常檢測(cè)。該模型的卷積池化層,能有效提取衛(wèi)星遙測(cè)數(shù)據(jù)的局部序列視野,形成用于異常檢測(cè)的中間層序列特征。針對(duì)衛(wèi)星遙測(cè)數(shù)據(jù)樣本的不平衡問(wèn)題,引入代價(jià)敏感訓(xùn)練策略,在每個(gè)訓(xùn)練批次內(nèi)動(dòng)態(tài)修改交叉熵?fù)p失函數(shù),考慮了整體的樣本不平衡和局部小批量訓(xùn)練上的不平衡,利用微調(diào)預(yù)訓(xùn)練模型的遷移方法,對(duì)僅含少量有標(biāo)簽數(shù)據(jù)的目標(biāo)衛(wèi)星分系統(tǒng)進(jìn)行異常檢測(cè)。
本文提出一種基于1dCNN的異常檢測(cè)模型。為了更好理解這種模型的工作原理,本文先介紹傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)。
1989年LeCun等[8]提出卷積神經(jīng)網(wǎng)絡(luò)并在手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集上取得了不錯(cuò)的效果。隨后,LeCun等[9]提出卷積層和池化層兩個(gè)概念,并構(gòu)建了LeNet-5這一多層卷積網(wǎng)絡(luò)結(jié)構(gòu)。
一般來(lái)講,CNN主要包含卷積層、池化層、全連接層和激活函數(shù)構(gòu)成。圖1展示了典型的CNN處理圖像分類任務(wù)的流程。圖像輸入CNN之后,需要通過(guò)若干次卷積池化操作,提取圖像的局部特征圖,再將特征圖輸入全連接層,對(duì)其進(jìn)行分類。在CNN訓(xùn)練過(guò)程,采用梯度下降來(lái)最小化目標(biāo)函數(shù),通過(guò)多次迭代來(lái)調(diào)節(jié)網(wǎng)絡(luò)權(quán)重。
圖1 CNN處理圖像分類任務(wù)Fig.1 CNN processes image classification task
1.1.1卷積層
CNN中的卷積層來(lái)自于數(shù)學(xué)中的卷積運(yùn)算,式(1)闡述了數(shù)學(xué)卷積的定義。CNN中的二維卷積運(yùn)算本質(zhì)是對(duì)卷積核函數(shù)矩陣與圖像矩陣進(jìn)行離散卷積運(yùn)算,卷積過(guò)程如式(2)所示。
(1)
(2)
式中:f(x)和g(x)是實(shí)數(shù)集上兩個(gè)可積函數(shù),c(x)表示這兩函數(shù)的卷積結(jié)果;C(w,h)表示二維卷積結(jié)果,w和h分別表示圖像上的寬度軸和高度軸,K表示核函數(shù)矩陣,s和t分別表示卷積核在圖像寬度和高度軸上的坐標(biāo),I表示圖像矩陣,k表示卷積核矩陣的尺寸。
由式(2)可知,卷積核的尺寸小于輸入圖像尺寸,這使得在典型的CNN模型中,輸入圖像與輸出特征間具備稀疏連接的特性。將卷積核看作一個(gè)視覺(jué)窗口,在卷積層中通過(guò)設(shè)置多個(gè)卷積核,就可以得到更多圖像局部特征。同一卷積核在CNN進(jìn)行前向傳播時(shí)共享同一組參數(shù),使得卷積層具有平移不變性,并且減少了計(jì)算量。
1.1.2池化層
數(shù)據(jù)通過(guò)卷積層后,根據(jù)卷積核的數(shù)量產(chǎn)生對(duì)應(yīng)的數(shù)據(jù)通道數(shù)。池化層不改變通道數(shù)目,在不同的通道上單獨(dú)進(jìn)行。池化層主要是用來(lái)下采樣、降維、對(duì)特征進(jìn)行壓縮及減少計(jì)算量。與此同時(shí),池化層能夠?qū)W(wǎng)絡(luò)實(shí)現(xiàn)非線性化并擴(kuò)大CNN的感知視野。本文采用的是CNN中常用的最大池化層,選取數(shù)據(jù)區(qū)域內(nèi)最大值并作為該區(qū)域池化后的值,其機(jī)理可以描述為
(3)
式中:M表示通過(guò)最大池化層后得到的特征圖像矩陣,F(xiàn)表示輸入的特征圖像矩陣,h表示該特征圖像矩陣的尺寸,p表示池化區(qū)域的視野尺寸。
1.1.3全連接層
CNN在經(jīng)過(guò)一系列卷積池化層后,需要經(jīng)由若干全連接層進(jìn)行處理。第一個(gè)全連接層起到將數(shù)據(jù)“壓平”的作用,即將數(shù)據(jù)從多維度壓縮成一維數(shù)組。然后,該一維數(shù)組在全連接層的每層都采用式(4)計(jì)算。在CNN分類問(wèn)題下,最終輸出值通過(guò)softmax激活函數(shù)進(jìn)行處理,其機(jī)理如式(5)所示。
(4)
(5)
其中,O為在k分類的條件下輸出的結(jié)果矩陣,Wi和bi分別代表第i個(gè)神經(jīng)元對(duì)應(yīng)的權(quán)重及偏置。本文面對(duì)的異常檢測(cè)問(wèn)題實(shí)際上是一個(gè)二分類問(wèn)題,所以k取值為2。
與二維CNN類似,1dCNN同樣具有平移不變性及稀疏連接等特點(diǎn)。不同之處在于應(yīng)用場(chǎng)景,二維CNN常用于處理圖像等二維數(shù)據(jù),1dCNN常用于處理時(shí)序數(shù)據(jù)等一維數(shù)據(jù)。因此,1dCNN在卷積層池化層的數(shù)值計(jì)算上存在差異,這種差異可以體現(xiàn)在式(6)和式(7)中:
(6)
(7)
式中:C(w)表示一維卷積結(jié)果,w表示時(shí)序數(shù)列的寬度(長(zhǎng)度),K表示核函數(shù)矩陣,s表示卷積核在寬度軸上的坐標(biāo),I表示時(shí)序數(shù)列數(shù)組,k表示卷積核數(shù)組的尺寸;M表示通過(guò)池化后得到的特征序列,p表示池化區(qū)域的視野尺寸,F(xiàn)表示輸入的特征序列數(shù)組,h表示該特征序列數(shù)組的尺寸。
為便于理解1dCNN的工作原理,本文采用正弦型函數(shù)及一個(gè)卷積核函數(shù)構(gòu)造了一組示例。該正弦型函數(shù)的振幅為1,角頻率為0.01,初始相位為0。在此基礎(chǔ)上對(duì)1500時(shí)刻附近的數(shù)據(jù)進(jìn)行擾動(dòng),構(gòu)建的時(shí)序數(shù)據(jù)如圖2所示。
圖2 正弦函數(shù)時(shí)序數(shù)據(jù)Fig.2 Time series data of sine function
選取核函數(shù)尺寸為1000,步幅為500,提取的特征序列如圖3所示。
圖3 卷積核提取特征序列Fig.3 Feature sequences extracted by convolution kernel
圖3中,該卷積核獲取到時(shí)間序列的7個(gè)局部視野,并且能夠提取出異常時(shí)間序列片段的顯著特征。相對(duì)于原始時(shí)間序列,特征序列更顯得稀疏交互并且突出了關(guān)鍵信息。卷積核的尺寸應(yīng)該由時(shí)間序列的長(zhǎng)度以及異常行為時(shí)間尺度決定。一般來(lái)講,當(dāng)時(shí)間序列長(zhǎng)度相對(duì)于異常行為時(shí)間比例較高時(shí),應(yīng)選擇視野較寬的卷積核,這樣可以避免提取大量無(wú)用稀疏特征。反之,在時(shí)間序列較短的情況下,要盡量選擇視野較窄的卷積核,以免提取不到邊緣特征。選擇合適的卷積核步幅,對(duì)于1dCNN進(jìn)行異常行為識(shí)別尤為重要。如果選取過(guò)長(zhǎng)的卷積核步幅,對(duì)于具有異常特征的特征序列難以定位。另一方面,如果卷積核步幅過(guò)短,則提取出的特征序列則無(wú)法包含足夠的前后序列,從而難以判別是正常行為特征還是異常行為特征。
數(shù)據(jù)不平衡是異常檢測(cè)任務(wù)中的常見(jiàn)問(wèn)題。地面站接收到的衛(wèi)星遙測(cè)數(shù)據(jù),絕大部分都是正常數(shù)據(jù)。系統(tǒng)將一個(gè)異常數(shù)據(jù)誤判為正常與把一個(gè)正常數(shù)據(jù)誤判為異常,所付出的代價(jià)是不同的。異常檢測(cè)系統(tǒng)寧可誤判正常數(shù)據(jù)為異常,也不能遺漏一個(gè)異常,顯然準(zhǔn)確地識(shí)別出異常數(shù)據(jù)更為重要。為了解決這一問(wèn)題,將代價(jià)敏感應(yīng)用到了1dCNN的訓(xùn)練過(guò)程中,提出了代價(jià)敏感一維卷積神經(jīng)網(wǎng)絡(luò)(cs-1dCNN)模型。
代價(jià)敏感分類器[10]的主要優(yōu)點(diǎn)是區(qū)分處理多數(shù)樣本和少數(shù)樣本并考慮了誤分類成本的不同。分類結(jié)果可以表示為表1中的混淆矩陣。
表1 混淆矩陣Table 1 Confusion matrix
(8)
(9)
根據(jù)最小期望代價(jià)準(zhǔn)則,代價(jià)敏感分類器的期望風(fēng)險(xiǎn)可以采用如下描述:
(10)
式中:R(i|X)表示給定輸入X分為i類的期望風(fēng)險(xiǎn),P(j|X)表示給定輸入X實(shí)際屬于j類的后驗(yàn)概率,C(j,i)表示i類樣本被分類為j類時(shí)產(chǎn)生的代價(jià)。
準(zhǔn)確地計(jì)算后驗(yàn)概率一直是數(shù)學(xué)中的未解難題。因此,在神經(jīng)網(wǎng)絡(luò)中應(yīng)用經(jīng)驗(yàn)風(fēng)險(xiǎn)代替計(jì)算后驗(yàn)概率。經(jīng)驗(yàn)風(fēng)險(xiǎn)的計(jì)算如下所示:
(11)
(12)
運(yùn)用不平衡比率作為代價(jià)敏感誤分類的懲罰,可以從整體上解決數(shù)據(jù)不平衡對(duì)分類任務(wù)造成模型偏向正常樣本擬合的問(wèn)題。但是,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中采用小批量訓(xùn)練方式,固定的代價(jià)矩陣不能很好地適應(yīng)局部區(qū)域分布的不平衡。利用動(dòng)態(tài)變化的誤分類代價(jià)權(quán)重進(jìn)行自適應(yīng)更新,不僅能考慮到整體的樣本不平衡,也能考慮到局部小批量訓(xùn)練上的不平衡。
本文提出的交叉熵?fù)p失函數(shù)表示如下:
l(θ)=λ×tn×(-ln(pn))+(1-tn)×
(-ln(1-pn))
(13)
式中:θ為分類器(1dCNN)的權(quán)重參數(shù),λ是本文提出的動(dòng)態(tài)誤分類代價(jià)權(quán)重,tn和pn分別表示第n個(gè)期望輸出和預(yù)測(cè)輸出。
因此,訓(xùn)練階段整體交叉熵?fù)p失函數(shù)包含正樣本預(yù)測(cè)損失和負(fù)樣本預(yù)測(cè)損失。整體損失函數(shù),動(dòng)態(tài)誤分類代價(jià)權(quán)重和優(yōu)化目標(biāo)通過(guò)式(14)、式(15)和式(16)表示:
(14)
λn=
(15)
θ*=argminE(θ)
(16)
定義1源域:源域包含大量有標(biāo)簽的數(shù)據(jù),記作Ds。在衛(wèi)星異常檢測(cè)任務(wù)中,源域是擁有人工標(biāo)簽的某衛(wèi)星遙測(cè)數(shù)據(jù)。
遷移學(xué)習(xí)通過(guò)映射函數(shù)將源域樣本和目標(biāo)域樣本映射到相同的分布空間,通過(guò)這種方式,使得源域樣本的知識(shí)能夠用于解決目標(biāo)域任務(wù)。本文進(jìn)行的衛(wèi)星異常檢測(cè)模型遷移任務(wù)如圖4所示。
圖4 衛(wèi)星異常檢測(cè)模型遷移任務(wù)Fig.4 Transfer task of satellite anomaly detection model
目前主流的遷移學(xué)習(xí)方法在圖像領(lǐng)域得到廣泛的運(yùn)用[11],一些經(jīng)典的CNN框架如VGG和RESNET等都公開(kāi)了其預(yù)訓(xùn)練模型。在衛(wèi)星遙測(cè)異常檢測(cè)領(lǐng)域,乃至整個(gè)一維序列數(shù)據(jù)方面,目前還沒(méi)有一個(gè)公認(rèn)的經(jīng)典網(wǎng)絡(luò)架構(gòu)。因此,為了讓遷移的效果得到保證,采用1dCNN進(jìn)行遷移學(xué)習(xí)。1dCNN和圖像領(lǐng)域的CNN類似,它能夠處理高維數(shù)據(jù),提取和選擇局部特征。
根據(jù)圖4,在源域上利用衛(wèi)星A數(shù)據(jù)訓(xùn)練1dCNN的特征提取和選擇能力,然后將神經(jīng)網(wǎng)絡(luò)的部分網(wǎng)絡(luò)層遷移到目標(biāo)域衛(wèi)星B中訓(xùn)練,并通過(guò)目標(biāo)域的少量有標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào),來(lái)保證目標(biāo)域異常檢測(cè)效果。本文提出的1dCNN和cs-1dCNN的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置將在第4.2節(jié)介紹。
本文所有實(shí)驗(yàn)基于pytorch1.0和python3.7.1的編程環(huán)境。實(shí)驗(yàn)數(shù)據(jù)來(lái)自某兩個(gè)衛(wèi)星(分別簡(jiǎn)稱為衛(wèi)星A和衛(wèi)星B)的同一分系統(tǒng)的部分遙測(cè)數(shù)據(jù),衛(wèi)星數(shù)據(jù)屬性已被隱藏。本實(shí)驗(yàn)隨機(jī)選取衛(wèi)星A和衛(wèi)星B各100000條數(shù)據(jù)記錄。其中,異常數(shù)據(jù)皆占比4%,即4000條異常數(shù)據(jù)。不選取兩衛(wèi)星的全體數(shù)據(jù)而是抽取兩衛(wèi)星數(shù)量相同的部分?jǐn)?shù)據(jù)的原因:一方面,選取同樣數(shù)量數(shù)據(jù)方便模型從衛(wèi)星A遷移到衛(wèi)星B,以及從衛(wèi)星B遷移到衛(wèi)星A的對(duì)比;另一方面,僅部分采樣衛(wèi)星遙測(cè)數(shù)據(jù)造成采樣數(shù)據(jù)的有偏分布,可以測(cè)試本文提出的遷移模型在映射源域到目標(biāo)域上的模型性能的魯棒性。
利用本文提出的方法對(duì)衛(wèi)星遙測(cè)數(shù)據(jù)異常檢測(cè)任務(wù)遷移分為如下三個(gè)步驟:數(shù)據(jù)預(yù)處理、使用源域數(shù)據(jù)進(jìn)行模型預(yù)訓(xùn)練和使用目標(biāo)域數(shù)據(jù)進(jìn)行模型微調(diào)。實(shí)施的過(guò)程如圖5所示。
圖5 基于cs-1dCNN的遷移學(xué)習(xí)異常檢測(cè)模型框架Fig.5 Frame of transfer learning anomaly detection model based on cs-1dCNN
4.2.1評(píng)價(jià)指標(biāo)
由于衛(wèi)星異常檢測(cè)任務(wù)中樣本類別的不均衡性,正常樣本數(shù)目遠(yuǎn)遠(yuǎn)多于異常樣本數(shù)目。如果簡(jiǎn)單地使用準(zhǔn)確率作為評(píng)價(jià)指標(biāo),那些傾向于將未知樣本分類為多數(shù)類的模型會(huì)被認(rèn)為是分類能力較好的模型,因此本實(shí)驗(yàn)使用多個(gè)評(píng)價(jià)指標(biāo)度量模型的優(yōu)劣。這些評(píng)價(jià)指標(biāo)為:準(zhǔn)確率、精準(zhǔn)率、召回率及F1,其值分別如式(17)、式(18)和式(19)所示:
(17)
(18)
(19)
4.2.2對(duì)比方法及網(wǎng)絡(luò)結(jié)構(gòu)
將提出的模型與一些用于異常檢測(cè)或時(shí)序數(shù)據(jù)分類任務(wù)的遷移學(xué)習(xí)方法做了詳細(xì)的比較。對(duì)比方法共包括兩種非深度學(xué)習(xí)遷移和三種深度學(xué)習(xí)遷移方法。
SVM:支持向量機(jī)是經(jīng)典的機(jī)器學(xué)習(xí)算法,廣泛應(yīng)用于諸多分類任務(wù)。參考Aytar[12]提出的基于SVM的遷移算法,將其運(yùn)用于本實(shí)驗(yàn)的衛(wèi)星異常檢測(cè)任務(wù)上。
GFK:Gong等[13]提出一種基于核的方法,利用這種結(jié)構(gòu)集成無(wú)窮多個(gè)子空間來(lái)模擬從源到目標(biāo)域的幾何和統(tǒng)計(jì)特性的變化,對(duì)域遷移進(jìn)行建模。
TCN:Fawaz等[14]從一個(gè)預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對(duì)模型進(jìn)行微調(diào),而不是從零開(kāi)始訓(xùn)練,提升了時(shí)間序列分類任務(wù)。
1dCNN:1dCNN是本文提出的基于一維卷積網(wǎng)絡(luò)的異常檢測(cè)模型。其結(jié)構(gòu)參數(shù)設(shè)置如表2和圖6所示。
cs-1dCNN:cs-1dCNN是在1dCNN基礎(chǔ)上引入一種代價(jià)敏感損失函數(shù),旨在解決遙測(cè)數(shù)據(jù)極度不平衡對(duì)于檢測(cè)結(jié)果的影響。
為了公平地對(duì)比實(shí)驗(yàn),本文提及的三種深度學(xué)習(xí)遷移模型都采用adam優(yōu)化器,學(xué)習(xí)率都為0.001,第一階矩為0.9,第二階矩為0.999。三種遷移模型都采用不凍結(jié)任何層的方式進(jìn)行微調(diào)。對(duì)于cs-1dCNN,衛(wèi)星A和衛(wèi)星B數(shù)據(jù)集的Uover都為24。
在本文的遷移學(xué)習(xí)任務(wù)中,當(dāng)源域和目標(biāo)域分別為衛(wèi)星A和衛(wèi)星B。為了提升遷移學(xué)習(xí)的效果,將衛(wèi)星A所有數(shù)據(jù)作訓(xùn)練集,以尋找最優(yōu)的模型參數(shù)。在每一個(gè)訓(xùn)練周期開(kāi)始時(shí),先隨機(jī)地將訓(xùn)練集切分成若干批次作為模型的輸入。通過(guò)最小化損失函數(shù)對(duì)模型參數(shù)進(jìn)行訓(xùn)練,每一個(gè)訓(xùn)練代數(shù)結(jié)束后,記錄模型的參數(shù)和模型在訓(xùn)練集上的F1值,最終選取F1值最高的模型參數(shù)作為衛(wèi)星B的預(yù)訓(xùn)練模型。若源域和目標(biāo)域分別為衛(wèi)星B和衛(wèi)星A,則將衛(wèi)星B所有數(shù)據(jù)作訓(xùn)練集,其余步驟類似。
圖7展示了cs-1dCNN模型在衛(wèi)星A遙測(cè)數(shù)據(jù)上的表現(xiàn)。橫坐標(biāo)為訓(xùn)練代數(shù),縱坐標(biāo)為F1,當(dāng)epoch為46時(shí),之后連續(xù)10個(gè)epoch的表現(xiàn)都沒(méi)有提高。因此認(rèn)為模型參數(shù)在這一代已經(jīng)達(dá)到最優(yōu)。
表2 網(wǎng)絡(luò)1dCNN的參數(shù)Table 2 Parameters of 1dCNN
表3展示了各種模型從源域衛(wèi)星A遷移到目標(biāo)域衛(wèi)星B時(shí),在異常檢測(cè)任務(wù)上的表現(xiàn)。表4展示了從源域衛(wèi)星B遷移到目標(biāo)域A時(shí),各模型的表現(xiàn)。其中,采用5%的目標(biāo)域衛(wèi)星數(shù)據(jù)來(lái)微調(diào)三種深度學(xué)習(xí)預(yù)訓(xùn)練模型。而對(duì)于SVM和GFK兩種傳統(tǒng)模型,將5%的目標(biāo)域有標(biāo)簽數(shù)據(jù)與源域中有標(biāo)簽數(shù)據(jù)一起訓(xùn)練。剩余的95%數(shù)據(jù)作為測(cè)試集。針對(duì)樣本的不平衡分布,為了避免隨機(jī)性帶來(lái)的負(fù)遷移,抽取的方式按正負(fù)樣本比例1∶24抽取,隨機(jī)抽取20次取平均表現(xiàn)結(jié)果。
圖6 1dCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Architecture of 1dCNN
圖7 選擇最優(yōu)模型Fig.7 Choose the best model
表3 衛(wèi)星A遷移到衛(wèi)星B的異常檢測(cè)結(jié)果表現(xiàn)Table 3 Performance of anomaly detection when transferring from satellite A to satellite B
表4 衛(wèi)星B遷移到衛(wèi)星A的異常檢測(cè)結(jié)果表現(xiàn)Table 4 Performance of anomaly detection when transferring from satellite B to satellite A
通過(guò)比較表3和表4的結(jié)果不難發(fā)現(xiàn),本文提出的cs-1dCNN模型在多個(gè)指標(biāo)上優(yōu)于其他算法,具有更好的可遷移性。
在所有的實(shí)驗(yàn)結(jié)果中,若僅看準(zhǔn)確率指標(biāo),所有的模型均取得了不錯(cuò)的結(jié)果。這是由于衛(wèi)星遙測(cè)數(shù)據(jù)樣本極度不平衡導(dǎo)致的指標(biāo)失效,準(zhǔn)確率指標(biāo)無(wú)法體現(xiàn)更注重的異常樣本的分類結(jié)果。因此,在評(píng)價(jià)體系中添加了精準(zhǔn)率、召回率和F1這三種指標(biāo)來(lái)度量模型對(duì)異常樣本的檢測(cè)情況。
在所有的比較方法中,非深度學(xué)習(xí)方法,如遷移模型SVM和GFK的異常檢測(cè)結(jié)果較差,其F1值未能達(dá)到60%。尤其是GFK模型,在進(jìn)行遷移的過(guò)程中涉及到矩陣分解,在使用小樣本(僅5%目標(biāo)域數(shù)據(jù))進(jìn)行訓(xùn)練時(shí),導(dǎo)致采樣失衡,效果很不理想。
對(duì)于三種基于深度學(xué)習(xí)的遷移模型,無(wú)論在衛(wèi)星A遷移到衛(wèi)星B,還是衛(wèi)星B遷移到衛(wèi)星A,異常檢測(cè)的效果都不錯(cuò)(F1高于70%),均遠(yuǎn)優(yōu)于SVM和GFK模型。TCN和提出的1dCNN和cs-1dCNN模型,通過(guò)卷積核能夠提取遙測(cè)數(shù)據(jù)的中間特征。這些特征如圖3展示,往往能夠輔助異常檢測(cè)任務(wù),并且易于在相似的任務(wù)之間實(shí)現(xiàn)模型的遷移。
對(duì)于提出的1dCNN模型,從衛(wèi)星A遷移到衛(wèi)星B的異常檢測(cè)任務(wù)上,要比TCN模型的F1值高出3.7%,在衛(wèi)星B遷移到衛(wèi)星A任務(wù)上僅高出0.08%。TCN是當(dāng)前時(shí)序數(shù)據(jù)分類中前沿的模型,所構(gòu)建的1dCNN已經(jīng)能與之性能相近,在本實(shí)驗(yàn)中略勝于它。總體來(lái)講,設(shè)計(jì)的1dCNN網(wǎng)絡(luò)結(jié)構(gòu)更深層次地提取了遙測(cè)數(shù)據(jù)的中間特征,更適合異常檢測(cè)任務(wù)。
盡管1dCNN和TCN模型已經(jīng)取得了不錯(cuò)的分類效果,但它們的綜合表現(xiàn)依然不及引入代價(jià)敏感訓(xùn)練策略的cs-1dCNN模型。對(duì)于衛(wèi)星異常檢測(cè)而言,更應(yīng)該關(guān)注在準(zhǔn)確率不受影響的前提下,對(duì)異常樣本的識(shí)別。因此,進(jìn)一步觀察召回率和F1值這兩個(gè)能反映模型識(shí)別衛(wèi)星異常數(shù)據(jù)(不平衡類別中處于少量)的指標(biāo)。在1dCNN引入代價(jià)敏感分類策略后,可明顯觀察到召回率的大幅提升。提出的代價(jià)敏感策略,通過(guò)動(dòng)態(tài)調(diào)整異常樣本訓(xùn)練時(shí)損失函數(shù)權(quán)重,能解決數(shù)據(jù)不平衡問(wèn)題,并且能應(yīng)用于遷移模型。
為了研究目標(biāo)域的有標(biāo)簽數(shù)據(jù)量對(duì)模型異常檢測(cè)效果的影響,在微調(diào)預(yù)訓(xùn)練模型時(shí),依次增加目標(biāo)域有標(biāo)簽數(shù)據(jù)的數(shù)量。以任務(wù)衛(wèi)星A遷移到衛(wèi)星B為例,圖7展示了當(dāng)目標(biāo)域的有標(biāo)簽數(shù)據(jù)分別占比為5%,10%,15%,20%時(shí),TCN,1dCNN和cs-1dCNN的表現(xiàn)結(jié)果。
由圖7可知,隨著目標(biāo)域有標(biāo)簽樣本數(shù)量增加,TCN,1dCNN和cs-1dCNN模型在召回率和F1兩種指標(biāo)上都有提升。雖然三種模型的F1綜合指標(biāo)逐漸接近,但是cs-1dCNN仍領(lǐng)先另外兩種模型約5%。在樣本量從5%提升到20%時(shí),三種模型的召回率分別提升了3.29%,3.62%和2.31%。但是,前兩種模型仍與cs-1dCNN有著約10%的差距。由此可見(jiàn),采用代價(jià)損失訓(xùn)練策略可以很好地提升分類器對(duì)異常樣本的分類效果,這對(duì)樣本不平衡的遙測(cè)數(shù)據(jù)異常檢測(cè)任務(wù)尤其關(guān)鍵。
圖8 不同數(shù)量的有標(biāo)簽數(shù)據(jù)下異常檢測(cè)結(jié)果Fig.8 Anomaly detection results in different quantities of labelled data
針對(duì)衛(wèi)星遙測(cè)數(shù)據(jù)樣本分布不平衡和缺乏有標(biāo)簽的問(wèn)題,提出一種代價(jià)敏感的一維卷積網(wǎng)絡(luò)模型,并對(duì)模型進(jìn)行遷移,解決了有標(biāo)簽數(shù)據(jù)不足情況下的衛(wèi)星遙測(cè)數(shù)據(jù)異常檢測(cè)問(wèn)題。采用一維卷積核獲取衛(wèi)星高維數(shù)據(jù)的局部序列視野,并且能夠提取出異常序列數(shù)據(jù)片段的顯著特征。引入代價(jià)敏感訓(xùn)練策略,在每個(gè)訓(xùn)練批次內(nèi)動(dòng)態(tài)修改交叉熵?fù)p失函數(shù),這樣不僅考慮了整體的樣本不平衡,也考慮了局部小批量訓(xùn)練上的不平衡。實(shí)驗(yàn)證明提出的方法能夠解決小樣本不平衡衛(wèi)星遙測(cè)數(shù)據(jù)的異常檢測(cè)。
本文提出的衛(wèi)星遙測(cè)數(shù)據(jù)異常檢測(cè)模型目前僅在不同衛(wèi)星同一分系統(tǒng)之間的遷移。在未來(lái)的工作中,考慮研究不同衛(wèi)星不同分系統(tǒng)構(gòu)成的源域和目標(biāo)域之間的模型遷移。此外,如何衡量衛(wèi)星分系統(tǒng)遷移的可行性,避免負(fù)遷移對(duì)異常檢測(cè)效果造成影響,也是一個(gè)值得研究的內(nèi)容。