李 虎,郭國航,胡 鈦,楊甲森,董振興
(1. 中國科學(xué)院國家空間科學(xué)中心 空間科學(xué)衛(wèi)星運(yùn)控部, 北京 100190; 2.中國科學(xué)院大學(xué), 北京 100049; 3. 中國科學(xué)院國家空間科學(xué)中心 復(fù)雜航天系統(tǒng)電子信息技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100190)
有效載荷是實(shí)現(xiàn)航天任務(wù)目標(biāo)的關(guān)鍵組成部分,直接決定任務(wù)的成敗。遙測數(shù)據(jù)是地面運(yùn)管人員判斷有效載荷在軌運(yùn)行狀態(tài)最重要的依據(jù)[1]。傳統(tǒng)地面運(yùn)管系統(tǒng)主要提供基于門限的常規(guī)參數(shù)級判讀,狀態(tài)判別則需要專家系統(tǒng)支持。航天任務(wù)中有效載荷功能各異,設(shè)備參數(shù)更多,工作方式更復(fù)雜,地面運(yùn)管系統(tǒng)面臨載荷設(shè)備遙測參數(shù)維度高、數(shù)據(jù)量大、類別不平衡和無法直觀判別設(shè)備運(yùn)行狀況等新問題。如何進(jìn)行高效在軌任務(wù)監(jiān)視、載荷任務(wù)調(diào)度和參數(shù)優(yōu)化設(shè)計(jì)等,決定了有效載荷運(yùn)行的科學(xué)性和有效性。
基于遙測數(shù)據(jù)的航天器統(tǒng)計(jì)學(xué)習(xí)方法,可構(gòu)建不完全依賴于航天器領(lǐng)域知識[2],由數(shù)據(jù)驅(qū)動(dòng)的分析模型和方法。當(dāng)前國內(nèi)外學(xué)者主要的研究方向是面向在軌航天器故障異常發(fā)現(xiàn)[3]和衛(wèi)星平臺參數(shù)判讀,其中海量遙測參數(shù)數(shù)據(jù)降維和特征選取方面主要采用主成分分析(Principal Component Analysis, PCA)[4]方法,即主要采用基于時(shí)間序列[5]的相似性度量和回歸預(yù)測。文獻(xiàn)[6]采用主成分分析理論對高維遙測數(shù)據(jù)進(jìn)行降維處理,從高維數(shù)據(jù)集中提取低維特征組合,設(shè)計(jì)了航天器故障定位檢測算法。文獻(xiàn)[7]針對衛(wèi)星姿態(tài)故障類型和故障源難以辨識問題,利用主成分分析測量衛(wèi)星姿態(tài)與傳感器之間遙測數(shù)據(jù)特征值比例變化進(jìn)行故障判斷。文獻(xiàn)[8]對運(yùn)載火箭飛行過程積累的歷史數(shù)據(jù)進(jìn)行分析,提出一種基于歷史數(shù)據(jù)統(tǒng)計(jì)特性的遙測緩變參數(shù)自動(dòng)判讀方法。文獻(xiàn)[9]在“天繪一號”01星任務(wù)中提出一種基于數(shù)據(jù)庫軟件的遙測數(shù)據(jù)快速處理方法和衛(wèi)星重點(diǎn)參數(shù)監(jiān)視判讀方法。文獻(xiàn)[10]以極限學(xué)習(xí)機(jī)(Extreme Learning Machines, ELM)預(yù)測模型為基礎(chǔ),采用集成學(xué)習(xí)方法對目標(biāo)參數(shù)在時(shí)間維度上的變化趨勢進(jìn)行預(yù)測和判讀。文獻(xiàn)[11]采用仿真模型對大型充液衛(wèi)星的在軌模式進(jìn)行識別。上述文獻(xiàn)基于遙測參數(shù)處理分析應(yīng)用研究,圍繞航天器通用分系統(tǒng)故障和衛(wèi)星平臺參數(shù)判讀積累了豐富的經(jīng)驗(yàn),所采用的主成分分析方法屬于“壓縮式”降維,主要存在以下問題:①缺乏對有效載荷設(shè)備狀態(tài)判別的研究;②所使用的方法、模型對類別不平衡支持不夠友好;③對面向主題的高維數(shù)據(jù)特征選擇缺少可解釋性;④分析結(jié)果無法提供影響因素的豐富信息。一方面,航天器任務(wù)分析對解釋性有較高要求,分析方法和結(jié)果要能按遙測量進(jìn)行準(zhǔn)確的人工一致性驗(yàn)證。另一方面,載荷儀器的高精密性、復(fù)雜性和任務(wù)安排的高靈活性,要求地面運(yùn)管工作盡可能全面地覆蓋載荷領(lǐng)域知識。這些對地面運(yùn)管系統(tǒng)和運(yùn)管人員提出了挑戰(zhàn)。因此,本文提出一種將信息增益特征篩選方法和集成學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)應(yīng)用于航天任務(wù)運(yùn)行工作的遙測參數(shù)數(shù)據(jù)載荷設(shè)備狀態(tài)判別方法,以支持面向載荷設(shè)備任務(wù)模式的遙測參數(shù)數(shù)據(jù)自適應(yīng)學(xué)習(xí)和判別。
定義1TM={tmj|j=1,2,…,n}為載荷遙測參數(shù)集合,tmj為第j維遙測參數(shù)。
(1)
定義3P={pk|k=1,2,…,l}為任務(wù)有效載荷設(shè)備集合,pk表示第k載荷設(shè)備狀態(tài)。
定義4載荷設(shè)備狀態(tài)向量U(i):
(2)
h:ΩTM→ΩP1×ΩP2×…×ΩPl
(3)
給定多標(biāo)簽訓(xùn)練樣本集D={(TM(i),P(i))|1≤i≤s},對于每條樣本記錄(TM(i),P(i)),TM(i)∈ΩTM為記錄的n維特征向量,P(i)∈ΩP1×ΩP2×…×ΩPl為記錄TM(i)對應(yīng)的標(biāo)簽。則給定樣本記錄數(shù)據(jù)集D中學(xué)習(xí)到多標(biāo)簽分類器為:
h(TM(i))=P(i)
(4)
標(biāo)簽相關(guān)性是指多標(biāo)簽問題中,數(shù)據(jù)集中樣本所屬的標(biāo)簽類別之間具有的相關(guān)性[13],例如互相獨(dú)立或互斥?;谶b測參數(shù)數(shù)據(jù)的載荷設(shè)備狀態(tài)判別時(shí),由于航天器任務(wù)載荷間的協(xié)作關(guān)系,航天器任務(wù)多載荷單機(jī)設(shè)備狀態(tài)對應(yīng)的多標(biāo)簽之間存在相關(guān)性,高維度標(biāo)簽和分類數(shù)量會影響學(xué)習(xí)訓(xùn)練的復(fù)雜度和運(yùn)算量,而借助載荷單機(jī)設(shè)備間的協(xié)作相關(guān)性,可實(shí)現(xiàn)多標(biāo)簽空間的降維,將問題轉(zhuǎn)化為多分類問題。
類別不平衡是指分類問題中出現(xiàn)有些類別的樣本量非常少,呈現(xiàn)出不同類別所對應(yīng)的樣本量分布不均勻。類別不平衡會影響以樣本量權(quán)重為依據(jù)的模型分類準(zhǔn)確率。遙測參數(shù)數(shù)據(jù)在載荷工作狀態(tài)中類別不平衡現(xiàn)象較普遍,航天任務(wù)工作模式調(diào)度決定了處于特定工作狀態(tài)的載荷遙測參數(shù)樣本占比比較低,這些狀態(tài)的判別不能出現(xiàn)漏判或誤判。在遙測數(shù)據(jù)的載荷設(shè)備狀態(tài)判別領(lǐng)域,需要能夠準(zhǔn)確判別各類狀態(tài),載荷設(shè)備狀態(tài)擬合能覆蓋到不均勻的樣本集。
設(shè)計(jì)基于遙測參數(shù)原始數(shù)據(jù)進(jìn)行載荷單機(jī)設(shè)備狀態(tài)判別,步驟如下:
步驟1:依據(jù)定義2和定義4所提遙測參數(shù)數(shù)據(jù)向量和載荷設(shè)備狀態(tài)向量對樣本數(shù)據(jù)建立多標(biāo)簽,按照時(shí)標(biāo)形成問題模型中對應(yīng)的記錄組。
步驟3:根據(jù)任務(wù)調(diào)度時(shí)間表對記錄組進(jìn)行采樣,分別建立訓(xùn)練集、測試集。
基于問題模型和遙測參數(shù)數(shù)據(jù)分析設(shè)計(jì)算法框架,見圖1。首先,根據(jù)航天器分包遙測得到的海量載荷遙測原始數(shù)據(jù)集和載荷任務(wù)狀態(tài)文件,進(jìn)行原始數(shù)據(jù)數(shù)值化、合并和解析處理等;然后采用3σ原則一階數(shù)據(jù)差分[14]進(jìn)行野值剔除,并根據(jù)遙測數(shù)據(jù)星上時(shí)和載荷狀態(tài)進(jìn)行時(shí)間對標(biāo)和分段篩選得到樣本特征集;最后基于樣本統(tǒng)計(jì)的性質(zhì)、信息增益和任務(wù)屬性進(jìn)行特征篩選和多標(biāo)簽特征問題轉(zhuǎn)化。其中,載荷狀態(tài)數(shù)據(jù)以可擴(kuò)展標(biāo)記語言(eXtensible Markup Language, XML)格式組織。
梯度提升樹是集成學(xué)習(xí)的主要方法之一,其綜合了加法模型、回歸樹模型和梯度提升算法,可更好地?cái)M合訓(xùn)練數(shù)據(jù)。這種線性組合分類器通過改變樣本的權(quán)重可以適應(yīng)類別不平衡問題,并引入bagging和正則化項(xiàng)方法應(yīng)對樣本數(shù)據(jù)中的噪聲。梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)基于弱學(xué)習(xí)器,經(jīng)多次迭代得到特征切分點(diǎn)構(gòu)成強(qiáng)分類器,并在迭代的每一步構(gòu)建沿梯度最陡的方向降低損失的學(xué)習(xí)器來彌補(bǔ)已有模型的不足,每個(gè)弱學(xué)習(xí)器記錄損失函數(shù)的梯度殘差[15]。梯度提升決策樹見圖2。
圖1 算法框架Fig.1 Algorithm framework
圖2 梯度提升決策樹Fig.2 Gradient boosting decision tree
文中設(shè)計(jì)的算法是基于梯度提升的集成學(xué)習(xí)算法,最終構(gòu)建遙測參數(shù)原始數(shù)據(jù)與載荷狀態(tài)的映射關(guān)系。將1.2節(jié)定義的多標(biāo)簽遙測參數(shù)數(shù)據(jù)集D作為輸入,多標(biāo)簽分類器h(·)為輸出。梯度提升決策樹模型表示為弱分類器的加法模型:
(5)
其中,T(tm;Θm)為弱分類器,Θm為弱分類器的參數(shù),M為弱分類器的個(gè)數(shù)。
式(5)中第m個(gè)弱分類器在第i個(gè)樣本的梯度殘差為:
(6)
其中,L為損失函數(shù)。
模型特征降維的可解釋性要求為獲得的新特征集能與人工歸因一致,模型解釋的關(guān)鍵在于特征貢獻(xiàn)度,因此需要特征選擇方法盡可能保留參數(shù)信息并不失可解釋性。本文根據(jù)樣本特征集的統(tǒng)計(jì)量性質(zhì),借助信息增益分析載荷狀態(tài)樣本特征集分布特性,剔除與目標(biāo)問題相關(guān)性低和參數(shù)間相關(guān)度高的冗余特征,完成特征篩選和降維,保留重點(diǎn)參數(shù)特征以提高載荷單機(jī)狀態(tài)判別模型的訓(xùn)練效率和準(zhǔn)確度。方法主要包括皮爾遜相關(guān)系數(shù)[16]、方差和信息熵增益計(jì)算等,與主成分分析、互信息方法相比,效率更高并可以保留載荷參數(shù)信息。
1)航天器任務(wù)皮爾遜相關(guān)系數(shù),即
(7)
其中:ρ2(a,b)=1表示兩變量相關(guān),ρ2(a,b)=0表示變量不相關(guān);ρ2(a,b)接近1,表示兩變量線性關(guān)系密切,ρ2(a,b)值越小表示兩變量的線性相關(guān)越弱。
對遙測數(shù)據(jù)特征樣本集計(jì)算兩者間的相關(guān)系數(shù),若滿足|ρ2(a,b)-1|≤ε,則保留其中之一特征。
2)遙測數(shù)據(jù)的一個(gè)特點(diǎn)是有大量的恒定值或緩變值,這些值給分類模型帶來運(yùn)算量,也會干擾模型的準(zhǔn)確率,需根據(jù)樣本方差性質(zhì)去除該類遙測數(shù)據(jù)。由于特征方差小表示該特征中多數(shù)樣本值接近,分類效果不足;特征方差大表示該特征樣本值差別較大,因此設(shè)計(jì)刪除低方差的特征。
3)信息增益。熵可表示隨機(jī)變量的不確定性,根據(jù)隨機(jī)變量的概率分布將熵定義為
(8)
其中,pi是隨機(jī)變量的概率。熵只依賴于隨機(jī)變量的分布,與Pi取值無關(guān)。
根據(jù)隨機(jī)變量的條件概率可得條件熵
(9)
特征A對訓(xùn)練數(shù)據(jù)集D的信息增益定義為集合D的經(jīng)驗(yàn)熵H(D)與特征A給定條件的經(jīng)驗(yàn)條件熵H(D|A)的差,見式(10)。
g(D,A)=H(D)-H(D|A)
(10)
根據(jù)載荷狀態(tài)標(biāo)簽特征集和遙測參數(shù)特征樣本特征集,遍歷各參數(shù)特征對載荷狀態(tài)標(biāo)簽的信息增益,獲得增益排序Rank,選擇信息增益大的特征。
通過皮爾遜相關(guān)系數(shù)、方差和信息增益計(jì)算等處理,可盡可能保留遙測參數(shù)的原始信息,并實(shí)現(xiàn)特征維度的降低,同時(shí)兼顧可解釋性和模型有效性。
根據(jù)1.2節(jié)中問題模型和2.2節(jié)中算法模型,設(shè)計(jì)基于遙測數(shù)據(jù)的載荷狀態(tài)判別算法如下:
步驟2:計(jì)算遙測參數(shù)特征集任意二者間的Pearson相關(guān)系數(shù),對線性相關(guān)度高的特征參數(shù)進(jìn)行處理,保留其中之一特征,得到本步驟篩選后的遙測參數(shù)特征集TM′。
步驟4:使用GBDT算法進(jìn)行迭代:
1)初始化弱學(xué)習(xí)器:
(11)
2)m=1,2,…,M,M即弱學(xué)習(xí)器數(shù)目上限,迭代流程如下:
①對樣本特征集TM″,計(jì)算負(fù)梯度殘差
(12)
②將殘差作為新樣本值得到下棵樹的數(shù)據(jù)集{TM″,rmi},得到新的回歸樹hm(tm)對應(yīng)的葉子節(jié)點(diǎn)區(qū)域Rjm(j=1,2…,J),J為該回歸樹的葉子節(jié)點(diǎn)數(shù)目。
③根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化準(zhǔn)則對回歸樹的葉子區(qū)域進(jìn)行計(jì)算最佳擬合
(13)
④更新學(xué)習(xí)器
(14)
3)得到最終學(xué)習(xí)器
(15)
實(shí)驗(yàn)驗(yàn)證在Python集成開發(fā)環(huán)境Pycharm,采用Scikit-learn機(jī)器學(xué)習(xí)庫實(shí)現(xiàn)算法,以量子科學(xué)實(shí)驗(yàn)衛(wèi)星6臺載荷的在軌運(yùn)行數(shù)據(jù)為樣本,對基于遙測參數(shù)數(shù)據(jù)的載荷單機(jī)設(shè)備狀態(tài)判別算法進(jìn)行驗(yàn)證。實(shí)驗(yàn)中遙測數(shù)據(jù)特征集是根據(jù)任務(wù)分包遙測從遙測原始數(shù)據(jù)中抽取,6臺載荷單機(jī)設(shè)備的載荷設(shè)備狀態(tài)向量對應(yīng)5種工作模式組合,將這些模式轉(zhuǎn)化成多標(biāo)簽分類問題。經(jīng)過實(shí)驗(yàn)驗(yàn)證,提取特征維度為p=6,弱分類器個(gè)數(shù)為150時(shí),可以得到最優(yōu)的載荷單機(jī)狀態(tài)識別效果。
模型評價(jià)指標(biāo)采用準(zhǔn)確率(Acc)和F1-Score。Acc計(jì)算正確預(yù)測樣本占總樣本的百分比,代表所有類的整體分類表現(xiàn);F1-Score通過精確率(Precision)和召回率(Recall)對分類器進(jìn)行整體評價(jià),高F1-Score意味著分類器對少數(shù)類別和多數(shù)類別均能識別。對于K個(gè)類別:
(16)
(17)
式(16)和式(17)為準(zhǔn)確率和F1-Score的計(jì)算方法。TPi、TNi、FPi、FNi分別代表樣本i識別為樣本i,非樣本i識別為非樣本i,非樣本i識別為樣本i,樣本i識別為非樣本i。
實(shí)驗(yàn)從三個(gè)方面進(jìn)行:①將遙測原始數(shù)據(jù)按照2.3節(jié)所述方法處理,計(jì)算每維數(shù)據(jù)相對于標(biāo)簽的信息增益(Information Gain, IG),構(gòu)建特征樣本集,并劃分為訓(xùn)練集和測試集;②對比不同特征參數(shù)組合下GBDT模型實(shí)驗(yàn)性能,選擇最優(yōu)特征參數(shù);③和其他算法進(jìn)行對比實(shí)驗(yàn),驗(yàn)證所提方法的有效性。
選取量子科學(xué)實(shí)驗(yàn)衛(wèi)星2017年至2019年的運(yùn)行數(shù)據(jù)來進(jìn)行算法驗(yàn)證,經(jīng)過2.4節(jié)步驟1和步驟2的預(yù)處理后,共獲得579維特征,76 699條數(shù)據(jù)樣本。將其中的70%作為訓(xùn)練集,剩余30%作為測試集。本實(shí)驗(yàn)的載荷單機(jī)狀態(tài)識別問題,歸約為多標(biāo)簽分類問題之后,采用文獻(xiàn)[13]中的方法,將多標(biāo)簽分類問題轉(zhuǎn)化為多分類問題來進(jìn)行求解。轉(zhuǎn)化成多分類問題后的數(shù)據(jù)分布如圖3所示,易見其存在著嚴(yán)重的載荷工作模式類別不平衡,可采用GBDT模型,通過集成多個(gè)弱分類模型,能很好地?cái)M合該數(shù)據(jù)分布。
圖3 載荷工作模式數(shù)據(jù)分布Fig.3 Data distribution of payload mode
載荷單機(jī)狀態(tài)與各組件運(yùn)行狀態(tài)息息相關(guān),數(shù)據(jù)上反映為遙測參數(shù)數(shù)據(jù)與載荷單機(jī)狀態(tài)的相關(guān)。因此,采用信息增益作為特征提取的依據(jù)。
實(shí)現(xiàn)基于IG-GBDT算法的載荷單機(jī)狀態(tài)判別,采用3.1節(jié)中數(shù)據(jù)完成算法訓(xùn)練和測試,需確定模型中兩個(gè)參數(shù):應(yīng)用IG算法篩選的特征維度;GBDT模型中弱分類器集成個(gè)數(shù)。
首先,選用對數(shù)損失函數(shù),固定其他參數(shù),改變特征參數(shù)維度,構(gòu)建GBDT分類器,分別計(jì)算訓(xùn)練集和測試集數(shù)據(jù)的損失;之后,選取分類損失最低的特征參數(shù)集合作為IG-GBDT模型的特征集。本實(shí)驗(yàn)中,隨特征維度變化,IG-GBDT模型損失變化如圖4所示。當(dāng)特征參數(shù)維度p=6時(shí),模型損失達(dá)到最小值,特征維度增加未能明顯降低模型損失,確定該模型特征參數(shù)維度為6。模型在訓(xùn)練集和測試集中的損失都較小,兩者的損失曲線差別不大,顯示了該模型具有較低的方差和偏差。
圖4 訓(xùn)練集和測試集損失值與特征參數(shù)維度的關(guān)系Fig.4 Relation between loss of training & testing sets and feature dimension
其次,確定GBDT模型規(guī)模,即GBDT模型中弱分類器的集成個(gè)數(shù)。參照篩選確定的特征參數(shù)集,調(diào)整模型中弱分類器個(gè)數(shù),觀察訓(xùn)練集與測試集損失變化,如圖5所示。隨著弱分類器數(shù)量的增加,訓(xùn)練集和測試集的損失值都在下降,起初損失值下降速率很快,當(dāng)達(dá)到一定數(shù)目后,損失值變化幅度趨于平緩,繼續(xù)增加弱分類器會導(dǎo)致計(jì)算復(fù)雜度的增加。從損失值變化曲線可知,當(dāng)弱分類器數(shù)量達(dá)到150時(shí),損失值的變化趨于穩(wěn)定,考慮到模型計(jì)算資源消耗,確定弱分類器個(gè)數(shù)為150。
圖5 訓(xùn)練集和測試集損失值與弱分類器個(gè)數(shù)的關(guān)系Fig.5 Relation between loss of training & testing sets and number of base classifiers
在確定特征參數(shù)維度和GBDT規(guī)模后,將該IG-GBDT算法用于載荷單機(jī)狀態(tài)識別問題,利用訓(xùn)練集中的樣本數(shù)據(jù)訓(xùn)練載荷單機(jī)狀態(tài)判別模型,再利用測試集中的樣本數(shù)據(jù)驗(yàn)證該模型效果。訓(xùn)練所得模型對訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的分類結(jié)果如表1和表2所示,表示5種模式預(yù)測結(jié)果和真實(shí)值之間的關(guān)系。其中,訓(xùn)練集準(zhǔn)確率為99.36%,測試集的準(zhǔn)確率為99.27%。由混淆矩陣可知,IG-GBDT算法對于各個(gè)模式都能較準(zhǔn)確地進(jìn)行識別。
表1 IG-GBDT算法-訓(xùn)練集混淆矩陣
表2 IG-GBDT算法-測試集混淆矩陣
將IG-GBDT算法與基于PCA特征提取的GBDT算法(PCA-GBDT)對比,考慮到數(shù)據(jù)分布不均衡,采用F1值來進(jìn)行模型精度的衡量,兩種算法的F1值對比如圖6所示。
圖6 F1值與特征參數(shù)維度的關(guān)系Fig.6 Relation between F1-score and feature dimension
由圖6可知,隨著篩選的特征參數(shù)維度增加,兩個(gè)算法的擬合精度均有提升。當(dāng)維度p=6時(shí),IG-GBDT算法的精度達(dá)到最大值,隨著參數(shù)的增加,其F1值不再顯著變化,這與3.2節(jié)中所得結(jié)論一致。對于PCA-GBDT算法,當(dāng)特征參數(shù)維度p=12時(shí),其精度達(dá)到最大值,算法精度不再隨p值的增加而提升。兩條曲線在達(dá)到各自的最優(yōu)值之后,繼續(xù)增加p值,會引入冗余特征,因此曲線不再有上升的趨勢。對比兩種算法最優(yōu)情況下的F1值,兩者的最優(yōu)F1值基本相同,但I(xiàn)G-GBDT能夠用非常少的特征去表征問題,為了達(dá)到同樣的效果,PCA-GBDT則要用2倍的參數(shù)量。
有效載荷單機(jī)狀態(tài)判別對時(shí)效性提出了較高的要求,因此對IG-GBDT和PCA-GBDT算法執(zhí)行效率進(jìn)行了對比。圖7為IG-GBDT和PCA-GBDT算法運(yùn)行時(shí)間隨特征參數(shù)維度p的變化情況,特征參數(shù)增多時(shí),兩種算法的運(yùn)行時(shí)間均在不斷增加,PCA-GBDT相比IG-GBDT的運(yùn)行時(shí)間增長較慢。結(jié)合圖6和圖7,當(dāng)兩個(gè)算法準(zhǔn)確度達(dá)到最優(yōu)時(shí),IG-GBDT的參數(shù)維度為p=6,PCA-GBDT的參數(shù)維度為p=12,此時(shí)IG-GBDT的運(yùn)行時(shí)間為56 s,PCA-GBDT的運(yùn)行時(shí)間為175 s,可見在相同的準(zhǔn)確率下,PCA-GBDT耗時(shí)是IG-GBDT的3倍。因此,IG-GBDT算法較PCA-GBDT算法具有較高的執(zhí)行效率。
圖7 算法運(yùn)行時(shí)間與特征維度的關(guān)系Fig.7 Relation between runtime and feature dimension
對比上述IG-GBDT和PCA-GBDT兩種方法。首先,二者均能準(zhǔn)確判別載荷單機(jī)狀態(tài),而IG-GBDT篩選出的特征數(shù)更少,計(jì)算資源消耗少,處理速度快,更能滿足有效載荷在軌狀態(tài)快速識別對時(shí)效性的要求;其次,PCA特征降維會對原始遙測參數(shù)進(jìn)行組合,這樣改變了參數(shù)的含義,不具可解釋性,無法對載荷參數(shù)進(jìn)行人工一致性驗(yàn)證,而IG篩選得到的特征參數(shù)能確定載荷運(yùn)行狀態(tài)判別對應(yīng)的載荷遙測參數(shù),模型結(jié)果具有可解釋性;再次,IG-GBDT所得到的特征參數(shù)集,可供地面運(yùn)控系統(tǒng)重點(diǎn)監(jiān)視參數(shù)選擇。
本文提出了一種基于載荷遙測參數(shù)數(shù)據(jù)的載荷狀態(tài)判別方法,將多標(biāo)簽分類集成學(xué)習(xí)方法應(yīng)用到載荷設(shè)備狀態(tài)識別問題,并采用真實(shí)衛(wèi)星任務(wù)數(shù)據(jù)進(jìn)行了應(yīng)用驗(yàn)證。首先,根據(jù)載荷按分包遙測抽取遙測原始數(shù)據(jù)和任務(wù)數(shù)據(jù),經(jīng)合并、解析、數(shù)值轉(zhuǎn)換等處理得到數(shù)據(jù)樣本集。其次,在對遙測數(shù)據(jù)野值剔除的基礎(chǔ)上,分別構(gòu)建遙測參數(shù)特征向量和載荷標(biāo)簽特征向量,并以星上時(shí)為基準(zhǔn)分段對標(biāo)得到特征集,分析實(shí)際問題對多標(biāo)簽特征進(jìn)行轉(zhuǎn)化,根據(jù)特征樣本集統(tǒng)計(jì)量性質(zhì)篩選特征和降維,計(jì)算遙測數(shù)據(jù)特征數(shù)據(jù)集對標(biāo)簽特征的信息增益并排序,用于構(gòu)建樣本最終的特征向量集。再次,利用各樣本的特征向量訓(xùn)練基于IG-GBDT集成學(xué)習(xí)的載荷狀態(tài)判別模型。通過量子科學(xué)實(shí)驗(yàn)衛(wèi)星任務(wù)真實(shí)數(shù)據(jù)驗(yàn)證,本文提出的IG-GBDT算法具有很高的狀態(tài)識別準(zhǔn)確率。本文提出的載荷狀態(tài)判別模型和方法能在不依賴于載荷復(fù)雜背景知識的情況下適用于載荷遙測數(shù)據(jù)量大、參數(shù)眾多、樣本分類不平衡等問題,基于IG的參數(shù)特征降維和集成學(xué)習(xí)模型將可解釋性和擬合效果好的優(yōu)勢相結(jié)合,能滿足航天任務(wù)的高準(zhǔn)確度要求,在實(shí)際應(yīng)用驗(yàn)證中表現(xiàn)出良好的性能和適用性。