劉忠寶,王 杰
1.北京語言大學信息科學學院,北京 100083 2.中國科學院新疆天文臺,新疆 烏魯木齊 830011
隨著海量光譜數(shù)據(jù)的不斷涌入,如何進一步提高光譜分類性能引入廣泛關(guān)注。目前,國內(nèi)外有關(guān)恒星光譜分類的研究已有不少成果。Daniel等探討了降維技術(shù)在恒星光譜分類中的有效性問題,他們引入局部線性嵌入技術(shù),通過保持高維光譜數(shù)據(jù)在低維空間的局部結(jié)構(gòu),進而實現(xiàn)恒星光譜的自動分類[1]。Navarro等利用人工神經(jīng)網(wǎng)絡對低信噪比的恒星光譜進行分類[2]。Sanchez等試圖利用k-均值聚類算法對SDSS SEGUE和SEGUE-2恒星光譜進行無監(jiān)督分類[3]。鑒于傳統(tǒng)分類方法具有較高的時間復雜度問題,Liu等受協(xié)同管理思想啟發(fā),提出非線性集成學習機,并將該模型應用于恒星光譜分類[4]。Huertas-Company等在支持向量機的基礎(chǔ)上提出一種確定星系形態(tài)的非參數(shù)方法[5];Peng等利用支持向量機從SDSS、UKIDSS等巡天項目獲得的光譜中搜尋類星體候選體[6];Malek等在VIPERS數(shù)據(jù)集上利用SVM來將恒星、活動星系核和星系區(qū)分開來[7];Brice等在SDSS數(shù)據(jù)集上利用K近鄰算法和隨機森林算法進行對恒星光譜進行分類[8]。
此外,越來越多的研究人員將深度學習模型用于解決恒星光譜分類問題。Liu等研究了基于一維卷積神經(jīng)網(wǎng)絡的恒星光譜分類方法[9]。王楠楠等探討了卷積神經(jīng)網(wǎng)絡應用于恒星光譜分類的可行性問題[10]。盡管實驗結(jié)果表明上述模型較之傳統(tǒng)機器學習算法具有更優(yōu)的分類效率,然而受其工作機理限制,該模型在特征提取以及特征理解方面仍存在一定差距,嚴重影響了該模型分類效率的進一步提升。幸運的是,BERT(bidirectional encoder representation from transformers)模型的出現(xiàn)為解決上述問題提供了可能。鑒于此,本工作提出高性能混合深度學習網(wǎng)絡BERT-CNN,試圖充分利用BERT模型和CNN模型在特征提取和自動分類方面的優(yōu)勢,以期進一步提高光譜分類性能。
BERT-CNN模型如圖1所示。該模型的工作流程為:首先,將恒星光譜數(shù)據(jù)依次輸入BERT模型;然后,利用BERT模型中的Transformer(圖1簡寫為Trm)進行特征提取,得到特征向量T1—TN;最后,在CNN模型中輸入上述特征向量并自動分類,進而得到恒星光譜的分類結(jié)果。
圖1 BERT-CNN模型Fig.1 The structure of BERT-CNN
(1)BERT模型
BERT模型采用了多層雙向Transformer編碼器,能夠更好地提取恒星光譜數(shù)據(jù)的深層次特征。Transformer編碼器(以下簡稱Transformer)是BERT模型最重要的部分,其主要由多頭自注意力機制和全連接前饋神經(jīng)網(wǎng)絡層兩個子層組成。為了解決隨著網(wǎng)絡的加深而產(chǎn)生的性能退化等問題,Transformer在兩個子層間加入了殘差網(wǎng)絡,并在每個子層后添加歸一化層來加速模型收斂。
Transformer基于自注意力機制,該機制更易捕獲光譜特征之間的內(nèi)在關(guān)系。其計算過程見式(1),其中Q和K為維度為dk的Query矩陣和Key矩陣,V為維度為dv的Value矩陣。
(1)
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
(2)
(3)
層歸一化與前饋神經(jīng)網(wǎng)絡的計算過程見式(4)和式(5)。
(4)
FFN(x)=max(0,xW1+b1)W2+b2
(5)
式(4)中,μ和σ為輸入層的均值與方差,α和β為待學習的參數(shù),ε的取值很?。皇?5)中,前饋神經(jīng)網(wǎng)絡層以修正線性單元ReLU作為激活函數(shù),x表示網(wǎng)絡的輸入,W和b為待訓練的參數(shù)。
(2)卷積神經(jīng)網(wǎng)絡
CNN模型由輸入層、卷積層、池化層以及全連接層組成。輸入層為恒星光譜矩陣,矩陣中的每一行向量對應一條恒星光譜。卷積層對輸入向量進行卷積操作,進而生成特征向量。卷積計算見式(6)和式(7),其中l(wèi)為CNN的網(wǎng)絡層數(shù),j為特征圖,k為卷積核,bC為偏置,Nj為特征向量集合,ReLU為激活函數(shù)。
(6)
(7)
池化層的作用是壓縮特征向量的規(guī)模,以期達到降低特征向量維度、減少參數(shù)規(guī)模的目的。該層經(jīng)過最大池化方法保存局部信息,以期得到池化后的特征向量。在全連接層,將池化后的特征向量進行整合,最后通過softmax分類器獲得分類結(jié)果。softmax分類器的表達式見式(8)。
(8)
將Python3.7作為的編程語言,并使用TensorFlow1.14作為深度學習模型框架。實驗數(shù)據(jù)集為SDSS DR10中的K型、F型、G型恒星光譜數(shù)據(jù),如表1(a)—(c)所示。K型恒星包含K1,K3,K5和K7次型,而這四種次型光譜的信噪比(signal noise ratio,SNR)區(qū)間均是(60,65);F型光譜包括F2,F(xiàn)5和F9次型,其各次型光譜的信噪比區(qū)間分別為(50,65),(65,70),(75,80);G型光譜包括G0,G2和G5次型,其各次型信噪比區(qū)間為(55,65),(60,65),(40,70)。
表1(a) K型恒星光譜數(shù)據(jù)集Table 1(a) The dataset of K stars
表1(b) F型恒星光譜數(shù)據(jù)集Table 1(b) The dataset of F stars
表1(c) G型恒星光譜數(shù)據(jù)集Table 1(c) The dataset of G stars
采用min-max標準化方法對恒星光譜數(shù)據(jù)進行歸一化處理,該方法通過對恒星光譜數(shù)據(jù)進行線性變換,使原始光譜數(shù)據(jù)保持在[0,1]區(qū)間。其計算公式為
其中,xNorm表示恒星光譜數(shù)據(jù)歸一化后的特征值,x表示原始恒星光譜數(shù)據(jù),xmax和xmin分別表示每條恒星光譜數(shù)據(jù)的最大值和最小值。
通過與SVM、CNN等分類模型的比較來驗證所提模型的有效性。引入網(wǎng)格搜索以及10折交叉驗證來得到模型的實驗參數(shù)。在SVM模型中,在網(wǎng)格{0.01,0.05,0.1,0.5,1,5,10}中搜索懲罰因子的最優(yōu)取值,多次實驗表明,當懲罰因子等于0.1時,模型的性能最優(yōu)。在CNN模型和BERT+CNN混合模型中,batch_size表示一次訓練選取的樣本數(shù),learning_rate表示模型的學習率大小,兩者均在網(wǎng)格{1×10-2,1×10-3,5×10-4,1×10-4,5×10-5,2×10-5,1×10-5}中選??;hidden_units表示隱藏層神經(jīng)元數(shù),在網(wǎng)格{64,128,256,512,1 024}中選取;dropout為丟棄率,在網(wǎng)格{0.1,0.2,0.4,0.5,0.6,0.8}中選取。表2給出了CNN、BERT-CNN等模型的實驗參數(shù)設置。
表2 CNN,BERT-CNN模型參數(shù)設置表Figure 2 The parameters of CNN and BERT-CNN
當訓練數(shù)據(jù)集占比實驗數(shù)據(jù)集的30%~70%且剩余數(shù)據(jù)集為測試數(shù)據(jù)集時,BERT-CNN模型的實驗結(jié)果如表3(a)—(c)所示,其中括號前的值表示實驗數(shù)據(jù)規(guī)模,括號中的值表示占比。
由表3(a)—(c)可以看出,BERT-CNN模型的精準率P、召回率R、調(diào)和平均值F1隨訓練樣本數(shù)的增加而提升。在相同規(guī)模的訓練樣本條件下,BERT-CNN模型在K型數(shù)據(jù)集上的P,R和F1值均最高,其次是G型數(shù)據(jù)集,F(xiàn)型數(shù)據(jù)集上的分類效果較差。當訓練樣本數(shù)占比大于等于50%時,三類數(shù)據(jù)集上的P,R和F1值均超過0.91,這表明BERT-CNN模型適用于解決恒星光譜分類問題。
表3(a) BERT-CNN模型在K型恒星數(shù)據(jù)集上的實驗結(jié)果Table 3(a) The experimental results of BERT-CNN on the K-type dataset
表3(b) BERT-CNN模型在F型恒星數(shù)據(jù)集上的實驗結(jié)果Table 3(b) The experimental results of BERT-CNN on the F-type dataset
表3(c) BERT-CNN模型在G型恒星數(shù)據(jù)集上的實驗結(jié)果Table 3(c) The experimental results of BERT-CNN on the G-type dataset
三類模型的對比實驗結(jié)果由準確率A來評價,準確率是正確分類光譜數(shù)與總體測試光譜數(shù)的比值。實驗數(shù)據(jù)集的70%作為訓練數(shù)據(jù)集,剩余數(shù)據(jù)集作為測試數(shù)據(jù)集,實驗結(jié)果如表4所示。
表4 實驗結(jié)果比較Table 4 Comparison of experimental results
由表4可以看出,BERT-CNN模型分類效果最優(yōu),其次是CNN模型,最后是SVM模型。具體而言,在K型數(shù)據(jù)集上,BERT-CNN模型比SVM模型的準確率高0.081 3,比CNN模型高0.050 4;在F型數(shù)據(jù)集上,BERT-CNN模型比SVM模型的準確率高0.079 4,比CNN模型高0.021 5;在G型數(shù)據(jù)集上,BERT-CNN模型比SVM模型的準確率高0.052 5,比CNN模型高0.019 7。此外,BERT-CNN模型的平均準確率均最高。這表明,BERT-CNN模型具有更優(yōu)的光譜分類性能。
為了進一步提高以CNN模型為代表的深度學習模型恒星光譜分類效率,以恒星光譜為研究對象,充分利用BERT模型和CNN模型在特征提取和自動分類方面的優(yōu)勢,提出高性能混合深度學習網(wǎng)絡BERT-CNN。SDSS數(shù)據(jù)集上的實驗結(jié)果表明,所提模型有助于提升恒星光譜分類性能。上述結(jié)論在其他類型光譜上是否成立有待于進一步研究。