王天翔,范玉峰,王曉麗,龍 潛,王傳軍
1.中國科學(xué)院云南天文臺,云南 昆明 650011 2.中國科學(xué)院大學(xué),北京 100049
LAMOST,全稱“大天區(qū)面積多目標(biāo)光纖光譜望遠鏡”,是世界上光譜獲取率最高的望遠鏡,可同時獲得4 000個天體光譜[1]。目前LAMOST已經(jīng)發(fā)布7季數(shù)據(jù),在最新發(fā)布的DR7中光譜數(shù)量已經(jīng)高達1 448萬條,如何對海量光譜進行有效利用成為亟待解決的問題。對這些光譜進行分類是天文數(shù)據(jù)處理的重要一環(huán)。通過對恒星光譜的分類,研究人員可以從中獲取有效溫度、質(zhì)量和半徑等物理信息,也可以研究銀河系的結(jié)構(gòu)和演化過程[2]。目前主流的恒星分類系統(tǒng)是MK光譜系統(tǒng)。每個恒星都根據(jù)其有效溫度由高到低排序,依次分為O,B,A,F,G,K和M七種光譜型,每種光譜型又根據(jù)溫度從高到低細分為0—9的次型光譜,本文不涉及光度型分類。
目前光譜自動分類的方法主要有三種類別,分別是基于距離度量的方法、機器學(xué)習(xí)的方法和基于模糊邏輯知識系統(tǒng)的專家系統(tǒng)。Schierscher等[3]將Artificial Neural Network(ANN)運用在對Sloan Digital Sky Survey(SDSS) DR7恒星光譜的分類上。Liu等[4]對LAMOST數(shù)據(jù)使用線指數(shù)和SVM算法對恒星光譜進行MK分類。其中SVM方法對A,F(xiàn)和G型恒星分類效果達到90%的準(zhǔn)確率,對O,B,K和M型恒星只有52%的準(zhǔn)確率。Kaushal等[5]針對已標(biāo)注數(shù)據(jù)太少,難以訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)分類器的問題,提出一種半監(jiān)督方法。該方法在無監(jiān)督學(xué)習(xí)階段使用自動編碼器對無標(biāo)簽數(shù)據(jù)進行提取特征和聚類,用有標(biāo)簽數(shù)據(jù)進行微調(diào),最后在主要光譜類別的平均準(zhǔn)確率達到89%。在涉及光譜次型的分類模型上,Gray等[6]提出一種專家系統(tǒng),通過直接與MK分類標(biāo)準(zhǔn)對比來將恒星光譜分類。在信噪比大于100的數(shù)據(jù)集上可以達到0.6個光譜次型的精度。劉蓉等[7]使用非參數(shù)回歸的方法在分類精度上達到了2.2個光譜次型。Kheirdastan等[8]使用ANN,SVM,K-means方法,分別達到1.39,1.53,1.65個光譜次型的精度,光譜次型的分類精度尚待提高。本文參照He等[9]提出的殘差網(wǎng)絡(luò)提出一種基于深度學(xué)習(xí)的方法來實現(xiàn)光譜次型高精度預(yù)測,并分析網(wǎng)絡(luò)的預(yù)測依據(jù)。
本文的主要貢獻有兩個,第一是提升了光譜次型的預(yù)測精度,在LAMOST數(shù)據(jù)集上平均絕對誤差為0.3個光譜次型。第二是讓模型定位光譜特征,對光譜分類結(jié)果有一定的解釋能力。
模型主要由卷積層、激活層、最大池化層、平均池化層、全連接層和恒等映射組成。在第一個卷積層使用形狀為1*7的較大的卷積核來提取光譜的總體特征,并使用內(nèi)核為1*3的最大池化層進行特征篩選。最大池化層可以在盡可能保留特征的同時減少參數(shù),防止過擬合,提高模型的泛化能力。后面卷積層的卷積核大小可以在1*3,1*5和1*7等形狀中選擇,文章將在第2節(jié)分析使用不同形狀卷積核得到的結(jié)果。模型采用GELU作為激活函數(shù),可根據(jù)光譜數(shù)據(jù)分布進行非線性激活,表達式可以近似為
(1)
在最后一個卷積層使用平均池化層對特征圖的參數(shù)求均值,得到一個Channel*1的向量作為全連接層的輸入,其中Channel為特征圖的通道數(shù)。全連接層的輸出是一個標(biāo)量,作為對輸入光譜的預(yù)測結(jié)果。由于激活函數(shù)的不可逆性,以及卷積核提取光譜特征時或多或少會有信息丟失,深層模型存在退化問題。文獻[9]中提出的殘差結(jié)構(gòu)的恒等映射使這個問題得到緩解。在訓(xùn)練網(wǎng)絡(luò)時,由于殘差結(jié)構(gòu)的存在,反向傳播可以同時沿著殘差連接進行傳播,提高了訓(xùn)練效率。如圖1所示,這里以1*5的卷積核為例,其中黃色方塊為卷積層,紅色方塊為最大池化層,粉紅色為平均池化層,橙色為GELU激活層,紫色為全連接層。鑒于LAMOST數(shù)據(jù)集有非零幾率存在錯誤標(biāo)簽,本文使用Log-Cosh作為損失函數(shù)來降低壞樣本影響。Log-Cosh函數(shù)定義見式(2)
圖1 模型總體架構(gòu)Fig.1 Model architecture
(2)
實驗采用的數(shù)據(jù)來自于LAMOST DR5中的部分恒星光譜。從星表中隨機抽樣,選取共80 000條恒星光譜,并剔除掉紅移偏差為-999以及信噪比在u,g,r,i和z任一波段內(nèi)為-999的異常數(shù)據(jù),確保數(shù)據(jù)的有效性,數(shù)據(jù)集詳情見Github(https://github.com/HubCatt/LAMOST-)。對數(shù)據(jù)集所有光譜截取3 699~8 750 ?波段,然后進行max-min光譜流量歸一化
(3)
其中x為原始數(shù)據(jù),min和max分別為光譜的最小、最大流量,X*為歸一化后的光譜。歸一化可以加快梯度下降求最優(yōu)解的速度,加速模型收斂。個別類別缺乏數(shù)據(jù),但由于本實驗采用的是回歸模型,所以并不影響訓(xùn)練效果。使用0.0~6.9來標(biāo)記光譜類型,其中整數(shù)部分表示光譜型,小數(shù)部分表示光譜次型。例如2.2表示A2型恒星光譜。O型光譜由于數(shù)量較少,在本實驗中都標(biāo)記為0,各類別光譜數(shù)據(jù)按照7∶1∶2分為訓(xùn)練集、驗證集和測試集。
使用訓(xùn)練集對模型進行訓(xùn)練,并在驗證集上進行超參數(shù)調(diào)整。最后在測試集上對模型進行評估。定義以下三種誤差來衡量模型性能。
最大絕對誤差
i=1,2,…,n
(4)
式(4)中,n為樣本個數(shù)。
平均絕對誤差
(5)
標(biāo)準(zhǔn)差
(6)
為了選擇最優(yōu)的卷積核形狀,本文對4種不同卷積核的網(wǎng)絡(luò)在測試集上的預(yù)測結(jié)果進行對比,結(jié)果如表1所示。實驗表明:網(wǎng)絡(luò)使用1*5的卷積核時所得結(jié)果平均絕對誤差小,預(yù)測誤差分布集中在較小值??梢匀〉幂^好的結(jié)果,91.4%的光譜預(yù)測誤差在0.5個光譜次型內(nèi),平均絕對誤差降低到了0.3個光次譜型。
表1 各形狀卷積核實驗結(jié)果Table 1 Experimental results of convolution kernels with different shapes
將預(yù)測值作為橫坐標(biāo),標(biāo)簽作為縱坐標(biāo)畫一個平面,平面上的一個點代表一條光譜,對測試集上共16 249個點作二階非線性擬合,設(shè)置置信度為95(如圖2所示),可以看出,所得到的函數(shù)基本可以看作斜率為1的直線,并且置信區(qū)間與直線基本重合,這表示模型可以很好的預(yù)測光譜型和光譜次型。
圖2 二階非線性擬合Fig.2 Second-order nonlinear fitting
將文獻[7-8]中使用的非參數(shù)回歸、K-Means方法,以及Adaboost CART回歸樹算法運用在本文中的訓(xùn)練集和測試集上。表2為深度殘差網(wǎng)絡(luò)與上述三種方法的預(yù)測誤差統(tǒng)計,圖3為深度殘差網(wǎng)絡(luò)與其余三種方法預(yù)測誤差的分布情況??梢娚疃葰埐罹W(wǎng)絡(luò)性能遠優(yōu)于非參數(shù)回歸等方法。由于非參數(shù)回歸中的核寬采用自適應(yīng)方式,取待預(yù)測樣本與訓(xùn)練集各個樣本的最小距離,故在大樣本數(shù)據(jù)集上耗時過大。與非參數(shù)回歸相比,訓(xùn)練良好的深度殘差網(wǎng)絡(luò)預(yù)測速度快,并且準(zhǔn)確率更高,誤差更小,更符合大數(shù)據(jù)時代光譜處理的要求。相較于Adaboost算法需要訓(xùn)練多組弱回歸(分類)器,本文的深度殘差網(wǎng)絡(luò)只需訓(xùn)練一個模型即可。
表2 深度殘差網(wǎng)絡(luò)與非參數(shù)回歸等方法的預(yù)測誤差統(tǒng)計Table 2 The statistical error of prediction by Deep residual network, Nonparametric regression, et al.
圖3 深度殘差網(wǎng)絡(luò)與非參數(shù)回歸等其他方法預(yù)測誤差分布情況Fig.3 The error distribution of prediction by Deep residual network, nonparametric regression et al.
利用文獻[10]中提出的類別激活映射(CAM)方法分析模型在給一條光譜預(yù)測時所關(guān)注的一些特征,通過此分析模型可以對分類結(jié)果做出解釋。將得到的CAM進行偽彩色變換,拉伸,并與光譜圖像加權(quán)求和,便可得到圖4所示的類別特征映射圖像,其中顏色越接近紅色的波段對分類越重要。實驗中從A,F,G,K各抽取2條光譜畫出CAM圖像,并在每幅圖下給出了各類別的分?jǐn)?shù)。對于A型恒星光譜,模型關(guān)注的區(qū)域為H原子吸收線存在的波段,紅色精確覆蓋了Hbeta,Hgamma和Hdelat,但忽視了Halpha,初步推斷是Halpha較弱的原因。對于F型恒星光譜,模型的關(guān)注區(qū)域為一階Ca離子線存在的波段,H原子吸收線存在的波段,以及一階S離子線存在的波段。在F型恒星中,中性H原子譜線和一階金屬離子譜線都是比較明顯的。對于G型恒星光譜,模型關(guān)注區(qū)域大致在3 800~4 400 ?波段,G型星中Ca離子線達到了最強,并且出現(xiàn)一階Fe離子線與一階Ti離子線,這些譜線存在于這個波段。對于K型恒星光譜,其主要以金屬譜線為主,模型主要以Mg線5 179 ?附近以及3 699~4 390 ?波段為判別依據(jù)。
圖4 類別特征映射圖(CAM)Fig.4 Class activation mapping
光譜分類是天文數(shù)據(jù)處理的重要一環(huán),目前被廣泛使用的模板匹配方法存在計算冗余、依賴數(shù)據(jù)質(zhì)量等問題,其他一些方法大都沒有涉及光譜次型的分類。本文提出基于深度殘差網(wǎng)絡(luò)的深度學(xué)習(xí)模型來對光譜類別進行預(yù)測,并賦予了模型可解釋性。實驗結(jié)果表明,本方法在所使用的LAMOST數(shù)據(jù)集上可以將91.4%光譜預(yù)測誤差保證在0.5個光譜次型以內(nèi),預(yù)測平均絕對誤差為0.3個光譜次型。與非參數(shù)回歸等方法相比有更高的準(zhǔn)確率和預(yù)測速度。在模型分析中,本文討論了模型分類依據(jù),主要包括Balmer線系、金屬離子譜線。對比文獻[4]中線指數(shù)分類提出的,Hgamma,F(xiàn)e和Mg的組合對O-G分類較好,F(xiàn)e,TiO2和G4300的組合對晚期恒星分類較好,本文CAM圖像與文獻[4]的結(jié)果基本相符,下一步工作將通過修改模型輸出維度來提高CAM的定位精度。