国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度殘差網(wǎng)絡(luò)的恒星光譜類別預(yù)測

2021-05-11 07:23:26王天翔范玉峰王曉麗王傳軍
光譜學(xué)與光譜分析 2021年5期
關(guān)鍵詞:集上恒星殘差

王天翔,范玉峰,王曉麗,龍 潛,王傳軍

1.中國科學(xué)院云南天文臺,云南 昆明 650011 2.中國科學(xué)院大學(xué),北京 100049

引 言

LAMOST,全稱“大天區(qū)面積多目標(biāo)光纖光譜望遠鏡”,是世界上光譜獲取率最高的望遠鏡,可同時獲得4 000個天體光譜[1]。目前LAMOST已經(jīng)發(fā)布7季數(shù)據(jù),在最新發(fā)布的DR7中光譜數(shù)量已經(jīng)高達1 448萬條,如何對海量光譜進行有效利用成為亟待解決的問題。對這些光譜進行分類是天文數(shù)據(jù)處理的重要一環(huán)。通過對恒星光譜的分類,研究人員可以從中獲取有效溫度、質(zhì)量和半徑等物理信息,也可以研究銀河系的結(jié)構(gòu)和演化過程[2]。目前主流的恒星分類系統(tǒng)是MK光譜系統(tǒng)。每個恒星都根據(jù)其有效溫度由高到低排序,依次分為O,B,A,F,G,K和M七種光譜型,每種光譜型又根據(jù)溫度從高到低細分為0—9的次型光譜,本文不涉及光度型分類。

目前光譜自動分類的方法主要有三種類別,分別是基于距離度量的方法、機器學(xué)習(xí)的方法和基于模糊邏輯知識系統(tǒng)的專家系統(tǒng)。Schierscher等[3]將Artificial Neural Network(ANN)運用在對Sloan Digital Sky Survey(SDSS) DR7恒星光譜的分類上。Liu等[4]對LAMOST數(shù)據(jù)使用線指數(shù)和SVM算法對恒星光譜進行MK分類。其中SVM方法對A,F(xiàn)和G型恒星分類效果達到90%的準(zhǔn)確率,對O,B,K和M型恒星只有52%的準(zhǔn)確率。Kaushal等[5]針對已標(biāo)注數(shù)據(jù)太少,難以訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)分類器的問題,提出一種半監(jiān)督方法。該方法在無監(jiān)督學(xué)習(xí)階段使用自動編碼器對無標(biāo)簽數(shù)據(jù)進行提取特征和聚類,用有標(biāo)簽數(shù)據(jù)進行微調(diào),最后在主要光譜類別的平均準(zhǔn)確率達到89%。在涉及光譜次型的分類模型上,Gray等[6]提出一種專家系統(tǒng),通過直接與MK分類標(biāo)準(zhǔn)對比來將恒星光譜分類。在信噪比大于100的數(shù)據(jù)集上可以達到0.6個光譜次型的精度。劉蓉等[7]使用非參數(shù)回歸的方法在分類精度上達到了2.2個光譜次型。Kheirdastan等[8]使用ANN,SVM,K-means方法,分別達到1.39,1.53,1.65個光譜次型的精度,光譜次型的分類精度尚待提高。本文參照He等[9]提出的殘差網(wǎng)絡(luò)提出一種基于深度學(xué)習(xí)的方法來實現(xiàn)光譜次型高精度預(yù)測,并分析網(wǎng)絡(luò)的預(yù)測依據(jù)。

本文的主要貢獻有兩個,第一是提升了光譜次型的預(yù)測精度,在LAMOST數(shù)據(jù)集上平均絕對誤差為0.3個光譜次型。第二是讓模型定位光譜特征,對光譜分類結(jié)果有一定的解釋能力。

1 方 法

模型主要由卷積層、激活層、最大池化層、平均池化層、全連接層和恒等映射組成。在第一個卷積層使用形狀為1*7的較大的卷積核來提取光譜的總體特征,并使用內(nèi)核為1*3的最大池化層進行特征篩選。最大池化層可以在盡可能保留特征的同時減少參數(shù),防止過擬合,提高模型的泛化能力。后面卷積層的卷積核大小可以在1*3,1*5和1*7等形狀中選擇,文章將在第2節(jié)分析使用不同形狀卷積核得到的結(jié)果。模型采用GELU作為激活函數(shù),可根據(jù)光譜數(shù)據(jù)分布進行非線性激活,表達式可以近似為

(1)

在最后一個卷積層使用平均池化層對特征圖的參數(shù)求均值,得到一個Channel*1的向量作為全連接層的輸入,其中Channel為特征圖的通道數(shù)。全連接層的輸出是一個標(biāo)量,作為對輸入光譜的預(yù)測結(jié)果。由于激活函數(shù)的不可逆性,以及卷積核提取光譜特征時或多或少會有信息丟失,深層模型存在退化問題。文獻[9]中提出的殘差結(jié)構(gòu)的恒等映射使這個問題得到緩解。在訓(xùn)練網(wǎng)絡(luò)時,由于殘差結(jié)構(gòu)的存在,反向傳播可以同時沿著殘差連接進行傳播,提高了訓(xùn)練效率。如圖1所示,這里以1*5的卷積核為例,其中黃色方塊為卷積層,紅色方塊為最大池化層,粉紅色為平均池化層,橙色為GELU激活層,紫色為全連接層。鑒于LAMOST數(shù)據(jù)集有非零幾率存在錯誤標(biāo)簽,本文使用Log-Cosh作為損失函數(shù)來降低壞樣本影響。Log-Cosh函數(shù)定義見式(2)

圖1 模型總體架構(gòu)Fig.1 Model architecture

(2)

2 實驗部分

2.1 數(shù)據(jù)

實驗采用的數(shù)據(jù)來自于LAMOST DR5中的部分恒星光譜。從星表中隨機抽樣,選取共80 000條恒星光譜,并剔除掉紅移偏差為-999以及信噪比在u,g,r,i和z任一波段內(nèi)為-999的異常數(shù)據(jù),確保數(shù)據(jù)的有效性,數(shù)據(jù)集詳情見Github(https://github.com/HubCatt/LAMOST-)。對數(shù)據(jù)集所有光譜截取3 699~8 750 ?波段,然后進行max-min光譜流量歸一化

(3)

其中x為原始數(shù)據(jù),min和max分別為光譜的最小、最大流量,X*為歸一化后的光譜。歸一化可以加快梯度下降求最優(yōu)解的速度,加速模型收斂。個別類別缺乏數(shù)據(jù),但由于本實驗采用的是回歸模型,所以并不影響訓(xùn)練效果。使用0.0~6.9來標(biāo)記光譜類型,其中整數(shù)部分表示光譜型,小數(shù)部分表示光譜次型。例如2.2表示A2型恒星光譜。O型光譜由于數(shù)量較少,在本實驗中都標(biāo)記為0,各類別光譜數(shù)據(jù)按照7∶1∶2分為訓(xùn)練集、驗證集和測試集。

2.2 光譜次型回歸

使用訓(xùn)練集對模型進行訓(xùn)練,并在驗證集上進行超參數(shù)調(diào)整。最后在測試集上對模型進行評估。定義以下三種誤差來衡量模型性能。

最大絕對誤差

i=1,2,…,n

(4)

式(4)中,n為樣本個數(shù)。

平均絕對誤差

(5)

標(biāo)準(zhǔn)差

(6)

為了選擇最優(yōu)的卷積核形狀,本文對4種不同卷積核的網(wǎng)絡(luò)在測試集上的預(yù)測結(jié)果進行對比,結(jié)果如表1所示。實驗表明:網(wǎng)絡(luò)使用1*5的卷積核時所得結(jié)果平均絕對誤差小,預(yù)測誤差分布集中在較小值??梢匀〉幂^好的結(jié)果,91.4%的光譜預(yù)測誤差在0.5個光譜次型內(nèi),平均絕對誤差降低到了0.3個光次譜型。

表1 各形狀卷積核實驗結(jié)果Table 1 Experimental results of convolution kernels with different shapes

將預(yù)測值作為橫坐標(biāo),標(biāo)簽作為縱坐標(biāo)畫一個平面,平面上的一個點代表一條光譜,對測試集上共16 249個點作二階非線性擬合,設(shè)置置信度為95(如圖2所示),可以看出,所得到的函數(shù)基本可以看作斜率為1的直線,并且置信區(qū)間與直線基本重合,這表示模型可以很好的預(yù)測光譜型和光譜次型。

圖2 二階非線性擬合Fig.2 Second-order nonlinear fitting

將文獻[7-8]中使用的非參數(shù)回歸、K-Means方法,以及Adaboost CART回歸樹算法運用在本文中的訓(xùn)練集和測試集上。表2為深度殘差網(wǎng)絡(luò)與上述三種方法的預(yù)測誤差統(tǒng)計,圖3為深度殘差網(wǎng)絡(luò)與其余三種方法預(yù)測誤差的分布情況??梢娚疃葰埐罹W(wǎng)絡(luò)性能遠優(yōu)于非參數(shù)回歸等方法。由于非參數(shù)回歸中的核寬采用自適應(yīng)方式,取待預(yù)測樣本與訓(xùn)練集各個樣本的最小距離,故在大樣本數(shù)據(jù)集上耗時過大。與非參數(shù)回歸相比,訓(xùn)練良好的深度殘差網(wǎng)絡(luò)預(yù)測速度快,并且準(zhǔn)確率更高,誤差更小,更符合大數(shù)據(jù)時代光譜處理的要求。相較于Adaboost算法需要訓(xùn)練多組弱回歸(分類)器,本文的深度殘差網(wǎng)絡(luò)只需訓(xùn)練一個模型即可。

表2 深度殘差網(wǎng)絡(luò)與非參數(shù)回歸等方法的預(yù)測誤差統(tǒng)計Table 2 The statistical error of prediction by Deep residual network, Nonparametric regression, et al.

圖3 深度殘差網(wǎng)絡(luò)與非參數(shù)回歸等其他方法預(yù)測誤差分布情況Fig.3 The error distribution of prediction by Deep residual network, nonparametric regression et al.

2.3 模型分析

利用文獻[10]中提出的類別激活映射(CAM)方法分析模型在給一條光譜預(yù)測時所關(guān)注的一些特征,通過此分析模型可以對分類結(jié)果做出解釋。將得到的CAM進行偽彩色變換,拉伸,并與光譜圖像加權(quán)求和,便可得到圖4所示的類別特征映射圖像,其中顏色越接近紅色的波段對分類越重要。實驗中從A,F,G,K各抽取2條光譜畫出CAM圖像,并在每幅圖下給出了各類別的分?jǐn)?shù)。對于A型恒星光譜,模型關(guān)注的區(qū)域為H原子吸收線存在的波段,紅色精確覆蓋了Hbeta,Hgamma和Hdelat,但忽視了Halpha,初步推斷是Halpha較弱的原因。對于F型恒星光譜,模型的關(guān)注區(qū)域為一階Ca離子線存在的波段,H原子吸收線存在的波段,以及一階S離子線存在的波段。在F型恒星中,中性H原子譜線和一階金屬離子譜線都是比較明顯的。對于G型恒星光譜,模型關(guān)注區(qū)域大致在3 800~4 400 ?波段,G型星中Ca離子線達到了最強,并且出現(xiàn)一階Fe離子線與一階Ti離子線,這些譜線存在于這個波段。對于K型恒星光譜,其主要以金屬譜線為主,模型主要以Mg線5 179 ?附近以及3 699~4 390 ?波段為判別依據(jù)。

圖4 類別特征映射圖(CAM)Fig.4 Class activation mapping

3 結(jié) 論

光譜分類是天文數(shù)據(jù)處理的重要一環(huán),目前被廣泛使用的模板匹配方法存在計算冗余、依賴數(shù)據(jù)質(zhì)量等問題,其他一些方法大都沒有涉及光譜次型的分類。本文提出基于深度殘差網(wǎng)絡(luò)的深度學(xué)習(xí)模型來對光譜類別進行預(yù)測,并賦予了模型可解釋性。實驗結(jié)果表明,本方法在所使用的LAMOST數(shù)據(jù)集上可以將91.4%光譜預(yù)測誤差保證在0.5個光譜次型以內(nèi),預(yù)測平均絕對誤差為0.3個光譜次型。與非參數(shù)回歸等方法相比有更高的準(zhǔn)確率和預(yù)測速度。在模型分析中,本文討論了模型分類依據(jù),主要包括Balmer線系、金屬離子譜線。對比文獻[4]中線指數(shù)分類提出的,Hgamma,F(xiàn)e和Mg的組合對O-G分類較好,F(xiàn)e,TiO2和G4300的組合對晚期恒星分類較好,本文CAM圖像與文獻[4]的結(jié)果基本相符,下一步工作將通過修改模型輸出維度來提高CAM的定位精度。

猜你喜歡
集上恒星殘差
基于雙向GRU與殘差擬合的車輛跟馳建模
(18)刺殺恒星
基于殘差學(xué)習(xí)的自適應(yīng)無人機目標(biāo)跟蹤算法
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
恒星的演化
恒星不恒
奧秘(2018年10期)2018-10-25 05:38:56
復(fù)扇形指標(biāo)集上的分布混沌
平穩(wěn)自相關(guān)過程的殘差累積和控制圖
河南科技(2015年8期)2015-03-11 16:23:52
察哈| 沅江市| 新竹市| 巴林右旗| 阿拉善左旗| 丹江口市| 方城县| 鹿泉市| 略阳县| 四会市| 伊金霍洛旗| 若尔盖县| 贡山| 苏尼特左旗| 马关县| 招远市| 保亭| 乌鲁木齐市| 北票市| 新安县| 东莞市| 德格县| 威远县| 泸水县| 思茅市| 炉霍县| 吉首市| 汝阳县| 广灵县| 锦州市| 芒康县| 青岛市| 新竹市| 永新县| 舟曲县| 濮阳县| 栾城县| 泗阳县| 宜阳县| 鄂州市| 西林县|