李航飛,屠良平,胡煜寒,劉 昊,趙 健
遼寧科技大學(xué)理學(xué)院, 遼寧 鞍山 114051
在天文學(xué)研究中,各類天體對(duì)應(yīng)的物理參數(shù)對(duì)于研究天體的形成、結(jié)構(gòu)以及演化具有極其重要的作用。 要想精確的測(cè)量天體的某一個(gè)物理參數(shù)如質(zhì)量、大小及年齡,科學(xué)家往往要基于幾十個(gè)精細(xì)物理系統(tǒng)來觀測(cè)分析得到。 但在面對(duì)大型巡天計(jì)劃如我國(guó)大科學(xué)工程LAMOST項(xiàng)目[1]時(shí),這種方式就不適用了,在大樣本統(tǒng)計(jì)天文學(xué)中,科學(xué)家也可以容忍精度稍低但計(jì)算效率更高的方法。 LAMOST這類項(xiàng)目可以獲取數(shù)百萬(wàn)甚至上千萬(wàn)的天體光譜,這些數(shù)據(jù)為我國(guó)天文學(xué)家研究銀河系和星系的形成與演化,提供了有力的基礎(chǔ)性數(shù)據(jù),也為許多天文學(xué)研究取得重大突破奠定了基礎(chǔ)[2]。 而利用光譜數(shù)據(jù)研究快速高效的算法來測(cè)量天體目標(biāo)的物理參數(shù)顯然具有重要意義和價(jià)值。
基于LAMOST光譜數(shù)據(jù),本文主要研究其中一類天體——恒星大氣物理參數(shù)的自動(dòng)測(cè)量。 恒星大氣物理參數(shù)主要包含有效溫度(Teff),金屬豐度([Fe/H]),表面重力(Logg)。 這一課題吸引了一些學(xué)者進(jìn)行了相關(guān)算法方面的研究,如王杰[3]等提出了線指數(shù)方法,即通過選擇最佳的線指數(shù)來建立回歸模型,進(jìn)而進(jìn)行回歸預(yù)測(cè)。 潘儒揚(yáng)[4]等提出的深度學(xué)習(xí)方法,也被應(yīng)用在恒星大氣物理參數(shù)測(cè)量方面,他指出深度學(xué)習(xí)在處理非線性數(shù)據(jù)的時(shí)候表現(xiàn)出比較好的特性。 Yang[5]等采用反饋型神經(jīng)網(wǎng)絡(luò)算法進(jìn)行參數(shù)測(cè)量,通過采用自編碼進(jìn)行特征提取,之后建立模型進(jìn)行參數(shù)測(cè)量。 Lu[6]等采用LASSO方法進(jìn)行天體光譜參數(shù)測(cè)量,即通過小波變化進(jìn)行降噪,采用支持向量回歸(support vector regression, SVR)方法進(jìn)行特征提取,測(cè)量結(jié)果在接受范圍內(nèi)。 Liu[7]等采用SVR模型進(jìn)行天體表面重力的參數(shù)測(cè)量,實(shí)驗(yàn)結(jié)果表明該方法在巨行星的表面重力的參數(shù)測(cè)量準(zhǔn)確度方面有提升,Li[8]等提出一種通過線性模式提取光譜的線性支持特征,能夠定量的評(píng)估提取的特征貢獻(xiàn)度,通過合理的選擇特征,利用線性回歸方法進(jìn)行參數(shù)測(cè)量,預(yù)測(cè)結(jié)果的平均絕對(duì)誤差在接受范圍內(nèi)。 而利用核思想的則有Xiang等[9]提出的基于核主成分思想的恒星參數(shù)測(cè)量方法,該方法在LAMOST信噪比大于50以上的恒星光譜數(shù)據(jù)中測(cè)量效果非常好。 本文采用的是核嶺回歸(kernel ridge regression,KRR)[10]算法,首次將該算法應(yīng)用在天體光譜參數(shù)測(cè)量上面,實(shí)驗(yàn)結(jié)果表明該方法在天體光譜參數(shù)測(cè)量方面是可行的。
大多數(shù)變量之間都存在著這樣或者那樣的關(guān)系,而這些不確定的關(guān)系導(dǎo)致模型訓(xùn)練的時(shí)候參數(shù)趨向無窮大,影響模型的質(zhì)量,其中影響比較大的就是多重共線性。 多重共線性是變量之間存在高度相關(guān)性,導(dǎo)致參數(shù)無法求出確定解。 在大數(shù)據(jù)時(shí)代,數(shù)據(jù)一般都是高維,所以共線性[11]問題不容忽視,而KRR方法在解決這一問題時(shí)具有優(yōu)勢(shì)。
本文要處理的光譜每條采樣點(diǎn)有幾千個(gè),即相對(duì)應(yīng)的數(shù)據(jù)高達(dá)數(shù)千維,所以在處理時(shí)通常要進(jìn)行降維。 降維后的低維特征在常規(guī)方法上顯示區(qū)分度不高,所以本文引入了具有核方法思想的KRR方法,該方法是先利用核函數(shù)將數(shù)據(jù)映射到高維空間,數(shù)據(jù)在高維空間數(shù)據(jù)間的特征會(huì)更容易區(qū)分,然后應(yīng)用嶺回歸方法,對(duì)映射后的數(shù)據(jù)進(jìn)行回歸處理。 嶺回歸方法實(shí)際是最小二乘法(LSM)的變形,它是在LSM的基礎(chǔ)上添加了一個(gè)正則化項(xiàng),而KRR方法則是核函數(shù)和嶺回歸方法的結(jié)合體。 KRR方法在小樣本數(shù)據(jù)上有較高的準(zhǔn)確性,所以該方法從原理上來說適合在天體光譜參數(shù)測(cè)量方面的應(yīng)用。
對(duì)于線性回歸模型
(1)
誤差方程為
(2)
式(2)中y是真實(shí)值。
對(duì)誤差方程中w求積分得
w=(XTX)-1XTy
(3)
式(3)中如果XTX逆矩陣不存在,這對(duì)參數(shù)的估計(jì)十分不利,無法求出一個(gè)準(zhǔn)確的w值,最終的預(yù)測(cè)模型將無法建立。 因此為了解決這個(gè)問題,添加一個(gè)正常數(shù)的矩陣,只要保證λ的數(shù)值不為零,此時(shí)(XTX+λI)就不為零,從而有效解決了共線性的問題。 當(dāng)嶺回歸參數(shù)λ=0,就是LSM,當(dāng)嶺回歸參數(shù)λ趨向無窮大的時(shí)候,嶺回歸系數(shù)趨向于0。
嶺回歸是有偏回歸,它的結(jié)果雖然使得殘差平方和變大,但是會(huì)使系數(shù)檢驗(yàn)變好,這樣可以算出合理的系數(shù)。 嶺回歸雖然放棄了LSM的無偏性,損失了精度,但得到的回歸系數(shù)卻能夠更加符合實(shí)際情況[12]。 在數(shù)據(jù)分析和建模中,當(dāng)預(yù)測(cè)變量高度相關(guān)時(shí),嶺回歸產(chǎn)生的系數(shù)比LSM預(yù)測(cè)的系數(shù)具有更好的穩(wěn)定性[13]。
嶺回歸本質(zhì)上是在LSM的基礎(chǔ)上添加了一個(gè)二范數(shù)的正則化,嶺回歸的目標(biāo)函數(shù)如式(4)
(4)
由于數(shù)據(jù)的多樣性,單純的線性回歸可能不能更好的解決問題,因此,可以把數(shù)據(jù)通過核函數(shù)映射到一個(gè)高維空間,使得這些數(shù)據(jù)在這個(gè)高維空間更容易劃分,具體的操作就是選取一個(gè)核函數(shù),令x→F(x),原理和嶺回歸基本是一樣的,目標(biāo)函數(shù)如式(5)
(5)
函數(shù)需要滿足的條件
s.t.ε=y-wΦ(xi)
(6)
引入Lagrange系數(shù)可得
L(w,Φ(x),α)=λ‖w‖2+∑ε2+α(y-wΦ(xi)-ε)
(7)
對(duì)式(7)進(jìn)行微分可得
α=2ε
(8)
整理后得
y=(K+λI)α
(9)
最后的預(yù)測(cè)公式為
(10)
本文采用均方誤差(mean squared error, MSE)和平均絕對(duì)誤差(mean absolute error, MAE)來作為光譜參數(shù)測(cè)量結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算方式見式(11)和式(12)
(11)
(12)
模型訓(xùn)練好之后,對(duì)輸入的數(shù)據(jù)會(huì)有對(duì)應(yīng)的輸出,該輸出值就為預(yù)測(cè)值,一般預(yù)測(cè)值越接近真實(shí)值越好,誤差是指預(yù)測(cè)值和真實(shí)值的差,模型的好壞在于預(yù)測(cè)新樣本的時(shí)候有較小的誤差,誤差越小模型的泛化能力越強(qiáng)。 當(dāng)數(shù)據(jù)量不足的時(shí)候,模型會(huì)出現(xiàn)欠擬合,反之則會(huì)出現(xiàn)過擬合現(xiàn)象。
常用的模型實(shí)驗(yàn)方法中,留出法比較常見,留出法隨機(jī)保留一部分?jǐn)?shù)據(jù)留作測(cè)試,其他用于模型訓(xùn)練,一般來說采用2/3或者4/5的樣本數(shù)據(jù)用于訓(xùn)練,剩余的樣本用于測(cè)試,若訓(xùn)練集數(shù)據(jù)太多,測(cè)試集數(shù)據(jù)太少評(píng)估結(jié)果往往不具備足夠的可信度,若測(cè)試集過多,模型可能會(huì)欠擬合,數(shù)據(jù)集的特征擬合不完整,因此數(shù)據(jù)集的選擇尤為重要,實(shí)驗(yàn)隨機(jī)選擇保留原始數(shù)據(jù)的30%作測(cè)試數(shù)據(jù),其他數(shù)據(jù)作訓(xùn)練數(shù)據(jù)。
采用LAMOST DR5光譜數(shù)據(jù),從中隨機(jī)選擇了2萬(wàn)條恒星光譜,其中三個(gè)恒星大氣物理參數(shù)值的范圍為: 有效溫度(Teff): 3 763.85~8 362.43 K,表面重力(Logg): 0.319~4.897 dex,金屬豐度([Fe/H]): -2.477~0.62 dex,所有光譜g,r,i波段平均信噪比覆蓋范圍為6.7~793。
實(shí)驗(yàn)設(shè)計(jì)步驟如下:
(1)利用小波變換對(duì)光譜進(jìn)行去噪,并進(jìn)行流量歸一化;
(2)采用主成分分析方法(principal component analysis, PCA)對(duì)光譜數(shù)據(jù)進(jìn)行降維,通過實(shí)驗(yàn)分析本文選擇降維至300維;
(3)利用留出法隨機(jī)抽取樣本中70%為訓(xùn)練數(shù)據(jù),剩余30%為測(cè)試數(shù)據(jù),共進(jìn)行50次組合實(shí)驗(yàn);
(4)應(yīng)用KRR方法分別對(duì)三個(gè)參數(shù)進(jìn)行模型訓(xùn)練及測(cè)試,進(jìn)行誤差分析。
(5)采用經(jīng)典SVR方法在相同數(shù)據(jù)上進(jìn)行訓(xùn)練測(cè)試,并與KRR方法的結(jié)果進(jìn)行對(duì)比。
(1)有效溫度預(yù)測(cè)結(jié)果對(duì)比圖
圖1和圖2中左側(cè)圖橫軸為天體有效溫度的真實(shí)值,縱軸為天體光譜有效溫度的預(yù)測(cè)值,顯然,數(shù)據(jù)點(diǎn)越靠近中心線y=x,預(yù)測(cè)結(jié)果越接近真實(shí)值,右側(cè)圖相應(yīng)為誤差統(tǒng)計(jì)直方圖。 直觀上可以看出,KRR方法有效溫度的預(yù)測(cè)值比SVR方法有更多的點(diǎn)接近真實(shí)值,從直方圖也可看出,圖中誤差值接近0的頻數(shù)要遠(yuǎn)遠(yuǎn)大于SVR中誤差接近0的頻數(shù)。 KRR方法在有效溫度方面的預(yù)測(cè)結(jié)果要優(yōu)于SVR方法。
圖1 KRR方法有效溫度估計(jì)值和真實(shí)值一一對(duì)應(yīng)圖及誤差對(duì)比圖
圖2 SVR方法有效溫度估計(jì)值和真實(shí)值一一對(duì)應(yīng)圖及誤差對(duì)比圖
(2)表面重力預(yù)測(cè)結(jié)果對(duì)比圖
從圖3和圖4左側(cè)圖可以看出,兩種方法預(yù)測(cè)值和真實(shí)值形成的數(shù)據(jù)點(diǎn)分布類似,KRR方法中出現(xiàn)的異常點(diǎn)略多,SVR方法預(yù)測(cè)結(jié)果相對(duì)比較穩(wěn)定。 從右側(cè)圖可以看出,KRR方法要比SVR方法略好,有更多的點(diǎn)接近真實(shí)值。 總體來說兩種方法在表面重力方面的測(cè)量結(jié)果KRR方法在準(zhǔn)確度上要好于SVR方法,但是在穩(wěn)定性上稍差。
(3)金屬豐度預(yù)測(cè)結(jié)果對(duì)比圖
從圖5和圖6左側(cè)圖可以看出KRR方法個(gè)別預(yù)測(cè)值偏差比較大,部分?jǐn)?shù)據(jù)點(diǎn)分布比較零散,SVR方法相對(duì)來說比較穩(wěn)定。 右側(cè)可以看出KRR方法優(yōu)勢(shì)更明顯,符合理想要求的數(shù)據(jù)點(diǎn)比較多,誤差值接近0的頻數(shù)比較大。 整體來說,SVR方法比較穩(wěn)定,KRR方法在精確度方面較好,但是預(yù)測(cè)不穩(wěn)定,預(yù)測(cè)結(jié)果較容易出現(xiàn)大誤差。
圖3 KRR方法表面重力估計(jì)值和真實(shí)值一一對(duì)應(yīng)圖及誤差對(duì)比圖
圖4 SVR方法表面重力估計(jì)值和真實(shí)值一一對(duì)應(yīng)圖及誤差對(duì)比圖
圖5 KRR方法金屬豐度估計(jì)值和真實(shí)值一一對(duì)應(yīng)圖及誤差對(duì)比圖
圖6 SVR方法金屬豐度估計(jì)值和真實(shí)值一一對(duì)應(yīng)圖及誤差對(duì)比圖
圖7 有效溫度殘差對(duì)比圖
圖8 表面重力殘差對(duì)比圖
(4)殘差對(duì)比圖
正常情況下殘差圖上的點(diǎn)隨機(jī)分布在以0為橫軸的直線上下,表明預(yù)測(cè)值的隨機(jī)性和不確定性,隨機(jī)性和不可預(yù)測(cè)性是任何回歸模型的關(guān)鍵組成部分。 越多的殘差數(shù)據(jù)點(diǎn)越接近0軸表示相對(duì)誤差越小,回歸方法預(yù)測(cè)結(jié)果越準(zhǔn)確。 從三個(gè)參數(shù)對(duì)應(yīng)KRR和SVR兩種方法的殘差對(duì)比圖(2.7,2.8,2.9)可以看出,在有效溫度測(cè)量上,KRR方法數(shù)據(jù)點(diǎn)分布帶要比SVR數(shù)據(jù)點(diǎn)分布帶窄,說明KRR在有效溫度測(cè)量上有較明顯優(yōu)勢(shì),而另外兩個(gè)參數(shù)并沒有明顯區(qū)別。 不過從殘差圖中可以看到,KRR方法預(yù)測(cè)結(jié)果中殘差較大的異常點(diǎn)相比SVR稍多,且在三個(gè)參數(shù)殘差圖中異常點(diǎn)有效溫度的誤差范圍大多聚集在500K左右,表面重力的在3 dex左右,金屬豐度的在1.5 dex左右,結(jié)合表1和表2的誤差統(tǒng)計(jì),這反過來說明KRR方法在非異常點(diǎn)處更加精確。
圖9 金屬豐度殘差對(duì)比圖
表1 KRR預(yù)測(cè)結(jié)果誤差統(tǒng)計(jì)表
表2 SVR預(yù)測(cè)結(jié)果誤差統(tǒng)計(jì)表
(5)誤差結(jié)果統(tǒng)計(jì)分析表
表1是本文KRR方法50次組合實(shí)驗(yàn)總的誤差統(tǒng)計(jì)表,從表中可以看到KRR方法有效溫度的預(yù)測(cè)誤差的平均絕對(duì)誤差值為82.989 7,其結(jié)果要比SVR方法的144.230 8好很多,表面重力和金屬豐度兩個(gè)結(jié)果KRR稍微優(yōu)于SVR方法。 本文實(shí)驗(yàn)數(shù)據(jù)中有效溫度的數(shù)值覆蓋范圍是3 763.85~8 362.43 K數(shù)值比較大,而另外兩個(gè)參數(shù)數(shù)值較小,說明KRR方法在大數(shù)值方面有較好的預(yù)測(cè)結(jié)果,在小數(shù)值上面預(yù)測(cè)結(jié)果和SVR相差無幾。 但是在均方誤差方面,由于KRR方法預(yù)測(cè)結(jié)果中存在較大的偏差,導(dǎo)致均方誤差要大于SVR方法。 總體來說KRR方法更適合有效溫度的預(yù)測(cè)。
將KRR方法應(yīng)用于恒星大氣物理參數(shù)測(cè)量,該方法能在天體光譜參數(shù)測(cè)量方面取得比較理想的預(yù)測(cè)結(jié)果,對(duì)高緯度小樣本有較好的魯棒性。 為了避免偶然數(shù)據(jù)的影響,本文將SVR方法和該方法作對(duì)比,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)KRR方法在有效溫度的測(cè)量方面具有較高的預(yù)測(cè)精度,表面重力和金屬豐度優(yōu)勢(shì)較小,但總體的預(yù)測(cè)結(jié)果是可以接受,因此該方法在天體光譜參數(shù)測(cè)量方面是可行的。 由于KRR方法添加了正則項(xiàng),權(quán)值系數(shù)矩陣是不稀疏的,隨著數(shù)據(jù)量的增加,模型訓(xùn)練時(shí)間越來越長(zhǎng),下一步將針對(duì)訓(xùn)練時(shí)間進(jìn)行優(yōu)化。