文/鄧詩宇 屠良平
基于改進密度聚類算法的天體光譜自動分類處理
文/鄧詩宇 屠良平
隨著我國大型巡天計劃的迅速開展,海量天體光譜數(shù)據(jù)分類,尤其高效的自動化分類技術(shù)成為了我們迫切研究的重要課題.本文提出了根據(jù)密度可達原則,改進的密度聚類算法——哈曼頓距離密度算法(MD-DBSCAN),應(yīng)用于多種我們熟知的光譜中.針對來源于美國SDSS-DR8的天體光譜數(shù)據(jù),對比DBSCAN、NED-DBSCAN、MD-DBSCAN三種算法的相關(guān)性能表現(xiàn)對比,得出相應(yīng)的結(jié)論。
天體光譜分類 歐氏距離 標準化歐氏距離 曼哈頓距離 核主成分分析法
光譜是一種包含了許多高維、非線性特征的復雜數(shù)據(jù),同時伴隨著大量的噪聲和數(shù)值缺省的特點,并且涵蓋著相應(yīng)的信息,其中天體光譜最為突出。以中科院國家天文臺的郭守敬望遠鏡(large sky area multi-object fiber spectroscopy telescope,LAMOST)為例,其于2008年落成,2011年正式開啟巡天行動。它的投入使用為我國的天外星系研究,猶如天體光譜研究提供了百萬級數(shù)量的數(shù)據(jù)。然而,面對如此海量的天體光譜數(shù)據(jù),一些已經(jīng)運作的天體光譜分類方法以無法實現(xiàn)精確的計算。由此,急切需要開發(fā)更高運算性能的天體光譜分類方法。本文運用了密度聚類方法(DBSCAN)可以很好的分析出光譜的類別,同時提出了改進的方法,以便可以更好的選取數(shù)據(jù),進一步篩選精確的、有效的數(shù)據(jù),獲得更真實的天體光譜數(shù)據(jù)分類。
定義:
Def-1對象的Eps鄰域和近鄰,如圖1所示;核心對象,邊界對象,噪聲對象,如圖2所示;直接密度可達,密度可達,密度相連,如圖3所示。
Def-2 歐氏距離:
步驟:
輸入:數(shù)據(jù)集A,包括n個核心對象,參數(shù)Eps為對象的領(lǐng)域,參數(shù)MinPts為最小的長度值。輸出:將位置相鄰的對象聚為一簇(或聚類)集合,能夠識別噪聲對象。
Step 1:首先將數(shù)據(jù)集A中的所有對象標記為未處理狀態(tài);
Step 2:for數(shù)據(jù)集A中每個對象tdo;
Step 4:ift已經(jīng)歸入某個簇(或聚類)標記為噪聲;檢查對象t的Eps鄰域REps(t);ifREps(t)包含的對象數(shù)小于MinPts;標記對象t為邊界對象或噪聲對象;標記對象t為核心對象,并建立新簇(或聚類)Q,并將t鄰域內(nèi)所有點加入Q;forREps(t)中所有尚未被處理的對象vdo;檢查其Eps鄰域REps(t),若REps(t)包含至少MinPts個對象,則將REps(t)中未歸入任何一個簇(或聚類)的對象加入Q。
本文的數(shù)據(jù)來源于美國巡天計劃中SDSSDR8的光譜,在其中0266-0305天區(qū)中選取噪聲比中值大于10的星系(Galaxy)光譜3864條,類星體(Quasar)光譜3864條,恒星(Star)光譜3864條的原始數(shù)據(jù),光譜波長插值到380.1nm~754.0nm,步長0.1nm,均勻采樣3650個點。
噪聲處理:一種基于均值漂移的尺度空間濾波法。
流量歸一化:光譜流量進行歸一化處理。
特征提?。汉酥鞒煞址治?。
圖1:領(lǐng)域、近鄰
圖3:直接密度可達、密度可達、密度相連
原始光譜和特征光譜分別如圖4和5所示。每次實驗隨機選取星系(Galaxy)、類星體(Quasar)、恒星(Star)中各自的樣本數(shù)據(jù),多次使用得出平均值,以便使實驗的數(shù)據(jù)更趨近去真實情況。
據(jù)我們所知目前天體光譜的分類還不成熟,需要待優(yōu)化的方面很多,有待于我們?nèi)ド钊胙芯浚瞧渲械男窍担℅alaxy)、類星體(Quasar)、恒星(Star)已經(jīng)被我們所熟知,也有一定的代表性,因此本文將三種實驗方法應(yīng)用其中,同時對比了ED-DBSCAN算法、NED-DBSCAN算法、MD-DBSCAN算法之間所表現(xiàn)出來的性能,結(jié)果MD-DBSCAN算法的平均分類穩(wěn)定數(shù)目值更小且算法運算時間也更短。因此,在研究天體光譜分類中具有一定的現(xiàn)實意義。
圖4:原始光譜
圖5:特征光譜
[1]趙永恒.天體光譜獲取率最高的望遠鏡—LAMOST.現(xiàn)代物理知識,2007(05):3-5.
[2]Zhao Y H,Chu Y Q,Li G P,et al.The Large Sky Area Multi-Object Fiber Spectroscopic Telescope (LAMOST).天文和天體物理學研究(Research in Astronomy and Astrophysi cs),2012,12(09):257-260.
[3]Rodriguez A,Laio A.Clustering by fast search and find of density peaks.Sci ence,2014,344(6191):1492-1496.
[4]Duan F Q,Zhou M Q,Zhang J C.Nonlinear scale space filtering based on mean shift[J].Journal of Jilin University,2007,37(03):634-639.
[5]Xiang M S,Liu X W,Shi J R,et al.Estimating stellar atmospheric parameters,absolute magnitudes and elemental abundances from the LAMOST spectra with Kernel-based principal component analysis.Monthly Notices of the Royal Astronomical Society,2017,464(10):3657-3678
作者單位遼寧科技大學理學院 遼寧省鞍山市 114051
鄧詩宇 (1990-) 男,遼寧省遼陽市人。碩士研究生學歷。運籌學與控制論專業(yè)。