杜利婷, 自彥丞, 張靜敏, 艾霖嬪,周衛(wèi)紅, 2
(1.云南民族大學(xué) 數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院, 云南 昆明 650500;2.中國科學(xué)院 天體結(jié)構(gòu)與演化重點(diǎn)實驗室, 云南 昆明 650011)
研究恒星光譜的重要內(nèi)容之一是恒星光譜分類, 準(zhǔn)確識別分類恒星光譜對天文研究有重大意義. 目前通用恒星光譜分類方法是摩根-基南(Morgan-Keenan, MK)分類法, 即MK系統(tǒng)分類方法, 其依據(jù)恒星溫度由高至低排序, 將恒星光譜分為O, B, A, F, G, K 和 M 型7大類, 其中, O型有5小類, M型有6小類, B, A, F, G, K型分別有10小類, 總共有61小類. 目前, 國內(nèi)大型巡天項目LAMOST (large sky area multi-object fiber spectroscopic telescope)每年產(chǎn)生數(shù)百萬恒星光譜數(shù)據(jù), 對大量恒星光譜進(jìn)行準(zhǔn)確識別與分類研究已經(jīng)成為天文研究熱點(diǎn)之一.
2017年12月31日, LAMOST項目一期低分辨率(R= 1 800)巡天工作正式宣布結(jié)束, LAMOST DR5數(shù)據(jù)集正式發(fā)布, 共發(fā)布了901萬條光譜, 其中高質(zhì)量光譜數(shù)(S/N > 10)達(dá)到了777萬條. 2017年9月1日起, LAMOST開始第2期中分辨率(R= 7 500)巡天, 2019年3月27日, LAMOST DR6數(shù)據(jù)集正式發(fā)布, 共包含 1 125 萬條光譜, 包括常規(guī)低分辨率光譜數(shù)據(jù)和中分辨率測試光譜數(shù)據(jù), 其中, 低分辨率光譜數(shù)據(jù)總數(shù)991萬條, 中分辨率非時域光譜數(shù)據(jù)50萬條, 中分辨率時域光譜數(shù)據(jù)84萬條; 這其中高質(zhì)量光譜(S/N > 10)達(dá)到了937萬條, 約是國際上其他巡天項目發(fā)布光譜數(shù)和的2倍, LAMOST成為第1個超過千萬量級的巡天項目, LAMOST獲取的天文大數(shù)據(jù)豐富了全球天文觀測數(shù)據(jù)庫;
在恒星光譜分類研究方面, 劉蓉等[1]提出了1種結(jié)合非參數(shù)回歸與自適應(yīng)增強(qiáng)算法(adaptive boosting, adaboost)對恒星光譜進(jìn)行MK分類的方法, 采用非參數(shù)回歸方法進(jìn)行恒星光譜型和光譜次型的分類, 基于adaboost方法組合一組K近鄰分類器進(jìn)行光度型分類,實驗結(jié)果為光譜次型識別的精度達(dá)到0.22, 光度型分類準(zhǔn)確率達(dá)到84%以上, 表明該方法的有效性; 王晶等[2]基于集成樹模型對M型光譜進(jìn)行分類研究, 實驗結(jié)果表明集成樹算法在巨星識別過程中具有顯著優(yōu)勢; 潘景昌等[3]研究了基于Lick線指數(shù)的貝葉斯光譜分類方法, 對F, G,K3類恒星光譜進(jìn)行分類; Liu等[4]提出基于恒星軌跡線指數(shù)對LAMOST中的A與G型恒星光譜數(shù)據(jù)進(jìn)行自動分類, 分類準(zhǔn)確率在90%以上;Liu等[5]分別運(yùn)用局部保持投影法(locality preserving projections,LPP)和主成分分析(principal component analysis,PCA)對SDSS的F型與G型恒星光譜進(jìn)行降維, 然后再利用支持向量機(jī)(support vector machine, SVM)對降維后的恒星光譜數(shù)據(jù)進(jìn)行分類, 結(jié)果表明LPP的性能優(yōu)于PCA.
隨著LAMOST巡天數(shù)據(jù)的快速增長, 如何高效準(zhǔn)確的處理海量光譜數(shù)據(jù)顯得尤為重要, 而高效智能的方法隨之產(chǎn)生. 2006年, Hinton等人提出深度學(xué)習(xí). 深度學(xué)習(xí)源于神經(jīng)網(wǎng)絡(luò), 其重要組成部分是機(jī)器學(xué)習(xí); 近年來, 深度學(xué)習(xí)廣泛運(yùn)用于光譜分類研究方面, 并取得了一定的成果. S.Kherirdastan等[6]將概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)、SVM和K-means算法作為大質(zhì)量恒星光譜自動分類工具, 結(jié)果表明PNN的自動分類效果優(yōu)于SVM和K-means算法; Mahdi等[7]將自組織映射網(wǎng)絡(luò)(self-organizing mapping, SOM)算法作為1種無監(jiān)督的人工神經(jīng)網(wǎng)絡(luò)算法用于恒星光譜的分類, 分類準(zhǔn)確率約為92.4%; 許婷婷等[8]將深度信念網(wǎng)絡(luò)應(yīng)用于恒星光譜分類, 分類準(zhǔn)確率達(dá)到93%; 石超君等[9]提出1種基于卷積神經(jīng)網(wǎng)絡(luò)的K和F型恒星光譜分類方法, 結(jié)果為99.8%, 結(jié)果比SVM和誤差反向傳播(error back propagation, BP)算法的準(zhǔn)確率要高, 成功的將一維卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用于恒星光譜分類中; 劉忠寶等[10]在雙支持向量機(jī)的基礎(chǔ)上, 提出融合數(shù)據(jù)分布特征的模糊雙支持向量機(jī), 在SDSS DR8恒星光譜數(shù)據(jù)上進(jìn)行研究, 結(jié)果表明相對于傳統(tǒng)的支持向量機(jī)和雙支持向量機(jī), 融合數(shù)據(jù)分布特征的模糊雙支持向量機(jī)具有更優(yōu)的分類能力.
傅里葉變換(Fourier transformation, FT)由傅里葉在1807年為了解決熱過程中的問題而提出,其最成功之處是將難以處理的時域信號轉(zhuǎn)換成易于分析的頻域信號, 然后再利用一些工具對頻域信號進(jìn)行處理和加工, 從而表示出時域信號的的特征. 但是, 對于一些不平穩(wěn)信號, 比如說語音信號等, 其頻域信號是隨時間變化的, 而有時人們需要去了解某個時段上的頻率特征, 對于這種時頻局部化的要求, 傅里葉變換無法解決, 因而Dennis Gabor于1946年引入短時傅里葉變換(short time Fourier transform, STFT), 其基本思想是: 通過窗函數(shù)將信號切分成許多相同的小的時間隔, 用傅里葉變換分析每1個時間隔, 以此來確定該時間間隔存在的頻率, 得到一系列頻域信號的變化結(jié)果, 將這些結(jié)果排開便得到1個二維的表象, 進(jìn)而再用相關(guān)工具去分析, 得到某個時段上的頻率特征, 實現(xiàn)時頻局部化. STFT的公式如下:
其中,f(t)是信號函數(shù),g(t-τ)是窗函數(shù),ω是信號函數(shù)中的基頻率.
實驗利用Specgram函數(shù)來實現(xiàn)短時傅里葉變換, 將一維恒星光譜數(shù)據(jù)轉(zhuǎn)換成二維傅里葉譜圖像, 形成新的特征分布且保留了更多特征, 有利于后續(xù)的分類研究. Specgram函數(shù)的語法如下:
[S,F,T,P]=spectrogram(A,window,noverlap,nfft,fs).
其中,A是信號;window是窗函數(shù);noverlap是各段之間重疊采樣的點(diǎn)數(shù)(各段之間必須要有重疊的部分);nfft是計算離散傅里葉變換的點(diǎn)數(shù);fs是采樣頻率;S是輸入信號A的短時傅里葉變換;F是在輸入變量中使用F頻率變量;T是頻譜圖計算的時刻點(diǎn);P是能量譜密度. 在本文中,A被分成8段分別做變換處理;window是長度為nfft的海明窗;noverlap是在各段之間產(chǎn)生50%的重疊;nfft是256和大于每段長度的最小2次冪之間的最大值;fs為5.
由于在短時傅里葉變換中的采樣過程會損失部分特征信息, 所以我們在短時傅里葉變換之前先對恒星光譜數(shù)據(jù)進(jìn)行一維卷積處理, 目的是減少后續(xù)處理中的特征損失. 卷積神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)如圖1, 圖中包括輸入層, 卷積層, 池化層, 全連接層, 輸出層. 通常情況下, 數(shù)據(jù)集進(jìn)入輸入層進(jìn)行預(yù)處理, 然后通過卷積層的卷積核提取特征進(jìn)而生成特征圖, 池化層對特征圖進(jìn)行特征選擇和信息過濾以形成新的特征圖, 全連接層對池化層生成的特征圖進(jìn)行整合, 最后輸出結(jié)果. 而一維卷積的結(jié)構(gòu)包括輸入層, 卷積層, 輸出層, 在沒有池化層之后, 光譜數(shù)據(jù)經(jīng)過一維卷積處理后仍然保持原來的維度, 繼而對應(yīng)的特征也保留.
對于一維卷積的結(jié)構(gòu), 首先在輸入層輸入F5, G5, K5型恒星光譜數(shù)據(jù)各1000條; 而在卷積層處, 我們設(shè)置了數(shù)量即深度為1, 尺寸為3× 1, 權(quán)值為1, 1, 1, 步長為1的卷積核; 在輸出層輸出經(jīng)過卷積層處理后的結(jié)果. 舉例說明一維卷積的具體計算過程, 其中, 卷積核的數(shù)量為1, 尺寸為3× 1, 權(quán)值為1, 1, 0, 步長為1, 并在輸入光譜的兩側(cè)加上一圈寬度為1, 值為0的像素點(diǎn), 即進(jìn)行填充, 目的是保持光譜數(shù)據(jù)經(jīng)過一維卷積處理后的維度不變, 如圖2所示:
文中實驗數(shù)據(jù)來源于LAMOST Data Release 5(DR5), 從中隨機(jī)選取各1 000條共3 000條F5, G5, K5型恒星光譜數(shù)據(jù), 信噪比>20, 每條光譜數(shù)據(jù)的波長范圍是370~910 nm. 由于光譜數(shù)據(jù)在不同波長下對應(yīng)的流量值可能存在很大的差異,不利于分類實驗, 所以對數(shù)據(jù)進(jìn)行歸一化處理, 使流量值處于[0-1]之間, 以解決流量值變化區(qū)間處于不同數(shù)量級的問題, 文章采用的歸一化方法如下:
其中,χnorm表示歸一化后的恒星光譜數(shù)據(jù);χ=(χ1,…,χn)表示每一條光譜數(shù)據(jù), 其中,χ1,…,χn表示給定波長下對應(yīng)的流量值;Xmax=(χ1,…,χn)max,, 即一條光譜數(shù)據(jù)中最大的流量值, 經(jīng)過歸一化處理后, 恒星光譜數(shù)據(jù)中的流量值均映射到[0, 1], 處于用一個數(shù)量級, 有利于后續(xù)的分類實驗. 一條未經(jīng)過任何處理的和經(jīng)過歸一化后的F5型恒星光譜數(shù)據(jù)分別如圖3中(a)、(b)所示.
首先將3 000條恒星光譜數(shù)據(jù)進(jìn)行一維卷積處理, 使恒星光譜原有的特征明顯化和減少在短時傅里葉變換中采樣過程的數(shù)據(jù)損失, 其中卷積核的數(shù)量為1, 尺寸為3× 1, 權(quán)值為1,1,1, 步長為1, 并在輸入光譜的兩側(cè)加上一圈寬度為1, 值為0的像素點(diǎn), 即進(jìn)行填充, 以保持經(jīng)過一維卷積后恒星光譜數(shù)據(jù)的維度不變.
在經(jīng)過一維卷積計算后的恒星光譜數(shù)據(jù)仍然為一維恒星光譜數(shù)據(jù), 無法作為卷積神經(jīng)網(wǎng)絡(luò)的輸入, 因此, 要利用STFT的時頻解析性質(zhì)將一維恒星光譜數(shù)據(jù)轉(zhuǎn)化為二維傅里葉譜圖像, 形成新的特征分布, 以有利于后續(xù)的分類研究. 一條經(jīng)過一維卷積的F5型恒星光譜數(shù)據(jù), 以及該條恒星光譜數(shù)據(jù)生成的二維傅里葉譜圖像如圖4(a)、(b)所示.
為了進(jìn)行結(jié)果的比對, 設(shè)置了另外一組實驗, 直接利用短時傅里葉變換將 3 000 條恒星光譜數(shù)據(jù)轉(zhuǎn)換為二維傅里葉譜圖像, 然后再利用Inception v3模型對二維傅里葉譜圖像進(jìn)行分類識別. 在這兩組實驗中, 短時傅里葉變換中的采樣率fs均為5, 而Inception v3模型是深度學(xué)習(xí)中經(jīng)典且有效的卷積神經(jīng)網(wǎng)絡(luò). 它從Inception v1逐步發(fā)展而來, 相對于Inception v1和Inception v2, 在Inception v3模型中, 卷積核和池化堆疊在一起, 增加了網(wǎng)絡(luò)的寬度和對尺度的適應(yīng)性; 加入批次規(guī)范化(batch normalization, BN)層, 有助于加速收斂和提高準(zhǔn)確率; 將一個較大的二維卷積核分成兩個較小的一維卷積核, 減少參數(shù), 加速運(yùn)算并減輕了過擬合, 增加了1層非線性擴(kuò)展了模型表達(dá)能力, 這種非對稱的卷積結(jié)構(gòu)拆分, 可以處理更多更豐富的空間特征, 增加特征多樣性, 因而Inception v3的結(jié)構(gòu)如圖5所示(圖中c是convolutions; p是max pooling).
文中提出在利用STFT之前, 先將來自LAMOST DR5的各1 000條F5, G5, K5型恒星光譜數(shù)據(jù)做一維卷積, 以減少在短時傅里葉變換的采樣過程中造成的特征損失, 然后再利用STFT將恒星光譜數(shù)據(jù)轉(zhuǎn)化為二維傅里葉譜圖像, 最后利用Inception v3模型對二維傅里葉譜圖像進(jìn)行分類, 結(jié)果如表1所示:
表1 實驗結(jié)果
由表1可知, 在第1組實驗中, 恒星光譜數(shù)據(jù)沒有做一維卷積, Inception v3模型的分類準(zhǔn)確率為90.4%; 而在第2組實驗中, 恒星光譜數(shù)據(jù)做了一維卷積, Inception v3模型的分類準(zhǔn)確率為99%, 二者的差距十分明顯, 從而表明一維卷積對于降低數(shù)據(jù)損失的有效性, 進(jìn)而提高分類準(zhǔn)確率.
在文獻(xiàn)[11]中, 張靜敏等選取了LAMOST DR5中的F型, G型, K型恒星光譜數(shù)據(jù)各10 000條作為訓(xùn)練集, 各1 000條作為測試集, 然后采用深度信念網(wǎng)絡(luò)(deep belief net, DBN)模型進(jìn)行訓(xùn)練分類, 結(jié)果為94%; 在文獻(xiàn)[12]中, 張靜敏通過短時傅里葉變換生成新的特征譜圖像, 再利用Inception v3模型對二維傅里葉譜圖像進(jìn)行分類實驗, 實驗數(shù)據(jù)來源于LAMOST DR5中的F型, G型, K型各10 000條, 最終的分類準(zhǔn)確率為92.9%. 文獻(xiàn)[11]與文獻(xiàn)[12]中的實驗結(jié)果與文中實驗結(jié)果對比見表2.
表2 結(jié)果對比
由表2可知, 雖然本實驗與文獻(xiàn)[11]和文獻(xiàn)[12]實驗樣本數(shù)據(jù)不同但都源于LAMOST DR5, DBN與Inception v3都屬于深度學(xué)習(xí)中的模型. Inception v3是卷積神經(jīng)網(wǎng)絡(luò)的經(jīng)典模型, 能有效提取圖像的特征, 所以通過Inception v3模型對二維傅里葉譜圖像提取特征然后進(jìn)行分類. 從實驗結(jié)果來看, 本實驗的分類準(zhǔn)確率達(dá)到99%, 是比較好的結(jié)果, 進(jìn)而說明一維卷積對于降低數(shù)據(jù)損失的有效性, 進(jìn)而提高分類準(zhǔn)確率.
為降低恒星光譜數(shù)據(jù)在短時傅里葉變換的采樣過程中造成的數(shù)據(jù)損失, 文中采用短時傅里葉變換和一維卷積網(wǎng)絡(luò)形成新的特征譜圖像, 該特征譜圖像形成新的特征分布且保留更多的數(shù)據(jù)信息, 進(jìn)而提高分類準(zhǔn)確率, 實驗結(jié)果表明了一維卷積對于保留特征的有效性, 且分類效果優(yōu)于其他分類模型. 深度學(xué)習(xí)方法面對大樣本數(shù)據(jù)有較大優(yōu)勢, 但也有計算量大的缺點(diǎn), 所以需要進(jìn)一步優(yōu)化算法以解決復(fù)雜度高的問題. 在接下來的工作中, 我們將會選取分類精度低的光譜作為分類候選體, 進(jìn)行自動分類和數(shù)據(jù)挖掘研究, 相關(guān)成果可以為研究銀河系結(jié)構(gòu)提供進(jìn)一步支持.