趙永健, 郭 瑞, 王璐瑤, 姜 斌
山東大學(xué)(威海)機(jī)電與信息工程學(xué)院, 山東 威海 264209
矮新星(dwarf nova, DN)是激變變星一個(gè)亞型, 是由來(lái)自伴星(K型或M型矮星)物質(zhì)吸積的吸積盤(pán)和弱磁(≤10 T)白矮星構(gòu)成的雙星系統(tǒng)[1-2]。 矮新星是一類(lèi)爆發(fā)相對(duì)頻繁的半相接雙星, 兩星間具有多種物質(zhì)交流和角動(dòng)量轉(zhuǎn)移過(guò)程即吸積過(guò)程[3]。 通過(guò)矮新星可以進(jìn)一步理解密近雙星的演化過(guò)程, 有助于深入研究物質(zhì)轉(zhuǎn)移理論, 進(jìn)而幫助人們研究X射線(xiàn)雙星、 黑洞和活動(dòng)星系核。 具有距離近和軌道周期短優(yōu)勢(shì)的矮新星是各類(lèi)天體中研究吸積過(guò)程和引力波問(wèn)題的最理想標(biāo)的, 已成為現(xiàn)階段檢驗(yàn)和發(fā)展吸積盤(pán)理論的最常用證據(jù)[3-4]。
目前已經(jīng)證認(rèn)的矮新星數(shù)量稀少, 這對(duì)該類(lèi)天體的研究形成了很大制約。 國(guó)家大科學(xué)工程郭守敬望遠(yuǎn)鏡(LAMOST)[4]的巡天已經(jīng)產(chǎn)生了海量的光譜數(shù)據(jù), 這為發(fā)現(xiàn)更多的矮新星提供了數(shù)據(jù)源, 同時(shí)也提出了高效、 準(zhǔn)確地從海量光譜中搜索矮新星的需求。 LAMOST光譜中矮新星樣例如圖1所示。
深度學(xué)習(xí)(deep learning)在計(jì)算機(jī)視覺(jué)、 模式識(shí)別和機(jī)器翻譯等領(lǐng)域取得的突破性進(jìn)展是推動(dòng)本研究的重要因素[5-10]。 Daniel[5]首次用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)對(duì)天體光譜進(jìn)行高維特征表述, 通過(guò)相對(duì)松弛的光譜類(lèi)別先驗(yàn)分布實(shí)現(xiàn)了不同天體(quasar, star, galaxy)光譜的粗分類(lèi)。 然而作為一種淺層網(wǎng)絡(luò), CNN欠缺對(duì)數(shù)據(jù)特征的抽象學(xué)習(xí)能力, 容易陷入維度災(zāi)難。 Bengio[6]以判別學(xué)習(xí)的方式從大量混合光譜中擬合出具有穩(wěn)定分布的卷積核, 基于寬度準(zhǔn)則和K-means算法確定神經(jīng)網(wǎng)絡(luò)的超參數(shù), 實(shí)現(xiàn)了若干發(fā)射線(xiàn)與吸收線(xiàn)光譜的分類(lèi)。 該方法旨在發(fā)現(xiàn)并提取光譜的底層特征, 往往會(huì)導(dǎo)致嚴(yán)重的數(shù)據(jù)過(guò)擬合, 模型欠缺泛化能力。 Bazarghan[8]在局部線(xiàn)性嵌入算法(locally linear embedding, LLE)的基礎(chǔ)上針對(duì)JHC光譜庫(kù)引入自組織映射網(wǎng)絡(luò)(self-organizing map, SOM)對(duì)光譜聚類(lèi), 發(fā)現(xiàn)了由LLE生成的特征子空間與光譜溫度之間的關(guān)系, 為進(jìn)一步減少特殊天體的分類(lèi)誤差提供了有效先驗(yàn)。 SOM模型需要事先獲取精確的先驗(yàn)信息, 對(duì)于低信噪比光譜僅能達(dá)到45%的分類(lèi)準(zhǔn)確率。
圖1 LAMOST矮新星光譜
自編碼器[1, 5](auto-encoder, AE)是僅包含一個(gè)隱層的經(jīng)典神經(jīng)網(wǎng)絡(luò)模型, 能夠自動(dòng)挖掘樣本數(shù)據(jù)的低層次特征。 然而一層AE編碼能力有限, 數(shù)據(jù)表征學(xué)習(xí)能力不足。 具有多層次分布式架構(gòu)的網(wǎng)絡(luò)可彌補(bǔ)淺層模型在數(shù)據(jù)表征學(xué)習(xí)方面的欠缺, 對(duì)混亂無(wú)序的海量原始數(shù)據(jù)進(jìn)行抽象, 挖掘隱藏在數(shù)據(jù)內(nèi)部具有區(qū)分度的潛在特征[10]。 本文結(jié)合AE算法在參數(shù)估計(jì)上的計(jì)算優(yōu)勢(shì), 以AE為基礎(chǔ)構(gòu)建了基于多層感知器架構(gòu)的深度前饋堆棧式自編碼器網(wǎng)絡(luò), 其深度分布式結(jié)構(gòu)能夠提供有效的數(shù)據(jù)抽象和表征學(xué)習(xí)能力, 特征檢測(cè)層可從無(wú)標(biāo)注數(shù)據(jù)中隱式地學(xué)習(xí)到其深度結(jié)構(gòu)特征, 有效刻畫(huà)光譜數(shù)據(jù)的非線(xiàn)性和隨機(jī)波動(dòng)性, 體現(xiàn)出較強(qiáng)的數(shù)據(jù)擬合和泛化能力。 網(wǎng)絡(luò)不同層之間的權(quán)值共享(shared weights)可減少冗余信息的干擾, 有效化解傳統(tǒng)多層次架構(gòu)網(wǎng)絡(luò)易陷入權(quán)值局部最小化的風(fēng)險(xiǎn)。
在針對(duì)矮新星光譜的實(shí)驗(yàn)中我們發(fā)現(xiàn): 模塊化拓寬神經(jīng)網(wǎng)絡(luò)的深度能夠驅(qū)使網(wǎng)絡(luò)繼承地學(xué)習(xí)到天體光譜的特征, 通過(guò)對(duì)底層特征的逐漸抽象學(xué)習(xí)獲得高層特征, 進(jìn)而提高光譜的分類(lèi)準(zhǔn)確率。 針對(duì)這一特點(diǎn), 我們構(gòu)建了如圖2所示的深度架構(gòu)網(wǎng)絡(luò)(deep architecture network, DAN)。
圖2 深度架構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)
由L個(gè)非線(xiàn)性計(jì)算單元[AE(1)—AE(L)]堆疊而成的DAN網(wǎng)絡(luò)實(shí)質(zhì)上是由輸入層I和L個(gè)隱層H(1),H(2), …,H(L)及輸出層構(gòu)成的堆棧式深度前饋網(wǎng)絡(luò), 其神經(jīng)元可以響應(yīng)周?chē)鷨卧?預(yù)處理后的光譜數(shù)據(jù)先由輸入層I進(jìn)入DAN網(wǎng)絡(luò), 再經(jīng)L個(gè)隱層H(1),H(2), …,H(L)實(shí)現(xiàn)逐層的數(shù)據(jù)抽象和特征抽取。 為防止數(shù)據(jù)冗余和網(wǎng)絡(luò)權(quán)植陷入局部最小化, 把網(wǎng)絡(luò)前一層學(xué)習(xí)到的穩(wěn)定特征作為后一層的輸入以實(shí)現(xiàn)權(quán)值共享。 經(jīng)充分學(xué)習(xí)后得到數(shù)據(jù)合適的特征表示即H(L), 最后由隱層H(L)作為重構(gòu)輸出層搭建支持向量機(jī)(support vector machine, SVM)分類(lèi)器, 完成對(duì)矮新星的特征提取與分類(lèi)。
(1)
其中,
(2)
(3)
(4)
深度架構(gòu)網(wǎng)絡(luò)涉及諸多參數(shù), 訓(xùn)練樣本的抽樣有偏或訓(xùn)練過(guò)度都會(huì)使網(wǎng)絡(luò)發(fā)生過(guò)擬合現(xiàn)象[7]。 設(shè)計(jì)dropout準(zhǔn)則防止過(guò)擬合: 訓(xùn)練網(wǎng)絡(luò)時(shí)按一定比例(該比例稱(chēng)為dropout系數(shù))隨機(jī)使某些隱層單元失效并保持其權(quán)值不變, 使這些單元不再參與該次網(wǎng)絡(luò)傳播過(guò)程, 下一次迭代時(shí)先激活所有單元再按dropout系數(shù)重新隨機(jī)舍棄部分單元(與上一次選擇的單元大概率不相同)。 利用均值網(wǎng)絡(luò)思想[7-8]使網(wǎng)絡(luò)隱層單元輸出按照dropout系數(shù)衰減, 并由反向傳播算法微調(diào)整個(gè)網(wǎng)絡(luò), 使一個(gè)隱層單元不能與其他單元完全協(xié)同合作(因不能確定其他單元是否被激活), 減少因隱層神經(jīng)元間的相互適應(yīng)而學(xué)習(xí)到重復(fù)的數(shù)據(jù)表征, 提高網(wǎng)絡(luò)的泛化能力。
自L(fǎng)AMOST光譜庫(kù)中選取不同信噪比的矮新星及其若干候選體的光譜共計(jì)213條和由隨機(jī)篩選獲得的負(fù)樣例光譜8 000條, 波長(zhǎng)統(tǒng)一為3 800~7 322 ?, 信噪比為5~20。
設(shè)計(jì)特征學(xué)習(xí)算法的目的是抽象出能解釋觀(guān)測(cè)數(shù)據(jù)的變化因素(factors of variation)。 DAN是由多層非線(xiàn)性運(yùn)算單元AE堆疊而成的堆棧式網(wǎng)絡(luò)。 為了保持原始數(shù)據(jù)潛在信息的完整性和一致性, 對(duì)每一條原始光譜通過(guò)式(5)歸一化
(5)
其中si表示波長(zhǎng)為i的光譜流量; mean(·)為均值算子;δ(si)為標(biāo)準(zhǔn)差算子。
深度架構(gòu)網(wǎng)絡(luò)中超參數(shù)的設(shè)定會(huì)嚴(yán)重影響所構(gòu)建網(wǎng)絡(luò)的性能。 本文實(shí)驗(yàn)基于網(wǎng)格搜尋法[5]選取DAN網(wǎng)絡(luò)的超參數(shù): 稀疏性參數(shù)η為0.05, 正則項(xiàng)因子λ為3×10-3, 稀疏因子β為3, Dropout系數(shù)為0.15。 核函數(shù)選擇徑向基函數(shù)(radial basis function, RBF)。 實(shí)驗(yàn)表明RBF在海量光譜中的分類(lèi)效果最佳(核參數(shù)σ為0.01, 懲罰參數(shù)ξ為80)。
隱層神經(jīng)元數(shù)量過(guò)少會(huì)使所構(gòu)建的網(wǎng)絡(luò)欠缺數(shù)據(jù)表征力, 反之又易發(fā)生數(shù)據(jù)過(guò)擬合。 光譜數(shù)據(jù)是高維非線(xiàn)性的。 實(shí)驗(yàn)中將隱層層數(shù)分別設(shè)置為{1, 2, 3, 4, 5, 6}, 隱層神經(jīng)元數(shù)目依次取自序列{30, 60, 90, 120, 150, 180}, 連接SVM分類(lèi)器對(duì)預(yù)處理后的天體光譜進(jìn)行分類(lèi), 各重復(fù)實(shí)驗(yàn)50次。 矮新星光譜分類(lèi)準(zhǔn)確率與DAN網(wǎng)絡(luò)隱層神經(jīng)元數(shù)量之間的關(guān)系如圖3所示(4個(gè)隱層)。 矩形盒中的橫線(xiàn)表示該次分類(lèi)準(zhǔn)確率的平均值, 盒子上下邊緣表示該次分類(lèi)準(zhǔn)確率的標(biāo)準(zhǔn)差, 兩端盒須分別表示該次分類(lèi)準(zhǔn)確率的極小值與極大值。 訓(xùn)練時(shí)間與DAN網(wǎng)絡(luò)隱層神經(jīng)元數(shù)量之間的關(guān)系如圖4所示(4個(gè)隱層)。 圓點(diǎn)表示該次網(wǎng)絡(luò)訓(xùn)練時(shí)間的平均值, 豎線(xiàn)表示該次網(wǎng)絡(luò)訓(xùn)練時(shí)間的總體范圍。 實(shí)驗(yàn)表明, 增加隱層或隱層神經(jīng)元數(shù)量可在一定程度上改善所構(gòu)建網(wǎng)絡(luò)的性能, 但同時(shí)網(wǎng)絡(luò)的訓(xùn)練成本也會(huì)急劇增長(zhǎng)。 當(dāng)分類(lèi)錯(cuò)誤率不再快速下降時(shí), 就應(yīng)尋求其他的網(wǎng)絡(luò)性能改良方法。 隱層神經(jīng)元數(shù)目為120(4個(gè)隱層)時(shí), 矮新星光譜能達(dá)到最佳分類(lèi)準(zhǔn)確率95.81%, 訓(xùn)練時(shí)間~4 min。
圖3 隱層神經(jīng)元數(shù)量對(duì)DAN網(wǎng)絡(luò)分類(lèi)精度的影響
圖4 隱層神經(jīng)元數(shù)量對(duì)DAN網(wǎng)絡(luò)訓(xùn)練時(shí)間的影響
為驗(yàn)證DAN網(wǎng)絡(luò)的性能, 實(shí)驗(yàn)選取了基于LM-BP[5-6]的普通三層神經(jīng)網(wǎng)絡(luò)做進(jìn)一步的比較分析。 表1給出了LM-BP和DAN的矮新星分類(lèi)性能比較。 LM-BP的隱層神經(jīng)元個(gè)數(shù)根據(jù)式(6)得出
(6)
其中i和o分別表示LM-BP網(wǎng)絡(luò)輸入端及輸出端神經(jīng)元數(shù)目,N為1~10間的隨機(jī)數(shù)。
實(shí)驗(yàn)表明, 對(duì)于經(jīng)典的LM-BP網(wǎng)絡(luò), 隱層神經(jīng)元數(shù)目過(guò)少易發(fā)生數(shù)據(jù)欠擬合, 過(guò)多又會(huì)降低網(wǎng)絡(luò)的泛化能力, 導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)間急劇增加。 當(dāng)取值15時(shí), 三層LM-BP網(wǎng)絡(luò)展現(xiàn)出較好的特征選擇和數(shù)據(jù)擬合能力, 分類(lèi)準(zhǔn)確率達(dá)到86.36%。
表1 LM-BP和DAN分類(lèi)性能比較
逐層訓(xùn)練后的DAN網(wǎng)絡(luò), 其參數(shù)只是局部而非全局最優(yōu), 導(dǎo)致網(wǎng)絡(luò)反向傳播前的分類(lèi)準(zhǔn)確率僅達(dá)67.98%。 從輸出層開(kāi)始的反向傳播通過(guò)誤差逐層稀釋使誤差校正信息愈來(lái)愈弱, 反映出反向傳播對(duì)堆棧式深度網(wǎng)絡(luò)性能優(yōu)化的重要性。 經(jīng)過(guò)反向傳播, DAN的分類(lèi)精度達(dá)到95.81%, 體現(xiàn)出深度模型逐層學(xué)習(xí)和反向迭代策略的優(yōu)越性。 實(shí)際上, 易陷入局部最優(yōu)的普通BP網(wǎng)絡(luò)欠缺對(duì)天體光譜隨機(jī)性和非線(xiàn)性的特征表達(dá)能力, 無(wú)法有效地訓(xùn)練多層次架構(gòu), 受限于隱層神經(jīng)元數(shù)量難以實(shí)現(xiàn)對(duì)天體光譜理想的表征學(xué)習(xí)。 DAN網(wǎng)絡(luò)的計(jì)算成本略高于LM-BP。 實(shí)驗(yàn)表明, DAO的訓(xùn)練時(shí)間主要消耗于反向傳播階段。 若預(yù)選的網(wǎng)絡(luò)參數(shù)足夠合理, 輸出誤差代價(jià)函數(shù)值會(huì)隨著權(quán)值及梯度的調(diào)整大幅度縮減, 進(jìn)而算法快速收斂, 訓(xùn)練時(shí)間大大降低。
在海量光譜中搜索未證認(rèn)的矮新星, 可以擴(kuò)展矮新星的實(shí)測(cè)光譜庫(kù), 為矮新星的進(jìn)一步研究提供數(shù)據(jù)支持。 本文將多個(gè)AE堆疊在一起構(gòu)成分布式深度架構(gòu)網(wǎng)絡(luò)DAN, 用于處理海量的天體光譜數(shù)據(jù)集, 通過(guò)無(wú)監(jiān)督學(xué)習(xí)挖掘出隱藏在光譜內(nèi)部的數(shù)據(jù)表征, 以實(shí)現(xiàn)對(duì)矮新星光譜的準(zhǔn)確分類(lèi)。 具有深度堆棧式架構(gòu)的DAN網(wǎng)絡(luò)包含多層非線(xiàn)性運(yùn)算單元, 既可構(gòu)建海量光譜數(shù)據(jù)的深層特征表達(dá), 又能避免節(jié)點(diǎn)數(shù)目呈指數(shù)級(jí)增長(zhǎng), 可以實(shí)現(xiàn)對(duì)天體光譜數(shù)據(jù)表征的充分學(xué)習(xí)。 實(shí)驗(yàn)及與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)LM-BP的對(duì)比說(shuō)明了DAN網(wǎng)絡(luò)的擬合精度與泛化能力。