王元超,鄭建華,潘之辰,李明濤
(1. 中國科學(xué)院 國家空間科學(xué)中心,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049;3. 中國科學(xué)院 國家天文臺,北京 100012;4. 中國科學(xué)院 天文大數(shù)據(jù)中心,北京 100012;5. 中國科學(xué)院FAST重點(diǎn)實驗室,北京 100012)
脈沖星是一種有強(qiáng)引力作用、強(qiáng)磁場并快速旋轉(zhuǎn)的中子星,具有穩(wěn)定的自轉(zhuǎn)周期。脈沖星相關(guān)的發(fā)現(xiàn)先后兩次獲得諾貝爾物理學(xué)獎(第一顆脈沖星的發(fā)現(xiàn)[1]和脈沖星雙星系統(tǒng)的首次發(fā)現(xiàn)[2])。對脈沖星的觀測研究,極大地推動了天文、天體物理、粒子物理、等離子體物理、廣義相對論、引力波和導(dǎo)航等眾多領(lǐng)域的發(fā)展。例如,脈沖星的射電脈沖在經(jīng)過星際空間到達(dá)地球前,會受到星際介質(zhì)的影響,產(chǎn)生色散等效應(yīng),這為星際介質(zhì)的研究提供了機(jī)會[3];作為超新星爆發(fā)的產(chǎn)物,脈沖星對于研究超新星爆發(fā)理論具有重要價值[4];脈沖雙星系統(tǒng)也為廣義相對論的檢驗提供了機(jī)會[5];通過分析毫秒脈沖星計時陣列的脈沖到達(dá)時間的變化,可以分析引力波信號[6]等。
自第一顆脈沖星被發(fā)現(xiàn)后,大量射電望遠(yuǎn)鏡設(shè)備被應(yīng)用到脈沖星搜索中。目前已發(fā)現(xiàn)2 700多顆脈沖星,其中大部分是由脈沖星巡天設(shè)備發(fā)現(xiàn)。例如,Parkes多波束脈沖巡天(Parkes Multi-beam Pulsar Survey,PMPS)[7],高時間分辨率的宇宙脈沖星巡天(High Time Resolution Universe Survey,HTRU)[8],AreciboL波段饋源陣列脈沖星巡天(Pulsar Arecibo L-band Feed Array Survey,PALFA)[9],低頻射電(Low Frequency Array,LOFAR)陣列巡天(LOFAR Tied-Array All-sky Survey,LOTAAS)[10],綠岸北半球脈沖星巡天(Greenbank Northern Celestial Cap Survey,GBNCC)[11]等。
隨著現(xiàn)代脈沖星搜索設(shè)備性能的不斷提升,可以接收到更弱的信號,能夠探測到更多脈沖星的同時,也產(chǎn)生大量的候選樣本,而且大部分樣本是射頻干擾(Radio Frequency Interferance,RFI)或噪聲等。例如,1977年,投入使用的2nd Molonglo survey只接收到約2 500個樣本[12],而新一代射電望遠(yuǎn)鏡500 m口徑球面射電望遠(yuǎn)鏡(Five Hundred Meter Aperture Spherical Telescope,F(xiàn)AST)[13]預(yù)計可以發(fā)現(xiàn)5 000顆脈沖星;平方千米陣列(Square Kilometer Array,SKA)[14]預(yù)計可以發(fā)現(xiàn)2萬顆脈沖星。SKA按照保守估計(以HTRU數(shù)據(jù)的樣本比例:脈沖星/非脈沖星為1/10 000[32]為參考計算)需要處理20億樣本。
因而如何有效地從海量數(shù)據(jù)中篩選出有價值的脈沖星疑似樣本,以便進(jìn)一步觀測確認(rèn)成為需要解決的一個重要問題。本文將闡述脈沖星候選樣本分類方法的發(fā)展歷史、發(fā)展現(xiàn)狀和技術(shù)發(fā)展趨勢。
目前,脈沖星信號搜索主要借助大型射電望遠(yuǎn)鏡。大部分的脈沖星信號很微弱,且信號在傳播中會受到星際介質(zhì)的影響,因而設(shè)備接收到周期性信號后,會借助搜索軟件(如PRESTO[15]等)進(jìn)行一系列的數(shù)據(jù)處理。例如,通過剪波(clipping)處理,減少脈沖干擾[16];進(jìn)行消色散(de-dispersion)處理,消除色散延遲[17];再借助傅立葉變換,將數(shù)據(jù)轉(zhuǎn)換到頻域進(jìn)行分析,從而確定信號周期[18];根據(jù)確定的信號周期,將接收到的多個周期的信號進(jìn)行疊加,放大信號的信噪比,得到平均脈沖輪廓[19]。經(jīng)過處理后的數(shù)據(jù),會轉(zhuǎn)換為圖像形式,作為脈沖星候選樣本。圖1是PRESTO處理后的一個脈沖星候選樣本的圖像示例(圖像來自PMPS[20])。
圖1 脈沖星樣本圖像示例,使用PRESTO軟件處理得到Fig. 1 An example figure of a pulsar candidate in PMPS,which was converted by PRESTO
標(biāo)注的子圖(a)~(d)依次為脈沖輪廓曲線圖、時間–相位圖、頻域–相位圖和色散曲線圖。這些候選樣本會被進(jìn)一步分類篩選,以便選擇有價值的脈沖星疑似信號進(jìn)行觀測確認(rèn),這個過程被稱為脈沖星候選樣本的分類。分類的目標(biāo)是在盡可能不遺漏脈沖星信號的情況下,減少非脈沖星信號的保留(減少進(jìn)一步觀測的工作量)。
天文學(xué)家在判斷候選樣本是否是脈沖星疑似信號時,主要參考以下特征:
1)脈沖輪廓曲線圖:通過折疊累加所有頻域和時域信號強(qiáng)度得到。由于脈沖星具有穩(wěn)定的自轉(zhuǎn)周期,理想的脈沖星信號數(shù)據(jù)在每個周期內(nèi)會形成一個或多個明顯的波峰。
2)時間–相位圖:通過累加信號在不同頻域的數(shù)據(jù)得到,反映的是信號在觀測時間內(nèi)的強(qiáng)度。脈沖星信號具有周期性,信號會在整個觀測時間內(nèi)不斷重復(fù)出現(xiàn)。在時間–相位圖上,信號強(qiáng)度越大,顏色越深。從而對理想的脈沖星信號,在整個觀測時間內(nèi),會形成與脈沖輪廓曲線圖波峰位置相對應(yīng)的豎直線。
3)頻域–相位圖:通過累計信號在觀測時間內(nèi)的數(shù)據(jù)得到,反映的是信號在不同頻率下的強(qiáng)度。由于脈沖星射電輻射是寬頻的,典型的脈沖信號應(yīng)當(dāng)出現(xiàn)在觀測的大部分頻率段上。若為脈沖星信號,對應(yīng)到頻域–相位圖上,應(yīng)當(dāng)在大部分頻率內(nèi),有與波峰相對應(yīng)的豎直線。
4)色散曲線圖:脈沖信號在經(jīng)過星際介質(zhì)時,會產(chǎn)生色散。色散曲線圖反映的是使用不同色散值進(jìn)行消色散時,脈沖曲線信噪比的變化情況。當(dāng)使用正確的值消色散時,脈沖信噪比將最大。因而若為脈沖星信號,曲線會在非零位置有一個峰值,曲線呈“鐘形”。
在設(shè)計算法進(jìn)行自動分類時,特征的設(shè)計一般也是圍繞著這幾點(diǎn)進(jìn)行刻畫(參見表2、3、5~9)。但對現(xiàn)代設(shè)備的候選樣本實現(xiàn)脈沖星疑似信號的有效分類,存在以下難點(diǎn):①候選樣本數(shù)量大;②脈沖星樣本與非脈沖星樣本之間、不同類型脈沖星之間的樣本不均衡;③干擾信號種類多,部分RFI形似脈沖星信號;④部分脈沖星信號較弱,特征不明顯,易遺漏;⑤不同設(shè)備、不同區(qū)域的RFI環(huán)境等不同,使得算法間的可移植性較差。
關(guān)于脈沖星候選樣本的有效分類,國內(nèi)外許多學(xué)者進(jìn)行了大量工作。目前的方法,大致可分為人工識別方法和機(jī)器學(xué)習(xí)方法。其中,人工識別方法可分為基于信噪比信息分類方法、圖像軟件輔助方法、打分排序方法等;同時,將對應(yīng)的機(jī)器學(xué)習(xí)方法根據(jù)特征類型分為3類:基于經(jīng)驗特征的方法、基于統(tǒng)計特征的方法和基于數(shù)據(jù)驅(qū)動的方法。表1是對這些方法的簡單比較。
表1 典型脈沖星候選樣本分類方法對比Table 1 The comparison of pulsar candidate classification methods
脈沖星搜索的前期,由于設(shè)備性能等原因,接收到的數(shù)據(jù)樣本有限,研究人員可以借助以往的經(jīng)驗,直接對接收的信號進(jìn)行人工篩選。
2.1.1 基于信噪比信息分類方法
在早期的識別中信噪比作為重要的判別特征使用。一些簡單的篩選軟件(例如MSP Find[21])應(yīng)用到相關(guān)的搜索設(shè)備上,只接受一定信噪比范圍內(nèi)的信號,輔助減少樣本數(shù)量。比如,在Arecibo Phase II survey上,Stokes等通過只保留信噪比大于8σ的信號,得到5 000多個候選樣本再進(jìn)行人工進(jìn)一步識別處理[22]。在Parkes 20 cm survey上,Johnston等使用同樣的策略,篩選出約15萬個候選樣本[23]。人工初步篩選處理速度慢,存在較大的主觀性。同時,僅根據(jù)信噪比等信息篩選,分類誤差較大,會遺漏信號較弱的脈沖星。后續(xù)研究人員加入更多信息(比如周期等),在一定程度上提升了準(zhǔn)確度,但效果有限。
2.1.2 圖像軟件輔助方法
利用信噪比、脈沖周期等數(shù)據(jù)信息進(jìn)行分類,直觀性不強(qiáng),不利于分析判斷,處理速度較慢。因而基于統(tǒng)計特征的圖像分類軟件被開發(fā)用于輔助脈沖星疑似信號的分類操作。例如,2004年,F(xiàn)aulkner等設(shè)計了圖像分類軟件REAPER[24]。它可以根據(jù)基本特征(周期、脈沖寬度等),直觀地把不同樣本展示在二維圖像中,將明顯的噪聲信號與脈沖星疑似信號區(qū)分開,減少候選樣本的數(shù)量。借助REAPER,在對PMPS數(shù)據(jù)進(jìn)行再次處理中,新發(fā)現(xiàn)了128顆脈沖星。2009年,Keith等對REAPER進(jìn)行了改進(jìn),設(shè)計了JREAPER軟件[25]。在JPEAPER的幫助下,在PMPS數(shù)據(jù)中又發(fā)現(xiàn)了之前被錯分遺漏的28顆脈沖星。
另外,也出現(xiàn)了一些基于網(wǎng)絡(luò)的圖像樣本查看評分系統(tǒng)。比如,Pulsar Search Collaboratory[26],通過培訓(xùn)后的高中生,對類似圖1所示的樣本圖像的多個特征進(jìn)行在線的評分,從而進(jìn)行樣本的分類[27]。該項目開始于2008年,目前已發(fā)現(xiàn)了7顆新脈沖星[28]。
基于統(tǒng)計特征的圖像分類軟件可以有效地篩除一部分明顯的干擾信號,減少進(jìn)一步人工觀測的工作量,提升分類速度。但使用基于一定的經(jīng)驗和假設(shè),依賴于研究人員的認(rèn)知水平與經(jīng)驗?zāi)J?,手動調(diào)整,存在很強(qiáng)的主觀性。
2.1.3 打分排序方法
為實現(xiàn)更智能的分類,研究人員嘗試對樣本進(jìn)行打分排序。Keith等在JREAPER軟件[25]中,設(shè)置了經(jīng)驗式的評分標(biāo)準(zhǔn),對樣本進(jìn)行排序,篩除低分的候選樣本(見表2)。2013年,Lee等通過分析大量的脈沖星數(shù)據(jù),設(shè)計了PEACE系統(tǒng)[29],通過6個特征(見表3)來刻畫脈沖星信號,利用函數(shù)分別進(jìn)行評分,并將分?jǐn)?shù)線性組合,根據(jù)最終的評分進(jìn)行排序。在GBNCC數(shù)據(jù)測試集上,實現(xiàn)了查全率95%時,假正率為0.34%,并從PALFA、GBNCC和HTRU數(shù)據(jù)集中發(fā)現(xiàn)了47顆脈沖星。PEACE提升了分類識別的效率和準(zhǔn)確度,但需要人工預(yù)先設(shè)定評分函數(shù)并調(diào)節(jié),對人類經(jīng)驗依賴程度很高,只是“半自動化”的分類方法。
隨著樣本數(shù)量的不斷增加,人工識別的方法越來越無法滿足脈沖星候選樣本分類的需求。因而如何在算法中減少主觀性,實現(xiàn)自動化,進(jìn)一步提升準(zhǔn)確度和處理速度,成為需解決的一個問題。
表2 Keith等(2009)使用的特征[28]Table 2 The features used in Keith et al.(2009)[28]
表3 Lee等(2013)使用的特征[29]Table 3 The features used in Lee et al.(2013)[29]
為應(yīng)對數(shù)據(jù)量不斷增大的挑戰(zhàn),隨著機(jī)器學(xué)習(xí)的發(fā)展,相關(guān)的算法也被引入脈沖星候選樣本分類任務(wù)中。由于樣本極度不均衡并且研究人員更關(guān)注脈沖星的分類準(zhǔn)確度,因而一般使用查全率(Recall)、查準(zhǔn)率(Precision)、假正率(False Positive Rate,F(xiàn)PR)來反映算法的性能。其中Recall刻畫的是正樣本(脈沖星信號)被正確分類的比例;Precision反映的是分類器認(rèn)定為正類的樣本中實際正樣本的比例;FPR計算的是負(fù)樣本(非脈沖星信號)中被分類器錯認(rèn)為正類的比例。Recall越高,脈沖星樣本被正確分類的越多;Precision越高或FPR越低,非脈沖星信號被錯分的越少。
需要指出的是,由于缺少公共數(shù)據(jù)集,且大部分算法是針對不同的脈沖星搜索設(shè)備的數(shù)據(jù)進(jìn)行的設(shè)計,因而多數(shù)算法是采用各不相同的數(shù)據(jù)集進(jìn)行的性能測試。由于樣本數(shù)量、樣本分布、樣本比例、樣本質(zhì)量等因素的不同,算法間不能直接定量比較。為方便對照,將部分?jǐn)?shù)據(jù)集樣本數(shù)量信息匯總于表4。
根據(jù)分類特征的類型,將目前的關(guān)于脈沖星分類的機(jī)器學(xué)習(xí)方法,大致分為:基于經(jīng)驗特征的方法、基于統(tǒng)計特征的方法和基于數(shù)據(jù)驅(qū)動的方法。
2.2.1 基于經(jīng)驗特征的方法
基于經(jīng)驗特征的方法,參照人工分類時的判別方式,引入啟發(fā)式特征,實現(xiàn)自動評分分類。例如使用信噪比特征、使用sin函數(shù)/高斯函數(shù)對脈沖曲線進(jìn)行擬合等。
2010年,Eatough等對啟發(fā)式評分方法進(jìn)行了改進(jìn),引入機(jī)器學(xué)習(xí)方法,不再進(jìn)行人工評分[30]。基于射電天文學(xué)的專業(yè)知識,挑選了信噪比、脈沖寬度等12個特征(見表5)作為三層人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)的輸入、輸出對應(yīng)的評分(見表5)。在1.3萬個PMPS數(shù)據(jù)測試集上,實現(xiàn)了93%的查全率,1%的假正率(只使用前8個特征時,查全率為92%,假正率為0.5%)。在對部分PMPS數(shù)據(jù)進(jìn)行再處理時,從中發(fā)現(xiàn)一顆新的脈沖星。作者對測試數(shù)據(jù)分析發(fā)現(xiàn):由于毫秒脈沖星與普通脈沖星的不同,以及訓(xùn)練樣本的不均衡等原因,使得約50%的脈沖周期小于10 ms的脈沖星被錯分;60%的信噪比超過400的脈沖星被錯分。
2012年,Bates等[31]將特征增加到22個(表6),借助人工神經(jīng)網(wǎng)絡(luò),在HTRU測試集上實現(xiàn)了85%的查全率、1%的假正率。從部分HTRU Medlat數(shù)據(jù)中發(fā)現(xiàn)了75顆脈沖星。相比于Eatough等[30]的處理結(jié)果,在脈沖周期小于10 ms的脈沖星和長周期的脈沖星分類性能上得到了一定的提升,但也增加了模型的復(fù)雜度。
表4 部分?jǐn)?shù)據(jù)集樣本數(shù)量比較Table 4 The comparison of some datasets
表5 Eatough等(2010)使用的特征[30]Table 5 The features used in Eatough et al.(2010)[30]
2014年,Morello等對人工神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了進(jìn)一步的優(yōu)化,設(shè)計了SPINN(Straightforward Pulsar Identification using Neutral Networks)分類器[32]。選取了6個特征(表7)作為人工神經(jīng)網(wǎng)絡(luò)的輸入。在91 192個不均衡樣本構(gòu)成的HTRU Medlat測試集(簡稱HTRU 1)上,調(diào)節(jié)閾值參數(shù),可以在達(dá)到100%查全率時,假正率為0.64%;99%查全率時,假正率為0.11%;95%查全率時,假正率為0.01%。并對434萬個樣本再次處理后,篩選出2 400個疑似樣本,經(jīng)過進(jìn)一步觀測確認(rèn),發(fā)現(xiàn)4顆新的脈沖星。需要指出的是,SPINN“100%查全率時,假正率為0.64%”是根據(jù)所有的脈沖星得分中最低分作為分類閾值時,推算得出的。在挑選特征時,考慮了對弱信號的兼顧、對噪聲干擾的穩(wěn)定性以及減少特征間相關(guān)度,降低模型的復(fù)雜度的同時提升了算法的性能。但對一些形似脈沖星信號的RFI,SPINN并不能很好地分類。因而建議,對RFI的特征進(jìn)行更好地刻畫;同時增加脈沖星數(shù)據(jù),降低不均衡度。
基于經(jīng)驗特征的人工神經(jīng)網(wǎng)絡(luò)方法的應(yīng)用極大地提高了脈沖星候選樣本分類的準(zhǔn)確度和處理速度。對于特征的選取,Eatough等[30]、Bates等[31]、Morello等[32]學(xué)者進(jìn)行了不斷的優(yōu)化。但他們是基于一定的經(jīng)驗和假設(shè),特征對數(shù)據(jù)集依賴性較強(qiáng)[32],同時,根據(jù)人工處理的思路設(shè)計的特征有可能使得算法“模仿”人工處理的錯誤[33]。例如,反復(fù)出現(xiàn)的信噪比,會使得算法傾向于信噪比高的“強(qiáng)”信號,而更多的較弱的信號會被忽略。為進(jìn)一步提高性能,研究人員考慮使用不同的機(jī)器學(xué)習(xí)方法和不同的特征選取策略。
表6 Bates等(2012)使用的特征[31]Table 6 The features used in Bates et al.(2012)[31]
表7 Morell等(2014)使用的特征[32]Table 7 The features used in Morello et al.(2014)[32]
2.2.2 基于統(tǒng)計特征的方法
2016年,Lyon等針對SKA實時處理樣本的需求,同時為避免特征對數(shù)據(jù)集的依賴性和傾向性,設(shè)計了新的特征和算法[33]。從脈沖輪廓曲線和DM曲線中提取均值、方差、峰度、偏度共8個無偏向性的統(tǒng)計特征(表8),具有較好的區(qū)分度;考慮到實時接收數(shù)據(jù)時可能存在的數(shù)據(jù)樣本不均衡、不同區(qū)域觀測可能產(chǎn)生的樣本分布漂移等問題,設(shè)計了針對不均衡數(shù)據(jù)流的Gaussian Hellinger快速決策樹算法(Gaussian Hellinger Very Fast Decision Tree,GH-VFDT),實現(xiàn)在線處理不均衡的數(shù)據(jù)。GH-VFDT處理速度快,每秒可以處理7萬張樣本(單個2.2 GHz,Intel i7-2720QM處理器),但也犧牲了一定的分類準(zhǔn)確度。在HTRU1、HTRU2、LOTAAS1數(shù)據(jù)集上測試時,對應(yīng)的查全率和假正率依次是:92.8%(0.5%)、82.9%(0.8%)、78.9%(0.1%)。
表8 Lyon等(2016)使用的特征[33]Table 8 The features used in Lyon et al.(2016)[33]
另外,Lyon等新設(shè)計的8個特征具有較好的區(qū)分性,被之后一些研究人員所借鑒使用。2017年,Mohamed將這些特征(表8)應(yīng)用到模糊k近鄰分類器(Fuzzy K Nearest Neighbors,F(xiàn)uzzy KNN)算法上[34],在HTRU2數(shù)據(jù)集上測試提升了一定的查全率,實現(xiàn)了94.2%的查全率、1.8%的假正率,進(jìn)一步證明了統(tǒng)計特征的有效性。
針對Lyon等[33]使用的特征缺少時間–相位圖和頻域–相位圖信息,并在實際分類處理中對寬脈沖脈沖星容易錯分的情況,2018年,Tan等[35]進(jìn)行了改進(jìn),通過計算時間–相位圖或頻域–相位圖與脈沖輪廓曲線的相關(guān)系數(shù),增加了對應(yīng)的8個統(tǒng)計特征(表9)。同時將形似脈沖星信號的RFI單獨(dú)分類,由2分類(脈沖星、非脈沖星)變?yōu)?分類(脈沖星、噪聲、RFI)。通過利用不同波束探測到的脈沖星信號數(shù)據(jù),構(gòu)造多個決策樹,集成提升性能。算法可以較好地識別寬脈沖的脈沖星,在新的LOTAAS數(shù)據(jù)測試集(為與之前的數(shù)據(jù)集區(qū)別,代稱LOTAAS 2)上,相比較于Lyon等[34]算法的結(jié)果,查全率提升2.5%,為98.7%;假正率FPR則從2.5%降到了1.1%。該算法被應(yīng)用于LOTAAS搜索系統(tǒng)中。需要指出的是,由于樣本數(shù)量有限,在作者的測試實驗中測試集包含訓(xùn)練集,因而實際性能可能會稍低一些。
表9 Tan等(2018)新添加的特征[35]Table 9 The features added in Tan et al.(2018)[35]
2.2.3 基于數(shù)據(jù)驅(qū)動特征的方法
卷積神經(jīng)網(wǎng)絡(luò)可以實現(xiàn)自動提取特征,避免人工設(shè)計特征的缺陷,因而基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法在脈沖星疑似樣本的分類領(lǐng)域具有重要價值。
2014年,Zhu等從圖像模式識別的角度分析,設(shè)計了PICS(Pulsar Image-based Classification System)系統(tǒng)[36]。PICS將支持向量機(jī)(Support Vector Machines,SVM)、ANN、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、邏輯回歸(Logistic Regression,LR)等集成結(jié)合。直接使用PRESTO軟件輸出的4幅子圖(圖1已標(biāo)出)作為SVM、ANN或CNN的輸入,并將多個分類器的輸出使用LR進(jìn)行整合,最終輸出對應(yīng)的評分。PICS完全由數(shù)據(jù)驅(qū)動,避免了人工設(shè)計特征可能存在的不足(傾向性、數(shù)據(jù)集的依賴性等),在PALFA數(shù)據(jù)集上,實現(xiàn)92%的查全率、1%的假正率。并且基于PALFA數(shù)據(jù)訓(xùn)練的模型,直接在90 008個樣本的GBNCC數(shù)據(jù)上測試,可達(dá)到100%的查全率、3.8%的假正率。PICS系統(tǒng)提升了識別的準(zhǔn)確度,并具有一定的泛化性能,但模型也相對更復(fù)雜。
2017年,Guo等提供了一個新的思路,利用深度卷積對抗生成網(wǎng)絡(luò)(Deep Convolution Generative Adversarial Network,DCGAN)來進(jìn)行特征的提取[37]。DCGAN是一種生成模型,將時間–相位圖或頻率–相位圖分別作為輸入,利用DCGAN來生成更多的樣本;同時DCGAN自動學(xué)習(xí)對應(yīng)的特征,作為SVM分類器的輸入。該算法在解決樣本不均衡問題時,也避免了人工特征的設(shè)計提取。在HTRU1 數(shù)據(jù)集上,使用時間–相位圖作為輸入時,查全率為96.6%、精度為96.1%,假正率約為0.05%;
使用頻率–相位圖作為輸入時,查全率為96.3%、精度為96.5%、假正率約為0.05%。在PMPS-26K數(shù)據(jù)集上,使用時間–相位圖作為輸入效果更好,查全率為89.5%、精度為88.5%、假正率約0.5%。但是DCGAN模型復(fù)雜且訓(xùn)練不穩(wěn)定;僅考慮了二維子圖,會缺失部分特征信息,影響算法性能,對復(fù)雜情況的分類效果有待進(jìn)一步提升。表10中對這3類機(jī)器學(xué)習(xí)算法進(jìn)行了簡單的優(yōu)缺點(diǎn)總結(jié)。
表10 3類機(jī)器學(xué)習(xí)算法的優(yōu)缺點(diǎn)總結(jié)Table 10 The advantages and disadvantages of three kinds of machine learning methods
為實現(xiàn)更好的機(jī)器學(xué)習(xí)算法的效果,針對樣本不均衡問題,許多學(xué)者做了一些有益的嘗試。Morello等[32]在對人工神經(jīng)網(wǎng)絡(luò)方法進(jìn)行優(yōu)化時,使用過采樣方法,使得訓(xùn)練集正負(fù)樣本比例為4:1。Lyon等測試了Hoeffding樹分類器處理不平衡數(shù)據(jù)流的效果[38],并進(jìn)一步設(shè)計了針對不均衡數(shù)據(jù)流的GH-VFDT算法[39]。2016年,Yao等在目標(biāo)函數(shù)中設(shè)置不同的權(quán)重,通過集成支持向量機(jī)算法提升分類效果[40]。2017年,F(xiàn)ord利用Lyon等提出的特征[33],分別測試了支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、決策樹、Bagging集成等算法,在上采樣、下采樣、ROSE采樣、SMOTE采樣下的性能,實驗表明性能均有提升[41]。2017年,Guo等[37]使用DCGAN來進(jìn)行特征提取的時候,同時生成高質(zhì)量的新數(shù)據(jù),從而緩解樣本不均衡對算法的影響。
1)在分類器算法設(shè)計方面,傳統(tǒng)的機(jī)器學(xué)習(xí)算法目前依然占據(jù)主流;在特征設(shè)計提取上,已經(jīng)由傳統(tǒng)的手工設(shè)計特征發(fā)展到自動抽取特征。深度學(xué)習(xí)在特征提取學(xué)習(xí)方面具有優(yōu)勢,PICS和DCGAN-SVM已經(jīng)做出了深度學(xué)習(xí)在脈沖星樣本分類上的有益嘗試。深度學(xué)習(xí)、對抗生成網(wǎng)絡(luò)等技術(shù)將會發(fā)揮更大的作用。
2)目前,數(shù)據(jù)多為二分類(脈沖星、非脈沖星),或簡單的三分類(脈沖星、RFI、噪聲)。而Tan等[35]也提到,不同類型的脈沖星之間、不同類型的RFI之間也會有很多的差異。因而在數(shù)據(jù)量允許的情況下,結(jié)合數(shù)據(jù)分布的特點(diǎn),進(jìn)行更合適的、更細(xì)致的樣本分類,可以使得特征提取更加有效,進(jìn)一步提升分類算法的性能。
3)大部分機(jī)器學(xué)習(xí)算法都是作為線下處理使用,針對在線數(shù)據(jù)處理的較少。Lyon[42]提到,隨著設(shè)備性能的不斷提升,數(shù)據(jù)量將會持續(xù)增加,需要設(shè)計更好的數(shù)據(jù)管理工具、文件格式、數(shù)據(jù)標(biāo)準(zhǔn),同時需要更好地實時在線自動處理數(shù)據(jù)。因而針對數(shù)據(jù)流設(shè)計在線不均衡數(shù)據(jù)的處理算法,具有重要的價值。
4)目前的算法均為根據(jù)已知的脈沖星特征來構(gòu)建有監(jiān)督學(xué)習(xí),對數(shù)據(jù)集有很強(qiáng)的依賴性。如果出現(xiàn)未知的新現(xiàn)象、新樣本,將會被當(dāng)成干擾而篩除。因而考慮半監(jiān)督學(xué)習(xí)或無監(jiān)督學(xué)習(xí),對離群點(diǎn)進(jìn)行深入分析,有助于充分利用數(shù)據(jù)。
5)不同設(shè)備間數(shù)據(jù)分布等存在差異,使得需要分別設(shè)計或調(diào)整算法。因而提升算法的泛化能力,使之適應(yīng)不同數(shù)據(jù),具有重要的意義。
本文從脈沖星識別的意義、歷史發(fā)展及現(xiàn)狀、未來趨勢等角度闡述了脈沖星疑似信號分類識別的問題?;跈C(jī)器學(xué)習(xí)算法設(shè)計有效的分類器將有助于脈沖星候選樣本的準(zhǔn)確識別分類,促進(jìn)脈沖星天文學(xué)的發(fā)展。