一種快速確定聚類中心的光譜聚類方法

2020-11-04 13:41:24周永祥楊海峰蔡江輝尚曉群

太原科技大學(xué)學(xué)報 2020年6期

周永祥，楊海峰，蔡江輝，尚曉群

(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，太原 030024)

隨著技術(shù)的發(fā)展，先進(jìn)的天文望遠(yuǎn)鏡能夠獲取越來越多的光譜數(shù)據(jù)。在大數(shù)據(jù)時代的背景下，首要問題便是天文工作者們?nèi)绾翁幚砗Ａ繑?shù)據(jù)。之前的人眼識別已無法滿足這項(xiàng)巨大工程的需求，因此很多工作者們將目光投向了計(jì)算機(jī)的自動處理。

目前，有很多研究工作都放在天文與計(jì)算機(jī)結(jié)合上，比如：將自動聚類算法[1]應(yīng)用到星系和恒星分類中，利用神經(jīng)網(wǎng)絡(luò)算法[2]對恒星和星系的圖像進(jìn)行分類，結(jié)果表明神經(jīng)網(wǎng)絡(luò)算法可以很好的運(yùn)用在恒星和星系圖像的分類中。Ball[3]等人利用決策樹對光譜數(shù)據(jù)進(jìn)行分類并且也取得很好的測試結(jié)果。有人利用模糊分類與神經(jīng)網(wǎng)絡(luò)算法[4]對非線性數(shù)據(jù)進(jìn)行分類，發(fā)現(xiàn)模糊分類與神經(jīng)網(wǎng)絡(luò)可以很好地處理復(fù)雜數(shù)據(jù)類型。Moore等人[5]運(yùn)用數(shù)學(xué)形態(tài)學(xué)方法對CCD圖像進(jìn)行分類，發(fā)現(xiàn)能很好地區(qū)分出星系，但是將其應(yīng)用到恒星中時錯分率較高。軌跡聚類應(yīng)用到光譜的天光分析中[6]，最終取得不錯的效果。還有一種聚類也用光譜數(shù)據(jù)進(jìn)行了測試[7]，效果也很好。

本文是對LAMOST DR5的光譜數(shù)據(jù)進(jìn)行分析處理，主要意圖是運(yùn)用全新的預(yù)處理方法對光譜數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理，此預(yù)處理方法利用不同恒星光譜數(shù)據(jù)在不同波段表現(xiàn)性質(zhì)不同的特點(diǎn)，將特定波段的波形轉(zhuǎn)化為具體的數(shù)據(jù)，之后計(jì)算這些具體數(shù)據(jù)的密度和距離，通過密度和距離挑選出合適的奇異點(diǎn)，從這些奇異點(diǎn)中選出可靠的聚類中心，最后利用K近鄰來生成所有的簇。FDCC是一種獨(dú)特的聚類中心點(diǎn)快速確定的聚類方法，大多數(shù)聚類算法的難點(diǎn)都在于怎么確定中心點(diǎn)，而FDCC能夠快速地確定聚類中心點(diǎn)所在，之后，可以直接利用簡單的K近鄰方法來確定簇，這樣可以減少程序運(yùn)行的時間。

1 相關(guān)研究

1.1 LAMOST簡介

在本文中，數(shù)據(jù)集全部來自LAMOST DR5V3，LAMOST[8-9]也被稱為郭守敬望遠(yuǎn)鏡，它一次性可拍攝4 000張光譜圖像。文中的DR5光譜數(shù)據(jù)就是LAMOST從2011年十月到2017年六月獲取的全部光譜數(shù)據(jù)，這其中一共包括4 151個區(qū)域和9 026 365個光譜數(shù)據(jù)，并且信噪比大于10的光譜數(shù)據(jù)達(dá)到了7 775 981條。在大視場天文學(xué)研究上，郭守敬望遠(yuǎn)鏡是居于國際領(lǐng)先地位的大科學(xué)裝置。

1.2 聚類技術(shù)

科技的發(fā)展使得大數(shù)據(jù)時代來臨，在海量數(shù)據(jù)面前，如何設(shè)計(jì)好所需的算法極為重要。聚類技術(shù)[10]是算法中的一部分，這類技術(shù)不同于分類，它無需訓(xùn)練數(shù)據(jù)來訓(xùn)練模型，直接可以對現(xiàn)實(shí)數(shù)據(jù)進(jìn)行處理，由于這種特性，這項(xiàng)技術(shù)在問世之后得到了飛速的發(fā)展。多數(shù)聚類算法是使用某種度量方法將數(shù)據(jù)按照簇間不相似及簇內(nèi)相似進(jìn)行劃分，當(dāng)然在很多工作中，聚類也可用于數(shù)據(jù)預(yù)處理，比如聚類算法可用于離散化處理。聚類技術(shù)可以被分為四種方向，分別是基于劃分，基于層次，基于密度，基于網(wǎng)格。這四種方向都有自己的代表算法，并且對于數(shù)據(jù)如何聚類都有各自的理論。在基于劃分的聚類方法中，K-Means是其代表算法，這種方法多數(shù)是使用距離度量，其中歐式距離使用頻率最高。并且K-Means有很多變種，分別是利用均值，眾數(shù)和中心點(diǎn)等等，從而對其中心點(diǎn)的選擇進(jìn)行優(yōu)化，為了能夠處理海量數(shù)據(jù)，有人對K-Means的分布式算法進(jìn)行優(yōu)化設(shè)計(jì)?；趯哟蔚木垲愃惴ㄖ饕譃閮煞N，一種是自底向上的凝聚層次聚類，另一種是自頂向下的分裂層次聚類。這類聚類方向的代表算法有birch,針對初始凝聚和分裂聚類算法死板的缺點(diǎn)，很多論文都研究出如何在分裂和凝聚的過程更好的評估中間過程得到的簇，并且針對這種聚類算法選擇好的度量比較困難，對于有缺省值的數(shù)據(jù)對象也無法很好的處理?；诿芏鹊木垲惙椒▽ψR別球狀分布有很好的效果，這種聚類思想依賴于密度半徑和鄰域?qū)ο髠€數(shù)，其中代表算法是DBSCAN，針對DBSCAN需要設(shè)置參數(shù)的缺點(diǎn)，提出OPTICS算法對DBSCAN進(jìn)行改進(jìn)，這種密度聚類思想對于聚類有很好的效果，并且能識別出多種數(shù)據(jù)。與以上三種數(shù)據(jù)驅(qū)動形式的聚類方向不同，基于網(wǎng)格的聚類是將數(shù)據(jù)空間轉(zhuǎn)化為網(wǎng)格的形式，以網(wǎng)格形式上進(jìn)行聚類操作，主要的代表算法是STING統(tǒng)計(jì)信息網(wǎng)格算法。以上就是四種基本的聚類思想，根據(jù)其相應(yīng)理論，經(jīng)過后人持續(xù)的研究，如今已取得很大的成果。

2 聚類算法FDCC

本節(jié)將對聚類算法FDCC進(jìn)行詳細(xì)描述，在2.1節(jié)介紹FDCC的主要思想，并且在2.2節(jié)詳細(xì)介紹FDCC的算法步驟，最終在2.3節(jié)中對算法進(jìn)行理論分析。

2.1 算法的思想

本文的思想主要是首先對天文光譜數(shù)據(jù)進(jìn)行預(yù)處理實(shí)現(xiàn)數(shù)據(jù)降維，之后利用距離和密度的關(guān)系快速找出聚類中心，最后根據(jù)聚類中心快速聚類。本文算法FDCC分為兩步，第一步對天文光譜數(shù)據(jù)進(jìn)行預(yù)處理，提取出發(fā)射線位置上的置信度信息，這里的提取信息是將發(fā)射線區(qū)間中的波形變成一個具體的值來表示存在此發(fā)射線的置信度，在此文中，給定的發(fā)射線都會被用在數(shù)據(jù)預(yù)處理中，在提取出特定發(fā)射線的置信度后，第二步計(jì)算所有數(shù)據(jù)的密度和距離，利用密度和距離確定出數(shù)據(jù)中的奇異點(diǎn)，之后從奇異點(diǎn)中選出合適的聚類中心，最終通過K近鄰得出聚類結(jié)果。

2.2 FDCC聚類算法描述

本文的算法是分為兩步，第一步是數(shù)據(jù)預(yù)處理，數(shù)據(jù)預(yù)處理得出存在此發(fā)射線的置信度，發(fā)射線存在與否和波長位置，還有波形都有關(guān)，一個發(fā)射線存在的位置越靠近特定的波長位置時，它就越可靠，并且如果左右兩邊的波形越對稱，它就會更加可靠。在給定特定發(fā)射線的波長位置之后，需要在每個發(fā)射線的波長位置上確定一個合適的波長區(qū)間來提取發(fā)射線，此處波長范圍需恰當(dāng)，因?yàn)樵诠庾V數(shù)據(jù)中，很多發(fā)射線的波長位置相距較近。因此應(yīng)避免在提取一條發(fā)射線的時候還包含了其他的發(fā)射線。有了發(fā)射線的波長區(qū)間，便可以在這個特定的波長區(qū)間中提取發(fā)射線存在的置信度。首先找出區(qū)間中所有的峰值，如果在發(fā)射線波長位置附近沒有峰值的存在，那么表明不存在此發(fā)射線，此發(fā)射線的置信度也被設(shè)置為0.一條好的發(fā)射線存在的位置應(yīng)當(dāng)盡可能地靠近在特定的發(fā)射線波長附近，所以當(dāng)發(fā)射線存在的位置越靠近特定發(fā)射線波長位置時，它就越可靠。在本階段，最靠近此發(fā)射線位置峰值的波長值與此發(fā)射線波長值相減得到的絕對值，將之稱為間距，這個間距越小，那么發(fā)射線存在的置信度就越高，因此間距的倒數(shù)才能用來組成發(fā)射線的置信度。接下來需要評判波形的對稱性，本階段需要用到的是左右兩邊的高度和寬度，分別記錄下左右兩邊的寬度Wl和Wr，之后根據(jù)斜率的變化，記錄下兩邊的高度Hl和Hr，之后通過公式1來計(jì)算出差異d，公式(1)如下：

(1)

差異d越小，表明存在此發(fā)射線的置信度越高，因此差異d的倒數(shù)才能組成發(fā)射線置信度。因此，在整個預(yù)處理過程中，間距的倒數(shù)和差異d的倒數(shù)共同組成這個發(fā)射線的置信度，置信度將變成一個具體的值。在整個數(shù)據(jù)預(yù)處理的過程中，全部發(fā)射線均需進(jìn)行上述提取過程，將這些給定的發(fā)射線分別變成一個具體的數(shù)值。每條天文光譜數(shù)據(jù)在經(jīng)過數(shù)據(jù)預(yù)處理后，都會變成相對低維的數(shù)據(jù)，這樣實(shí)現(xiàn)了數(shù)據(jù)降維。本身的光譜數(shù)據(jù)具有幾千維，經(jīng)過數(shù)據(jù)預(yù)處理后，數(shù)據(jù)變成了幾十維的數(shù)據(jù)，大大減少了后續(xù)聚類過程的運(yùn)行時間。

在完成數(shù)據(jù)預(yù)處理階段之后，第二步需要對數(shù)據(jù)進(jìn)行聚類處理，即進(jìn)入到下一個聚類階段，此階段的主要思想是中心點(diǎn)的密度和距離與其他點(diǎn)不同，聚類中心點(diǎn)應(yīng)當(dāng)是密度高且相互距離遠(yuǎn)，噪聲點(diǎn)與之不同，它的特點(diǎn)是距離遠(yuǎn)但密度低，較于其他的點(diǎn)，它們不屬于任何一個簇且密度較低。首先算法計(jì)算所有點(diǎn)之間的距離，得出一個距離矩陣，并且初始化密度半徑閾值dc，根據(jù)距離矩陣和dc，利用公式(2)可得到每個點(diǎn)的密度。

ρi=∑f(dij-dc)

(2)

(3)

得到每個點(diǎn)的密度之后，再根據(jù)每個點(diǎn)的密度計(jì)算每個點(diǎn)的距離。文中的距離是只計(jì)算與比本身密度大的點(diǎn)之間的距離，利用公式(3)可以得到距離。

δi=min(dij)(ρj≥ρi)

(4)

對于密度最大的點(diǎn)，它的距離就是距離矩陣中最遠(yuǎn)的距離。最后每個點(diǎn)都將自己的距離和密度相乘得到一個新的變量γ.通過新的變量γ來選出符合條件的奇異點(diǎn)，假設(shè)γ的分布是一種正態(tài)分布，大部分正常的點(diǎn)都會落在區(qū)間(μ-5σ,μ+5σ)，落在區(qū)間外的點(diǎn)就會被判定為奇異點(diǎn)。得到這些奇異點(diǎn)后，還需要進(jìn)一步排除掉奇異點(diǎn)中的偽中心點(diǎn)。真正中心點(diǎn)的距離和密度應(yīng)當(dāng)不會相差過大，根據(jù)這一假設(shè)可以將偽中心點(diǎn)全部排除，之后剩下的就是聚類中心點(diǎn)。得到這些中心點(diǎn)之后，再利用k近鄰來得到聚類中所有的簇。算法的偽代碼如下所示：

算法1 FDCC(Fast Determination of Clustering Center)

輸入：數(shù)據(jù)A；中心點(diǎn)個數(shù)K；百分比percent；調(diào)整幅度r

輸出：聚類的簇C

For給定發(fā)射線do 提取發(fā)射線的置信度

IF發(fā)射線波長位置附近有峰值的存在then

dis =abs(最靠近此發(fā)射線位置峰值的波長值-此發(fā)射線波長值)

記錄下左右兩邊的寬度Wl和Wr

記錄下兩邊的高度Hl和Hr

計(jì)算所有數(shù)據(jù)的距離得出距離矩陣mat_dis,最大距離max_dis，最小距離min_dis

While r > 0

For i in range(2)

If i==0

dc=min_dis+(max_dis-min_dis)*((percent-r)/100)

If i == 1

dc=min_dis + (max_dis-min_dis)*((percent + r)/100)

根據(jù)公式(2)，dc和距離矩陣mat_dis計(jì)算每個點(diǎn)ρi

根據(jù)公式(3)，ρi計(jì)算距離δi

γ=ρi×δi

根據(jù)γ選出奇異點(diǎn)，根據(jù)奇異點(diǎn)的距離和密度找出中心點(diǎn)center

Iflen(center)==K

使用K近鄰得到所有的簇

Fitness1=mean(所有簇的簇內(nèi)距離)

Fitness2=mean(所有簇的簇間距離)

C=fitness最大時得到的簇

2.3 算法分析

在此算法中，算法預(yù)處理對數(shù)據(jù)進(jìn)行降維，這大大減少了算法所需要的時間和空間，并且本算法的時間復(fù)雜度是○(nlogN)，算法的增長趨勢并不快，再加上降維處理，使得算法本身實(shí)際的時間復(fù)雜度要低于理論上的時間復(fù)雜度。因?yàn)閿?shù)據(jù)預(yù)處理進(jìn)行了降維，這也降低了空間復(fù)雜度。本文聚類算法中密度半徑閾值dc極為重要，為了能夠找出最好的密度半徑閾值dc，算法使用爬山法來找密度半徑閾值dc，檢驗(yàn)這個密度半徑閾值dc好壞的思想是簇間距離大，簇內(nèi)距離小，因此可以根據(jù)簇間和簇內(nèi)距離計(jì)算出此密度半徑閾值dc的fitness，通過fitness和爬山法選出最好的密度半徑閾值dc，并且得到最好的聚類形成的簇和聚類中心點(diǎn)，這樣就能保證聚類結(jié)果的質(zhì)量。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)方案

本次實(shí)驗(yàn)環(huán)境是WINDOWS 10操作系統(tǒng)，Intel(R)Core(TM)i7-6700HQ的CPU和8.0GB內(nèi)存。本階段實(shí)驗(yàn)從三個方面評估FDCC：準(zhǔn)確率、召回率和運(yùn)行效率。

本次實(shí)驗(yàn)使用的是LAMOST DR5中的恒星數(shù)據(jù)，經(jīng)過精心挑選而得到五個數(shù)據(jù)集，五個數(shù)據(jù)集的數(shù)量分別是2 000，8 000，16 000，18 000，20 000.每個數(shù)據(jù)集只有A類和K類恒星數(shù)據(jù)，并且每類都各占一半,具體可從表1中查看。在挑選發(fā)射線的時候，我們選擇了13條發(fā)射線，分別是：H_delta：4101.734；H_beta：4861.325；OIII_4959：4958.911；OIII_5007：5006.843；Hel_5876：5875.67；OI_6300：6300.304；NII_6548：6548.040；H_alpha：6562.800；NII_6584：6583.460；SII_6717：6716.440；Ca_K：3933.66；Ca_H：3968.45；Na_D：5891.94.該算法的預(yù)處理過程將這13條發(fā)射線變成具體的置信度來進(jìn)行聚類。

對于聚類算法初始化，需要提前給出中心點(diǎn)個數(shù)k，爬山法中開始的百分比percent和百分比左右調(diào)整的幅度r.這里k初始化為2，因?yàn)橹挥袃深悢?shù)據(jù)，產(chǎn)生出來的也只有兩個聚類中心點(diǎn)。開始的百分比percent初始化為15，百分比左右調(diào)整的幅度r初始化為3.對于對比算法，本文實(shí)驗(yàn)選了四種聚類算法，分別是DJ-Cluster[11]，hierCluster，K-Means和DBSCAN.這四種聚類算法將分別用到上述的五個數(shù)據(jù)集中，得到四類算法的準(zhǔn)確率，召回率和時間，將之與本文中的聚類算法進(jìn)行比較。

3.2 準(zhǔn)確率分析

本文針對不同量級的光譜數(shù)據(jù)集，對FDCC算法以及四種同類算法進(jìn)行了準(zhǔn)確率對比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表2所示，其準(zhǔn)確率的對比柱狀圖如圖1所示。

表2 五種算法在五種數(shù)據(jù)集下的準(zhǔn)確率Tab.2 Accuracy of five algorithms on five data sets

圖1 同類算法的準(zhǔn)確率比較分析Fig.1 Accuracy analysis of five algorithms under five different data sets

從圖1的柱狀圖中可以看出雖然隨著數(shù)據(jù)量的增加，本文聚類算法的準(zhǔn)確率有著下降的趨勢，但是趨勢很小，并且在數(shù)據(jù)量達(dá)到一定數(shù)量的情況下，這種下降的趨勢在慢慢消失，可以從灰色柱狀來查看FDCC算法的準(zhǔn)確率，可以看到在測試到Data D的時候，算法的準(zhǔn)確率就開始保持平穩(wěn)，雖然有著微弱的下降，但是下降的趨勢已經(jīng)在消失，并且從表2中也可以看到Data D和Data E的準(zhǔn)確率在約去小數(shù)點(diǎn)后兩位數(shù)之后已經(jīng)保持一致。

從圖1中看出，其他對比算法的準(zhǔn)確率并不會出現(xiàn)較大的差異。DJ-Cluster和hierCluster算法一直保持著較低的準(zhǔn)確率，這兩類算法無法正確的對光譜數(shù)據(jù)進(jìn)行聚類，聚類出來得簇會出現(xiàn)較多或者較少得情況。K-Means和DBSCAN這兩類算法的準(zhǔn)確率一直都處于中等水平。這兩類算法對于簇的個數(shù)劃分準(zhǔn)確。但是劃分中也會出現(xiàn)錯誤，因而準(zhǔn)確率不會很高。本文聚類算法CCFD對簇的劃分是準(zhǔn)確的，并且兩個簇中的數(shù)據(jù)也很少有錯誤的劃分結(jié)果。具體的準(zhǔn)確率信息都呈現(xiàn)在表2中，并且圖1也用柱狀圖表現(xiàn)出來。

3.3 召回率分析

圖2和表3反映了算法在五種數(shù)據(jù)集下的召回率，從五種算法的對比中可以看出CCFD在召回率上依舊保持最高，雖然在Data A,B,C，D下，召回率有所下降，但是當(dāng)數(shù)據(jù)量達(dá)到18 000到20 000的時候，CCFD的召回率已經(jīng)開始不下降了，并且保持了平穩(wěn)狀態(tài)。因?yàn)閿?shù)據(jù)量的增加，使得情況變得復(fù)雜，特殊數(shù)據(jù)就會增加，在這種情況下，有一些特殊數(shù)據(jù)無法被分到正確的簇中，召回率就會有所下降，但是大數(shù)據(jù)量達(dá)到一定程度的時候，這些特殊數(shù)據(jù)的數(shù)量也會保持穩(wěn)定，結(jié)果就會保持平穩(wěn)。從表2中可以看出召回率在整個數(shù)據(jù)集實(shí)驗(yàn)中都是比較接近的，這說明幾乎所有的數(shù)據(jù)都會被分到一個簇中，并且大部分的數(shù)據(jù)都會被分對，而我們挑選的數(shù)據(jù)都是屬于兩個簇的，這也符合數(shù)據(jù)情況。而且錯分的個數(shù)都比較少，因而可以達(dá)到這種高效果。但是其他對比算法沒有這種高效果。

表3 五種算法在五種數(shù)據(jù)集下的召回率Tab.3 Recall rate of five algorithms on five data sets

圖2 同類算法的召回率分析Fig.2 Recall rate analysis of five algorithms under five different data sets

從圖2對比算法中來看，各對比算法對光譜數(shù)據(jù)處理的結(jié)果都比不上FDCC，這是因?yàn)槊總€對比算法都是處理三千多維數(shù)據(jù)，這種高維數(shù)據(jù)進(jìn)行的聚類，必然會有很多維度來影響聚類的結(jié)果。其他對比算法中都分成了不止兩個簇，因而其他對比算法的效果都是比較不理想。從圖2中可以看出DJ-Cluster和hierCluster此兩種聚類不適合這種高維光譜數(shù)據(jù)，它們都會將數(shù)據(jù)分成好幾個簇，得到的結(jié)果很差，因而召回率必然都會很低。

3.4 運(yùn)行效率

圖3說明了五種算法的運(yùn)行時間，在圖3中分別測試了Data A,C,E，數(shù)據(jù)量分別是2 000，16 000和20 000，在三種數(shù)據(jù)集中，Data A中只有DJ-Cluster有著較長的運(yùn)行時間，并且它在其他兩種數(shù)據(jù)集中也有著很長的運(yùn)行時間，其余四種算法在Data A下運(yùn)行時間都相差不大，沒有比較大的差異，這可能是數(shù)據(jù)量很小，算法在處理速度上無法展現(xiàn)出較大的差異。在Data C下，五種算法就開始表現(xiàn)出各自的差異，DJ-Cluster的運(yùn)行效率依舊是最低，運(yùn)行時間是最長的。而hierCluster的運(yùn)行時間排在了第二位中，但是相較于DJ-Cluster，hierCluster的運(yùn)行時間是比較短的。之后便是DBSCAN，K-Means和本文聚類算法。K-Means和本文聚類算法在時間上的差異很小，本文聚類算法比K-Means要低一點(diǎn)。雖然兩種聚類算法在運(yùn)行時間上差不多，但是在這種運(yùn)行時間下，本文聚類算法的準(zhǔn)確率和召回率都是比較高的，要遠(yuǎn)遠(yuǎn)地優(yōu)于K-Means.從Data E中來看，五種算法都可以看出差異的大小，此時由于算法的緣故，DJ-Cluster依然有很長的運(yùn)行時間，hierCluster和DBSCAN也有明顯的運(yùn)行時間差異，很明顯，hierCluster聚類算法有較長的運(yùn)行時間，在Data E下，K-Means的運(yùn)行時間依然要高于本文聚類算法一點(diǎn)。從整體上來看，本文中的聚類算法相較于其他算法在光譜數(shù)據(jù)上的表現(xiàn)依舊有很好的性能。

圖3 同類算法的運(yùn)行效率分析Fig.3 Time efficiency of five algorithms under three data sets

本文聚類算法識別的部分光譜如圖4和圖5所示。本文在比較這部分工作中分別選取了A類和K類恒星聚類中心點(diǎn)、三個邊緣點(diǎn)，從光譜圖像中可以看出A和K類中心點(diǎn)都具備各自恒星光譜的特征，但是這些邊緣點(diǎn)的特征是很難識別出來的，這也符合聚類結(jié)果的特點(diǎn)，中心點(diǎn)數(shù)據(jù)比邊緣點(diǎn)數(shù)據(jù)具備著更加明顯的特征。

圖4 A型恒星光譜數(shù)據(jù)Fig.4 Spectral data of class A-type star

圖5 K類恒星光譜數(shù)據(jù)Fig.5 Spectral data of class K-type star

4 結(jié)論

本文對恒星光譜數(shù)據(jù)的聚類算法進(jìn)行研究,并且提出了一種快速確定聚類中心的光譜聚類方法(FDCC).恒星光譜數(shù)據(jù)通常都是高維數(shù)據(jù)，具有很高的復(fù)雜度，為克服這種困難，本文提出了對光譜發(fā)射線進(jìn)行數(shù)據(jù)預(yù)處理來對數(shù)據(jù)進(jìn)行降維，之后利用密度和距離快速的確定聚類中心點(diǎn)，最后利用中心點(diǎn)和K近鄰算法來找出所有的簇。文中通過實(shí)驗(yàn)將之與其他聚類算法對比，得到的結(jié)果表明FDCC可以運(yùn)用到光譜數(shù)據(jù)中。對于更多種類和更多數(shù)量的恒星數(shù)據(jù)，需要在后續(xù)研究中進(jìn)一步解決。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡