楊 娜,邱建林,潘 陽(yáng),卞彩峰,陸鵬程
(1.南通大學(xué) 電子信息學(xué)院,江蘇 南通226019;2.南通大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南通226019)
聚類是一種無(wú)監(jiān)督的分類方法,即沒(méi)有任何先驗(yàn)知識(shí)可用[1]。k-means算法是以計(jì)算類的均值作為聚類中心的聚類方法。此算法簡(jiǎn)單快速,但是對(duì)k的選擇需要人為確定,這使得聚類的準(zhǔn)確性大大降低,聚類準(zhǔn)則單一,不能綜合考慮每個(gè)類內(nèi)樣本的相似性和每個(gè)類內(nèi)數(shù)據(jù)個(gè)數(shù)的均勻性。Pun等人通過(guò)選取最佳的相似度度量方法來(lái)提高聚類的質(zhì)量[2]。Nazeer等人為了提高k-means算法的準(zhǔn)確性和有效性,提出了結(jié)合系統(tǒng)的方法來(lái)選擇初始聚類中心,但是沒(méi)有考慮到k值選取的問(wèn)題[3]。文獻(xiàn) [4]結(jié)合遺傳算法來(lái)選擇最優(yōu)的初始聚類中心,并且提高了聚類的準(zhǔn)確性。在文獻(xiàn) [5]中從k=2開始聚類,根據(jù)數(shù)據(jù)的分布通過(guò)分裂原來(lái)的聚類中心來(lái)增加k 值,當(dāng)數(shù)據(jù)比較分散時(shí),此算法有很好的聚類效果。周士兵等人提出BWP聚類有效性函數(shù)來(lái)確定最佳聚類數(shù)目,但是計(jì)算復(fù)雜[6]。Dutta等人通過(guò)自動(dòng)選取k值與人為經(jīng)驗(yàn)結(jié)合來(lái)確定k-means算法中的參數(shù)[7]。雖然k-means算法存在選取初始聚類中心隨機(jī)性比較大,聚類數(shù)目難以確定等問(wèn)題,但是對(duì)k-means算法改進(jìn)的研究在不斷進(jìn)行著。本文根據(jù)聚類的平均類內(nèi)相似性和平均類間差異性來(lái)改進(jìn)聚類有效性函數(shù)。以數(shù)字農(nóng)業(yè)中的玉米良種選育為研究對(duì)象,先用主成分分析法和熵值法對(duì)玉米良種數(shù)據(jù)進(jìn)行降維處理,然后根據(jù)改進(jìn)的k-means聚類有效性函數(shù)來(lái)選取最合適的聚類數(shù)目,并進(jìn)行聚類分析。最后用主成分分析和熵值法對(duì)玉米品種進(jìn)行綜合評(píng)價(jià)并選出精英玉米良種。
原始的高維數(shù)據(jù)包含冗余信息和噪音信息,為了減少冗余信息對(duì)數(shù)據(jù)的影響,需要對(duì)高維數(shù)據(jù)進(jìn)行降維處理。降維的方法大致分為線性降維和非線性降維2類。線性降維有主成分分析,線性判別分析等。非線性降維有多維尺度方法,核主成分分析等。線性判別分析使降維后的同一類中的數(shù)據(jù)盡量緊湊,非同類的數(shù)據(jù)盡量分離,但是需要知道數(shù)據(jù)的某種監(jiān)督信息[8]。核主成分分析是線性主成分分析的推廣,但是核函數(shù)需要人為定義[9]。主成分分析是1種常用的線性降維方法,它是通過(guò)線性投影,將高維的數(shù)據(jù)轉(zhuǎn)換到低維空間中表示,并且要求低維空間的每一維數(shù)據(jù)方差最大,使各主成分的數(shù)據(jù)無(wú)關(guān),同時(shí)最大化保留了數(shù)據(jù)的特性。通過(guò)比較低維空間中數(shù)據(jù)方差大小來(lái)確定數(shù)據(jù)的重要性。
1.1.1 數(shù)據(jù)均值化
為了消除量綱和數(shù)量級(jí)的影響,對(duì)數(shù)據(jù)進(jìn)行主成分分析處理之前,先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。一般數(shù)據(jù)預(yù)處理都是將數(shù)據(jù)標(biāo)準(zhǔn)化,即轉(zhuǎn)化成均值為0,方差為1的數(shù)據(jù)集,但是這種標(biāo)準(zhǔn)化處理容易造成指標(biāo)信息的丟失。為此我們采用數(shù)據(jù)均值化處理方式,這可以最大程度保留原始數(shù)據(jù)的特征,并且用在主成分分析中能提高第一主成分的貢獻(xiàn)率,使得第一主成分能包含更多的信息[10]。
數(shù)據(jù)均值化就是用數(shù)據(jù)的均值去除原始數(shù)據(jù),這種處理可以使處理后的新數(shù)據(jù)集中沒(méi)有負(fù)數(shù),便于處理。原始數(shù)據(jù)集包含n個(gè)樣本,p個(gè)屬性,構(gòu)成n×p的數(shù)據(jù)矩陣X,每一行代表一個(gè)樣本,每一列代表一個(gè)屬性。對(duì)矩陣中的所有元素進(jìn)行均值化處理,均值化計(jì)算公式為
式中:xij——X 中的任意一個(gè)元素,xj——X 中第j列的均值,yij——均值化后的數(shù)據(jù)元素值。
1.1.2 主成分分析過(guò)程
首先先要計(jì)算相關(guān)系數(shù)矩陣R,相關(guān)系數(shù)越大則關(guān)聯(lián)性越大。相關(guān)系數(shù)矩陣是一個(gè)對(duì)稱矩陣,每個(gè)元素?cái)?shù)值大小代表2個(gè)屬性的相關(guān)性的大小。
記Yi(i=1,2,…,p)為Y 的第i 列向量,則主成分表達(dá)式為
式中:Fi——第i個(gè)主成分的線性組合,F(xiàn)i和Fj不相關(guān)(i≠j)。主成分中的權(quán)系數(shù)向 “高度相關(guān)指標(biāo)子集”中的指標(biāo)傾斜[11]。在每一個(gè)主成分表達(dá)式中,主成分權(quán)系數(shù)較大的對(duì)應(yīng)的屬性列向量是相關(guān)性較大的列向量,那么這幾個(gè)列向量可以合并成一個(gè)列向量,達(dá)到降維的目的。根據(jù)主成分的累計(jì)貢獻(xiàn)率選取主成分個(gè)數(shù),一般要求累計(jì)貢獻(xiàn)率在85%以上。
根據(jù)信息論基本原理可知,信息的度量可以用信息熵來(lái)表示,如果信息熵越小,則其信息量就越大[12]。通過(guò)信息熵來(lái)計(jì)算各指標(biāo)的權(quán)重,具體步驟如下:
(1)數(shù)據(jù)轉(zhuǎn)換:將均值化的非負(fù)矩陣Y 轉(zhuǎn)換成比重形式,即計(jì)算第i個(gè)樣本的第j 個(gè)屬性值在該屬性中的比重。計(jì)算公式如下
(3)差異系數(shù):第j 個(gè)屬性的差異系數(shù),此值越大則說(shuō)明這個(gè)屬性對(duì)整體的評(píng)價(jià)影響越大。計(jì)算公式如下
(4)權(quán)重:計(jì)算每個(gè)屬性在總體屬性中的重要性,權(quán)重越大,則該屬性越重要。計(jì)算公式如下
聚類就是基于 “物以類聚,人以群分”的思想,按照數(shù)據(jù)的某種相似性度量,使得相似的數(shù)據(jù)聚為一類,使得同一類內(nèi)的數(shù)據(jù)相似度高,不同類間數(shù)據(jù)差異性大。傳統(tǒng)的聚類方法有k-means,k-mediods等,這些方法算法簡(jiǎn)單快速,但是難以確定具體的k 值。很多學(xué)者還在研究并改進(jìn)k-means算法,足以見(jiàn)得k-means 算法的優(yōu)勢(shì)。對(duì)kmeans算法改進(jìn)主要有以下幾方面:一是對(duì)k 值的選取上進(jìn)行研究;二是在聚類中心的選取上進(jìn)行改進(jìn);三是在相似度度量方法上進(jìn)行改進(jìn);四是與其他算法結(jié)合。
k-means算法的基本思想就是隨機(jī)選取k個(gè)對(duì)象作為聚類中心,然后把剩余的對(duì)象按照某種相似度度量分配給相應(yīng)最近的簇,再重新計(jì)算每個(gè)簇的聚類中心作為新的聚類中心,重復(fù)此過(guò)程,直到滿足聚類準(zhǔn)則。最基本的聚類準(zhǔn)則函數(shù)是簇內(nèi)誤差平方和SSE,定義如下
式中:Ci——第i個(gè)類,ci——第i類的聚類中心,ni——第i類的樣本個(gè)數(shù),x——簇內(nèi)的樣本點(diǎn)。簇內(nèi)的誤差平方和越小說(shuō)明簇內(nèi)的點(diǎn)越緊湊,也就是簇內(nèi)的點(diǎn)相似性越高。但是,SSE 不能保證簇與簇之間的差異性,也不能有效處理各個(gè)簇內(nèi)樣本個(gè)數(shù)的差別,不能保證每個(gè)簇樣本數(shù)的均勻性[13]。
綜合考慮類內(nèi)數(shù)據(jù)的相似性,類間數(shù)據(jù)的差異性,還有每個(gè)類內(nèi)數(shù)據(jù)個(gè)數(shù)的均勻性。根據(jù)聚類的目的,定義平均類內(nèi)距來(lái)表達(dá)類內(nèi)樣本的相似性,平均類內(nèi)距越小則類內(nèi)樣本相似性越高,其定義式如下
定義平均類間距來(lái)表達(dá)各個(gè)類之間的差異性,平均類間距越大則類間樣本的差異性越大,其定義式如下
式中:ci、cj——第i類和第j 類的聚類中心,C2k——聚類中心之間距離的個(gè)數(shù)。
定義聚類有效性函數(shù)為
在不考慮k 值得情況下下,f 越大說(shuō)明平均類內(nèi)距越小,平均類間距越大,即樣本的類內(nèi)相似性越高,類間差異性越大。在保證聚類效果質(zhì)量的前提下,希望k 值越小越好。
另外根據(jù)實(shí)際需要有時(shí)候還要考慮各個(gè)類內(nèi)樣本個(gè)數(shù)的均勻性,我們定義均勻性函數(shù)為
式中:ni——第i類所含的樣本個(gè)數(shù)——平均每個(gè)類的樣本個(gè)數(shù),n——樣本的總個(gè)數(shù)。若每個(gè)類的樣本個(gè)數(shù)越均勻則N 就越大。當(dāng)樣本中有某一類內(nèi)所含的樣本個(gè)數(shù)相對(duì)其他類較少時(shí),可以將這一類的幾個(gè)數(shù)據(jù)作為異常點(diǎn)處理。鑒于有異常點(diǎn)的存在,所以均勻性函數(shù)并非越大越好。這時(shí)我們要綜合考慮聚類有效性函數(shù)和均勻性函數(shù),聚類有效性函數(shù)越大說(shuō)明聚類效果越好,在排除異常點(diǎn)的情況下,均勻性函數(shù)越大越好。根據(jù)這2點(diǎn)來(lái)選擇最佳的k 值,使得最后聚類效果得到最佳。
首先要確定k 值的取值范圍,通常聚類的數(shù)目的最小值取2,即kmin=2。至于k 最大值的選取,沒(méi)有明確的理論,一般使用經(jīng)驗(yàn)規(guī)則,即kmax≤。Frey等人提出AP算法來(lái)確定最大的k 值,該算法快速有效,還能縮小kmax[14]。
采用UCI數(shù)據(jù)庫(kù)中的iris數(shù)據(jù)集,wine數(shù)據(jù)集和glass identification數(shù)據(jù)集進(jìn)行聚類有效性函數(shù)的實(shí)驗(yàn)。iris數(shù)據(jù)集有150個(gè)樣本,4個(gè)屬性,由AP算法知,最高聚類數(shù)為6。wine數(shù)據(jù)集178個(gè)樣本,13個(gè)屬性,由AP算法知,最高聚類數(shù)為9。glass identification數(shù)據(jù)集有214個(gè)樣本,10個(gè)屬性,由于在k=7,出現(xiàn)空簇,所以最大聚類數(shù)為7。在matlabR2012b中,對(duì)3個(gè)數(shù)據(jù)集進(jìn)行平均類內(nèi)距,平均類間距,聚類有效性函數(shù),均勻性函數(shù)的計(jì)算,并且比較,得出最佳的聚類k 值。由于k-means算法是隨機(jī)選取初始點(diǎn)的,為了確保聚類結(jié)果的穩(wěn)定性,所以每次運(yùn)行k-means算法50次。
由圖1可知,對(duì)于iris數(shù)據(jù)集,當(dāng)k=3時(shí)聚類有效性函數(shù)值最大,并且此時(shí)的均勻性函數(shù)值也最大,這與UCI數(shù)據(jù)庫(kù)中描述分為3類相符。由圖2可知,對(duì)于wine數(shù)據(jù)集,當(dāng)k=3時(shí)聚類有效性函數(shù)值最大,并且均勻性函數(shù)值也最大,與UCI數(shù)據(jù)庫(kù)中的描述相符合。對(duì)于glass identification數(shù)據(jù)集,聚類的k 可以取2、5、6。分類最精細(xì)的是k取6。由圖3可知,當(dāng)k=6時(shí)聚類有效性函數(shù)值最大,但是此時(shí)的均勻性函數(shù)值不是最大,根據(jù)我們的實(shí)際需求選擇均勻性比較好的聚類還是聚類效果比較好的聚類。然而在k=2時(shí),雖然均勻性函數(shù)值比較大,但是聚類有效性函數(shù)值比較低。所以選擇k=6。
文獻(xiàn) [15]根據(jù)類內(nèi)緊致性和類間總距離,提出的新的聚類有效性函數(shù),此聚類有效性的時(shí)間復(fù)雜度比較高,每次計(jì)算聚類有效性函數(shù)需要計(jì)算2n+k 次乘積。文獻(xiàn)[6]根據(jù)最小類間距離和平均類內(nèi)距離,提出BWP 指標(biāo),每次計(jì)算此有效性函數(shù)需要計(jì)算n2次乘法,時(shí)間復(fù)雜度更高。本文提出的聚類有效性函數(shù),每次只需n+k* (k-1)/2次乘法,大大降低了時(shí)間復(fù)雜度。此聚類有效性函數(shù)在保證正確率的情況下降低了計(jì)算的復(fù)雜度,從而提高了運(yùn)行的效率。這3個(gè)聚類有效性函數(shù)時(shí)間復(fù)雜度的比較見(jiàn)表1。
圖1 iris數(shù)據(jù)集
圖2 wine數(shù)據(jù)集
圖3 glass identification數(shù)據(jù)集
表1 有效性指標(biāo)函數(shù)時(shí)間復(fù)雜度比較
本文選取樣本集是農(nóng)業(yè)信息組2006年年終匯總的玉米樣本集。選取51個(gè)子類玉米品種,選取每個(gè)品種的9個(gè)主要屬性作為研究對(duì)象。這9個(gè)屬性依次為全生育期、株高、穗高、穗長(zhǎng)、穗粗、穗行數(shù)、千粒重、小區(qū)產(chǎn)量。原始樣本集見(jiàn)表2。
(1)先對(duì)原始數(shù)據(jù)集進(jìn)行均值化處理,得到新數(shù)據(jù)集Z 見(jiàn)表3。
(2)對(duì)Z 集進(jìn)行主成分分析,計(jì)算得出特征值為0.0288,0.0160, 0.0113, 0.0077, 0.0033, 0.0019,0.0011,0.0007,0.0003。累計(jì)貢獻(xiàn)率分別為40.51%,63.01%,78.90%,89.73%,94.37%,…。由于前4 個(gè)主成分的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到85%以上,所以選擇4個(gè)主成分,前4個(gè)主成分權(quán)系數(shù)見(jiàn)表4。
由第一主成分知,V3、V6、V9 的系數(shù)比較高,說(shuō)明這幾個(gè)屬性的關(guān)聯(lián)性比較大。由第二主成分知,V3、V6的系數(shù)比較大,說(shuō)明穗高和千粒重關(guān)聯(lián)性大。由第三主成分知,V4、V7、V8 這3 個(gè)系數(shù)比較大,可以把穗長(zhǎng)、穗行數(shù)、行粒數(shù)作為關(guān)聯(lián)屬性。
對(duì)Z 數(shù)據(jù)集進(jìn)行相關(guān)性分析得相關(guān)系數(shù)矩陣R (如式(16)),V2、V3的相關(guān)系數(shù)比較大,說(shuō)明這2個(gè)屬性關(guān)聯(lián)性大。同理V5、V7 的關(guān)聯(lián)性也比較大。因此V2、V3、V6、V9作為一組關(guān)聯(lián)屬性集,即新屬性1。V4、V5、V7、V8作為一組關(guān)聯(lián)屬性集,即新屬性2。全生育期V1 作為一個(gè)獨(dú)立的屬性,即為新屬性3。
表2 原始樣本集
表3 新數(shù)據(jù)集Z
表4 主成分系數(shù)
用熵值法確定9 個(gè)屬性的權(quán)重分別為:0.1694,0.0556,0.0737, 0.1142, 0.1404, 0.1320, 0.1018,0.1122,0.1008。根據(jù)這9 個(gè)權(quán)重還有新的屬性集,作3個(gè)屬性權(quán)重向量W1,W2,W3。
因此新的數(shù)據(jù)列向量為N1,N2,N3,計(jì)算表達(dá)式如下
N 就是降維后新得到的新的數(shù)據(jù)矩陣。N 矩陣中的數(shù)據(jù)見(jiàn)表5。
表5 降維后新數(shù)據(jù)集
4.4.1 對(duì)新數(shù)據(jù)集進(jìn)行k-means算法處理并選擇最佳的k值
對(duì)于k-means算法k 值得選取是人為確定的,但是不能保證選取到最佳的k 值。為了選取最佳k 值,我們需要考慮平均類內(nèi)距,平均類間距,還有類的均勻性。平均類內(nèi)距越小則類內(nèi)相似性越高,平均類間距越大則類間的差異性越大。以平均類內(nèi)距和平均類間距為基礎(chǔ),作聚類有效性函數(shù)f,f 越大說(shuō)明聚類效果越好。另外考慮到每個(gè)類內(nèi)樣本個(gè)數(shù)的均勻性,定義了均勻性函數(shù),以此來(lái)表征各類內(nèi)樣本的均勻性,并且均勻性函數(shù)越大則說(shuō)明樣本在各類內(nèi)分布均勻。根據(jù)實(shí)際需要,更多希望樣本相似度高點(diǎn),但是樣本中可能存在異常點(diǎn)的情況,所以我們優(yōu)先考慮相似性。因?yàn)橹挥?1個(gè)樣本,所以只考察了k從2到8的情況。最后數(shù)據(jù)在matlab R2012b中運(yùn)行所得見(jiàn)表6。
表6中可以看出k=2,3時(shí)均勻性很高,但是聚類有效性函數(shù)值不是很好,可能存在異常點(diǎn)。k=4時(shí),聚類有效性函數(shù)值最高,排除異常點(diǎn)后的均勻性函數(shù)值也比較高。此次聚類是為了得到良種的聚類,所以對(duì)類均勻性要求不高,對(duì)相似度要求比較高。因此優(yōu)先考慮相似度,再考慮類均勻性。k值得最佳選擇為4。
由于k-means算法每次運(yùn)行結(jié)果都會(huì)有點(diǎn)小差別,但對(duì)整體聚類效果的影響不大。最后聚類效果如下:
第1類:Y2,Y6,Y7,Y11,Y13,Y19,Y21,Y23,Y25,Y27,Y33,Y41,Y44;
第2 類:Y5,Y9,Y12,Y15,Y17,Y18,Y38,Y40,Y42,Y45,Y50,Y51;
第3類:Y3,Y4,Y8,Y10,Y14,Y16,Y20,Y22,Y24,Y26,Y28,Y29,Y31,Y32,Y34,Y35,Y36,Y37,Y39,Y43,Y46,Y47,Y48,Y49;
第4類:Y1,Y30。
圖4為在三維空間內(nèi)所有的樣本點(diǎn)及其聚類中心。第1類中心用*號(hào)表示,由原始數(shù)據(jù)分析可知,這一類的特點(diǎn)是除了穗長(zhǎng)、穗行數(shù)、行粒數(shù)值比較大和全生育期比較短之外,其他特征都不是很理想,很明顯不是我們所要的玉米良種。第2類中心用圓圈o表示的,這一類穗長(zhǎng)、穗粗、穗行數(shù)、行粒數(shù)都很小,沒(méi)有明顯的優(yōu)勢(shì)特征,還不如第1類的品質(zhì)好,也不是我們所要的玉米良種。第3類中心用鉆石表示的,這一類的特點(diǎn)比較突出,株高、穗高、千粒重、穗粗、小區(qū)產(chǎn)量都很高,符合我們所需要的良種要求,所以這一組可以作為玉米良種加以擴(kuò)大繁殖。第4類中心五角星表示,只有2個(gè)樣本點(diǎn)Y1、Y30,Y30株高和產(chǎn)量都很低,Y1穗高特別低,沒(méi)有突出特點(diǎn),可以作為異常點(diǎn)刪除。由以上分析可知第3類的樣本屬于玉米良種,并且分析可得玉米產(chǎn)量與穗高的關(guān)聯(lián)性很大。作玉米良種集S′,它由第3類中的24個(gè)樣本和降維后的4個(gè)屬性組成的數(shù)據(jù)集。
表6 不同k值下的各項(xiàng)指標(biāo)的數(shù)值
圖4 k=4時(shí)的聚類效果
通過(guò)計(jì)算全體樣本的平均值和第3 類樣本的平均值,發(fā)現(xiàn)第3類的大多數(shù)屬性的平均值比總體平均值大,比較明顯的有株高、穗高、千粒重、行粒數(shù)、區(qū)產(chǎn)量比總體平均值高出2.72%、5.78%、8.10%、1.17%、7.70%。這也充分說(shuō)明第3類樣本是玉米良種。
4.4.2 玉米種子的綜合評(píng)價(jià)
利用主成分分析和熵值法來(lái)計(jì)算聚類得到的玉米良種中每一個(gè)種子的綜合得分,再對(duì)每個(gè)種子得分進(jìn)行排序,得到得分最高的幾個(gè)種子。
(1)主成分分析綜合得分:聚類得到的玉米良種數(shù)據(jù)集可以簡(jiǎn)化為由4個(gè)主成分組成的新數(shù)據(jù)集S′,S′是由24個(gè)樣本4個(gè)屬性的矩陣。我們把每個(gè)主成分的貢獻(xiàn)率作為每個(gè)主成分的權(quán)重,得到權(quán)重集W1。因此得到主成分綜合得分Score1,計(jì)算公式如下
(2)熵值法計(jì)算綜合得分:為了避免主成分分析的綜合得分中會(huì)丟失部分信息,我們?cè)儆渺刂捣ㄓ?jì)算每個(gè)樣本種子的綜合得分。由熵值法計(jì)算結(jié)果可得比重集P,屬性權(quán)重集W2,綜合得分為Score2,計(jì)算公式如下
最后賦予主成分得分和熵值法得分的權(quán)重分別為0.5,0.5。最后綜合得分為Score計(jì)算公式如下
根據(jù)Score的最后綜合得分,對(duì)玉米良種集中所有的種子按照綜合得分多少進(jìn)行排序,其排名順序見(jiàn)表7。
表7 玉米品種綜合得分排名
為了確保我們所得到的玉米良種的質(zhì)量,對(duì)玉米樣本集進(jìn)行了k-means算法聚類,這樣使得大多數(shù)優(yōu)良品種聚集在一起,減少了盲目選種的復(fù)雜性和工作量。還對(duì)聚類得到的玉米良種集中玉米種子進(jìn)行計(jì)算主成分分析和熵值法相結(jié)合的綜合得分,并對(duì)其進(jìn)行排名。綜合得分比較高的幾個(gè)玉米品種作為最后的精英玉米良種,這樣減少了由于誤差錯(cuò)把劣種作為良種的可能性,使得我們得到的玉米良種更為優(yōu)良。我們?nèi)∨琶谇?名的玉米品種作為精英玉米良種。
精英玉米良種:Y49,Y35,Y47,Y34,Y48。
為了選取最佳的k值,綜合考慮平均類內(nèi)距,平均類間距,用改進(jìn)后的聚類有效性函數(shù)來(lái)選取最佳的聚類數(shù)目。實(shí)驗(yàn)結(jié)果表明所選取的k值能得到較好的聚類效果。為了減少玉米良種集中混入劣種的可能性,再用主成分分析和熵值法對(duì)聚類得到的玉米良種進(jìn)行計(jì)算綜合得分,并對(duì)其進(jìn)行排名。
通過(guò)k-means算法、改進(jìn)后的聚類有效性函數(shù)、主成分分析和熵值法綜合對(duì)玉米樣本集的處理,最后從玉米樣本集中得到所需要的玉米良種。為了提高計(jì)算效率,還可以把k-means算法與其他算法相結(jié)合,選取最佳的初始聚類中心來(lái)提高算法的穩(wěn)定性。這樣可以使k-means算法更加完善。
[1]SUN Jigui,LIU Jie,ZHAO Lianyu.Clustering algorithms research [J].Journal of Software,2008,19 (1):48-61 (in Chinese). [孫吉貴,劉杰,趙連宇.聚類算法研究 [J].軟件學(xué)報(bào),2008,19 (1):48-61.]
[2]Pun WKD,Ali AS.Unique distance measure approach for kmeans (UDMA-Km)clustering algorithm [C]//TENCON 2007-2007IEEE Region 10Conference.IEEE,2007:1-4.
[3]Nazeer KAA,Sebastian MP.Improving the accuracy and efficiency of the k-means clustering algorithm [C]//Proceedings of the World Congress on Engineering,2009:1-3.
[4]Al-Shboul B,Myaeng SH.Initializing k-means using genetic algorithms[J].World Academy of Science,Engineering and Technology,2009,54:114-118.
[5]Joshi KD,Nalwade PS.Modified k-means for better initial cluster centres[J].International Journal of Computer Science and Mobile Computing,2013,2 (7):219-223.
[6]ZHOU Shibing,XU Zhenyuan,TANG Xuqing.Method for determining optimal number of clusters in k-means clustering algorithm [J].Journal of Computer Applications,2010,30(8):1995-1998 (in Chinese). [周世兵,徐振源,唐旭清.K-means算法最佳聚類數(shù)確定方法 [J].計(jì)算機(jī)應(yīng)用,2010,30 (8):1995-1998.]
[7]Dutta H,Passonneau RJ,Lee A,et al.Learning parameters of the k-means algorithm from subjective human annotation[C]//FLAIRS Conference,2011.
[8]CHEN Shiguo,ZHANG Daoqiang.Experimental comparisons of semi-supervised dimensional reduction methods[J].Journal of Software,2011,22 (1):28-43 (in Chinese). [陳詩(shī)國(guó),張道強(qiáng).半監(jiān)督降維方法的實(shí)驗(yàn)比較 [J].軟件學(xué)報(bào),2011,22 (1):28-43.]
[9]WU Xiaoting,YAN Deqin.Analysis and research on method of data dimensionality reduction [J].Application Research of Computers,2009,26 (8):2832-2835 (in Chinese). [吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究 [J].計(jì)算機(jī)應(yīng)用研究,2009,26 (8):2832-2835.]
[10]ZHU Shengwei,ZHOU Deyun,LI Zhaoqiang.Object threat evaluation based on improved principal components analysis[J].Computer Simulation,2010,27 (3):1-4 (in Chi-nese).[朱勝偉,周德云,李兆強(qiáng).基于改進(jìn)的主成分分析法的目標(biāo)威脅評(píng)估 [J].計(jì)算機(jī)仿真,2010,27 (3):1-4.]
[11]SUN Liuping,QIAN Wuyong.An improved method based on principal component analysis for the comprehensive evaluation[J].Mathematics in Practice and Theory,2009,39 (18):15-20 (in Chinese).[孫劉平,錢吳永.基于主成分分析法的綜合評(píng)價(jià)方法的改進(jìn)[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2009,39 (18):15-20.]
[12]HUANG Guoqing, WANG Mingxu, WANG Guoliang.Weight assignment research of improved entropy method in effectiveness evaluation [J].Computer Engineering and Application,2012,48 (28):245-248 (in Chinese).[黃國(guó)慶,王明緒,王國(guó)良.效能評(píng)估中的改進(jìn)熵值法賦權(quán)研究 [J].計(jì)算機(jī)工程與應(yīng)用,2012,48 (28):245-248.]
[13]ZHANG Xuefeng,ZHANG Guizhen,LIU Peng.Improved k-means algorithm based on clustering criterion function [J].Computer Engineering and Applications,2011,47 (11):123-127 (in Chinese).[張雪鳳,張桂珍,劉鵬.基于聚類準(zhǔn)則函數(shù)的改進(jìn)k-means算法 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47 (11):123-127.]
[14]Frey BJ,Dueck D.Clustering by passing messages between data points[J].Science,2007,315 (5814):972-976.
[15]LI Shuanghu,ZHANG Fenghai.New index for clustering validation [J].Computer Engineering and Design,2007,28(8):1772-1774 (in Chinese).[李雙虎,張風(fēng)海.一個(gè)新的聚類有效性分析指標(biāo) [J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(8):1772-1774.]