国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于平均差異度的改進(jìn)k-prototypes聚類算法*

2019-09-19 09:02:18石鴻雁徐明明
關(guān)鍵詞:屬性數(shù)據(jù)度量聚類

石鴻雁, 徐明明

(沈陽(yáng)工業(yè)大學(xué) 理學(xué)院, 沈陽(yáng) 110870)

聚類是將物理或者抽象的對(duì)象集合分成若干個(gè)類,使得同一個(gè)類中的對(duì)象具有較高相似度,不同類中的對(duì)象具有較低相似度[1],聚類分析技術(shù)在圖像處理、模式識(shí)別、生物學(xué)等諸多領(lǐng)域有著廣泛的應(yīng)用[2-4].在實(shí)際生活中的各個(gè)方面比如醫(yī)療衛(wèi)生教育、社交網(wǎng)站、商場(chǎng)和購(gòu)物網(wǎng)站等領(lǐng)域每時(shí)每刻都會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)大多是由連續(xù)的數(shù)值屬性和代表類別的分類屬性所構(gòu)成的混合屬性數(shù)據(jù),所以混合屬性數(shù)據(jù)聚類算法的研究成為聚類分析領(lǐng)域的一個(gè)熱點(diǎn)問題.目前,許多學(xué)者對(duì)混合屬性數(shù)據(jù)聚類進(jìn)行研究,并提出了一些相關(guān)算法.Huang結(jié)合k-means和k-modes算法的思想提出了k-prototypes算法[5],該算法實(shí)現(xiàn)簡(jiǎn)單,易操作,能夠有效聚類混合數(shù)據(jù),但其對(duì)初始聚類中心和聚類數(shù)目過于依賴,使得聚類結(jié)果容易陷入局部最優(yōu),并且在計(jì)算分類屬性之間的相異度時(shí),簡(jiǎn)單采用數(shù)值0和1不能客觀地體現(xiàn)數(shù)據(jù)對(duì)象與類之間的相異度,從而導(dǎo)致聚類結(jié)果不理想.針對(duì)k-prototypes算法存在的問題,歐陽(yáng)浩等提出了基于信息熵的粗糙k-prototypes聚類算法[6],利用信息熵的概念,為每個(gè)數(shù)據(jù)對(duì)象的分類屬性賦予權(quán)重,并且引入粗糙集的理論來計(jì)算各數(shù)據(jù)對(duì)象與粗糙中心之間的差異度,提高了聚類結(jié)果的準(zhǔn)確率.Chatzis提出了一種新的FCM算法[7],對(duì)Gath-Geva算法進(jìn)行了擴(kuò)展,該算法假設(shè)簇中的數(shù)據(jù)對(duì)象符合高斯分布,主要對(duì)高斯多項(xiàng)分布數(shù)據(jù)進(jìn)行聚類.Zheng等利用進(jìn)化算法(EA)具有全局搜索能力的特點(diǎn),將其引入到k-prototypes算法中,提出EKP算法[8],算法中令k-prototypes算法作為局部搜索策略,并在EA框架的控制下運(yùn)行.錢潮愷等[9]針對(duì)k-prototypes算法分辨率低,聚類結(jié)果的隨機(jī)性較大等問題,提出基于維度頻率相異度的方法來計(jì)算分類屬性,并且對(duì)預(yù)聚類產(chǎn)生的子簇構(gòu)造連通圖,分析其之間的連通關(guān)系,用強(qiáng)連通融合方法進(jìn)行聚類.陳晉音等提出了基于混合屬性距離度量公式的密度聚類算法[10],將數(shù)據(jù)對(duì)象分為分類占優(yōu)、數(shù)值占優(yōu)和均衡型,對(duì)于不同情況的特征,分別選擇不同的距離度量方式,通過預(yù)先設(shè)定的參數(shù)尋找數(shù)據(jù)密度最大的區(qū)域,選定核心點(diǎn),再根據(jù)核心點(diǎn)將密度相連的數(shù)據(jù)對(duì)象劃分為一類,最后得到聚類結(jié)果.

上述處理混合屬性數(shù)據(jù)的算法雖然在不同程度上提高了聚類效果,但大都采取了隨機(jī)選擇初始聚類中心的方式,給算法的執(zhí)行效率帶來了很大的不確定性[11].為了解決這個(gè)問題,已有學(xué)者提出一些改進(jìn)算法,文獻(xiàn)[12]在考慮數(shù)據(jù)對(duì)象在類歸屬上不確定的同時(shí),利用均值和分布質(zhì)心表示類中心;文獻(xiàn)[13]提出了基于密度聚類中心自動(dòng)確定的聚類算法.實(shí)際上,聚類中心點(diǎn)的分布比較疏散,不會(huì)局限在一個(gè)小的范圍區(qū)域內(nèi).本文利用平均差異度方法選取初始聚類中心點(diǎn),并用這些點(diǎn)進(jìn)行聚類,可以得到較好的效果.為進(jìn)一步提高算法質(zhì)量,利用信息熵確定數(shù)值屬性權(quán)重,并對(duì)分類屬性度量公式進(jìn)行改進(jìn),給出了一種混合屬性數(shù)據(jù)度量公式.

1 k-prototypes聚類算法

設(shè)k∈N+,k-prototypes算法聚類是將數(shù)據(jù)集劃分成k個(gè)不同的類,使得目標(biāo)函數(shù)值最小,即

(1)

式中:vl為類cl的聚類中心,cl為聚類集;μil為數(shù)據(jù)對(duì)象xi對(duì)類cl的隸屬度,0≤μil≤1;d(xi,vl)為混合屬性數(shù)據(jù)度量公式,即

(2)

1) 在數(shù)據(jù)集中任選k個(gè)初始聚類中心點(diǎn);

2) 根據(jù)式(2)計(jì)算對(duì)象與初始聚類中心的距離,按照最小距離原則分到離其最近的中心所在的類中;

3) 更新聚類中心,對(duì)數(shù)值屬性數(shù)據(jù)求平均值,對(duì)分類屬性數(shù)據(jù)求屬性中出現(xiàn)次數(shù)最多的值;

4) 重復(fù)步驟2)和3),直到目標(biāo)函數(shù)F不再發(fā)生變化為止.

2 改進(jìn)k-prototypes聚類算法

k-prototypes算法雖實(shí)現(xiàn)了混合屬性數(shù)據(jù)的有效聚類,但在聚類過程中仍存在一些問題,隨機(jī)選取初始聚類中心導(dǎo)致聚類結(jié)果具有不確定性和隨機(jī)性.采用式(2)計(jì)算數(shù)據(jù)對(duì)象間的相似度,忽略了數(shù)值屬性數(shù)據(jù)對(duì)聚類結(jié)果的影響.同時(shí)分類屬性采用簡(jiǎn)單匹配度量計(jì)算數(shù)據(jù)與類中心的相似度有兩個(gè)缺點(diǎn):1)不能準(zhǔn)確地描述數(shù)據(jù)對(duì)象與類中心對(duì)應(yīng)的簇中其他數(shù)據(jù)的相似度,數(shù)據(jù)對(duì)象是否被劃分到一個(gè)簇中,不僅依賴于與聚類中心的相似度,還依賴于與類內(nèi)已有對(duì)象的總體相似度;2)當(dāng)數(shù)據(jù)對(duì)象與多個(gè)聚類中心的相似度相同時(shí),算法往往會(huì)隨機(jī)將此數(shù)據(jù)加入到一個(gè)聚類集中,從而不能準(zhǔn)確地劃分到相似性更大的聚類集中.

2.1 改進(jìn)的混合屬性數(shù)據(jù)度量公式

針對(duì)k-prototypes算法存在的問題,利用信息熵Ej的概念對(duì)數(shù)值屬性進(jìn)行加權(quán),并對(duì)分類屬性度量公式進(jìn)行改進(jìn),給出混合屬性數(shù)據(jù)度量公式.

(3)

定義1數(shù)值屬性度量采用加權(quán)曼哈頓距離公式,數(shù)據(jù)對(duì)象xi與xj之間的度量計(jì)算定義為

(4)

定義2設(shè)cl表示聚類過程中的一個(gè)類,則分類屬性度量公式定義為

(5)

(6)

將定義3應(yīng)用到k-prototypes算法的目標(biāo)函數(shù)中,即

(7)

2.2 初始聚類中心選取

為了克服隨機(jī)選擇初始聚類中心導(dǎo)致聚類結(jié)果不穩(wěn)定的問題,借鑒文獻(xiàn)[15]中選擇初始聚類中心點(diǎn)的思想,并且利用平均差異度選取初始聚類中心.基于的原則是:初始聚類中心應(yīng)具有較大的平均差異度,且聚類中心之間的差異度要大于總體平均差異度.

平均差異度的計(jì)算依賴于數(shù)據(jù)對(duì)象兩兩之間的距離d(xi,xj),本文采用混合屬性數(shù)據(jù)距離代替原方法中的歐式距離,其中數(shù)值部分為由定義1給出的數(shù)值屬性度量公式,分類屬性部分采用簡(jiǎn)單匹配度量,從而擴(kuò)展了原方法只能處理數(shù)值屬性數(shù)據(jù)的限制,使其能夠更好地解決混合屬性數(shù)據(jù)聚類問題.

2.3 算法描述

綜上得到基于平均差異度的改進(jìn)k-prototypes聚類算法的步驟如下:

1) 給定聚類個(gè)數(shù)k,計(jì)算每個(gè)數(shù)據(jù)對(duì)象的平均差異度和總體平均差異度,將平均差異度進(jìn)行排序,并把平均差異度最大的數(shù)據(jù)對(duì)象作為第1個(gè)初始聚類中心v1,同時(shí)將該數(shù)據(jù)從數(shù)據(jù)集中刪除;

2) 尋找其余數(shù)據(jù)對(duì)象中平均差異度最大的數(shù)據(jù),計(jì)算其與已有聚類中心的距離;

3) 若計(jì)算其與已有聚類中心的距離均不小于總體平均差異度,則可作為聚類中心,否則,返回步驟2),重復(fù)步驟2)和3),直到初始聚類中心的個(gè)數(shù)達(dá)到k,并輸出初始聚類中心;

4) 根據(jù)定義3計(jì)算數(shù)據(jù)對(duì)象到各聚類集的距離,按照就近原則將數(shù)據(jù)分配到離其最近的聚類集中;

5) 更新每個(gè)類的中心,對(duì)數(shù)值屬性數(shù)據(jù)計(jì)算平均值,對(duì)分類屬性數(shù)據(jù)取屬性中出現(xiàn)概率最大的值;

6) 重復(fù)步驟4)和5),直到各個(gè)聚類中心穩(wěn)定,目標(biāo)函數(shù)值不再發(fā)生變化,結(jié)束.

3 仿真試驗(yàn)與結(jié)果分析

3.1 試驗(yàn)環(huán)境

本文仿真試驗(yàn)采用Matlab R2012a開發(fā)環(huán)境,Intel(R) Core(TM) i3-4005U CPU 1.70 GHz,4 GB內(nèi)存,在Windows7操作系統(tǒng)上運(yùn)行.試驗(yàn)數(shù)據(jù)采用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的4個(gè)真實(shí)數(shù)據(jù)集,數(shù)據(jù)集描述如表1所示.

表1 試驗(yàn)數(shù)據(jù)集描述Tab.1 Description of experiment data sets

以上4個(gè)數(shù)據(jù)集包括3種數(shù)據(jù)類型,其中Iris為數(shù)值型數(shù)據(jù),Soybean為分類型數(shù)據(jù),Credit和Heart為混合型數(shù)據(jù).

3.2 試驗(yàn)結(jié)果

為了驗(yàn)證本文算法的有效性和可行性,分別用k-prototypes算法、EKP算法、KL-FCM-GM算法、文獻(xiàn)[12]算法、文獻(xiàn)[13]算法和本文算法對(duì)上述數(shù)據(jù)進(jìn)行聚類分析,試驗(yàn)結(jié)果如圖1所示.

圖1 各種算法的聚類準(zhǔn)確率Fig.1 Clustering accuracy of various algorithms

從圖1可以看出,本文算法在處理Soybean數(shù)據(jù)集、Credit數(shù)據(jù)集和Heart數(shù)據(jù)集時(shí),聚類準(zhǔn)確率都高于其他算法,只有在處理Iris數(shù)據(jù)時(shí),低于文獻(xiàn)[13]算法,但優(yōu)于其他算法.這說明本文算法在處理混合型數(shù)據(jù)和分類型數(shù)據(jù)時(shí)有效性更高,而處理數(shù)值型數(shù)據(jù)有待提高.

為了進(jìn)一步驗(yàn)證本文算法的聚類質(zhì)量,比較本文算法與k-prototypes算法的聚類精度,利用Credit數(shù)據(jù)集的聚類結(jié)果,根據(jù)數(shù)據(jù)集依次迭代不同次數(shù)所對(duì)應(yīng)的目標(biāo)函數(shù)值,生成的對(duì)比結(jié)果如圖2所示.

圖2 迭代次數(shù)與目標(biāo)函數(shù)曲線Fig.2 Curves of iteration number and objective function

從圖2可以看出,目標(biāo)函數(shù)值均隨著迭代次數(shù)的增高而降低,但是在相同條件下,本文算法的目標(biāo)函數(shù)值比k-prototypes算法低,說明本文算法的聚類精度比k-prototypes算法高.

3.3 算法復(fù)雜度分析

本文算法主要由初始聚類中心的選取和聚類迭代兩部分構(gòu)成,其中選取初始聚類中心要計(jì)算數(shù)據(jù)對(duì)象之間的距離和尋找聚類中心,該過程的計(jì)算代價(jià)分別為O(n2)和O(kn),確定聚類中心后,算法需要進(jìn)行迭代劃分,其計(jì)算代價(jià)為O(tkn),因此,總的時(shí)間復(fù)雜度變?yōu)镺(n2+kn+tkn),其中,t為迭代次數(shù),k?n.本文算法和其他算法的時(shí)間復(fù)雜度比較如表2所示.

表2 算法的時(shí)間復(fù)雜度統(tǒng)計(jì)Tab.2 Statistics results of time complexity for various algorithms

從表2中分析可以得出,本文算法的時(shí)間復(fù)雜度比k-prototypes、EKP、KL-FCM-GM及文獻(xiàn)[12]要高,主要消耗在選取初始聚類中心的環(huán)節(jié)上,但是確定了較優(yōu)的聚類中心點(diǎn)之后,會(huì)減少迭代次數(shù),并得到較滿意的聚類結(jié)果,從而在一定程度上可以彌補(bǔ)時(shí)間復(fù)雜度較高的不足.

4 結(jié) 論

本文提出的基于平均差異度的改進(jìn)k-prototypes聚類算法,是在傳統(tǒng)k-prototypes聚類算法基礎(chǔ)上進(jìn)行的擴(kuò)展.通過利用平均差異度確定初始聚類中心,考慮了數(shù)據(jù)的空間分布信息,使得聚類中心更符合實(shí)際情況,避免了對(duì)初始中心選擇所帶來的不確定性.改進(jìn)的分類屬性數(shù)據(jù)度量公式,不僅考慮了數(shù)據(jù)對(duì)象與類中心的距離,還有效利用了數(shù)據(jù)與類中已有對(duì)象之間的總體相異性,使得在迭代過程中,對(duì)聚類集中已有對(duì)象的信息進(jìn)行了統(tǒng)計(jì)參考,從而獲得更好的聚類結(jié)果.但該算法中聚類數(shù)目的選擇會(huì)影響聚類結(jié)果,因此,下一步將研究聚類數(shù)目的確定方法,尋找能夠自動(dòng)選取合理聚類數(shù)目的方法.

猜你喜歡
屬性數(shù)據(jù)度量聚類
有趣的度量
模糊度量空間的強(qiáng)嵌入
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
基于GIS的房產(chǎn)測(cè)繪管理信息系統(tǒng)架構(gòu)研究
科技資訊(2019年18期)2019-09-17 11:03:28
無源多傳感器綜合數(shù)據(jù)關(guān)聯(lián)算法研究
屬性數(shù)據(jù)分析教學(xué)改革初探
基于DBSACN聚類算法的XML文檔聚類
地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
吉林省| 浦城县| 宜都市| 麻栗坡县| 上思县| 兴隆县| 开封县| 施秉县| 无为县| 两当县| 青浦区| 城口县| 大荔县| 印江| 藁城市| 新沂市| 张家港市| 白山市| 宁武县| 肥乡县| 阳曲县| 塘沽区| 玛纳斯县| 平顺县| 南充市| 湘阴县| 宁明县| 汶上县| 保亭| 三亚市| 广河县| 洞头县| 东源县| 大石桥市| 贵阳市| 台湾省| 扎赉特旗| 华容县| 宜黄县| 如皋市| 怀仁县|