国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于k均值聚類算法的實(shí)例分析

2018-09-27 09:31黃玉珠
大經(jīng)貿(mào) 2018年8期
關(guān)鍵詞:數(shù)據(jù)分析分類

黃玉珠

【摘 要】 k均值聚類算法是一種常見的對(duì)數(shù)據(jù)進(jìn)行分類的算法。本文通過k均值聚類算法對(duì)UCI數(shù)據(jù)庫中的Glass Identification數(shù)據(jù)集進(jìn)行分析,最后將分類結(jié)果與真實(shí)結(jié)果比較,觀察分類是否準(zhǔn)確,從而實(shí)現(xiàn)k均值聚類算法的數(shù)據(jù)分析。

【關(guān)鍵詞】 k均值聚類算法 數(shù)據(jù)分析 分類

1 引言

聚類分析是數(shù)據(jù)挖掘的一個(gè)發(fā)現(xiàn)信息的方法,已經(jīng)被人們深入的研究了很長時(shí)間,主要的是對(duì)基于距離的聚類分析的研究。聚類是一種無監(jiān)督的學(xué)習(xí),而分類正好與它相反,分類是一種有監(jiān)督的學(xué)習(xí),聚類主要是劃分無標(biāo)記的對(duì)象,使這些無標(biāo)記的對(duì)象變的有意義,對(duì)預(yù)先定義的類與帶類標(biāo)記的訓(xùn)練實(shí)例不具有依賴性。所以聚類分析在我們的日常生活中的應(yīng)用范圍非常廣泛:

(1)在商業(yè)上,聚類可以根據(jù)消費(fèi)者數(shù)據(jù)庫里面所記錄的數(shù)據(jù)信息,對(duì)消費(fèi)者進(jìn)行劃分,根據(jù)各個(gè)消費(fèi)者的特征,以幫助市場營銷員按照市場需求及時(shí)調(diào)整貨物的擺放次序等一系列營銷計(jì)劃的實(shí)施;

(2)在社會(huì)學(xué)中,聚類用來發(fā)現(xiàn)目前社會(huì)結(jié)構(gòu)組成中潛在的社會(huì)結(jié)構(gòu);

(3)在網(wǎng)絡(luò)挖掘中對(duì)互聯(lián)網(wǎng)上批量的數(shù)據(jù)信息進(jìn)行有效的劃分與分類,實(shí)現(xiàn)信息的有效利用,對(duì)數(shù)據(jù)信息檢索效率方面有顯著提高;

(4)在生物信息學(xué)中,在大量的基因群中發(fā)現(xiàn)功能相似的基因組,對(duì)基因因功能不同進(jìn)行劃分對(duì)其固有的結(jié)構(gòu)特征進(jìn)行分析,來更好的為我們的醫(yī)學(xué)發(fā)展提供有利條件;

(5)在空間數(shù)據(jù)庫領(lǐng)域,聚類分析能對(duì)相似地理特征區(qū)域及它們的人和環(huán)境的不同特征進(jìn)行識(shí)別,來研究地域文化提供條件。

本文主要基于k均值聚類算法對(duì)數(shù)據(jù)進(jìn)行實(shí)例分析,通過比較分類結(jié)果的準(zhǔn)確率,研究k均值聚類算法的分類效果。

2 基于K均值聚類算法的數(shù)據(jù)分析

2.1 K均值聚類算法。聚類是一種無監(jiān)督的學(xué)習(xí)方法。所謂無監(jiān)督學(xué)習(xí)是指事先并不知道要尋找的內(nèi)容,即沒有目標(biāo)變量。聚類將數(shù)據(jù)點(diǎn)歸到多個(gè)簇中,其中相似數(shù)據(jù)點(diǎn)處于同一簇,而不相似數(shù)據(jù)點(diǎn)處于不同簇中。聚類中可以使用多種不同的方法來計(jì)算相似度。本文使用了聚類算法中的k均值聚類,由于該算法的簡潔和效率,使得它成為所有聚類算法中最廣泛使用的。該算法首先先隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心;然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心,聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類,一旦全部對(duì)象都被分配了,每個(gè)聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。這個(gè)過程將不斷重復(fù)直到滿足某個(gè)終止條件。終止條件可以是以下任何一個(gè):

1)沒有(或最小數(shù)目)對(duì)象被重新分配給不同的聚類。

2)沒有(或最小數(shù)目)聚類中心再發(fā)生變化。

3)誤差平方和局部最小。

2.2 實(shí)例分析。本文使用了K均值聚類算法對(duì)玻璃數(shù)據(jù)進(jìn)行分析,這是一種分類簡單快速的算法,但是也有很大的限制性,比如對(duì)極端值的變化非常敏感?,F(xiàn)在我們假設(shè)只知道關(guān)于玻璃數(shù)據(jù)中9個(gè)特征指標(biāo)的值,通過使用K均值聚類算法來將數(shù)據(jù)進(jìn)行分類,最后通過與真實(shí)分類結(jié)果比較,看分類結(jié)果是否準(zhǔn)確。

2.2.1數(shù)據(jù)集介紹。通過選取UCI數(shù)據(jù)庫中的Glass Identification數(shù)據(jù)集進(jìn)行分析,該數(shù)據(jù)集對(duì)玻璃種類分類的研究有利于犯罪學(xué)的調(diào)查研究。該數(shù)據(jù)集包括了用于進(jìn)行玻璃分類的9種特征,分別為折射率(RI)、以及玻璃中的鈉(Na)、鎂(Mg)、鋁(AI)、硅(Si)、鉀(K)、鈣(Ca)、鋇(Ba)、鐵(Fe)含量,所有數(shù)據(jù)都為連續(xù)型變量。

整個(gè)數(shù)據(jù)集共214個(gè)樣本,將玻璃分為7類,分別是經(jīng)過浮動(dòng)處理的建筑物窗戶、未經(jīng)過浮動(dòng)處理的建筑物窗戶、經(jīng)過浮動(dòng)處理的車輛窗戶、為經(jīng)過浮動(dòng)處理的車輛窗戶(該數(shù)據(jù)集中未出現(xiàn))、容器、餐具、吊燈。

2.2.2數(shù)據(jù)預(yù)處理。為了便于與真實(shí)分類結(jié)果的比較,這里將數(shù)據(jù)集處理為兩種狀態(tài):一種是只包括關(guān)于玻璃的9個(gè)特征指標(biāo)的值,即去掉其中的玻璃分類標(biāo)簽;另一種是只包含玻璃分類的真實(shí)標(biāo)簽。

2.2.3數(shù)據(jù)分析。通過使用python3.7軟件實(shí)現(xiàn)K均值聚類分析算法,對(duì)玻璃數(shù)據(jù)進(jìn)行分析得出結(jié)果,如圖1。從圖1可以看出,每個(gè)顏色代表一種分類,每一類分類明顯,雖然存在個(gè)別異常值,但是大致將玻璃分為6類,似乎分類結(jié)果還不錯(cuò)。但是將該結(jié)果與真實(shí)結(jié)果比較后發(fā)現(xiàn),準(zhǔn)確率卻只有24.77%,分類效果很不理想。進(jìn)一步觀察分類結(jié)果圖,可以發(fā)現(xiàn)有很多點(diǎn)都偏離各簇,這說明了K均值聚類可能因其非常容易受異常值的影響,導(dǎo)致分類不準(zhǔn)確。

3 結(jié)論

經(jīng)過對(duì)K均值算法進(jìn)行實(shí)例分析,發(fā)現(xiàn)該算法雖然原理簡單,容易實(shí)現(xiàn),但是有許多需要改進(jìn)的地方,其中一點(diǎn)是對(duì)噪聲和離群值非常敏感,還有一點(diǎn)就是收斂太慢,只是收斂到了局部最小值,而并非全局最小值(局部最小值指結(jié)果還可以但并非最好結(jié)果,全局最小值是可能的最好結(jié)果)。

為克服K-均值算法收斂于局部最小值的問題,所以可以引入二分K-均值對(duì)算法進(jìn)行優(yōu)化,該算法首先將所有點(diǎn)作為一個(gè)簇,然后將該簇一分為二,之后選擇其中一個(gè)簇繼續(xù)進(jìn)行劃分,選擇哪一個(gè)簇進(jìn)行劃分取決于對(duì)"其劃分是否可以最大程度降低SSE(Sum of Squared Error,誤差平方和)的值,上述基于SSE的劃分過程不斷重復(fù),直到得到用戶指定的簇?cái)?shù)目為止。

上述的K-均值算法以及二分K-均值算法并非僅有的聚類算法, 另外稱為層次聚類的方法也被廣泛使用。

【參考文獻(xiàn)】

[1] 易燕飛.基于K-means聚類的數(shù)據(jù)分析.現(xiàn)代制造技術(shù)與裝備.2017,4:8-13.

猜你喜歡
數(shù)據(jù)分析分類
分類算一算
垃圾分類的困惑你有嗎
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營銷模式的影響
保靖县| 白朗县| 阜新| 铜川市| 白玉县| 桦川县| 凤凰县| 天津市| 方正县| 岳普湖县| 贵阳市| 南投县| 磴口县| 广昌县| 广州市| 涟水县| 辽源市| 清水河县| 张北县| 鄯善县| 晋州市| 泽普县| 毕节市| 奉化市| 苏尼特右旗| 郯城县| 读书| 双峰县| 嵊州市| 万山特区| 郎溪县| 岳池县| 榆林市| 哈尔滨市| 济南市| 丰城市| 普宁市| 周口市| 宁武县| 读书| 绵竹市|