国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

云環(huán)境下K-means算法的并行化研究

2022-04-06 11:30胡珊
電子技術(shù)與軟件工程 2022年17期
關(guān)鍵詞:復(fù)雜度數(shù)據(jù)挖掘聚類

胡珊

(廣州工商學(xué)院 廣東省廣州市 510850)

K-means算法在工業(yè)和科學(xué)領(lǐng)域有著廣泛的應(yīng)用。在現(xiàn)代社會(huì)發(fā)展的背景下,一些新興領(lǐng)域的出現(xiàn)和發(fā)展都需要依靠計(jì)算機(jī)系統(tǒng)和算法來實(shí)現(xiàn)。數(shù)字化技術(shù)帶動(dòng)了大數(shù)據(jù)、云計(jì)算等技術(shù)手段的出現(xiàn)和發(fā)展。其中,云計(jì)算為以數(shù)據(jù)挖掘?yàn)橹饕康牡乃惴ǔ绦騼?yōu)化提供了技術(shù)支持。對(duì)云環(huán)境下的K-means算法并行化進(jìn)行分析,能夠?yàn)镵-means算法的優(yōu)化和創(chuàng)新提供一定的建議。

1 K-means算法

1.1 K-means算法的簡介

在信息技術(shù)和數(shù)字化技術(shù)得到不斷發(fā)展的背景下,社會(huì)生產(chǎn)過程中產(chǎn)生的大量數(shù)據(jù)給各個(gè)行業(yè)和領(lǐng)域的發(fā)展帶來了一定的難度,各項(xiàng)工作的開展都需要建立在數(shù)據(jù)挖掘的基礎(chǔ)上,才能夠應(yīng)對(duì)這些海量的信息。算法程序是現(xiàn)階段承擔(dān)數(shù)據(jù)挖掘功能和作用的主要工具,將算法程序應(yīng)用到計(jì)算機(jī)系統(tǒng)當(dāng)中,能夠有效滿足數(shù)據(jù)挖掘和整理飛機(jī)的需要,對(duì)發(fā)揮數(shù)據(jù)在現(xiàn)代社會(huì)發(fā)展下的價(jià)值具有重要的作用[1]。K-means算法是算法程序中一種最為經(jīng)典和常見的聚類算法,該算法在實(shí)際的應(yīng)用中,能夠?qū)⑺械臄?shù)據(jù)對(duì)象按照不同的特征劃分為不同的類別或簇,處在同一類別的數(shù)據(jù)能夠呈現(xiàn)出高度的相似性。在將這些數(shù)據(jù)進(jìn)行聚類分析之后,能夠依據(jù)數(shù)據(jù)在不同類別中的分布情況,找到所有數(shù)據(jù)對(duì)象的分布模式和不同數(shù)據(jù)屬性之間的相互關(guān)系。因而從本質(zhì)上來說,K-means算法是一種能夠?qū)?shù)據(jù)對(duì)象進(jìn)行劃分的方法。在現(xiàn)代社會(huì)科學(xué)技術(shù)水平不斷提高的背景下,K-means算法的執(zhí)行效率也在不斷提高,能夠滿足許多大規(guī)模的數(shù)據(jù)對(duì)象的聚類分析和處理要求。

1.2 K-means算法的并行原理

從K-means算法的角度出發(fā),基于數(shù)據(jù)分析和處理的相關(guān)要求,該算法程序在實(shí)際運(yùn)行中主要包括數(shù)據(jù)并行和控制并行兩種具體的并行策略和算法。數(shù)據(jù)并行與控制并行的算法都需要以實(shí)現(xiàn)數(shù)據(jù)挖掘和分析為主要目標(biāo),而在K-means算法的實(shí)際應(yīng)用中,發(fā)現(xiàn)數(shù)據(jù)并行相比于控制并行擁有更多的優(yōu)勢。數(shù)據(jù)變形主要是指在將數(shù)據(jù)對(duì)象劃分為多個(gè)數(shù)據(jù)子集之后,對(duì)每一個(gè)數(shù)據(jù)子集執(zhí)行相同的操作,而控制并行則需要直接讓數(shù)據(jù)對(duì)象執(zhí)行不同的操作和指令[2]。在這個(gè)過程中,數(shù)據(jù)病情的算法能夠符合串行算法的運(yùn)行要求,同時(shí)也能夠呈現(xiàn)出良好的可伸縮性,因而既能夠滿足串行算法的并行分析需求,也能夠被應(yīng)用到大規(guī)模數(shù)據(jù)集的處理當(dāng)中。

以數(shù)據(jù)并行的算法為主,K-means算法在實(shí)際運(yùn)行中,用k來代表數(shù)據(jù)對(duì)象被劃分的聚類個(gè)數(shù),在依據(jù)數(shù)據(jù)挖掘和分析處理的相關(guān)要求確定好需要?jiǎng)澐值膋值以后,基于k值隨機(jī)選擇初始對(duì)象數(shù)據(jù)點(diǎn),并將這些數(shù)據(jù)點(diǎn)作為初始的聚類中心。在對(duì)各個(gè)數(shù)據(jù)對(duì)象與聚類中心之間的距離進(jìn)行計(jì)算之后,依據(jù)距離的計(jì)算結(jié)果,將各個(gè)數(shù)據(jù)對(duì)象分配到與其距離最近的類中。然后需要重新對(duì)各個(gè)聚類的中心進(jìn)行計(jì)算,并將計(jì)算的結(jié)果與之前計(jì)算的結(jié)果進(jìn)行對(duì)比分析[3]。如果兩次計(jì)算的聚類中心距離沒有發(fā)生變化,就證明對(duì)這一部分的數(shù)據(jù)對(duì)象調(diào)整過程已經(jīng)結(jié)束。而如果兩次計(jì)算結(jié)果不同,則證明聚類準(zhǔn)則函數(shù)沒有收斂,需要將數(shù)據(jù)對(duì)象重新返回到分配類的環(huán)節(jié),并重復(fù)后續(xù)的步驟,直到對(duì)比結(jié)果沒有發(fā)生變化,證明整個(gè)算法過程成功。

在傳統(tǒng)的K-means算法原理基礎(chǔ)上,基于當(dāng)前大數(shù)據(jù)集對(duì)算法運(yùn)行的相關(guān)要求,充分發(fā)揮數(shù)據(jù)并行算法的應(yīng)用優(yōu)勢,可以有效解決遺忘K-means算法應(yīng)用中存在的一些問題。以數(shù)據(jù)并行來改進(jìn)K-means算法,主要可以通過分布式聚類算法的方式來實(shí)現(xiàn)。該算法在實(shí)際的運(yùn)行中,一般需要設(shè)置p個(gè)站點(diǎn),在從這些站點(diǎn)中選擇一個(gè)主站點(diǎn)之后,其余的站點(diǎn)均為從站點(diǎn)[4]。在主站點(diǎn)隨機(jī)產(chǎn)生K個(gè)聚類中心之后,各個(gè)從站點(diǎn)能夠依據(jù)自身接收到的信息,確認(rèn)從站點(diǎn)自身所在的數(shù)據(jù)對(duì)象總數(shù),在將其傳送到主站點(diǎn)之后,由主站點(diǎn)來進(jìn)行全局聚簇中心的計(jì)算。

由于該算法也是在K-means算法的基礎(chǔ)上進(jìn)行改進(jìn)和優(yōu)化的,因而無論是算法的實(shí)際運(yùn)行流程還是特點(diǎn),都與K-means算法有著較大的相似性。結(jié)合K-means算法的運(yùn)行流程來看,該算法在依據(jù)各個(gè)步驟運(yùn)行的過程中,能夠滿足動(dòng)態(tài)的聚類算法分析需要,因而該算法在實(shí)際運(yùn)行中還能夠體現(xiàn)出迭代過程的特點(diǎn)[5]。如果在整個(gè)迭代過程中的所有數(shù)據(jù)對(duì)象都能夠被重新分類,那么就不會(huì)再發(fā)生聚類中心的改變和調(diào)整。而在改進(jìn)的算法當(dāng)中,這一迭代過程穩(wěn)定的主要標(biāo)志是全局聚簇中心的穩(wěn)定。與傳統(tǒng)的K-means算法不同的是,改進(jìn)后的算法不需要在整個(gè)算法程序的運(yùn)行過程中傳送大量的數(shù)據(jù)對(duì)象,一般只需要對(duì)聚簇中心涉及到的數(shù)據(jù)對(duì)象總數(shù)進(jìn)行傳送,就能夠滿足對(duì)各類數(shù)據(jù)對(duì)象進(jìn)行傳送的要求[6]。在這個(gè)過程中,算法運(yùn)行不需要消耗較高的通信量,因而能夠有效提高算法程序的實(shí)際運(yùn)行效率。

2 云環(huán)境下K-means算法的并行化分析

數(shù)字化技術(shù)和信息技術(shù)的發(fā)展,使得大數(shù)據(jù)、云計(jì)算等先進(jìn)的技術(shù)被應(yīng)用到對(duì)各種數(shù)據(jù)的挖掘和分析處理當(dāng)中。其中,以云計(jì)算技術(shù)作為技術(shù)基礎(chǔ)的云環(huán)境的出現(xiàn)和應(yīng)用,能夠發(fā)揮處理和開發(fā)大量數(shù)據(jù)的功能作用,以更大的儲(chǔ)存空間來滿足大量數(shù)據(jù)信息的儲(chǔ)存和處理分析要求。而云環(huán)境相比于以往的數(shù)據(jù)處理系統(tǒng)光和平臺(tái),還能夠以更低的成本來提高數(shù)據(jù)處理和分析的效率,因而能夠呈現(xiàn)出更為顯著的性能優(yōu)勢[7]。K-means算法的并行化是當(dāng)前該算法程序發(fā)展的主要方向和趨勢。在云環(huán)境下對(duì)K-means算法的并行化進(jìn)行分析,主要可以從以下幾個(gè)方面來入手:

2.1 基于云環(huán)境的K-means算法設(shè)計(jì)

在云環(huán)境下,針對(duì)K-means算法并行化分析的過程中,首先要對(duì)算法進(jìn)行設(shè)計(jì),此為分析過程的關(guān)鍵。具體而言,云環(huán)境主要是基于云計(jì)算逐漸產(chǎn)生并發(fā)展起來的,云計(jì)算作為現(xiàn)代社會(huì)一種先進(jìn)的商業(yè)計(jì)算模型,是滿足云環(huán)境下數(shù)據(jù)分析和處理需求的主要依據(jù)。在云環(huán)境下對(duì)K-means算法進(jìn)行設(shè)計(jì),最主要的就是明確云計(jì)算的結(jié)構(gòu)組成和運(yùn)行程序。當(dāng)前云環(huán)境中應(yīng)用的云計(jì)算平臺(tái)以Hadoop平臺(tái)最為常見,Hadoop平臺(tái)由Map Reduce計(jì)算模型以及HDFS兩部分組成。其中,Map Reduce計(jì)算模型是該平臺(tái)能夠在運(yùn)行中體現(xiàn)出分布式特點(diǎn)的主要依據(jù),作為一種典型的分布式編程模型,該計(jì)算模型在實(shí)際的應(yīng)用中具有更高的效率,能夠滿足對(duì)海量數(shù)據(jù)信息進(jìn)行處理和分析的要求。在云計(jì)算平臺(tái)的主要運(yùn)行框架下,該計(jì)算模型主要能夠借助Map函數(shù)和Reduce函數(shù)來確定對(duì)運(yùn)行參數(shù)的輸出位置以及輸入位置。同時(shí),在云計(jì)算平臺(tái)的框架中,該計(jì)算模型還可以讓用戶自行設(shè)置函數(shù),以便能夠?qū)γ恳唤M數(shù)據(jù)進(jìn)行處理。而HDFS則主要是一種借助M/S結(jié)構(gòu)運(yùn)行的框架。在實(shí)際對(duì)數(shù)據(jù)信息進(jìn)行分析的過程中,由于每一個(gè)數(shù)據(jù)集群都是由數(shù)據(jù)節(jié)點(diǎn)和管理節(jié)點(diǎn)組成的,而每一個(gè)具體的節(jié)點(diǎn)又分別屬于獨(dú)立的PC端,因而在實(shí)際的應(yīng)用過程中,HDFS本身與文件系統(tǒng)之間能夠呈現(xiàn)出較為明顯的相似性特征,不僅能夠用于創(chuàng)建文件目錄,還能夠?qū)崿F(xiàn)對(duì)格列文件的復(fù)制、查看等基本的操作。而在其實(shí)際的運(yùn)用過程中,也可以發(fā)現(xiàn)HDFS實(shí)現(xiàn)的所有功能都是圍繞著數(shù)據(jù)節(jié)點(diǎn)的管理展開的。依據(jù)數(shù)據(jù)節(jié)點(diǎn)的管理要求。HDFS不僅能夠?qū)δ骋唤M加工的數(shù)據(jù)結(jié)構(gòu)進(jìn)行維護(hù),還能夠以類似于文件系統(tǒng)的功能來實(shí)現(xiàn)對(duì)每一個(gè)數(shù)據(jù)文件在處理過程中的信息的及時(shí)記錄。對(duì)此,相關(guān)人員在利用這一算法時(shí),需要針對(duì)上述問題加以重視。

在明確云計(jì)算平臺(tái)的主要構(gòu)成和基本功能之后,就可以將云計(jì)算平臺(tái)與K-means算法融合起來。結(jié)合K-means算法的主要運(yùn)行流程,對(duì)K-means聚類算法的設(shè)計(jì),需要能夠重點(diǎn)從算法程序中數(shù)據(jù)信息發(fā)送到較近距離的聚簇這一環(huán)節(jié)入手,將K-means算法在實(shí)際應(yīng)用中的迭代過程與云計(jì)算平臺(tái)中的Map以及Reduce結(jié)合起來。以此為原理,發(fā)現(xiàn)在云環(huán)境下的K-means算法設(shè)計(jì),主要由以下幾個(gè)方面組成:

(1)對(duì)于K-means算法的設(shè)計(jì)需要重視Map函數(shù)在算法運(yùn)行程序中的應(yīng)用?;贛ap函數(shù)在云計(jì)算平臺(tái)中的重要作用,對(duì)Map函數(shù)的設(shè)計(jì),需要能夠從函數(shù)輸入鍵值的角度入手,將函數(shù)輸入數(shù)據(jù)文件的起始點(diǎn)偏移量與字符串聯(lián)系起來。具體來說,首先需要在字符串中隊(duì)輸入的坐標(biāo)值數(shù)進(jìn)行解析。在得到相應(yīng)的解析結(jié)果之后,計(jì)算得出字符串與中心點(diǎn)之間的距離,并找出中心點(diǎn)聚簇的下標(biāo),在將鍵值輸出之后,就能夠得到相應(yīng)的函數(shù)計(jì)算結(jié)果。而針對(duì)以往K-means算法在運(yùn)行中消耗的通信量問題,可以將Map函數(shù)與Combine操作結(jié)合起來,將得到的函數(shù)結(jié)果和操作結(jié)果結(jié)合起來,盡可能地減少在實(shí)際算法運(yùn)行過程中消耗的通信量。

(2)對(duì)于Combine函數(shù)的設(shè)計(jì),需要在得到Map函數(shù)結(jié)果的基礎(chǔ)上,在字符串聯(lián)表中對(duì)坐標(biāo)指數(shù)進(jìn)行解析,依據(jù)解析的結(jié)果來將坐標(biāo)值數(shù)相加,并依據(jù)字符串聯(lián)表來記錄依據(jù)解析結(jié)果產(chǎn)生的樣本總數(shù)。在函數(shù)計(jì)算和程序運(yùn)行之后,還會(huì)產(chǎn)生相應(yīng)的鍵值。這些鍵值一般就是距離聚簇最近的下標(biāo)。而字符串聯(lián)表中則能夠呈現(xiàn)出整個(gè)函數(shù)計(jì)算過程中產(chǎn)生的坐標(biāo)值數(shù)。

(3)對(duì)于Reduce函數(shù)的設(shè)計(jì),需要利用Reduce函數(shù)來將Combine函數(shù)中由于數(shù)據(jù)傳輸而產(chǎn)生的中間結(jié)果進(jìn)行解析,并將解析的結(jié)果與對(duì)應(yīng)的Reduce函數(shù)值進(jìn)行累加,將得到的累加數(shù)值除去總的樣本數(shù)量,所得到的結(jié)果就是算法程序運(yùn)行過程中產(chǎn)生的新中心點(diǎn)坐標(biāo)。在這個(gè)過程中,Reduce函數(shù)的運(yùn)行不僅能夠滿足新的中心點(diǎn)坐標(biāo)點(diǎn)定位,同時(shí)也能夠?yàn)镠DFS中的文件更新提供技術(shù)支持,讓K-means算法能夠在云環(huán)境下滿足迭代過程的運(yùn)行需要,直到完成所有的數(shù)據(jù)信息分類。

2.2 算法的復(fù)雜度分析

結(jié)合K-means算法的應(yīng)用情況來看,該算法所依據(jù)的聚類分析原理,主要是一種能夠?qū)⒄麄€(gè)數(shù)據(jù)集按照不同的標(biāo)準(zhǔn)劃分為多個(gè)子集的過程。而依據(jù)這種聚類算法,可以讓處于同一類子集中的數(shù)據(jù)呈現(xiàn)出高度的相似性,讓處于不同類子集中的數(shù)據(jù)呈現(xiàn)出不相似的特點(diǎn)。能夠?qū)σ粋€(gè)總的數(shù)據(jù)集進(jìn)行聚類劃分并判斷是否相似,主要是由數(shù)據(jù)對(duì)象本身具有的描述屬性取值來決定的。K-means算法所依據(jù)的數(shù)據(jù)對(duì)象描述屬性取值,主要是各個(gè)聚類間的距離大小來決定的。

基于聚類分析的原理,從算法復(fù)雜度的角度來看,K-means算法的復(fù)雜度主要能夠體現(xiàn)在時(shí)間復(fù)雜度和通信復(fù)雜度兩個(gè)方面。對(duì)于聚類算法的復(fù)雜度進(jìn)行計(jì)算,通常需要以每一個(gè)聚類分析后得到的數(shù)據(jù)點(diǎn)與相應(yīng)中心矢量之間的距離作為依據(jù)。在K-means算法的運(yùn)行過程中,從一個(gè)站點(diǎn)向另一個(gè)站點(diǎn)傳輸數(shù)據(jù),一般需要事先對(duì)算法程度重復(fù)步驟過程中體現(xiàn)的復(fù)雜度進(jìn)行分析。從時(shí)間復(fù)雜度的角度來看,在將時(shí)間復(fù)雜度設(shè)置為一個(gè)數(shù)據(jù)項(xiàng)的實(shí)際通行時(shí)間之后,在并行執(zhí)行的情況下,通過模擬一次數(shù)據(jù)傳送的過程,確定整個(gè)算法流程中每一步的復(fù)雜度。用公式可以表示為:

Ttime=Tstart+KTdata

在該式中,Ttime代表時(shí)間復(fù)雜度,Tstart代表建立數(shù)據(jù)連接所需要的時(shí)間,K為算法確定的聚簇個(gè)數(shù),Tdata代表數(shù)據(jù)項(xiàng)。

對(duì)于K-means算法的通信復(fù)雜度的計(jì)算,與時(shí)間復(fù)雜度的計(jì)算基本相同,在列舉K-means算法的時(shí)間復(fù)雜度和通信復(fù)雜度的計(jì)算流程之后,將兩種復(fù)雜度的計(jì)算方法整合起來,就可以得到一個(gè)關(guān)于K-means算法的復(fù)雜度表達(dá)式:

Ttime=TKTdata,Tcomm=TKTdist

其中,Tcomm代表通信復(fù)雜度,Tdist代表單一數(shù)據(jù)點(diǎn)距離的時(shí)間,兩式中的T均為K-means算法的循環(huán)次數(shù)。

2.3 實(shí)驗(yàn)分析

K-means算法作為一種經(jīng)典的算法程序,能夠有效滿足數(shù)據(jù)挖掘和聚類分析的需要。基于K-means算法在實(shí)際應(yīng)用中存在的缺陷和不足,提出了針對(duì)K-means算法程序運(yùn)行的改進(jìn)方法。在對(duì)改進(jìn)方法的實(shí)驗(yàn)進(jìn)行分析的過程中,考慮到K-means算法本身在操作運(yùn)行中需要以隨機(jī)初始化中心點(diǎn)為前提條件,因而在實(shí)驗(yàn)中的數(shù)據(jù)計(jì)算時(shí),一般需要設(shè)置10次以上的重復(fù)執(zhí)行次數(shù),在讓每一組數(shù)據(jù)的實(shí)驗(yàn)結(jié)果取平均值的前提下,保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。

在實(shí)驗(yàn)的過程中,一方面需要基于K-means聚類算法的實(shí)際應(yīng)用流程和要求,以提升算法本身的加速比性能為主要目標(biāo),在實(shí)驗(yàn)中將數(shù)據(jù)集規(guī)模作為主要的變量,并在得到結(jié)果后將結(jié)果與傳統(tǒng)K-means算法下的函數(shù)計(jì)算結(jié)果進(jìn)行對(duì)比分析。在具體的實(shí)驗(yàn)過程中,以二維數(shù)據(jù)作為實(shí)驗(yàn)的主要數(shù)據(jù)來源。

在將這些數(shù)據(jù)都上傳到K-means算法之后,讓k取不同的值帶入到云計(jì)算平臺(tái)中的DataNode中,依據(jù)數(shù)據(jù)分配情況來創(chuàng)建全局文件,并選取號(hào)全局文件的中心點(diǎn)。在算法程序的整個(gè)運(yùn)行過程中,算法程序中的每個(gè)節(jié)點(diǎn)都可以通過讀取全局文件的方式來獲得迭代過程產(chǎn)生的信息,并計(jì)算從節(jié)點(diǎn)的數(shù)據(jù)點(diǎn)到迭代過程信息之間的距離,進(jìn)而得到迭代后的數(shù)據(jù)。

2.4 K-means算法的優(yōu)缺點(diǎn)

結(jié)合K-means算法的實(shí)際應(yīng)用情況來看,在聚類算法的分析原理基礎(chǔ)上,算法程序在實(shí)際運(yùn)行中能夠盡可能的嘗試找出更符合總數(shù)據(jù)集的詳細(xì)劃分k的方法。當(dāng)被劃分的各個(gè)聚簇之間能夠呈現(xiàn)出明顯的不相似特征情況下,就能夠呈現(xiàn)出更為明顯的聚類分析效果。而在對(duì)K-means算法以及改進(jìn)算法的應(yīng)用情況進(jìn)行分析之后可以發(fā)現(xiàn),K-means聚類算法在實(shí)際的應(yīng)用中,能夠以更為簡便的程序和算法方式,滿足大的數(shù)據(jù)集聚類分析和處理的需要。而由于K-means算法中的數(shù)據(jù)控制算法能夠體現(xiàn)出明顯的可伸縮性特點(diǎn),且該算法在時(shí)間復(fù)雜度的表現(xiàn)上能夠呈現(xiàn)出明顯的線性特征,因而相對(duì)來說更適合對(duì)大規(guī)模的數(shù)據(jù)集進(jìn)行聚類分析和處理。

但從實(shí)際應(yīng)用K-means算法的經(jīng)驗(yàn)來看,該算法在應(yīng)用中也存在著一定的問題,仍需要對(duì)該算法進(jìn)行不斷的優(yōu)化和改進(jìn),才能夠更好的為當(dāng)前社會(huì)發(fā)展過程中的各類大規(guī)模數(shù)據(jù)集進(jìn)行分析處理。具體來說,K-means算法在應(yīng)用中,主要存在著以下幾個(gè)方面的問題:

(1)K-means算法程序的運(yùn)行需要以確定的聚類k值作為依據(jù),但聚類k值通常需要由用戶在應(yīng)用算法之間來指定。而用戶應(yīng)用K-means算法的目的就是對(duì)數(shù)據(jù)集進(jìn)行聚類分析,在用戶本身并不了解需要將整體的數(shù)據(jù)集劃分為多少k值得情況下,就會(huì)因?yàn)閗值得難以估計(jì)而影響到算法程序的整體運(yùn)行情況。

(2)在K-means算法運(yùn)行的過程中,對(duì)于初始聚類中心的選取本身具有較大的隨機(jī)性,而由于初始聚類中心的確定對(duì)整個(gè)算法程序的正常運(yùn)行也具有決定性的作用,在初始聚類中心的位置確定不明確的情況下,整個(gè)算法在運(yùn)行中很容易陷入到局部最小解的困境當(dāng)中,進(jìn)而影響到算法分析結(jié)果的準(zhǔn)確性和科學(xué)性。同時(shí),由于K-means算法程序在實(shí)際運(yùn)行中需要依據(jù)誤差平方和準(zhǔn)則函數(shù)來進(jìn)行數(shù)據(jù)集的聚類分析,受到這類非凸函數(shù)多個(gè)局部極小值的影響,也會(huì)給在算法中尋找全局最優(yōu)解造成一定的難度。

(3)K-means算法在實(shí)際的運(yùn)行過程中,很容易在聚簇質(zhì)心計(jì)算過程中,將其以聚類中心的形式進(jìn)行計(jì)算,使得聚類中心在運(yùn)行和計(jì)算的過程中逐漸原理數(shù)據(jù)密集區(qū)。在這個(gè)過程中,隨著聚類中心和數(shù)據(jù)密集區(qū)之間距離的不斷增加,在產(chǎn)生噪聲和受到孤立點(diǎn)數(shù)據(jù)的影響下,最終的聚類分析結(jié)果很容易與實(shí)際不符。在現(xiàn)階段對(duì)K-means算法的改進(jìn)和優(yōu)化過程中,通??梢詰?yīng)用參考點(diǎn)和密度的調(diào)整來滿足參考點(diǎn)數(shù)據(jù)的分析和處理需要。

(4)K-means算法在實(shí)際的應(yīng)用過程中,還會(huì)因?yàn)槭艿綍r(shí)間復(fù)雜度的影響而產(chǎn)生較大的算法開銷。具體來說,由于K-means算法本身處于不斷的調(diào)整和優(yōu)化當(dāng)中,每當(dāng)算法優(yōu)化之后,初始中心就需要通過計(jì)算來重新調(diào)整。在這個(gè)過程中,如果算法程序涉及到的數(shù)據(jù)量較大,很容易提高算法程序在實(shí)際運(yùn)行中消耗的成本。對(duì)于這種問題,在對(duì)K-means算法進(jìn)行優(yōu)化的過程中,通常需要從算法本身所具有的時(shí)間復(fù)雜度入手,對(duì)算法的時(shí)間復(fù)雜度加以改進(jìn)的方式,不斷提高算法本身的應(yīng)用范圍和算法本身的收斂速度,讓K-means算法能夠被應(yīng)用到更多的行業(yè)和領(lǐng)域發(fā)展當(dāng)中。

(5)結(jié)合K-means算法的應(yīng)用原理來看,盡管K-means算法在實(shí)際應(yīng)用中能夠?qū)⒖偟臄?shù)據(jù)集劃分為多個(gè)不相似的聚簇,但該算法中應(yīng)用的聚類算法通常需要以歐式距離和誤差平方作為算法運(yùn)行和判斷的依據(jù),只能夠在對(duì)數(shù)據(jù)進(jìn)行聚類分析的過程中發(fā)現(xiàn)一些數(shù)據(jù)分布較為均勻的球狀聚簇,難以發(fā)現(xiàn)數(shù)據(jù)集中的形狀不規(guī)則的、任意的聚簇,這樣就會(huì)很容易影響到算法聚類分析的最終結(jié)果。因而在對(duì)K-means算法進(jìn)行優(yōu)化和改進(jìn)的過程中,也需要能夠針對(duì)非球狀聚簇的特點(diǎn)和分布情況,對(duì)這些非球狀聚簇的伸長方向進(jìn)行聚類分析,從而更好的滿足對(duì)數(shù)據(jù)集進(jìn)行聚類分析的需要。

2.5 K-means算法的未來發(fā)展趨勢

在現(xiàn)代社會(huì)的發(fā)展過程中,云環(huán)境作為一種更為先進(jìn)的數(shù)據(jù)挖掘和處理平臺(tái),在各個(gè)行業(yè)和領(lǐng)域的發(fā)展中得到了越來越廣泛的應(yīng)用。將云環(huán)境與算法程序的運(yùn)行結(jié)合起來,能夠充分發(fā)揮二者在數(shù)據(jù)挖掘和分析處理過程中的優(yōu)勢,滿足各個(gè)行業(yè)和領(lǐng)域生產(chǎn)發(fā)展的需要。結(jié)合以上的分析可以發(fā)現(xiàn),當(dāng)前應(yīng)用的K-means算法仍存在一定的缺陷和不足,在云環(huán)境越來越得到人們重視的背景下,K-means算法也需要能夠借助云環(huán)境中的云計(jì)算平臺(tái)應(yīng)用優(yōu)勢,在改進(jìn)算法程序自身運(yùn)行過程中存在的缺陷基礎(chǔ)上,推動(dòng)K-means聚類算法以并行化的方式,逐漸朝著算法網(wǎng)絡(luò)化和現(xiàn)代化的方向發(fā)展,以此來更好的滿足各種大規(guī)模數(shù)據(jù)集的分析要求,讓各種數(shù)據(jù)信息能夠在各個(gè)行業(yè)和領(lǐng)域的發(fā)展中積極發(fā)揮自身的作用和價(jià)值?;谶@方面的要求,K-means算法在未來的發(fā)展中,需要能夠?qū)⒏倪M(jìn)和優(yōu)化的重點(diǎn)放到探討聚類算法稟性化的規(guī)律上,以便能夠不斷提升K-means算法的應(yīng)用效果。

3 結(jié)論

綜上所述,在云環(huán)境下,K-means算法雖然仍然是最為常見的一種算法程序,但在應(yīng)用中也存在著一定的不足??紤]到現(xiàn)代社會(huì)各個(gè)行業(yè)和領(lǐng)域的現(xiàn)代化、數(shù)字化發(fā)展需求,K-means算法的優(yōu)化和創(chuàng)新也需要能夠符合時(shí)代的發(fā)展趨勢。作為一種經(jīng)典的聚類算法,K-means算法能夠有效滿足數(shù)據(jù)挖掘的基本需求。在未來的發(fā)展中,K-means算法也需要朝著更加網(wǎng)絡(luò)化和服務(wù)化的方向發(fā)展。

猜你喜歡
復(fù)雜度數(shù)據(jù)挖掘聚類
一種低復(fù)雜度的慣性/GNSS矢量深組合方法
基于DBSACN聚類算法的XML文檔聚類
求圖上廣探樹的時(shí)間復(fù)雜度
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于高斯混合聚類的陣列干涉SAR三維成像
某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
出口技術(shù)復(fù)雜度研究回顧與評(píng)述
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例