国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向大數(shù)據(jù)處理的劃分聚類新方法

2017-12-27 03:58:18陳硒
數(shù)碼世界 2017年1期
關(guān)鍵詞:數(shù)據(jù)處理分組聚類

陳硒

中南大學(xué)湘雅二醫(yī)院信息網(wǎng)絡(luò)中心

面向大數(shù)據(jù)處理的劃分聚類新方法

陳硒

中南大學(xué)湘雅二醫(yī)院信息網(wǎng)絡(luò)中心

在大數(shù)據(jù)處理中,在物聯(lián)網(wǎng)的研究和應(yīng)用上還存在許多的難題,而且常用的聚類方法在大數(shù)據(jù)處理上還有許多不適應(yīng)的地方。因此,需要我們提出一些新的劃分聚類的方法。我們可以利用大數(shù)據(jù)的抽樣技術(shù),對多次進(jìn)行抽取的大規(guī)模樣本進(jìn)行聚類,然后來確定其自然簇質(zhì)心的初始位置。本文重點和大家分析和研究一下關(guān)于面向大數(shù)據(jù)的劃分聚類新方法的有關(guān)問題。

大數(shù)據(jù) 劃分聚類 抽樣 質(zhì)心

聚類分析是指將物理或抽象對象的集合分組為由類似對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計算機科學(xué),統(tǒng)計學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。

1 大數(shù)據(jù)概述

1.1 大數(shù)據(jù)的定義

大數(shù)據(jù)(big data),是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

1.2 大數(shù)據(jù)的發(fā)展趨勢

大數(shù)據(jù)離不開云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺之一。自2013年開始,大數(shù)據(jù)技術(shù)已開始和云計算技術(shù)緊密結(jié)合,預(yù)計未來兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營銷發(fā)揮出更大的影響力。此外,在不久的將來數(shù)據(jù)科學(xué)將成為一門專門的學(xué)科,被越來越多的人所認(rèn)知。各大高校將設(shè)立專門的數(shù)據(jù)科學(xué)類專業(yè),也會催生一批與之相關(guān)的新的就業(yè)崗位。與此同時,基于數(shù)據(jù)這個基礎(chǔ)平臺,也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺,之后,數(shù)據(jù)共享將擴展到企業(yè)層面,并且成為未來產(chǎn)業(yè)的核心一環(huán)。

2 劃分聚類方法

劃分聚類是指給定一個有N個元組或者紀(jì)錄的數(shù)據(jù)集,用分裂法構(gòu)造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:每一個分組至少包含一個數(shù)據(jù)紀(jì)錄;每一個數(shù)據(jù)紀(jì)錄屬于且僅屬于一個分組。

對于給定的K,算法首先給出一個初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越好。

大部分劃分方法是基于距離的。給定要構(gòu)建的分區(qū)數(shù)k,劃分方法首先創(chuàng)建一個初始化劃分。然后,它采用一種迭代的重定位技術(shù),通過把對象從一個組移動到另一個組來進(jìn)行劃分。一個好的劃分的一般準(zhǔn)備是:同一個簇中的對象盡可能相互接近或相關(guān),而不同的簇中的對象盡可能遠(yuǎn)離或不同。還有許多評判劃分質(zhì)量的其他準(zhǔn)則。傳統(tǒng)的劃分方法可以擴展到子空間聚類,而不是搜索整個數(shù)據(jù)空間。當(dāng)存在很多屬性并且數(shù)據(jù)稀疏時,這是有用的。為了達(dá)到全局最優(yōu),基于劃分的聚類可能需要窮舉所有可能的劃分,計算量極大。實際上,大多數(shù)應(yīng)用都采用了流行的啟發(fā)式方法,如k-均值和k-中心算法,漸近的提高聚類質(zhì)量,逼近局部最優(yōu)解。這些啟發(fā)式聚類方法很適合發(fā)現(xiàn)中小規(guī)模的數(shù)據(jù)庫中小規(guī)模的數(shù)據(jù)庫中的球狀簇。為了發(fā)現(xiàn)具有復(fù)雜形狀的簇和對超大型數(shù)據(jù)集進(jìn)行聚類,需要進(jìn)一步擴展基于劃分的方法。

使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。

3 在大數(shù)據(jù)環(huán)境下聚類分析的應(yīng)用

3.1 在商業(yè)方面的應(yīng)用

聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。聚類分析是細(xì)分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預(yù)處理。

3.2 在生物工程方面的應(yīng)用

聚類分析被用來動植物分類和對基因進(jìn)行分類,獲取對種群固有結(jié)構(gòu)的認(rèn)識,增強人們對生物的形成、演變和進(jìn)化了解和認(rèn)知。

3.3 在地理方面的應(yīng)用

聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性,合一利用其進(jìn)行天氣氣候的分析,以及地質(zhì)構(gòu)造和地殼運動的推演和預(yù)測。

3.4 在商業(yè)方面的應(yīng)用

聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型,價值,地理位置來鑒定一個城市的房產(chǎn)分組。在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也有很重要的應(yīng)用,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。

4 結(jié)束語

大數(shù)據(jù)的世界不只是一個單一的、巨大的計算機網(wǎng)絡(luò),而是一個由大量活動構(gòu)件與多元參與者元素所構(gòu)成的生態(tài)系統(tǒng)。而今,面向大數(shù)據(jù)的劃分種類的方法和系統(tǒng)的也已經(jīng)確立,接下來的發(fā)展將趨向于系統(tǒng)內(nèi)部角色的細(xì)分,也就是市場的細(xì)分;系統(tǒng)機制的調(diào)整,也就是商業(yè)模式的創(chuàng)新;系統(tǒng)結(jié)構(gòu)的調(diào)整,也就是競爭環(huán)境的調(diào)整等等,從而使得數(shù)據(jù)生態(tài)系統(tǒng)復(fù)合化程度逐漸增強。

[1]陳寧,陳安.基于密度的增量式網(wǎng)格聚類算法[J].軟件學(xué)報,2002,13(1):1-7

[2]劉銘,王曉龍,劉遠(yuǎn)超.一種大規(guī)模高維數(shù)據(jù)快速聚類算法[J].自動化學(xué)報,2009,35(7):859-866

猜你喜歡
數(shù)據(jù)處理分組聚類
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
分組搭配
怎么分組
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
分組
基于改進(jìn)的遺傳算法的模糊聚類算法
基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
云阳县| 六盘水市| 香河县| 应用必备| 崇文区| 金塔县| 青州市| 达孜县| 郓城县| 宜州市| 五河县| 安西县| 井陉县| 汪清县| 内黄县| 登封市| 平舆县| 枣阳市| 方城县| 新乡市| 广州市| 德州市| 蒙阴县| 周宁县| 绥化市| 凤山市| 武冈市| 图木舒克市| 白河县| 奉化市| 弥渡县| 胶南市| 江北区| 洪泽县| 潼南县| 绥中县| 湖口县| 万载县| 淳安县| 黄骅市| 博湖县|