国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種函數(shù)型模糊聚類(lèi)算法及其應(yīng)用

2019-09-10 07:22楊夢(mèng)玲
關(guān)鍵詞:曲線擬合

楊夢(mèng)玲

摘要:針對(duì)已有模糊聚類(lèi)算法(FCM)提出一種函數(shù)型模糊聚類(lèi)算法,旨在解決海量數(shù)據(jù)的模糊聚類(lèi)問(wèn)題。為此,在利用B-樣條基底進(jìn)行曲線擬合、曲線距離度量界定的基礎(chǔ)上,構(gòu)造模糊聚類(lèi)算法的目標(biāo)函數(shù),提出函數(shù)型模糊曲線聚類(lèi)算法。模擬及實(shí)例表明:本文曲線聚類(lèi)算法具有更好的聚類(lèi)效果。

關(guān)鍵詞:曲線擬合;模糊聚類(lèi);B-樣條;距離度量

中圖分類(lèi)號(hào):TP311.1?文獻(xiàn)標(biāo)志碼:A?文章編號(hào):1008-4657(2019)05-0018-08

0?引言

信息技術(shù)的發(fā)展,數(shù)據(jù)來(lái)源越來(lái)越廣泛。數(shù)據(jù)采集密集化程度也越來(lái)越高。隨之出現(xiàn)一種具有明顯曲線特征的數(shù)據(jù)類(lèi)型,如腦電信號(hào)數(shù)據(jù)、基因序列數(shù)據(jù)、股票分時(shí)成交價(jià)數(shù)據(jù)、環(huán)境污染物濃度數(shù)據(jù)等,就具有這樣的特征。相關(guān)文獻(xiàn)稱(chēng)之為函數(shù)型數(shù)據(jù)(Functional Data)[1]。

實(shí)際數(shù)據(jù)采集中,獲取的數(shù)據(jù)通常為離散數(shù)據(jù),無(wú)法直接獲取函數(shù)型數(shù)據(jù)。針對(duì)離散數(shù)據(jù)可以通過(guò)傳統(tǒng)多元統(tǒng)計(jì)方法分析。但是傳統(tǒng)的多元統(tǒng)計(jì)方法無(wú)法分析數(shù)據(jù)的函數(shù)型特征,同時(shí)也需要處理高維問(wèn)題。因此,基于傳統(tǒng)統(tǒng)計(jì)分析方法往往無(wú)法取得較好的分析結(jié)果。針對(duì)函數(shù)型數(shù)據(jù)的曲線特征,人們提出很多分析方法,包括函數(shù)型主成分[2]、函數(shù)型聚類(lèi)分析[3]等。這類(lèi)方法在函數(shù)型數(shù)據(jù)分析中發(fā)揮著重要的作用。

從方法角度來(lái)看,目前函數(shù)型數(shù)據(jù)分析方法大致分為兩類(lèi):一類(lèi)是原始數(shù)據(jù)法[4],原始數(shù)據(jù)法是一種高維數(shù)據(jù)分析方法,該類(lèi)方法直接針對(duì)離散樣本點(diǎn)進(jìn)行聚類(lèi)。盡管能取得一定結(jié)果,但是沒(méi)有考慮到數(shù)據(jù)的函數(shù)型特征。因此無(wú)法深入挖掘數(shù)據(jù)的潛在特征且計(jì)算成本大。第二類(lèi)是投影方法[5-6],通過(guò)有限維基底函數(shù)逼近曲線,將無(wú)限維問(wèn)題轉(zhuǎn)化為有限維問(wèn)題進(jìn)行分析。根據(jù)基底函數(shù)系數(shù)的處理方式不同,又可將投影方法分為濾波法和自適應(yīng)法。濾波法將基底函數(shù)對(duì)應(yīng)系數(shù)設(shè)定為固定參數(shù),分曲線擬合和聚類(lèi)分析兩步展開(kāi)[6-7]。自適應(yīng)法是將基底函數(shù)對(duì)應(yīng)的系數(shù)作為隨機(jī)變量處理,將曲線擬合和聚類(lèi)分析納入一個(gè)目標(biāo)函數(shù),采用類(lèi)似最大期望(Expectation-Maximization)算法,同時(shí)進(jìn)行優(yōu)化[8-9]。此外,還有基于距離的聚類(lèi)方法,如K-means聚類(lèi)算法和分層聚類(lèi)算法。這類(lèi)算法考慮利用特殊距離或構(gòu)造“曲線距離”等進(jìn)行聚類(lèi),如果距離可以用離散的樣本點(diǎn)形成的曲線構(gòu)造,則該類(lèi)算法與原始聚類(lèi)算法等價(jià),如果聚類(lèi)可以用有限基底進(jìn)行逼近,則該類(lèi)算法與自適應(yīng)算法等價(jià)。

從聚類(lèi)結(jié)果來(lái)看,函數(shù)型數(shù)據(jù)分析方法大致可以分為“硬”聚類(lèi)和“軟”聚類(lèi)兩種?!坝病本垲?lèi)將聚類(lèi)結(jié)果分為是(1)和否(0);“軟”聚類(lèi)考慮到了聚類(lèi)的隸屬度問(wèn)題,將聚類(lèi)結(jié)果分為[0,1],和硬聚類(lèi)相比較,能夠獲得更豐富的聚類(lèi)信息,但是聚類(lèi)時(shí)間冗長(zhǎng)[10]。

自1973年Dunn[11]提出了模糊C均值(Fuzzy C-Means,F(xiàn)CM)聚類(lèi)算法,在聚類(lèi)、圖象分割、形狀分析、醫(yī)療診斷、特征選擇等領(lǐng)域具有廣泛的應(yīng)用。將函數(shù)型數(shù)據(jù)應(yīng)用到FCM聚類(lèi)算法具有重要的實(shí)際意義。近些年關(guān)于函數(shù)型FCM算法的研究很多,如核函數(shù)與FCM結(jié)合的聚類(lèi)算法[12]、自適應(yīng)FCM聚類(lèi)算法[13]、以及基于投影的FCM聚類(lèi)算法[14]等,驗(yàn)證出函數(shù)型FCM算法具有較好的聚類(lèi)效果。還有學(xué)者指出[15],通過(guò)子空間聚類(lèi),可以在降低數(shù)據(jù)維度的同時(shí)最大化原始空間的聚類(lèi)信息。

結(jié)合函數(shù)型數(shù)據(jù)和降維思想,本文提出一種改進(jìn)函數(shù)型FCM聚類(lèi)方法,在FCM聚類(lèi)算法的基礎(chǔ)上利用B-樣條基底逼近原始離散數(shù)據(jù),對(duì)FCM聚類(lèi)算法進(jìn)行改進(jìn),并在此基礎(chǔ)上加入投影算子,以達(dá)到降低維度的目的。與函數(shù)型K-means聚類(lèi)算法在模擬和實(shí)證上進(jìn)行對(duì)比分析,本文改進(jìn)方法具有較好的聚類(lèi)效果。

1?改進(jìn)函數(shù)型FCM聚類(lèi)算法

該部分從以下三個(gè)方面進(jìn)行闡述:第一,利用B-樣條基底近似原始數(shù)據(jù),在一定假設(shè)條件下對(duì)擬合曲線進(jìn)行截?cái)?,從而將觀測(cè)到的原始離散數(shù)據(jù)生成為函數(shù)型數(shù)據(jù)。第二,基于上述基于距離的聚類(lèi)算法,定義曲線之間的“距離”,并通過(guò)楚列斯基分解(Cholesky Decomposition)得到適用于本文非正交基函數(shù)的曲線距離,將曲線距離轉(zhuǎn)化為傳統(tǒng)歐氏距離。第三,將構(gòu)造的距離作為曲線親疏的度量,構(gòu)建函數(shù)型FCM聚類(lèi)算法目標(biāo)函數(shù),實(shí)現(xiàn)函數(shù)型FCM聚類(lèi)。

1.1?構(gòu)建B-樣條基底

經(jīng)過(guò)上述轉(zhuǎn)化,將曲線聚類(lèi)問(wèn)題轉(zhuǎn)化為利用計(jì)算特征向量的問(wèn)題,利用降維及模糊聚類(lèi)方法完成聚類(lèi)。

利用計(jì)算機(jī)對(duì)函數(shù)型FCM算法進(jìn)行編程,直到目標(biāo)函數(shù)(11)達(dá)到最小。算法流程如下:

Input:xkk=1,2,…,N,u,m max iterate

Initialize:randomly choose initialvii=1,2,…,c

Forj≠i

Repeat

Use (12) fix U to solve V

Use(13)fix V to solve U

Until convergence.

2?模擬分析與實(shí)證

為驗(yàn)證聚類(lèi)效果,在這一部分對(duì)本文算法進(jìn)行模擬和實(shí)證分析。并與函數(shù)型K-means聚類(lèi)算法進(jìn)行比較。其中模擬部分為帶有標(biāo)簽的數(shù)據(jù),評(píng)價(jià)指標(biāo)選擇錯(cuò)判率和蘭德指數(shù)(Rand Index),實(shí)例部分為無(wú)標(biāo)簽數(shù)據(jù)集,評(píng)價(jià)指標(biāo)選擇戴維森堡丁指數(shù)(Davies-Bouldin Index)。比較結(jié)果表明本文算法在聚類(lèi)精確度方面優(yōu)于后者聚類(lèi)算法。

2.1?隨機(jī)模擬試驗(yàn)

利用R軟件rnorm()函數(shù)生成均值和方差分別為(1,1)、(2,2)、(3,3)、(4,4)的4類(lèi)高斯分布數(shù)據(jù),每一類(lèi)產(chǎn)生600組服從對(duì)應(yīng)均值和方差的隨機(jī)數(shù),共計(jì)600*4個(gè)數(shù)據(jù)。為避免生成隨機(jī)數(shù)數(shù)值大小相近,數(shù)據(jù)生成過(guò)程中統(tǒng)一為每一類(lèi)數(shù)據(jù)乘以倍數(shù)3并分別為每一類(lèi)加上常數(shù)5、7、9、11。同時(shí)考慮到數(shù)據(jù)的簡(jiǎn)潔性,在編程過(guò)程中對(duì)數(shù)據(jù)取整。數(shù)據(jù)生成后利用構(gòu)造的B-樣條基底,將離散數(shù)據(jù)點(diǎn)轉(zhuǎn)化為曲線,構(gòu)造的曲線距離及提出的算法進(jìn)行聚類(lèi)分析。考慮到模擬數(shù)據(jù)來(lái)自4類(lèi)不同參數(shù)下生成的數(shù)據(jù),為便于比較,在利用本文算法進(jìn)行聚類(lèi)時(shí)聚為4類(lèi)且設(shè)定數(shù)據(jù)的區(qū)間長(zhǎng)度為12。分別利用本文算法和K-means聚類(lèi)算法進(jìn)行聚類(lèi)分析,如圖1所示。

圖1中橫坐標(biāo)表示設(shè)定的聚類(lèi)區(qū)間長(zhǎng)度為[0,12],縱坐標(biāo)表示模擬數(shù)據(jù)數(shù)值,每一類(lèi)具有不同的顏色和形狀。圖1(a)、(b)表示兩種聚類(lèi)算法的類(lèi)中心曲線,圖1(c)、(d)表示聚類(lèi)曲線。圖1聚類(lèi)結(jié)果表明:不同類(lèi)別數(shù)據(jù)存在一定差異,這種差異來(lái)自整體水平即均值以及類(lèi)別數(shù)據(jù)波動(dòng)性即方差。圖1(a)、(b)不同的類(lèi)中心曲線以及(c)、(d)聚類(lèi)曲線不同顏色曲線的分布情況來(lái)看,本文算法具有較好的類(lèi)別區(qū)分型能。不同顏色的曲線差異較為明顯。進(jìn)一步,為便于比較聚類(lèi)效果,在生成數(shù)據(jù)過(guò)程中對(duì)每一類(lèi)數(shù)據(jù)加入類(lèi)別標(biāo)簽。與原始類(lèi)別進(jìn)行比較,計(jì)算兩種方法的錯(cuò)判率(錯(cuò)誤分類(lèi)個(gè)數(shù)/總個(gè)數(shù)*100%)和蘭德指數(shù)[20]。

蘭德指數(shù)計(jì)算公式如下

其中TP表示應(yīng)該被聚為一類(lèi)的數(shù)據(jù)被正確聚為一類(lèi),TN表示不應(yīng)該被聚在一類(lèi)的數(shù)據(jù)未被聚為一類(lèi),F(xiàn)P表示不應(yīng)該聚在一類(lèi)的兩類(lèi)數(shù)據(jù)被聚為一類(lèi),F(xiàn)N表示應(yīng)該被聚為一類(lèi)的數(shù)據(jù)未被聚為一類(lèi)。

根據(jù)上述描述,得到下表1、2。

表1中,通過(guò)兩種聚類(lèi)方法得到的類(lèi)別標(biāo)簽與模擬數(shù)據(jù)原始類(lèi)別標(biāo)簽進(jìn)行對(duì)比,發(fā)現(xiàn)本文方法正確分類(lèi)的個(gè)數(shù)多于K-means聚類(lèi)方法。因此相應(yīng)錯(cuò)判率低于K-means聚類(lèi)方法。

表2中,將模擬數(shù)據(jù)量從600不斷增加到2 400,檢驗(yàn)兩種聚類(lèi)算法聚類(lèi)效果的蘭德指數(shù)逐漸提高。通過(guò)兩種算法的對(duì)比,本文算法的蘭德指數(shù)相較于函數(shù)型K-means有所提升。

2.2?應(yīng)用舉例

空氣質(zhì)量與人們的生活息息相關(guān),近幾年關(guān)于空氣質(zhì)量方面的研究也很多,包括省市縣空氣質(zhì)量污染聚類(lèi)問(wèn)題[21],也包括珠三角、京津冀地區(qū)空氣污染與相關(guān)因素的分析[22-23]等。本文數(shù)據(jù)采用蘭州市NO2濃度(μg·m-3)小時(shí)數(shù)據(jù),因蘭州地理位置較為特殊,地處黃土高原、青藏高原和蒙古高原三大高原的交匯地帶,兩邊地勢(shì)高,中間地勢(shì)低,且氣候干燥,植被覆蓋少等原因使得蘭州市空氣質(zhì)量問(wèn)題十分嚴(yán)重[24]。因此,準(zhǔn)確分析蘭州市空氣質(zhì)量問(wèn)題具有十分重要的實(shí)際意義。

實(shí)證數(shù)據(jù)來(lái)自蘭州市鐵路設(shè)計(jì)院站點(diǎn)采集的NO2小時(shí)濃度數(shù)據(jù),采集時(shí)間為2013年6月1日~10月14日。除刪去66個(gè)缺失值外共得到128*24個(gè)NO2小時(shí)濃度數(shù)據(jù)。基于B-樣條基底擬合原始離散數(shù)據(jù)點(diǎn),構(gòu)造函數(shù)型曲線。利用R軟件進(jìn)行編程,實(shí)現(xiàn)曲線的聚類(lèi)分析。由于實(shí)例數(shù)據(jù)為無(wú)標(biāo)簽數(shù)據(jù)。為檢驗(yàn)兩種聚類(lèi)算法的聚類(lèi)效果,本文引入無(wú)類(lèi)別標(biāo)簽的戴維森堡丁指數(shù)[25](Davies-Bouldin Index)作為評(píng)價(jià)指標(biāo),該指數(shù)計(jì)算公式如下

其中C-i和C-j表示任意i類(lèi)和j類(lèi)的類(lèi)內(nèi)平均距離。wi和wj表示i類(lèi)和j類(lèi)的類(lèi)中心。DB越小意味著類(lèi)內(nèi)距離越小且類(lèi)間距離越大??紤]類(lèi)別個(gè)數(shù)為3、4、5、6類(lèi)的情形下,戴維森保丁指數(shù)的變化情況。如下表3所示:

表3中,隨著類(lèi)別個(gè)數(shù)的增加,戴維森保丁指數(shù)在逐漸下降,說(shuō)明類(lèi)別個(gè)數(shù)的增加會(huì)使得類(lèi)內(nèi)間距越小且類(lèi)間間距越大。表明不同類(lèi)的聚類(lèi)曲線差異性越大,類(lèi)別區(qū)分度越發(fā)明顯。綜合比較兩種聚類(lèi)算法,本文算法在實(shí)例應(yīng)用中聚類(lèi)效果相比于K-means聚類(lèi)算法較好。

進(jìn)一步,分別畫(huà)出本文算法與函數(shù)型K-means算法的類(lèi)中心曲線以及聚類(lèi)效果曲線。兩種算法均采用相同的B-樣條基底和節(jié)點(diǎn)設(shè)計(jì)。得到兩類(lèi)聚類(lèi)結(jié)果。考慮論文篇幅,僅對(duì)4類(lèi)聚類(lèi)效果進(jìn)行展示,如圖2所示。

與圖1類(lèi)似,圖2中橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示實(shí)例數(shù)據(jù)數(shù)值。每一類(lèi)具有不同的顏色和形狀,從圖2(a)、(b)類(lèi)中心聚類(lèi)結(jié)果表明,本文算法中不同類(lèi)別的類(lèi)中心曲線未出現(xiàn)類(lèi)中心曲線交叉的情形。說(shuō)明本文算法具有較好的類(lèi)別區(qū)分性能。圖2(c)、(d)中顯示一天中在6:00-10:00和17:00-21:00兩個(gè)區(qū)間段內(nèi)NO2濃度逐漸上升并達(dá)到頂峰,這與實(shí)際中早高峰和晚高峰的情況相吻合,且夜間21:00-次日5:00仍存在較高濃度,這種明顯的趨勢(shì)為政府污染治理提供一定依據(jù),如錯(cuò)峰出行等。

3?結(jié)論

聚類(lèi)分析是函數(shù)型數(shù)據(jù)探索分析的重要部分,函數(shù)型曲線聚類(lèi)方法在現(xiàn)今數(shù)據(jù)密集化程度不斷提高的時(shí)代值得探討?;贔CM聚類(lèi)算法,提出一種函數(shù)型FCM聚類(lèi)算法。在構(gòu)建B-樣條基底、定義曲線距離之后,對(duì)本文算法進(jìn)行理論推導(dǎo),并利用R語(yǔ)言對(duì)算法進(jìn)行實(shí)現(xiàn)。為驗(yàn)證本文模型的聚類(lèi)效果,在模擬和實(shí)例部分與函數(shù)型K-means聚類(lèi)算法進(jìn)行比較,模擬和實(shí)例結(jié)果表明,本文的曲線聚類(lèi)算法有助于提高聚類(lèi)效果。與此同時(shí),實(shí)例的應(yīng)用對(duì)蘭州市空氣質(zhì)量監(jiān)測(cè)的預(yù)測(cè)以及污染物來(lái)源分析也有一定輔助作用。

參考文獻(xiàn):

[1]Ramsay J O.When the Data are Functions[J].Psychometrika.1982,47(4):379-396.

[2]Ramsay J O,Silverman B W.Functional Data Analysis[M].2ed.New York:Springer,2005:1-18.

[3]Ferraty F,Vieu P.Nonparametric Functional Data Analysis:Theory and Practice[M].New York:Springer,2006:11-18.

[4]Bouveyron C,Brunet-Saumard C.Model-based Clustering of High-dimensional Data:A Review[J].Computational Statistics & Data Analysis.2014,71(1):52-78.

[5]Abraham C,Cornillon P A,Matzner-Lber E,et al.Unsupervised Curve Clustering Using B-splines[J].Scandinavian Journal of Statistics.2003,30(3):581-595.

[6]黃恒君.基于B-樣條基底展開(kāi)的曲線聚類(lèi)方法[J].統(tǒng)計(jì)與信息論壇.2013,28(9):3-8.

[7]Kayano M,Dozono K,Konishi S.Functional Cluster Analysis Via Orthonormalized Gaussian Basis Expansions and Its Application[J].Journal of Classification.2010,27(2):211-230.

[8]Jacques J,Preda C.Funclust:A Curves Clustering Method Using Functional Random Variables Density Approximation[J].Neurocomputing.2013,112(10):164-171.

[9]Jacques J,Preda C.Model-based Clustering for Multivariate Functional Data[J].Computational Statistics & Data Analysis.2014,71(3):92-106.

[10]謝維信,劉健莊.硬聚類(lèi)和模糊聚類(lèi)的結(jié)合——雙層FCM快速算法[J].模糊系統(tǒng)與數(shù)學(xué).1992(2):77-85.

[11]Dunn J C.A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-separated Clusters[J].Journal of Cybernetics.1973,3(3):32-57.

[12]Sridevi P.Identification of Suitable Membership and Kernel Function for FCM Based FSVM Classifier Model[J].Cluster Computing,2018(6):1-10.

[13]林甲祥,吳麗萍,巫建偉,等.基于樣本與特征雙加權(quán)的自適應(yīng)FCM聚類(lèi)算法[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào).2018,35(2):244-252.

[14]Kiani M,Andreu-Perez J,Papageorgiou E I.Improved Estimation of Effective Brain Connectivity in Functional Neuroimaging through Higher Order Fuzzy Cognitive Maps[C]//2017 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE).IEEE,2017:1-6.

[15]Bezdek J C,Ehrlich R,F(xiàn)ull W.FCM:The Fuzzy C-means Clustering Algorithm[J].Computers & Geosciences.1984,10(2):191-203.

[16]Yamamoto M.Clustering of Functional Data in a Low-dimensional Subspace[J].Advances in Data Analysis & Classification.2012,6(3):219-247.

[17]Rice J A,Silverman B W.Estimating the Mean and Covariance Structure Nonparametrically When the Data are Curves[J].Journal of the Royal Statistical Society.1991,53(1):233-243.

[18]De Leeuw J,Young F W,Takane Y.Additive Structure in Qualitative Data:An Alternating Least Squares Method with Optimal Scaling Features[J].Psychometrika,1976,41(4):471-503.

[19]Birman M S,Solomjak M Z.Spectral Theory of Self-adjoint Operators in Hilbert Space[M].New York,NY,USA:D.Reidel Publishing Co.,Inc.,1986:18-59.

[20]Jain A K,Dubes R C.Algorithms for Clustering Data[J].Technometrics.1988,32(2):227-229.

[21]酈少將.基于函數(shù)型聚類(lèi)的浙江省空氣污染時(shí)空特征分析[J].河南教育學(xué)院學(xué)報(bào)(自然科學(xué)版).2018,27(1):19-24.

[22]周學(xué)思,廖志恒,王萌,等.2013—2016年珠海地區(qū)臭氧濃度特征及其與氣象因素的關(guān)系[J].環(huán)境科學(xué)學(xué)報(bào).2019,39(1):143-153.

[23]梁銀雙,劉黎明,盧媛.基于函數(shù)型數(shù)據(jù)聚類(lèi)的京津冀空氣污染特征分析[J].調(diào)研世界.2017(5):43.

[24]祁斌,王式功,劉宇,等.蘭州市空氣污染氣象條件綜合分析[J].陜西氣象.2001(6):27-30.

[25]Davies D L,Bouldin D W.A Cluster Separation Measure[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1979(2):224-227.

[責(zé)任編輯:鄭筆耕]

猜你喜歡
曲線擬合
面料性能對(duì)A字裙動(dòng)態(tài)造型的影響
曲線擬合的方法
MATLAB在非線性曲線擬合中的應(yīng)用
太陽(yáng)影子定位技術(shù)的原理與應(yīng)用
基于Mathematica的固態(tài)軟啟動(dòng)的諧波分析
基于車(chē)道投影特征的彎道識(shí)別算法研究
應(yīng)用曲線擬合法優(yōu)化油井合理沉沒(méi)度
松潘县| 上思县| 伊通| 刚察县| 九寨沟县| 灵宝市| 商都县| 开远市| 达拉特旗| 洞口县| 天峻县| 分宜县| 毕节市| 黑龙江省| 太和县| 辉南县| 桂林市| 贞丰县| 左云县| 开鲁县| 青海省| 遵义市| 进贤县| 南木林县| 武定县| 利辛县| 林西县| 九龙县| 依兰县| 雅安市| 杭锦后旗| 石阡县| 七台河市| 喜德县| 车险| 龙泉市| 石门县| 汉寿县| 通许县| 梅河口市| 北辰区|