国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于信息傳遞的稀疏子空間聚類算法框架

2022-08-24 10:24:32荊雪純崔志華
關(guān)鍵詞:框架聚類矩陣

荊雪純,趙 鵬,崔志華

(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)

E-mail:cuizhihua@tyust.edu.cn

1 引 言

聚類作為一種重要的無(wú)監(jiān)督學(xué)習(xí)算法,被廣泛應(yīng)用于不同領(lǐng)域,例如聲學(xué)場(chǎng)景[1-3],物聯(lián)網(wǎng)場(chǎng)景[4, 5],云計(jì)算[6]和智能優(yōu)化算法[7-9].隨著數(shù)據(jù)復(fù)雜性的增加,傳統(tǒng)的聚類方法已不能滿足需求,因此針對(duì)高維數(shù)據(jù)的子空間聚類算法應(yīng)運(yùn)而生[10, 11].事實(shí)上,高維數(shù)據(jù)是低維線性子空間的并集.子空間聚類算法的實(shí)質(zhì)是找到低維線性子空間結(jié)構(gòu),并將同一子空間中的數(shù)據(jù)點(diǎn)歸為一類.如今,子空間聚類算法已在許多領(lǐng)域得到廣泛的應(yīng)用,例如機(jī)器學(xué)習(xí)[12],計(jì)算機(jī)視覺(jué)[13],圖像處理[14, 15]和系統(tǒng)識(shí)別[16, 17].子空間聚類算法大約包括五類:矩陣分解方法[18, 19],代數(shù)方法[20-22],迭代方法[23, 24],統(tǒng)計(jì)方法[25]和譜聚類方法[26-28].

基于譜聚類的子空間聚類算法可以根據(jù)樣本之間的關(guān)系獲取表示系數(shù)矩陣,然后將矩陣傳入譜聚類獲得聚類結(jié)果.但是,對(duì)于構(gòu)建表示系數(shù)矩陣,數(shù)據(jù)規(guī)模是一個(gè)非常重要的影響因素,算法的時(shí)間復(fù)雜度隨著數(shù)據(jù)規(guī)模的增長(zhǎng)呈指數(shù)增長(zhǎng).因此,不少研究人員開(kāi)始研究基于抽樣的聚類算法.雖然采樣降低了時(shí)間成本,但是聚簇質(zhì)量也不可避免隨之降低.

為了解決這個(gè)問(wèn)題,我們提出了一個(gè)基于信息傳遞的稀疏子空間聚類(SSC)算法框架[29].在此框架中,抽取樣本的表示系數(shù)通過(guò)傳統(tǒng)方法計(jì)算獲得,其余數(shù)據(jù)的系數(shù)通過(guò)已知信息的傳遞獲得.該框架的最大優(yōu)點(diǎn)是靈活且通用,一是它抽取樣本時(shí)可以采用不同的抽樣方法,本文采用隨機(jī)抽樣和K-means聚類抽樣.二是該方法在提高經(jīng)典算法SSC效率的同時(shí),還可以應(yīng)用于其他子空間聚類算法.這種新的子空間聚類方法不僅減少了時(shí)間,而且在一定程度上保證了聚類質(zhì)量.總體而言,這項(xiàng)工作的主要貢獻(xiàn)包括以下3個(gè)方面:

1)為了提高SSC算法的效率,本文提出了一個(gè)基于抽樣的子空間聚類算法框架,該框架靈活可擴(kuò)展.它不僅可以選擇不同的采樣方法,而且可以擴(kuò)展到其他子空間聚類算法.

2)本文提出了一種信息傳遞機(jī)制并應(yīng)用于算法框架中.在計(jì)算表示系數(shù)矩陣的過(guò)程中,首先計(jì)算抽取樣本表示系數(shù),其余系數(shù)通過(guò)信息傳遞的方式得到.在保證聚類精度的前提下,它降低了時(shí)間成本.

3)本算法框架在兩個(gè)數(shù)據(jù)集上進(jìn)行試驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,與其他算法相比,本算法時(shí)間成本低,聚類質(zhì)量高.

本文的結(jié)構(gòu)如下.相關(guān)工作在第二節(jié)中介紹.第三節(jié)詳細(xì)介紹了稀疏子空間聚類算法.在第四節(jié)中,我們提出了一個(gè)基于信息傳遞的聚類算法框架.其中我們定義了信息傳遞以及介紹了其如何被應(yīng)用于框架中.在第五節(jié)中,本文方法的有效性被驗(yàn)證.最后第六節(jié)總結(jié)本文.

2 相關(guān)工作

在譜聚類中,需要一個(gè)相似度矩陣才可獲得聚類結(jié)果,而一個(gè)相似度矩陣就對(duì)應(yīng)一個(gè)鄰接圖.在圖中,一個(gè)頂點(diǎn)對(duì)應(yīng)一個(gè)數(shù)據(jù)點(diǎn),兩個(gè)數(shù)據(jù)點(diǎn)之間的關(guān)系表示為一條邊,邊的權(quán)重與兩個(gè)數(shù)據(jù)點(diǎn)的相似度呈正相關(guān).因此,譜聚類的關(guān)鍵在于構(gòu)建一個(gè)好的鄰接圖.

構(gòu)建鄰接圖的傳統(tǒng)方法是利用成對(duì)距離.其中任意兩個(gè)數(shù)據(jù)點(diǎn)的相似度都是通過(guò)歐氏距離來(lái)計(jì)算的,包括拉普拉斯特征圖[30],局部線性嵌入(LLE)[31],K近鄰(K-NN)[32]等.但是,成對(duì)距離過(guò)于關(guān)注局部結(jié)構(gòu)而忽略了整體結(jié)構(gòu),因此受噪聲的影響很大.與成對(duì)距離不同,表示系數(shù)將每個(gè)數(shù)據(jù)點(diǎn)作為其他數(shù)據(jù)點(diǎn)的線性表示.為了獲得更好的聚類結(jié)果,學(xué)者基于不同的正則化項(xiàng)提出了不同的算法.例如,稀疏子空間聚類(SSC)[29],低秩表示(LRR)[33],低秩稀疏子空間聚類(LRSSC)[34]等.

盡管表示系數(shù)與成對(duì)距離相比具有更好的有效性,但是面對(duì)大規(guī)模數(shù)據(jù)時(shí),需要逐個(gè)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)和其他數(shù)據(jù)點(diǎn)之間的關(guān)系系數(shù),時(shí)間成本將會(huì)很高.以n個(gè)數(shù)據(jù)點(diǎn)為例,算法時(shí)間復(fù)雜度為O(mn3),其中m代表數(shù)據(jù)維度.因此,ShenJie等人[35]提出對(duì)大規(guī)模問(wèn)題進(jìn)行隨機(jī)優(yōu)化.但是由于抽樣數(shù)目小,該方法的性能較差.與此不同的是,PengXi等人[36]隨機(jī)選擇小部分的數(shù)據(jù)點(diǎn)并定義為樣本內(nèi)數(shù)據(jù),其余數(shù)據(jù)點(diǎn)被視為樣本外數(shù)據(jù).他們采用SSC將樣本內(nèi)數(shù)據(jù)聚類,并將樣本外數(shù)據(jù)分類到最近的進(jìn)行歸類.然后,他們開(kāi)發(fā)了3種算法:可伸縮稀疏子空間聚類(SSSC),可伸縮低秩表示子空間聚類(SLRR)和可伸縮最小二乘回歸子空間聚類(SLSR).但是,樣本外數(shù)據(jù)分類時(shí)不是基于整個(gè)數(shù)據(jù)的本質(zhì)特征,因此對(duì)噪聲更敏感.為了解決這個(gè)問(wèn)題,Libo等人[37]提出了一種新穎的在線LRR子空間學(xué)習(xí)方法.該方法包括兩個(gè)階段:第1階段是先計(jì)算一小部分的數(shù)據(jù)點(diǎn)的子空間結(jié)構(gòu),稱為靜態(tài)學(xué)習(xí).第2步是計(jì)算整個(gè)數(shù)據(jù)集的內(nèi)部關(guān)鍵組成部分.但是,當(dāng)數(shù)據(jù)點(diǎn)不足時(shí),LRR模型可能會(huì)失效,那么在靜態(tài)學(xué)習(xí)時(shí)如果選擇數(shù)據(jù)點(diǎn)太少就無(wú)法產(chǎn)生可靠的結(jié)果.

為了解決這些問(wèn)題,我們提出了一個(gè)基于信息傳遞的稀疏子空間聚類算法框架.在此框架中,需要采用兩階段方法來(lái)構(gòu)建表示系數(shù)矩陣.首先,我們抽取出一部分?jǐn)?shù)據(jù)點(diǎn)利用傳統(tǒng)方式計(jì)算得到其表示系數(shù).在第2階段,表示系數(shù)矩陣的剩余數(shù)值通過(guò)信息傳遞完成,信息傳遞依賴于第1階段的已知信息.與PengXi等人[36]的子空間聚類算法相比,該方法抓住了整個(gè)數(shù)據(jù)的特征.另外,信息傳遞的思想可以擴(kuò)展到其他子空間聚類算法.

3 稀疏子空間聚類算法

譜聚類需要一個(gè)相似度矩陣才可獲得聚類結(jié)果.因此,基于譜聚類的子空間聚類算法的關(guān)鍵是如何構(gòu)造表示系數(shù)矩陣,表示系數(shù)矩陣將直接決定相似度矩陣.

稀疏表示(SR)是構(gòu)造表示系數(shù)矩陣最流行的方法之一.近年來(lái),SR成為某些領(lǐng)域研究的重點(diǎn).SR的目的是有效表示數(shù)據(jù)并且通過(guò)特定空間中數(shù)據(jù)的稀疏性來(lái)挖掘數(shù)據(jù)的本質(zhì)特征.稀疏性是指數(shù)據(jù)可被視作其他數(shù)據(jù)的線性組合,要求包括盡可能少的非零系數(shù).因此,SR可以表征數(shù)據(jù)的子空間特征.

假設(shè)給定一個(gè)數(shù)據(jù)集X∈RD×n是K個(gè)子空間的并集{S}Ki=1,其中D表示數(shù)據(jù)的維數(shù),n表示數(shù)據(jù)的數(shù)量.X的每一列代表一個(gè)數(shù)據(jù)點(diǎn),每個(gè)子空間i包含ni個(gè)數(shù)據(jù)點(diǎn),即∑ki=1ni=n.稀疏子空間聚類的理念是每一個(gè)數(shù)據(jù)點(diǎn)都可以由同一子空間中其他數(shù)據(jù)點(diǎn)線性表示:

xi=∑j≠izijxj

(1)

其中xi表示第i個(gè)數(shù)據(jù)點(diǎn).zij表示第i個(gè)數(shù)據(jù)點(diǎn)和第j個(gè)數(shù)據(jù)點(diǎn)之間的表示系數(shù),表示系數(shù)反映的是它們的相似度.

對(duì)于公式(1)的計(jì)算過(guò)程,矩陣表示為公式(2):

X=XZ

(2)

其中Z∈Rn×n是表示系數(shù)矩陣,當(dāng)xi和xj不在同一子空間時(shí)zij=0,不同于一組基或字典,公式(2)的含義是用自己本身來(lái)表示數(shù)據(jù),因此也叫做自表示矩陣.如果已知子空間結(jié)構(gòu)并按分類順序依次排列數(shù)據(jù),表示系數(shù)矩陣Z在理想狀態(tài)下將具有塊對(duì)角結(jié)構(gòu),如公式(3)所示:

Z=Z10…0
0Z2…0
????
00…Zk

(3)

其中Zα(α=1,…,K)是子空間Sα的表示系數(shù)矩陣.矩陣的塊對(duì)角結(jié)構(gòu)揭示了數(shù)據(jù)的子空間結(jié)構(gòu).而稀疏子空間聚類的目的正是利用不同的正則化約束項(xiàng)在公式(2)的基礎(chǔ)上使表示系數(shù)矩陣達(dá)到理想的結(jié)構(gòu),之后通過(guò)W=(|Z|+|ZT|)/2將表示系數(shù)矩陣轉(zhuǎn)化為相似度矩陣,最終通過(guò)譜聚類得到聚類結(jié)果.

為了提高聚類精度,通常增加正則化項(xiàng)來(lái)改善表示系數(shù)矩陣的結(jié)構(gòu).因此,Elhamifar提出了基于向量稀疏的稀疏子空間聚類算法.該算法利用公式(4)來(lái)計(jì)算數(shù)據(jù)點(diǎn)之間的相似度,得到表示系數(shù)矩陣:

minz‖Z‖1,s.t.X=XZ,diag(Z)=0

(4)

稀疏子空間聚類算法對(duì)于高維數(shù)據(jù)是一種非常有效的算法.然而,隨著數(shù)據(jù)的數(shù)量和維數(shù)的增加,構(gòu)造表示系數(shù)矩陣的時(shí)間復(fù)雜度也急劇增加.因此,本文我們利用信息傳遞技術(shù),提出了一種基于采樣的新型聚類框架來(lái)構(gòu)建表示系數(shù)矩陣.

4 基于信息傳遞的子空間聚類算法框架

4.1 信息傳遞

一個(gè)關(guān)系網(wǎng)絡(luò)中包括不同的頂點(diǎn)以及他們的關(guān)系.在一個(gè)不完整的關(guān)系網(wǎng)絡(luò)中,如何計(jì)算兩個(gè)頂點(diǎn)之間的未知關(guān)系是一個(gè)難點(diǎn).因此,我們提出信息傳遞理論,信息傳遞可以通過(guò)中介點(diǎn)獲得未知的關(guān)系.兩個(gè)頂點(diǎn)的中介點(diǎn)的定義如定義1所示.利用信息傳遞計(jì)算未知關(guān)系的方法如定理1所示.

定義1. 假設(shè)頂點(diǎn)A與頂點(diǎn)B、C直接相關(guān),并已知A與B和A與C的關(guān)系,則A被稱為B和C之間的中介點(diǎn).

定理1. 假設(shè)xi和xj的關(guān)系是未知的,并且在xi和xj之間存在η個(gè)中介點(diǎn){xk,k=1,2,…,η},則zij可由公式(5)計(jì)算得到.

zij=∑ηk=1zikW×zkj

(5)

W=∑ηk=1zik

(6)

其中zij表示xi和xj的關(guān)系.同樣的,zki和zkj也代表兩點(diǎn)之間的關(guān)系.W是樣本xi與所有中介點(diǎn)之間的關(guān)系之和(如公式(6)所示).因此,zik/W表示xi到xj所有路徑中選擇包含第k個(gè)中介點(diǎn)路徑的概率.因此,zik/W×zkj表示選擇包含第k個(gè)中介點(diǎn)路徑時(shí)xi和xj之間的關(guān)系.

4.2 信息傳遞的應(yīng)用

在基于抽樣的子空間聚類算法中,一些數(shù)據(jù)點(diǎn)會(huì)被率先抽取出來(lái).因此,從n個(gè)數(shù)據(jù)點(diǎn)中選擇η個(gè)樣本點(diǎn)是首要任務(wù).然后可以通過(guò)傳統(tǒng)方式即公式(7)獲得部分系數(shù)矩陣Zelite∈Rn×1.需要強(qiáng)調(diào)的是,這種傳統(tǒng)計(jì)算方式的本質(zhì)是依次計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與其他數(shù)據(jù)點(diǎn)之間的關(guān)系作為矩陣的一列.因此,公式(4)與公式(7)等價(jià).

由表1中數(shù)據(jù)可知,“煙氣中溶水性固體氣溶膠的排放量”是“煙氣中非溶水性固體氣溶膠的排放量(PM)”的75倍以上,此表的計(jì)算數(shù)據(jù)可以說(shuō)明,解決濕法煙氣脫硫工藝形成的氣溶膠問(wèn)題遠(yuǎn)比將燃煤煙氣中的含塵排放標(biāo)準(zhǔn)從50mg/Nm3降到10mg/Nm3更為重要,由于氣溶膠是“霧霾”的凝結(jié)核,因此,濕法煙氣脫硫產(chǎn)生的氣溶膠對(duì)“霧霾”的影響不可低估。但由于污染物監(jiān)測(cè)技術(shù)的局限和粉塵監(jiān)測(cè)位置僅在電除塵出口,使對(duì)煙囪出口煙氣氣溶膠的監(jiān)控出現(xiàn)盲區(qū),隨意排放而失去控制。由于燃煤超凈排放采用的技術(shù)未考慮上述情況,即使采用濕式電除塵器,顯然也不能徹底解決該問(wèn)題[2]。

minzi‖Zi‖1,s.t.xi=XZi,zi(i)=0

(7)

其中Zi∈Rn×1表示Z的第i列,xi是第i個(gè)數(shù)據(jù)點(diǎn),zi(i)表示Zi的第i個(gè)系數(shù).

與矩陣Z不同,Zelite只包含樣本點(diǎn)與其他所有數(shù)據(jù)點(diǎn)之間的關(guān)系,因此Zelite不是方陣,它對(duì)應(yīng)的是一個(gè)不完整的關(guān)系圖.但是,譜聚類需要一個(gè)完整的關(guān)系圖,該圖與系數(shù)矩陣Z相對(duì)應(yīng).因此需要計(jì)算圖中未知關(guān)系所對(duì)應(yīng)的表示系數(shù).這些缺失的表示系數(shù)是剩余數(shù)據(jù)點(diǎn)之間的關(guān)系.此時(shí)需采用定理1來(lái)解決問(wèn)題.

根據(jù)定理1,還需已知剩余數(shù)據(jù)點(diǎn)與樣本點(diǎn)之間的關(guān)系,用Znon-elite∈Rη×(n-η)表示,其每一列為剩余數(shù)據(jù)點(diǎn)和樣本點(diǎn)之間的表示系數(shù).Znon-elite同樣可以由公式(7)得到.

為了更加清晰地描述表示系數(shù)矩陣的計(jì)算過(guò)程,我們以圖1為例說(shuō)明.

圖1 信息傳遞圖Fig.1 A diagram of information transfer

圖1中有五個(gè)數(shù)據(jù)點(diǎn),包括三個(gè)樣本點(diǎn)(實(shí)心)和兩個(gè)剩余數(shù)據(jù)點(diǎn)(空心).首先,Zelite,Znon-elite由傳統(tǒng)方式計(jì)算,即z25,z35,z45,z12,z13和z14被計(jì)算得出.根據(jù)定理1,z15=∑4k=2z1k/(z12+z13+z14)×zk5.從矩陣的角度來(lái)看,z15是將Zelite的第5行(歸一化后)與Znon-elite相乘得到.因此,將歸一化的Zelite和Znon-elite相乘則可計(jì)算得到缺失的部分系數(shù)矩陣Z′.Z′的每一列代表剩余數(shù)據(jù)點(diǎn)與剩余數(shù)據(jù)點(diǎn)之間的表示系數(shù).最后,Z矩陣由Zelite和Z′拼接而成.

4.3 整體結(jié)構(gòu)

圖2展示了基于信息傳遞的子空間聚類的基本框架.首先,通過(guò)一些采樣策略選擇出樣本點(diǎn),如圖中步驟(a)所示.接下來(lái),在步驟(b)和步驟(c)中,通過(guò)公式(7)獲得Zelite和Znon-elite.步驟(d)是將歸一化的Zelite和Znon-elite相乘得到Z′.最后,(e)將矩陣Zelite和Z′拼接后作為表示系數(shù)矩陣Z.Z將被傳入譜聚類算法得到最終聚類結(jié)構(gòu).其中步驟(f)的目的是將矩陣Z對(duì)稱化.

圖2 基于信息傳遞的子空間聚類框架Fig.2 Framework based on information transfer for subspace clustering

可以看出,新算法與傳統(tǒng)的算法的主要區(qū)別在于減少了計(jì)算量.計(jì)算Z矩陣一列的時(shí)間復(fù)雜度為O(n).因此,傳統(tǒng)方法的時(shí)間復(fù)雜度為O(n2).但是,新算法的時(shí)間復(fù)雜度僅為O(n×η+η×(n-η)),這是計(jì)算Zelite和Zmon-elite的時(shí)間復(fù)雜度之和.而O(n2)總是高于O(n×η+η×(n-η)),證明過(guò)程如公式(8)所示.因此,當(dāng)面對(duì)大規(guī)模數(shù)據(jù)時(shí),所提出的方法更加有效.

=n2-2nη+η2=(n-η)2>0s.t.y

(8)

算法1為所提框架的偽代碼.其中K,ε,λ是需要傳入的參數(shù).K表示要聚類的類別數(shù).ε表示剪枝的閾值.λ表示樣本點(diǎn)所占整個(gè)數(shù)據(jù)的比例,即η=n×λ.首先,數(shù)據(jù)將被分為兩類:樣本點(diǎn)和剩余數(shù)據(jù)點(diǎn).在此框架中,樣本點(diǎn)的采樣方式是靈活的,這也是算法框架靈活性的體現(xiàn).在本文中,我們以K-means抽樣和隨機(jī)抽樣為例進(jìn)行實(shí)驗(yàn).接下來(lái),由公式(7)獲得Zelite和Znon-elite.步驟8-10是根據(jù)定理1將Znon-elite歸一化,而Z是由步驟11-12獲得的.為了提高聚類質(zhì)量,將低于閾值的表示系數(shù)置為0,即剪枝操作,如步驟13-15所示.最終的聚類結(jié)果在步驟11-13中得到.

算法1.基于信息傳遞的子空間聚類算法

輸入:數(shù)據(jù)X∈RD×n,K,ε,λ∈[0,1]

1.初始化0矩陣Zelite∈RD×n,Znon-elite∈Rη×(n-η),Z∈Rn×n

2.η=n×λ, 利用抽樣策略進(jìn)行抽樣,生成一個(gè)長(zhǎng)度為η,包含所抽樣本的編號(hào)的列表

3.Forcol=1:η:

4.X[:,L[col]],作為xi被用于公式(7)計(jì)算得到Zelite[:,col]

5.N=[1,2,3,…,n],non=N-L

6. Forcol=1∶n-η:

7.X[:,non[col]]作為xi被用于公式(7)計(jì)算得到Znon-elite[:,col]

8.Forrow=1∶η:

9. Forcol=1∶n-η:

10.Znon-elite[row,col]=

Znon-elite[row,col]/sum(Znon-elite[row,:])

11.Z′=Zelite×Znon-elite

12.Zelite和Z′拼接得到Z

13. Forrow=1:n:

14. Forcol=1:n:

15.Z[row,col]=0 ifZ[row,col]<ε

16.W=1/2(Z+ZT),W和K傳到譜聚類中得到聚類結(jié)果

輸出:聚類結(jié)果

5 實(shí) 驗(yàn)

5.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

在實(shí)驗(yàn)中,我們使用兩個(gè)數(shù)據(jù)集COIL-20,YaleBCrop025來(lái)表明算法的有效性.COIL-20包含20個(gè)物體72個(gè)不同角度的圖片,其像素大小統(tǒng)一控制為128×128.因此,COIL-20共有1440張圖片.而YaleBCrop025是一個(gè)人臉數(shù)據(jù)集,包括38個(gè)人在不同照明條件和不同姿勢(shì)下的照片,每個(gè)人64張照片,整個(gè)數(shù)據(jù)集共有2432張圖片.表1展示了數(shù)據(jù)集的具體說(shuō)明.

表1 數(shù)據(jù)集的數(shù)值說(shuō)明Table 1 Numerical statement of the datasets

為了評(píng)估效果,采用聚類準(zhǔn)確度(ACC)[38],歸一化互信息(NMI)[39]和時(shí)間(TIME)作為評(píng)價(jià)指標(biāo).聚類質(zhì)量正是通過(guò)ACC和NMI來(lái)體現(xiàn)的,他們都是通過(guò)比較聚類結(jié)果和真實(shí)標(biāo)簽得到的結(jié)果.它們的范圍是從0到1,越接近1,算法性能越好.同時(shí),TIME表示程序的執(zhí)行時(shí)間,執(zhí)行時(shí)間越短,算法越高效.

5.2 參數(shù)的影響

在本文提出的算法1中,需要預(yù)先確定超參數(shù)ε和λ. 為了得到更好的聚類效果,我們首先測(cè)試了不同的ε和λ對(duì)聚類的影響,選擇最佳效果對(duì)應(yīng)的參數(shù)值用于后續(xù)實(shí)驗(yàn).

在確定ε的實(shí)驗(yàn)中,隨機(jī)抽取YaleBCrop025中2類數(shù)據(jù)為數(shù)據(jù)集,測(cè)試了ε的6個(gè)不同值.同時(shí),為了降低λ的影響,將λ設(shè)置為1.也就是說(shuō),沒(méi)有采樣操作,所有數(shù)據(jù)均按照傳統(tǒng)稀疏子空間聚類進(jìn)行聚類,這么做的原因是采樣與否對(duì)表示系數(shù)矩陣的剪枝閾值并沒(méi)有影響.不同的ε得到的ACC和NMI如圖3所示.很顯然,當(dāng)ε=10-1時(shí),算法具有最佳性能.因此,在后續(xù)實(shí)驗(yàn)中均采用ε=10-1.

另一方面,采樣率λ對(duì)聚類質(zhì)量和計(jì)算時(shí)間中都有著重要影響.根據(jù)格里文科定理,λ太低將無(wú)法達(dá)到優(yōu)秀的聚類質(zhì)量.因?yàn)闃颖玖亢苄o(wú)法確保采樣數(shù)據(jù)與其余數(shù)據(jù)具有相同的分布.相反,如果λ設(shè)置得太高,該算法將會(huì)失去采樣的意義,退化為傳統(tǒng)的子空間聚類算法,效率依舊無(wú)法提高.因此,λ∈[0,0.5]是一個(gè)合適的區(qū)間,該實(shí)驗(yàn)測(cè)試λ在這個(gè)區(qū)間范圍內(nèi)的變化.所使用得數(shù)據(jù)集與測(cè)試ε的實(shí)驗(yàn)數(shù)據(jù)相同.實(shí)驗(yàn)結(jié)果如圖4所示.很明顯,計(jì)算時(shí)間和聚類質(zhì)量隨著λ的增大而提高.最終我們確定λ的值為0.4,以平衡時(shí)間成本和聚類質(zhì)量.

圖3 參數(shù)ε對(duì)聚類質(zhì)量的影響Fig.3 Iimpact of ε on clustering qualities

圖4 參數(shù)λ對(duì)聚類質(zhì)量的影響Fig.4 Impact of λ on clustering qualities

5.3 不同采樣方法的對(duì)比實(shí)驗(yàn)

該算法的第一步就是從整個(gè)數(shù)據(jù)中挑選出樣本點(diǎn).在所提框架中,采樣方法不受限制,但不同的采樣方法會(huì)對(duì)聚類質(zhì)量有不同程度的影響.在這項(xiàng)工作中,我們選擇兩種抽樣方法K-means抽樣和隨機(jī)抽樣進(jìn)行測(cè)試.K-means抽樣就是將聚類后的聚類中心抽取出來(lái).K-means是一種基礎(chǔ)的聚類算法,其主要特征是簡(jiǎn)單,運(yùn)算速度快.但是,K-means不適合用于直接圖片這種高維數(shù)據(jù),但可以將其用作預(yù)聚類方式以獲得聚類中心,將聚類中心抽取出來(lái)作為樣本點(diǎn).因此,K-means可以成為獲取樣本點(diǎn)的一種采樣方法.而隨機(jī)抽樣是隨機(jī)選擇η個(gè)數(shù)據(jù)作為樣本點(diǎn).

我們從COIL-20中隨機(jī)選擇了不同數(shù)量的類別,每類均包括72張圖片.在這項(xiàng)工作中,由于譜聚類和采樣方法具有隨機(jī)性,每個(gè)實(shí)驗(yàn)都進(jìn)行10次重復(fù)試驗(yàn).表2列出了ACC的平均值(mean),中位數(shù)(median),標(biāo)準(zhǔn)方差(std)和最優(yōu)值(optimum).平均值,中位數(shù)和最優(yōu)值從不同的角度反映算法的性能,而標(biāo)準(zhǔn)方差可以反映算法的穩(wěn)定性.表3為NMI的結(jié)果.不同采樣方法的計(jì)算花費(fèi)如表4所示.

分析實(shí)驗(yàn)結(jié)果可以得出以下結(jié)論:

1)從結(jié)果中可看出所提算法的聚類質(zhì)量,ACC和NMI,均優(yōu)于SSC算法.因此,無(wú)論采用哪種抽樣方式,所提算法均比傳統(tǒng)SSC有更好的效果.不可否認(rèn),有時(shí)由于隨機(jī)性,SSC-Random比SSC-K-means具有更好的效果.例如,如表2所示,當(dāng)類別為15時(shí),SSC-K-means的均值,中值,標(biāo)準(zhǔn)差均優(yōu)于SSC-Random,但SSC-random的最佳值66.20優(yōu)卻于SSC-K-means,這正是由于隨機(jī)性導(dǎo)致的結(jié)果.另外,當(dāng)類別數(shù)較少時(shí),隨機(jī)抽樣的表現(xiàn)也會(huì)更好.隨著類別數(shù)的增加,性能會(huì)變差.因此,在對(duì)3類進(jìn)行測(cè)試時(shí),隨機(jī)采樣的均值,中值高于K-means采樣.原因是隨著數(shù)據(jù)的增加,隨機(jī)采樣不能確保樣本數(shù)據(jù)與總體數(shù)據(jù)具有相同的分布.相比之下,K-means預(yù)聚類抽取聚類中心,更好地保證分布,因此采樣也會(huì)具有更好的性能.此外,盡管15類時(shí)隨機(jī)抽樣比K-means抽樣更好,但結(jié)果沒(méi)有太大差異.這也是由于隨機(jī)性而引發(fā)的.總而言之,SSC-K-means總是比SSC-Random聚類效果更好.

表2 不同采樣方式在數(shù)據(jù)集COIL-20上的ACC(%)結(jié)果Table 2 ACC (%) of different sampling methods on COIL-20 database

表3 不同采樣方式在數(shù)據(jù)集COIL-20上的NMI (%)結(jié)果Table 3 NMI (%) of different sampling methods on COIL-20 database

表4 不同算法在數(shù)據(jù)集COIL-20上的執(zhí)行時(shí)間Table 4 Computational times(s) of different algorithms on COIL-20

2)如表4所示,所提算法大大減少了運(yùn)行時(shí)間成本.隨著數(shù)據(jù)量的增加,效果更加明顯.這表明所提方法更適合處理海量數(shù)據(jù),節(jié)省時(shí)間,效率更高.例如,當(dāng)類別數(shù)為3時(shí),SSC-K-means節(jié)省4s,而當(dāng)類別數(shù)為10時(shí),SSC-K-means節(jié)省459s.此外,由于隨機(jī)采樣更直接,SSC-Random總是比SSC-K-means花費(fèi)更少的時(shí)間.

表5 不同算法在數(shù)據(jù)集YaleBCrop025的ACC (%)結(jié)果Table 5 ACC (%) of different algorithms on YaleBCrop025

5.4 YaleBCrop025數(shù)據(jù)集性能測(cè)試

我們?cè)赮aleBCrop025數(shù)據(jù)集中測(cè)試了所提算法SSC-K-means和SSC-Random,并與最新的3種抽樣子空間聚類方法進(jìn)行了比較:SLRR,SLSR和SSSC.本實(shí)驗(yàn)從38個(gè)類別中隨機(jī)選擇不同數(shù)量的對(duì)象進(jìn)行實(shí)驗(yàn).每一類包括64張圖片.同樣,我們將每個(gè)實(shí)驗(yàn)重復(fù)10次以確保結(jié)果可靠.在YaleBCrop025測(cè)試后不同算法的ACC,NMI和TIME的結(jié)果如表5-表6及圖5所示.

分析上述實(shí)驗(yàn)結(jié)果可以得出以下幾個(gè)結(jié)論:

1)表5和表6的實(shí)驗(yàn)結(jié)果表明,無(wú)論類別數(shù)是多少,所提出的算法均優(yōu)于其他算法.其原因是所提出的算法聚類時(shí)仍是對(duì)整個(gè)數(shù)據(jù)進(jìn)行聚類.并且,剩余數(shù)據(jù)點(diǎn)之間的表示系數(shù)是通過(guò)信息傳遞來(lái)獲取的,沒(méi)有拋棄樣本的基本特征.相反,其他算法只是對(duì)樣本點(diǎn)進(jìn)行聚類,然后根據(jù)樣本點(diǎn)的聚類結(jié)果將剩余數(shù)據(jù)歸類,這樣的方法對(duì)噪聲更敏感.

表6 不同算法在數(shù)據(jù)集YaleBCrop025的NMI(%)結(jié)果Table 6 NMI (%) of different algorithms on YaleBCrop025

2)從ACC和NMI的標(biāo)準(zhǔn)差可以看出,所提出的算法在大多數(shù)情況下具有更好的穩(wěn)定性.有時(shí),盡管所提出算法的穩(wěn)定性不如SLRR,但SLLR的聚類質(zhì)量明顯低于SSC-K-means和SSC-random.

圖5 不同采樣方式在數(shù)據(jù)集COIL-20上的時(shí)間花費(fèi)Fig.5 Computational times of different sampling methods on COIL-20 database

3)圖5的結(jié)果表明,與傳統(tǒng)的SSC相比,所提出的算法大大減少了運(yùn)行時(shí)間,SSC-K-means和SSC-Random減少了約40%的計(jì)算時(shí)間.另外,盡管其他算法比所提算法花費(fèi)的時(shí)間短,但是聚類質(zhì)量大大低于所提算法.毫無(wú)疑問(wèn),聚類質(zhì)量比運(yùn)行時(shí)間更重要.

6 結(jié) 論

在本文中我們提出了一種基于信息傳遞的稀疏子空間聚類框架.該框架的關(guān)鍵是采用信息傳遞來(lái)預(yù)測(cè)數(shù)據(jù)之間的關(guān)系,而不是直接計(jì)算,從而節(jié)省時(shí)間.本文最重要的貢獻(xiàn)是,所提出的框架具有通用性:框架內(nèi)可以采用任何抽樣方法來(lái)選擇樣本點(diǎn),并且該框架可以應(yīng)用于除SSC之外的其他稀疏子空間聚類算法.在COIL-20數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的SSC相比,該算法大大減少了計(jì)算時(shí)間,提高了聚類質(zhì)量.此外,在YaleBCrop025上的實(shí)驗(yàn)證明,所提出的方法比其他方法具有更高的準(zhǔn)確性.

猜你喜歡
框架聚類矩陣
框架
廣義框架的不相交性
基于DBSACN聚類算法的XML文檔聚類
WTO框架下
法大研究生(2017年1期)2017-04-10 08:55:06
初等行變換與初等列變換并用求逆矩陣
基于改進(jìn)的遺傳算法的模糊聚類算法
一種基于OpenStack的云應(yīng)用開(kāi)發(fā)框架
矩陣
南都周刊(2015年4期)2015-09-10 07:22:44
矩陣
南都周刊(2015年3期)2015-09-10 07:22:44
矩陣
南都周刊(2015年1期)2015-09-10 07:22:44
西藏| 万宁市| 屯门区| 鄂尔多斯市| 沂水县| 长岛县| 普兰店市| 化隆| 灌南县| 康马县| 孙吴县| 华宁县| 杨浦区| 章丘市| 横山县| 莲花县| 鄢陵县| 新安县| 靖安县| 嘉禾县| 罗甸县| 普宁市| 胶州市| 巩留县| 安康市| 紫金县| 阿拉善左旗| 全椒县| 武清区| 阿合奇县| 新绛县| 芷江| 祥云县| 洛阳市| 陕西省| 宁陵县| 墨竹工卡县| 瓦房店市| 铜山县| 鞍山市| 开鲁县|