朱 丹,陳曉紅,吳卿源,李舜酩
1.南京航空航天大學(xué) 理學(xué)院,南京 211106
2.南京航空航天大學(xué) 能源與動(dòng)力學(xué)院,南京 211106
在機(jī)器學(xué)習(xí)領(lǐng)域,子空間聚類受到廣泛關(guān)注,可用于人臉聚類[1-2]、運(yùn)動(dòng)分割[3-4]等。子空間聚類方法是將特征選擇技術(shù)和聚類技術(shù)相結(jié)合,在維度空間或數(shù)據(jù)空間中搜索可能存在的子空間,從而得到相應(yīng)的子空間和聚類產(chǎn)生的簇[5]。具體而言,給定一組來自k個(gè)線性子空間{S1,S2,…,Sk} 的數(shù)據(jù)集X,X=[X1,X2,…,Xk]=[x1,x2,…,xn] ,其中Xi是子空間Si中樣本構(gòu)成的集合,子空間聚類的目標(biāo)是將數(shù)據(jù)集X分成k個(gè)不同的簇,每一簇對(duì)應(yīng)一個(gè)子空間。
迄今為止,人們提出了多種子空間聚類的方法,按照其原理大致可分為五種:矩陣分解法[6]、代數(shù)方法[7]、迭代方法[8]、統(tǒng)計(jì)方法[9-10]和基于譜聚類的方法[2-3]。本文基于譜聚類的方法進(jìn)行研究。首先,利用給定的數(shù)據(jù)集X,構(gòu)造關(guān)聯(lián)矩陣Z,Z中的每個(gè)元素zij衡量了樣本點(diǎn)xi和xj之間的相似性。數(shù)據(jù)集中的每一個(gè)樣本點(diǎn)能用其他的樣本點(diǎn)的線性組合表示出來,因此可以使用樣本自表示來衡量?jī)蓚€(gè)樣本點(diǎn)的相似性[11],然后根據(jù)關(guān)聯(lián)矩陣Z進(jìn)行譜聚類。譜聚類是基于譜圖理論的聚類算法,關(guān)聯(lián)矩陣Z可以被看作圖,數(shù)據(jù)聚類問題轉(zhuǎn)變?yōu)閳D最優(yōu)切割問題。由于塊對(duì)角圖能夠更準(zhǔn)確地描述數(shù)據(jù)聚類結(jié)果,因此通常期望關(guān)聯(lián)矩陣Z具有塊對(duì)角稀疏性。
以下幾種算法都是基于譜聚類的方法,但是其關(guān)聯(lián)矩陣有所不同。稀疏子空間聚類(Sparse Subspace Clustering,SSC)[3]通過對(duì)關(guān)聯(lián)矩陣Z采用稀疏約束得到了稀疏的塊對(duì)角陣。文獻(xiàn)[12]指出如果一組樣本點(diǎn)間的兩兩相關(guān)性很高,稀疏表示往往隨機(jī)選擇其中一對(duì)樣本點(diǎn)。因此,SSC不能夠很好地捕獲同一子空間的數(shù)據(jù)結(jié)構(gòu)關(guān)系,可能會(huì)將同一類簇的點(diǎn)分到不同類簇,得到錯(cuò)誤的聚類結(jié)果。由此可見,SSC雖然獲得了簇間的稀疏性,但是同時(shí)也會(huì)導(dǎo)致簇內(nèi)稀疏,從而使得聚類結(jié)果并不理想。為了彌補(bǔ)SSC 的不足,Liu 等人[13]提出用低秩表示(Low Rank Representation,LRR)來代替稀疏表示。低秩表示在構(gòu)造關(guān)聯(lián)矩陣時(shí)加入了低秩約束,目的是考慮數(shù)據(jù)的全局結(jié)構(gòu),找到數(shù)據(jù)的低秩表示,根據(jù)這種表示可把來自同一子空間的樣本點(diǎn)聚到一起。低秩約束可以有效降低噪聲數(shù)據(jù)的影響,因此LRR對(duì)噪聲和異常值具有較好的魯棒性。文獻(xiàn)[1]中的Example-1表明了當(dāng)子空間正交時(shí),LRR模型并不能保證得到一個(gè)塊對(duì)角陣,因此低秩表示不能保證得到正確的聚類結(jié)果。為了得到塊對(duì)角陣,Lu等人[1]提出了最小二乘回歸(Least Square Regression,LSR),通過分組效應(yīng),即一組相關(guān)數(shù)據(jù)的系數(shù)近似相等,將高度相關(guān)的數(shù)據(jù)聚集到了一起。當(dāng)子空間正交或者子空間獨(dú)立、樣本數(shù)據(jù)充足時(shí),LSR 能夠得到塊對(duì)角矩陣,但是由于LSR 沒有考慮數(shù)據(jù)間的局部相關(guān)性,導(dǎo)致塊對(duì)角陣過于稠密。
以上方法均是在單視圖數(shù)據(jù)上展開的,而文獻(xiàn)[14]認(rèn)為多視圖學(xué)習(xí)比單視圖學(xué)習(xí)方法有更好的泛化性,將單視圖數(shù)據(jù)多視圖化可提高學(xué)習(xí)效果。首先將單視圖數(shù)據(jù)多視圖化[15],得到多視圖數(shù)據(jù)。這些多視圖數(shù)據(jù)的不同視圖間的信息具有一致性和互補(bǔ)性[16]。而協(xié)同訓(xùn)練算法正是利用了不同視圖數(shù)據(jù)的信息互補(bǔ),提高了算法性能,受此啟發(fā),本文提出了一種自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類算法(Subspace Clustering induced by Adaptive Graph Learning,SCAGL)。首先,通過多視圖化的方法對(duì)原本的數(shù)據(jù)集進(jìn)行特征分割,得到多視圖數(shù)據(jù)集。然后,受到多視圖譜聚類協(xié)同訓(xùn)練的啟發(fā)[17],將多視圖數(shù)據(jù)子空間聚類與協(xié)同訓(xùn)練的思想相結(jié)合。通過建立引入圖正則化項(xiàng)的最小二乘回歸模型,對(duì)多個(gè)視圖進(jìn)行子空間聚類,基于協(xié)同訓(xùn)練的思想,使視圖間的圖信息可以互相利用,對(duì)多個(gè)視圖的圖正則化項(xiàng)進(jìn)行優(yōu)化,能夠得到聚類性能更好的塊對(duì)角關(guān)聯(lián)矩陣。最后,對(duì)每個(gè)視圖學(xué)習(xí)到的關(guān)聯(lián)矩陣進(jìn)行集成得到一個(gè)公共的關(guān)聯(lián)矩陣,并以此進(jìn)行譜聚類。本文的貢獻(xiàn)在于:受協(xié)同訓(xùn)練的啟發(fā),有效地利用不同視圖間的聚類信息,自適應(yīng)地迭代更新每個(gè)視圖的相似矩陣,從而得到更能反映聚類效果的塊對(duì)角圖,即塊對(duì)角關(guān)聯(lián)矩陣,它能更準(zhǔn)確地描述數(shù)據(jù)聚類結(jié)果。雖然該方法是針對(duì)單視圖數(shù)據(jù)提出的,它也可應(yīng)用于多視圖數(shù)據(jù)。
假設(shè)樣本數(shù)據(jù)充足且子空間獨(dú)立,Lu 等人提出了基于最小二乘回歸(LSR)的子空間聚類[1]。數(shù)據(jù)集X=[x1,x2,…,xn] ∈Rd×n,d是特征維數(shù),n是樣本個(gè)數(shù),數(shù)據(jù)集中的每一個(gè)樣本點(diǎn)能用其他的樣本點(diǎn)的線性組合表示出來即X=XZ,為避免平凡解,規(guī)定diag(Z)=0 。Z∈Rn×n為自表示系數(shù)矩陣。LSR 的目標(biāo)方程如下:
‖Z‖F(xiàn)是Z的F 范數(shù),該范數(shù)約束使得自表示系數(shù)矩陣Z塊對(duì)角化,去除Z中較小的系數(shù)[18]。
由于真實(shí)數(shù)據(jù)中通常包含噪聲,為了減少噪聲對(duì)聚類效果的影響,LSR 引入誤差項(xiàng)E∈Rd×n,即X=XZ+E。LSR對(duì)誤差項(xiàng)實(shí)行F范數(shù)約束,該方法可處理高斯噪聲。文獻(xiàn)[18]已證對(duì)誤差項(xiàng)E實(shí)行L2,1范數(shù)可以探測(cè)異常值,得到如下的目標(biāo)函數(shù):
其中,λ為誤差項(xiàng)的參數(shù)。當(dāng)子空間正交或數(shù)據(jù)集充足,子空間獨(dú)立時(shí),F(xiàn) 范數(shù)約束使得Z具有好的塊對(duì)角性,自表示系數(shù)矩陣Z能夠表示樣本間的相似性。但是,優(yōu)化如上目標(biāo)函數(shù)得到的Z是稠密的,為了提高Z的稀疏性,通常引入圖正則化項(xiàng)。
LSR 在一定程度上提高了Z的塊對(duì)角性質(zhì),但其只揭示了樣本的全局信息,并沒有考慮到數(shù)據(jù)點(diǎn)的局部?jī)?nèi)在相關(guān)信息,從而導(dǎo)致自表示系數(shù)矩陣Z過于稠密。已有的研究表明[19-21]引入圖正則化項(xiàng)有利于保留數(shù)據(jù)的局部?jī)?nèi)在信息,對(duì)Z的非對(duì)角塊部分進(jìn)行稀疏約束,使得聚類效果更好。
首先由數(shù)據(jù)集X構(gòu)造圖G=(V,E),V:={1,2,…,n}是頂點(diǎn)集,是邊緣權(quán)重的集合,wij是頂點(diǎn)對(duì)(i,j)的邊緣權(quán)重,權(quán)重矩陣W=(wij)n×n,本文主要使用k近鄰來構(gòu)造兩個(gè)樣本點(diǎn)間的權(quán)重。由于G是無向圖,W=WT。度量矩陣D=diag(d1,d2,…,dn),,圖G的拉普拉斯矩陣L=D-W,從而得到目標(biāo)函數(shù):
其中,β是圖正則化項(xiàng)參數(shù)。圖正則化項(xiàng)tr(ZLZT)目的是希望同一類簇的樣本之間的系數(shù)盡可能的一致。由于,目標(biāo)方程也可寫為:
文獻(xiàn)[15]提出了將單視圖數(shù)據(jù)多視圖化的方法,即,對(duì)數(shù)據(jù)集X∈Rd×n進(jìn)行分割率為α(0<α <1) 的分割,得到s個(gè)新的子特征數(shù)據(jù)集,這s個(gè)子特征數(shù)據(jù)集可看做樣本數(shù)據(jù)集的s個(gè)不同的視圖。對(duì)這s個(gè)視圖的數(shù)據(jù),基于圖正則化的最小二乘回歸進(jìn)行聚類,可得到s個(gè)對(duì)應(yīng)的塊對(duì)角系數(shù)矩陣,這可表示為:
如此得到各個(gè)視圖對(duì)應(yīng)的自表示系數(shù)矩陣Zi,由于每個(gè)視圖的數(shù)據(jù)信息具有一致性和互補(bǔ)性,由式(5)得到的Zi包含著許多公共信息。文獻(xiàn)[22]提出了最優(yōu)自表示系數(shù)矩陣Z*,與Z*相比,每個(gè)視圖的自表示系數(shù)矩陣Zi包含著各種噪聲,Z*滿足下式:
不難解得:
協(xié)同訓(xùn)練算法是由Blum A和Mitchell T提出的一種半監(jiān)督學(xué)習(xí)算法[23],協(xié)同訓(xùn)練算法適用于其特征可以自然分割為幾個(gè)不相交特征集的數(shù)據(jù)集,在每個(gè)特征集上學(xué)習(xí)分類器,并通過結(jié)合這些分類器的預(yù)測(cè)結(jié)果,提高分類的正確率。文獻(xiàn)[24]發(fā)現(xiàn)當(dāng)特征集非常大且包含大量冗余特征時(shí),把特征集劃分為多視圖數(shù)據(jù)集,協(xié)同訓(xùn)練算法可取得很好的效果。該文通過單視圖數(shù)據(jù)多視圖化,得到s個(gè)不同的視圖X1,X2,…,Xs,利用標(biāo)記樣本訓(xùn)練出s個(gè)分類器h1,h2,…,hs,分類器hi從未標(biāo)記樣本中挑選若干個(gè)標(biāo)記置信度高的樣本進(jìn)行標(biāo)記,把這些由hi標(biāo)記過的樣本加入另外s-1 個(gè)分類器的訓(xùn)練集中,以便其他分類器利用這些新增的有標(biāo)記的樣本進(jìn)行更新。這個(gè)過程不斷迭代下去,直到s個(gè)分類器不再發(fā)生變化。
協(xié)同訓(xùn)練算法的成功實(shí)現(xiàn)需要滿足三個(gè)前提:(1)每個(gè)視圖能夠單獨(dú)地進(jìn)行學(xué)習(xí),即單視圖能夠?qū)W習(xí)出一個(gè)較好的分類器。(2)協(xié)同訓(xùn)練算法要求目標(biāo)函數(shù)在每個(gè)視圖上的學(xué)習(xí)結(jié)果相似度高。如果在某個(gè)視圖內(nèi),分類器判斷兩個(gè)樣本點(diǎn)屬于同一類簇,那么在其他視圖上也應(yīng)該屬于同一類簇,若兩個(gè)樣本屬于不同類簇,其他視圖上也應(yīng)該屬于不同類簇。(3)對(duì)于類別標(biāo)記而言,不同視圖是條件獨(dú)立的。
受協(xié)同訓(xùn)練的啟發(fā),將其用于子空間聚類。每個(gè)視圖上構(gòu)造出的權(quán)重矩陣Wi包含該視圖內(nèi)樣本之間的信息,每一列向量win表示第n個(gè)樣本與其他樣本間的相似度。根據(jù)相似矩陣Wi構(gòu)造Laplacian圖,由譜聚類算法[25]可知,圖Laplacian 矩陣Li的前c個(gè)特征向量組成特征矩陣Ui,Ui中的每個(gè)列向量代表一個(gè)簇,對(duì)Ui進(jìn)行k-means聚類。如果矩陣Ui的第n行分配給第k類簇,樣本點(diǎn)xn就被聚到第k簇。因此Ui中的每個(gè)列向量是c個(gè)類簇的指示向量,包含了c個(gè)類簇的判別信息。受協(xié)同訓(xùn)練思想的啟發(fā),文獻(xiàn)[17]提出用其他視圖的聚類信息來迭代更新每個(gè)視圖的相似矩陣,再對(duì)該視圖的圖結(jié)構(gòu)進(jìn)行優(yōu)化。包含了各視圖對(duì)聚類的判別性信息,將相似向量投影到這些特征向量的方向上,以保留聚類所需要的信息,并去除影響聚類結(jié)果的簇內(nèi)信息。然后將其反投影到原始的向量空間中,獲得優(yōu)化后的圖結(jié)構(gòu),即相似度矩陣進(jìn)一步,在雙視圖情況下舉例驗(yàn)證了優(yōu)化后的相似矩陣顯示同一類簇內(nèi)樣本間的相似度會(huì)逐步趨于一致,這有助于將不同類簇分開。文獻(xiàn)[22]中提出了使用本視圖的信息來迭代更新相似矩陣的方法,即得到了較好的聚類結(jié)果。這說明本視圖的信息有利于提高聚類的效果,結(jié)合以上兩種思想,本文提出同時(shí)把本視圖和其他視圖的信息融入聚類過程,迭代更新相似矩陣由于不同視圖的近鄰信息具有一致性,使用所有視圖的類簇信息來更新相似矩陣,這種新的方法使視圖間的信息相互傳遞,由此得到的相似矩陣包含更準(zhǔn)確的聚類信息。
在式(5)基礎(chǔ)上引入圖結(jié)構(gòu)優(yōu)化,得到目標(biāo)方程:
利用增廣拉格朗日乘子法[26-27]對(duì)目標(biāo)方程(8)進(jìn)行求解,其增廣拉格朗日方程為:
其中,μ >0 為懲罰系數(shù),Yi為拉格朗日乘子,· 為矩陣的內(nèi)積。分別對(duì)變量Zi,Li,Ei迭代優(yōu)化求解。
(1)求解Zi
對(duì)數(shù)據(jù)集Xi構(gòu)造權(quán)重矩陣Wi,并計(jì)算圖Laplacian矩陣Li,由Li的前c個(gè)最小的特征值對(duì)應(yīng)的特征向量組成特征矩陣Ui,進(jìn)而得到基于協(xié)同訓(xùn)練算法優(yōu)化后的相似度矩陣,對(duì)稱化后得。
(3)求解Ei:
這可由收縮算子方法[28]求解。
本文提出自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類算法(SCAGL),輸入包含n個(gè)樣本的數(shù)據(jù)集X與目標(biāo)類簇?cái)?shù)c,通過該算法可將n個(gè)樣本聚到c個(gè)不同類簇,具體流程見如下算法。
算法1自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類(SCAGL)
輸入:數(shù)據(jù)集X,分割率α,誤差項(xiàng)參數(shù)λ,圖正則化參數(shù)β,聚類數(shù)c
輸出:c個(gè)類簇
1.對(duì)X的特征維進(jìn)行分割率為α的多視圖化,得到s(s≥2 )個(gè)子特征數(shù)據(jù)集;
5.repeat
7.求得經(jīng)過協(xié)同訓(xùn)練優(yōu)化后的圖Laplacian矩陣
9.更新各個(gè)視圖的乘子矩陣Yi=Yi+μ(Xi-XiZi-Ei);
10.更新參數(shù)μ=min(ρμ,μmax);
11.until max‖Xi-XiZi-Ei‖<ε或達(dá)到最大迭代次數(shù)
13.計(jì)算關(guān)聯(lián)矩陣A=(Z*+Z*T)2;
14.對(duì)關(guān)聯(lián)矩陣A進(jìn)行譜聚類,將數(shù)據(jù)分割到c個(gè)類簇中。
本文選取了4個(gè)不同數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn),人臉圖像數(shù)據(jù)集ORL、語音字母識(shí)別數(shù)據(jù)集Isolet、手寫數(shù)字?jǐn)?shù)據(jù)集 USPS 和 mfeat。在這些數(shù)據(jù)集中,ORL、Isolet 和USPS是單視圖數(shù)據(jù)集,mfeat是多視圖數(shù)據(jù)集。
ORL 數(shù)據(jù)集包含了40 個(gè)不同人的人臉圖像,每個(gè)人在不同光照條件、拍攝場(chǎng)景和面部表情的情況下采集10張照片,將每張照片的大小修正為像素32×32。選取其中10 個(gè)人的照片生成一個(gè)100 個(gè)樣本的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。
Isolet數(shù)據(jù)集是機(jī)器學(xué)習(xí)中用于聚類和分類的一種常用數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的生成過程如下:150名試驗(yàn)者將字母表中的每個(gè)字母讀兩遍,每個(gè)受試者有52 個(gè)訓(xùn)練例子。數(shù)據(jù)集的特征維數(shù)是617,特征包括光譜系數(shù)、輪廓特征、聲波特征等。選取前30個(gè)人的訓(xùn)練例子組成一個(gè)1 560個(gè)樣本的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。
USPS 數(shù)據(jù)集是包含了數(shù)字0~9 的手寫數(shù)據(jù)集,數(shù)據(jù)集的特征維數(shù)是256,每個(gè)數(shù)字包含了1 100 個(gè)樣本。在 0~9 這 10 個(gè)數(shù)字中,手寫時(shí) 3、5、8 三個(gè)數(shù)字容易混淆。因此,在本實(shí)驗(yàn)中選取3、5、8三個(gè)數(shù)字的樣本進(jìn)行實(shí)驗(yàn)。
mfeat 數(shù)據(jù)集是多視圖手寫數(shù)據(jù)集,是UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫的一個(gè)重要組成部分,其中包含了6個(gè)不同的視圖 mfeat-fac、mfeat-fou、mfeat-kar、mfeat-mor、mfeatpix和mfeat-zer。每個(gè)視圖的特征維數(shù)不等,包含2 000個(gè)樣本,其樣本已經(jīng)有標(biāo)簽,即數(shù)字0~9,可用于對(duì)聚類算法分出的類簇進(jìn)行評(píng)估。
4.2.1 歸一化互信息(Normalized Mutual Information,NMI)
互信息用來衡量?jī)蓚€(gè)數(shù)據(jù)分布相關(guān)程度。設(shè)U和V是對(duì)n個(gè)樣本集合X的兩種不同聚類方法,記X={x1,x2,…,xn},U={U1,U2,…,UR},V={V1,V2,…,VC} ,首先定義互信息(MI):
4.2.2 聚類準(zhǔn)確率(Accuracy,ACC)
數(shù)據(jù)集X={x1,x2,…,xn} 包含了n個(gè)樣本,聚類準(zhǔn)確率指的是正確聚類的樣本數(shù)占總樣本的比例。U是實(shí)驗(yàn)得到的聚類結(jié)果,V為數(shù)據(jù)真實(shí)聚類結(jié)果,聚類準(zhǔn)確率公式為:
本文選取了6種經(jīng)典的聚類算法進(jìn)行對(duì)比。(1)k均值聚類算法(k-means clustering algorithm)[29]直接在數(shù)據(jù)集X上進(jìn)行實(shí)驗(yàn)。(2)最小二乘回歸(Least Square Regression,LSR)[1]目標(biāo)是,解析解為低秩表示子空間聚類(Low Rank Representation,LRR)[2]的目標(biāo)是表示系數(shù)矩陣Z的核范數(shù)。(4)稀疏子空間聚類(Sparse Subspace Clustering,SSC)[3]的目標(biāo)是表示系數(shù)矩陣Z的1-范數(shù)。(5)塊約束稀疏圖下的子空間聚類(Block-wise Constrained Sparse Graph,SGB)[18]。(6)塊約束下的集成子空間分割(Ensemble Subspace Segmentation Under Block-wise Constraints,ESSB)[22]。
與SSC、LRR、LSR、SGB 等算法相比,SCAGL 算法通過單視圖數(shù)據(jù)多視圖化將模型推廣到多視圖情形中,該算法不僅適用于單視圖數(shù)據(jù),也可應(yīng)用于多視圖數(shù)據(jù)。另外,與SGB、ESSB算法一樣,SCAGL算法引入了圖正則化項(xiàng),利用了視圖內(nèi)的近鄰信息。與ESSB算法相比,本文提出的算法使用所有視圖的聚類信息來更新相似矩陣,使不同視圖間的信息能夠相互傳遞,由此得到的相似矩陣包含更準(zhǔn)確的聚類信息。幾種算法的對(duì)比參見表1。
表1 與基準(zhǔn)算法的對(duì)比
4.4.1 單視圖數(shù)據(jù)集上的實(shí)驗(yàn)
首先選取3 個(gè)單視圖數(shù)據(jù)集ORL、Isolet 和USPS,為了計(jì)算聚類準(zhǔn)確率和互信息,數(shù)據(jù)集的類簇標(biāo)簽是已知的。
選取6種經(jīng)典聚類算法進(jìn)行對(duì)比,自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類(SCAGL)是本文提出的算法,其目標(biāo)方程為式(8),該算法首先對(duì)數(shù)據(jù)進(jìn)行多視圖化,將單視圖數(shù)據(jù)分割為多視圖數(shù)據(jù),由于分割方式不同,多視圖化可分為順序多視圖化與隨機(jī)多視圖化。因此自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類(SCAGL)可以根據(jù)分割方式分為 SCAGL-original 和 SCAGL-random 兩種,SCAGL-original表示順序多視圖化后的聚類,SCAGL-random表示隨機(jī)多視圖化后的聚類。
對(duì)于這幾種不同的算法,在每個(gè)數(shù)據(jù)集上單獨(dú)執(zhí)行30次實(shí)驗(yàn),取其均值作為評(píng)價(jià)指標(biāo),如表2和表3所示。
表2 在單視圖數(shù)據(jù)集上的聚類準(zhǔn)確率(ACC)
表3 在單視圖數(shù)據(jù)集上的歸一化互信息(NMI)
由表2和表3可見,引入圖正則化項(xiàng)后,算法的聚類性能普遍優(yōu)于沒有圖正則化的算法。而與ESSB實(shí)驗(yàn)結(jié)果相比較,利用所有視圖的聚類信息來迭代更新每個(gè)視圖的相似矩陣比僅僅使用本視圖的信息來更新相似矩陣得到的聚類結(jié)果要好。由此可見,不同視圖間的圖信息的共同利用至關(guān)重要。
表4 在mfeat數(shù)據(jù)集上的聚類準(zhǔn)確率(ACC)
表5 在mfeat數(shù)據(jù)集上的歸一化互信息(NMI)
4.4.2 多視圖數(shù)據(jù)集上的實(shí)驗(yàn)
在多視圖數(shù)據(jù)集mfeat 上進(jìn)行實(shí)驗(yàn)分析,該數(shù)據(jù)集包含了6個(gè)特征維數(shù)不等的視圖。k-means、SSC、LRR、LSR和SGB這5個(gè)算法均是在單視圖數(shù)據(jù)集上展開的,因此可以在該數(shù)據(jù)集的每個(gè)視圖上單獨(dú)進(jìn)行實(shí)驗(yàn),然后計(jì)算出每個(gè)算法在6個(gè)視圖上得到的實(shí)驗(yàn)結(jié)果的均值,如表4和表5所示。
SCAGL、ESSB算法在單視圖數(shù)據(jù)集上首先需要對(duì)數(shù)據(jù)進(jìn)行多視圖化,將單視圖數(shù)據(jù)集分割為多視圖數(shù)據(jù)集,而mfeat本來就是多視圖數(shù)據(jù)集,因此可以直接在這兩個(gè)算法上進(jìn)行實(shí)驗(yàn),得到的聚類準(zhǔn)確率ACC 與歸一化互信息NMI的結(jié)果如表6所示。
表6 在多視圖數(shù)據(jù)集上的ACC和NMI
只能在單視圖數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的算法SSC、LRR、LSR、SGB 和k-means 在 mfeat 數(shù)據(jù)集的每個(gè)視圖上進(jìn)行實(shí)驗(yàn),然后取平均值作為聚類準(zhǔn)確率與歸一化互信息的值;ESSB、SCAGL直接進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖1。
由圖1 可知,本文所提出的算法SCAGL 在多視圖數(shù)據(jù)集上比起其他聚類算法具有較好的聚類性能。
本節(jié)選取ORL 數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn),研究算法中的不同參數(shù)以及視圖分割方式對(duì)聚類結(jié)果產(chǎn)生的影響。選取一個(gè)要研究的變量,固定其他參數(shù)不變,每次進(jìn)行30次實(shí)驗(yàn),取平均值作為評(píng)判指標(biāo)的值。本文研究的參數(shù)有分割率α、誤差項(xiàng)參數(shù)λ、圖正則化項(xiàng)參數(shù)β和算法迭代次數(shù)times。
4.5.1 分割率的影響
在本實(shí)驗(yàn)中采用順序分割(Original)和隨機(jī)分割(Random)兩種分割方式,對(duì)分割率α分別取[0.5,0.25,0.2,0.1,0.05,0.025,0.02,0.01]來進(jìn)行實(shí)驗(yàn)。目的是對(duì)比不同的分割方式與不同的分割率對(duì)算法性能的影響。該實(shí)驗(yàn)使用的其他參數(shù)一致,誤差項(xiàng)參數(shù)λ=8、圖正則化項(xiàng)參數(shù)β=0.02、算法迭代次數(shù)times=60。實(shí)驗(yàn)結(jié)果為圖2。
由圖2 可知,一般情況下,順序分割的性能比隨機(jī)分割的性能好。當(dāng)分割率α=0.05 時(shí),順序分割方法的聚類效果達(dá)到最優(yōu);當(dāng)分割率α=0.1 時(shí),隨機(jī)分割方法的聚類效果達(dá)到最優(yōu)。當(dāng)分割率小于某個(gè)臨界值后,聚類準(zhǔn)確率和互信息的值迅速下降,聚類效果越來越差,由此可見,并不是分割的視圖越多越好。
圖1 (a) 不同算法的準(zhǔn)確率(ACC)
圖1 (b) 不同算法的歸一化互信息(NMI)
圖2 (a) 不同分割率對(duì)算法性能ACC影響
圖2 (b)不同分割率對(duì)算法性能NMI的影響
4.5.2 誤差項(xiàng)與正則化項(xiàng)參數(shù)
在本實(shí)驗(yàn)中采取的分割方式為順序分割,設(shè)置誤差項(xiàng)參數(shù)λ以步長(zhǎng)為2 在[2,22]的范圍內(nèi)變化,圖正則化項(xiàng)參數(shù)β以步長(zhǎng)為0.02在[0.02,0.1]的范圍內(nèi)變化。目的是研究誤差項(xiàng)參數(shù)λ與正則化項(xiàng)參數(shù)β對(duì)算法性能的影響。實(shí)驗(yàn)中其他參數(shù)不變,設(shè)置分割率α=0.2、算法迭代次數(shù)times=50。
由圖3可知,當(dāng)誤差項(xiàng)參數(shù)λ=12,圖正則化項(xiàng)參數(shù)β=0.1 時(shí)算法的聚類性能最好,聚類準(zhǔn)確率ACC 與歸一化互信息NMI達(dá)到了最優(yōu),分別為0.905 3與0.877 6。
圖3 (a) 誤差項(xiàng)參數(shù)與正則化項(xiàng)參數(shù)對(duì)算法性能ACC影響
圖3 (b) 誤差項(xiàng)參數(shù)與正則化項(xiàng)參數(shù)對(duì)算法性能NMI影響
4.5.3 迭代次數(shù)的影響
本實(shí)驗(yàn)中采用兩種分割方式順序分割(Original)和隨機(jī)分割(Random),對(duì)算法的迭代次數(shù)以步長(zhǎng)10 在[20,120]的范圍內(nèi)變化。目的是研究迭代次數(shù)對(duì)算法性能影響。其他參數(shù)設(shè)置為分割率α=0.2、誤差項(xiàng)參數(shù)λ=7、圖正則化項(xiàng)參數(shù)β=0.01。
由圖4可知當(dāng)?shù)螖?shù)達(dá)到50次時(shí),算法性能比較好且趨于穩(wěn)定,所以為了節(jié)約計(jì)算時(shí)間與計(jì)算成本,可以在實(shí)驗(yàn)中設(shè)置迭代次數(shù)在50次左右。
圖4 (a) 迭代次數(shù)對(duì)算法性能ACC的影響
圖4 (b) 迭代次數(shù)對(duì)算法性能NMI的影響
基于譜分析的子空間聚類首先由數(shù)據(jù)構(gòu)造關(guān)聯(lián)矩陣,再對(duì)關(guān)聯(lián)矩陣進(jìn)行譜聚類。因此,聚類的效果依賴關(guān)聯(lián)矩陣的構(gòu)造,本文提出了一種新的自適應(yīng)圖學(xué)習(xí)誘導(dǎo)的子空間聚類算法。首先將單視圖數(shù)據(jù)多視圖化,受多視圖協(xié)同訓(xùn)練思想的啟發(fā),不同視圖間的信息具有一致性和互補(bǔ)性,因此可以利用不同視圖間的類簇信息,自適應(yīng)地迭代更新每個(gè)視圖的圖正則化項(xiàng),優(yōu)化每個(gè)視圖的圖結(jié)構(gòu),得到聚類性能好的塊對(duì)角關(guān)聯(lián)矩陣,然后在關(guān)聯(lián)矩陣上進(jìn)行譜聚類,將樣本聚到不同類簇中。進(jìn)一步將本文算法與已有的聚類算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示了該方法的優(yōu)越性。