劉金花 王 洋 錢宇華
1(山西醫(yī)科大學(xué)汾陽學(xué)院 山西汾陽 032200)
2(北方自動控制技術(shù)研究所 太原 030006)
3(山西大學(xué)大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院 太原 030006)
(liujinhua741852@163.com)
聚類算法作為模式識別、計算機(jī)視覺和機(jī)器學(xué)習(xí)最關(guān)鍵的技術(shù)之一,旨在發(fā)現(xiàn)數(shù)據(jù)內(nèi)部潛在的分區(qū)結(jié)構(gòu).經(jīng)過多年研究許多高效的聚類算法已經(jīng)被提出,如層次聚類的方法、k-means的方法、矩陣分解的方法、譜方法等,然而這些算法都是針對單視圖數(shù)據(jù)的.隨著各種采集技術(shù)的發(fā)展,具有異構(gòu)表示的多視圖數(shù)據(jù)在學(xué)術(shù)界和工業(yè)界大受歡迎[1].例如,圖像可以通過不同描述符來提取特征,如傅里葉形狀描述(Fourier shape description, FSD)、RGB值、尺度不變特征變換(scale-invariant feature transform, SIFT)、梯度方向直方圖(histogram of oriented gradient, HOG)等[2-3];文學(xué)作品被翻譯成各國語言進(jìn)行出版;一則新聞被不同媒體或通過不同形式報道.顯然,多視圖數(shù)據(jù)提供了更豐富的信息來揭示對象的內(nèi)在結(jié)構(gòu)[4].
多視圖聚類的目的是利用來自不同視圖的異構(gòu)信息提供一個綜合的聚類結(jié)果,關(guān)鍵問題是如何有效融合異構(gòu)信息[5-6].現(xiàn)有的多視圖聚類算法有:基于非負(fù)矩陣分解(nonnegative matrix factorization, NMF)的方法、基于圖的方法和基于子空間的方法等.如文獻(xiàn)[7]首次提出了聯(lián)合非負(fù)矩陣分解的多視圖聚類方法,首先通過非負(fù)矩陣分解得到各視圖共享的系數(shù)表示矩陣,然后再對該系數(shù)矩陣執(zhí)行k-means聚類.為了保留原始數(shù)據(jù)局部幾何結(jié)構(gòu),文獻(xiàn)[8]提出了多流形正則化的多視圖非負(fù)矩陣分解算法,該算法使聚類效果得到大大提升.相比之下,基于圖的多視圖聚類算法是學(xué)習(xí)一個各視圖共享的圖信息.Kumar等人[9]利用協(xié)同正則的方法最小化每對視圖之間的差異.聶飛平等人致力于研究自動加權(quán)的基于圖譜的多視圖聚類,典型的模型有AMGL[10](parameter-free auto-weighted multiple graph learning)和SwMC[11](self-weighted multiview clustering with multiple graphs),然而,基于圖的多視圖聚類對輸入的初始圖是敏感的.
近年基于子空間的聚類方法表現(xiàn)出了令人矚目的性能,主要是由于子空間聚類方法是通過子空間自表示的方式來揭示數(shù)據(jù)點之間的關(guān)系,從而構(gòu)建相似圖.文獻(xiàn)[12]提出了潛在的多視圖子空間聚類算法(latent multi-view subspace clustering, LMSC),它們利用不同的投影矩陣將多視圖數(shù)據(jù)映射為一個共同的表示矩陣,然后再進(jìn)行子空間聚類.文獻(xiàn)[13]提出了潛在嵌入空間的多視圖聚類模型(multi-view clustering in latent embedding space, MCLES),也是先將各視圖數(shù)據(jù)映射為共同的表示矩陣,然后再學(xué)習(xí)全局相似圖進(jìn)行譜聚類.文獻(xiàn)[14]利用希爾伯特·施密特獨立準(zhǔn)則(Hilbert-Schmidt independence criterion, HSIC)來捕獲視圖數(shù)據(jù)的多樣性信息來增強(qiáng)多視圖聚類,文獻(xiàn)[15]在子空間表示學(xué)習(xí)中聯(lián)合利用視圖數(shù)據(jù)的一致和互補(bǔ)信息,提出了CSMSC(consistent and specific multiview subspace clustering)算法模型.然而上面提到的子空間多視圖聚類算法都是將學(xué)習(xí)到的各視圖子空間表示的平均值作為譜聚類的輸入,因此文獻(xiàn)[16]和文獻(xiàn)[17]提出了在子空間表示學(xué)習(xí)過程中主動學(xué)習(xí)公共子空間的方法,可仍然無法避免2步策略(最終通過k-means得到聚類結(jié)果)造成的次優(yōu)解.
如何有效地將具有不同維度和不同形式的多視圖數(shù)據(jù)融合成一個信息豐富的結(jié)構(gòu),一直是多視圖聚類的一大挑戰(zhàn).由于數(shù)據(jù)噪聲的存在,而且來自不同視圖的數(shù)據(jù)差異較大,各視圖數(shù)據(jù)構(gòu)造出的圖或系數(shù)矩陣可能會有很大的不同,因此由原始數(shù)據(jù)生成的共同系數(shù)矩陣(如基于NMF的方法),或者由原始數(shù)據(jù)生成的相似圖融合獲得的共享圖數(shù)據(jù)(如基于圖的方法)可能會嚴(yán)重受損,不能真實地反映數(shù)據(jù)點之間的關(guān)系.本文認(rèn)為在聚類結(jié)果階段進(jìn)行信息融合會更有意義,因為這樣來自不同視圖的數(shù)據(jù)在聚類過程中受到較少噪聲的影響,更容易達(dá)成一致.Gao等人[18]提出的多視圖子空間聚類算法(multi-view subspace clustering, MVSC)和文獻(xiàn)[19]提出的多個分區(qū)對齊的聚類算法(multiple partitions aligned clustering, mPAC)就采用了在聚類結(jié)果階段進(jìn)行融合.MVSC為每個視圖學(xué)習(xí)一個相似圖,并強(qiáng)制所有相似圖共享一個共同的類簇指標(biāo)矩陣,但融合方法過于生硬,容易導(dǎo)致大量信息損失.mPAC將每個視圖數(shù)據(jù)生成聚類分區(qū),通過不同的譜旋轉(zhuǎn)矩陣形成一致的聚類指標(biāo)矩陣,這種直接融合為離散結(jié)果的方法過于粗糙,容易出現(xiàn)信息丟失,具體原因在后續(xù)3.4節(jié)進(jìn)行了詳細(xì)分析.因此本文提出了一種基于譜結(jié)構(gòu)融合的多視圖聚類模型,如圖1所示,首先通過子空間自表示方法分別對各視圖進(jìn)行相似圖學(xué)習(xí),接著各自進(jìn)行譜嵌入表示,最后在譜嵌入階段學(xué)習(xí)一個共同的譜結(jié)構(gòu)圖,同時對該譜結(jié)構(gòu)圖進(jìn)行秩約束,使其恰好具有k個連通分量(k為類簇數(shù)).該模型將圖學(xué)習(xí)和譜聚類有效地整合到一個框架中進(jìn)行聯(lián)合優(yōu)化學(xué)習(xí),避免2步策略帶來的次優(yōu)結(jié)果.另外,相比于現(xiàn)有的聚類結(jié)果階段融合的多視圖聚類方法,融合部位前后銜接更自然,有效減少了融合方法過于生硬和粗糙造成的信息丟失.并且,本文在多個公開的多視圖數(shù)據(jù)集上進(jìn)行大量對比實驗,證明了所提模型的優(yōu)越性.
Fig. 1 Framework of proposed algorithm in this paper圖1 本文算法模型框架圖
近年來,子空間自表示學(xué)習(xí)模型被廣泛應(yīng)用于數(shù)據(jù)的相似性學(xué)習(xí).自表示特性認(rèn)為空間中的每個數(shù)據(jù)樣本都可以由同一子空間中其他樣本的線性組合表示[20].給定多視圖數(shù)據(jù)Xv∈dv×N,其中N為樣本數(shù),dv為視圖v的數(shù)據(jù)維度,式(1)為多視圖數(shù)據(jù)的自表示圖學(xué)習(xí):
(1)
式(1)中第1項用于自表示學(xué)習(xí),第2項是正則項,α為這2項的平衡參數(shù).為了使學(xué)習(xí)到的圖是連通的,選用F-范數(shù)正則化.式(1)中Zv為視圖v的自表示系數(shù)矩陣,表明各樣本點之間的相似性.為了避免樣本只被自身表示的平凡解出現(xiàn),增加了約束條件diag(Zv)=0,另外還對Zv進(jìn)行了非負(fù)約束.
基于圖的聚類方法,其性能嚴(yán)重依賴于初始圖的質(zhì)量,傳統(tǒng)的初始圖的構(gòu)建,最常用的是近鄰法.而近鄰的數(shù)量會嚴(yán)重影響圖的質(zhì)量,并且最優(yōu)的近鄰數(shù)會因數(shù)據(jù)集的不同而有很大差異.本文通過子空間自表示的圖學(xué)習(xí)方式,有效規(guī)避了傳統(tǒng)構(gòu)圖時近鄰數(shù)量的選取問題;另外,本算法模型采用的這種圖學(xué)習(xí)方式會隨著模型的優(yōu)化而不斷優(yōu)化.
在獲得了各視圖的相似圖后,就可以通過譜聚類得到各視圖的譜嵌入矩陣:
(2)
(3)
Fig. 2 The spectral block matrix of FFT corresponding five views on the dataset of MSRCV1圖2 MSRCV1數(shù)據(jù)集5個視圖的譜塊結(jié)構(gòu)FFT
這里γ為比例常數(shù),S為全局共享的譜結(jié)構(gòu),F(xiàn)v是各視圖的譜嵌入矩陣,1表示元素全為1的列向量,由于增加了約束條件S1=1,故LS為正則化的拉普拉斯矩陣.另外,為了避免后處理操作帶來性能影響,本文模型對S進(jìn)行了秩約束,要求S嚴(yán)格具有k個連通分量.考慮到各視圖數(shù)據(jù)聚類能力的差異,為各視圖分配權(quán)重w(v),為與S相似的視圖分配大權(quán)值,反之分配小權(quán)值.受多視圖學(xué)習(xí)自動權(quán)重技術(shù)[10-11]的啟發(fā),該權(quán)重可以根據(jù)定理1自動獲得.
定理1.式(3)中權(quán)重w(v)可以定義為
證明.用輔助函數(shù)對其進(jìn)行求解:
(4)
通過拉格朗日乘子法來求解式(4),構(gòu)造的拉格朗日函數(shù)為
(5)
式(5)中Λ為拉格朗日乘子,Θ(Λ,S)是由約束條件導(dǎo)出的.求式(5)關(guān)于S的導(dǎo)數(shù)并令其為0,得到:
(6)
其中:
(7)
證畢.
結(jié)合式(1)~(3)得到了本文的目標(biāo)函數(shù):
(8)
式(8)前2項用于各視圖的相似圖學(xué)習(xí),第3項是各視圖的譜嵌入矩陣學(xué)習(xí),第4項是將各視圖的譜嵌入矩陣融合為具有k個連通分量的共享譜結(jié)構(gòu)S,LZv為各視圖相似圖Zv的拉普拉斯矩陣,LS為共享譜結(jié)構(gòu)圖S的拉普拉斯矩陣,α,β是平衡參數(shù),γ為比例常數(shù),w(v)是各視圖的權(quán)重系數(shù),用來表示各視圖對共享譜結(jié)構(gòu)圖的貢獻(xiàn)程度.
式(8)包含Zv,F(xiàn)v,S這3個變量,若同時考慮3個變量則式(8)是非凸問題,若只考慮其中某個變量式(8)則變成了關(guān)于該變量的凸優(yōu)化問題,因此,本文采用交替迭代的方式對目標(biāo)函數(shù)進(jìn)行優(yōu)化.
2.2.1 更新Zv
固定式(8)中的Fv和S,而只考慮變量Zv,得到:
(9)
(10)
其中,ki∈N×1是一個向量,它的第j個元素為對式(10)求關(guān)于Z:,i的導(dǎo)數(shù)并令其為0,得到了優(yōu)化解:
(11)
2.2.2 更新Fv
固定式(8)中的Zv和S,而只考慮變量Fv,得到關(guān)于Fv的求解:
(12)
式(12)等價于:
(13)
注意:式(13)對各視圖是相互獨立的,那么最優(yōu)的Fv就是求解βZv+2γw(v)S的k個最大的特征值對應(yīng)的k個特征向量.
2.2.3 更新S
固定式(8)中的Zv和Fv,而只考慮變量S,得到關(guān)于S的求解:
(14)
(15)
(16)
這樣整個更新S的問題就轉(zhuǎn)換為求解式(16),而式(16)的優(yōu)化可以分為求解S-子問題和F-子問題2步進(jìn)行:
1)S-子問題
由于式(16)對各列項j是相互獨立的,進(jìn)一步轉(zhuǎn)換為
(17)
其中,sj表示S的j列.
(18)
式(18)是單純形空間上的歐幾里德投影問題,對應(yīng)的拉格朗日函數(shù)為
(19)
其中η,ρ為拉格朗日乘子.根據(jù)Karush-Kuhn-Tucker條件[22]可以得到最優(yōu)解:
(20)
2)F-子問題
對于式(16),去除與F不相關(guān)的項,得到:
(21)
式(21)的最優(yōu)解F由k個最小特征值對應(yīng)的k個特征向量組成.根據(jù)文獻(xiàn)[23],整個更新S的過程可以通過算法1獲得.值得強(qiáng)調(diào)的是,參數(shù)ξ不需要
① http://archive.ics.uci.edu/ml/datasets/Multiple+Features
② http://mlg.ucd.ie/datasets/segment.htm
調(diào)試,而是在迭代的過程中確定.初始化ξ為一個較大的值,當(dāng)連通分量的數(shù)量大于k時增加ξ的值,當(dāng)連通分量的數(shù)量小于k時減少ξ的值,直到S恰好有k個連通分量時停止迭代.
算法1.求解共享譜結(jié)構(gòu)S的算法.
輸入:各視圖譜嵌入矩陣Fv、類簇數(shù)k、參數(shù)ξ;
輸出:具有k個連通分量的譜結(jié)構(gòu)S.
① 初始化S;
② repeat
③ forj=1:Ndo
④ 利用式(20)更新sj;
⑤ end for
⑥S=(S+ST)/2;
⑦ 利用式(21)更新F;
⑧ untilS有k個連通分量.
綜上所述,本文提出的基于譜結(jié)構(gòu)融合的多視圖聚類模型如算法2所示:
算法2.基于譜結(jié)構(gòu)融合的多視圖聚類算法.
輸入:多視圖數(shù)據(jù)Xv,類簇數(shù)k,參數(shù)α,β,γ;
輸出:S.
① 初始化Fv,S,w(v)=1/V;
② while不收斂do
③ forv=1:Vdo
④ 利用式(11)更新Zv;
⑤ 利用式(13)更新Fv;
⑥ 利用式(7)更新w(v);
⑦ end for
⑧ 利用算法1更新S;
⑨ end while
式(8)的第1步是利用式(11)更新Zv,主要計算負(fù)擔(dān)是求矩陣的逆,時間復(fù)雜度為O(n3);第2步更新Fv,主要過程是特征分解,每個視圖都需要計算出βZv+2γw(v)S最大的k個特征向量,因此更新Fv的時間復(fù)雜度為O(knvn2);第3步更新S是單純形空間上的歐氏投影問題,需要O(n)的時間來計算sj,O(t1n)的時間求解式(18),其中t1為算法1迭代次數(shù),需要n次才能計算出sj,?j,所以整個第3步求解式(14)的復(fù)雜度為O((t1+1)n2);因此,本文所提模型總的時間復(fù)雜度為O(n3).
為了充分評估本文模型的有效性,在5個廣泛使用的數(shù)據(jù)集上進(jìn)行聚類驗證實驗,同時與目前已有模型進(jìn)行對比.
實驗配置:1)編程環(huán)境:Matlab 2018a;2)運行環(huán)境:64位Windows10操作系統(tǒng),64 GB內(nèi)存,64核的Intel Xeon Silver 4110處理器.
本文選擇的5個多視圖數(shù)據(jù)集為HW,MSRCV1,BBCSport,ORL,Caltech101-20.各數(shù)據(jù)集的統(tǒng)計信息如表1所示:
Table 1 Statistics of the Datasets表1 數(shù)據(jù)集統(tǒng)計描述
1) HW(HandWritten digit)①是選取自UCI機(jī)器學(xué)習(xí)知識庫的手寫數(shù)字(0~9)數(shù)據(jù)集,每個數(shù)字有200幅圖片,共2 000幅;包含216維的廓線相關(guān)性特征(profile correlations)、76維的傅里葉系數(shù)特征(Fourier coefficients)、64維的卡洛南系數(shù)特征(Karhunen coefficients)、6維的形態(tài)學(xué)特征(morphological)、240維的像素平均特征(pixel average)、47維的尼克矩特征(Zernike moments).
2) MSRCV1是一個被廣泛應(yīng)用的場景識別數(shù)據(jù)集,共包含8個類,每類30幅圖片.本實驗中選擇了飛機(jī)、建筑、自行車、牛、汽車、人臉和樹7個類別.從每幅圖提取5種視圖特征,分別為254維的統(tǒng)計特征變換直方圖(census transform histogram, CENTRIST)、24維的色矩(color moment, CMT)特征、512維的GIST特征、576維的梯度方向直方圖(histogram of oriented gradient, HOG)特征,256維的局部2值模式(local binary pattern, LBP)特征.
3) BBCSport②是一個文本數(shù)據(jù)集,包含544份來自2004—2005年BBC體育網(wǎng)站的體育新聞,涉及商業(yè)、娛樂、政治、體育和技術(shù)5個主題領(lǐng)域.多視圖BBCSport數(shù)據(jù)集是通過將單視圖文檔分割成片段,每個片段至少包含200個字符,并且在邏輯上與它的原始文檔相關(guān)聯(lián).本文選取的是將文檔分割成4個片段,每個片段被隨機(jī)映射為1 991維、2 063維、2 113維和2 158維的文本向量特征,即4個視圖特征.
① http://www.vision.caltech.edu/Image_Datasets/Caltech101/Caltech101.html
4) ORL是一個包含40個主題,每個主題有10幅不同圖像的數(shù)據(jù)集,對于每幅圖像,與文獻(xiàn)[24]相同,也采用生成的4個特征向量,包括512維GIST、59維LBP、864維HOG和254維CENTRIST的特征.
5) Caltech101-20①數(shù)據(jù)集是廣泛使用的圖像數(shù)據(jù)集,是Caltech101的一個子集,Caltech101包含101個類別,而Caltech101-20是從中選取20類,分別是大腦、相機(jī)、臉、渡船、犀牛、寶塔、史努比、扳手、訂書機(jī)、豹子、刺猬、加菲貓、雙目望遠(yuǎn)鏡、摩托車、溫莎椅、車邊、美鈔、停車標(biāo)志、陰陽和水盆.這個數(shù)據(jù)集共有2 386幅圖像,每幅圖像被表示成6個不同的視圖特征,分別為40維小波矩(wavelet moments, WM)特征、254維CENTRIST特征、48維Gabor特征、1984維HOG特征、928維LBP和512維GIST特征.
由于本文采用的數(shù)據(jù)集都含有真實的類別標(biāo)簽,為了獲得一個全面的評價結(jié)果,通過5個廣泛使用的指標(biāo)來評價算法,分別是Acc,NMI,Purity,F(xiàn)-score,ARI.
1) 準(zhǔn)確率(accuracy)記為Acc,用于度量聚類結(jié)果標(biāo)簽(ν)與真實類標(biāo)簽(μ)之間的一一對應(yīng)關(guān)系,計算為
(22)
其中,N為樣本總數(shù),δ(x,y)為指示函數(shù),如果x=y,δ(x,y)=1,否則δ(x,y)=0.map(·)是將簇標(biāo)簽映射到類標(biāo)簽的置換映射函數(shù).
2) 標(biāo)準(zhǔn)化互信息(normalized mutual infor-mation)記為NMI,用來評價聚類結(jié)果和真實類別之間的相近程度.給定數(shù)據(jù)集X(共N個樣本點),設(shè)μ為K個類簇的聚類結(jié)果標(biāo)簽,ν是真實的L個類別的標(biāo)簽,那么NMI計算為
(23)
其中:
(24)
3) 純度(Purity)指被正確聚類的樣本點占總樣本點的百分比,計算為
(25)
其中,gi表示第i個類簇,tj代表第j個真實類別.
4)F-score指標(biāo)是綜合考慮類別間準(zhǔn)確率(precision)和召回率(recall)的調(diào)和值,定義為
(26)
其中:
(27)
式(26)和式(27)中的Cα,Cβ是2個不同的類簇,Nα,β代表在類簇Cα中來自Cβ的實例數(shù),|Cα|和|Cβ|分別代表這2個類簇各自的實例總數(shù).
5) 調(diào)整蘭德系數(shù)(adjusted rand index)記為ARI,也是用來評價聚類結(jié)果與真實結(jié)果的匹配程度的,定義為
(28)
為了評價所提模型的聚類性能,本文將它與現(xiàn)有的多視圖聚類模型進(jìn)行比較,對比模型介紹如下.對于所有對比模型,下載各自作者公開的源代碼,按照下面介紹的參數(shù)設(shè)置進(jìn)行實驗.
1) 經(jīng)典的譜聚類算法(spectral clustering, SC)[25].在單視圖聚類中具有突出效果,本文分別在各個視圖數(shù)據(jù)上進(jìn)行譜聚類操作,采用近鄰方式構(gòu)建圖,并且近鄰數(shù)的取值為5~60且步長為5的一組數(shù),然后選擇聚類結(jié)果最好的進(jìn)行記錄,分別標(biāo)記各視圖結(jié)果為SC_(i)(SC_(1)表示第1個視圖譜聚類結(jié)果),SC_(avg)表示將各視圖的圖取平均值后的聚類結(jié)果,也就是說SC_(avg)是將各視圖特征以均等權(quán)重處理得到的聚類結(jié)果.多視圖聚類是希望利用來自多個視圖的信息比單視圖數(shù)據(jù)獲得更準(zhǔn)確的聚類結(jié)果,增加該對比模型可以清晰看到各模型相比于單視圖的效果.
2) 協(xié)同正則的多視圖譜聚類算法(co-regularized multi-view spectral clustering, ConregSC)[9].通過正則化方法來使得任意2個視圖之間具有一致的聚類結(jié)果,用線性核來測量每對視圖譜嵌入矩陣的相似性,這種通過相似性來尋找一致聚類結(jié)果的方法有別于本文模型.該算法中共涉及2種正則化方案:成對協(xié)同正則化和中心點協(xié)同正則化.而從原文的實驗結(jié)果可以看出成對協(xié)同正則化整體要優(yōu)于中心點協(xié)同正則化,故本文采用成對協(xié)同正則化來進(jìn)行多視圖聚類實驗;另外,協(xié)同正則化參數(shù)λ按照作者建議在0.01~0.05范圍內(nèi)取值,選取最佳結(jié)果進(jìn)行記錄.
3) 無參的自動加權(quán)的多圖學(xué)習(xí)算法AMGL[10].該算法模型通過自動加權(quán)的方式將各視圖生成的圖統(tǒng)一到同一類簇指標(biāo)矩陣.也是采用近鄰方式構(gòu)圖,實驗中近鄰數(shù)的取值與經(jīng)典譜聚類算法一樣,無需指定其他參數(shù).
4) 多圖自加權(quán)的多視圖聚類模型SwMC[11].該算法模型采用秩約束的拉普拉斯算法為各視圖構(gòu)圖作為初始圖,這種構(gòu)圖方法只需要設(shè)置一個近鄰參數(shù)k,根據(jù)文獻(xiàn)[11]中作者建議固定k=10.
5) 多個分區(qū)對齊的聚類算法mPAC[19].該算法通過旋轉(zhuǎn)矩陣對齊每個分區(qū)到一個一致的離散類簇指標(biāo)矩陣.此模型共涉及α,β,γ這3個參數(shù),根據(jù)文獻(xiàn)[19]中作者建議的取值范圍,α∈{0.1,1},β∈{0.01,0.1},γ取值為10-3.
6) 多視圖子空間聚類算法MVSC[18].對于該算法模型,由于文獻(xiàn)[18]的作者在論文中沒有給出具體的參數(shù)設(shè)置建議,本文通過網(wǎng)格搜索的方式調(diào)整參數(shù),最后將2個參數(shù)分別設(shè)置為0.01和1,這樣得到的聚類效果更好.
對于本文模型與文獻(xiàn)[19]和文獻(xiàn)[26]一樣,首先對數(shù)據(jù)進(jìn)行了歸一化處理,使數(shù)據(jù)的取值范圍為-1~1;另外,為避免各算法中后續(xù)k-means隨機(jī)初始化造成的誤差,所涉及到的對比模型都重復(fù)20次實驗,并取平均值和標(biāo)準(zhǔn)偏差值作為最終結(jié)果進(jìn)行記錄.
表2~6是各個多視圖聚類模型在5個公開數(shù)據(jù)集上進(jìn)行聚類的結(jié)果比較,最好的結(jié)果用粗體進(jìn)行了標(biāo)記,從這5個表的結(jié)果可以得出6個結(jié)論:
1) 比較不同視圖下譜聚類的性能,可以看到不同視圖數(shù)據(jù)產(chǎn)生不同的結(jié)果,證實了多視圖的異構(gòu)性.因此,當(dāng)構(gòu)建一個多視圖學(xué)習(xí)模型時,為各視圖分配相應(yīng)的權(quán)值是有必要的.
2) 將各視圖構(gòu)建的圖平均后進(jìn)行聚類的結(jié)果與每個單獨的視圖結(jié)果進(jìn)行比較,可以發(fā)現(xiàn)簡單地對圖進(jìn)行平均可能會得到較好的聚類結(jié)果(如BBCSport和MSRCV1數(shù)據(jù)集),也可能得到不好的結(jié)果(如ORL,Caltech101-20,HW數(shù)據(jù)集).所以,為了獲得可靠的聚類性能,需要設(shè)計一種有效的融合機(jī)制.
3) ConregSC模型也是尋求視圖之間共享的一致結(jié)構(gòu)來進(jìn)行多視圖聚類的,只不過它是通過正則化方法,有別于通過融合的方法來尋求一致聚類結(jié)果(如AMGL,mPAC,MVSC和本文方法),但這種正則化方法在視圖數(shù)較少時,效果還差強(qiáng)人意(如ORL數(shù)據(jù)集上),當(dāng)視圖數(shù)增多時,效果就差了(如MSRCV1,HW,Caltech101-20數(shù)據(jù)集上),而本文方法在視圖特征較多時也能達(dá)到較好的效果.
4) 本文提出的模型始終比SwMC表現(xiàn)好.特別是SwMC模型在BBCSport數(shù)據(jù)集上各指標(biāo)都相對差,尤其ARI值只有0.0653,雖然ARI取值范圍為[-1,1],但這也充分說明了按照文獻(xiàn)[11]的作者建議的近鄰數(shù)k取值10根本無法得到質(zhì)量較好的初始輸入圖.而進(jìn)一步查看該數(shù)據(jù)集上經(jīng)典譜聚類算法在k取值為50時聚類性能才最好.顯然這種近鄰構(gòu)圖方式是不好的,首先最佳近鄰數(shù)很難確定,再則這種方式構(gòu)造的圖只能捕獲數(shù)據(jù)的局部結(jié)構(gòu).而本文模型中圖的學(xué)習(xí)是建立在子空間自表示基礎(chǔ)上,避免了指定近鄰數(shù)的麻煩,而且能夠掌握各個數(shù)據(jù)樣本與其他所有樣本之間的線性組合結(jié)構(gòu).
5) 對于mPAC和MVSC算法,與本文模型相似,都選擇融合的方法尋求一致類簇結(jié)構(gòu).mPAC算法采用子空間自表示來學(xué)習(xí)得到各視圖的相似圖矩陣Si,然后通過譜聚類生成各視圖的嵌入矩陣Fi,唯一不同的是在融合過程中mPAC采用不同的譜旋轉(zhuǎn)矩陣Ri將Fi直接對齊到統(tǒng)一的離散結(jié)果Y.首先該算法中涉及到不同譜旋轉(zhuǎn)矩陣Ri的初始化問題,不同的初始化結(jié)果必然會對最終結(jié)果造成影響.其次,將嵌入矩陣Fi直接對齊到統(tǒng)一的離散結(jié)果Y,多個連續(xù)的矩陣信息跟一個離散結(jié)果對齊,主要依靠旋轉(zhuǎn)矩陣Ri,而Ri又是沒有先驗知識的,這種對齊方式必然會造成不少信息的丟失.
對于MVSC算法,它是將子空間表示學(xué)習(xí)到的各視圖的相似圖Zi,中間沒有經(jīng)過各視圖的譜嵌入矩陣Fi,而將Zi強(qiáng)制融合到同一類簇指標(biāo)矩陣F.這種融合方式過于生硬且粗糙,因為不同視圖的數(shù)據(jù)有很大差異,生成各視圖的相似圖Zi差異也是非常大的,直接融合到同一類簇,必然會造成信息的大量損失.相反,若先對Zi進(jìn)行譜聚類生成Fi,各個視圖的Fi差異會縮小,因為多視圖數(shù)據(jù)本就具有潛在一致的類簇結(jié)果,選擇在這時融合會避免丟失大量信息.
6) 對于AMGL模型,該算法采用的構(gòu)圖方式與SC一樣,同樣是選取近鄰數(shù)最佳的聚類性能進(jìn)行了記錄.但是它將各視圖數(shù)據(jù)構(gòu)建的圖Wi,生成各視圖的拉普拉斯矩陣Li,然后通過自動加權(quán)的方式將各圖統(tǒng)一到同一類簇指標(biāo)矩陣F.該模型只與SC進(jìn)行比較,除了MSRCV1數(shù)據(jù)集,其他數(shù)據(jù)集上聚類性能都不如SC中最好視圖特征的效果.因此可以判定此種融合方式確實沒有將多視圖信息有效利用起來,融合過程出現(xiàn)了信息丟失.
Table 2 Comparison Among Multi-View Clustering Algorithms on BBCSport(Mean±Standard Deviation)表2 在BBCSport數(shù)據(jù)集上的多視圖聚類算法比較(均值±標(biāo)準(zhǔn)差)
Table 3 Comparison Among Multi-View Clustering Algorithms on MSRCV1(Mean±Standard Deviation)
Table 4 Comparison Among Multi-View Clustering Algorithms on ORL(Mean±Standard Deviation)
Table 5 Comparison Among Multi-View Clustering Algorithms on HW(Mean±Standard Deviation)表5 在HW數(shù)據(jù)集上的多視圖聚類算法比較(均值±標(biāo)準(zhǔn)差)
Table 6 Comparison Among Multi-View Clustering Algorithms on Caltech101-20(Mean±Standard Deviation)表6 在Caltech101-20數(shù)據(jù)集上的多視圖聚類算法比較(均值±標(biāo)準(zhǔn)差)
另外,對于表4和表5中本文模型的NMI值都略低于SC算法在ORL的第1個視圖特征和HW的第5個視圖特征上的值.但這里特別要提醒讀者注意的是本文SC算法是從近鄰數(shù)為5~60且步長為5的一組數(shù)中選取結(jié)果最好的進(jìn)行記錄.而且由于需要后續(xù)k-means獲得聚類結(jié)果,為了避免初始化誤差,重復(fù)20次實驗取平均值和方差記錄的結(jié)果.再看表4和表5的NMI和ARI指標(biāo),它們都是具有一定偏差的.而本文模型是一個統(tǒng)一的框架直接可以獲得聚類結(jié)果,是不存在偏差的.從這個角度看,本文模型在這2個指標(biāo)雖然略低,但整體性能優(yōu)于其他算法.
總之,本文提出模型選擇利用譜結(jié)構(gòu)進(jìn)行多視圖數(shù)據(jù)融合,在5個數(shù)據(jù)集上均表現(xiàn)出相對較好的性能.這在很大程度上是由于學(xué)習(xí)到了質(zhì)量較好的樣本間的相似圖,并且選擇融合的部位(譜結(jié)構(gòu)融合)和采用的融合方式(加權(quán)策略)相比已有算法信息損失更少,另外,對融合后的結(jié)構(gòu)進(jìn)行秩約束,使得整個過程有機(jī)整合到了一個統(tǒng)一框架中,有效避免外接k-means聚類2步策略造成的次優(yōu)化問題.
本文算法共涉及3個需要調(diào)試的參數(shù)α,β,γ,先在小數(shù)據(jù)集(BBCSport)上以網(wǎng)格搜索的方式進(jìn)行參數(shù)的選擇,3個參數(shù)的初始取值范圍均設(shè)置為{10-5,10-4,10-3,10-2,10-1,1,10},通過實驗結(jié)果再進(jìn)一步調(diào)整各參數(shù)的取值范圍,然后選擇合適的參數(shù)范圍應(yīng)用到大的數(shù)據(jù)集上進(jìn)行實驗.由于參數(shù)α在取值為10時各數(shù)據(jù)集的聚類都能取得較好結(jié)果,因此最終固定參數(shù)α=10.接著結(jié)合BBCSport數(shù)據(jù)集上各參數(shù)的實驗結(jié)果,以O(shè)RL和MSRCV1數(shù)據(jù)集為例,再次進(jìn)行實驗查看β和γ這2個參數(shù)對聚類指標(biāo)Acc,NMI,Purity的影響,如圖3所示.可以看出這2個數(shù)據(jù)集,β∈{10-4,10-3,10-2},γ∈{4,6,8,10}時,本文算法的性能相對穩(wěn)定且較好,同樣地,在更大的數(shù)據(jù)集Caltech101-20和HW上進(jìn)行實驗,發(fā)現(xiàn)聚類結(jié)果較好的參數(shù)α,β,γ都穩(wěn)定在上述范圍.
Fig. 3 Sensitivity analysis of parameters for our method over MSRCV1 and ORL dataset evaluated with Acc, NMI and Purity圖3 用Acc,NMI,Purity對MSRCV1和ORL數(shù)據(jù)集參數(shù)的敏感性分析
Fig. 4 Convergence curves of objective function on four data sets圖4 目標(biāo)函數(shù)在4個數(shù)據(jù)集上的收斂曲線
本文提出的多視圖聚類模型,與已有模型不同,它尋求在譜嵌入結(jié)構(gòu)層進(jìn)行多視圖信息的融合.同時擺脫了傳統(tǒng)受近鄰數(shù)影響的構(gòu)圖方法,而采用自表示的子空間學(xué)習(xí)方式將圖學(xué)習(xí)與譜聚類整合在統(tǒng)一的框架下進(jìn)行聯(lián)合優(yōu)化學(xué)習(xí),并且通過秩約束的方式來學(xué)習(xí)一個由各視圖共享的恰好具有k個連通分量的譜結(jié)構(gòu)圖,這樣不需要任何后處理步驟就可以直接獲得聚類分配結(jié)果.另外,針對本文模型提出了一種高效的優(yōu)化算法.在5個基準(zhǔn)數(shù)據(jù)集上與已有模型進(jìn)行大量對比實驗驗證了本文模型的有效性和優(yōu)越性.
多視圖聚類是大數(shù)據(jù)算法研究中的關(guān)鍵,本文提出的算法模型雖然克服了現(xiàn)有算法中的多處不足,但仍然存在不完善之處,需要后續(xù)更深入的研究和探索.
作者貢獻(xiàn)聲明:劉金花負(fù)責(zé)算法模型的提出、實驗結(jié)果的整理與分析、文章的撰寫與修訂;王洋負(fù)責(zé)對比實驗的執(zhí)行與參數(shù)的調(diào)試;錢宇華提出研究方向,把握論文創(chuàng)新性,提供實驗平臺,并指導(dǎo)論文修訂.