王麗娟,張霖,尹明,郝志峰,蔡瑞初,溫雯
(1.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006;2.廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣州 510006;3.汕頭大學(xué),廣東 汕頭 515063)
聚類是一種無(wú)監(jiān)督的大規(guī)模數(shù)據(jù)分析算法,在過(guò)去的幾十年中,許多經(jīng)典聚類算法被提出。經(jīng)典的聚類算法包含但不限于標(biāo)準(zhǔn)譜聚類[1](Spectral Clustering,SC)、稀疏子空間聚類[2](Sparse Subspace Clustering,SSC)和低秩表示[3](Low-Rank Representation,LRR)等。盡管這些算法取得了較好的成果,但其僅考慮單視圖數(shù)據(jù),忽略了來(lái)自不同的特征集或異構(gòu)源的信息。
在現(xiàn)實(shí)生活中,目標(biāo)對(duì)象通常由來(lái)自不同視圖的信息表示,即數(shù)據(jù)可以由多個(gè)不同的特征集或多個(gè)異構(gòu)源來(lái)描述。例如,一幅圖像可用像素強(qiáng)度、梯度方向直方圖(Histogram of Oriented Gradient,HOG)和局部二值模式(Local Binary Pattern,LBP)等不同的圖像特征來(lái)描述。在生物醫(yī)學(xué)研究中,不同細(xì)胞的化學(xué)結(jié)構(gòu)和反應(yīng)都可以用來(lái)代表某種藥物,而序列和基因表達(dá)值可以在不同方面代表某種蛋白質(zhì)[4]。多視圖數(shù)據(jù)提供來(lái)自不同視圖的豐富底層信息,只有所有視圖結(jié)合在一起才能準(zhǔn)確、真實(shí)地表示對(duì)象。為了充分利用多視圖信息,近年來(lái)研究人員提出了許多多視圖聚類算法[5-7]。
考慮到多個(gè)視圖特征共同描述同一數(shù)據(jù),因此不同視圖之間應(yīng)該存在許多共享信息。如何將多個(gè)視圖集成在一起,從不同的視圖中提取一致的底層信息,是多視圖聚類需要重點(diǎn)解決的問(wèn)題?;诖?,研究人員提出一些有效的多視圖聚類算法,主要分為圖學(xué)習(xí)(或圖融合)和譜學(xué)習(xí),圖學(xué)習(xí)通過(guò)學(xué)習(xí)一致性圖對(duì)多視圖數(shù)據(jù)進(jìn)行聚類。文獻(xiàn)[8]通過(guò)學(xué)習(xí)多個(gè)單一圖,繼而將學(xué)習(xí)到的多個(gè)圖集成到具有k個(gè)分量的全局圖中。文獻(xiàn)[9]利用拉普拉斯矩陣上的秩約束學(xué)習(xí)一致性圖,無(wú)需后處理步驟直接從圖本身獲得聚類分配結(jié)果。譜學(xué)習(xí)通過(guò)直接學(xué)習(xí)或構(gòu)建公共子空間學(xué)習(xí)一致性表示,從而獲取多視圖數(shù)據(jù)之間的一致性信息。例如,自適應(yīng)加權(quán)Procrustes[5](Adaptively Weighted Procrustes,AWP)利 用 PA(Procrustes Analysis)技術(shù)從譜嵌入中恢復(fù)了一致性聚類指標(biāo)矩陣。文獻(xiàn)[6]提出一種結(jié)合非負(fù)嵌入和譜嵌入的多視角譜聚類(NESE)算法,該算法在統(tǒng)一框架中同時(shí)學(xué)習(xí)非負(fù)嵌入和譜嵌入,其中非負(fù)嵌入直接揭示了一致的聚類結(jié)果,從而提升聚類性能。文獻(xiàn)[10]表明,挖掘多視圖數(shù)據(jù)之間的底層一致性,對(duì)于提高多視圖聚類性能非常重要。
綜上所述,挖掘多視圖數(shù)據(jù)之間的底層一致信息是一項(xiàng)至關(guān)重要和具有挑戰(zhàn)性的工作。本文提出一種基于正交基的多視圖遷移譜聚類(Orthogonal basis-based Multiview Transfer Spectral Clustering,OMTSC)算法。OMTSC 算法同時(shí)學(xué)習(xí)每個(gè)視圖的聚類分配矩陣和特征嵌入,并將聚類分配矩陣分解為共享正交基矩陣和聚類編碼矩陣。其中正交基矩陣包含一組潛在的聚類中心,即每個(gè)多視圖樣本可以有效地分配給多個(gè)不同權(quán)重的類。同時(shí),引入基于二部圖的協(xié)同聚類來(lái)控制和實(shí)現(xiàn)多視圖之間的知識(shí)遷移,發(fā)現(xiàn)多視圖之間的一致性信息,維護(hù)各個(gè)視圖的特征流形信息。在此基礎(chǔ)上,通過(guò)從正交基矩陣和特征嵌入遷移知識(shí)來(lái)獲取每個(gè)視圖聚類任務(wù)的聚類編碼矩陣,將正交基矩陣和加權(quán)聚類編碼矩陣相結(jié)合學(xué)習(xí)多視圖聚類分配矩陣,從而得到最終聚類指標(biāo)。
本節(jié)將介紹文中用到的符號(hào)以及遷移學(xué)習(xí)和單(多)視圖譜聚類的相關(guān)工作。
在本文中,X={X(1),X(2),…,X(V)}表示V個(gè)視圖的數(shù)據(jù)矩陣,表示第v個(gè)視圖的數(shù)據(jù)矩陣,其中,dv表示第v個(gè)視圖的特征數(shù)目,n表示樣本總數(shù)目,對(duì)應(yīng)于第v個(gè)視圖的第(i,j)個(gè)元素,I和1 表示對(duì)角線元素為1 的單位矩陣。
遷移學(xué)習(xí)[11-13]的目的是通過(guò)遷移源領(lǐng)域的知識(shí)來(lái)提高目標(biāo)學(xué)習(xí)者在目標(biāo)領(lǐng)域中的表現(xiàn),其在文檔分類[11]、情感分類[14]、協(xié)同訓(xùn)練[15]等許多數(shù)據(jù)挖掘領(lǐng)域中都取得較好的效果。協(xié)同訓(xùn)練考慮在只有一小組標(biāo)記樣本的情況下,通過(guò)遷移相關(guān)知識(shí)給無(wú)標(biāo)記樣本,從而提高學(xué)習(xí)算法的性能。
文獻(xiàn)[16]基于協(xié)同訓(xùn)練提出一種雙視圖譜聚類算法,即二部圖協(xié)同聚類。該算法通過(guò)在兩個(gè)視圖之間遷移相關(guān)知識(shí),達(dá)到提升多視圖聚類性能的目的。二部圖的相似矩陣定義為:
其中:A∈?d×n為數(shù)據(jù)矩陣,d和n分別表示特征個(gè)數(shù)和樣本個(gè)數(shù)。
對(duì)應(yīng)的圖拉普拉斯矩陣定義為:
其中:D1=diag(A1);D2=diag(AT1)。
二部圖協(xié)同聚類的目標(biāo)函數(shù)表示如下:
其中:向量x為特征嵌入;向量y為樣本嵌入。可將式(3)轉(zhuǎn)化為:
文獻(xiàn)[17]提出一種無(wú)監(jiān)督特征選擇算法,即同時(shí)正交基聚類特征選擇(Simultaneous Orthogonal basis Clustering Feature Selection,SOCFS)算法。該算法旨在利用目標(biāo)矩陣通過(guò)正交基聚類獲取投影數(shù)據(jù)點(diǎn)的潛在聚類中心,繼而引導(dǎo)投影矩陣選擇判別特征。給出特征權(quán)重矩陣G∈?d×m,目標(biāo)矩陣K∈?m×n,SOCFS正交基聚類部分表示如下:
其中:目標(biāo)矩陣K可直接對(duì)投影的數(shù)據(jù)點(diǎn)GTA進(jìn)行聚類。因此,允許K擁有額外的自由度,將其分解為正交基矩陣BK∈?m×c和聚類指標(biāo)矩陣EK∈?n×c,即K=BET。施加在BK上的正交約束保證了BK的每一列是獨(dú)立的,即BK由投影的數(shù)據(jù)點(diǎn)GTA的正交基構(gòu)成。此外,BK的列可以看作是相應(yīng)聚類中心的方向。施加在EK上的正交和非負(fù)約束使得EK的每一行只有一個(gè)非零元素。因此,可以利用K=BET來(lái)尋找潛在的聚類中心,從而更好地分離聚類。
本節(jié)主要介紹通用的單視圖譜聚類算法[15]。假設(shè)存在n個(gè)數(shù)據(jù)點(diǎn),需將其分成c個(gè)類。譜聚類第1 步是構(gòu)造一個(gè)無(wú)向相似圖G={X,W},其中,X∈?d×n為頂點(diǎn)集,W∈?n×n為對(duì)應(yīng)的相似矩陣,W中的元素wi,j定義為每對(duì)頂點(diǎn)(xi,xj)的相似性,可通過(guò)式(7)計(jì)算:
其中:N(x*)為搜索x*的k近鄰函數(shù)。
通過(guò)求解一個(gè)特征值分解問(wèn)題得到原始數(shù)據(jù)的譜嵌入,即:
其中:P∈?n×c為聚類分配矩陣;L∈?n×n為圖拉普拉斯矩陣,可由L=I-W定義。求解得出的最優(yōu)P是L最小的k個(gè)特征值對(duì)應(yīng)的特征向量。最后,對(duì)聚類分配矩陣P進(jìn)行k-means 聚類,返回k-means 的聚類結(jié)果作為最終指標(biāo)。
其中:α(v)是一個(gè)非負(fù)歸一化系數(shù),可以反映不同視圖的權(quán)重;r是一個(gè)標(biāo)量,用于控制權(quán)重在不同視圖上的分布;L(v)為第v個(gè)視圖的圖拉普拉斯矩陣;F為求解得出的一致性嵌入,即多視圖聚類分配矩陣。
在實(shí)際應(yīng)用中,數(shù)據(jù)往往由多個(gè)不同的特征集或多個(gè)異構(gòu)源來(lái)描述,即多視圖數(shù)據(jù)。單視圖譜聚類[15,20-22]并不能獨(dú)立地處理多視圖數(shù)據(jù),并且聚類性能一般。為解決這一問(wèn)題,近年來(lái)研究人員在單視圖聚類的基礎(chǔ)上提出多視圖聚類算法。多視圖譜聚類通過(guò)最大化多視圖一致性來(lái)提高聚類性能。因此,如何最大化多視圖一致性成為一個(gè)關(guān)鍵問(wèn)題。
現(xiàn)有的多視圖聚類算法[5-7]通過(guò)學(xué)習(xí)一致性嵌入或者一致性圖來(lái)挖掘多視圖一致性,但其存在不足之處:一是多視圖一致性信息挖掘不充分;二是無(wú)法有效地平衡不同視圖的質(zhì)量差異。本文OMTSC算法與現(xiàn)有算法的不同之處在于:OMTSC 分解一致性表示,即聚類分配矩陣,分別學(xué)習(xí)正交基矩陣和聚類編碼矩陣。一方面,正交基矩陣可以捕獲并儲(chǔ)存多視圖一致性;另一方面,聚類編碼矩陣通過(guò)加權(quán)融合,可更好地平衡不同視圖的質(zhì)量差異。并且OMTSC 算法利用二部圖充分挖掘多視圖數(shù)據(jù)的一致性和多樣性,通過(guò)多樣性提升一致性的學(xué)習(xí)性能。
本文工作的主要貢獻(xiàn)如下:
1)提出一種基于正交基的多視圖遷移譜聚類(OMTSC)算法。該算法在一個(gè)統(tǒng)一框架中學(xué)習(xí)聚類分配矩陣和特征嵌入。
2)聚類分配矩陣可分解為正交基矩陣和聚類編碼矩陣。正交基矩陣保留潛在的聚類中心,并捕獲多視圖數(shù)據(jù)之間的一致性信息。
3)OMTSC 算法學(xué)習(xí)特征嵌入,借助其多樣性并最大限度地優(yōu)化多視圖一致性。
為有效地挖掘多視圖數(shù)據(jù)之間的一致性,本節(jié)提出基于正交基的多視圖遷移譜聚類(OMTSC)算法。
OMTSC 算法沿用文獻(xiàn)[17]采用正交基聚類發(fā)現(xiàn)潛在的聚類中心的思想,可將每個(gè)視圖的聚類分配矩陣P分解為兩個(gè)子矩陣,即共享正交基矩陣B∈?c×c和一個(gè)聚類編碼矩陣E(v)∈?n×c。聚類分配矩陣可表示為P(v)=E(v)B,則傳統(tǒng)多視圖譜聚類可以演化為以下形式:
其中:為第v個(gè)視圖的歸一化圖拉普拉斯矩陣;W(v)為第v個(gè)視圖的相似矩陣;D(v)=diag(W(v)1)。對(duì)聚類編碼矩陣施加的正交約束促使E(v)的每一行只有一個(gè)元素。E(v)的每一行元素選擇了B中的一行,這是一個(gè)將多個(gè)樣本分配給不同聚類的過(guò)程。對(duì)正交基矩陣B施加的正交約束促使B的每一行相互獨(dú)立。因此,本文利用B來(lái)細(xì)化潛在的聚類中心,從而捕獲多視圖數(shù)據(jù)之間的一致性信息,以獲得更好的聚類性能。
OMTSC 算法為更好地學(xué)習(xí)多視圖一致性,通過(guò)優(yōu)化學(xué)習(xí)到的正交基矩陣B,并致力于進(jìn)一步細(xì)化潛在的聚類中心。本文為每個(gè)視圖構(gòu)建對(duì)應(yīng)的特征嵌入,其中k為降維數(shù)目。受文獻(xiàn)[16]采用基于二部圖協(xié)同聚類來(lái)控制和實(shí)現(xiàn)兩個(gè)任務(wù)之間的知識(shí)遷移的啟發(fā),OMTSC 引入二部圖協(xié)同聚類,并將多個(gè)視圖連接在一起。不同于二部圖協(xié)同聚類算法,OMTSC 適用于多視圖聚類任務(wù)。考慮到B是多視圖數(shù)據(jù)的共同聚類中心,它可以在多個(gè)視圖之間進(jìn)行遷移。B可將在上一視圖捕獲到的一致性知識(shí)遷移到下一視圖,從而促進(jìn)下一視圖的學(xué)習(xí)和優(yōu)化。同時(shí),OMTSC 通過(guò)從正交基矩陣B和特征嵌入A(v)遷移知識(shí)來(lái)獲取并優(yōu)化每個(gè)視圖聚類任務(wù)的聚類編碼矩陣E(v)。其相關(guān)模型如下:
在多視圖之間遷移的正交基矩陣B,基于多視圖數(shù)據(jù)一致性原則,可以促進(jìn)一致性信息的學(xué)習(xí),多視圖譜聚類任務(wù)可以從共同聚類中心學(xué)習(xí)的角度相互遷移一致性知識(shí)。以二部圖為橋梁,B可將一致性知識(shí)遷移給A(v),從而促使當(dāng)前視圖更好地學(xué)習(xí)A(v)。得益于協(xié)同聚類,A(v)可從多視圖數(shù)據(jù)中提取重要特征。具有群稀疏約束的A(v)可提升處理每個(gè)視圖的帶噪和高維特征的能力,同時(shí)提高被提取特征的多樣性和完整性。在A(v)提取的多樣性信息的基礎(chǔ)上,B可通過(guò)二部圖有選擇性地提取多視圖一致性知識(shí),從而進(jìn)一步細(xì)化潛在的聚類中心。此外,從A(v)和B遷移知識(shí)給E(v),有利于優(yōu)化E(v)。同時(shí),E(v)借助其特異性,有效提升多視圖一致性。
其中:λ為每個(gè)視圖的譜聚類與協(xié)同聚類目標(biāo)之間的權(quán)衡;μ為稀疏因子。當(dāng)λ和μ設(shè)置為0 時(shí),該模型將退化為具有共同聚類中心的多視圖譜聚類?,F(xiàn)有的多視圖聚類算法[5-7]通過(guò)學(xué)習(xí)一致性嵌入或者一致性圖來(lái)挖掘多視圖一致性。其不足之處在于:一是多視圖一致性信息挖掘不充分,MVGL 算法[8]和MCGC 算法[9]由于沒(méi)有去除冗余信息或考慮噪聲矩陣,將對(duì)學(xué)習(xí)到的一致性圖造成影響;二是無(wú)法有效地平衡不同視圖的質(zhì)量差異。譜聚類的性能在很大程度上取決于相似矩陣的質(zhì)量。Co-Reg 算法[23]完全忽略了不同視圖相似矩陣之間的質(zhì)量差異,AASC 算法[24]為每個(gè)視圖分配了一個(gè)特定的權(quán)重,但這并不能很好地解決不同相似矩陣之間的質(zhì)量差異。由于譜嵌入具有嚴(yán)格的一致性約束,AASC 算法很有可能學(xué)習(xí)到較差的譜嵌入。本文提出的OMTSC 算法旨在解決上述問(wèn)題。
在多視圖聚類任務(wù)中,正交基矩陣B迭代遷移一致性知識(shí),聚類編碼矩陣E(v)對(duì)單個(gè)視圖聚類任務(wù)進(jìn)行編碼。一方面,B可捕獲并儲(chǔ)存多視圖一致性信息,形成潛在聚類中心;另一方面,加權(quán)聚類編碼矩陣可更好地平衡不同視圖的質(zhì)量差異。特征嵌入A(v)和B在二部圖上相互遷移知識(shí),從而相互促進(jìn)彼此的學(xué)習(xí)和優(yōu)化。
本節(jié)將主要探討對(duì)OMTSC 算法模型的優(yōu)化。顯而易見,直接解決問(wèn)題式(14)是一項(xiàng)具有挑戰(zhàn)性的工作,由于它是非凸的,因此本文采用一種交替方向策略來(lái)優(yōu)化多變量問(wèn)題。首先固定B、A(v)和α(v)更新E(v),然后固定E(v)、A(v)和α(v)更新B,繼而固定E(v)、B和α(v)更新A(v),最后固定E(v)、B和A(v)更新α(v)。重復(fù)以上步驟直至目標(biāo)模型收斂。
下面簡(jiǎn)單介紹更新的過(guò)程:
首先明確更新E(v)和B的重點(diǎn),由于對(duì)E(v)和B施加正交約束,因此E(v)和B實(shí)際上是位于Stiefel流形上,這個(gè)問(wèn)題可以通過(guò)對(duì)流形的反復(fù)更新來(lái)解決,如果E(v)和B不在流形上,則通過(guò)更新其在流形上的投影來(lái)求解。在迭代過(guò)程中,Stiefel 流形由以下命題定義:
命題1假設(shè)一個(gè)秩為p的矩陣Z,Z在Stiefel 流形上的投影可以定義為:
引入一個(gè)變量S來(lái)分離上述問(wèn)題,即:
針對(duì)上述問(wèn)題,本文采用ADMM 算法,其增廣拉格朗日形式如下:
其中:Y是拉格朗日乘數(shù)。
然后對(duì)于下面問(wèn)題:
有封閉(closed-form)解,即:
算法1基于正交基的多視圖遷移譜聚類
本節(jié)選用3 個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并同時(shí)與9 種聚類算法進(jìn)行比較,以此評(píng)估OMTSC 算法的聚類性能。最后分析OMTSC 算法的時(shí)間復(fù)雜度、收斂性和參數(shù)靈敏性。
本文選用3 個(gè)真實(shí)數(shù)據(jù)集來(lái)評(píng)估多視圖數(shù)據(jù)聚類的性能。實(shí)驗(yàn)數(shù)據(jù)集包括人臉、圖像和文本數(shù)據(jù)。數(shù)據(jù)集詳細(xì)信息如表1 所示。
表1 數(shù)據(jù)集信息Table 1 Introduction to datasets
ORL[27]是人臉識(shí)別領(lǐng)域流行的人臉數(shù)據(jù)庫(kù),共有400 個(gè)樣本,分為40 個(gè)類,可由3 個(gè)視圖描述,分別是強(qiáng)度特征、LBP 特征和Gabor 特征。
WikipediaArticles 可分為30 個(gè)類,由于其中一些類很少,因此選取其中10 個(gè)最受歡迎的類,選取的數(shù)據(jù)集共有693 個(gè)樣本。
COIL20[28]是一個(gè)圖像數(shù)據(jù)集,共有1440幅圖像,可分為20類,對(duì)于每幅圖像提取3 個(gè)不同的特征向量,包括強(qiáng)度特征、LBP 特征和Gabor 特征。
本文選用1 種單視圖聚類算法和8 種多視圖聚類算法,與OMTSC 算法進(jìn)行比較。下文簡(jiǎn)要介紹對(duì)比算法:
1)SC-Best[15]。SC-Best 算法對(duì)每個(gè)視圖中的特征進(jìn)行標(biāo)準(zhǔn)的譜聚類,并由實(shí)驗(yàn)者手動(dòng)選擇最佳的聚類性能作為最終的聚類結(jié)果。
2)CoReg SPC[23]。該算法通過(guò)對(duì)聚類假設(shè)進(jìn)行共正則化,使不同的視圖保持一致。
3)AASC[24]。該算法將相似矩陣聚集在一起進(jìn)行譜聚類。
4)RMSC[29]。該算法為多視圖聚類恢復(fù)了一個(gè)共享的低秩轉(zhuǎn)移概率矩陣。
5)MVGL[8]。該算法從不同的單視圖中學(xué)習(xí)全局圖。由于秩約束,因此聚類指標(biāo)直接由全局圖獲得。
6)MVGC[9]。該算法利用拉普拉斯矩陣上的秩約束學(xué)習(xí)一致性圖,并利用拉普拉斯矩陣直接獲取聚類標(biāo)簽。
7)AWP[5]。該算法利用PA技術(shù)從譜嵌入中恢復(fù)一致性聚類指標(biāo)矩陣。
8)WMSC[7]。該算法利用不同視圖的歸一化拉普拉斯矩陣的特征向量張成子空間之間的最大標(biāo)準(zhǔn)角,它可衡量不同視圖聚類結(jié)果之間的差異性。因此,最小化標(biāo)準(zhǔn)角可以為所有視圖帶來(lái)更好的聚類一致性。
9)NESE[6]。該算法在統(tǒng)一框架中同時(shí)學(xué)習(xí)非負(fù)嵌入和譜嵌入,其中非負(fù)嵌入直接揭示了一致的聚類結(jié)果,從而提升聚類性能。
本文對(duì)每種算法分別進(jìn)行了10 次實(shí)驗(yàn),通過(guò)比較各評(píng)估指標(biāo)的均值和標(biāo)準(zhǔn)差對(duì)比聚類性能。所有算法的聚類結(jié)果由3 個(gè)評(píng)估指標(biāo)測(cè)量:即聚類精度(Accuracy,ACC)、歸一化互信息(Normalized Mutual Information,NMI)、調(diào)整蘭特指數(shù)(Adjusted Rand Index,ARI)。對(duì)于每個(gè)評(píng)估指標(biāo),指標(biāo)值越大,結(jié)果越好。
3 個(gè)數(shù)據(jù)集的聚類結(jié)果如表2~表4 所示,其中,粗體字體是最優(yōu)結(jié)果,下劃線字體是次優(yōu)結(jié)果,表中數(shù)值為均值±標(biāo)準(zhǔn)差。SC-Best 是SC 在單一視圖下得到的最佳結(jié)果。
表2 不同算法在WikipediaArticles 數(shù)據(jù)集上的聚類結(jié)果Table 2 Clustering results of different algorithms in WikipediaArticles dataset
表3 不同算法在COIL20 數(shù)據(jù)集上的聚類結(jié)果Table 3 Clustering results of different algorithms in COIL20 dataset
表4 不同算法在ORL 數(shù)據(jù)集上的聚類結(jié)果Table 4 Clustering results of different algorithms in ORL dataset
由表2~表4 可以得出以下結(jié)論:
1)在以上3 個(gè)數(shù)據(jù)集中,OMTSC 算法的聚類性能均優(yōu)于其他算法。特別是在與WikipediaArticles、ORL 數(shù)據(jù)集上的次優(yōu)結(jié)果相比,OMTSC 算法在ARI指標(biāo)上的提升超過(guò)了近5%。
2)值得注意的是大多數(shù)對(duì)比算法在不同的數(shù)據(jù)集上的性能并不穩(wěn)定。比如NESE 算法在COIL20數(shù)據(jù)集上取得次優(yōu)結(jié)果,然而在另外兩個(gè)數(shù)據(jù)集上的性能并不理想,而OMTSC 算法在不同數(shù)據(jù)集上保持著最優(yōu)結(jié)果。這是因?yàn)镹ESE 算法是直接學(xué)習(xí)一致性嵌入,而OMTSC 算法將一致性嵌入分解為公共正交基矩陣和聚類編碼矩陣,考慮多視圖的一致性和不同視圖的特異性,并在模型優(yōu)化過(guò)程中促進(jìn)兩者的相互學(xué)習(xí)。同時(shí),利用每個(gè)視圖特征嵌入的多樣性來(lái)捕獲多視圖潛在的一致性。
3)與SC-Best 算法和CoReg 算法相比,OMTSC算法可以充分挖掘多視圖一致性,捕獲潛在聚類中心,并有效消除視圖中的噪聲和不重要信息,從而提升其聚類性能。其中,SC-Best 算法需要對(duì)每個(gè)視圖分別進(jìn)行聚類,然后手動(dòng)選擇最佳性能視圖,故不適用于實(shí)際應(yīng)用。而CoReg 算法完全忽略了視圖相似矩陣之間的質(zhì)量差異,對(duì)學(xué)習(xí)到的一致的特征向量集有很大影響。OMTSC 算法考慮了不同視圖的顯著差異,它通過(guò)學(xué)習(xí)加權(quán)聚類編碼矩陣,可以很好地平衡不同視圖相似矩陣之間的質(zhì)量差異。
4)ORL和COIL20數(shù)據(jù)集都有3個(gè)視圖,其中視圖的特征數(shù)目大多超過(guò)3 000 個(gè)。由于ORL 和COIL20 數(shù)據(jù)集的高維性,其中存在一些噪聲和冗余信息。OMTSC 算法基于群稀疏約束的特征嵌入,可有效消除視圖中的噪聲,降低視圖中高維和噪聲特征對(duì)聚類性能的影響??梢钥闯?,與ORL數(shù)據(jù)集上的MVGL 算法相比,OMTSC 算法在ACC上的提升超過(guò)了近10%;與COIL20 數(shù)據(jù)集上的MCGC 算法相比,OMTSC 算法在AR 上的提升超過(guò)了近10%。這可能是因?yàn)镸VGL 算法和MCGC算法沒(méi)有去除冗余信息或噪聲矩陣。
綜上所述,本文提出的OMTSC 算法在聚類性能及穩(wěn)定性上,均優(yōu)于其他先進(jìn)的多(單)視圖聚類算法。
不同算法的時(shí)間復(fù)雜度如表5 所示。由算法1可知,OMTSC 算法可分為2 個(gè)子問(wèn)題。對(duì)于第1 個(gè)問(wèn)題,涉及計(jì)算一個(gè)正交基矩陣B和多個(gè)聚類編碼矩陣E(v)的投影,其計(jì)算包括矩陣乘積和加法,時(shí)間復(fù)雜度為O(n2k)。為了尋求投影,需要對(duì)E(v)和B進(jìn)行奇異值分解。已知對(duì)于m×n矩陣,奇異值分解的時(shí)間復(fù)雜度為O(min{mn2,m2n})。因此,計(jì)算正交基矩陣B和聚類編碼矩陣E(v)及投影的時(shí)間復(fù)雜度為O((t1+t2)(n2k))。其中t1和t2分別是E(v)和B單次優(yōu)化過(guò)程的更新迭代次數(shù)。對(duì)于第2 個(gè)問(wèn)題,OMTSC 算法計(jì)算新的特征嵌入A(v)的時(shí)間復(fù)雜度為O(n2k),新的變量S的時(shí)間復(fù)雜度為O(max(n2D,n3)k),Y的時(shí)間復(fù)雜度可忽略不計(jì)。因此,OMTSC 算法優(yōu)化迭代部分的總時(shí)間復(fù)雜度為O(t3((t1+t2)n2k+max(n2D,n3)k)),其中t3是優(yōu)化過(guò)程的總迭代次數(shù)。
表5 不同算法的時(shí)間復(fù)雜度Table 5 Time complexity of different algorithms
在OMTSC 算法中存在有3 個(gè)參數(shù):λ為每個(gè)視圖的譜聚類與協(xié)同聚類目標(biāo)之間的權(quán)衡;μ為稀疏因子;r是一個(gè)標(biāo)量,用于控制權(quán)重在不同視圖上的分布。根據(jù)ORL 和WikipediaArticles 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,分析以上參數(shù)對(duì)聚類評(píng)估指標(biāo)ACC 的敏感性,其結(jié)果如圖1 所示。
1)當(dāng)固定r=2 時(shí),將參數(shù)λ和μ設(shè)置為[0.000 1,10 000],結(jié)果如圖1(a)、圖1(b)所示??梢钥闯觯贠RL 和WikipediaArticles 數(shù)據(jù)集中,當(dāng)λ=[0.000 1,1]和μ=[0.000 1,10 000]時(shí),算法能取得最優(yōu)性能。由此可知,參數(shù)λ對(duì)OMTSC 算法的性能較敏感,參數(shù)μ對(duì)OMTSC 算法的性能不敏感。
2)在ORL 數(shù)據(jù)集上,固定參數(shù)λ=0.1和μ=0.001;在WikipediaArticles 數(shù)據(jù)集上,固定參數(shù)λ=1和μ=1。同時(shí),將參數(shù)r設(shè)置為[2,10]。結(jié)果如圖1(c)、圖1(d)所示。由此可知,在這兩個(gè)數(shù)據(jù)集上,當(dāng)r=2 時(shí)算法能取得最優(yōu)性能。
圖1 不同參數(shù)下OMTSC 算法在ORL 和WikipediaArticles 數(shù)據(jù)集上的聚類性能Fig.1 Clustering performance of OMTSC algorithm on ORL and WikipediaArticles datasets with different parameters
本節(jié)采用ORL 和WikipediaArticles 數(shù)據(jù)集來(lái)評(píng)估OMTSC 算法的收斂性。當(dāng)更新E(v)和B時(shí),對(duì)應(yīng)的更新問(wèn)題分別是E(v)和B的連續(xù)函數(shù),故只要步長(zhǎng)t1和t2足夠小,其值便可單調(diào)遞減。一般來(lái)說(shuō),步長(zhǎng)t1和t2越小,所需的迭代次數(shù)就越大。本文設(shè)定t1=t2=1。根據(jù)式(14),ADMM 算法[30-31]給出詳細(xì)的解釋,并說(shuō)明了如何保證該算法的收斂性。
本文提出了一種基于正交基的多視圖遷移譜聚類(OMTSC)算法。將每個(gè)視圖的聚類分配矩陣分解為正交基矩陣和一個(gè)聚類編碼矩陣,正交基矩陣通過(guò)捕獲并儲(chǔ)存多視圖一致性,獲取多視圖數(shù)據(jù)的潛在聚類中心。同時(shí),基于加權(quán)聚類編碼矩陣,OMTSC 可以更好地平衡不同視圖之間的質(zhì)量差異。通過(guò)引入?yún)f(xié)同聚類控制和實(shí)現(xiàn)知識(shí)遷移,在二部圖上同時(shí)學(xué)習(xí)優(yōu)化特征嵌入和聚類分配矩陣。在此基礎(chǔ)上,利用特征嵌入的多樣性最大化多視圖一致性,學(xué)習(xí)最優(yōu)的潛在聚類中心,進(jìn)而提升多視圖聚類性能。此外,本文設(shè)計(jì)一種交替迭代優(yōu)化算法對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,在3 種真實(shí)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。下一步將考慮構(gòu)造自適應(yīng)圖,以更好地發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在關(guān)系,提升聚類性能。