国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于相似圖投影學(xué)習(xí)的多視圖聚類

2024-02-18 23:40:14趙偉豪林浩申曹傳杰楊曉君

趙偉豪 林浩申 曹傳杰 楊曉君

摘 要:隨著數(shù)據(jù)來源方式的多樣化發(fā)展,多視圖聚類成為研究熱點(diǎn)。大多數(shù)算法過于專注利用圖結(jié)構(gòu)尋求一致表示,卻忽視了如何學(xué)習(xí)圖結(jié)構(gòu)本身;此外,一些方法通?;诠潭ㄒ晥D進(jìn)行算法優(yōu)化。為了解決這些問題,提出了一種基于相似圖投影學(xué)習(xí)的多視圖聚類算法(multi-view clustering based on similarity graph projection learning,MCSGP),通過利用投影圖有效地融合了全局結(jié)構(gòu)信息和局部潛在信息到一個共識圖中,而不僅是追求每個視圖與共識圖的一致性。通過在共識圖矩陣的圖拉普拉斯矩陣上施加秩約束,該算法能夠自然地將數(shù)據(jù)點(diǎn)劃分到所需數(shù)量的簇中。在兩個人工數(shù)據(jù)集和七個真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)中,MCSGP算法在人工數(shù)據(jù)集上的聚類效果表現(xiàn)出色,同時在涉及21個指標(biāo)的真實(shí)數(shù)據(jù)集中,有17個指標(biāo)達(dá)到了最優(yōu)水平,從而充分證明了該算法的優(yōu)越性能。

關(guān)鍵詞:多視圖聚類; 投影學(xué)習(xí); 相似圖; 圖融合

中圖分類號:TP391?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號:1001-3695(2024)01-016-0102-06

doi:10.19734/j.issn.1001-3695.2023.05.0195

Multi-view clustering based on similarity graph projection learning

Abstract:With the diversified development of data sources, multi-view clustering has become a research hotspot. Most algorithms focus too much on using graph structure to seek consistent representation, but ignore how to learn the graph structure itself. In addition, some methods are usually optimized based on fixed views. In order to solve these problems, this paper proposed a multi-view clustering algorithm based on similarity graph projection learning(MCSGP), which effectively fused the global structure information and local potential information into a consensus graph by using the projection graph, rather than only pursuing the consistency of each view with the consensus graph. By imposing a rank constraint on the graph Laplacian matrix of the consensus graph matrix, this algorithm could naturally divide the data points into the required number of clusters. In the experiments on two artificial datasets and seven real datasets, the MCSGP algorithm shows excellent clustering effect on artificial data sets. At the same time, in the real datasets involving 21 indicators, 17 indicators reach the optimal level, which fully proves the superior performance of the proposed algorithm.

Key words:multi-view clustering; projection learning; similarity graph; graph fusion

0 引言

隨著現(xiàn)代信息技術(shù)的發(fā)展,信息獲取途徑不斷增多,人們從社交媒體、移動應(yīng)用程序到各種傳統(tǒng)媒體中收集數(shù)據(jù)的形式也變得越來越多樣化,例如一個圖片存在HOG特征、LBP特征和Haar特征等多種類型的圖像特征。在人們的日常生活中,由于信息不足,若僅基于一個圖像特征對圖像進(jìn)行聚類會導(dǎo)致聚類性能降低。由于可以從數(shù)據(jù)的不同視圖中獲得不同的信息,多視圖聚類所獲得的信息量遠(yuǎn)大于單視圖聚類。在多視圖聚類中,如何提取有用的信息并綜合不同視圖的信息進(jìn)行聚類,已成為一個挑戰(zhàn)。

多視圖聚類算法是一種處理多源異構(gòu)數(shù)據(jù)的有效方法,在這個過程中,研究人員采用不同的思路和技術(shù)去融合有用的信息來提高整體的聚類性能?,F(xiàn)有多視圖算法大致可分為多視圖協(xié)同訓(xùn)練算法、多視圖共正則化算法、多視圖多核聚類算法、基于子空間多視圖聚類算法、基于圖的多視圖聚類算法等。

在考慮多視圖一致性問題下,協(xié)同訓(xùn)練算法被廣泛研究和應(yīng)用,這類算法旨在最大限度地實(shí)現(xiàn)所有觀點(diǎn)(視圖)達(dá)成一致,達(dá)到最廣泛的共識。此外,研究人員也研究了協(xié)同訓(xùn)練算法的多個擴(kuò)展版本,如co-EM[1]、聯(lián)合正則化[2]、聯(lián)合聚類[3]等。多核學(xué)習(xí)最初是為了擴(kuò)大核函數(shù)搜索空間,以提高模型的泛化能力。傳統(tǒng)的核學(xué)習(xí)算法通常使用固定的核函數(shù),如線性核、多項(xiàng)式核和高斯核等?;诙嗪藢W(xué)習(xí)的多視圖聚類旨在優(yōu)化組合一組預(yù)定義的核,以提高聚類性能。在這類算法中,一個核心問題就是如何選擇合適的核函數(shù),并將這些核函數(shù)進(jìn)行最優(yōu)的組合以完成聚類任務(wù)。在單視圖場景下基于最大間隔聚類[4],Zhao等人[5]提出了一種多核聚類算法,可以同時找到最大間隔超平面、最佳聚類和最優(yōu)核。De Sa等人[6]基于最小化不一致性算法構(gòu)建了自定義核組合方法。Yu等人[7]將經(jīng)典的K-means聚類擴(kuò)展到Hilbert空間,其中多視圖數(shù)據(jù)矩陣被表示為核矩陣,然后自動組合用于數(shù)據(jù)融合。低秩張量約束多視圖子空間聚類是由Zhang等人[8]提出的一種基于子空間的多視圖聚類算法,該算法借助潛在空間的理論,假設(shè)存在一個多視圖數(shù)據(jù)可以共同表示的潛在表示,將多個視圖的數(shù)據(jù)映射到潛在表示下,利用潛在表示的聯(lián)系和互補(bǔ)性進(jìn)行聚類。其中,子空間聚類算法常用的方法包括子空間學(xué)習(xí)[9~11]和非負(fù)矩陣分解。子空間學(xué)習(xí)通常假設(shè)每個視圖的數(shù)據(jù)分布在一個低維子空間中,而非負(fù)矩陣分解則假設(shè)數(shù)據(jù)可以表示為非負(fù)基向量的線性組合。Xu等人[12]提出了一種新的帶有平滑權(quán)重的自定步長算法,該算法繼承了logistic函數(shù)的優(yōu)點(diǎn),并提供了概率權(quán)重,以緩解局部極小值問題。雖然這些多視圖算法[13~17]在不同的數(shù)據(jù)集下取得了較好的結(jié)果,但依然存在下面幾個問題:a)目前多視圖譜聚類算法中大部分采用預(yù)先構(gòu)造一個共識圖的方法,這種方法首先利用其他單視圖算法獲取每個不同視圖的相似圖,然后固定這些相似圖執(zhí)行聚類融合任務(wù),未能很好地利用不同視圖的信息互補(bǔ)性以更新相似圖;b)以往許多研究都集中在共識圖與不同視圖相似圖之間的差異,并采用加權(quán)策略來調(diào)整視圖權(quán)重,然而這種差異本身就是存在的,若過度關(guān)注于同視圖相似圖和共識圖的本身差異,則會忽略兩者之間的關(guān)聯(lián)性;c)不同視圖形成相似圖的概率本身并沒有精確地描述數(shù)據(jù)之間的關(guān)系,而是表征了一種可能的關(guān)系,這種關(guān)系更多地反映了整體數(shù)據(jù)的部分信息映射到相似圖中的結(jié)果。不同視圖提供的信息是由整體數(shù)據(jù)的總信息與某種關(guān)系共同作用的結(jié)果,但是這種關(guān)系并未得到充分的展現(xiàn)。

為了解決上述問題,本文提出一種基于相似圖投影學(xué)習(xí)的多視圖聚類(multi-view clustering based on similarity graph projection learning,MCSGP)。a)該算法將投影學(xué)習(xí)和多視圖譜聚類融合為一個框架,并聯(lián)合優(yōu)化投影矩陣、局部相似學(xué)習(xí)和多視圖譜聚類,通過這種方式有助于獲得可靠性高的相似度圖,并最終提高聚類性能;b)該算法采用了互相促進(jìn)的方法來學(xué)習(xí)每個視圖的圖和共識圖,而非使用固定的相似圖,從而進(jìn)一步提高了聚類的性能,具體而言,該方法通過投影圖將不同視圖上的信息融合在共識圖中,而不再是專注地利用圖結(jié)構(gòu)尋求一致表示,運(yùn)用投影圖去學(xué)習(xí)圖結(jié)構(gòu)本身,借助投影圖減少了視圖之間的互補(bǔ)性信息,不會產(chǎn)生共識圖丟失重要信息的影響,因此該算法能夠保證每次更新后視圖的互補(bǔ)性信息不會大量減少,并將視圖信息也融合到共識圖中,以促進(jìn)學(xué)習(xí)到的共識圖更好地分為不同的聚類簇;c)為了求解聯(lián)合優(yōu)化問題,設(shè)計(jì)了一種有效的交替迭代方法。實(shí)驗(yàn)結(jié)果表明,MCSGP算法在人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集中均表現(xiàn)出了較好的性能,證明了其優(yōu)越性。

1 相關(guān)工作

1.1 符號定義

1.2 自適應(yīng)鄰居聚類

譜聚類是一種基于圖論和矩陣分析的無監(jiān)督學(xué)習(xí)算法,在處理非凸、非線性的數(shù)據(jù)中獲得的聚類效果較好。譜聚類的構(gòu)造方式可以通過調(diào)整相似度矩陣或拉普拉斯矩陣來適應(yīng)不同的數(shù)據(jù)類型和聚類需求。在譜聚類中,構(gòu)造鄰接矩陣時,對于每個邊的權(quán)重需要用高斯核函數(shù)來構(gòu)造。Nie等人[18]提出在自適應(yīng)近鄰學(xué)習(xí)中,通過對每個數(shù)據(jù)點(diǎn)分配基于局部連通性的自適應(yīng)和最優(yōu)鄰居來學(xué)習(xí)數(shù)據(jù)相似度矩陣S,并用實(shí)驗(yàn)驗(yàn)證相似度矩陣稀疏會對噪聲具有魯棒性,極大地提高了聚類效果。目標(biāo)函數(shù)為

s.t.i, sTi1=1,0≤si≤1,F(xiàn)∈RApn×c,F(xiàn)TF=I(1)

其中:拉普拉斯矩陣LS=D-(S+ST)/2;度矩陣D是一個對角矩陣,其對角線第i個元素dii=(sij+sji)/2;F∈RApn×c是譜嵌入矩陣,由LS矩陣的c個最小特征值對應(yīng)的特征向量組成,c是聚類的類別數(shù)。上述自適應(yīng)近鄰學(xué)習(xí)(CAN)的單視圖聚類算法可直接使用在多視圖聚類中,故目標(biāo)函數(shù)為

其中:svij是第v個視圖中相似度矩陣Sv里的第i行、第j列的元素。過去的研究[18]表明,通過樣本間的局部相似性可以更準(zhǔn)確地刻畫樣本之間的關(guān)系。

1.3 相似圖學(xué)習(xí)

在多視圖聚類的圖形學(xué)習(xí)中,MVGL[19]提出了構(gòu)建共識圖的思路,首先對每個視圖運(yùn)用CAN算法,得到每個視圖的相似圖Sv,然后從多個視圖的相似圖中學(xué)習(xí)得到一個統(tǒng)一的共識圖A,最后對共識圖進(jìn)行一個拉普拉斯秩約束。在基于圖的多視圖聚類中,對MVGL進(jìn)行了改進(jìn)。GMC[20]模型首先在每個視圖的原始樣本空間Xv分別學(xué)習(xí)到自身視圖的相似度誘導(dǎo)圖Sv,為了融合不同視圖的相似圖,GMC引入了一個共識的相似度圖U,并使每個Sv盡可能地與U達(dá)到一致,主要是將視圖的一致性信息融合進(jìn)去。其中wv使每個視圖都是自動加權(quán)的,并且相似圖矩陣和統(tǒng)一圖矩陣是聯(lián)合學(xué)習(xí)的,以便它們能夠以相互加強(qiáng)的方式相互幫助。考慮到每個視圖的貢獻(xiàn)可能是不同的,GMC的目標(biāo)函數(shù)為

其中:U是學(xué)習(xí)得來的共識相似度矩陣。這里忽略每個視圖的相似度圖可能本身差異性就較大,而使用的約束是wv‖U-Sv‖2F,該約束項(xiàng)側(cè)重于增強(qiáng)視圖之間的共性,以盡可能使每個視圖的自身相似圖一致,但是沒有充分利用視圖之間的差異性。在更新過程中,視圖的相似圖由于趨于一致而損失了自身視圖的信息量,這可能會影響下一次更新共識圖矩陣的準(zhǔn)確性。為了更好地利用視圖間的互補(bǔ)性信息,在每次更新過程中需要保持視圖的互補(bǔ)性信息不減少。

2 MCSGP聚類算法

2.1 MCSGP模型

為了將每個視圖的相似圖學(xué)習(xí)到一起,MCSGP算法也將引入一個共識的相似度圖U,并且假設(shè)每個視圖的相似度圖Sv是由共識相似度圖投影得到的,本文模型使用核范數(shù)來度量誤差,所構(gòu)建的約束為

其中:Pv是投影矩陣。每個視圖樣本之間的關(guān)系主要是通過將整個共識圖樣本之間的關(guān)系投影到視圖空間中獲得的,這樣可以避免每個視圖的相似圖逐漸趨于一致的問題,并且減少了在更新過程中損失視圖間互補(bǔ)性信息的風(fēng)險。此外,這種方法還可以獲得每個視圖中的信息,并將其融合到共識圖中。為更好地將共識相似度圖合理地劃分為c個聚類簇,在GMC算法啟發(fā)下,本文也引入rank(LU)=n-c約束項(xiàng),其中LU=DU-(U+UT)/2。矩陣的秩約束直接求解并不能有效地得到目標(biāo)函數(shù)的解。令υi(LU)為LU的第i個最小的特征值。由于LU

其中:β、γ、λ是目標(biāo)函數(shù)的超參數(shù),用于平衡每個約束項(xiàng)之間的權(quán)重。在整體的目標(biāo)函數(shù)中,本文通過投影關(guān)系將多視圖數(shù)據(jù)的共識相似圖與每個視圖的相似圖融合在一起。此外,多視圖相似度圖和共識圖之間的相互學(xué)習(xí)可以改善不同視圖與共識圖的映射關(guān)系,并且能夠生成更符合實(shí)際映射關(guān)系的投影圖。接下來,采用一種交替迭代優(yōu)化方法(alternating direction method of multipliers,ADMM)來求解式(5),即目標(biāo)函數(shù)。

2.2 優(yōu)化求解

本文提出的多視圖聚類模型的目標(biāo)函數(shù)是高度耦合的,難以一次性求解每個變量。為了解決這個問題,本文將目標(biāo)函數(shù)分解為四個子問題,并采用交替迭代優(yōu)化方法對每個變量進(jìn)行優(yōu)化求解。通過這種方式可以有效地降低問題的復(fù)雜度,提高求解效率,并且保證每個變量的優(yōu)化問題都能得到充分的考慮和處理。

1)固定Pv、U、F,更新Sv 當(dāng)其余參數(shù)固定時,目標(biāo)函數(shù)最后一項(xiàng)變?yōu)槌A?,目?biāo)函數(shù)等價于

注意到式(6)中不同的i對應(yīng)的svi之間是相互獨(dú)立的,因此可以對每個svi分別求解該問題。

定義dvij=‖xvi-xvj‖22和Qv=PvU,將qvi∈RApn×1定義為向量,屬于Qv中的第i列。式(6)可以寫成向量的形式:

由式(7)根據(jù)現(xiàn)有的約束項(xiàng)構(gòu)建拉格朗日函數(shù):

其中:μ為拉格朗日系數(shù)標(biāo)量;ξ為拉格朗日系數(shù)向量。由上式對svi求導(dǎo)并令求導(dǎo)為零,即得到

根據(jù)Karush-Kuhn-Tucker(KKT)條件求解得到

根據(jù)文獻(xiàn)[21]中的解法,限制svi有k個非零元素,則

又因約束條件1Tsvi=1,則

由式(11)(12)綜合可得

為了約束svi有k個非零元素的最優(yōu)解,可得

根據(jù)式(11)(12)(14),聯(lián)立可得Sv最終的更新公式為

2)固定Sv、U、F,更新Pv 當(dāng)其余參數(shù)固定時,目標(biāo)式(3)只有第三項(xiàng)依然是變量,目標(biāo)函數(shù)等價于

對于任意矩陣,‖M‖2F=Tr(MMT)都成立??蓪⑹剑?6)推導(dǎo)為

通過簡單替換,模型變?yōu)?/p>

其中:A=UUT,B=USv。為了求解式(18),本文引入文獻(xiàn)[22]中的定理來解決此模型。可以將式(18)中的Stiefel流形上的二次問題進(jìn)一步松弛為

其中:W=(Pv)T,通過式(20)對W求導(dǎo)為0,且由文獻(xiàn)[22]可得到

定理1 用UΣVT表示M∈RApm×n的奇異值分解,則Z=UVT是式(19)的解。

arg max Tr(ZTM)

s.t. ZTZ=I(22)

其中:UTU=VTV=Ir;Σ∈RApr×r為非奇異對角矩陣,其對角線上的元素為矩陣B的奇異值λi;r=rank(M)。

根據(jù)定理1,式(18)的最優(yōu)解為

Pv=WT=(UVT)T(23)

其中:U和V是M的左、右奇異向量矩陣。

3)固定Sv、F、Pv,更新U 當(dāng)其他參數(shù)固定時,目標(biāo)式(5)可推導(dǎo)為

由于Pv是投影矩陣,且符合(Pv)TPv=I,而且投影矩陣是固定的,可繼續(xù)優(yōu)化公式得

由于‖AB‖F(xiàn)≤‖A‖F(xiàn)‖B‖F(xiàn)和‖Pv‖F(xiàn)=‖(Pv)T‖F(xiàn),式(26)的第二部分一起優(yōu)化,將矩陣轉(zhuǎn)換成矩陣各個元素即

其中:dfij=‖fi-fj‖22,Ev=PvSv,evij是矩陣Ev中第i行、第j列的元素。因式(27)的變量為U,‖Pv‖2F是一個固定量,可當(dāng)做常數(shù)。注意到問題對不同的i是獨(dú)立的,因此對每個ui分別求解式(27),可優(yōu)化為

進(jìn)一步將dfi表示為向量,對應(yīng)第j個元素為dfij,將evi表示為向量,對應(yīng)第j個元素為evij。將問題等價于求解如下問題:

4)固定Sv、Pv、U,更新F 優(yōu)化問題即為解決以下問題:

則最優(yōu)解F由拉普拉斯矩陣LU最小c個特征值對應(yīng)的c個特征向量組成。算法1總結(jié)了MCSGP的所有操作流程。

5)初始化 在實(shí)際實(shí)驗(yàn)過程中,本文初始化相似圖(SIG)矩陣,每個視圖的SIG矩陣是獨(dú)立的,這里以Sv為例。

其中:bvij=‖xvi-xvj‖22和k是近鄰個數(shù)。設(shè)投影矩陣Pv初始化為單位矩陣,共識相似圖矩陣U為

算法1 MCSGP

輸入:具有m個視圖的多視圖數(shù)據(jù)集{Xv}mv=1,聚類數(shù)c,初始化參數(shù)β、γ、λ。

輸出:Sv、Pv、U,F(xiàn)。

初始化:通過式(31)(32)(30)來初始化Sv、U、F以及初始化Pv為單位矩陣;

重復(fù)執(zhí)行:

通過式(15)來優(yōu)化Sv;

通過式(23)來優(yōu)化Pv;

通過式(29)來優(yōu)化U;

通過式(30)來優(yōu)化F;

直到目標(biāo)函數(shù)收斂

2.3 復(fù)雜度分析

本節(jié)分析MCSGP算法的計(jì)算成本,該算法主要由相似圖構(gòu)造、投影圖構(gòu)造、共識相似圖構(gòu)造和譜聚類四部分組成。對應(yīng)的復(fù)雜度分別為O(mnk),O(m3n3),O(cn),O(cn2)。其中m代表視圖數(shù),n代表樣本數(shù),c代表聚類,由于n>>m并且n>>c,本文算法的復(fù)雜度主要計(jì)算投影圖的構(gòu)造過程。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 人工數(shù)據(jù)集實(shí)驗(yàn)

本文使用了兩個被廣泛應(yīng)用的人工數(shù)據(jù)集,分別是:a)TwoMoon數(shù)據(jù)集,由兩個視圖組成,每個視圖包含兩個月球形簇,添加0.12%的高斯隨機(jī)噪聲,每個類別包含100個樣本點(diǎn);b)ThreeRing數(shù)據(jù)集,由三個視圖組成,每個視圖都由三個同圓心但不同半徑的圓組成,并且添加了隨機(jī)高斯噪聲,每個類分別包含30、90和180個樣本點(diǎn)。

圖1和2顯示了TwoMoon和ThreeRing中兩個視圖的聚類過程。圖2(b)展示了兩個視圖最原始的相似矩陣構(gòu)造圖,兩個類之間的數(shù)據(jù)點(diǎn)是有連接的部分,說明類群之間的相連不易分離;圖2(c)展示了兩個視圖通過目標(biāo)函數(shù)迭代學(xué)習(xí)到的相似矩陣構(gòu)造圖,可以發(fā)現(xiàn),其與圖2(b)部分?jǐn)?shù)據(jù)點(diǎn)之間的邊被削弱,部分邊被對應(yīng)地加強(qiáng);圖2(d)展示了三個圓形聚類得到了很好的分離,這是因?yàn)镸CSGP算法通過投影圖,充分利用了不同視圖相似矩陣的差異性信息,并在共識圖中融合它們。在人工數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法能夠很好地融合不同視圖的信息互補(bǔ)性,利用投影圖可以最大程度地保留每個視圖的信息,同時在共識圖中融合這些信息,從而實(shí)現(xiàn)視圖間的信息交互。

3.2 真實(shí)數(shù)據(jù)集實(shí)驗(yàn)

本節(jié)旨在對七個真實(shí)的多視圖數(shù)據(jù)集進(jìn)行評估,以驗(yàn)證本文算法的有效性。表1介紹了這些數(shù)據(jù)集的相關(guān)信息。

a)BBC數(shù)據(jù)集,它是一個包含685篇文章的合成文本數(shù)據(jù)集,這些文章來自BBC新聞網(wǎng)站。每個文檔分為四個部分,對五個主題標(biāo)簽中的一個進(jìn)行人工標(biāo)注。

b)100Leaves數(shù)據(jù)集,它是一個包含16種不同植物葉片的數(shù)據(jù)集,每種都有100個樣本。對于每個樣本,給出了形狀描述符、細(xì)比例邊界和紋理直方圖。

c)ORL數(shù)據(jù)集,它是一個包含400張不同人臉的圖像數(shù)據(jù)集,是由英國劍橋的Olivetti研究實(shí)驗(yàn)室在1992—1994年期間創(chuàng)建的。該數(shù)據(jù)集包括40個不同人的圖像,每個人有10張圖像,此外,該數(shù)據(jù)集還包括4個視圖。

d)MSRC_v1數(shù)據(jù)集,它是一個包含210張圖像和7個類的數(shù)據(jù)集,數(shù)據(jù)來自劍橋微軟研究院,是帶有粗粒度標(biāo)記的圖像。

e)3sources數(shù)據(jù)集,它是包含169條新聞組成的多視圖文本語料庫。該數(shù)據(jù)集由三個在線新聞服務(wù)的文章組成,包括英國廣播公司、路透社和《衛(wèi)報》的三個視圖,每個視圖有169個新聞,共分為6個類別。

f)WebKB數(shù)據(jù)集,它是包含四所大學(xué)的計(jì)算機(jī)科學(xué)系收集的網(wǎng)頁數(shù)據(jù),共4個類別以及203個網(wǎng)頁樣本。每個網(wǎng)頁通過頁面的內(nèi)容、超鏈接的錨文本以及標(biāo)題中的文本進(jìn)行描述。

g)HW2sources數(shù)據(jù)集,它是一個包含2 000個手寫數(shù)字的圖片數(shù)據(jù)集,來自UCI存儲庫,其中每個樣本都是手寫數(shù)字之一(0~9)。數(shù)據(jù)來源于HW數(shù)據(jù)集里的兩個視圖。

用于比較的11種多視圖聚類算法分別是SC_best、基于聯(lián)合非負(fù)矩陣分解的多視圖聚類(multi-view clustering via joint nonnegative matrix factorization,MultiNMF)[24]、譜聚類的親和聚合(affinity aggregation for spectral clustering,AASC)[25]、自適應(yīng)加權(quán)過程進(jìn)行多視圖聚類(multiview clustering via adaptively weighted procrustes,AWP)[26]、共正則化多視圖光譜聚類(co-regularized multi-view spectral clustering,CoReg)[27]、多視圖共識圖聚類 (multiview consensus graph clustering,MCGC)[28]、多視圖聚類的圖形學(xué)習(xí)(graph learning for multiview clustering,MVGL)[19] 、基于低秩和稀疏分解的魯棒多視角譜聚類(robust multi-view spectral clustering via low-rank and sparse decomposition,RMSC)[29]、基于圖的多視圖聚類(graph-based multi-view clustering,GMC)[20]、基于深度非負(fù)矩陣分解的多層流形學(xué)習(xí)多視圖聚類(multi-layer manifold learning for deep non-negative matrix factorization-based multi-view clustering,ODD-NMF)[30]、基于集成的快速多視圖聚類(fast multi-view clustering via ensembles: towards scalability,superiority,and simplicity)[31]。其中SC_best是在真實(shí)數(shù)據(jù)集中每個視圖實(shí)驗(yàn)過程中進(jìn)行譜聚類,取單個視圖中最好的聚類效果。為了減少部分對比算法初始化帶來的隨機(jī)性,將每種對比算法重復(fù)執(zhí)行10次,并取其平均聚類效果值,本文算法和對比算法在真實(shí)數(shù)據(jù)集的聚類性能結(jié)果如表2~4所示。

3.3 聚類實(shí)驗(yàn)結(jié)果

在本次實(shí)驗(yàn)中,對樣本數(shù)據(jù)進(jìn)行歸一化處理,并采用三種常用的評價指標(biāo),即準(zhǔn)確度(accuracy,ACC)、歸一化互信息(normalized mutual information,NMI)、純度(purity,PUR)。對于這三個指標(biāo),數(shù)值顯示越高,證明聚類性能越好。如表2~4所示,在這次實(shí)驗(yàn)過程中,對相同數(shù)據(jù)集的實(shí)驗(yàn)性能,不同算法聚類性能最優(yōu)算法用黑體加粗,次優(yōu)算法加下畫線。具體來看,在ORL、MSRC_v1、WebKB、BBC和HW2sources數(shù)據(jù)集上,顯示了本文算法優(yōu)于其他對比算法,三個指標(biāo)都占優(yōu)。在BBC、100Leaves和3sources數(shù)據(jù)集上顯示本文算法在部分指標(biāo)上占優(yōu),尤其是3sources和WebKB數(shù)據(jù)集,準(zhǔn)確度遠(yuǎn)遠(yuǎn)領(lǐng)先于次優(yōu)算法,分別提高了6.51%和6.77%。在WebKB數(shù)據(jù)集中,MCSGP算法在互信息量指標(biāo)下的聚類效果也顯著優(yōu)于其他算法,該算法能夠?qū)W習(xí)到樣本間的局部相似性以及視圖間的互補(bǔ)性,將每個視圖的互補(bǔ)性信息映射到共識相似矩陣中,從而獲得一個更優(yōu)的聚類效果。

3.4 參數(shù)敏感性分析

在本文實(shí)驗(yàn)過程中,有三個超參數(shù)需要手動調(diào)整,分別是視圖正則化參數(shù)β、視圖投影權(quán)重系數(shù)γ、譜聚類權(quán)重參數(shù)λ。為了直觀地說明參數(shù)對聚類性能的影響,本文在BBC數(shù)據(jù)集上進(jìn)行了基于ACC和NMI的參數(shù)分析實(shí)驗(yàn)。三個參數(shù)在[50:10:100]遍歷。實(shí)驗(yàn)結(jié)果如圖3所示。實(shí)驗(yàn)固定一個參數(shù),測試另外兩個參數(shù)的敏感性,從圖3可以看出,三個參數(shù)對算法準(zhǔn)確度和互信息量影響不大,表明本文方法的性能對參數(shù)不敏感。在其他數(shù)據(jù)集上的實(shí)驗(yàn)也得出類似結(jié)論,說明本文算法穩(wěn)定可靠,但仍需根據(jù)具體情況調(diào)整參數(shù),以達(dá)到最佳性能。

3.5 收斂性分析

本節(jié)主要負(fù)責(zé)驗(yàn)證目標(biāo)函數(shù)能否達(dá)到收斂。圖4展示了迭代目標(biāo)函數(shù)與迭代次數(shù)的關(guān)系,本文算法的目標(biāo)函數(shù)在七個數(shù)據(jù)集中,在前15次迭代就已達(dá)到條件,收斂速度較快,側(cè)面說明了本文算法的高效性。

4 結(jié)束語

本文提出一種基于相似圖投影學(xué)習(xí)的多視圖聚類(MSCGP)算法。首先該算法充分考慮了局部相似性,能夠自適應(yīng)地學(xué)習(xí)樣本間的相似圖構(gòu)造;充分借助自適應(yīng)學(xué)習(xí)的投影圖,將共識圖和不同視圖的相似圖更好地融合,在統(tǒng)一的優(yōu)化框架下聯(lián)合學(xué)習(xí)自適應(yīng)圖、學(xué)習(xí)投影圖和共識圖;最后,通過直接動態(tài)融合得到最佳共識圖矩陣和譜嵌入矩陣,以及最后的聚類結(jié)構(gòu)。通過實(shí)驗(yàn),在涉及到7個真實(shí)數(shù)據(jù)集的評估中,本文算法在11個對比算法中共涉及的21個聚類指標(biāo)中表現(xiàn)出優(yōu)異的結(jié)果。具體而言,本文算法在這些指標(biāo)中有17個聚類指標(biāo)排名最高,并且還有2個聚類指標(biāo)排名次高,本文算法展現(xiàn)出了比對比算法更為穩(wěn)定的整體聚類效果。經(jīng)過對人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集的實(shí)驗(yàn),MCSGP算法證明了其有效性和出色的性能表現(xiàn),但是本文算法的計(jì)算復(fù)雜度較高,導(dǎo)致運(yùn)算時間較長。未來的研究將致力于在不大幅度降低算法精確度的前提下,進(jìn)一步提升算法的運(yùn)算效率。

參考文獻(xiàn):

[1]Nigam K, Ghani R. Analyzing the effectiveness and applicability of co-training[C]//Proc of the 9th International Conference on Information and Knowledge Management.New York:ACM Press,2000:86-93.

[2]Cai Xiao, Nie Feiping, Huang Heng, et al. Heterogeneous image feature integration via multi-modal spectral clustering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2011:1977-1984.

[3]Assent I, Domeniconi C, Gullo F, et al. MultiClust 2013: multiple clusterings, multiview data, and multisource knowledgedriven clustering[J].ACM SIGKDD Explorations Newsletter,2016,18(1):35-38.

[4]Xu Linli, Neufeld J, Larson B, et al. Maximum margin clustering[C]//Proc of the 17th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2004:1537-1544.

[5]Zhao Bin, Kwok J T, Zhang Changshui. Multiple kernel clustering[C]//Proc of SIAM International Conference on Data Mining.[S.l.]:Society for Industrial and Applied Mathematics,2009:638-649.

[6]De Sa V R, Gallagher P W, Lewis J M, et al. Multi-view kernel construction[J].Machine Learning,2010,79(1-2):47-71.

[7]Yu Shi, Tranchevent L, Liu Xinhai, et al. Optimized data fusion for kernel K-means clustering[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2011,34(5):1031-1039.

[8]Zhang Changqing, Fu Huazhu, Liu Si, et al. Low-rank tensor constrained multiview subspace clustering[C]//Proc of IEEE International Conference on Computer Vision.Washington DC:IEEE Compu-ter Society,2015:1582-1590.

[9]張華偉,陸新東,朱小明,等.基于t-SVD的結(jié)構(gòu)保持多視圖子空間聚類[J].計(jì)算機(jī)科學(xué),2022,49(S2):525-530.(Zhang Huawei, Lu Xindong, Zhu Xiaoming, et al. Structure preserved multi-view subspace clustering based on t-SVD[J].Computer Science,2022,49(S2):525-530.)

[10]Liu Xiaolan, Pan Gan, Xie Mengying. Multi-view subspace clustering with adaptive locally consistent graph regularization[J].Neural Computing and Applications,2021,33(11):15397-15412.

[11]洪振寧,蘇雅茹.非凸張量多視圖子空間聚類[J].福州大學(xué)學(xué)報:自然科學(xué)版,2022,50(6):737-741.(Hong Zhenning, Su Yaru. Non convex tensor multi-view subspace clustering[J].Journal of Fuzhou University:Natural Science Edition,2022,50(6):737-741.)

[12]Xu Chang, Tao Dacheng, Xu Chao. Multi-view self-paced learning for clustering[C]//Proc of the 24th International Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2015:3974-3980.

[13]宋菲.基于聚類結(jié)構(gòu)和局部相似性的多視圖隱空間聚類[J].計(jì)算機(jī)應(yīng)用研究,2023,40(9):2650-2656.(Song Fei. Multi-view latent subspace clustering with cluster structure and local similarity[J].Application Research of Computers,2023,40(9):2650-2656.)

[14]Hussain S F, Mushtaq M, Halim Z. Multi-view document clustering via ensemble method[J].Journal of Intelligent Information Systems,2014,43(1):81-99.

[15]Serra A, Greco D, Tagliaferri R. Impact of different metrics on multi-view clustering[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2015:1-8.

[16]Xue Zhe, Li Guorong, Wang Shuhui, et al. GOMES:a group-aware multi-view fusion approach towards real-world image clustering[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2015:1-6.

[17]Hou Chenping, Nie Feiping, Tao Hong, et al. Multi-view unsupervised feature selection with adaptive similarity and view weight[J].IEEE Trans on Knowledge and Data Engineering,2017,29(9):1998-2011.

[18]Nie Feiping, Wang Xiaoqian, Huang Heng. Clustering and projected clustering with adaptive neighbors[C]//Proc of the 20th ACM SIGKDD international Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2014:977-986.

[19]Zhan Kun, Zhang Chanqing, Guan Junpeng, et al. Graph learning for multiview clustering[J].IEEE Trans on Cybernetics,2017,48(10):2887-2895.

[20]Wang Hao, Yang Yan, Liu Bing. GMC:graph-based multi-view clustering[J].IEEE Trans on Knowledge and Data Engineering,2019,32(6):1116-1129.

[21]Nie Feiping, Cai Guohao, Li Xuelong. Multi-view clustering and semi-supervised classification with adaptive neighbours[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:2408-2414.

[22]Nie Feiping, Zhang Rui, Li Xuelong. A generalized power iteration method for solving quadratic problem on the Stiefel manifold[J].Science China Information Sciences,2017,60(5):article No.112101.

[23]Fiori S. Formulation and integration of learning differential equations on the Stiefel manifold[J].IEEE Trans on Neural Networks,2005,16(6):1697-1701.

[24]Liu Jialu, Wang Chi, Gao Jing, et al. Multi-view clustering via joint nonnegative matrix factorization[C]//Proc of SIAM International Conference on Data Mining.[S.l.]:Society for Industrial and Applied Mathematics,2013:252-260.

[25]Huang H C, Chuang Y Y, Chen Chusong. Affinity aggregation for spectral clustering[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2012:773-780.

[26]Nie Feiping, Tian Lai, Li Xuelong. Multiview clustering via adaptively weighted Procrustes[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York:ACM Press,2018:2022-2030.

[27]Kumar A, Rai P, Daume H. Co-regularized multi-view spectral clustering[C]//Proc of the 24th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2011:1413-1421.

[28]Zhan Kun, Nie Feiping, Wang Jing, et al. Multiview consensus graph clustering[J].IEEE Trans on Image Processing,2019,28(3):1261-1270.

[29]Luong K, Nayak R, Balasubramaniam T, et al. Multi-layer manifold learning for deep non-negative matrix factorization-based multi-view clustering[J].Pattern Recognition,2022,131(11):108815.

[30]Xia Rongkai, Pan Yan, Du Lei, et al. Robust multi-view spectral clustering via low-rank and sparse decomposition[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2149-2155.

[31]Huang Dong, Wang Changdong, Lai Jianhuang. Fast multi-view clustering via ensembles:towards scalability, superiority, and simplicity[J].IEEE Trans on Knowledge and Data Engineering,2023,35(11):11388-11402.

临夏市| 山西省| 共和县| 大宁县| 宣化县| 伽师县| 大竹县| 阜宁县| 元谋县| 永泰县| 米易县| 轮台县| 泊头市| 凌海市| 松滋市| 北海市| 峨眉山市| 丁青县| 旺苍县| 娄底市| 庆元县| 南宫市| 长顺县| 泰安市| 瑞昌市| 忻州市| 临洮县| 台山市| 鄯善县| 漳浦县| 汉沽区| 无棣县| 银川市| 苏州市| 宜良县| 通道| 瓦房店市| 理塘县| 宝清县| 湖口县| 滁州市|