于 曉 劉 慧 林毓秀 張彩明
1(山東財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 濟(jì)南 250014) 2(山東省數(shù)字媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室(山東財(cái)經(jīng)大學(xué)) 濟(jì)南 250014) 3(山東大學(xué)軟件學(xué)院 濟(jì)南 250014)
聚類是數(shù)據(jù)挖掘中的一項(xiàng)重要任務(wù),將相似的點(diǎn)劃分到同一簇中,相異點(diǎn)劃分到不同簇中.聚類在信息檢索[1]、醫(yī)療診斷[2]、社交網(wǎng)絡(luò)分析[3]、圖像分割[4]等領(lǐng)域都發(fā)揮著重要作用.傳統(tǒng)的單視圖聚類算法已遇到瓶頸,在過去的幾年中,多視圖聚類成為前沿研究.
多視圖聚類利用多視圖數(shù)據(jù)中的信息來進(jìn)行聚類.多視圖數(shù)據(jù)從多個(gè)角度來描述同一事物,隨著技術(shù)的進(jìn)步,近年來這類數(shù)據(jù)日益增多.例如,可以同時(shí)使用多個(gè)設(shè)備對(duì)同一事物進(jìn)行拍攝,得到的多個(gè)圖像屬于多視圖數(shù)據(jù).再者,同一張圖像可以使用不同的特征來表示,多種特征形成的數(shù)據(jù)即為多視圖數(shù)據(jù).通過使用多視圖數(shù)據(jù),多視圖聚類能夠利用不同視圖之間的互補(bǔ)信息,從而可能提高聚類的效果.
迄今為止,研究人員已提出大量的多視圖聚類算法,大致包括基于多核學(xué)習(xí)的算法[5-7]、基于矩陣分解的算法[8]、基于圖學(xué)習(xí)的算法[9-10]、基于譜聚類的算法等.其中,基于譜聚類的多視圖聚類算法也可稱為多視圖譜聚類算法,該類算法將譜聚類的思想應(yīng)用到了多視圖數(shù)據(jù)的聚類中,通??梢苑譃?類:第1類是為所有視圖的數(shù)據(jù)生成一個(gè)一致的相似度矩陣,然后利用譜聚類算法得到聚類結(jié)果.有些算法[11-13]直接從原始數(shù)據(jù)中為所有視圖學(xué)習(xí)統(tǒng)一的相似度矩陣,還有一些算法利用核函數(shù)[14]或k近鄰圖[15-16]等方式先為每個(gè)視圖構(gòu)造相應(yīng)的初始相似度矩陣,然后從中學(xué)習(xí)一致性相似度矩陣.第2類是為各個(gè)視圖的數(shù)據(jù)生成相應(yīng)的相似度矩陣,再利用各視圖的相似度矩陣生成一致的拉普拉斯矩陣[17],從拉普拉斯矩陣中生成劃分矩陣,使用k均值聚類算法得到聚類結(jié)果.第3類是為每個(gè)視圖構(gòu)造好相似度矩陣后,直接利用譜聚類的思想,為所有視圖學(xué)習(xí)統(tǒng)一的劃分矩陣[18],然后使用k均值算法進(jìn)行聚類.第4類是基于協(xié)同訓(xùn)練的思想[19],利用視圖間的互補(bǔ)信息進(jìn)行聚類.盡管該領(lǐng)域已有大量研究成果,但仍然存在不少挑戰(zhàn).首先,原始數(shù)據(jù)通常包含冗余信息和噪聲,很多算法忽略了這一問題.其次,在聚類過程中,每個(gè)視圖扮演的角色是不同的,不少算法將各個(gè)視圖同等對(duì)待.為了解決這些問題,本文提出了一種基于Markov鏈的多視圖譜聚類算法——一致性引導(dǎo)的自適應(yīng)加權(quán)多視圖聚類(consensus guided auto-weighted multi-view clustering, CAMC),主要思想如圖1所示.由圖1可知,該算法首先為原始數(shù)據(jù)的各個(gè)視圖構(gòu)建轉(zhuǎn)移概率矩陣,然后為所有視圖學(xué)習(xí)一致性轉(zhuǎn)移概率矩陣,最后執(zhí)行譜聚類算法.目標(biāo)是為各視圖學(xué)習(xí)不同權(quán)重,并得到所有視圖的一致性鄰接矩陣.
Fig. 1 The framework of CAMC圖1 CAMC的整體框架
本文的主要貢獻(xiàn)有3個(gè)方面:
1) 為每個(gè)視圖構(gòu)造一個(gè)轉(zhuǎn)移概率矩陣,以減小原始數(shù)據(jù)中的冗余信息和噪聲對(duì)聚類性能的影響.
2) 以自適應(yīng)加權(quán)的方式獲得一致性轉(zhuǎn)移概率矩陣,并對(duì)一致性轉(zhuǎn)移概率矩陣的拉普拉斯矩陣進(jìn)行秩約束,以確保拉普拉斯圖中連通分量的數(shù)目與聚類的數(shù)目完全相等.
3) 在人造數(shù)據(jù)集上證明了CAMC是有效的;在7個(gè)真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,CAMC算法在聚類性能方面優(yōu)于其他單視圖和多視圖聚類基準(zhǔn)算法.
為了更加方便地介紹后面的內(nèi)容,本文在表1中對(duì)文中的符號(hào)進(jìn)行了說明.由于本文提出的算法屬于基于Markov鏈的譜聚類算法,故在本節(jié)對(duì)該類算法的相關(guān)工作進(jìn)行介紹.
Table 1 The Meaning of Notations表1 符號(hào)及含義
目前,已有研究[20-21]在聚類和Markov鏈之間建立了聯(lián)系.給定n個(gè)數(shù)據(jù)點(diǎn)的單視圖數(shù)據(jù)矩陣X∈d×n,X的相似度矩陣用S表示.計(jì)算S的一種常見方式是其中,i,j∈(1,n),xi,xj分別表示第i、第j個(gè)向量,σ是標(biāo)準(zhǔn)差.之后構(gòu)建圖G=(V,EG,S),其中V是頂點(diǎn)集,EG是邊集,S用來表示邊的權(quán)值.轉(zhuǎn)移概率矩陣定義為P=D-1S,其中D為對(duì)角矩陣,從Markov鏈的角度來看,pij是從節(jié)點(diǎn)Nodei一步到達(dá)節(jié)點(diǎn)Nodej的隨機(jī)行走概率,圖G存在平穩(wěn)分布π,其中譜聚類就是對(duì)圖G進(jìn)行劃分,使Markov隨機(jī)行走盡量在同一簇內(nèi)進(jìn)行.關(guān)于基于Markov鏈聚類的詳細(xì)信息,請(qǐng)參考文獻(xiàn)[20-21].
在基于Markov鏈的多視圖聚類研究方面,Xia等人[22]提出了魯棒多視圖譜聚類法(robust multi-view spectral clustering, RMSC).RMSC通過低秩和稀疏分解從所有視圖的數(shù)據(jù)中恢復(fù)了潛在的轉(zhuǎn)移概率矩陣,并將其作為相似度矩陣,使用譜聚類得到最終的結(jié)果.RMSC的目標(biāo)函數(shù)為:
(1)
其中,P(v)表示第v個(gè)視圖構(gòu)造的轉(zhuǎn)移概率矩陣,P*是學(xué)到的轉(zhuǎn)移概率矩陣,E(v)是第v個(gè)視圖中學(xué)到的轉(zhuǎn)移概率矩陣和構(gòu)造矩陣之間的誤差.
Wu等人[23]提出了多視圖譜聚類的本質(zhì)張量學(xué)習(xí)法(essential tensor learning for multi-view spectral clustering, ETLMSC).ETLMSC將各個(gè)視圖得到的轉(zhuǎn)移概率矩陣疊成張量,對(duì)張量施加核范數(shù)的約束,確保張量的低秩性質(zhì),并對(duì)張量進(jìn)行旋轉(zhuǎn)來探索不同視圖之間的關(guān)系.ETLMSC的目標(biāo)函數(shù)為:
(2)
盡管這些方法取得了不錯(cuò)的結(jié)果,但仍有很多方面需要改進(jìn).從式(1)中可以得知,RMSC將各視圖平等對(duì)待,忽視了視圖所起作用的多樣性.ETLMSC使用張量來探索各視圖之間的關(guān)系,但是當(dāng)計(jì)算最終的相似度矩陣時(shí),直接將張量切片進(jìn)行平均,忽略了各視圖之間的差異.由于我們提出的算法CAMC更為接近RMSC,故在實(shí)驗(yàn)部分使用RMSC與CAMC進(jìn)行對(duì)比.
基于Markov鏈的譜聚類算法很關(guān)鍵的一個(gè)環(huán)節(jié)是獲得最終轉(zhuǎn)移概率矩陣.本文使用文獻(xiàn)[24]中的算法為每個(gè)視圖學(xué)習(xí)相應(yīng)的轉(zhuǎn)移概率矩陣,在RMSC的啟發(fā)下,利用核范數(shù)確保學(xué)到的一致性轉(zhuǎn)移概率矩陣P*是低秩的.該方案的表達(dá)式為:
(3)
其中,i,j∈(1,n).但是,這種方式忽略了各視圖之間的差異性,故為每個(gè)視圖分配了權(quán)重,即
(4)
其中,w(v)是第v個(gè)視圖的權(quán)值.
受到自動(dòng)分配權(quán)值策略[9,25]的啟發(fā),本文提出了一種自適應(yīng)加權(quán)的策略來學(xué)習(xí)一致性的轉(zhuǎn)移概率矩陣.令w(v)為
(5)
則式(4)等價(jià)于
(6)
式(6)所學(xué)到的轉(zhuǎn)移概率矩陣中相連部分的數(shù)量是不確定的.假設(shè)簇的數(shù)量是c,為了使P*恰好有c個(gè)相連部分,對(duì)P*的拉普拉斯矩陣的秩進(jìn)行約束.目標(biāo)函數(shù)表達(dá)式設(shè)計(jì)為:
(7)
其中,LP*表示P*的拉普拉斯矩陣.
(8)
如圖1所示,CAMC先為原始數(shù)據(jù)的各個(gè)視圖構(gòu)建轉(zhuǎn)移概率矩陣;然后,利用式(8)為全部視圖學(xué)習(xí)一致性轉(zhuǎn)移概率矩陣;最后,將其作為輸入執(zhí)行譜聚類算法,得到聚類結(jié)果.所學(xué)的一致性轉(zhuǎn)移概率矩陣如圖2所示,同一簇內(nèi)的點(diǎn)之間存在轉(zhuǎn)移概率,不同簇之間轉(zhuǎn)移概率值為0,一致性轉(zhuǎn)移概率矩陣的秩等于簇的數(shù)目.
Fig. 2 An example of the consensus transition probability matrix P*圖2 對(duì)一致性轉(zhuǎn)移概率矩陣P*的示例
CAMC的目標(biāo)函數(shù)為式(8),其等價(jià)于
(9)
其中,w(v)的值見式(5).
為了求解式(9),本文采用交替方向乘子法(alternating direction method of multiplier, ADMM)[27]設(shè)計(jì)優(yōu)化策略.將矩陣變量Q作為輔助變量來替代核范數(shù)中的P*.式(9)可轉(zhuǎn)化為:
(10)
式(10)的求解可以轉(zhuǎn)換為求解5個(gè)子問題.
1) 求解w(v),將其他變量固定,w(v)的值見式(5).
2) 求解P*,固定其他變量,關(guān)于P*的目標(biāo)函數(shù)變?yōu)?/p>
(11)
其中,Y是拉格朗日乘子,μ是懲罰項(xiàng)參數(shù).對(duì)于不同的i,該問題是獨(dú)立的,故而有
(12)
(13)
式(13)可以通過投影算法[28]求解.
3) 求解F,固定w(v),Q,P*時(shí),F的值可以通過求解問題得出:
(14)
找出LP*的c個(gè)最小特征值,對(duì)應(yīng)特征向量為F的解.
4) 求解Q,當(dāng)w(v),P*,F固定不變時(shí),式(9)變?yōu)?/p>
(15)
式(15)等價(jià)于
(16)
式(16)可通過奇異值閾值法[29]進(jìn)行求解.
5) 更新乘子Y和懲罰項(xiàng)參數(shù)μ:
(17)
上述5個(gè)子問題是求解目標(biāo)函數(shù)式(9)的核心內(nèi)容.CAMC的算法流程如算法1所示:
算法1.CAMC.
輸入:多視圖數(shù)據(jù)集X,超參λ1和λ2;
輸出:聚類結(jié)果.
② 為每個(gè)視圖構(gòu)建轉(zhuǎn)移概率矩陣;
③ whileiter ④iter=iter+1; ⑤ forvfrom 1 tomdo ⑥ 根據(jù)式(5)更新w(v); ⑦ end for ⑧ 根據(jù)式(13)更新P*; ⑨ 根據(jù)式(14)更新F; ⑩ 根據(jù)式(16)更新Q; 算法CAMC的求解涉及5個(gè)子問題.求解w的復(fù)雜度為O(mn);求解P*時(shí)使用了矩陣的加法,復(fù)雜度為O(n2);求解F時(shí)涉及了特征向量分解,復(fù)雜度為O(n3);求解Q時(shí)使用了奇異值分解,復(fù)雜度為O(n3);更新乘子Y的復(fù)雜度為O(n2),所以整個(gè)算法的復(fù)雜度為O(n3+n2). 根據(jù)文獻(xiàn)[10],式(14)是凸函數(shù),由于F范數(shù)和核范數(shù)均是凸函數(shù),根據(jù)文獻(xiàn)[30],式(9)是凸的. 本文提出的優(yōu)化算法在每次迭代時(shí),需要求解式(10)(13)(14)(16)(17).根據(jù)已有文獻(xiàn)[10,25],這幾個(gè)問題都是凸的,這確保了算法1能夠收斂到問題的最優(yōu)解. 為了對(duì)算法進(jìn)行評(píng)估,在人造數(shù)據(jù)集和真實(shí)數(shù)據(jù)集兩大類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),采用了7個(gè)常用的聚類指標(biāo):標(biāo)準(zhǔn)化互信息(normalized mutual information,NMI)、準(zhǔn)確率(accuracy,ACC)、F分?jǐn)?shù)(F)、調(diào)整后的蘭德指數(shù)(adjusted rand index,ARI)、精度(precision,P)、召回率(recall,R)、純度(Purity).這些指標(biāo)的定義參見文獻(xiàn)[31],它們的值越高,聚類效果越好. 在文獻(xiàn)[32]提供的人造數(shù)據(jù)集雙月(Two-Moon)上進(jìn)行了實(shí)驗(yàn).如圖3(a),3(b)所示,該數(shù)據(jù)集包含了2個(gè)視圖,每個(gè)視圖里的點(diǎn)都是2個(gè)月亮的形狀,對(duì)應(yīng)著2個(gè)簇,每個(gè)簇中有100個(gè)點(diǎn),每個(gè)視圖中都加上了0.12%的高斯噪聲.CAMC在此數(shù)據(jù)集上聚類得到的標(biāo)簽和數(shù)據(jù)集中的標(biāo)簽是完全一致的.為了直觀地對(duì)結(jié)果進(jìn)行說明,進(jìn)行了可視化展示.選取了距離較近但屬于2個(gè)不同簇的40個(gè)點(diǎn),在一致性轉(zhuǎn)移概率矩陣中提取出來了相應(yīng)的部分,對(duì)這40個(gè)點(diǎn)在2個(gè)視圖中使用學(xué)到的一致性轉(zhuǎn)移概率矩陣進(jìn)行可視化,結(jié)果如圖3(c),3(d)所示.盡管這些點(diǎn)距離較近,在聚類時(shí)容易出錯(cuò),但CAMC能將它們分開,這表明了基于Markov鏈的方法是有效的.另外,該復(fù)雜圖形中存在噪聲,CAMC能有效將點(diǎn)分開證實(shí)了間接學(xué)習(xí)相似度矩陣和使用低秩正則化能夠減弱噪聲對(duì)聚類的影響.此外,圖4展示了為各視圖構(gòu)造的轉(zhuǎn)移概率矩陣和學(xué)習(xí)到的一致性轉(zhuǎn)移概率矩陣,明顯可以看出,學(xué)習(xí)到的一致性轉(zhuǎn)移概率矩陣具有更好的塊結(jié)構(gòu),更適合聚類.基于自動(dòng)加權(quán)機(jī)制進(jìn)行聚類,能夠更有效地利用不同視圖之間的互補(bǔ)信息,因而能提升聚類性能. Fig. 3 Two-Moon dataset analysis圖3 Two-Moon數(shù)據(jù)集分析 Fig. 4 The transition probability matrix visualization圖4 轉(zhuǎn)移概率矩陣的可視化 本文選取了7個(gè)真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).數(shù)據(jù)集包括:英國(guó)廣播公司體育新聞數(shù)據(jù)集(BBCSport)[33]、三新聞源文本數(shù)據(jù)集(3Sources)[34]、微軟逐像素標(biāo)記的圖像數(shù)據(jù)集v1(MSRC)[35]、Citeseer科學(xué)出版物引用網(wǎng)絡(luò)文本數(shù)據(jù)集(Citeseer)[36]、Mfeat手寫體識(shí)別數(shù)據(jù)集(Mfeat)[37]、新聞組數(shù)據(jù)集(NGs)[38]、100種植物葉子數(shù)據(jù)集(100leaves)[39].這些數(shù)據(jù)集的詳細(xì)信息如表2所示. Table 2 Statistic Information of Datasets表2 數(shù)據(jù)集的相關(guān)信息 CAMC中有2個(gè)超參λ1和λ2,用來平衡目標(biāo)函數(shù)中3項(xiàng)之間的關(guān)系.這2個(gè)超參的值域?yàn)閧0.000 1,0.01,0.1,1,10,100,1 000}.在3Sources和Mfeat數(shù)據(jù)集上,使用了網(wǎng)格化調(diào)參法對(duì)CAMC進(jìn)行參數(shù)敏感性實(shí)驗(yàn),記錄聚類結(jié)果的準(zhǔn)確率值和標(biāo)準(zhǔn)化互信息值,結(jié)果如圖5所示. Fig. 5 Parameter sensitivity analysis on different datasets圖5 在不同數(shù)據(jù)集上的參數(shù)敏感性分析 Fig. 6 Convergence analysis on different datasets圖6 在不同數(shù)據(jù)集上的算法收斂性分析 從圖5中可以看出,當(dāng)λ1>100時(shí)對(duì)結(jié)果較為敏感,當(dāng)λ1<100時(shí)性能較為穩(wěn)定;參數(shù)λ2的變化對(duì)性能影響不大,但當(dāng)λ2<1時(shí)聚類效果要更好一些.總的來說,CAMC的性能是比較穩(wěn)定的. Fig. 7 The t-SNE visualization on NGs dataset圖7 在NGs數(shù)據(jù)集上的t-SNE可視化 為了進(jìn)一步說明CAMC性能上的優(yōu)勢(shì),在NGs數(shù)據(jù)集上,對(duì)每個(gè)視圖的原始數(shù)據(jù)和最終學(xué)習(xí)到的一致性轉(zhuǎn)移概率矩陣都通過t分布隨機(jī)鄰居嵌入(t-SNE)[40]進(jìn)行可視化表示,如圖7所示.使用各種顏色區(qū)分不同的簇.相同顏色的點(diǎn)越近、不同顏色的點(diǎn)越遠(yuǎn)表示簇的可分離性越好.從圖7中可以看出,學(xué)習(xí)到的一致性轉(zhuǎn)移概率矩陣的聚類效果明顯優(yōu)于原始數(shù)據(jù).主要原因在于CAMC能夠利用不同視圖之間的互補(bǔ)信息,為不同視圖學(xué)習(xí)最優(yōu)的權(quán)重. 為了驗(yàn)證CAMC的有效性,本文將CAMC與8種基準(zhǔn)算法進(jìn)行了比較.其中譜聚類(SC)[41]、低秩表示子空間聚類(LRR)[42]是單視圖聚類算法,基于共同正則化的聚類(CoReg)[43]、魯棒多視圖譜聚類(RMSC)[22]是經(jīng)典多視圖聚類算法,基于圖學(xué)習(xí)的多視圖聚類(MVGL,2017Transactions)[10]、基于圖的自加權(quán)多視圖聚類(SWMC,2017IJCAI)[44]、自適應(yīng)加權(quán)法(AWP,2018KDD)[45]、稀疏多視圖譜聚類(SMVSC,2020Nerocomputing)[15]是最新多視圖聚類算法.對(duì)于每一種算法,都根據(jù)該算法所在的文獻(xiàn)在所有的數(shù)據(jù)集上調(diào)參. 本文選取了7個(gè)真實(shí)數(shù)據(jù)集來驗(yàn)證CAMC的性能.在每個(gè)數(shù)據(jù)集上,先找出結(jié)果最好的參數(shù),然后使用該參數(shù)的值重復(fù)進(jìn)行30次實(shí)驗(yàn),記錄平均值和均值.結(jié)果如表3~9所示,每個(gè)數(shù)據(jù)集上每個(gè)評(píng)價(jià)指標(biāo)中最好的2個(gè)結(jié)果加粗顯示. Table 3 Clustering Results (Mean±Standard Deviation) on the BBCSport Dataset表3 在BBCSport數(shù)據(jù)集上的聚類結(jié)果(平均值±標(biāo)準(zhǔn)差) Table 4 Clustering Results (Mean±Standard Deviation) on the 3Sources Dataset表4 在3Sources數(shù)據(jù)集上的聚類結(jié)果(平均值±標(biāo)準(zhǔn)差) Table 5 Clustering Results (Mean±Standard Deviation) on the MSRC Dataset表5 在MSRC數(shù)據(jù)集上的聚類結(jié)果(平均值±標(biāo)準(zhǔn)差) Table 6 Clustering Results (Mean±Standard Deviation) on the Citeseer Dataset表6 在Citeseer數(shù)據(jù)集上的聚類結(jié)果(平均值±標(biāo)準(zhǔn)差) Table 7 Clustering Results (Mean±Standard Deviation) on the Mfeat Dataset表7 在Mfeat數(shù)據(jù)集上的聚類結(jié)果(平均值±標(biāo)準(zhǔn)差) Table 8 Clustering Results (Mean±Standard Deviation) on the NGs Dataset表8 在NGs數(shù)據(jù)集上的聚類結(jié)果(平均值±標(biāo)準(zhǔn)差) Table 9 Clustering Results (Mean±Standard Deviation) on the 100leaves Dataset表9 在100leaves數(shù)據(jù)集上的聚類結(jié)果(平均值±標(biāo)準(zhǔn)差) 由表3~9可知,在這9種算法中CAMC結(jié)果最好,它在BBCSport,3Sources,Citeseer,NGs,100leaves數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)結(jié)果基本上都是最優(yōu)的.特別是在BBCSport數(shù)據(jù)集上,在NMI,ACC,F,ARI,P等評(píng)價(jià)指標(biāo)上,CAMC分別以10.9%,7.7%,11.5%,15.2%,13.4%的優(yōu)勢(shì)拉開了與第2名之間的距離. 從結(jié)果中,本文有4方面的思考: 1) 總的來說,多視圖算法的聚類性能要優(yōu)于單視圖算法.和單視圖算法相比,多視圖算法能夠利用來自不同視圖的多種互補(bǔ)信息,從而提高聚類的能力. 2) CAMC在多種類型的圖像和文本數(shù)據(jù)集上均表現(xiàn)優(yōu)異,這說明CAMC對(duì)各類型的數(shù)據(jù)集具有魯棒性. 3) CAMC的聚類性能遠(yuǎn)優(yōu)于RMSC.這2種方法都是基于Markov鏈的多視圖譜聚類算法,RMSC將各個(gè)視圖同等對(duì)待,而CAMC則考慮了不同視圖之間的差異,為各個(gè)視圖學(xué)習(xí)最優(yōu)的權(quán)值,這表明為每個(gè)視圖學(xué)習(xí)相應(yīng)的權(quán)值能提高聚類的準(zhǔn)確性. 4) 在對(duì)比算法中,SWMC和AWP均考慮了不同視圖的差異性,但它們和CAMC仍然存在差距,這表明了基于Markov鏈聚類算法的有效性. 本文提出了一種基于Markov鏈的多視圖譜聚類算法,利用了多個(gè)視圖之間的互補(bǔ)信息,并考慮了各視圖在聚類中發(fā)揮的不同作用,為各視圖學(xué)到最優(yōu)權(quán)值.此外,該算法對(duì)一致性轉(zhuǎn)移概率矩陣的拉普拉斯矩陣進(jìn)行了秩約束,以確保拉普拉斯圖中連通分量的數(shù)目與聚類的數(shù)目完全相等.基于ADMM,提出了一種優(yōu)化策略來對(duì)目標(biāo)函數(shù)進(jìn)行求解.在人造數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明了CAMC是有效的.將來,我們會(huì)基于錨點(diǎn)等策略將CAMC擴(kuò)展到大規(guī)模數(shù)據(jù)集上. 作者貢獻(xiàn)聲明:于曉負(fù)責(zé)研究方案設(shè)計(jì)和實(shí)驗(yàn)實(shí)現(xiàn), 以及論文設(shè)計(jì)、撰寫和修改; 劉慧設(shè)計(jì)研究方案,指導(dǎo)并參與論文修訂; 林毓秀負(fù)責(zé)數(shù)據(jù)的整理和校對(duì); 張彩明參與論文修訂.2.3 算法復(fù)雜度和收斂性
3 實(shí) 驗(yàn)
3.1 人造數(shù)據(jù)集實(shí)驗(yàn)分析
3.2 真實(shí)數(shù)據(jù)集簡(jiǎn)介
3.3 參數(shù)敏感性分析和算法收斂性驗(yàn)證
3.4 性能可視化
3.5 對(duì)比算法
3.6 真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)分析
4 結(jié) 論