趙翠娜 楊有龍
摘要: 針對(duì)不完整多視圖聚類存在的缺陷, 提出一種融合自表示和投影映射的統(tǒng)一框架. 首先, 利用自表示和樣本存在指示矩陣學(xué)習(xí)一致相似圖, 它反映了樣本間的公共相似關(guān)系; 其次, 利用投影映射將樣本矩陣投影到超球面上, 得到公共低維表示; 最后, 將兩者通過譜表示嵌入在一起, 解決了因多視圖數(shù)據(jù)缺失引起的不完整多視圖聚類問題. 該算法在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果優(yōu)于其他算法, 證明了算法的有效性.
關(guān)鍵詞: 多視圖聚類; 不完整視圖; 自表示學(xué)習(xí); 投影映射
中圖分類號(hào): TP391文獻(xiàn)標(biāo)志碼: A文章編號(hào): 1671-5489(2024)02-0331-08
Incomplete Multi-view Clustering Based on Self-representation and Projection Mapping
ZHAO Cuina, YANG Youlong
(School of Mathematics and Statistics, Xidian University, Xian 710126, China)
Abstract: Aiming at the shortcomings of incomplete multi-view clustering, we? proposed a unified framework that integrated? self-representation and projection mapping. Firstly, self-representation and sample presence indication matrices were used to learn a uniform similarity graph, which reflected the common similarity relationship between samples. Secondly, the sample matrices were projected onto the hypersphere by using projection mapping to obtain a common low-dimensional representation. Finally, the two were embedded together through spectral representation to solve the incomplete multi-view clustering problem caused by missing multi-view data. The experimental results of this algorithm on real datasets are better than other algorithms, which proves the effectiveness of the proposed algorithm.
Keywords: multi-view clustering; incomplete view; self-representation learning; projection mapping
0 引 言
由于不同的采集源或?qū)ν晃矬w的不同處理方法, 數(shù)據(jù)可被分成多個(gè)特征集, 這些特征集有不同的物理意義和鑒別能力, 因此可將這些不同的特征集視為多視圖數(shù)據(jù). 隨著多視圖數(shù)據(jù)的大量涌現(xiàn), 多視圖聚類(multi-view clustering, MVC) [1-7]考慮了來自多個(gè)視圖的互補(bǔ)信息和一致信息, 因此在數(shù)據(jù)挖掘和分析領(lǐng)域已引起廣泛關(guān)注.
但由于一些現(xiàn)實(shí)因素的影響, 多視圖數(shù)據(jù)經(jīng)常是不完整的. 不完整性可能由于隨機(jī)缺少特征或缺少樣本的某個(gè)視圖特征導(dǎo)致. 例如, 在圖像聚類時(shí), 獲取到的圖像可能由于遭到遮擋受到破壞, 這屬于前者; 在多語言文檔聚類中, 一種語言可視為文檔的一個(gè)視圖, 一個(gè)文檔可能沒有所有的語言版本, 這屬于后者. 本文主要關(guān)注后者, 即一個(gè)樣本可以在所有或部分視圖上找到. 在不完整多視圖數(shù)據(jù)上進(jìn)行的聚類問題稱為不完整多視圖聚類(incomplete multi-view clustering, IMC).
近年來, 已有許多方法處理不完整多視圖聚類. 不完整多視圖聚類與多視圖聚類相同, 可分為基于核的不完整多視圖聚類、 基于矩陣分解的不完整多視圖聚類和基于圖的不完整多視圖聚類, 但現(xiàn)有的很多方法已將上述種類融合在同一個(gè)框架中, 進(jìn)一步提高學(xué)習(xí)性能. 從視圖缺失處理角度, 不完整多視圖聚類可分為基于部分視圖的方法和基于缺失視圖推斷的方法.
基于缺失視圖補(bǔ)充的方法對(duì)缺失視圖或缺失視圖轉(zhuǎn)化部分進(jìn)行填充, 占據(jù)了不完整多視圖聚類很大一部分. 例如, Shao等[8]提出了一種集體核學(xué)習(xí)的多視圖補(bǔ)全算法, 該算法對(duì)于兩個(gè)缺失的視圖, 利用共享實(shí)例的對(duì)齊信息, 去優(yōu)化不完全核矩陣的信息, 最后使用核典型相關(guān)分析完成聚類; Wen等[9]提出了缺失視圖推斷的統(tǒng)一嵌入對(duì)齊不完整多視圖聚類, 通過將位置重建項(xiàng)引入到矩陣分解和反向圖學(xué)習(xí)中, 使所有視圖都能自然對(duì)齊; Zhang等[10]提出了基于自適應(yīng)缺失視圖歸算和合作學(xué)習(xí)的端到端不完全多視圖模糊聚類, 將缺失視圖植入、 隱藏視圖學(xué)習(xí)和聚類整合到同一個(gè)框架中, 實(shí)現(xiàn)了隱藏視圖和可見視圖之間的合作學(xué)習(xí); Wen等[11]提出了基于不完全多視圖聚類的自適應(yīng)圖補(bǔ)全, 通過借用其他視圖的相似性信息恢復(fù)不完整視圖信息, 并且最大程度上保留了自身的相似性信息; Liu等[12]提出了具有不完整核的多核k-均值算法, 并不直接填充缺失部分, 而將缺失部分作為多核聚類過程中需要優(yōu)化的輔助變量, 通過填充和聚類的交替迭代達(dá)到一個(gè)較好的聚類結(jié)果; Gao等[13]提出了不完全多視圖聚類, 基于譜理論, 將原始數(shù)據(jù)投影到新的空間中, 并將各視圖的投影進(jìn)行整合更新每個(gè)視圖中的缺失部分, 進(jìn)而趨向共識(shí).
基于部分視圖的方法通常將視圖信息分為對(duì)齊部分和非對(duì)齊部分學(xué)習(xí)視圖的潛在表示去聚類. 例如, Li等[14]提出了部分多視圖聚類, 利用矩陣分解在兩個(gè)視圖的共有部分學(xué)習(xí)相同的隱藏表示, 在局部視圖學(xué)習(xí)各自的潛在表示去實(shí)現(xiàn)聚類; Shao等[15]提出了基于L2,1正則化加權(quán)非負(fù)矩陣分解的多重不完全視圖聚類, 通過引入一個(gè)值位于0~1間的權(quán)重矩陣在非負(fù)矩陣分解中學(xué)習(xí)共識(shí)矩陣, 使缺失實(shí)例的影響低于存在實(shí)例, 并加入了L2,1正則化使模型對(duì)噪聲和異常值具有魯棒性; Zhuge等[16]提出了基于聯(lián)合表示和聚類(joint representation learning and clustering, JRLC)框架的不完全多視圖聚類, 提出了帶譜嵌入的JRLC(JRLC-SE)及通過集成非負(fù)嵌入和譜嵌入的JRLC(JRL-NS)兩種方法; Wang等[17]提出了譜擾動(dòng)滿足不完整多視圖數(shù)據(jù), 先將樣本缺失轉(zhuǎn)化為樣本間相似性缺失問題, 然后基于譜擾動(dòng)理論, 使用每個(gè)視圖的Laplace矩陣進(jìn)行一致性學(xué)習(xí), 最后使用譜聚類在一致Laplace矩陣上進(jìn)行聚類.
雖然現(xiàn)有的方法在不完整多視圖聚類方面都取得了較好的效果, 但仍存在一些缺點(diǎn):
1) 雖然在聚類過程中完成了缺失數(shù)據(jù)的填充, 但不準(zhǔn)確的填補(bǔ)可能會(huì)使聚類結(jié)果和真實(shí)結(jié)果產(chǎn)生較大誤差;
2) 利用各視圖上存在的樣本獲取的共識(shí)表示并未充分探索視圖間的互補(bǔ)信息, 僅學(xué)習(xí)到存在樣本的一致信息;
3) 僅探索低維表示的信息, 原始樣本矩陣中的公共結(jié)構(gòu)信息被忽略.
基于以上限制, 本文提出一種基于自表示和投影映射的不完整多視圖聚類(IMSP). 首先, 在每個(gè)視圖上引入樣本存在指示矩陣學(xué)習(xí)每個(gè)視圖上的自表示矩陣, 既使缺失視圖可以對(duì)齊, 又充分探索了樣本點(diǎn)之間的公共相似度關(guān)系; 其次, 在減少缺失樣本權(quán)重影響的情況下, 將不同視圖的樣本矩陣投影在一個(gè)超球面上獲取共識(shí)低維表示; 最后, 將上述兩部分通過譜表示嵌入在同一個(gè)框架中相互交替迭代和更新, 使樣本間的公共表示和視圖矩陣的局部表示更具有一致性. 本文使用IMSP-P和IMSP-S兩種算法獲得聚類結(jié)果, 進(jìn)一步提高聚類結(jié)果的質(zhì)量.
3 實(shí) 驗(yàn)
3.1 數(shù)據(jù)集
1) BBCSport: 該數(shù)據(jù)集包括來自BBC新聞網(wǎng)站的116篇關(guān)于5個(gè)主題的新聞文章, 每個(gè)文檔被劃分為4個(gè)文本, 對(duì)應(yīng)于特征維度為1 991,2 063,2 113和2 158的4個(gè)視圖.
2) ORL: 是一個(gè)從英國劍橋?qū)嶒?yàn)室收集的人臉數(shù)據(jù)集, 40個(gè)目錄中有400張圖像, 分別提取對(duì)應(yīng)于3個(gè)視圖的3個(gè)特征集, 3個(gè)特征集的尺寸分別為4 096,3 304和6 750.
3) Wikipedia: 該數(shù)據(jù)集用于檢索, 包含693個(gè)樣本, 其中128維圖像特征和10維文本特征被分為10個(gè)類別.
4) BUAA: 該數(shù)據(jù)集共有1 350張圖像, 分為150個(gè)類別, 每個(gè)類別包含視覺光譜和近紅外數(shù)據(jù), 兩個(gè)視圖的尺寸均為100.
5) Caltech-7: 該數(shù)據(jù)集是Caltech-101的一個(gè)子集, 包含7個(gè)類, 其中包含1 474張圖像, 6個(gè)視圖分別為48維Gabor特征、 40維WM特征、 254維CENTRIST特征、 1 984維HOG特征、 512維GIST特征和928維LBP特征.
3.2 對(duì)比方法
1) 缺失視圖推斷的統(tǒng)一嵌入對(duì)齊的不完整多視圖聚類(UEAF)[9]: 首先, 利用誤差矩陣和索引矩陣對(duì)缺失數(shù)據(jù)進(jìn)行填充, 得到低維一致表示; 其次, 通過反向圖正則化得到一致相似度圖矩陣; 最后, 利用譜聚類和k均值得到最終聚類結(jié)果.
2) 基于不完全多視圖聚類的自適應(yīng)圖補(bǔ)全(AGC-IMC)[11]: 該方法采用視圖內(nèi)保持和視圖間推斷的方法恢復(fù)完整的相似圖矩陣, 先用自適應(yīng)權(quán)重表示每個(gè)視圖的重要性, 然后利用恢復(fù)后的完整圖進(jìn)行一致表示學(xué)習(xí).
3) 基于L2,1正則化加權(quán)非負(fù)矩陣分解的多重不完全視圖聚類(GPMVC)[23]: 在非負(fù)矩陣分解中引入加權(quán)指標(biāo)矩陣, 減小缺失樣本相對(duì)于已有樣本的影響, 并利用協(xié)正則化和L2,1范數(shù)得到一致的低維表示矩陣.
4) 基于圖正則化非負(fù)矩陣分解的局部多視圖聚類(MIC)[15]: 該方法在部分多視圖聚類(PVC)的基礎(chǔ)上, 將兩視圖的情況擴(kuò)展為多視圖, 并增加了圖正則化懲罰項(xiàng), 提高了聚類的質(zhì)量.
5) 不完整視圖的在線多視圖聚類(OMVC)[24]: 針對(duì)大規(guī)模多視圖數(shù)據(jù)的處理問題, 提出一種逐塊處理多視圖數(shù)據(jù)的方法. 采用加權(quán)非負(fù)矩陣分解和L1范數(shù)學(xué)習(xí)一致性特征矩陣.
3.3 評(píng)估指標(biāo)
本文選擇聚類精度(ACC)、 歸一化互信息(NMI)和純度(Purity)這3個(gè)外部指標(biāo)作為評(píng)價(jià)聚類性能的指標(biāo). 這3個(gè)指標(biāo)值均位于0~1間, 其值越大聚類效果越好.
3.4 實(shí)驗(yàn)結(jié)果與分析
在實(shí)驗(yàn)中, 確保每個(gè)樣本至少在一個(gè)視圖上出現(xiàn)的情況下, 在每個(gè)視圖上隨機(jī)移除10%,30%和50%的樣本. 為進(jìn)行公平有效的比較, 使用上述方法在每個(gè)缺失率下隨機(jī)生成10組缺失樣本, 并將這10次聚類指標(biāo)的平均值作為最終聚類結(jié)果. 不同算法在真實(shí)數(shù)據(jù)集上的聚類性能比較列于表1. 由表1可見, 在大部分實(shí)驗(yàn)中, 本文算法都優(yōu)于其他算法, 尤其是在數(shù)據(jù)集BUAA上, 本文算法顯著優(yōu)于次優(yōu)算法. 因?yàn)楸疚乃惴ㄔ跍p少缺失樣本的影響下將多個(gè)視圖的公共相似度關(guān)系和超球面低維表示很好地集成在一個(gè)框架中, 且互相促進(jìn)彼此的迭代和更新. 在大多數(shù)情況下, UEAF和AGC-IMC算法的效果顯著優(yōu)于MIC,OMVC和GPMVC算法, 這是因?yàn)閁EAF算法中利用圖正則化學(xué)習(xí)到的誤差矩陣去填補(bǔ)缺失樣本, 誤差矩陣即選取n-nv條最能代表存在樣本特征關(guān)系的dv維向量; AGC-IMC算法是利用其余視圖上的相似性關(guān)系的線性組合填補(bǔ)缺失樣本的相似性關(guān)系, 在缺失率增加的情況下, 甚至在某些數(shù)據(jù)集上效果反而更好; 而MIC,OMVC和GPMVC算法只是簡(jiǎn)單均值填充, 說明合理地填補(bǔ)缺失樣本或相似性關(guān)系也可以達(dá)到較好的效果.
雖然在一些數(shù)據(jù)集上, IMSP算法沒有取得最優(yōu)聚類指標(biāo), 但與最優(yōu)算法相差較小. 在數(shù)據(jù)集BUAA上, IMSP比次優(yōu)方法的聚類精度超出了50%, 證明了該算法的優(yōu)越性.
3.5 參數(shù)確定及敏感度分析
在IMSP算法實(shí)驗(yàn)中, 3個(gè)超參數(shù)λ1,λ2,λ3需要通過網(wǎng)格搜索最優(yōu)參數(shù), 其中λ1,λ2,λ3的取值范圍均為{10-5,105}. 比較算法的參數(shù)會(huì)根據(jù)相應(yīng)的參數(shù)范圍選擇最優(yōu)結(jié)果. 圖1和圖2分別是參數(shù)λ2和λ3與λ1在數(shù)據(jù)集上的敏感性分析. 由圖1和圖2可見, 參數(shù)在很大范圍內(nèi)都是相對(duì)穩(wěn)定的.
3.6 算法復(fù)雜度分析與收斂性
根據(jù)迭代優(yōu)化算法的更新步驟計(jì)算算法的時(shí)間復(fù)雜度, 變量P,F(xiàn)(v)和Z(v)是時(shí)間代價(jià)最大的, 為O(n3), 計(jì)算S的時(shí)間可以忽略不計(jì), 因此總的時(shí)間復(fù)雜度為O(n3).
圖3是在數(shù)據(jù)集Caltech-7缺失率為0.3時(shí)的收斂曲線. 由圖3可見, 在5次迭代以內(nèi)目標(biāo)函數(shù)快速下降, 有效支持了算法的有效性.
綜上所述, 針對(duì)不完整多視圖聚類存在的缺陷, 本文提出了一種將自表示學(xué)習(xí)和視圖投影相結(jié)合的統(tǒng)一框架去處理不完整多視圖聚類的方法. 首先, 在自表示中引入了樣本存在矩陣, 使學(xué)習(xí)的自表示系數(shù)自然對(duì)齊, 在一些限制條件下學(xué)習(xí)相似圖矩陣; 其次, 每個(gè)視圖上的樣本矩陣經(jīng)過投影映射到一個(gè)超球體的表面上; 最后, 前兩者經(jīng)過Laplace正則化組合成一個(gè)統(tǒng)一的框架. 該算法以較快的收斂速度迭代和更新, 實(shí)驗(yàn)結(jié)果證明了算法的有效性.
參考文獻(xiàn)
[1]CAO X C, ZHANG C Q, FU H Z, et al. Diversity-Induced Multi-view Subspace Clustering [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 586-594.
[2]KUMAR A, DAUM H. A Co-training Approach for Multi-view Spectral Clustering [C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11). Bellevue, WA: Omnipress, 2011: 393-400.
[3]XIA T, TAO D C, MEI T, et al. Multiview Spectral Embedding [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2010, 40(6): 1438-1446.
[4]NIE F P, LI J, LI X L. Parameter-Free Auto-weighted Multiple Graph Learning: A Framework for Multiview Clustering and Semi-supervised Classification [C]//IJCAI. Palo Alto: AAAI Press, 2016: 1881-1887.
[5]BUCAK S S, GUNSEL B. Incremental Subspace Learning via Non-negative Matrix Factorization [J]. Pattern Recognition, 2009, 42(5): 788-797.
[6]CHAUDHURI K, KAKADE S M, LIVESCU K, et al. Multi-view Clustering via Canonical Correlation Analysis [C]//Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009: 129-136.
[7]CHEN Y Y, XIAO X L, ZHOU Y C. Multi-view Subspace Clustering via Simultaneously Learning the Representation Tensor and Affinity Matrix [J]. Pattern Recognition, 2020, 106(5): 1348-1353.
[8]SHAO W X, SHI X X, PHILIP S Y. Clustering on Multiple Incomplete Datasets via Collective Kernel Learning [C]//2013 IEEE 13th International Conference on Data Mining. Piscataway, NJ: IEEE, 2013: 1181-1186.
[9]WEN J, ZHANG Z, XU Y, et al. Unified Embedding Alignment with Missing Views Inferring for Incomplete Multi-view Clustering [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 5393-5400.
[10]ZHANG W, DENG Z H, CHOI K S, et al. End-to-End Incomplete Multiview Fuzzy Clustering with Adaptive Missing View Imputation and Cooperative Learning [J]. IEEE Transactions on Fuzzy Systems, 2022, 31(5): 1-14.
[11]WEN J, YAN K, ZHANG Z, et al. Adaptive Graph Completion Based Incomplete Multi-view Clustering [J]. IEEE Transactions on Multimedia, 2020, 23(2): 2493-2504.
[12]LIU X W, LI M M, WANG L, et al. Multiple Kernel k-Means with Incomplete Kernels [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(5): 1191-1204.
[13]GAO H, PENG Y, JIAN S. Incomplete Multi-view Clustering [C]//International Conference on Intelligent Information Processing. Berlin: Springer, 2016: 245-255.
[14]LI S Y, JIANG Y, ZHOU Z H. Partial Multi-view Clustering [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2014: 1968-1974.
[15]SHAO W, HE L, YU P S. Multiple Incomplete Views Clustering via Weighted Nonnegative Matrix Factorization with L2,1 Regularization [C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2015: 318-334.
[16]ZHUGE W Z, TAO H, LUO T J, et al. Joint Representation Learning and Clustering: A Framework for Grouping Partial Multiview Data [J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(8): 3826-3840.
[17]WANG H, ZONG L L, LIU B, et al. Spectral Perturbation Meets Incomplete Multi-view Data [EB/OL]. (2019-03-31)[2023-02-10]. https://arxiv.org/abs/1906.00098.
[18]ZHANG L, ZHAO Y, ZHU Z F, et al. Multi-view Missing Data Completion [J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(7): 1296-1309.
[19]LIU J L, TENG S H, FEI L K, et al. A Novel Consensus Learning Approach to Incomplete Multi-view Clustering [J]. Pattern Recognition, 2021, 115(7): 1-13.
[20]FU X, HUANG K J, HONG M Y, et al. Scalable and Flexible Multiview MAX-VAR Canonical Correlation Analysis [J]. IEEE Transactions on Signal Processing, 2017, 65(16): 4150-4165.
[21]BARTELS R H, STEWART G W. Solution of the Matrix Equation AX+XB=C [J]. Communications of the ACM, 1972, 15(9): 820-826.
[22]WANG H, YANG Y, LIU B, et al. A Study of Graph-Based System for Multi-view Clustering [J]. Knowledge-Based Systems, 2019, 163(5): 1009-1019.
[23]RAI N, NEGI S, CHAUDHURY S, et al. Partial Multi-view Clustering Using Graph Regularized NMF [C]//2016 23rd International Conference on Pattern Recognition (ICPR). Piscataway, NJ: IEEE, 2016: 2192-2197.
[24]SHAO W X, HE L F, LU C T, et al. Online Multi-view Clustering with Incomplete Views [C]//2016 IEEE International Conference on Big Data. Piscataway, NJ: IEEE, 2016: 1012-1017.
(責(zé)任編輯: 韓 嘯)
收稿日期: 2023-03-01.
第一作者簡(jiǎn)介: 趙翠娜(1997—), 女, 漢族, 碩士研究生, 從事多視圖聚類的研究, E-mail: 20071212564@stu.xidian.edu.cn.
通信作者簡(jiǎn)介: 楊有龍(1967—), 男, 漢族, 博士, 教授, 從事數(shù)據(jù)分類、 數(shù)據(jù)聚類融合以及數(shù)據(jù)預(yù)測(cè)的研究, E-mail: ylyang@mail.xidian.edu.cn.
基金項(xiàng)目: 國家自然科學(xué)基金(批準(zhǔn)號(hào): 61573266)和陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(批準(zhǔn)號(hào): 2021JM-133).