王雨思,路德楊,李海洋
1.西安工程大學 理學院,西安710048
2.廣州大學 人事處,廣州510006
3.廣州大學 數(shù)學與信息科學學院,廣州510006
聚類分析作為數(shù)據(jù)挖掘和模式識別等領域的重要工具,一直得到廣泛的應用。但是,隨著信息時代的來臨,高維數(shù)據(jù)變得越來越普遍。在處理高維數(shù)據(jù)時,傳統(tǒng)聚類方法,如k-means[1]等,表現(xiàn)出兩方面不足。一方面,這些方法通常采用距離作為相似性度量來進行聚類,而高維空間中的數(shù)據(jù)較低維空間中的數(shù)據(jù)分布要稀疏,且數(shù)據(jù)間距離處處相等是非常普遍的現(xiàn)象;另一方面,高維數(shù)據(jù)集中存在大量的無關屬性,這些無關屬性使得在數(shù)據(jù)集中存在簇的可能性幾乎為零。研究表明,高維數(shù)據(jù)往往存在于低維流形結構中,而不是均勻的分布在任意空間,且它們的本質維數(shù)比其真實的維數(shù)要低得多[2]。如含有數(shù)百萬幀的影像資料,剛性運動物體的軌跡特征[3],不同光照條件下的人臉圖像[4]等都位于低維聯(lián)合子空間中。因此,子空間聚類應運而生[5]。
子空間聚類作為高維數(shù)據(jù)聚類的一種新方法成為當前的研究熱點。常用的子空間聚類主要分為以下4類:迭代方法、代數(shù)方法、統(tǒng)計方法和基于譜聚類的方法[6]。目前,基于譜聚類的子空間聚類方法在眾多算法中是比較成功的。它首先通過搜索數(shù)據(jù)點之間的關系,利用相似性構建親和矩陣(Affinity Matrix);然后基于圖論的原理利用譜聚類方法對親和矩陣進行聚類;最后得到聚類結果[7]?;谧V聚類的子空間聚類方法的關鍵是如何更好的構建數(shù)據(jù)點之間的關系,使得親和矩陣能夠更有效的表示數(shù)據(jù)間的相似性,這對聚類效果的影響至關重要。當前構建親和矩陣的方法主要有ε-鄰近法、k 鄰近法和全連接法等,其中全連接法選擇使用高斯核函數(shù)RBF 或Sigmoid 核函數(shù)來刻畫數(shù)據(jù)點之間的關系,是目前應用中最普遍的方法。
針對如何有效的建立親和矩陣的問題,基于高維數(shù)據(jù)的自表征特性,即每個依存于子空間并上的數(shù)據(jù)點都能被數(shù)據(jù)集中其他數(shù)據(jù)點的組合所表示,Elhamifar 和Vidal 在文獻[8]中提出了稀疏子空間聚類算法(Sparse Subspace Clustering,SSC)[9-10]。文獻[11]提出了基于低秩表示的子空間聚類方法(Low Rank Representation,LRR)[12-13],與其他較好的子空間聚類算法相較,基于稀疏和低秩表示的方法不需要先驗條件可以直接處理噪聲和異常點。文獻[14]結合稀疏性與低秩性提出了多子空間表示(Multi-Space Representation,MSR)模型。文獻[15]同時對系數(shù)矩陣進行稀疏和低秩正則項約束,提出了LRSSC(Low-Rank Sparse Subspace Clustering)模型。文獻[16]結合稀疏表示的局部性和流行學習思想,提出了局部子空間聚類(Local Subspace Clustering,LSC)方法。雖然上述一系列的模型和算法很大程度的提高了子空間聚類的性能,但遺憾的是,上述這些方法皆采用矩陣的核范數(shù)或向量的1-范數(shù)對親和矩陣和稀疏隨機噪聲進行約束。然而核范數(shù)或1-范數(shù)約束得到的最優(yōu)解往往不夠稀疏,不能準確反應高維空間中數(shù)據(jù)分布的稀疏性以及稀疏隨機噪聲的位置和大小,對聚類結果產生了不利影響。
鑒于分式函數(shù)良好的稀疏性,本文主要把分式函數(shù)應用于子空間聚類,研究內容如下:(1)在稀疏子空間聚類模型中以分式函數(shù)作為目標函數(shù)代替0-范數(shù),并證明了該模型所求的稀疏系數(shù)矩陣具有塊對角結構,能夠更好地揭示出數(shù)據(jù)的子空間結構。(2)本文針對含噪聲情況,將含噪數(shù)據(jù)分解為干凈數(shù)據(jù)、高斯噪聲和異常點噪聲,并對異常點噪聲仍舊采用分式函數(shù)約束作為正則項,提高模型的魯棒性。(3)利用交替方向迭代方法(alternating direction iteration method)[18]對模型進行求解,得到稀疏系數(shù)矩陣,進而求出相似性矩陣,最后將相似性矩陣應用于經典的譜聚類方法進行聚類。本文結構圖如圖1所示。
圖1 文章結構圖
定義1(子空間聚類Subspace Clustering)給定位于n 個聯(lián)合線性子空間并上的N 個無噪聲數(shù)據(jù)點,子空間相互獨立,子空間Si對應的維數(shù)為di,定義數(shù)據(jù)矩陣X:
其中Xi∈RD×Ni是一個秩為di(N >di)的矩陣,表示第i個子空間數(shù)據(jù)點組成的矩陣;Γ 為未知置換矩陣。子空間聚類的目的是求解子空間的個數(shù)n 以及它們對應的維數(shù)di,同時將數(shù)據(jù)點xi分割到原本對應的子空間中,理想情況下每一類對應一個子空間。
為了解決子空間聚類問題,基于數(shù)據(jù)的自表征特性,Elhamifar 和Vidal 提出稀疏子空間聚類(SSC)算法。該算法運用理想情況下,數(shù)據(jù)點的稀疏表示中的非零元素對應于來自相同子空間的數(shù)據(jù)點這一特性,通過一個稀疏優(yōu)化框架,獲得不同子空間的數(shù)據(jù)劃分,再根據(jù)這一信息使用譜聚類框架獲取聚類結果。SSC 的基本思想是將矩陣X 表示成字典矩陣D 下的線性組合,即X=DC,同時希望線性組合的系數(shù)矩陣C 是最稀疏的,SSC的基本模型如下:
由于0-范數(shù)的最小化求解是一個NP-hard 問題,故一定條件下,上述0-范數(shù)優(yōu)化問題等價于下式所示的凸1-范數(shù)優(yōu)化問題:
本文考慮利用分式函數(shù)逼近0-范數(shù)來提高模型的稀疏性。以下給出分式函數(shù)的定義及其主要性質。
定義2[17](分式函數(shù))對于任意的t ∈?,定義分式函數(shù)pb(t)為:
其中參數(shù)b ∈( 0,+ ∞)。
在分式函數(shù)中:當t=0 時,pb(0)=0;當t0 且參數(shù)b →+∞時,pb(t)→1,可見隨著參數(shù)b 的增大它能夠逼近0-范數(shù)。圖2 給出在不同參數(shù)下的分式函數(shù)圖像。
圖2 不同參數(shù)下的分式函數(shù)圖像
因此分式函數(shù)pb(| t|)可以近似逼近0-范數(shù),即
在求解0-范數(shù)優(yōu)化問題中,迭代閾值算法作為一種成功的方法被廣泛應用在壓縮感知中。其中迭代硬閾值算法(Iterative Hard Thresholding,IHT)[19]主要是將0-范數(shù)優(yōu)化問題轉化為求解無約束0-范數(shù)優(yōu)化,迭代硬閾值算法的迭代格式為:
其中:
迭代軟閾值算法(Iterative Soft Thresholding)[20]主要求解無約束的1-范數(shù)優(yōu)化問題,其迭代格式如下:
其中:
分式迭代閾值算法在文獻[17]被提出并應用于壓縮感知中,表現(xiàn)出良好的性能,其迭代格式通過定理1給出。
其中:
故X*的第i 列為:
其中參數(shù)t 滿足:
本章提出基于分式函數(shù)約束的稀疏子空間聚類模型(Fraction function Penalty Sparse Subspace Clustering,F(xiàn)PSSC),相較于經典的凸1-范數(shù)約束的稀疏子空間聚類模型,F(xiàn)PSSC能獲得比凸1-范數(shù)約束稀疏性更好的系數(shù)矩陣。
分式函數(shù)可以逼近0-范數(shù)且較凸1-范數(shù)逼近獲得的系數(shù)矩陣更加稀疏,同時較0-范數(shù)易于求解。因此本文用分式函數(shù)替代不連續(xù)的0-范數(shù),將0-范數(shù)約束問題:
轉化為如下基于分式函數(shù)的約束問題:
通常情況下,SSC目標函數(shù)的目的是保證子空間中數(shù)據(jù)點的表示系數(shù)矩陣具有良好的有利于子空間聚類的結構,即具有塊對角結構[21]。文獻[22]在假設數(shù)據(jù)無噪聲干擾、子空間相互獨立的情況下,提出強制塊對角(Enhance Block Diagonal,EBD)條件。該強制塊對角條件能夠保證子空間表示系數(shù)矩陣,即所求模型的最優(yōu)解具有塊對角結構。下面證明本文構建的模型(12)在求解過程中獲取的系數(shù)矩陣C 具有塊對角結構。
強制塊對角條件(Enforced Block Diagonal conditions,EBD):函數(shù)f 是一個定義在上的矩陣集。對于任意其中A和D是方陣,B 和C 是任意維數(shù)的兼容矩陣。令則有強制塊對角條件:
(1)對任意置換矩陣P,ZP ∈Ω,有f( Z )=f( ZP)。
(2)f( Z )≥f( ZD),當且僅當B=C=0(或Z=ZD)時等式成立。
(3)f( ZD)=f( A)+f( D)。
引理1[22]假設數(shù)據(jù)樣本充分且子空間相互獨立,若函數(shù)f 滿足EBD條件(1)、(2)、(3),則模型:
的最優(yōu)解Z*一定是塊對角結構:
定理2假設數(shù)據(jù)樣本充分,且子空間相互獨立,定義矩陣分式函數(shù):
證明由引理1 可知,只需驗證分式函數(shù)滿足EBD條件(1)、(2)、(3)即可。事實上,由模型(12)中Pb(C)的定義易證EBD條件(1)、(2)、(3)都成立。
在實際問題中,待聚類數(shù)據(jù)集中通常含有異常點和高斯噪聲。考慮令第i 個數(shù)據(jù)樣本點:
將式(15)代入式(14)有:
則數(shù)據(jù)樣本點在被噪聲和異常點干擾情況下可表示為:
即:
寫成矩陣的形式為:
其中E、G 的每一列向量ei、gi被定義為:
因此,考慮到噪音的情形,對模型(12)進行優(yōu)化,可變?yōu)椋?/p>
本節(jié)對基于分式函數(shù)約束的稀疏子空間聚類模型式(22)進行求解。首先,利用正則化方法,模型(22)可寫為:
然后,利用交替方向迭代算法對式(23)進行求解。先將問題轉換為以下兩個子問題(24)和(26),再利用FP迭代閾值算法對式(24)、(26)進行求解如下所示。
固定Gk,對C 求極?。?/p>
再令
固定Ck+1,對G 求極?。?/p>
式(24)求解,該式可以轉化成標量最小化問題,應用定理1給出的分式迭代閾值算法的迭代格式,將變量代入迭代格式中即可求得。
式(26)求解,可知該式存在閉合解為:
其中,Ω 為分式函數(shù)約束最小化運算符,則G 可通過FP迭代閾值算法獲得,和式(24)求解方法一致,由定理1中的FP閾值迭代格式可求出。
綜上所述,通過交替方向迭代算法求解FPSSC模型進行聚類時,首先利用更新規(guī)則得到最優(yōu)解,然后構建親和矩陣,最后應用譜聚類來得到聚類結果。具體實現(xiàn)過程如算法1所示。
算法1FPSSC算法
輸入:數(shù)據(jù)點矩陣X=[x1,x2,…,xN],參數(shù)λe、λg。
初始化:Ck=Gk=0,μ=10-6,ρ=1.1,ε=10-8。
1.通過式(24)、(25)、(26)分別對變量Ck、Gk進行更新
2.更新參數(shù):μk+1=min{ρ μk,μmax}
4.獲得最優(yōu)化問題的解(C*,G*)
6.譜聚類
輸出:每個數(shù)據(jù)點的聚類結果。
本節(jié)中,討論FPSSC算法的收斂性。本文利用交替方向迭代方法對模型(22)進行求解,由于Pb( C )和Pb( G )都是非凸函數(shù),因此不能從理論上保證上述算法的收斂性。但是,本文進行了大量實驗,實驗結果顯示,實際應用中的FPSSC 在最優(yōu)化問題的求解中通常都能很好地收斂。
將本文提出的FPSSC 算法與當下比較流行的幾個基于譜聚類的子空間聚類算法進行實驗比較,選擇人工數(shù)據(jù)集、Extended Yale B人臉數(shù)據(jù)庫、Hopkins155運動分割數(shù)據(jù)集這3 個流行的標準數(shù)據(jù)庫進行對比實驗。上述數(shù)據(jù)庫的部分樣本圖像如圖3 所示。在人工合成數(shù)據(jù)集上,本文用算法分割的精確度衡量其性能的優(yōu)劣;在Extended Yale B 人臉數(shù)據(jù)庫和Hopkins155 運動分割數(shù)據(jù)集上,采用子空間聚類錯誤率衡量其性能的優(yōu)劣,其中定義:
圖3 數(shù)據(jù)庫的部分樣本圖像
可見,子空間聚類錯誤率越小,其聚類結果越好,算法性能越優(yōu)。本文實驗環(huán)境為Microsoft Windows 10,采用Inter?Core?i5-3230M CPU@2.60 GHz處理器,4 GB內存的聯(lián)想G500筆記本電腦。
本文構建一個人工數(shù)據(jù)集用來比較不同子空間聚類算法的性能。依據(jù)類似于文獻[23]和[24]的方法,創(chuàng)建5 個相互獨立的子空間Si?R200(i=1,2,3,4,5),子空間的基能夠利用Ui+1=TUi,1 ≤i ≤4 得到,其中T 是一個隨機矩陣,U1是一個100×4 維數(shù)的隨機正交矩陣。故每個子空間的維數(shù)是4,外圍空間的維數(shù)是100。首先,通過Xi=UiQi,1 ≤i ≤5 從每個子空間中選取20個100維的數(shù)據(jù)點向量,這里Qi是一個4×20的隨機矩陣且矩陣內每個元素皆在(0,1)之間均勻分布,故可以得到5 個子空間樣本為20×100 的數(shù)據(jù)點矩陣X=[X1X2X3X4X5]。然后,在數(shù)據(jù)點矩陣中隨機選取20%的數(shù)據(jù)點向量加入高斯噪聲,這里的高斯噪聲分布服從均值為0,方差為0.3‖ x‖(‖ x ‖表示選取的數(shù)據(jù)點向量)。最后,應用譜算法把數(shù)據(jù)點分成5 類同時比較每類方法分割的準確率。由于該人工數(shù)據(jù)集上僅加入了高斯噪聲,故在此實驗中取參數(shù)λg=0。
在本數(shù)據(jù)集上,將所提出的FPSSC 算法與經典的SSC、SR2,1、SR1和LRR 子空間聚類算法進行對比實驗,其中SR2,1模型和SR1模型分別為:
表1 不同算法中系數(shù)矩陣的稀疏度
圖4 不同算法在人工數(shù)據(jù)集上的分割精確度
圖4 為各算法在該人工數(shù)據(jù)集上的運行結果。通過綜合比較,可以看出本文的FPSSC對數(shù)據(jù)的分割精確度高于其他幾種算法,表現(xiàn)出良好的性能。親和矩陣可以影響算法性能的優(yōu)劣,SSC、LRR、SR1和SR2,1同本文算法一致,都是先求取親和矩陣,然后將親和矩陣用于NCuts的譜聚類算法進行數(shù)據(jù)聚類。結合表1和圖4可知,由于SSC、SR1和SR2,1皆是用1-范數(shù)作為目標函數(shù),故獲得的系數(shù)矩陣不夠稀疏。然而本文的FPSSC用分式函數(shù)作為目標約束,通過調節(jié)分式函數(shù)中的參數(shù)b使得系數(shù)矩陣的稀疏度低于其他幾種算法,獲得了更好的稀疏性。另一方面,各算法在噪聲的處理上有所不同,本文在處理噪聲時使用Forbenius范數(shù)進行約束,表現(xiàn)出對高斯噪聲較好的魯棒性??梢钥吹诫S著噪聲比率的增加,各算法的分割精確度都在下降,SSC和SR2,1精確度下降較緩慢,但是都低于FPSSC 的精確度,可見FPSSC受噪聲影響較小,魯棒性更好。SR1使用1-范數(shù)進行噪聲約束,當噪聲比率高于60%時其精確度相對穩(wěn)定且高于SSC 和SR2,1,但FPSSC 的精確度仍然高于SR1算法??梢?,本文的FPSSC算法通過調節(jié)分式函數(shù)的參數(shù)b 提高了模型的稀疏性,且在處理噪聲時使用Forbenius范數(shù)對噪聲進行有效約束,提高了模型的魯棒性,使FPSSC表現(xiàn)出良好的性能。
Extended Yale B人臉數(shù)據(jù)庫是用于測試子空間聚類算法的標準數(shù)據(jù)庫,本文將所提算法應用到該數(shù)據(jù)庫檢驗FPSSC的有效性。Extended Yale B人臉數(shù)據(jù)庫采樣了38 類灰度大小為192×168 的人臉,每類含有64 張?zhí)幱诓煌庹障碌娜四槇D像,本文將圖像灰度轉化為48×42 并使用2 016 維矢量化的圖像作為一個數(shù)據(jù)樣本。結合文獻[25],本文將38類目標圖像依次分為如下4 組:1~10、11~20、21~30 和31~38,其中前3 組中的每一組,本文實驗采用所有可以選擇的2、3、5、8、10個類別,對于第4 組,本文使用所有可選的2、3、5、8 個類別進行重復實驗。為了驗證本文算法的有效性,實驗過程中將結果與當前性能較好的SCC[26]、LSA(Local Subspace Affinity)[27]、LRSC[28]、LRR、SSC 進行比較,實驗結果如表2 所示,其結果中給出不同算法在取不同類別時,在Extend Yale B數(shù)據(jù)庫進行重復實驗過程中聚類錯誤率的平均數(shù)和中位數(shù)。
由表2 可知,在不同的聚類類別下,F(xiàn)PSSC 聚類結果的錯誤率要低于其他幾種算法,具有更好的性能。在該人臉數(shù)據(jù)庫上,SCC和LSA通過搜索數(shù)據(jù)點的全局和局部結構構建親和矩陣,其模型自身具有局限性,導致它們聚類錯誤率偏高,表現(xiàn)出最差的性能。觀察到SSC和LRR作為經典的基于稀疏表示和低秩表示的子空間聚類算法,其能夠獲得比LRSC算法相較更低的聚類錯誤率,而且隨著聚類類別數(shù)的增加,SSC 表現(xiàn)出比LRR更優(yōu)秀的性能。然而,本文所提的FPSSC算法,由于獲得更為稀疏的系數(shù)矩陣并對兩個噪聲項進行了有效約束,所以在聚類類別不同的情況下,平均聚類錯誤率均低于SSC和LRR算法,且在類別數(shù)逐漸增大時,要明顯低于其他算法的聚類錯誤率。故FPSSC 提高了聚類結果的準確性和穩(wěn)定性,算法性能優(yōu)于其他幾種算法。
表2 不同算法在Extended Yale B人臉數(shù)據(jù)庫上的聚類錯誤率%
Hopkins155 數(shù)據(jù)集是一個具有代表性的標準視頻數(shù)據(jù)集,廣泛地應用于聚類實驗中。運動分割是指根據(jù)場景中的不同運動對一個包含多個運動物體的視頻序列進行分割。對視頻中每一幀的N 個特征數(shù)據(jù)點進行提取和跟蹤,特征數(shù)據(jù)點堆疊獲得的一個2F 維向量(F為視頻的總幀數(shù))對應特征軌跡,因此,運動分割就是根據(jù)其基本的運動分離這些運動軌跡的問題。本文實驗采用的Hopkins155 運動分割數(shù)據(jù)集中包含155 個視頻序列,其中122 個視頻序列含有2 個運動,每個序列30幀,具有266個特征軌跡;35個視頻序列含有3個運動,每個序列29幀,具有398個特征軌跡。每個視頻幀的子空間低于三維。參照文獻[29]的實驗設置,本文首先應用主成分分析算法對運動軌跡進行有效降維,將運動軌跡從2F 維降到4n(n 為子空間的數(shù)量)維,然后分別將子空間聚類算法應用于該數(shù)據(jù)集中執(zhí)行算法程序,結果中表3 是2F 維數(shù)據(jù)點下聚類錯誤率的均值和中位數(shù),表4是4n 維數(shù)據(jù)點下聚類錯誤率的均值和中位數(shù)。
表3 不同算法在Hopkins155運動分割數(shù)據(jù)集2F維數(shù)據(jù)點下的聚類錯誤率%
表4 不同算法在Hopkins155運動分割數(shù)據(jù)集4n維數(shù)據(jù)點下的聚類錯誤率%
表3和表4分別為運動軌跡在2F 維和4n 維下的聚類結果。分析表中的聚類結果可以看出,F(xiàn)PSSC 在4n維數(shù)據(jù)點下的聚類錯誤率低于其他幾種算法,具有較優(yōu)的聚類結果;在2F 維數(shù)據(jù)點下,由于該數(shù)據(jù)集中類別為2或3,相比其他數(shù)據(jù)集類別較少,因此在分式函數(shù)的約束下,稀疏性在一定程度上會加重數(shù)據(jù)的局部性,導致在維數(shù)較大的情況下,本文算法與SSC 的性能相差無幾,算法性能沒有表現(xiàn)出明顯的優(yōu)勢。但是值得注意的是,相較于SCC、LSA、LRR和LRSC,F(xiàn)PSSC算法表現(xiàn)出了很好的性能,而且在2 個運動時,雖然FPSSC 的聚類錯誤率相較SSC略高,但是隨著聚類類別數(shù)增加到3個運動時,F(xiàn)PSSC 的聚類錯誤率卻要明顯低于SSC,說明隨著類別數(shù)的增加,F(xiàn)PSSC 能夠獲得較低的聚類錯誤率。綜上所述,本文的FPSSC算法能夠有效的捕獲數(shù)據(jù)的結構信息,在實際應用中獲得較優(yōu)的聚類結果。
本節(jié)分析參數(shù)選擇對FPSSC 算法性能的影響。具體地,影響FPSSC 算法性能的參數(shù)主要包含3 個:調節(jié)分式函數(shù)的參數(shù)b、平衡噪聲項的參數(shù)λe和λg。本文利用交叉驗證方法對參數(shù)進行選擇,分別在Extended Yale B 人臉數(shù)據(jù)庫類別為10、Hopkins155 運動分割數(shù)據(jù)集類別為3 的情況下進行實驗。其中參數(shù)b={10,20,30,40,50,60,70,80,90,100},λg={10-4,10-3,10-2,10-1,100,101,102},λe={0,0.02,0.04,0.06,0.08,0.10,0.12},通過搜索不同參數(shù)值對算法性能的影響進行評價。圖5表明參數(shù)b 取值在70~90范圍變化時,算法的聚類錯誤率較低,算法相對穩(wěn)定。圖6和圖7分別表明參數(shù)λe和λg變化時對聚類錯誤率的影響,因所選數(shù)據(jù)庫受噪聲影響程度不同,故平衡參數(shù)λe和λg的最優(yōu)取值也不同。
圖5 參數(shù)b 對聚類錯誤率的影響
圖6 參數(shù)λe 對聚類錯誤率的影響
圖7 參數(shù)λg 對聚類錯誤率的影響
綜上所述,基于分式函數(shù)約束的稀疏子空間聚類方法在人工數(shù)據(jù)集、Extended Yale B數(shù)據(jù)庫和Hopkins155數(shù)據(jù)集上表現(xiàn)出良好的性能??梢钥吹剑噍^其他的子空間聚類算法,由于分式函數(shù)能夠逼近0-范數(shù),具有良好的稀疏性,采用分式函數(shù)進行約束能夠準確地刻畫高維數(shù)據(jù)點的數(shù)據(jù)結構,因此該方法在子空間聚類中取得了更好的聚類結果。
本文提出一種基于分式函數(shù)約束的稀疏子空間聚類算法。不同于經典的SSC算法,F(xiàn)PSSC使用分式函數(shù)替代0-范數(shù)作為目標函數(shù)以提高系數(shù)矩陣的稀疏性,并證明了分式函數(shù)獲取的系數(shù)矩陣具有塊對角結構,能夠有效地表現(xiàn)出數(shù)據(jù)點之間的關系,準確捕獲數(shù)據(jù)的子空間結構。同時,針對含噪聲的情況,對異常點噪聲同樣使用分式函數(shù)約束作為正則項,增加模型的穩(wěn)定性。再運用交替方向迭代方法對模型進行求解,構建親和矩陣,最后使用譜聚類算法進行聚類。在3個數(shù)據(jù)集上的實驗結果表明,本文提出的FPSSC算法在系數(shù)矩陣稀疏性和聚類準確率上均表現(xiàn)出較好的性能,算法更加有效。下一步的研究重點,將對復雜含噪數(shù)據(jù)的數(shù)據(jù)結構進行研究,給出其成功恢復下的理論保證。