余江蘭,李向利,董曉亮
(1.桂林電子科技大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院;廣西密碼學(xué)與信息安全重點(diǎn)實(shí)驗(yàn)室;廣西自動(dòng)檢測(cè)技術(shù)與儀器重點(diǎn)實(shí)驗(yàn)室,廣西桂林 541004)
(2.北方民族大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,寧夏銀川 750021)
非負(fù)矩陣分解(Non-negative Matrix Factorization,簡(jiǎn)寫(xiě)為NMF)[1,2]是繼PCA(主成分分析)[3]、ICA(獨(dú)立成分分析)[4]、VQ(矢量量化)[5]等矩陣分解方法之后提出的一種新的矩陣分解方法.近年來(lái),NMF算法引起了各個(gè)領(lǐng)域中科研人員的重視,因?yàn)镹MF的思想為人類(lèi)處理大規(guī)模數(shù)據(jù)提出了一種新方法,且該方法相較于一些傳統(tǒng)的方法而言,具有實(shí)現(xiàn)簡(jiǎn)便、易于存儲(chǔ)、分解結(jié)果可解釋的優(yōu)點(diǎn).NMF是在一般的矩陣分解的基礎(chǔ)上對(duì)矩陣添加了非負(fù)的限制,其基本思想可簡(jiǎn)單概括為:給定一個(gè)非負(fù)數(shù)據(jù)矩陣,試圖找到兩個(gè)非負(fù)低秩矩陣,使得它們的乘積能夠無(wú)限逼近原始非負(fù)數(shù)據(jù)矩陣.標(biāo)準(zhǔn)NMF[6]是將Frobenius范數(shù)(簡(jiǎn)記為F范數(shù))作為目標(biāo)函數(shù),計(jì)算起來(lái)很方便快捷,但是它不能有效地處理存在于數(shù)據(jù)中的噪音值和異常值點(diǎn).因此,急需找到一個(gè)能夠改善這些問(wèn)題的非負(fù)矩陣分解新版本.
此前,源于其對(duì)事物的局部特性有很好的解釋,NMF已經(jīng)被廣泛應(yīng)用于很多領(lǐng)域.比如,圖像分析、文本數(shù)據(jù)和數(shù)據(jù)挖掘、語(yǔ)音處理、機(jī)器人控制、生物醫(yī)學(xué)工程和化學(xué)工程,此外,NMF算法在環(huán)境數(shù)據(jù)處理、信號(hào)分析與復(fù)雜對(duì)象的識(shí)別方面都有著很好的應(yīng)用.擴(kuò)展的NMF[7]也在不斷適應(yīng)著各種各樣的目標(biāo)函數(shù),從而能夠涉入不同的數(shù)據(jù)分析問(wèn)題,包括分類(lèi)、協(xié)同過(guò)濾和聚類(lèi)等等.
聚類(lèi)是特征學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的最重要且具有挑戰(zhàn)性的任務(wù)之一.在過(guò)去的幾十年里,研究學(xué)者們?yōu)楦鞣N應(yīng)用程序設(shè)計(jì)了許多聚類(lèi)方法,包括圖像注釋[8]、圖像檢索[9]、圖像分類(lèi)[10]、圖像分割[11]、數(shù)據(jù)挖掘[12]和圖像索引[13].然而,對(duì)于圖像聚類(lèi)任務(wù)來(lái)說(shuō),一個(gè)非常重要的步驟是找到原始數(shù)據(jù)的有效表示.為此,不同的研究人員做了大量的工作,他們通常強(qiáng)調(diào)挖掘原始數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息,并使新的表示更具辨別性.傳統(tǒng)的聚類(lèi)已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類(lèi)問(wèn)題.但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性和冗余性,在處理許多問(wèn)題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況.因?yàn)閭鹘y(tǒng)聚類(lèi)方法在高維數(shù)據(jù)集中進(jìn)行聚類(lèi)時(shí),主要遇到兩個(gè)問(wèn)題[14]:(1)高維數(shù)據(jù)集中存在一些與聚類(lèi)無(wú)關(guān)的維度,從而在對(duì)數(shù)據(jù)降維處理中帶來(lái)一定的挑戰(zhàn);(2)高維空間中數(shù)據(jù)比低維空間中數(shù)據(jù)分布更稀疏和零散,常存在數(shù)據(jù)點(diǎn)之間的距離幾乎相等的情況,而傳統(tǒng)聚類(lèi)方法是基于距離進(jìn)行聚類(lèi)的,因此在高維空間中無(wú)法基于距離來(lái)構(gòu)建簇.
而NMF作為一種處理大規(guī)模數(shù)據(jù)的矩陣分解方法,它已逐漸成為圖像、文本聚類(lèi)與數(shù)據(jù)挖掘等領(lǐng)域最受歡迎的工具之一.實(shí)踐證明,利用NMF對(duì)文本、圖像等高維數(shù)據(jù)進(jìn)行處理時(shí),比傳統(tǒng)的矩陣分解處理方法速度更快、更便捷,被認(rèn)為是對(duì)非負(fù)數(shù)據(jù)進(jìn)行處理的一種有效途徑,已經(jīng)引起了國(guó)內(nèi)外許多科學(xué)家和研究人員的廣泛關(guān)注.
近年來(lái),為了不斷改善已有的NMF方法存在的問(wèn)題,很多擴(kuò)展版NMF被提出.為了提高原始NMF的稀疏性,通過(guò)將局部約束整合到標(biāo)準(zhǔn)的NMF中,Li等人[15]提出了LNMF(局部非負(fù)矩陣分解).這種方法不僅可以學(xué)習(xí)對(duì)象的稀疏表示,而且可以表明局部特征.之后,為了確保對(duì)象的稀疏性,Hoyer等人[16]將L1-范數(shù)約束強(qiáng)加在編碼矩陣上,提出了NSC(非負(fù)稀疏編碼).雖然他們沒(méi)有考慮數(shù)據(jù)的內(nèi)在結(jié)構(gòu)信息,但從某種程度上說(shuō),NSC和LNMF從不同角度改善了NMF的稀疏性.Barman等人[17]提出了基于文本聚類(lèi)的非負(fù)矩陣分解,包括特征的提取和分類(lèi).楊等人[18]提出了非負(fù)矩陣分解的投影算法,并將該算法人臉圖像的處理中,實(shí)驗(yàn)效果較好;蔡等人試圖涉及幾何數(shù)據(jù)空間的信息提出了GNMF(圖正則非負(fù)矩陣分解[7]),它是通過(guò)構(gòu)建K-近鄰(KNN)圖結(jié)構(gòu)來(lái)編碼幾何結(jié)構(gòu).由于簡(jiǎn)單圖中的一個(gè)邊可以連接兩個(gè)頂點(diǎn),所以GNMF只考慮兩個(gè)樣本之間的關(guān)系,忽略了多個(gè)樣本之間的關(guān)系.為了探索多個(gè)樣本間的高階關(guān)系,通過(guò)創(chuàng)建一個(gè)超圖來(lái)編碼多個(gè)樣本間的關(guān)系,由于超圖可以連接兩個(gè)以上的頂點(diǎn),故HNMF(超圖正則化非負(fù)矩陣分解)能找到數(shù)據(jù)的高階關(guān)系.Zeng等人[19]提出了HNMF.雖然GNMF和HNMF運(yùn)用了樣本內(nèi)在的流形結(jié)構(gòu),但沒(méi)有考慮帶判別信息的因素.為了結(jié)合帶判別力的信息,李等人[20]通過(guò)合并局部流行圖正則和帶判別力的標(biāo)簽信息,提出了GDNMF(基于圖帶標(biāo)簽判別力的非負(fù)矩陣分解).為了將NMF延伸到子空間聚類(lèi)中,Dijana等人[21]借助核技巧[22,23]來(lái)揭示流形的非線(xiàn)性性質(zhì),并將數(shù)據(jù)固有的局部幾何性質(zhì)都考慮在內(nèi),提出了非線(xiàn)性正交非負(fù)矩陣分解,使得聚類(lèi)性能得以提升.
可以看出,以上列舉的NMF方法都是在不斷從不同角度揭示了充分利用原始數(shù)據(jù)內(nèi)在的流行幾何結(jié)構(gòu),但沒(méi)有揭示其稀疏性和魯棒性.基于此,本文在保留原始數(shù)據(jù)的內(nèi)在流行幾何結(jié)構(gòu)和運(yùn)用核技巧來(lái)揭示流形的非線(xiàn)性性質(zhì)的基礎(chǔ)上,添加了L2,1/2矩陣偽范數(shù)[24]作為額外的稀疏約束.由于稀疏約束能夠選擇有判別力的稀疏特征來(lái)改善算法的有效性,所以它吸引了很多研究學(xué)者的極大關(guān)注.稀疏約束旨在借助一個(gè)有效的稀疏模型來(lái)實(shí)現(xiàn)原始數(shù)據(jù)的稀疏表示.雖然非負(fù)矩陣分解對(duì)原始的數(shù)據(jù)矩陣可以起到降維的作用,但對(duì)于高維數(shù)據(jù)來(lái)說(shuō),它的計(jì)算仍然是很復(fù)雜的.因此,如果能改善基矩陣和系數(shù)矩陣的稀疏性,那么將降低計(jì)算的復(fù)雜度.此外,本文的目標(biāo)模型中,沒(méi)有使用常用的歐氏距離作為殘差項(xiàng),而是用L2,1范數(shù)[25]來(lái)替代標(biāo)準(zhǔn)NMF中的F范數(shù).引入L2,1范數(shù)有三點(diǎn)原因[25]:(1)在眾多的實(shí)際數(shù)據(jù)中,都包含了很多模糊的噪音值和異常值點(diǎn)等,而L2,1范數(shù)可以有效地處理原始數(shù)據(jù)中存在的這些問(wèn)題;(2)能提供一個(gè)有效的更新規(guī)則,進(jìn)而能有效提高算法的稀疏性和魯棒性;(3)以它為損失函數(shù)所需的計(jì)算成本和標(biāo)準(zhǔn)的NMF幾乎差不多,并且能提高算法的性能.
本文的其余部分結(jié)構(gòu)組織如下.第二部分主要介紹了標(biāo)準(zhǔn)的非負(fù)矩陣分解及相關(guān)理論部分,第三部分是本文的重要組成部分,包括本文目標(biāo)模型的構(gòu)建、更新迭代規(guī)則的推導(dǎo)、新算法的提出以及收斂性分析,第四部分是本文的數(shù)值實(shí)驗(yàn)展示實(shí)驗(yàn)結(jié)果分析,第五部分是對(duì)本文的總結(jié)和概括.本文中Ai矩陣A的第i列,Ai表示A矩陣的第i行.
NMF是目前國(guó)際上新的矩陣分解方法.它已廣泛應(yīng)用于諸多領(lǐng)域,如圖像處理、生物醫(yī)學(xué)、文本聚類(lèi)和語(yǔ)音信號(hào)處理等.標(biāo)準(zhǔn)的NMF問(wèn)題可描述如下.
換句話(huà)說(shuō),即解決極小化殘差矩陣
其中k·kF矩陣的表示Frobenius范數(shù),通過(guò)計(jì)算F范數(shù)的平方從而得到兩個(gè)矩陣的歐式距離.Lee等人[2,6]給出了極小化問(wèn)題(2.1)的更新迭代規(guī)則,并證明了其收斂性,迭代規(guī)則如下
在文獻(xiàn)[21]中,Dijana等人考慮一個(gè)非線(xiàn)性映射,將數(shù)據(jù)點(diǎn)映射到高位數(shù)據(jù)空間:xi→ Φ(xi),或者X → Φ(X)=(Φ(x1),Φ(x2),···,Φ(xn))∈ Rd×n,其中xi表示原始數(shù)據(jù)空間X的第i樣本點(diǎn).非線(xiàn)性非負(fù)矩陣分解旨在找到兩個(gè)非負(fù)低秩矩陣,使得它們的乘積可以無(wú)限逼近原始矩陣的映射Φ(X).基于此,Dijana等人[21]提出了基于核的圖正則正交非負(fù)矩陣分解模型,即
此模型的優(yōu)勢(shì)在于,基于內(nèi)核的非負(fù)光譜聚類(lèi)算法,引入了一個(gè)圖正則化項(xiàng),通過(guò)圖正則項(xiàng)來(lái)捕獲非線(xiàn)性特征空間中固有的局部幾何結(jié)構(gòu),從而使得因子分解方法具有更強(qiáng)的識(shí)別能力,可以從更高維度環(huán)境空間的子流形中提取數(shù)據(jù)點(diǎn).
但Dijana等人卻忽視了原始數(shù)據(jù)間的稀疏性和魯棒性.為了充分利用原始數(shù)據(jù)的內(nèi)在信息和提高算法的稀疏性及魯棒性,基于L2,1范數(shù)能夠處理原始數(shù)據(jù)中的異常點(diǎn)和極端值點(diǎn)的作用,本文用L2,1范數(shù)對(duì)原有的Frobenius范數(shù)進(jìn)行改進(jìn),并引入混合L2,1/2矩陣偽范數(shù),結(jié)合范數(shù)算子和非負(fù)約束保證了投影矩陣的稀疏性.構(gòu)建新的目標(biāo)函數(shù)如下
其中λ,β,ξ是平衡因子,L=D?W 為拉普拉斯矩陣,D是一個(gè)對(duì)角矩陣
這里的Np(xl)表示xl的p個(gè)近鄰集合[26].對(duì)于(3.2)式,算法只能保證其局部極小化收斂性.其中,該目標(biāo)函數(shù)的第一項(xiàng)是原始數(shù)據(jù)矩陣和低秩逼近矩陣乘積間的殘差項(xiàng),也是改進(jìn)算法魯棒性的重要根據(jù);第二項(xiàng)是圖正則項(xiàng),為了保證其數(shù)據(jù)的幾何結(jié)構(gòu)和控制樣本數(shù)據(jù)點(diǎn)間的局部幾何結(jié)構(gòu)的度;第三項(xiàng)和第四項(xiàng)分別是控制對(duì)應(yīng)變量的稀疏性.
記目標(biāo)函數(shù)為
其中
其中G和Q都是對(duì)角矩陣,對(duì)角元素分別為
為了避免它們的分母為0的情況,分別添加兩個(gè)足夠小的正常數(shù)ε1和ε2在矩陣G,Q的定義中,則它們的元素重新表示為
這里的K 是核矩陣[2,3],定義為K≡Φ(X)TΦ(X),其中Φ(X)是在非線(xiàn)性無(wú)限維特征空間的特征矩陣.
對(duì)F運(yùn)用Karush-Kuhn-Tucker最優(yōu)條件(簡(jiǎn)記為KKT條件)=0,?j,k,得到
進(jìn)行簡(jiǎn)單的代數(shù)推導(dǎo)變換即可得到F的更新迭代規(guī)則為
現(xiàn)在對(duì)目標(biāo)函數(shù)關(guān)于V求偏導(dǎo)數(shù),有
其中P是對(duì)角矩陣,其對(duì)角元素為
為了避免分母為0的情況,添加一個(gè)足夠小的正常數(shù)ε3在矩陣Q的定義中,即
成立.對(duì)其進(jìn)行簡(jiǎn)單的代數(shù)變換即可得到V的更新迭代規(guī)則為
關(guān)于迭代更新規(guī)則(3.9)和(3.12),有定理1成立.
定理1目標(biāo)函數(shù)(3.1)在迭代更新規(guī)則(3.9)和(3.12)下是非增長(zhǎng)的.
類(lèi)似于文獻(xiàn)[21],下面給出本文的新算法.
算法:KRSNMF輸入:X ∈Rm×n+ ,1≤ k ≤ min{m,n},λ =0.05,ξ=0.1;β =3.5,σ =0.22;輸出:U ∈Rd×k+ ,V ∈ Rk×n+ ,F ∈ Rn×k+ .步驟1:隨機(jī)初始化U,V,F使得它們的取值0到1之間.重復(fù)步驟2:更新V根據(jù)(3.12);更新F根據(jù)(3.9);更新U根據(jù)U=Φ(X)F;直到滿(mǎn)足停止條件.
定義1 如果Z(v,v0)和J(v)之間滿(mǎn)足Z(v,v0)≥J(v),Z(v,v)=J(v),那么Z(v,v0)是J(v)的輔助函數(shù).
欲證明Z(v,v0)是J(v)的輔助函數(shù),首先給出引理1.
引理1如果Z是J的輔助函數(shù),則在更新規(guī)則
下,J是非增長(zhǎng)的,其中右上角的t表示數(shù)值計(jì)算中的某一步,t+1表示t的下一步.
證
換句話(huà)說(shuō),只要輔助函數(shù)Z(v,v0)達(dá)到極小值,函數(shù)J(v)也會(huì)達(dá)到極小值.
對(duì)于目標(biāo)函數(shù)(3.1),考慮到矩陣V中的元素Vab,記Jab為目標(biāo)函數(shù)中與Vab相關(guān)的部分,對(duì)其關(guān)于Vab求偏導(dǎo)數(shù),有
引理2函數(shù)
是Jab的輔助函數(shù).
證? 顯然·有Z(v,v)=Jab(v)成立.要證明的輔助函數(shù),只需要證即可.因?yàn)?/p>
又因?yàn)?/p>
定理1的證明用(3.16)中的替換(3.13)中的有如下的更新規(guī)則
因此Jab在此更新迭代規(guī)則下是非增長(zhǎng)的.故定理1得證.
這部分主要介紹了本文在圖片聚類(lèi)中的數(shù)值實(shí)驗(yàn)的相關(guān)內(nèi)容.聚類(lèi)是在無(wú)類(lèi)別標(biāo)記信息的情況下將對(duì)象自動(dòng)分組,換句話(huà)說(shuō),它旨在將具有相似性質(zhì)的對(duì)象分到同一簇中,根據(jù)不同的算法,聚類(lèi)得到的結(jié)果也不盡相同.如圖1,2,3所示.圖片相關(guān)的信息來(lái)源于http://www.cad.zju.edu.cn/home/dengcai/Data/data.html.圖4是本文用到的KRSNMF算法借助冪指數(shù)核得到的聚類(lèi)圖.
圖1 :快速近鄰法聚類(lèi)效果圖
圖2 :壓縮剪輯近鄰算法(Condensing)初始樣本分布圖
圖3 :壓縮剪輯近鄰算法(Condensing)剪輯后樣本分布圖
圖4 :KRSNMF算法聚類(lèi)圖
本文中選用的數(shù)據(jù)集都是常用的標(biāo)準(zhǔn)數(shù)據(jù)集,即
文中所有的數(shù)值計(jì)算都是在處理器為Intel(R)Core(TM)i5-6500 CPU@3.20 GHz 3.19 GHz,內(nèi)存為8.00 GB的64位操作系統(tǒng)上進(jìn)行的,算法代碼用MATLAB R2014a進(jìn)行編寫(xiě).本文分別選取了三種核技巧在這九個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),即高斯核技巧、冪指數(shù)核技巧和拉普拉斯核技巧.它們的計(jì)算方式分別為
實(shí)驗(yàn)中的參數(shù)選取如下λ=0.05,ξ=0.1;β=3.5,σ=0.22.
精度(Accuracy,ACC)和歸一化互信息(Normalized Mutual Information,NMI)是被廣泛應(yīng)用于不同聚類(lèi)方法的評(píng)價(jià)聚類(lèi)性能的指標(biāo).如果xi表示原始數(shù)據(jù)空間給定的數(shù)據(jù)點(diǎn),li是根據(jù)某一個(gè)聚類(lèi)算法由數(shù)據(jù)點(diǎn)xi計(jì)算得到的類(lèi)標(biāo)簽,gi是真實(shí)的類(lèi)標(biāo)簽.map(·)是從li到gi的最佳映射函數(shù),可以由Hungarian算法[27]計(jì)算得到.因此聚類(lèi)精度被定義如下:
這里的N 是總數(shù)據(jù)點(diǎn)個(gè)數(shù),δ(x,y)是一個(gè)delta函數(shù).計(jì)算規(guī)則:如果x=y,則δ(x,y)=1;否則δ(x,y)=0.
如果用C來(lái)表示真實(shí)類(lèi)標(biāo)集,S表示從某一個(gè)算法得到的類(lèi)標(biāo)集,則它們的互信息MI(C,S)定義如下:
其中p(ci)和p(sj)分別是原始數(shù)據(jù)集中的任意樣本點(diǎn)屬于ci和sj的概率,p(ci,sj)是任意樣本同時(shí)屬于ci和sj的聯(lián)合概率.在實(shí)驗(yàn)中,歸一化互信息的計(jì)算方式為
這里的H(C)和H(S)分別是C和S的信息熵,且NMI的值在從0到1內(nèi).如果兩個(gè)聚類(lèi)集合是同一的,那么NMI=1;如果兩個(gè)集合是相互獨(dú)立的,則NMI=0.也就是說(shuō),如果兩個(gè)數(shù)據(jù)點(diǎn)相似度越高,越有可能被自動(dòng)分到一個(gè)簇.
表1 :高斯核聚類(lèi)性能表
表2 :冪指數(shù)核聚類(lèi)性能表
表3 :拉普拉斯核聚類(lèi)性能表
在文獻(xiàn)[21]中,Dijana等人提出了非線(xiàn)性非負(fù)矩陣分解算法,本文將此算法記為KOGNMF.這部分主要是KOGNMF算法[21]和KRSNMF算法在九個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果展示及分析.兩種算法的實(shí)驗(yàn)結(jié)果如表1、表2和表3所示,它們分別展示了運(yùn)用不同核技巧即高斯核技巧、冪指數(shù)核技巧和拉普拉斯核技巧的實(shí)驗(yàn)結(jié)果.
精度和歸一化互信息是評(píng)價(jià)聚類(lèi)性能好壞的常用指標(biāo).從表1可以看出,在運(yùn)用高斯核技巧時(shí),對(duì)于不同的數(shù)據(jù)集,KRSNMF算法計(jì)算出的ACC和NMI總是要高于KOGNMF的實(shí)驗(yàn)結(jié)果,在orlraws10P,Pixraws10P,ORL32×32和COIL20這四個(gè)數(shù)據(jù)集上的表現(xiàn)尤為突出.換句話(huà)說(shuō),對(duì)于聚類(lèi)性能而言,本文提出的KRSNMF算法的性能要優(yōu)于已有的算法.下面介紹冪指數(shù)核的實(shí)驗(yàn)結(jié)果,冪指數(shù)核與高斯核密切相關(guān),只有正態(tài)的平方被忽略.而拉普拉斯核心完全等同于冪指數(shù)內(nèi)核,除了對(duì)σ參數(shù)的變化不那么敏感.事實(shí)上,從高斯核、冪指數(shù)核和拉普拉斯核的計(jì)算公式來(lái)看,三者大同小異,都是徑向基函數(shù)內(nèi)核,高斯核的σ的選取也同樣適合冪指數(shù)核和拉普拉斯核.
從表2的顯示結(jié)果來(lái)看,在這九個(gè)不同的數(shù)據(jù)集上,KRSNMF算法的性能總是優(yōu)于KOGNMF算法,其中在orlraws10P,Pixraws10P,ORL32×32,ORL和COIL20這五個(gè)數(shù)據(jù)集上的更能體現(xiàn)KRSNMF算法的聚類(lèi)性能,這說(shuō)明本文提出的KRSNMF算法是有效的.最佳的實(shí)驗(yàn)結(jié)果體現(xiàn)在體現(xiàn)在COIL20數(shù)據(jù)集上,該數(shù)據(jù)集是由20個(gè)不同的事物從72個(gè)不同的角度拍攝的照片組成的,在此數(shù)據(jù)上,KOGNMF算法計(jì)算出的ACC和NMI分別是0.2326和0.3445,而運(yùn)用KRSNMF算法時(shí)的ACC和NMI分別達(dá)到了0.6118和0.7001.這充分展現(xiàn)了KRSNMF算法的有效性.
從表3顯示的結(jié)果來(lái)看,在九個(gè)不同的數(shù)據(jù)集上,依然是KRSNMF算法的性能優(yōu)于KOGNMF算法,與表2的結(jié)果類(lèi)似,在orlraws10P,Pixraws10P,ORL32×32,ORL和COIL20這五個(gè)數(shù)據(jù)集上的表現(xiàn)更好.其中,在COIL20上的實(shí)驗(yàn)結(jié)果顯示,兩種算法計(jì)算出的互信息相差0.5689之多.
雖然三種核技巧的計(jì)算方式不同,但以上三個(gè)表的實(shí)驗(yàn)結(jié)果都闡明了KRSNMF算法的性能更好.從核技巧的角度而言,選取冪函數(shù)核技巧是最有效的.縱觀三個(gè)表展示的結(jié)果來(lái)看,本文提出的KRSNMF算法的性能的確要優(yōu)于已有的算法.這是因?yàn)楸疚脑诮⒌哪繕?biāo)模型中引入了對(duì)原始數(shù)據(jù)中的噪音值和異常值點(diǎn)有自動(dòng)處理作用的L2,1范數(shù),并額外添加了L2,1/2矩陣偽范數(shù)作為稀疏約束,從而使算法的稀疏性和魯棒性得到了良好的改善.
本文提出了一種基于核技巧的L2,1范數(shù)非負(fù)矩陣分解,它是用L2,1范數(shù)來(lái)替代標(biāo)準(zhǔn)NMF中的F范數(shù),即以L2,1范數(shù)為損失函數(shù),并且在保留原始數(shù)據(jù)的內(nèi)在流行幾何結(jié)構(gòu)和運(yùn)用核技巧來(lái)揭示流形的非線(xiàn)性性質(zhì)的基礎(chǔ)上,添加了L2,1/2矩陣偽范數(shù)作為額外的稀疏約束,從而達(dá)到提高算法的稀疏性和魯棒性的目的.在九個(gè)常用的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),數(shù)值實(shí)驗(yàn)結(jié)果展示了選取冪函數(shù)核技巧是最明智的,也驗(yàn)證了本文提出的KRSNMF算法是有效的.