劉 宇,孟 敏,武繼剛
廣東工業(yè)大學(xué) 計算機學(xué)院,廣州510006
隨著科技不斷發(fā)展,獲取數(shù)據(jù)的方式呈現(xiàn)著多元化的趨勢,從而使得這類數(shù)據(jù)可以由多種數(shù)據(jù)特征表示。例如,一個圖像可以由多種不同的特征來描述,如方向梯度直方圖特征(histogram of oriented gradients,HOG)、尺度不變特征變換特征(scaleinvariant feature transform,SIFT)、局部二值模式特征(local binary pattern,LBP)等;對于一個網(wǎng)頁,它可以由網(wǎng)站網(wǎng)址、網(wǎng)頁中的文本信息以及網(wǎng)站名稱等特征來描述;在生物學(xué)數(shù)據(jù)中,每個人類基因可以通過基因表達、陣列比較基因組雜交(ACGH)、單核苷酸多態(tài)性(SNP)和甲基化來測量。對于這類可以由不同特征集來共同表示的數(shù)據(jù),稱為多視圖數(shù)據(jù)。在過去幾十年里,單視圖算法在降維、分類、聚類以及回歸領(lǐng)域上都取得了巨大的進展,但由于不同特征視圖的有效組合能夠很好地提高算法的準確性,近年來多視圖算法成為了廣大學(xué)者的研究熱點。
基于全局結(jié)構(gòu)和局部流形結(jié)構(gòu)的特征投影能夠提取有效的判別信息來對原始數(shù)據(jù)空間進行降維,并結(jié)合低秩表示與稀疏學(xué)習(xí)方法可以提高算法的魯棒性,這些方法同時也被廣泛地應(yīng)用于多視圖學(xué)習(xí)。例如,低秩公共子空間多視圖學(xué)習(xí)(low-rank common subspace for multi-view learning,LRCS)方法,通過學(xué)習(xí)一個共同的低秩線性投影來減少不同視圖之間的語義差距。為了更多地保留每個類中所包含的信息,Ding 等考慮了類結(jié)構(gòu)與視圖結(jié)構(gòu)并通過成對的低秩分解來進行求解。Kan 等通過最大化類間間距以及最小化類內(nèi)差異來學(xué)習(xí)投影矩陣進行人臉識別?;谏疃染仃嚪纸舛嘁晥D聚類(multi-view clustering via deep matrix factorization,MVC)的方法,運用了半非負矩陣因式分解的方法來學(xué)習(xí)多視圖數(shù)據(jù)的層次語義,并通過保留原始數(shù)據(jù)固有的幾何結(jié)構(gòu)來進行多視圖聚類。通過對正則化函數(shù)施加范數(shù)和跡范數(shù)約束,Lu 等提出了一種新穎的凸多視圖低秩稀疏回歸算法來進行聚類和特征選擇。Zhong 等通過考慮多個視圖的互補性和每個視圖的特殊性,提出了基于判別稀疏進行加權(quán)特征選擇的多視圖學(xué)習(xí)方法。通常,這些算法都需要大量的標簽數(shù)據(jù)進行訓(xùn)練。在實際應(yīng)用中,收集到的數(shù)據(jù)經(jīng)常含有少量的標簽數(shù)據(jù)和大量的無標簽數(shù)據(jù),并且對大量無標簽的數(shù)據(jù)進行標記會消耗大量的人力資源。因此,半監(jiān)督學(xué)習(xí)得到了有效的發(fā)展。
半監(jiān)督學(xué)習(xí)方法能夠同時使用標簽信息和無標簽數(shù)據(jù)中的空間結(jié)構(gòu)信息,自動地為無標簽數(shù)據(jù)進行標記?;诖颂匦裕氡O(jiān)督學(xué)習(xí)方法被廣泛地應(yīng)用于多視圖的分類與聚類。自適應(yīng)多模態(tài)的半監(jiān)督分類算法,將每種類型的特征視為一種模式,學(xué)習(xí)了不同模式的共享類指標矩陣和權(quán)重。通過利用標簽數(shù)據(jù)的判別信息和原始數(shù)據(jù)的流形結(jié)構(gòu),Han 等提出了半監(jiān)督多視圖流形判別完整空間學(xué)習(xí)。潛在的多視圖半監(jiān)督分類(latent multi-view semi-supervised classification,LMSCC)方法將潛在表示學(xué)習(xí)、圖構(gòu)造和標簽傳播集成到一個統(tǒng)一的框架中,使得每個子任務(wù)都能得到優(yōu)化。Liu 等通過對模塊化度量進行分析,設(shè)計了一種邊緣函數(shù)自動地為每個屬性分配理想的權(quán)重,并將拓撲結(jié)合到圖形聚類中。然而這些算法都沒有考慮到每個視圖之間存在著數(shù)據(jù)結(jié)構(gòu)的一致性,從而使得多視圖算法的性能并不是很理想。因此,基于視圖結(jié)構(gòu)一致性的算法引起了學(xué)者們的研究。Zhang 等用拉普拉斯(Laplacian)和黑賽(Hessian)圖組成的群圖流形正則化器,并結(jié)合具有全局標簽一致性的半監(jiān)督學(xué)習(xí),提出了全局標簽一致分類器。Wang 等通過引入位置感知獨占項(position-aware exclusivity term)來獲取不同表示之間的互補信息,同時使用一致性約束來進行互補表示。Tao等基于視圖之間的聯(lián)系和不同視圖包含的信息,提出了多視圖協(xié)作表示分類方法。然而這些算法仍然存在以下幾個問題:(1)對不同視圖一致性約束的度量較為單一,沒有考慮到在不同的空間中每個視圖的數(shù)據(jù)結(jié)構(gòu)存在著聯(lián)系。(2)部分半監(jiān)督分類算法僅僅局限于對空間結(jié)構(gòu)的保持,忽略了對原始數(shù)據(jù)進行特征提取和相似矩陣的F 范數(shù)約束,從而無法避免噪聲以及其他不相關(guān)特征的影響。(3)沒有考慮到不同視圖包含特征信息量的差異性,無法對每個特征視圖進行合理的加權(quán)。
針對以上問題,本文提出了基于一致性約束的半監(jiān)督多視圖分類(semi-supervised multi-view classification via consistency constraint,SMCC)算法。該算法同時保持了不同視圖之間的一致性結(jié)構(gòu)與每個視圖的局部流形結(jié)構(gòu),并對相似矩陣進行F 范數(shù)約束,其主要貢獻有以下幾個方面:不僅僅局限于歐式空間距離的度量,還結(jié)合了希爾伯特空間的度量,并基于希爾伯特-施密特獨立性準則保持了不同視圖之間數(shù)據(jù)結(jié)構(gòu)的一致性;通過對原始數(shù)據(jù)進行保留局部流形結(jié)構(gòu)的特征投影提取有效的判別特征,以及對相似矩陣的F 范數(shù)約束提高了算法的魯棒性;根據(jù)不同視圖包含的不同特征信息量,自適應(yīng)地賦予不同視圖相應(yīng)的權(quán)重;基于線性交替方向乘子方法(linear alternative direction method with adaptive penalty,LADM),對提出的算法設(shè)計了有效的求解方法;通過大量實驗結(jié)果證明,本文算法能夠捕獲多視圖數(shù)據(jù)中更多的有效判別信息,提高了算法的準確性。
特征投影通過提取原始數(shù)據(jù)的有效判別特征不僅能降低計算成本,而且能夠提高算法的準確性。因此,相關(guān)學(xué)者對多視圖特征投影方法進行了廣泛的研究。與大多數(shù)直接在每個視圖中分別進行特征投影不同,潛在的多視圖子空間聚類(latent multiview subspace clustering,LMSC)方法基于每個視圖都起源于一個潛在表示來對原始數(shù)據(jù)空間進行重構(gòu),再利用不同視圖之間的互補性進行子空間聚類。為了縮小多個視圖之間的語義差異,Ding 等將多個視圖特定投影轉(zhuǎn)換為共享的多視圖低秩投影,并將類內(nèi)數(shù)據(jù)耦合到不同的視圖中,使所學(xué)習(xí)的集體子空間更具鑒別性。然而在實際應(yīng)用中,獲取的原始數(shù)據(jù)通常只含有少量的標簽,這使得上述算法無法得到足夠的標簽數(shù)據(jù)進行訓(xùn)練,從而導(dǎo)致算法的性能較低。因此,為了充分利用未標記數(shù)據(jù)中所包含的判別信息,學(xué)者們對半監(jiān)督學(xué)習(xí)算法進行了廣泛的研究。
典型的半監(jiān)督學(xué)習(xí)算法包括基于高斯場和諧波函數(shù)的半監(jiān)督學(xué)習(xí)方法與FME(flexible manifold embedding)算法。通過結(jié)合多視圖學(xué)習(xí)與半監(jiān)督學(xué)習(xí)算法,Nie 等提出了多視圖聚類與半監(jiān)督分類的框架算法(parameter-free auto-weighted multiple graph learning,AMGL),其算法能夠不引入附加參數(shù)即可對每個視圖自適應(yīng)地賦予相應(yīng)的權(quán)重。面向圖聚類和半監(jiān)督分類的自適應(yīng)權(quán)重多視圖學(xué)習(xí)(autoweighted multi-view learning for image clustering and semi-supervised classification,MLAN)方法,通過考慮原始數(shù)據(jù)中存在的噪音以及空間局部流形結(jié)構(gòu),有效提高算法的魯棒性,并且在合理的秩約束下,得到的最優(yōu)圖可以直接劃分為特定的簇,有效地提高了聚類與半監(jiān)督分類的性能。基于自適應(yīng)回歸的可增強多視圖半監(jiān)督分類(scalable multi-view semi-supervised classification via adaptive regression,MVAR)方法,對每個視圖都采用基于回歸矩陣范數(shù)的損失函數(shù),并將最終的目標函數(shù)表示為所有損失函數(shù)的線性加權(quán)組合。然而,上述半監(jiān)督分類算法對數(shù)據(jù)局部結(jié)構(gòu)的保持僅僅在單一的歐式空間中進行度量,且都忽視了不同視圖之間的數(shù)據(jù)存在著潛在的一致性結(jié)構(gòu)。而本文算法基于多度量學(xué)習(xí),考慮了希爾伯特空間中的一致性結(jié)構(gòu),構(gòu)造了更穩(wěn)健、更魯棒的判別性投影,有效地提高了分類精度。通過考慮多視圖數(shù)據(jù)在不同視圖的多個度量中存在固定聯(lián)系,Zhang 等基于Fisher 判別分析與希爾伯特-施密特正交準則提出了Fisher-MML(Fisher-HSIC multi-view metric learning)多視圖度量學(xué)習(xí)方法,但此方法缺少對局部結(jié)構(gòu)的保持、每個視圖的合理加權(quán)以及忽視了未標記數(shù)據(jù)的結(jié)構(gòu)信息與噪音的污染,從而使得算法在多視圖分類中準確率較低。而本文提出的SMCC 算法基于半監(jiān)督學(xué)習(xí),保留了歐式空間中的局部結(jié)構(gòu)以及對表示矩陣進行了F 范數(shù)約束,有效地提高了算法對噪音的魯棒性,并自適應(yīng)地為不同視圖賦予了相應(yīng)的權(quán)值,提高了算法的準確性,彌補了上述算法的缺陷。
本章主要內(nèi)容是對基于一致性約束的半監(jiān)督多視圖分類方法進行詳細的介紹,并基于交替迭代(LADM)方法對所提出的算法進行優(yōu)化求解。為了便于理解,在優(yōu)化過程中本文主要對多視圖數(shù)據(jù)=[,,…,X]∈R中的第個視圖X進行分析,其他視圖與此類似??紤]到本文算法使用的變量較多,因此首先在表1 中對主要使用的符號以及變量進行必要的注釋。
表1 符號解釋Table 1 Symbolic interpretation
通常數(shù)據(jù)中的局部流形結(jié)構(gòu)信息比全局結(jié)構(gòu)信息更重要。為了能夠使原始數(shù)據(jù)X=[,,…,x]∈R在降維后保持空間局部結(jié)構(gòu),得到表達式如下:
其中,X∈R表示第視圖的第列向量,P=[,,…,p]∈R表示第視圖投影矩陣,表示相似矩陣,其初始化定義為:
考慮在實際應(yīng)用中數(shù)據(jù)存在噪聲或異常值,本文對相似矩陣進行F 范數(shù)約束并限定S取值范圍在[0,1],用公式描述為:
以上公式是基于歐式空間來度量變量之間的差異以及保留數(shù)據(jù)的空間結(jié)構(gòu)信息,為了在不同的空間中挖掘數(shù)據(jù)包含的判別信息,本文考慮了在希爾伯特空間對多視圖數(shù)據(jù)進行度量?;谙柌?施密特獨立性準則(Hilbert-Schmidt independence criteria,HSIC)能有效地挖掘多視圖數(shù)據(jù)中的互補信息,使得多個視圖的數(shù)據(jù)能夠在希爾伯特空間上保持結(jié)構(gòu)一致。一般而言,典型的HSIC 算法能夠定義為:
由于每個特征視圖包含的信息量有所差異,引入權(quán)重參數(shù)對不同的視圖進行權(quán)衡。為了規(guī)范相似矩陣的表示以及防止過擬合,將投影矩陣約束為正交矩陣,并結(jié)合式(3)與式(5)可得到目標函數(shù)表達如下所示:
通過式(8),則上述目標函數(shù)(6)可轉(zhuǎn)化為:
其中,表示預(yù)測標簽矩陣,表示超參數(shù),tr(?)表示跡函數(shù)。本文算法整體流程框架如圖1 所示。
圖1 算法框架流程圖Fig.1 Flowchart of algorithm framework
由于基于一致性約束的半監(jiān)督多視圖分類方法的目標函數(shù)屬于多變量優(yōu)化問題,本文基于LADM方法對各個變量進行交替迭代更新。求解本文算法的基本思想是對某個變量進行優(yōu)化時,固定其他變量。具體更新步驟如下所示:
(更新P)固定變量、w、,則關(guān)于變量P的優(yōu)化函數(shù)可表示為:
經(jīng)過代數(shù)轉(zhuǎn)換可得:
(更新w)固定變量、P、,則關(guān)于變量w的優(yōu)化函數(shù)可表示為:
進而可以得到式(13)的拉格朗日表達式為:
其中,為拉格朗日乘子。將(w,)函數(shù)相對于與w的偏導(dǎo)數(shù)分別等于0,則可得表達式:
因此可以得到關(guān)于w的表達式為:
(更新)固定變量w、P、,則關(guān)于變量的優(yōu)化函數(shù)可表示為:
對于預(yù)測標簽矩陣=[,,…,f]∈R在譜聚類算法中,有以下表達:
由于在式(17)中對于不同的都相互獨立,對=[,,…,S]中任意項S優(yōu)化可表示為:
(更新)固定變量P、w、,則關(guān)于變量的優(yōu)化函數(shù)可表示為:
基于一致性約束的半監(jiān)督多視圖分類(SMCC)
輸入:原始數(shù)據(jù)X=[,,…,x]∈R;維數(shù);標簽率;參數(shù)、、、。
輸出:預(yù)測標簽矩陣=[F;F];投影矩陣=[,,…,P]。
2.迭代更新:
2.1 固定變量、w、,根據(jù)以下函數(shù)更新變量P:
2.3 固定變量w、P、,更新變量:
2.4 固定變量、w、P,更新變量:
3.滿足收斂條件。
本章對本文算法進行了詳細分析,并在4 個基準數(shù)據(jù)集上與其他新穎的算法進行對比來驗證SMCC算法的性能。
本文算法分別在ORL、Yale、MSRCv1 以及Handwriting numerals 數(shù)據(jù)集上進行對比實驗,其中各數(shù)據(jù)集的部分展示圖如圖2 所示。
圖2 實驗數(shù)據(jù)集部分展示圖Fig.2 Sample images from experimental data sets
ORL 數(shù)據(jù)集是由40 個不同類別的400 張人臉圖像組成。實驗中,該數(shù)據(jù)集有包括4 096 維度的灰度特征、3 304 維度的LBP 特征以及6 750 維度的Gabor 特征的三種不同特征數(shù)據(jù)集被使用。Yale 數(shù)據(jù)集包括15 個類別的165 張灰度圖像,其不同的特征集也分別由灰度特征、LBP 特征以及Gabor 特征組成。MSRCv1 數(shù)據(jù)集共有8 個類別的240 張圖像。選取了樹、建筑、飛機、奶牛、人臉、汽車以及自行車7類圖像進行實驗,其中每類圖像含有30 張。四種類型的特征被提?。?4 維的色矩(color moment,CM)特征、512 維的GIST 特征、254 維的CENTRIST 特征以及256 維的LBP 特征。HW(handwriting numerals)數(shù)據(jù)集由2 000 個0~9 的數(shù)字圖像組成,每個數(shù)字有200 張圖像。六種類型的特征被提?。?6 維的FOU特征,216 維的FAC 特征,64 維的KAR 特征,240 維的PIX特征,47維的ZER特征以及6維的形態(tài)(morphological,MOR)特征。
在實驗中,本文對比了標簽傳播(label propagation,LP)算法、AMGL 算法、MVAR 算法、MLAN 算法以及FISH-MML 算法。其中LP 算法是作為每個特征視圖判別的基準。為了公平地對每個算法進行對比,從每類中隨機選取了對應(yīng)標簽比例下的訓(xùn)練樣本,其他樣本用于測試??紤]到標簽比例對應(yīng)的標簽數(shù)量可能為非整數(shù),因此最后會對獲取的標簽數(shù)量進行向下取整。本文對所有算法都進行了10次實驗并記錄了分類準確率的平均值與標準差。其中最近鄰的個數(shù)設(shè)置為9,的取值范圍為[1.5,5.0]。值得注意的是,F(xiàn)ISH-MML 算法最終的分類結(jié)果由NN 算法獲得。
通過大量實驗得到了所有算法在4 個數(shù)據(jù)庫上的不同標簽比例下分類結(jié)果,如表2 與表3 所示,其中對表現(xiàn)最優(yōu)的結(jié)果進行了加粗處理,n/a 表示為不適用。從數(shù)據(jù)結(jié)果可以得出,SMCC 算法在大部分情況下能夠表現(xiàn)出最優(yōu)的性能。
表2 不同算法在ORL 與Yale數(shù)據(jù)庫中的性能(均值±標準差)Table 2 Performance(mean±standard deviation)of different algorithms on ORL and Yale databases
表3 不同算法在MSRCv1 與HW 數(shù)據(jù)庫中的性能(均值±標準差)Table 3 Performance(mean±standard deviation)of different algorithms on MSRCv1 and HW databases
在ORL 數(shù)據(jù)集中,AMGL 算法在標簽比例10%的情況下優(yōu)于本文算法,其主要原因可能是在訓(xùn)練樣本較少且不包含噪聲或者陰影的情況下,對相似矩陣進行F 范數(shù)約束會損失部分判別信息,從而使得SMCC 算法性能略低于AMGL。MVAR 算法在標簽比例為30%與40%的條件下表現(xiàn)優(yōu)異,說明基于多元回歸的自適應(yīng)權(quán)重多視圖算法在沒有被污染的人臉數(shù)據(jù)中能夠進行很好的擬合。在Yale 數(shù)據(jù)庫中,本文算法在不同標簽比例下都表現(xiàn)最優(yōu),特別在標簽比例為10%的情況下SMCC 算法的準確率比AMGL算法高出了9.35 個百分點,其效果說明了基于一致性約束的半監(jiān)督多視圖分類算法在樣本含有噪聲以及陰影的情況下能夠提取更多有效的判別特征用于分類。而基于一致性約束的FISH-MML 算法性能較低,主要原因是由于沒有考慮到對每個特征視圖進行合理的加權(quán)以及利用無標簽樣本中的結(jié)構(gòu)信息。在MSRCv1 數(shù)據(jù)庫中,對比次優(yōu)的MVAR 算法,本文算法考慮了數(shù)據(jù)的局部結(jié)構(gòu)以及每個特征視圖的空間一致結(jié)構(gòu),從而提高了算法分類效果。在HW 數(shù)據(jù)庫上整體算法的分類準確率都較高,其原因可能是FOU 特征中包含了足夠多的判別樣本有效信息。然而,MVAR 算法分類準確率較低,表明基于多元回歸的算法對于一種類別用多種形式展示的數(shù)據(jù)判別性能較差。因此,通過對不同算法在不同數(shù)據(jù)庫下獲得的結(jié)果進行分析,本文算法考慮了數(shù)據(jù)的局部結(jié)構(gòu)與不同視圖之間的空間一致性結(jié)構(gòu),提取了原始數(shù)據(jù)有效的判別信息,并通過對相似矩陣進行F 范數(shù)約束以及自適應(yīng)地為不同視圖進行合理的加權(quán),使得SMCC 算法在不同的數(shù)據(jù)庫下都能獲得較好的分類效果。
為了便于理解,所提出的算法(SMCC)在ORL、Yale、MSRCv1 與HW 數(shù)據(jù)庫上標簽比例為10%的條件下進行實驗,得到的收斂性曲線如圖3 所示。其中圖3 中的(a)、(b)、(d)圖顯示,算法在數(shù)據(jù)庫ORL、Yale 與HW 上迭代10 次后目標函數(shù)值趨于穩(wěn)定狀態(tài)。在圖3(c)中可得到算法在MSRCv1數(shù)據(jù)庫上迭代15次后收斂。因此本文算法是有效的且收斂速度較快。
圖3 在不同數(shù)據(jù)庫上目標函數(shù)值與迭代次數(shù)的關(guān)系Fig.3 Relationship between value of objective function and the number of iterations on different databases
為了分析正則化參數(shù)和對本文算法的影響,進行了大量的實驗來評價在不同參數(shù)下SMCC算法的性能。不失一般性,本文在每個數(shù)據(jù)庫標簽比例為10%的條件下依次進行實驗,首先分別設(shè)置兩個參數(shù)(與)的取值范圍為{10,10,10,10,10,10,10,10,10},其更新的方法為更新一個參數(shù)時固定另一個參數(shù)。圖4 展示了在4 個數(shù)據(jù)集上本文算法的分類精度與不同參數(shù)值的關(guān)系。
圖4 不同數(shù)據(jù)庫上參數(shù)β 和λ 對算法分類結(jié)果的影響Fig.4 Influence of parameters β and λ on algorithm classification on different databases
從圖4 可觀察到,當正則化參數(shù)和在選擇合適的范圍時,SMCC 算法能夠達到滿意的效果。特別對于HW 與MSRCv1 數(shù)據(jù)庫,本文算法能夠在參數(shù)廣泛選擇的范圍內(nèi)取得優(yōu)異的性能。在ORL 數(shù)據(jù)庫上,算法對參數(shù)的敏感度較低,且當>1 時能獲得較好的效果。對于Yale 數(shù)據(jù)庫,算法受參數(shù)的影響較大,僅當與屬于[10,10]時性能相對較高。
本文通過結(jié)合多度量學(xué)習(xí)與自適應(yīng)權(quán)重學(xué)習(xí)設(shè)計了一種新穎的半監(jiān)督分類算法,即基于一致性約束的半監(jiān)督多視圖分類(SMCC)。具體而言,本文算法不僅考慮了多視圖數(shù)據(jù)在希爾伯特空間中的不同視圖之間存在著潛在的一致性結(jié)構(gòu),而且對在歐式空間中的數(shù)據(jù)進行了局部流形結(jié)構(gòu)保留。更重要的是,對相似矩陣進行F 范數(shù)約束,有效提高了算法對噪音以及異常點的魯棒性。此外,通過對每個包含不同特征信息的視圖設(shè)置一個自適應(yīng)的權(quán)重進行加權(quán),提高算法的準確性,并基于LADM 方法對所提出的算法進行了有效的求解。在4 個基準數(shù)據(jù)庫上的廣泛實驗結(jié)果表明,所提出的SMCC 算法整體上優(yōu)于其他的半監(jiān)督多視圖分類算法。