張恩豪,陳曉紅,劉 鴻,朱玉蓮
(南京航空航天大學(xué) a.理學(xué)院; b.信息化技術(shù)中心,南京 211106)
在多數(shù)科學(xué)數(shù)據(jù)分析中,對于同一事物可以通過不同的角度或方式來獲取信息,這些信息表現(xiàn)出不同的特征屬性,如果將每個角度或方式的觀察結(jié)果視為一個視圖或視角,則每個視圖均可以得到與之相應(yīng)的數(shù)據(jù),這種數(shù)據(jù)統(tǒng)稱為多視圖數(shù)據(jù)[1-2]。包含多個視圖的樣本數(shù)據(jù)可以采用不同的形式進(jìn)行特征描述[3],如對于一幅圖像,顏色信息和紋理信息是2種不同的特征,可以看作是2個視圖數(shù)據(jù)。在網(wǎng)頁分類中,通??梢杂镁W(wǎng)頁本身的文本內(nèi)容和鏈接到此網(wǎng)頁的超鏈接2種特征來描述給定的網(wǎng)頁。相比于僅來源于單一渠道的單視圖數(shù)據(jù),多視圖數(shù)據(jù)更能全面描述事物所具有的信息。
傳統(tǒng)的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)[4]、判別分析[5]、光譜聚類[6]等算法都是針對單視圖數(shù)據(jù)提出的,面對大量涌現(xiàn)的多視圖數(shù)據(jù),之前很多算法只是將多個視圖簡單地合并為單視圖數(shù)據(jù),以適應(yīng)學(xué)習(xí)環(huán)境,但是每個視圖都有特定的統(tǒng)計(jì)屬性,這種簡單的合并忽略了各自的特性,導(dǎo)致學(xué)習(xí)效果并不理想。針對有多個視圖的數(shù)據(jù)集,文獻(xiàn)[7]提出多視圖學(xué)習(xí),它的定義寬泛而自然,只要學(xué)習(xí)任務(wù)所給定的經(jīng)驗(yàn)數(shù)據(jù)由多個視圖來表示,都稱為多視圖學(xué)習(xí)。文獻(xiàn)[3,8]利用多視圖數(shù)據(jù)不同的信息特征,設(shè)計(jì)相應(yīng)的多視圖學(xué)習(xí)策略以提高分類器的性能。與單視圖學(xué)習(xí)相比,多視圖學(xué)習(xí)能充分利用原始數(shù)據(jù)集,最大限度地挖掘各個視圖所包含的先驗(yàn)信息提高學(xué)習(xí)的效果。因此,多視圖學(xué)習(xí)受到研究人員越來越多的關(guān)注[9]。
本文研究基于多視圖數(shù)據(jù)的典型相關(guān)分析(Canonical Correlation Analysis,CCA)方法,介紹加入判別信息的相關(guān)分析,給出相關(guān)算法的基本信息及常用的多視圖數(shù)據(jù)集,在此基礎(chǔ)上分析目前多視圖降維算法需要解決的問題,并給出相關(guān)研究方向。
多視圖學(xué)習(xí)可以通過視圖間互補(bǔ)信息的融合,增強(qiáng)單視圖方法的魯棒性提升學(xué)習(xí)性能[10]。目前,研究人員已陸續(xù)提出了許多多視圖學(xué)習(xí)算法,如多視圖遷移學(xué)習(xí)[11-13]、多視圖降維[14-15]、多視圖聚類[16-19]、多視圖判別分析[20]、多視圖半監(jiān)督學(xué)習(xí)[21-24]和多任務(wù)多視圖學(xué)習(xí)[25-26]等。當(dāng)前針對多視圖數(shù)據(jù)的研究大致可分為側(cè)重于分類與聚類的協(xié)同算法[16,27]以及側(cè)重于降維的相關(guān)分析及其改進(jìn)算法等[28-29]。后者最經(jīng)典的算法是文獻(xiàn)[30]提出的典型相關(guān)分析,其主要目的是為識別并量化兩組變量之間的關(guān)聯(lián)程度。
近年來,在不同的應(yīng)用場景中,研究者提出了許多基于典型相關(guān)分析的改進(jìn)算法。典型相關(guān)分析最初僅適用于2個視圖的情景,文獻(xiàn)[31]提出多視圖典型相關(guān)分析(Multi-view Canonical Correlation Analysis,MCCA)實(shí)現(xiàn)了CCA的多視圖擴(kuò)展,使其可同時(shí)尋找m(m>2)個視圖數(shù)據(jù)的相關(guān)性。但是,對于有標(biāo)號的多視圖數(shù)據(jù),CCA與MCCA都沒有利用數(shù)據(jù)集所包含的類信息,造成了類信息的浪費(fèi),從而限制了分類性能的提升。文獻(xiàn)[32]將類信息嵌入CCA基礎(chǔ)框架中進(jìn)行擴(kuò)展,得到雙視圖的判別型典型相關(guān)分析(DiscriminantCanonical Correlation Analysis,DCCA),文獻(xiàn)[33]在DCCA的基礎(chǔ)上提出多視圖判別型典型相關(guān)分析(Multiple Discriminant Canonical Correlation Analysis,MDCCA)。
CCA是一種線性映射,只能處理視圖間的線性關(guān)系,文獻(xiàn)[34]提出的核典型相關(guān)分析(Kernel Canonical Correlation Analysis,KCCA)和文獻(xiàn)[35]提出的核判別型典型相關(guān)分析(Kernel Discriminant Canonical Correlation analysis,KDCCA)分別為CCA和DCCA的非線性擴(kuò)展,可求2個視圖數(shù)據(jù)的最大相關(guān)的非線性投影。
CCA本質(zhì)上屬于無監(jiān)督降維,如果將原始數(shù)據(jù)作為一個視圖,將類標(biāo)簽作為另一個視圖,利用CCA可將原始數(shù)據(jù)投影到由標(biāo)簽信息指導(dǎo)的低維空間中,從而實(shí)現(xiàn)單視圖數(shù)據(jù)的監(jiān)督學(xué)習(xí)[36]。此外,文獻(xiàn)[37]提出的局部判別典型相關(guān)分析(Local Discrimination Canonical Correlation Analysis,LDCCA)考慮局部特征的組合和不同類之間的判別信息,實(shí)現(xiàn)了雙視圖數(shù)據(jù)的監(jiān)督降維。文獻(xiàn)[38]提出的廣義多視圖分析(Generalized Multi-view Analysis,GMA)是雙視圖到多視圖的擴(kuò)展,并且利用了視圖內(nèi)的判別信息。但是,GMA沒有考慮視圖間的判別信息,而文獻(xiàn)[39]基于典型相關(guān)性提出多視圖的判別型典型相關(guān)(Discriminative Canonical Correlation,DCC)、KAN等人提出的多視圖判別分析(Multi-view Discriminant Analysis,MvDA)和YOU等人在MvDA的基礎(chǔ)上提出的多視圖共分量判別分析(Multi-view Common Component Discriminate Analysis,MvCCDA)則同時(shí)融合了視圖內(nèi)和視圖間的判別信息。
目前,CCA及其改進(jìn)算法已經(jīng)成功應(yīng)用于許多研究領(lǐng)域,如面部表情識別[40]、圖像分析[6]、機(jī)器人的位置估計(jì)[41]、參數(shù)估計(jì)[42]、數(shù)據(jù)回歸分析[43]、數(shù)據(jù)紋理分析[44]、圖像檢索[45]、基于內(nèi)容的文本數(shù)據(jù)挖掘[46]和函數(shù)的漸近收斂[47]等。從判別型典型相關(guān)分析的研究成果來看,上述研究仍處于初步階段,但是對現(xiàn)有研究成果的梳理與總結(jié),可以為從事多視圖數(shù)據(jù)分析的研究者提供借鑒。
本節(jié)介紹基于多視圖學(xué)習(xí)的典型相關(guān)分析算法,并給出相關(guān)的理論基礎(chǔ)和加入判別信息的典型相關(guān)分析方法。
典型相關(guān)分析是一種用于建模2個變量集之間關(guān)系的技術(shù),能夠識別并量化2組變量之間的關(guān)聯(lián)程度,它在處理多視圖數(shù)據(jù)的各種學(xué)習(xí)問題上取得了巨大的成功。CCA可以被視作主成分分析(Principal Component Analysis,PCA)的多視圖推廣,目的是為了最大化2個數(shù)據(jù)集的低維映射之間的關(guān)系(由相關(guān)系數(shù)度量)。
基于尺度不變性,CCA可轉(zhuǎn)化為:
(1)
引入拉格朗日乘子λ1和λ2,可得到如下拉格朗日函數(shù):
(2)
進(jìn)一步可表示為如下的廣義特征值問題:
由此可見,CCA僅為2個視圖數(shù)據(jù)在觀測空間中呈線性關(guān)系時(shí)適用,并且CCA沒有利用樣本的標(biāo)簽信息,屬于無監(jiān)督降維。
典型相關(guān)分析(CCA)只能有效處理雙視圖數(shù)據(jù),文獻(xiàn)[6]提出的MCCA則將其推廣到多視圖數(shù)據(jù),其基本思想是尋找多個視圖的線性變換,對每個視圖的樣本數(shù)據(jù)進(jìn)行投影,使得投影向量之間的相關(guān)性最大化。
(3)
利用拉格朗日乘子法可以得到如下形式:
其中:
當(dāng)N=2時(shí),MCCA退化為CCA,但是MCCA只是CCA在多視圖中的延伸,也沒有考慮數(shù)據(jù)本身的監(jiān)督信息。
典型相關(guān)分析(CCA)是從兩視圖數(shù)據(jù)中提取信息的技術(shù),它僅適用于線性空間中,在非線性情況下,CCA不再適用。而支持向量機(jī)(Support Vector Machine,SVM)[48]中的核方法是一種改進(jìn)該問題的有效方法[49]。SVM以其在模式識別方面的先進(jìn)性能而備受關(guān)注,SVM中的核技巧不僅適用于分類,也適用于降維算法,如核Fisher判別分析[50]和核PCA[51]等。KCCA[48,52]則是把核技巧融入CCA,得到CCA的非線性擴(kuò)展,目的是把低維的數(shù)據(jù)映射到高維的特征空間(核函數(shù)空間),并在核函數(shù)空間進(jìn)行關(guān)聯(lián)分析。通過表征引理[53],KCCA的優(yōu)化目標(biāo)可以表述為:
(4)
其中,K1和K2是關(guān)于X1和X2的核矩陣,A1和A2對應(yīng)視圖的基矩陣,即:
K1(i,j)=K1(X1i,X1j)=φ1(X1i)Tφ1(X1j)
K2(i,j)=K2(X2i,X2j)=φ2(X2i)Tφ2(X2j)
φ1(X1)=(φ1(X11),φ1(X12),…,φ1(X1N))
φ2(X2)=(φ2(X21),φ2(X22),…,φ2(X2N))
其中,φ1和φ2分別表示作用于X1和X2上的變換。
上文介紹的多視圖降維方法未考慮樣本數(shù)據(jù)的判別信息,屬于無監(jiān)督學(xué)習(xí)的范疇。在實(shí)際應(yīng)用中,有些多視圖數(shù)據(jù)本身包含類信息,無監(jiān)督降維無法有效提取有利于分類的低維特征。目前,已有很多研究者將監(jiān)督學(xué)習(xí)融入典型相關(guān)分析,得到許多融入判別信息的多視圖降維算法,本節(jié)介紹其中的部分工作。
CCA、KCCA和MCCA都屬于無監(jiān)督學(xué)習(xí)范疇,它們使得樣本數(shù)據(jù)在投影后的方向上相關(guān)性達(dá)到最大,沒有類信息指導(dǎo)的降維無法保證不同類樣本在低維空間的分離性。而在分類學(xué)習(xí)中,各樣本的判別信息非常重要,CCA、KCCA和MCCA的無監(jiān)督特性限制了降維后的可分離性。判別典型相關(guān)分析(DCCA)的提出彌補(bǔ)了CCA和MCCA的不足[32]。
對于已經(jīng)中心化的兩組樣本數(shù)據(jù)X1和X2,DCCA的目標(biāo)是求得一組投影向量w1、w2,使得投影后同類樣本之間的相關(guān)性最大化,同時(shí)使得不同類樣本之間的相關(guān)性最小化,其目標(biāo)函數(shù)如下:
(5)
(6)
DCCA的求解可轉(zhuǎn)化為廣義特征值問題:
CCA與DCCA的區(qū)別在于DCCA利用了數(shù)據(jù)的判別信息,因此,DCCA能提取有利于分類的低維特征。DCCA同CCA相似,僅適用于雙視圖數(shù)據(jù)。DMCCA[29]是DCCA的多視圖擴(kuò)展。
DMCCA作為DCCA的擴(kuò)展,將2個視圖的數(shù)據(jù)擴(kuò)展到多個視圖的數(shù)據(jù)X1,X2,…,XN,求得一組投影向量,使得投影后同類樣本之間的相關(guān)性最大化,同時(shí)使得不同類樣本之間的相關(guān)性最小化[33],得到DMCCA的優(yōu)化目標(biāo)函數(shù):
(7)
約束條件為:
利用拉格朗日法,可以得到如下形式:
(8)
局部判別典型相關(guān)分析(LDCCA)是在CCA的基礎(chǔ)上同時(shí)融入了樣本之間的近鄰信息和判別信息[36],通過最大化局部類內(nèi)相關(guān)矩陣和最小化局部類間相關(guān)矩陣,可以有效實(shí)現(xiàn)不同類樣本的分離,并進(jìn)一步提出了核LDCCA(KLDCCA)。
(9)
與CCA類似,LDCCA的解等價(jià)于以下最優(yōu)問題:
(10)
利用拉格朗日乘子法也可轉(zhuǎn)換為廣義特征值問題,文獻(xiàn)[37]進(jìn)一步將其核化,得到核局部判別典型相關(guān)分析(KLDCCA)以適應(yīng)于非線性模型。
文獻(xiàn)[38]從線性判別分析(LDA)入手[54],將LDA從單視圖推廣到雙視圖,從而得到:
(11)
式(11)僅考慮了各個視圖內(nèi)部類信息,之后借助于CCA,進(jìn)一步考慮了視圖間的配對信息,使得配對樣本降維之后同類樣本盡量相近,不同類樣本盡量分離,得到GMA的目標(biāo)函數(shù)為:
(12)
其中,Ai和Bi分別表示每個視圖內(nèi)的類內(nèi)和類間散度矩陣,權(quán)重μi(i=1,2,…,N)用于平衡不同視圖的重要性,參數(shù)γi=tr(Bi-1)/tr(Bi),i=2,3,…,N對總體性能影響不大。
判別型典型相關(guān)(DCC)是由文獻(xiàn)[55]基于典型相關(guān)性(Canonical Correlations,CC)提出的。CC是由文獻(xiàn)[56-57]進(jìn)行圖像集匹配時(shí)提出的,文獻(xiàn)[58-59]給出了典型相關(guān)的非線性擴(kuò)展。與傳統(tǒng)的基于參數(shù)分布和非參數(shù)樣本的方法相比,典型相關(guān)性可有效提升算法的準(zhǔn)確性、效率和魯棒性等。
Λ=diag(η1,η2,…,ηd)
其中,Q12、Q21是正交矩陣,典型相關(guān)性即為{η1,η2,…,ηd},對應(yīng)的典型相關(guān)向量為U=P1Q12=[u1,u2,…,ud],V=P2Q21=[v1,v2,…,vd]。而DCC的目標(biāo)則是使任意一對數(shù)據(jù)集之間的類內(nèi)關(guān)聯(lián)度最大,同時(shí)使類間關(guān)聯(lián)度最小,其目標(biāo)函數(shù)定義如下:
(13)
多視圖判別分析(MvDA)將視圖內(nèi)的判別信息和視圖間的判別信息結(jié)合起來,目標(biāo)是為了得到N個映射,w1,w2,…,wN把N個視圖投影到一個公共判別空間中,使類內(nèi)相關(guān)性最大化且類間相關(guān)性最小化[61]。
MvDA的目標(biāo)函數(shù)可表示為廣義瑞利熵[62]:
(14)
其中,SW和SB可以表示為:
SB=∑ni(μi-μ)(μi-μ)T
其中,μi是公共子空間中所有視圖中第i類樣本的平均值,μ是公共子空間中所有視圖的所有樣本的平均值,ni是所有視圖中第i個樣本的總數(shù),n是所有視圖中所有樣本個數(shù)。
本文中所涉及的算法基本信息如表1所示,其中,√表示存在。
表1 各算法基本信息
根據(jù)表1并結(jié)合文中對各算法的描述,通過進(jìn)行對比分析可得如下結(jié)論:
1)CCA、MCCA、KCCA只利用配對信息進(jìn)行相關(guān)分析,使得配對的樣本數(shù)據(jù)之間的相關(guān)性最大。
2)DCCA、DMCCA不僅利用了數(shù)據(jù)的配對信息,還利用了數(shù)據(jù)的監(jiān)督信息,LDCCA則在DCCA的基礎(chǔ)上又考慮了各個視圖間的近鄰信息,這3個算法的公共目標(biāo)是投影后同類樣本之間的相關(guān)性最大化,不同類樣本之間的相關(guān)性最小化。
3)與前述算法相比,MvDA則是LDA從單視圖到多視圖的推廣,在計(jì)算類內(nèi)差異和類間差異時(shí)考慮了視圖內(nèi)和視圖間的相關(guān)性,并且將多個視圖中的樣本投影到一個公共空間中,MvCCDA在MvDA的基礎(chǔ)上考慮了近鄰信息,并且期望第i組配對樣本的投影向量收斂到一個公共分量,能夠更好地區(qū)分視圖間的差異性,提高跨視圖分類的精確度,并且還可以處理非線性問題。
4)除DCC利用迭代求解外,其余各種方法均有解析解,這利于算法的非線性拓展。
圖1為基于CCA的算法發(fā)展體系的整體結(jié)構(gòu)。
圖1 CCA算法發(fā)展體系整體結(jié)構(gòu)
為對多視圖學(xué)習(xí)的研究提供實(shí)驗(yàn)支持,本文描述了一些廣泛使用的多視圖數(shù)據(jù)集并且給出了相應(yīng)的獲取方法。
4.2.1 多特征手寫數(shù)據(jù)庫
多特征手寫數(shù)據(jù)庫(Multiple Feature Database,MFD)是由一組手寫數(shù)字(0~9)組成的數(shù)據(jù)集[64],其中每個圖像已經(jīng)數(shù)值化,每個數(shù)字(類)都有200個樣本(共2 000個樣本),這些樣本在數(shù)據(jù)集中由6個特征集(視圖)表示。表2是所抽取的6個特征的名稱、縮寫和維數(shù)[65]。
表2 多特征手寫數(shù)據(jù)庫
4.2.2 廣告數(shù)據(jù)集
廣告數(shù)據(jù)集[66]包括3 279個網(wǎng)頁,每個網(wǎng)頁已被處理為稀疏的0-1二值向量,其中,459個是廣告(正面樣本),2 820個非廣告(負(fù)面樣本),每個網(wǎng)頁已經(jīng)被處理為稀疏的0-1二值向量,表3為Ads數(shù)據(jù)集中的5種特征。
表3 Ads數(shù)據(jù)集
4.2.3 Web_KB數(shù)據(jù)集
Web_KB數(shù)據(jù)集[66]收集了康奈爾大學(xué)、華盛頓大學(xué)、威斯康辛大學(xué)和德克薩斯大學(xué)的計(jì)算機(jī)系網(wǎng)頁的1 051個雙視圖頁面,分為課程類和非課程類,課程類有230個100維的樣本,非課程類有821個100維的樣本。其中每個頁面對應(yīng)于 fulltext 和 inlinks,分別表示該頁面的文本和指向該頁面的超鏈接文本。
4.2.4 Multi-PIE數(shù)據(jù)集
Multi-PIE(Pose,Illumination,and Expression)數(shù)據(jù)集[67]被用來評估面部識別的姿態(tài),它包含了75萬張不同視圖下的337個人的人臉圖片。研究對象在15個視點(diǎn)和19個光照條件下拍攝了一系列面部表情。此外,還獲得了高分辨率的正面圖像。圖2所示為5個人每人2幅正面圖像。
圖2 Multi-PIE數(shù)據(jù)集圖片
4.2.5 中大人臉?biāo)賹憯?shù)據(jù)集
中大人臉?biāo)賹憯?shù)據(jù)集是研究人臉?biāo)賹懞铣珊腿四標(biāo)賹懽R別的數(shù)據(jù)庫,它包括來自FERET數(shù)據(jù)庫[68]的1 194人。對于每個人來說,在觀看這張照片時(shí),都會有一張帶有燈光變化的臉部照片和一張由藝術(shù)家繪制的帶有形狀夸張的素描,圖3所示為6個人的臉部照片和素描照片。
圖3 中大人臉?biāo)賹憯?shù)據(jù)集圖片
4.2.6 HFB數(shù)據(jù)集
HFB(HeterogeneousFaces Biometrics)數(shù)據(jù)集[69]包含來自100個受試者的人臉圖像,包括4個近紅外(NIR)圖像和4個視覺(VIS)圖像,它們各自沒有任何自然配對,其中這2種模式都是圖像但是來自不同的視圖,如圖4所示。
圖4 HFB數(shù)據(jù)集圖片
4.2.7 ORL人臉數(shù)據(jù)集
ORL人臉數(shù)據(jù)集,又稱AT&T人臉數(shù)據(jù)集[70],包含40個不同受試者,其中每人有10幅不同的圖像,圖像是在不同的時(shí)間、不同的照明、不同面部表情(開/閉著眼睛,微笑/不笑)和不同面部的細(xì)節(jié)(眼鏡/不帶眼鏡)情況下分別拍攝的,圖像為均勻黑色背景的正面人臉(允許有小角度偏離)。圖5為1個人的5幅不同的圖像。
圖5 ORL人臉數(shù)據(jù)集圖片
4.2.8 3Sources數(shù)據(jù)集
3Sources數(shù)據(jù)集收集了BBC、路透社和衛(wèi)報(bào)3個著名的新聞社的948篇新聞文章,涵蓋2009年2月—4月期間的416篇不同新聞故事。每個故事都用6個主題標(biāo)簽中的一個或多個手工標(biāo)注,即商業(yè)、娛樂、健康、政治、體育、科技。它們大致對應(yīng)于3個新聞源使用的主要部分標(biāo)題,共包含3個不同的視圖。
雖然眾多研究者已對多視圖數(shù)據(jù)的降維做了許多工作,但仍有很多問題需要進(jìn)一步研究。目前所存在的問題主要有以下4個方面:
1)現(xiàn)階段數(shù)據(jù)規(guī)模越來越龐大,而大多數(shù)基于CCA的降維算法涉及到矩陣的QR分解或奇異值分解,對于小型數(shù)據(jù)集性能較好,但是對于大型數(shù)據(jù)集的計(jì)算速度非常慢,時(shí)間復(fù)雜度較高,可能會導(dǎo)致維數(shù)災(zāi)難[71],這使得處理大型多視圖數(shù)據(jù)集變得非常困難。因此,如何有效處理此類問題是眾多研究者所面臨的一個難題。
2)本文所介紹的算法大都為線性降維,在實(shí)際應(yīng)用中很多數(shù)據(jù)是非線性可分的。目前,針對此問題常用的方法有兩種:一種方法是運(yùn)用核技巧將數(shù)據(jù)映射到高維特征空間,從而實(shí)現(xiàn)原始數(shù)據(jù)的非線性降維[35];另一種方法是與流行學(xué)習(xí)相結(jié)合,利用各個樣本的近鄰信息進(jìn)行相關(guān)分析[72],但是這2種方法受噪聲影響比較大,導(dǎo)致算法性能不穩(wěn)定。
3)受收集環(huán)境和實(shí)際應(yīng)用場景的限制,收集到的數(shù)據(jù)往往是不完整的,而現(xiàn)有的多數(shù)多視圖降維算法,不但要求多視圖數(shù)據(jù)集是完整的,而且要求不同視圖的數(shù)據(jù)完全配對,所以這些方法無法有效處理視圖數(shù)據(jù)缺失的情形,從而限制了應(yīng)用范圍。
4)在現(xiàn)實(shí)生活中,多視圖(多于2個視圖)數(shù)據(jù)隨處可見。本文介紹的多視圖降維算法大多是基于2個視圖降維算法的簡單拓展,即通過對目標(biāo)函數(shù)進(jìn)行加法運(yùn)算,將所有的視圖結(jié)合起來。這種方法忽略了數(shù)據(jù)本身的高階統(tǒng)計(jì)信息(相關(guān)信息),影響了算法性能的提升。
針對目前多視圖降維算法所存在的問題,本節(jié)給出一些值得研究的方向,主要分為以下4個方面:
1)與稀疏學(xué)習(xí)相結(jié)合。數(shù)據(jù)的稀疏性可以降低算法的時(shí)間復(fù)雜度和存儲空間,并且稀疏表示使得模型的可解釋性提高,所以將稀疏學(xué)習(xí)與多視圖降維算法相結(jié)合,有利于提高算法的性能[73]。文獻(xiàn)[74]提出了LS_CCA(Large-Scale CCA)算法,該算法是一種可以在大型稀疏數(shù)據(jù)集上快速計(jì)算CCA的迭代算法。文獻(xiàn)[75]將稀疏表示嵌入到CCA中,提出了稀疏典型相關(guān)分析,使得當(dāng)數(shù)據(jù)維數(shù)較高時(shí),同樣能有效地對數(shù)據(jù)進(jìn)行相關(guān)性分析。此外,其他一些多視圖降維算法也需要設(shè)計(jì)出大規(guī)模的學(xué)習(xí)算法,將稀疏學(xué)習(xí)與數(shù)據(jù)的監(jiān)督信息相結(jié)合是一種處理大量數(shù)據(jù)的潛在算法。
2)與深度學(xué)習(xí)相結(jié)合。近年來,深度神經(jīng)網(wǎng)絡(luò)在人臉識別、目標(biāo)分類[76]和目標(biāo)檢測[77]等任務(wù)中表現(xiàn)優(yōu)異,對于大規(guī)模的多視圖學(xué)習(xí)任務(wù),它們的性能明顯優(yōu)于其他方法。將多視圖降維算法與深度學(xué)習(xí)方法相結(jié)合,可提高其性能。文獻(xiàn)[78]提出了深度典型判別分析(Deep Canonical Correlation Analysis,Deep CCA)算法,避免了將數(shù)據(jù)映射到更高維的特征空間,從而降低時(shí)間復(fù)雜度。因此,將多視圖降維算法與深度學(xué)習(xí)相結(jié)合,設(shè)計(jì)出更多高效的算法將是機(jī)器學(xué)習(xí)領(lǐng)域的一大趨勢。
3)與貝葉斯方法相結(jié)合。因?yàn)樨惾~斯方法可以對變量進(jìn)行積分與求和來處理不完整的數(shù)據(jù),所以它是解決多視圖降維算法中視圖數(shù)據(jù)缺失問題的一種可行方法。文獻(xiàn)[79-80]利用貝葉斯方法對視圖中的缺失數(shù)據(jù)進(jìn)行重構(gòu),進(jìn)而處理多視圖數(shù)據(jù)缺失的聚類問題。受此啟發(fā),可將貝葉斯方法與多視圖降維算法相結(jié)合,來解決數(shù)據(jù)不完整的多視圖降維問題。
4)與張量相結(jié)合。與向量相比,張量對數(shù)據(jù)的表示更精確、更有效,可以最大程度地保留數(shù)據(jù)的原始結(jié)構(gòu)和判別信息,并且基于張量的算法減少了待估參數(shù)的個數(shù),可以有效降低算法的時(shí)間復(fù)雜度。文獻(xiàn)[81]提出的Tensor CCA(TCCA)算法將張量應(yīng)用于CCA,TCCA通過分析不同視圖的張量協(xié)方差,直接最大化多個(多于2個)視圖的典型相關(guān)性,可以有效地解決多個視圖的特征提取問題。因此,將多視圖降維算法與張量表示相結(jié)合,是一個值得研究的方向。
現(xiàn)實(shí)生活中的許多場景可以從多個視角來描述事物,從而得到多視圖數(shù)據(jù),多視圖數(shù)據(jù)能更全面地描述事件所具有的信息,因此,針對此類數(shù)據(jù)的多視圖學(xué)習(xí)受到研究人員越來越多的關(guān)注。本文介紹了多視圖數(shù)據(jù)降維算法的發(fā)展過程,并對其進(jìn)行分析和對比,列出常用的數(shù)據(jù)集,從而為研究人員進(jìn)行研究提供方便。討論多視圖降維算法目前所存在的問題,并給出研究的方向。本文研究對進(jìn)一步促進(jìn)多視圖降維算法及實(shí)際應(yīng)用具有一定的參考價(jià)值。