高玉森,朱昌明,岳聞
上海海事大學(xué) 信息工程學(xué)院,上海 201306
多視角學(xué)習(xí)[1-2]是當(dāng)前模式識(shí)別領(lǐng)域中的一個(gè)熱點(diǎn),吸引了許多學(xué)者進(jìn)行研究。多視角學(xué)習(xí)旨在學(xué)習(xí)由多視角數(shù)據(jù)組成的多視角數(shù)據(jù)集的特征,并設(shè)計(jì)可行的分類器以對(duì)這些數(shù)據(jù)集進(jìn)行分類。比較知名的多視角學(xué)習(xí)算法有協(xié)同訓(xùn)練、多核學(xué)習(xí)以及子空間學(xué)習(xí)等。假設(shè)有一個(gè)多視角數(shù)據(jù)集D,其中每個(gè)數(shù)據(jù)均包含來(lái)自2 個(gè)視角的特征,即 {(x1,y1),(x2,y2),···,(xn,yn)} 。 特征{(x1,y1),(x2,y2),···,(xn,yn)} 來(lái) 自 特 征 集X, 特 征{(x1,y1),(x2,y2),···,(xn,yn)}來(lái)自特征集Y。這里,X和Y也代表此數(shù)據(jù)集的2 個(gè)視角。多視角學(xué)習(xí)旨在從X和Y中學(xué)習(xí)并獲得特征,從而設(shè)計(jì)一種可行的分類器。為了更好地學(xué)習(xí)特征,特征提取成為一種很好的方法,經(jīng)典的特征提取方法是典型相關(guān)分析(CCA)[3-4]。CCA 旨在從2 個(gè)視角中尋找特征集之間的線性相關(guān)關(guān)系,處理分類任務(wù)時(shí),CCA 首先提取出2 組典型相關(guān)變量,使得2 組數(shù)據(jù)間相關(guān)性最大;接著再利用這2 組典型相關(guān)變量的組合(串行或并行)進(jìn)行后續(xù)分類,能夠獲得比只使用單組特征進(jìn)行操作的更優(yōu)的分類效果。在過(guò)去的幾十年中,CCA 及其變體已成功應(yīng)用于許多領(lǐng)域,例如圖像處理[5-6]、模式識(shí)別[7-8]以及腦電分析[9-10]等。
盡管CCA 在特征提取方面具有不錯(cuò)的性能,但CCA 本身是一種無(wú)監(jiān)督降維方法,沒(méi)有利用樣本的類別信息。為了解決這個(gè)問(wèn)題,首先提出了判別典型相關(guān)分析(Discriminative CCA, DCCA)[11],DCCA 在CCA 的基礎(chǔ)上既考慮了2 個(gè)視角間的相關(guān)關(guān)系,又考慮了視角內(nèi)數(shù)據(jù)的相關(guān)關(guān)系。在最小化視角類內(nèi)相似度的同時(shí)最大化視角類間相似度,提取出了比CCA 更有判別性的相關(guān)特征。但DCCA 依舊采用對(duì)各視角提取的特征本身直接進(jìn)行組合及分類輸入,并沒(méi)有針對(duì)分類任務(wù)來(lái)直接優(yōu)化組合特征本身。針對(duì)這個(gè)問(wèn)題,周旭東等[12-13]提出了一種優(yōu)化組合特征的有監(jiān)督降維方法:增強(qiáng)組合特征判別性的CCA(CECCA),CECCA 通過(guò)結(jié)合判別分析,優(yōu)化組合特征本身及其組成部分,獲得了更利于分類的組合特征。
CCA、DCCA 和CECCA 等算法在處理分類任務(wù)時(shí),僅關(guān)注于隱藏在“干凈”數(shù)據(jù)中的信息,這些信息完全屬于學(xué)習(xí)任務(wù)中存在的任何類別,稱其為目標(biāo)數(shù)據(jù)。Universum 學(xué)習(xí)提出了將關(guān)于應(yīng)用領(lǐng)域的先驗(yàn)知識(shí)融入到學(xué)習(xí)過(guò)程中,這些知識(shí)與目標(biāo)數(shù)據(jù)具有相同域但不屬于任務(wù)目標(biāo)類,被稱為Universum 數(shù)據(jù)。已經(jīng)提出了許多具有Universum 學(xué)習(xí)的學(xué)習(xí)機(jī),例如陳曉紅等[14]提出了一種改進(jìn)的CCA(ICCA)。在ICCA 中,必須同時(shí)考慮目標(biāo)數(shù)據(jù)之間的相關(guān)性和Universum 數(shù)據(jù)之間的相關(guān)性。這意味著在使用ICCA 時(shí),特征提取會(huì)使用更多先驗(yàn)信息。ICCA 通過(guò)執(zhí)行相關(guān)性分析,使目標(biāo)數(shù)據(jù)上的相關(guān)性盡可能大,而Universum 數(shù)據(jù)上的相關(guān)性盡可能小。它可以獲得具有與目標(biāo)數(shù)據(jù)最大相關(guān)性和與Universum 數(shù)據(jù)最小相關(guān)性的理想方向。
CECCA 和ICCA 在特征提取方面都比CCA具有更好的性能,但是ICCA 和CECCA 都沒(méi)有利用彼此的優(yōu)勢(shì)。故將Universum 學(xué)習(xí)引入到CECCA 中,通過(guò)結(jié)合判別分析與Universum 學(xué)習(xí)提出了一種改進(jìn)的增強(qiáng)組合特征判別性的典型相關(guān)分析(ICECCA), ICECCA 在CECCA 的基礎(chǔ)上,通過(guò)結(jié)合Universum 學(xué)習(xí),實(shí)現(xiàn)在利用訓(xùn)練數(shù)據(jù)與Universum 數(shù)據(jù)獲得更多先驗(yàn)信息的同時(shí),做到對(duì)組合特征相關(guān)性與判別性的聯(lián)合優(yōu)化。
CCA 是一種無(wú)監(jiān)督學(xué)習(xí)方法,做分類任務(wù)時(shí)直接利用提取出的特征,并沒(méi)有利用樣本的類別信息,缺少良好的判別性。CECCA 在CCA 基礎(chǔ)上加入了一種判別性懲罰項(xiàng),通過(guò)結(jié)合判別信息,使得抽取的特征更利于分類。
由于ICCA 和CECCA 具有彼此所沒(méi)有的優(yōu)勢(shì),ICCA 引入了Universum 學(xué)習(xí),獲得了更多的先驗(yàn)知識(shí);CECCA 利用判別分析,實(shí)現(xiàn)對(duì)雙視角特征相關(guān)性與判別性的同時(shí)優(yōu)化。二者相比于CCA 都能更好地處理分類問(wèn)題,但是它們都沒(méi)有利用彼此的優(yōu)勢(shì)。因此在這里可將Universum學(xué)習(xí)與CECCA 結(jié)合,提出一種改進(jìn)的增強(qiáng)組合特征判別性的典型相關(guān)分析(ICECCA),以便能夠同時(shí)利用Universum 學(xué)習(xí)以及判別分析。ICECCA 在ICCA 和CECCA 的基礎(chǔ)上,通過(guò)結(jié)合二者優(yōu)勢(shì),實(shí)現(xiàn)在獲得更多先驗(yàn)信息的同時(shí),做到了對(duì)目標(biāo)樣本特征相關(guān)性與判別性優(yōu)化。
在本節(jié)中,為了評(píng)估所提出的ICECCA 的性能,在多個(gè)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),比較的方法包括CCA[3],ICCA[14]和CECCA[12]。使用的數(shù)據(jù)集包括人工數(shù)據(jù)集以及多特征數(shù)據(jù)集。
為了公平起見(jiàn),在本實(shí)驗(yàn)中采用和文獻(xiàn)[14]中相同的人工數(shù)據(jù)集分布(分布是相同的,但是數(shù)據(jù)的生成是隨機(jī)的),生成一個(gè)具有2 個(gè)目標(biāo)類的雙視角(X視 角和Y視角)數(shù)據(jù)集,每個(gè)類包含100 個(gè)二維樣本,Universum 數(shù)據(jù)集包含200 個(gè)樣本。X=[X1,X2]表 示為目標(biāo)樣本的X視角,其中Xi(i=1,2)是 第i類的樣本矩陣。它們均通過(guò)高斯
圖1 訓(xùn)練樣本分布
圖2 測(cè)試樣本分布
在實(shí)驗(yàn)中,參數(shù) η的設(shè)置參考文獻(xiàn)[14],即η=2-4。圖3 和圖4 分別展示了從訓(xùn)練和測(cè)試樣本中提取的第一對(duì)特征的分布。
圖3 X 視角和Y 視角的一維特征(訓(xùn)練樣本)
從圖3 和圖4 中可以看出,CCA 雖然揭示特征間的線性相關(guān)關(guān)系,但2 類間存在嚴(yán)重重疊;ICCA 引入了Universum 學(xué)習(xí),獲得了更多的先驗(yàn)信息,取得了比CCA 更優(yōu)的結(jié)果,但依舊存在重疊。CECCA 與ICECCA均引入類信息,2 類在第一對(duì)特征上的分布基本無(wú)重疊;并且ICECCA 還引入了Universum 學(xué)習(xí),相比于CECCA,ICECCA得到的結(jié)果類內(nèi)更緊湊,類間距更大,這說(shuō)明ICECCA 所獲取的組合特征更優(yōu)。
在多特征數(shù)據(jù)集方面,采用從UCI 機(jī)器學(xué)習(xí)存儲(chǔ)庫(kù)中選擇的多特征數(shù)據(jù)集(multiple features data set,MFD)[15],該數(shù)據(jù)集由“0”-“9”的手寫數(shù)字組成,每類200 個(gè)樣本,共2 000 個(gè)。MFD 具有6 個(gè)特征,分別是輪廓相關(guān)性、字符形狀的傅里葉系數(shù)、Karhunen-Love 系數(shù)、2×3 窗口中的像素平均、Zernike 矩特征以及形態(tài)學(xué)特征。這些特征的名稱和維度分別為(fac,216),(fou,76),(kar,64),(pix,240),(zer,47)和(mor,6)。對(duì)于此數(shù)據(jù)集通常從6 個(gè)特征中隨機(jī)選擇2 組作為X視角和Y視角,因此共有15 種雙視角組合。
根據(jù)表1 的結(jié)果可以發(fā)現(xiàn),與CCA 相比,ICCA 和CECCA 的優(yōu)越性分別表明了Universum數(shù)據(jù)的先驗(yàn)信息以及增強(qiáng)組合特征的判別信息對(duì)于提取多視角數(shù)據(jù)的特征都具有很好的意義。ICECCA 明顯超過(guò)CCA,從4%~20%不等。ICECCA在15 種組合中的10 種上勝過(guò)CECCA。準(zhǔn)確性的提高證明,同時(shí)利用Universum 數(shù)據(jù)編碼的先驗(yàn)信息以及增強(qiáng)組合特征的判別信息對(duì)于多視角特征提取更有意義。ICECCA 的性能并不總是優(yōu)于CECCA,原因可能是有些Universum 樣本提供的先驗(yàn)信息不足,算法的性能受Universum 數(shù)據(jù)和目標(biāo)樣本的組合影響。
表1 在多特征數(shù)據(jù)集上識(shí)別準(zhǔn)確率
在本節(jié)中,從UCI 機(jī)器學(xué)習(xí)存儲(chǔ)庫(kù)中選擇5 種常見(jiàn)的多類別單視角數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。有關(guān)使用的數(shù)據(jù)集的詳細(xì)信息見(jiàn)表2。
表2 UCI 數(shù)據(jù)集
由于每個(gè)數(shù)據(jù)集都是單視角,因此將它們本身視為X視角的數(shù)據(jù),而對(duì)于Y視角的數(shù)據(jù),根據(jù)文獻(xiàn)[14] 中所述的方法來(lái)生成。例如對(duì)于Iris 鳶尾花數(shù)據(jù)集,它具有3 個(gè)類別xi,i=1,2,3。如果xi屬于第1 類,則Y視角中的對(duì)應(yīng)樣本表示為yi=(1,0,0)T;如果xi屬于第2 類,則yi=(0,1,0)T;如果xi屬 于類別3,則yi=(0,0,3)T。其他數(shù)據(jù)集的Y視角根據(jù)其類別數(shù)進(jìn)行相應(yīng)的設(shè)置。
顯然,不同的Universum 數(shù)據(jù)包含不同程度的域信息。假設(shè)目標(biāo)數(shù)據(jù)集具有n個(gè)類別,采用2 種不同的方法來(lái)生成Universum 數(shù)據(jù):1)將前n-1 類作為目標(biāo)樣本,將最后一個(gè)類作為Universum數(shù)據(jù);2)選擇與上述相同的目標(biāo)樣本,并根據(jù)高斯噪聲生成具有與目標(biāo)樣本相同的數(shù)量和維度的的Universum 樣本, 例如Iris 數(shù)據(jù)集的高斯噪聲Universum 數(shù)據(jù),如圖5 所示。
圖5 通過(guò)高斯噪聲生成的Universum 數(shù)據(jù)
對(duì)于這些數(shù)據(jù)集,仍然先采用CCA、ICCA、CECCA 和ICECCA 來(lái) 提 取 特 征, 接 著 使用SVM 根據(jù)提取的特征進(jìn)行分類。參數(shù) η=2-20,對(duì)于每個(gè)目標(biāo)樣本,隨機(jī)選擇每個(gè)類的一半作為訓(xùn)練,其余部分進(jìn)行測(cè)試,并重復(fù)進(jìn)行10 次實(shí)驗(yàn)。平均結(jié)果如表3 所示。其中ICCA_A 和ICCA_B分別表示將最后一類作為Universum 數(shù)據(jù)以及使用高斯 噪 聲 作 為Universum 數(shù) 據(jù),ICECCA_A 和ICECCA_B 同理。
表3 在UCI 數(shù)據(jù)集上識(shí)別準(zhǔn)確率
從表3 結(jié)果可以發(fā)現(xiàn):1)幾乎所有情況下,ICECCA 的 分 類 準(zhǔn) 確 率 都 高 于CCA、ICCA 和CECCA,達(dá)到了最佳性能(以粗體顯示)。結(jié)果驗(yàn)證了Universum 學(xué)習(xí)與樣本判別信息的結(jié)合在降維中的有效性,Universum 學(xué)習(xí)提高了低維空間中不同類別樣本的可分離性;2)ICCA_A 與ICCA_B、ICECCA_A 與ICECCA_B 識(shí)別結(jié)果的差異表明,并非所有種類的Universum 數(shù)據(jù)都包含針對(duì)即將完成的任務(wù)的有意義的信息,而同種類不同數(shù)量的Universum 樣本也會(huì)對(duì)分類結(jié)果產(chǎn)生影響。因此,當(dāng)Universum 與目標(biāo)樣本無(wú)關(guān)或Universum 樣本數(shù)量過(guò)少,也即Universum 數(shù)據(jù)包含的先驗(yàn)信息過(guò)少時(shí),基于Universum 的學(xué)習(xí)效果會(huì)很差。
本文通過(guò)將ICCA 的先驗(yàn)知識(shí)與CECCA 的優(yōu)化組合特征結(jié)合在一起,提出了一種改進(jìn)的增強(qiáng)組合特征判別性的典型相關(guān)分析ICECCA,為了驗(yàn)證所提出方法的有效性,對(duì)包括人工、多特征數(shù)據(jù)集以及經(jīng)典的UCI 數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),并采用現(xiàn)有的多視角特征提取算法進(jìn)行了對(duì)比。相關(guān)實(shí)驗(yàn)驗(yàn)證了本文提出的算法的有效性.
本文為了減少時(shí)間開(kāi)銷使用Universum 學(xué)習(xí)來(lái)進(jìn)行信息增強(qiáng),但目前已經(jīng)有很多其他方法可以生成額外的無(wú)標(biāo)簽樣本,如對(duì)抗網(wǎng)絡(luò)等,未來(lái)可以采用對(duì)抗網(wǎng)絡(luò)等方式更好地增強(qiáng)樣本信息。
目前深度學(xué)習(xí)是一個(gè)非常熱門的研究領(lǐng)域,提出了許多與深度學(xué)習(xí)相關(guān)的特征提取算法,如深度典型相關(guān)分析(Deep CCA)[16],相關(guān)實(shí)驗(yàn)已經(jīng)驗(yàn)證了Deep CCA 可以很好地解決多視角特征提取問(wèn)題,受此啟發(fā),未來(lái)將嘗試把Universum 學(xué)習(xí)與Deep CCA 相關(guān)算法相結(jié)合,更好地解決多視角特征提取問(wèn)題。