国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多尺度多核高斯過程隱變量模型

2021-02-05 03:03:38周培春吳蘭岸
計算機工程 2021年2期
關鍵詞:高斯變量樣本

周培春,吳蘭岸

(1.玉林師范學院計算機科學與工程學院,廣西玉林 537000;2.南寧師范大學計算機與信息工程學院,南寧 530299)

0 概述

在機器學習和模式識別任務中,圖像數(shù)據(jù)作為一種特殊的數(shù)據(jù)形式廣泛應用于人臉識別[1]、表情識別[2]、年齡估計[3]等場景中,而此類數(shù)據(jù)通常具有較高的維度導致機器學習模型計算復雜度高且容易產(chǎn)生過擬合等維數(shù)災難問題。為應對上述挑戰(zhàn),主成分分析[4]、高斯過程隱變量模型(Gaussian Process Latent Variable Model,GPLVM)[5]、線性判別分析[6]、自編碼器[7]和字典學習[8]等數(shù)據(jù)降維和特征學習方法陸續(xù)被提出并取得了較好的成果,其中GPLVM作為一種貝葉斯非參數(shù)降維模型,具有非線性學習、不確定性量化和非參數(shù)柔性建模等特性[5],近年來在圖像識別領域得到廣泛應用[9-11]。然而原始GPLVM作為一種無監(jiān)督的降維模型,利用高斯過程構建由隱變量空間到觀測變量空間的映射,進而通過求解最大化似然函數(shù)的方式獲得最佳隱變量并實現(xiàn)數(shù)據(jù)降維。

圖像數(shù)據(jù)信息通常分為像素值信息、特征空間信息和語義標記信息3類。像素值信息指圖像中各像素值的大小所包含的信息,通??梢员籔CA、字典學習、GPLVM等降維方法直接利用,從而實現(xiàn)數(shù)據(jù)降維。特征空間信息指圖像像素及其局部區(qū)域之間所具有的相關性信息[12-13]。圖像語義標記信息指人們通過自身認知和圖像所包含的內容為圖像標注的信息[14-15],如圖像注釋、類別標記等。然而,原始GPLVM在建模過程中僅假設觀測變量的特征之間相互獨立,因此通常無法有效利用圖像數(shù)據(jù)自身包含的特征空間結構信息和語義標記信息。為此,本文對原始GPLVM進行改進,提出一種多尺度多核高斯過程隱變量模型(Multi-Scale Multi-Kernel Gaussian Process Latent Variable Model,MSMK-GPLVM)。

1 相關工作

1.1 高斯過程隱變量模型

GPLVM是一種無監(jiān)督的概率、非線性、隱變量模型。在GPLVM定義中,假設已觀測到N個樣本Χ=[x1,x2,…,xN]T∈?N×D,其中xn∈?D表示第n個樣本對應的輸入,本文目標是求解每個觀測變量xn對應的隱變量zn∈?Q,Q?D,因此GPLVM可以通過求解觀測變量對應隱變量的方式實現(xiàn)數(shù)據(jù)降維。具體地,GPLVM假設每個樣本xn的生成過程如下:

其中:xnd為第n個樣本的第d個特征;εnd為噪聲項且服從高斯分布p(εn)=N(εn|0,σ2);函數(shù)f(d·)具有高斯過程先驗,因此fd~N(0,K),fd表示函數(shù)f(d·)在隱變量集合Z=[z1,z2,…,zN]上對應N個輸出組成的向量;K表示核函數(shù)k(·,·)在隱變量集合Z上對應的核矩陣Kij=k(zi,z)j。通過將中間變量fd進行積分可以得到如下邊際似然函數(shù):

其中:θ表示GPLVM的核函數(shù)及噪聲分布中包含的超參數(shù);σ2表示噪聲方差;x:,d表示矩陣Χ的第d列元素組成的向量;I表示單位矩陣;|K+σ2I|表示矩陣(K+σ2I)的行列式。在模型優(yōu)化過程中,GPLVM通過最大化上述似然函數(shù)的方式對隱變量Z和超參數(shù)θ進行求解,最終實現(xiàn)數(shù)據(jù)降維。

盡管GPLVM具有較強的非線性學習和不確定性量化等能力,但其卻無法有效利用數(shù)據(jù)的語義標記信息,從而導致在圖像分類、人臉識別等任務中的性能無法滿足用戶需求,其原因主要為GPLVM在模型構建過程中沒有對數(shù)據(jù)標記的生成過程進行有效的建模和表示,因此無法直接將其應用于監(jiān)督學習任務中。

1.2 監(jiān)督型高斯過程隱變量模型

為實現(xiàn)GPLVM的監(jiān)督學習并充分利用數(shù)據(jù)中包含的語義標記信息,近年來已有一些監(jiān)督型GPLVM被提出,其中主要包括判別高斯過程隱變量模型(D-GPLVM)[14]、監(jiān)督高斯過程隱變量模型(S-GPLVM)[15]和監(jiān)督隱線性高斯過程隱變量模型(SLLGPLVM)[15]。為對監(jiān)督型GPLVM進行詳細說明,假設除了觀測變量Χ,本文還獲取了每個樣本對應的類別標記y∈?N,其中第n個元素yn∈{1,2,…,C}表示第n個樣本所屬類別,C表示類別總數(shù)。

為利用數(shù)據(jù)標記信息,D-GPLVM構建一種基于廣義判別分析(Generalized Discriminant Analysis,GDA)的隱變量先驗分布,具體如下:

其中:Zd為歸一化常量;表示先驗的全局伸縮因子;J為依賴于Χ的函數(shù),Sω和Sb分別為在隱變量Χ上依據(jù)標記y計算出的類內和類間散度矩陣。將式(3)中的先驗分布加入GPLVM中可以獲得隱變量Χ后驗分布,并通過最大化此后驗分布或等價地最小化式(4)獲得最佳的隱變量和超參數(shù)。

其中,L表示GPLVM的負對數(shù)邊際似然,LS表示加入監(jiān)督信息后的對數(shù)后驗分布。值得注意的是在式(4)中為便于描述,本文省略了對核函數(shù)超參數(shù)先驗的假設,因此在式(4)中缺少文獻[15]中所述的超參數(shù)正則化項??梢钥闯?,D-GPLVM為GDA與GPLVM結合而成的模型,GDA先驗為GPLVM提供了數(shù)據(jù)標記中包含的語義判別信息。同時可以看出,當σd→0時,D-GPLVM退化為GDA;反之,當σd→+∞時,D-GPLVM退化為GPLVM。

與D-GPLVM不同,S-GPLVM通過分別構建由隱變量到觀測變量的類別標記映射方式實現(xiàn)了監(jiān)督型GPLVM。將樣本標記yn轉化為由1和-1組成的向量的形式,從而獲得樣本的標記矩陣Y=[y1,y2,…,yN]T∈?N×C。若第n個樣本屬于第c類,則其對應的標記向量yn中第c個元素的值為1,其他元素的值為-1。S-GPLVM假設Χ和Y均是由隱變量Z通過服從高斯過程的函數(shù)生成,且Χ和Y在Z條件下相互獨立,進而可以獲得隱變量Z的后驗分布為:

最終得到如下目標函數(shù):

Ky表示與Y生成相關的核矩陣,表示噪聲方差??梢钥闯觯琒-GPLVM通過使Χ和Y共享隱變量Z的方式實現(xiàn)了語義標記信息和輸入信息的聯(lián)合建模。這使得隱變量Z具有更優(yōu)的判別能力,有效提升了GPLVM在分類和回歸任務中的性能。

SLLGPLVM通過直接構建由觀測變量Χ到隱變量Z的投影方式實現(xiàn)了GPLVM的監(jiān)督學習。與原始GPLVM類似,其假設隱變量可以通過一個服從高斯過程的函數(shù)投影并加入噪聲得到觀測變量。然而SLLGPLVM假設GPLVM生成標記Y而不是原始GPLVM中的Χ,同時其假設隱變量可以通過一個線性投影函數(shù)由輸入變量Χ得到,從而構建由Χ到Z和由Z到Y的映射關系,使得GPLVM可以顯式地嵌入標記信息。整個生成過程具體如下:

其中,g(·)表示線性投影函數(shù),可以看出SLLGPLVM將隱變量學習問題轉化為參數(shù)矩陣W的學習問題,因此其具有更少的參數(shù)量,同時能夠有效解決D-GPLVM中先驗信息與真實數(shù)據(jù)信息不相符的問題,以及S-GPLVM中需要存儲和操作兩個核矩陣K和Ky所導致的高復雜度問題。

1.3 現(xiàn)有模型存在的問題

雖然現(xiàn)有監(jiān)督型GPLVM已在某些特定任務中有效提升了GPLVM隱變量的判別性能,但是這些模型仍然存在一定問題從而限制了其應用范圍,如D-GPLVM和S-GPLVM在對新樣本進行預測時需要通過優(yōu)化求解方式計算出對應新樣本的隱變量,因此預測的時間復雜度過高,限制了其在快速預測任務中的應用。盡管這兩個模型均可以通過添加反向約束[16]的方式實現(xiàn)非優(yōu)化式的預測,但該反向約束同時也限制了模型的表示能力。SLLGPLVM利用構建由輸入變量到隱變量的線性投影方式實現(xiàn)新樣本的快速預測,然而此類簡單的線性映射通常無法滿足真實應用場景中復雜非線性任務的需求。另外,現(xiàn)有監(jiān)督型GPLVM采用相對簡單的方式對標記信息進行建模,一般情況下無法挖掘出真正的復雜語義信息,從而造成標記信息流失。

除了上述問題外,現(xiàn)有GPLVM模型在處理圖像數(shù)據(jù)時無法有效利用數(shù)據(jù)的空間結構信息。如圖1所示,兩個相鄰的像素值a1和a2通常具有一定的相關性和相似性。同理,兩個局部區(qū)域之間通常也存在較強的相關性,如圖1中b1和b2所示。由于現(xiàn)有GPLVM并沒有對觀測變量特征之間的相關性進行任何的假設和建模,無法進一步提升模型性能,因此本文主要研究在處理圖像數(shù)據(jù)時如何能夠兼顧語義標記信息和空間結構信息來構建GPLVM,從而有效提升其在人臉識別、圖像分類等應用中的綜合性能。

圖1 圖像相鄰像素及區(qū)域之間的相關性Fig.1 Correlations between adjacent pixels and regions of the image

2 MSMK-GPLVM構建與優(yōu)化

2.1 模型構建

為便于描述,本文后續(xù)內容將使用上文中的變量定義。在模型構建過程中,主要從圖像空間結構信息和語義標記信息兩方面對GPLVM的擴展方式進行分析與研究。

通過將每個樣本(不同尺度的圖像)對應的隱變量進行非線性變換再相加的方式,得到第n個樣本對應的隱變量:

其中a(·)表示神經(jīng)網(wǎng)絡中的激活函數(shù)。由上述構建過程可知,本文提出的多尺度特征融合方法與神經(jīng)網(wǎng)絡中的空間金字塔池化方法[17]非常相似,然而兩者也有明顯區(qū)別:1)空間金字塔池化主要是為了解決卷積神經(jīng)網(wǎng)絡無法處理任意尺度的圖像而設計的方法,其進行池化時的核大小是根據(jù)圖像大小自動確定,而本文多尺度特征融合方法主要是將其應用于圖像多尺度特征提取,其處理的原始圖像大小相同;2)本文模型在特征融合時使用一個非線性變換函數(shù),因此其具有更強的非線性學習能力,而空間金字塔池化通過將多尺度特征合并為一個大向量的方式實現(xiàn)多尺度特征融合,其非線性學習能力主要體現(xiàn)在后續(xù)的全連接層中。當a(·)為線性函數(shù)時,本文多尺度特征融合方法可以退化為包含線性投影層的空間金字塔池化方法。

在圖像語義標記信息利用方面,本文使用一個多核高斯過程模型[17-19]來構建由隱變量到樣本標記的映射。具體地,定義由隱變量到樣本標記的生成過程,具體如下:

其中,εnc為服從高斯分布的噪聲,f(c·)為服從多核高斯過程先驗分布的函數(shù)為M個核函數(shù)組合的權重。可以看出,fc服從的高斯過程先驗是一個多核高斯過程,其中的協(xié)方差矩陣由多個核矩陣加權而成。因此,可以認為本文模型是一種多核高斯過程模型。從上述樣本標記生成過程可知,MSMKGPLVM通過構建多核高斯過程模型的方式顯著地提升了由隱變量到標記映射函數(shù)的表示能力,并且可以高效地建模數(shù)據(jù)標記信息。同時,MSMKGPLVM與多尺度圖像特征提取相結合能夠有效地對隱變量和數(shù)據(jù)生成過程進行模擬,提升模型判別和特征學習能力。MSMK-GPLVM結構如圖2所示。

圖2 MSMK-GPLVM結構Fig.2 Structure of MSMK-GPLVM

2.2 模型優(yōu)化

在模型求解過程中,由MSMK-GPLVM生成過程可知噪聲εnc服從高斯分布,因此似然函數(shù)可寫為以下形式:

由于核矩陣Ks關于隱變量Z的導數(shù)取決于核函數(shù)的形式,因此通常多數(shù)核函數(shù)(如徑向基核函數(shù)等)可以直接得出其關于隱變量的導數(shù),而對數(shù)似然函數(shù)關于核矩陣導數(shù)的計算過程具體如下:

基于上述求導過程,利用基于梯度的優(yōu)化方法對MSMK-GPLVM中的變量進行優(yōu)化求解。MSMKGPLVM優(yōu)化算法具體如下:

算法1MSMK-GPLVM優(yōu)化算法

2.3 新樣本預測

在新樣本預測中,本文目標是預測給定新樣本x*所屬的類別標記。與原始GPLVM、D-GPLVM和S-GPLVM相比,MSMK-GPLVM的顯著優(yōu)勢是可以直接對新樣本進行分類,而GPLVM、D-GPLVM和S-GPLVM在預測出對應的隱變量z*后,通常需要使用KNN算法對樣本進行分類。在MSMK-GPLVM預測過程中,首先依據(jù)式(8)和式(9)計算出新樣本對應的隱變量z*,然后根據(jù)高斯過程模型的預測方法得出對應目標值服從高斯分布,其均值和方差計算如下:

其中,kcom(z*,Z)為z*和Z中每個樣本取核函數(shù)(多核組合函數(shù))的值組成的行向量,kcom(z*,Z)T=kcom(Z,z*),kcom(z*,z*)表示z*與z*取核函數(shù)后的值??梢钥闯?,高斯過程模型可以對預測的不確定性(方差)進行建模,有效擴展了其在醫(yī)療診斷、自動駕駛等需要對不確定性進行量化任務中的應用。在完成上述計算后,可以利用μ(z*)={μ(z*)1,μ(z*)2,…,μ(z*)C}獲得最終的類別標記:

3 實驗與結果分析

3.1 數(shù)據(jù)集與對比方法

在實驗過程中,為充分驗證MSMK-GPLVM的有效性,分別在多個數(shù)據(jù)集上與現(xiàn)有隱變量模型進行對比。實驗數(shù)據(jù)集信息如表1所示。

表1 實驗數(shù)據(jù)集Table 1 Experimental dataset

MNIST[20]和USPS[21]均為手寫字體數(shù)據(jù)集,分別包含像素值大小為28×28和16×16的手寫數(shù)字圖片。SMILES[22]數(shù)據(jù)集是一個包含笑臉和非笑臉兩類圖像的表情識別數(shù)據(jù)集,是由LFW中提取圖像組成的數(shù)據(jù)集,包含像素值大小為64×64的圖像。FER是Kaggle人臉表情識別競賽數(shù)據(jù)集,包含生氣、厭惡、恐懼、高興、悲哀、驚訝、平和7種表情且像素值大小為48×48的圖像。Yale和AT&T是兩個人臉識別數(shù)據(jù)集,其中,Yale數(shù)據(jù)集包含15個人的165張人臉圖像(每人11張),AT&T包含40個人的400張人臉圖像(每人10張),所有圖像均使用人工對齊和裁剪方式規(guī)整化至像素值大小為32×32的灰度圖像。對于MNIST、USPS、SMILES、FER數(shù)據(jù)集,本文分別使用5 000個樣本作為訓練集和測試集。對于Yale數(shù)據(jù)集,使用每個人的5張人臉圖像作為訓練集(總數(shù)為75),其余6張圖像作為測試集(總數(shù)為90)。對于AT&T數(shù)據(jù),使用每人5張人臉圖像作為訓練集(總數(shù)為200),其余5張圖像作為測試集(總數(shù)為200)。在訓練過程中,在訓練集上使用五折交叉驗證方法選擇模型超參數(shù),主要是對MSMKGPLVM中核函數(shù)數(shù)量進行選擇。最終在整個訓練集上基于最佳超參數(shù)對模型進行訓練,并將訓練好的模型在測試集上進行分類性能測試,重復5次上述過程以獲得各模型的平均分類準確率。

本文對比模型為原始GPLVM、D-GPLVM、S-GPLVM、SLLGPLVM、PCA[23]和LDA[24]。值得注意的是由于GPLVM、PCA和LDA不包含需要交叉驗證的超參數(shù),因此本文直接將其在訓練集和測試集上進行訓練和測試。同時,因為GPLVM、D-GPLVM、S-GPLVM、PCA和LDA不能對樣本類別進行直接預測,所以本文使用KNN算法(K=5)對學習到的隱變量進行分類。

3.2 數(shù)據(jù)降維與可視化

為驗證MSMK-GPLVM在數(shù)據(jù)降維和可視化方面的性能,本文將所有模型應用于MNIST數(shù)據(jù)降維實驗中并將學習到的二維隱變量進行可視化,如圖3所示??梢钥闯觯糋PLVM和PCA由于無法使用樣本的語義標記信息,因此其學到的隱變量可區(qū)分性較差,而 LDA、S-GPLVM、D-GPLVM、SLLGPLVM和MSMK-GPLVM可以有效使用樣本的語義標記信息,因此可以學習到的樣本可分性較好。同時,MSMK-GPLVM兼顧了圖像數(shù)據(jù)的多尺度空間結構信息,因此獲得了最優(yōu)的結果,并且當隱變量維度從2增加到3時,其分類性能得到進一步提升。

圖3 MNIST數(shù)據(jù)降維和可視化Fig.3 Data dimension reduction and visualization of MNIST

3.3 數(shù)據(jù)分類

在數(shù)據(jù)分類實驗中將隱變量維度為2、4、6、8、10的情況下所有隱變量模型應用于分類任務,測試其數(shù)據(jù)分類準確率,實驗結果如圖4所示。值得注意的是,由于LDA隱變量維度不能大于或等于原始數(shù)據(jù)的類別數(shù),因此在使用LDA對SMILES數(shù)據(jù)進行學習時本文僅設置隱變量維度為1,分類準確率為0.819。與此類似,在使用LDA對FER數(shù)據(jù)集進行學習時,僅設置其隱變量的維度為2、4和6??梢钥闯?,在MNIST、USPS、SMILES、Yale和AT&T數(shù)據(jù)集上模型分類性能均較高,其主要原因為這5種數(shù)據(jù)集包含較少的噪聲、同一類的數(shù)據(jù)差異較小。然而,在FER數(shù)據(jù)集上所有模型的分類準確率均較低,其主要原因為人臉圖像表情識別可能會受到姿態(tài)、光照、個體差異等多種因素的影響。所有模型的分類準確率均隨著隱變量維度的增加而提升,最終趨于穩(wěn)定,從而證明較高的隱變量維度可以在數(shù)據(jù)降維過程中獲得更多的判別信息。此外,在所有模型中,GPLVM和PCA由于僅使用了樣本的輸入信息,而無法使用樣本的語義標記信息,因此其分類準確率較低。在所有實驗數(shù)據(jù)集上,MSMK-GPLVM獲得了最優(yōu)的分類準確率,充分說明了其采用兼顧樣本語義標記信息和多尺度空間結構信息的方式能夠有效提升GPLVM的分類性能。

圖4 MSMK-GPLVM與其他隱變量模型的分類準確率對比Fig.4 Comparison of classification accuracy of MSMK-GPLVM and other latent variable models

3.4 不同訓練樣本數(shù)下模型分類性能比較

本文在包含不同數(shù)量訓練樣本數(shù)的訓練集上對MSMK-GPLVM、D-GPLVM、S-GPLVM、SLLGPLVM、GPLVM、PCA和LDA模型的分類準確率進行比較,實驗結果如表2和表3所示,其中,Tr表示每個人用于訓練的圖像數(shù),Te表示每個人用于測試的圖像數(shù)。例如,Tr2/Te9表示在Yale數(shù)據(jù)集中每個人有2張圖像作為訓練集,9張圖像作為測試集。

表2 7種模型在Yale數(shù)據(jù)集上的分類準確率比較Table 2 Comparison of classification accurary of seven models on Yale dataset %

表3 7種模型在AT&T數(shù)據(jù)集上的分類準確率比較Table 3 Comparison of classification accuary of seven models on AT&T dataset %

由表2、表3可以看出,由于AT&T數(shù)據(jù)集包含更多的訓練圖像(該數(shù)據(jù)集包含人數(shù)多于Yale),因此模型在AT&T數(shù)據(jù)集上的分類準確率高于其在Yale數(shù)據(jù)集上。同時,PCA和GPLVM均為無監(jiān)督模型,分類準確率均低于其他監(jiān)督型模型,而在所有情況下MSMKGPLVM的分類準確率均高于其他模型,說明其在不同樣本數(shù)下均有較優(yōu)的性能,適用于不同規(guī)模的高維數(shù)據(jù)學習任務。

4 結束語

本文針對GPLVM無法有效利用圖像特征空間結構信息和語義標記信息的問題,提出一種多尺度多核GPLVM(MSMK-GPLVM)。實驗結果表明,MSMK-GPLVM能夠對圖像空間結構信息和語義標記信息進行有效利用,進一步提升其在圖像識別任務和數(shù)據(jù)可視化任務中的整體性能。但由于MSMK-GPLVM在多尺度投影的構建過程中引入了較多的冗余特征,因此后續(xù)將針對冗余特征的選擇及隱變量維度和核函數(shù)的確定做進一步研究。

猜你喜歡
高斯變量樣本
小高斯的大發(fā)現(xiàn)
抓住不變量解題
用樣本估計總體復習點撥
也談分離變量
天才數(shù)學家——高斯
推動醫(yī)改的“直銷樣本”
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
SL(3,3n)和SU(3,3n)的第一Cartan不變量
有限域上高斯正規(guī)基的一個注記
泗阳县| 关岭| 凭祥市| 涡阳县| 柳林县| 维西| 缙云县| 永济市| 阿瓦提县| 陇南市| 文成县| 华容县| 夏河县| 盖州市| 施甸县| 丰都县| 留坝县| 突泉县| 宜阳县| 邵阳市| 平和县| 淮阳县| 溆浦县| 驻马店市| 彰武县| 嵩明县| 黔西县| 昆山市| 图片| 兴山县| 阜康市| 泰安市| 泊头市| 衡山县| 秦皇岛市| 汕头市| 宽城| 河间市| 轮台县| 浦北县| 揭东县|