溫曉紅,劉華平,閻高偉,孫富春
(1. 太原理工大學(xué) 電氣與動力工程學(xué)院,山西 太原 030600; 2. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084;3. 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,北京 100084)
典型相關(guān)分析(canonical correlation analysis,CCA)[1]是一種經(jīng)典統(tǒng)計(jì)方法,旨在研究兩組隨機(jī)變量之間的相關(guān)性。通過極大化兩組變量在線性投影空間中的相關(guān)性而達(dá)到特征融合的目的。CCA可用于對多模態(tài)數(shù)據(jù)的特征提取和融合[2-4],減小預(yù)測或識別問題中的樣本復(fù)雜度[5],已成功應(yīng)用于字符與人臉圖像識別及多模態(tài)檢索等任務(wù)中[6]。核典型相關(guān)分析(kernel CCA,KCCA)[7]是對CCA的擴(kuò)展,解決了CCA只能進(jìn)行線性映射的問題。通過隱性的非線性映射將兩組特征分別映射到高維特征空間,借助于核技巧,以線性的方式提取變量的非線性特征。盡管KCCA可以通過核來學(xué)習(xí)變量之間的非線性關(guān)系,但其需要通過人工選擇核函數(shù),并且當(dāng)訓(xùn)練集規(guī)模較大時(shí),會造成巨大的計(jì)算消耗。
為了解決KCCA存在的問題,文獻(xiàn)[8]提出深度典型相關(guān)分析 (deep CCA,DCCA),即用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)靈活的非線性相關(guān)表示,使得到的特征具有更高的相關(guān)度。文獻(xiàn)[9]提出基于神經(jīng)網(wǎng)絡(luò)和自編碼(auto encoder,AE)的深度典型相關(guān)自編碼 (deep canonically correlated autoencoders,DCCAE),用于無標(biāo)簽多視圖特征學(xué)習(xí)。但是這些方法在參數(shù)訓(xùn)練過程中,需要根據(jù)梯度下降法多次迭代至誤差收斂,容易陷入局部最優(yōu),且計(jì)算消耗大。
另一方面,超限學(xué)習(xí)機(jī)(extreme learning machine,ELM)以結(jié)構(gòu)簡單、學(xué)習(xí)速度快和泛化能力好等優(yōu)點(diǎn)[10],近年來已廣泛應(yīng)用于分類、回歸等任務(wù)中。伴隨著大數(shù)據(jù)時(shí)代的到來,關(guān)于數(shù)據(jù)潛在信息的挖掘引起了大量關(guān)注。然而ELM是一種單隱含層前饋神經(jīng)網(wǎng)絡(luò),其淺層的網(wǎng)絡(luò)結(jié)構(gòu)難以發(fā)現(xiàn)數(shù)據(jù)深層抽象特征,因此基于ELM進(jìn)行深度學(xué)習(xí)的算法相繼提出。文獻(xiàn)[11]提出了ELM-AE,首次將ELM用于數(shù)據(jù)的特征表示;文獻(xiàn)[12]提出了基于ELM堆棧構(gòu)成的深度表示模型;文獻(xiàn)[13]將流行正則引入原始ELM-AE中,并提出一種新的深度神經(jīng)網(wǎng)絡(luò);文獻(xiàn)[14]使用深度ELM學(xué)習(xí)圖像的非線性結(jié)構(gòu),用于圖像分類中,并且在速度和準(zhǔn)確率上表現(xiàn)出優(yōu)越的性能;文獻(xiàn)[15]將深度ELM模型用于多模態(tài)融合中,表明了ELM在多模態(tài)數(shù)據(jù)應(yīng)用中的有效性。
為了解決基于傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)的非線性CCA訓(xùn)練速度緩慢、無法快速收斂等問題,本文將ELM-AE引入CCA框架,用于多模態(tài)數(shù)據(jù)的特征提取。首先利用ELM-AE分別對每個模態(tài)進(jìn)行多層無監(jiān)督特征提取,然后極大化深層特征的相關(guān)性。實(shí)驗(yàn)結(jié)果表明,相比于線性CCA和DCCA,本文方法在取得高相關(guān)度的同時(shí),還顯著提升了算法的快速性。將該算法在康奈爾大學(xué)機(jī)器抓取數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明該方法有效提高了抓取點(diǎn)識別率。
Andrew等[8]對CCA進(jìn)行擴(kuò)展改進(jìn),提出基于深度神經(jīng)網(wǎng)絡(luò)的CCA,即DCCA。給定模態(tài)X和Y,兩個深度神經(jīng)網(wǎng)絡(luò)模型和分別用來學(xué)習(xí)X和Y的非線性結(jié)構(gòu),其中W=為神經(jīng)網(wǎng)絡(luò)模型參數(shù)。然后通過CCA將提取的特征和相關(guān)性極大化:
與CCA不同,DCCA沒有固定的解,其參數(shù)需要通過梯度下降法優(yōu)化,Andrew等采用批處理算法L-BFGS對參數(shù)進(jìn)行調(diào)整。王等[16]隨后提出采用隨機(jī)梯度下降(stochastic gradient descent,SGD)對DCCA的權(quán)值進(jìn)行優(yōu)化。本文選擇與后者提出的方法進(jìn)行比較。
超限學(xué)習(xí)機(jī)是一類針對單隱含層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。典型的單隱層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,由輸入層、隱含層和輸出層組成。
圖 1 ELM網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 The model structure of ELM
式中:H為神經(jīng)網(wǎng)絡(luò)的隱含層輸出矩陣,T是網(wǎng)絡(luò)期望輸出值。
在訓(xùn)練過程中,對w和b隨機(jī)初始化,且保持不變,而隱含層與輸出層的連接權(quán)值β可以通過求解以下方程組獲得:
式中:H+為隱含層輸出矩陣H的Moore-Penrose廣義逆。
本文提出基于ELM的非線性典型相關(guān)分析
(ELM-CCA),通過對兩個模態(tài)分別進(jìn)行復(fù)雜的非線性轉(zhuǎn)換,最終使學(xué)習(xí)到的特征最大相關(guān),其模型結(jié)構(gòu)如圖2所示。給定樣本,N為樣本個數(shù),,因此可以得到兩個模態(tài)的樣本矩陣,分別為和,傳統(tǒng)的CCA對X和Y進(jìn)行線性變換,使變換后的兩組數(shù)據(jù)相關(guān)性最大。實(shí)際中很多問題需要非線性變換來挖掘事物間潛在的非線性關(guān)系。而ELM-CCA算法可以實(shí)現(xiàn)非線性相關(guān)學(xué)習(xí)。
圖 2 ELM-CCA模型結(jié)構(gòu)Fig. 2 The model structure of ELM-CCA
ELM-CCA結(jié)構(gòu)分為兩部分:分別對每個模態(tài)進(jìn)行多層非線性轉(zhuǎn)換;極大化對兩個模態(tài)多層非線性映射后特征的相關(guān)性。對于中的其中一個樣本,設(shè)有k個隱含層,則第1個隱含層的輸出為
通過深度ELM-CCA的訓(xùn)練,得到X和Y的非線性映射表示U和V,并且U和V的相關(guān)度最大。
采用ELM-AE逐層訓(xùn)練得到每層之間的連接權(quán)值,即每層權(quán)值的訓(xùn)練都作為一個獨(dú)立的ELM。在獨(dú)立組件ELM-AE中,令其輸出y=x,通過最小化輸出的重構(gòu)誤差來訓(xùn)練權(quán)值。
圖 3 ELM-AE無監(jiān)督非線性映射Fig. 3 Unsupervised nonlinear learning of ELM-AE
由于式(14)中A或B等比例變化時(shí),目標(biāo)函數(shù)的值不變,因此CCA定義了下式約束條件,此時(shí),目標(biāo)函數(shù)等價(jià)于:
經(jīng)過矩陣A和B轉(zhuǎn)換,使最終輸出U和V實(shí)現(xiàn)最大相關(guān),從而實(shí)現(xiàn)對X和Y的非線性典型相關(guān)分析學(xué)習(xí)。
ELM-CCA與DCCA具有相同的模型結(jié)構(gòu),二者均通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征的非線性表示,然后對得到的深度特征進(jìn)行線性CCA求解,最終將非線性模態(tài)相關(guān)性問題轉(zhuǎn)化為線性相關(guān)分析。不同的是,在神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化過程中,DCCA首先由式(4)計(jì)算目標(biāo)函數(shù)對深度特征的梯度,然后根據(jù)反向傳播算法優(yōu)化每層的權(quán)值。而在ELM-CCA中,每層之間的權(quán)值是通過前向逐層訓(xùn)練,由式(13)直接計(jì)算得到。相比DCCA,不需要反向微調(diào),極大地提高了訓(xùn)練速度。
為了驗(yàn)證本文提出的ELM-CCA算法在多模態(tài)特征提取中的有效性,我們在康奈爾大學(xué)抓取數(shù)據(jù)集[17]上開展了實(shí)驗(yàn)對比。機(jī)器抓取是指機(jī)器人根據(jù)傳感器采集到的信息來推斷夾持器放置的位置,抓取過程涉及感知、規(guī)劃、識別和控制等問題。在實(shí)施抓取操作之前,機(jī)器人首先需要對物體可抓取部分做出準(zhǔn)確的識別,因此本文將提出的算法應(yīng)用于機(jī)器抓取識別任務(wù)中。
康奈爾大學(xué)抓取數(shù)據(jù)集包括由機(jī)器人視覺感知部位RGB-D相機(jī)采集到的一系列圖像,圖4給出了部分圖像樣本。相比傳統(tǒng)的2-D圖像,采用RGB-D相機(jī)能夠在獲取彩色圖像的同時(shí)得到每個像素的深度信息,提高了機(jī)器人抓取的成功率[18]。文獻(xiàn)[19]通過對物體深度信息進(jìn)行處理,實(shí)現(xiàn)了目標(biāo)抓取任務(wù)。近年來,相關(guān)文獻(xiàn)的研究也表明了多模態(tài)特征融合的必要性[20],文獻(xiàn)[21]提出采用多特征光學(xué)遙感圖像提高目標(biāo)的分類識別性能;文獻(xiàn)[22]指出RGB-D融合的多應(yīng)用場合。因此本文將對圖像的顏色RGB模態(tài)和深度信息模態(tài)進(jìn)行研究,尋找其相關(guān)信息。
圖 4 康奈爾大學(xué)數(shù)據(jù)集樣本Fig. 4 Example objects from the Cornell grasping dataset
實(shí)驗(yàn)數(shù)據(jù)集包含885張RGB圖像,這些圖像來自于對240個不同物體的多角度拍攝。每張圖片被多個已標(biāo)簽矩形框標(biāo)記,共記8 019個,如圖5所示,粗線對應(yīng)夾持器抓取的位置。其中正矩形表示可抓取,負(fù)矩形表示當(dāng)前狀態(tài)不可抓取。
每個矩形框?qū)?yīng)一個樣本,同時(shí)對這些矩形內(nèi)的圖像提取顏色信息和深度信息,分別對應(yīng)算法中的X和Y。顏色特征為三通道24×24像素的RGB圖像,即。深度特征包含單通道圖像深度信息,即。圖5右所示為抓取識別任務(wù)的實(shí)驗(yàn)流程。
圖 5 抓取識別任務(wù)流程Fig. 5 The process of grasping recognition tasks
為了體現(xiàn)本文算法的優(yōu)越性,將實(shí)驗(yàn)結(jié)果與線性CCA、分?jǐn)?shù)階嵌入典型相關(guān)分析(fractionalorder embedding canonical correlation analysis,F(xiàn)ECCA)[4]和DCCA進(jìn)行比較。分別在相關(guān)度、時(shí)間和抓取識別任務(wù)3個方面驗(yàn)證了ELM-CCA的優(yōu)勢。
CCA是對隨機(jī)變量線性映射的統(tǒng)計(jì)方法,F(xiàn)ECCA使用分子階思想,對傳統(tǒng)CCA類內(nèi)和類間協(xié)方差進(jìn)行重新估計(jì),以減小訓(xùn)練樣本噪聲造成的樣本協(xié)方差偏離真實(shí)數(shù)據(jù)的問題。DCCA和ELM-CCA都屬于非線性映射方法。上述方法的目標(biāo)都是極大化兩個隨機(jī)變量之間的相關(guān)系數(shù)。因此,首先對以上算法學(xué)習(xí)的特征進(jìn)行相關(guān)度的比較。圖6為不同特征下,4種方法在測試集下得到的前100個最相關(guān)典型變量的相關(guān)系數(shù)之和。從圖中可以看出,ELM-CCA學(xué)習(xí)到的特征相關(guān)度始終高于其他算法。尤其在低維時(shí)表現(xiàn)突出,當(dāng)輸出維度為100時(shí),采用ELM-CCA得到的相關(guān)系數(shù)之和相比前兩者優(yōu)勢最大。輸出維度較高時(shí),相關(guān)度基本趨于一致。
圖 6 前100個典型變量相關(guān)度隨映射維度變化曲線Fig. 6 The correlation curve of the top 100 canonical variables with the increase of output dimensions
圖7對DCCA和ELM-CCA在不同網(wǎng)絡(luò)結(jié)構(gòu)下,提取特征至100維時(shí),進(jìn)行了時(shí)間和相關(guān)度的比較,橫坐標(biāo)表示隱含層的規(guī)模。從圖7(a)可以看出,隨著網(wǎng)絡(luò)層數(shù)和隱含層節(jié)點(diǎn)數(shù)增加,算法消耗的時(shí)間在顯著增長。并且在每個網(wǎng)絡(luò)結(jié)構(gòu)下,DCCA算法消耗的時(shí)間都遠(yuǎn)遠(yuǎn)高于ELMCCA。當(dāng)隱含層層數(shù)低于4層,且每層節(jié)點(diǎn)數(shù)在2 000以內(nèi)時(shí),ELM-CCA的訓(xùn)練時(shí)間可保持在10 s之內(nèi)。而DCCA在隱含層結(jié)構(gòu)為1 000-1 000時(shí),訓(xùn)練時(shí)間已經(jīng)達(dá)到466 s,可以看出ELM-CCA在訓(xùn)練速度上取得了很大的優(yōu)勢。圖7(b)為在各網(wǎng)絡(luò)結(jié)構(gòu)映射下得到的特征相關(guān)度,ELM-CCA學(xué)習(xí)到的特征相關(guān)度均高于DCCA,隨著網(wǎng)絡(luò)層數(shù)增多,相關(guān)度逐漸增加,當(dāng)隱含層層數(shù)為3層時(shí),得到的結(jié)果最好。因此選擇該網(wǎng)絡(luò)結(jié)構(gòu)提取多模態(tài)特征,用于機(jī)器人抓取點(diǎn)的識別任務(wù)。
圖 7 不同網(wǎng)絡(luò)結(jié)構(gòu)下DCCA和ELM-CCA性能比較Fig. 7 The performance comparison of DCCA and ELMCCA with different network structures
通過對原始RGB和深度特征的非線性映射,可以得到兩個模態(tài)特征的最終表示。我們分別將原始特征與經(jīng)過CCA、DCCA和ELM-CCA算法提取后的特征輸入到分類器中,通過得到的識別準(zhǔn)確率比較不同算法的學(xué)習(xí)性能。為了使結(jié)果更有說服力,我們在不同的分類器上進(jìn)行了實(shí)驗(yàn),選擇了基于統(tǒng)計(jì)理論的SVM和基于神經(jīng)網(wǎng)絡(luò)的ELM。此外,我們還比較了使用單模態(tài)特征(即RGB和Depth)和多模態(tài)特征融合(即RGBD)對識別率的影響。
表1和表2分別給出了使用SVM分類器和ELM分類器得到的分類結(jié)果。從表中可以看出,盡管使用了不同的分類器,得到的識別率趨勢是相同的,經(jīng)過特征提取后的識別率要高于直接使用原始特征進(jìn)行識別的結(jié)果。而DCCA和ELMCCA經(jīng)過非線性的學(xué)習(xí)后,體現(xiàn)出了比線性CCA和FECCA的優(yōu)勢,其中FECCA通過對類內(nèi)和類間協(xié)方差重新估計(jì),相比傳統(tǒng)CCA,性能得到了改善。ELM-CCA在經(jīng)過快速的特征學(xué)習(xí)后,相比DCCA,仍然取得了滿意的識別率。圖8所示為不同輸出維度下,采用ELM分類器在RGBD特征輸入下的識別結(jié)果。在低維時(shí),識別率隨著輸出維度的增加顯著提升,在輸出維度達(dá)到20維時(shí)基本穩(wěn)定,并且在不同維度下,ELMCCA始終體現(xiàn)了較好的識別效果。
表 1 在SVM分類器上得到的識別率Table 1 The recognition rate obtained by the SVM classifier %
表 2 在ELM分類器上得到的識別率Table 2 The recognition rate obtained by the ELM classifier %
圖 8 抓取點(diǎn)識別率隨輸出維度的變化Fig. 8 The recognition rate of grasping point along with the increasing of output dimension
本文提出一種新的ELM-CCA非線性典型相關(guān)分析方法,并應(yīng)用于機(jī)器人抓取點(diǎn)的識別任務(wù)中。對機(jī)器人采集到的原始圖像提取RGB模態(tài)和深度模態(tài),首先采用ELM分別的對每個模態(tài)進(jìn)行無監(jiān)督特征學(xué)習(xí),得到非線性特征表示,然后將學(xué)習(xí)到的特征通過CCA極大化模態(tài)之間的相關(guān)性。該方法在保證了識別率較高的情況下還體現(xiàn)了強(qiáng)大的快速性。在實(shí)際應(yīng)用中,為機(jī)器人實(shí)現(xiàn)快速準(zhǔn)確的抓取操作奠定了基礎(chǔ)。