余 游,馮 林,王格格,徐其鳳
(四川師范大學(xué) 計算機科學(xué)學(xué)院,成都 610101)
近年來,深度學(xué)習(xí)在機器學(xué)習(xí)、模式識別研究領(lǐng)域取得了巨大的成功[1].但在深度學(xué)習(xí)建?;蚰P瓦w移的過程中需要花費大量的代價來標(biāo)記樣本.少樣本學(xué)習(xí)算法能有效地解決建?;蚰P瓦w移過程中標(biāo)注代價大的問題,它的優(yōu)點是只需要少量的標(biāo)記樣本就能建立較高識別率的模型.目前,小樣本學(xué)習(xí)已成為機器學(xué)習(xí)領(lǐng)域的研究熱點,引起了眾多學(xué)者的廣泛關(guān)注[2-9].
現(xiàn)有的少樣本學(xué)習(xí)方法,大致可分為三類:一類是基于微調(diào)(Finetune)的方法,這類方法是利用已經(jīng)在特定源域內(nèi)訓(xùn)練的模型,通過在目標(biāo)數(shù)據(jù)域上進行微調(diào),以提高模型的泛化能力[2];二類是基于測量的(Metric)方法,這類方法是對樣本間距離分布進行建模,使同類樣本相似度高,異類樣本相似度低.其中主要的模型有孿生網(wǎng)絡(luò) (Siamese Neural Networks)[3]、匹配網(wǎng)絡(luò)(Matching Networks)[4]、原型網(wǎng)絡(luò) (Prototypical Networks)[5]、關(guān)系型網(wǎng)絡(luò)(Relation Network)[6]等;另一類是基于元學(xué)習(xí)(Meta-learning)的方法,這類方法是在現(xiàn)有的機器學(xué)習(xí)任務(wù)中學(xué)習(xí)元數(shù)據(jù),試圖利用元數(shù)據(jù)建立一種針對不同類型的學(xué)習(xí)問題都具有很好效果的模型.這類模型有遞歸記憶模型 (Memory-Augmented Neural Networks)[7]、模型無關(guān)自適應(yīng)(Model-Agnostic)[8]等.
以上模型在源域和目標(biāo)域(在少樣本學(xué)習(xí)中源域可視為訓(xùn)練集,目標(biāo)域可視為支持集和測試集)分布差異不大的Omniglot[10]數(shù)據(jù)集上表現(xiàn)都很不錯,平均識別率均能達到99%左右[2-8].然而在源域和目標(biāo)域分布差異很大的MiniImagenet[4]數(shù)據(jù)集上表現(xiàn)較差,識別率大概均在50%左右.這類模型還存在一個問題,當(dāng)源數(shù)據(jù)做一點小的變化(例如隨機調(diào)換源域和目標(biāo)域中的種類),模型的識別率會產(chǎn)生較大變化,說明模型對數(shù)據(jù)敏感.為了解決這些問題,本文提出了一種基于深度網(wǎng)絡(luò)的少樣本學(xué)習(xí)方法DL-FSL(Deep Learning-based Few-Shot Learning,DL-FSL).首先,將一個數(shù)據(jù)集劃分為訓(xùn)練集、支持集、測試集,并利用有放回的隨機采樣方式從原始訓(xùn)練集中產(chǎn)生不同的訓(xùn)練集.其次,針對每個訓(xùn)練集,分別產(chǎn)生不同的樣本集和查詢集.然后,采用關(guān)系型深度網(wǎng)絡(luò)[6]和Pytorch深度學(xué)習(xí)框架在不同的樣本集和查詢集上訓(xùn)練出不同基分類模型.最后,采用概率投票模型融合不同的基分類模型.實驗結(jié)果表明,與文獻[4-8]相比,DL-FSL方法在源域和目標(biāo)域分布差異很大的情況下能有效地提高少樣本學(xué)習(xí)算法的識別率.
本文的組織結(jié)構(gòu)如下:第2節(jié)介紹了相關(guān)理論基礎(chǔ);第3節(jié)詳細(xì)描述了本文DL-FSL方法;第4節(jié)對DL-FSL方法做了兩組實驗,并給出了實驗結(jié)果與分析;最后對全文進行了總結(jié).
為了方便敘述,首先我們用數(shù)學(xué)定義形式化與本文相關(guān)的基本概念.
定義1(數(shù)據(jù)集):一個數(shù)據(jù)集D是一個三元組D=(X,Y,f),其中:
X={x1,x2,…,xn}是n個輸入實例觀察值集合,本文中,?xi∈X,xi表示輸入的一個圖片實例.
Y={y1,y2,…,ym}是m個類別標(biāo)簽集合.
f:X→Y是一個信息函數(shù),它指定X中每一個輸入實例的類別標(biāo)簽值,即對?xi∈X,?yj∈Y,有f(xi)=yj成立(i=1,2,…,n;j=1,2,…,m).
定義2(類標(biāo)簽實例集):給定數(shù)據(jù)集D=(X,Y,f),?yj∈Y,若f-1(X|yj)={xi∈X|f(xi)=yj},則稱f-1(X|yj)為數(shù)據(jù)集D下的類別標(biāo)簽yj的實例集(i=1,2,…,n;j=1,2,…,m).
定義3(訓(xùn)練集、支持集與測試集):給定數(shù)據(jù)集D=(X,Y,f),以及參數(shù)C、K,隨機生成D的三個子集Ts=(Xs,Ys,f)、Su=(Xu,Yu,f)、Te=(Xe,Ye,f),如果滿足:
①Yu=Ye,且Yu∩Ys=?,Yu∪Ys=Y;
②Xu∩Xe=?;
③|Yu|=C,其中|·|表示集合的勢;
④?yi,yj∈Yu,|f-1(Xu|yi)|=|f-1(Xu|yj)|=K.
則稱集合Ts、Su、Te分別為D上的訓(xùn)練集、支持集與測試集.
定義4 (樣本集與查詢集):給定訓(xùn)練集Ts=(Xs,Ys,f),以及參數(shù)C、K,設(shè)Sa=(Xa,Ya,f)和Qr=(Xr,Yr,f)為Ts的兩個子集,如果滿足:
①Ya=Yr,|Ya|=|Yr|=C;
②?yi,yj∈Ya,|f-1(yi|Xa)|=|f-1(yj|Xa)|=K;
③Xa∩Xr=?;
則稱Sa、Qr為訓(xùn)練集Ts上的樣本集和查詢集.
定義5(C-way,K-shot少樣本學(xué)習(xí)):給定數(shù)據(jù)集D=(X,Y,f),及參數(shù)C、K,根據(jù)定義3,劃分出訓(xùn)練集Ts、支持集Su、測試集Te.給定任務(wù):利用訓(xùn)練集Ts訓(xùn)練出一個分類模型,它能在支持集Su的支持下較好應(yīng)用于測試集Te.稱這個任務(wù)為C-way,K-shot少樣本學(xué)習(xí).
特別的,當(dāng)K=1時,稱此類任務(wù)為單樣本學(xué)習(xí)(One-Shot Learning),每個樣本只需要給出一個實例樣本,建立出的分類模型就能達到較高的識別率.當(dāng)K=0時,稱為零樣本學(xué)習(xí)(Zero-Shot Learning).對于零樣本學(xué)習(xí),需要借助屬性特征作為支持集,將其轉(zhuǎn)化為一種特殊的One-Shot Learning.
2006年,Hinton團隊[11]提出了深度置信網(wǎng)絡(luò)的訓(xùn)練方式,隨著十幾年的發(fā)展,深度學(xué)習(xí)網(wǎng)絡(luò)已經(jīng)在圖像識別、語音識別、文本處理等領(lǐng)域中取得巨大的成功.卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNNs)[12]是深度網(wǎng)絡(luò)中經(jīng)典的學(xué)習(xí)方法,它包括卷積層和池化層.卷積層由若干個卷積核組成,通過對輸入矩陣進行卷積操作,可提取出輸入矩陣的不同特征.研究表明,前面幾層卷積層只能提取出一些淺層特征,隨著網(wǎng)絡(luò)深度的加深,提取出來的淺層特征會慢慢組合成深層特征.池化層是一個采樣層,常用的有平均池化層和最大池化層,其主要目的是對輸入特征進行壓縮,提取出主要特征.卷積公式和池化公式如下:
CNNs還有兩個很重要的概念就是激活函數(shù)和損失函數(shù).激活函數(shù)是用來加入非線性因素的,提高神經(jīng)網(wǎng)絡(luò)對模型的表達能力,常用的激活函數(shù)有Sigmoid 函數(shù)、tanh 函數(shù)、ReLU函數(shù)等.損失函數(shù)L是用來評估模型預(yù)測值Y′與真實值Y之間的差異程度.網(wǎng)絡(luò)的訓(xùn)練過程,就是通過梯度下降法回傳損失函數(shù)的值,然后相應(yīng)調(diào)整模型的參數(shù),使損失函數(shù)達到最小的過程.
DL-FSL方法的流程如圖1所示,它分成關(guān)系型網(wǎng)絡(luò)和Bagging模型兩個部分.本文先對兩個部分的內(nèi)容進行介紹.然后,再對DL-FSL方法進行詳細(xì)描述.
圖1 DL-FSL方法流程Fig.1 DL-FSL method flow
關(guān)系型網(wǎng)絡(luò)(Relation Network)[6]是一個深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)器,其網(wǎng)絡(luò)結(jié)構(gòu)包括兩個模塊:一個embedding網(wǎng)絡(luò)模塊用于提取圖像特征,其中包含卷積層、池化層、卷積層、池化層、卷積層、卷積層共6層網(wǎng)絡(luò);一個relation網(wǎng)絡(luò)模塊用于回歸圖片的相似度,其中包含卷積層、池化層、卷積層、池化層、全連接層、全連接層共6層網(wǎng)絡(luò).本文所有網(wǎng)絡(luò)的池化層均為最大池化層,具體網(wǎng)絡(luò)結(jié)構(gòu)及其參數(shù)見圖2.
圖2 embedding與relation網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Embedding and relation network structure
關(guān)系型網(wǎng)絡(luò)的基本思想是:首先,利用embedding網(wǎng)絡(luò)模塊分別提取出樣本集Sa與查詢集Qr的圖像特征ξ1,ξ2;其次,利用relation網(wǎng)絡(luò)計算出ξ1,ξ2之間的相似度,其值代表著每個樣本集的圖片實例與每個查詢集的圖片實例的相似程度,取出與查詢集圖片實例相似度最高的類別標(biāo)簽作為當(dāng)前樣本集的圖片實例的預(yù)測標(biāo)簽;最后,采用真實標(biāo)簽與預(yù)測標(biāo)簽的均方誤差作為整個網(wǎng)絡(luò)的損失函數(shù),利用梯度下降法進行訓(xùn)練.
集成學(xué)習(xí)是利用多個基學(xué)習(xí)器解決同一任務(wù),以提高模型的泛化能力[13],它已被運用到機器學(xué)習(xí)的多個領(lǐng)域[13-16],并取得了很好的效果.集成算法需要解決兩個關(guān)鍵問題:一是如何構(gòu)建具有差異性的基學(xué)習(xí)器;二是如何融合基學(xué)習(xí)器.研究表明,Bagging模型可以顯著提高不穩(wěn)定基學(xué)習(xí)器的泛化能力.結(jié)合少樣本學(xué)習(xí)算法對數(shù)據(jù)敏感的特性,本文采用Bagging模型來提升深度網(wǎng)絡(luò)的泛化能力.它的主要思想是:在訓(xùn)練階段,通過有放回的隨機采樣(Bootstrap Sampling)產(chǎn)生很多不同的訓(xùn)練集,分別訓(xùn)練出不同的基學(xué)習(xí)器;在模型融合階段,采用投票方式(常見的有簡單投票、加權(quán)投票、概率投票等方式)對基學(xué)習(xí)器進行整合.
DL-FSL算法描述如下:
算法1.DL-FSL方法
輸入:數(shù)據(jù)集D=(X,Y,f)以及參數(shù)C、K、N、Times、θ; //C代表分類種類,K代表每個種類的樣本數(shù),N代表集成規(guī)模,Times代表最大訓(xùn)練次數(shù),θ代表損失函數(shù)收斂的一個閾值.
輸出:少樣本分類模型Ω′.
Step 1.根據(jù)定義3,從數(shù)據(jù)集D中劃分出訓(xùn)練集Ts、支持集Su、測試集Te;
Step 2.Fori=1 ToN
2.1.聲明一個與訓(xùn)練集Ts大小相同的集合Ts i;
2.2.Forj=1 To |Ts|
2.2.1.隨機復(fù)制Ts中一張圖片實例Xsi到集合Ts i中;
End For
2.2.2.建立一條異步線程Syi,將步驟(2.3-2.11)的代碼都放入異步線程中執(zhí)行;
2.3.隨機初始化模型Ω中所有網(wǎng)絡(luò)層的參數(shù);
2.4.取出訓(xùn)練集Tsi,根據(jù)定義4,隨機劃分出樣本集Sa和查詢集Qr;
2.5.取出樣本集Sa中所有圖片實例集Xa作為輸入,輸入到關(guān)系型網(wǎng)絡(luò)模型Ω中embedding網(wǎng)絡(luò)模塊中.按照圖2的結(jié)構(gòu)圖計算Xa的圖像特征ξ1:
2.5.1.temp=ReLU (Xa?H1)
2.5.3.temp=ReLU (temp?H3)
2.5.5.temp=ReLU (temp?H5)
2.5.6.ξ1=ReLU (temp?H6)
2.6.取出查詢集Qr中所有圖片實例集Xr,按照步驟2.5.的方法計算Xr的圖像特征,記為ξ2;
2.7.將ξ1,ξ2拼接成一個聯(lián)合特征矩陣ξ,輸入到模型Ω中的relation網(wǎng)絡(luò)模塊中.按照圖2的結(jié)構(gòu)圖計算每張圖片與查詢集每類圖片的相似度η:
2.7.1.temp=ReLU (ξ?H7)
2.7.3.temp=ReLU (temp?H9)
2.7.5.temp=ReLU (temp·W1)
2.7.6.η=Sigmoid(temp·W2)
2.8.η是一個高維矩陣,其每一行中的每一個元素,代表著樣本集中的一個樣本實例與查詢集中一個類別的相似度,取每行最大相似度所對應(yīng)的類別為該樣本圖片實例的預(yù)測標(biāo)簽,記所有圖片實例的預(yù)測標(biāo)簽為Y′,其真實標(biāo)簽為Y;
2.9.采用均方誤差MSE(Y,Y′)作為整個Relation Network的損失函數(shù)L;
2.10.If((Times>0)‖(MSE(Y,Y′)>θ))
2.10.1.Times=Times-1
2.10.2.利用梯度下降法反向傳播L的值,以調(diào)整模型Ω中的參數(shù);
2.10.3.轉(zhuǎn)至步驟2.5.,繼續(xù)訓(xùn)練網(wǎng)絡(luò)參數(shù);
End If
2.11.輸出當(dāng)前訓(xùn)練完畢的網(wǎng)絡(luò)Ωi;
End For
Step 3.采用概率投票模型,融合基模型Ω1,Ω2,…,Ωn,得到最終少樣本分類模型Ω′;
Step 4.輸出少樣本分類模型Ω′,算法停止.
上述DL-FSL算法的主要思想是:首先,采用隨機采樣方式產(chǎn)生N個具有差異性的獨立的數(shù)據(jù)集;其次,建立N條異步線程,在異步線程中使用關(guān)系型深度網(wǎng)絡(luò)并行訓(xùn)練出N個不同的基分類模型;最后,采用概率投票的方式融合不同的基分類模型.
為了驗證本文DL-FSL方法的效果,實驗分成實驗1與實驗2兩個部分:實驗1將DL-FSL和現(xiàn)有少樣本學(xué)習(xí)方法的分類效果進行了對比實驗;實驗2分析了DL-FSL分類效果與集成規(guī)模N的關(guān)系.
實驗數(shù)據(jù)集的選擇:miniImageNet和Omniglot是研究少樣本學(xué)習(xí)算法的兩個經(jīng)典的公開數(shù)據(jù)集.miniImageNet[4]數(shù)據(jù)集含有100個常見物種,每個物種之間的差異性很大,例如麻雀和卡車,每個物種有600張圖片,總共60000張.Omniglot[10]數(shù)據(jù)集包含來自 50個不同字母的1623個不同手寫字符.每一個字符都是由20個不同的人通過亞馬遜的Mechanical Turk在線繪制的.
本文實驗采用的硬件環(huán)境為NVIDIA Tesla K80 GPU平臺;軟件環(huán)境為Linux系統(tǒng)、Python編程語言、Pytorch深度學(xué)習(xí)框架.
實驗1的主要目的是測試DL-FSL方法的分類效果.因此,給出了DL-FSL方法與目前公開的少樣本學(xué)習(xí)方法的實驗對比.實驗參數(shù)的設(shè)置與文獻[4-8]中相同,也采用C=5,K=1和C=5,K=5的情況下進行實驗.
實驗步驟如下:
4.1.1 Omniglot數(shù)據(jù)集實驗結(jié)果
將Omniglot數(shù)據(jù)集劃分成訓(xùn)練集1200類,支持集與測試集423類.按照實驗一的步驟進行實驗,并增加20 way 1 shot、20 way 5 shot的參數(shù)設(shè)定,實驗結(jié)果如表1 所示.從表1中可以看出,對于Omniglot數(shù)據(jù)集,在5 way 1 shot、5 way 5 shot、20 way 1 shot、20 way 5 shot參數(shù)設(shè)定下,本文DL-FSL方法的準(zhǔn)確率均超過了其它主流的少樣本算法的準(zhǔn)確率.尤其是在20 way 1 shot參數(shù)設(shè)定下,DL-FSL方法的準(zhǔn)確率(98.8%)比Relation Nets的準(zhǔn)確率(97.6%)高出了1.2%.
表1 Omniglot數(shù)據(jù)集下DL-FSL方法與目前主流少樣本學(xué)習(xí)方法準(zhǔn)確率對比Table 1 DL-FSL method compared with other FSL method in Omniglot dataset
4.1.2 miniImageNet數(shù)據(jù)集實驗結(jié)果
將miniImageNet數(shù)據(jù)集劃分成訓(xùn)練集64種,驗證集(包含驗證時的支持集與測試集)16種,支持集與測試集20種.按照實驗一的步驟進行實驗,結(jié)果如表2所示.從表2中可以看出,5 way 1 shot設(shè)定下,DL-FSL方法的準(zhǔn)確率達到了52.06±0.82%,比Relation Nets(50.44±0.82%)的準(zhǔn)確率高出了1.62%,且超過了現(xiàn)有主流的其它少樣本算法;5 way 5 shot設(shè)定下,DL-FSL方法的準(zhǔn)確率達到了67.75±0.70%,比Relation Nets(65.32±0.70%)的準(zhǔn)確率高出了2.43%,除了略低于Prototypical Nets(68.20±0.66%),也均超過了其它主流的少樣本學(xué)習(xí)算法.實驗結(jié)果說明了DL-FSL方法對少樣本學(xué)習(xí)算法具有很好的提升效果,也說明通過DL-FSL方法確實能提高少樣本學(xué)習(xí)算法模型的泛化能力.
表2 miniImageNet 數(shù)據(jù)集下DL-FSL方法與目前主流少樣本學(xué)習(xí)方法準(zhǔn)確率對比Table 2 DL-FSL method compared with other FSL method in miniImageNet dataset
實驗2的主要目的是為了研究DL-FSL分類效果與集成規(guī)模N的關(guān)系.從表一中可以看出在Omniglot數(shù)據(jù)集下,DL-FSL的準(zhǔn)確度提升空間太小.因此,我們采用miniImageNet數(shù)據(jù)集來研究DL-FSL的分類效果與集成規(guī)模N的關(guān)系,將N從1取到10,分別在5 way 1 shot和5 way 5 shot下,按照實驗1的步驟進行對比實驗.
實驗步驟如下:
Step 1.Fori=1 To 10
實驗結(jié)果如圖3所示.
圖3 DL-FSL分類效果與集成規(guī)模N的關(guān)系圖Fig.3 relationship between DL-FSL′s classification effect and ensemble scale N
從圖3中可以看出,隨著集成規(guī)模N的增加,集成效果越來越好.當(dāng)集成規(guī)模N=3時,5 way 1 shot和5 way 5 shot的集成效果均可達到原始的Relation Network的準(zhǔn)確率.當(dāng)集成規(guī)模N>7時,隨著集成規(guī)模的增加,集成效果漲幅越來越小.當(dāng)集成規(guī)模N超過10時,集成效果開始收斂于一個值,從而也驗證了周志華教授在文獻[17]的觀點,集成器不是越多越好.
少樣本學(xué)習(xí)是機器學(xué)習(xí)中的難點與熱點.它能在標(biāo)記樣本很少的情況下,學(xué)習(xí)出識別率較好的機器學(xué)習(xí)模型.然而現(xiàn)有的少樣本學(xué)習(xí)算法在源域與目標(biāo)域樣本分布差異很大的情況下,學(xué)習(xí)出的模型泛化能力不強.本文首先用數(shù)學(xué)定義形式化地描述了少樣本學(xué)習(xí)相關(guān)概念.然后,提出了一種DL-FSL方法并給出了詳細(xì)的算法描述.最后,將本文DL-FSL方法與現(xiàn)在主流少樣本學(xué)習(xí)方法做了兩組對比實驗.實驗結(jié)果證明了本文DL-FSL方法能有效地提高模型的泛化能力.下一步工作,我們將把本文DL-FSL算法應(yīng)用在數(shù)據(jù)集自動標(biāo)注上,有效解決深度學(xué)習(xí)在建?;蚰P瓦w移過程中需要花費大量的代價來標(biāo)記樣本的問題.