盧依宏,蔡堅勇,鄭 華,曾遠強
(福建師范大學 光電與信息工程學院,福州 350007)
由于基于深度學習的神經(jīng)網(wǎng)絡(luò)在目標特征的提取上具有無可比擬的優(yōu)勢,因此神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域中被廣泛應(yīng)用[1-3]。然而實驗過程中發(fā)現(xiàn),當訓練數(shù)據(jù)非常少時,神經(jīng)網(wǎng)絡(luò)中的每個單元不得不考慮到每個樣本中物體的定位和分類特征,整個神經(jīng)網(wǎng)絡(luò)會變得過擬合。因此少樣本問題一直以來是深度學習研究中的一個難點[4]。
本文針對深度學習領(lǐng)域中少樣本學習的問題,總結(jié)并分析經(jīng)典及最新的方法,最后展望其未來的研究方向。
在訓練一個高效、精確的神經(jīng)網(wǎng)絡(luò)時,通常需要大量帶有標簽的數(shù)據(jù),而在許多情況下每個類別只有一個或幾個訓練樣本,如視頻監(jiān)控、衛(wèi)星圖像、異常檢測等。同時,在如生物醫(yī)療圖像識別任務(wù)中,往往會遇到特殊病例下患病樣本與正常樣本數(shù)極度不平衡的情況,這時正常樣本數(shù)越多越影響網(wǎng)絡(luò)性能。因此,將這種由于樣本數(shù)不足或樣本質(zhì)量有嚴重偏差從而導致神經(jīng)網(wǎng)絡(luò)的性能嚴重下降的情況稱為少樣本問題。
與普通的只訓練一類數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)不同,少樣本學習訓練集(支持集)有許多不同的類,每類又包含許多不同的樣本,因此少樣本學習又稱為N-way、K-shot問題,其中N表示數(shù)據(jù)集共有N個類,K表示每個類中有K個樣本。因為是少樣本,所以K一般在1~20之間,實驗中K往往取5、10、15。
數(shù)據(jù)增強是一種常用的數(shù)據(jù)處理方法。早期主要通過對數(shù)據(jù)進行空間變換,如旋轉(zhuǎn)、平移、縮放、剪裁、顏色變化等[5],來生成更大數(shù)據(jù)集。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,也出現(xiàn)了許多利用如對抗生成網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)等其他網(wǎng)絡(luò)來擴展數(shù)據(jù)的方法。
2.1.1 空間變化
Salehinejad等人[6]提出對醫(yī)學圖像采用徑向變化方法,將笛卡爾坐標映射到極坐標來展開圖像,得到一張圖像很多個不同的徑向變化圖,不僅保留了原始圖像的信息還提高了訓練數(shù)據(jù)集的多樣性,從而改善了神經(jīng)網(wǎng)絡(luò)的泛化性能。對現(xiàn)有數(shù)據(jù)集進行簡單的空間變化操作生成更大的數(shù)據(jù)集,是早期在基于深度學習的神經(jīng)網(wǎng)絡(luò)中最基本的數(shù)據(jù)操作。
2.1.2 基于幻覺模型的數(shù)據(jù)增強
由于樣本數(shù)很少,當訓練樣本中的物體發(fā)生變形時,神經(jīng)網(wǎng)絡(luò)無法準確識別。因此,許多研究人員思考如何讓神經(jīng)網(wǎng)絡(luò)學會“幻覺化” 訓練樣本中的物體。
在Goodfellow等人[7]提出的對抗生成網(wǎng)絡(luò)中,生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的動態(tài)“博弈過程”可以生成非常接近真實圖像的虛假圖像。Antoniou等人[8]提出了基于生成對抗網(wǎng)絡(luò)的數(shù)據(jù)增強方法(Data Augmentation Generative Adversarial Networks,DAGAN),利用編碼器將輸入圖像的向量和隨機向量結(jié)合,生成虛假圖像。這一將GAN網(wǎng)絡(luò)和數(shù)據(jù)增強結(jié)合在一起的方法,在實際應(yīng)用上取得了很大的進展。
對于與基類完全不同的數(shù)據(jù),Zhang等人[9]提出了一個新的網(wǎng)絡(luò)結(jié)構(gòu)Salient網(wǎng)絡(luò)(SalNet),通過顯著性數(shù)據(jù)幻覺模型來增強數(shù)據(jù)。這是第一篇將顯著性圖用于少樣本學習的數(shù)據(jù)增強方法的論文,顯著性網(wǎng)絡(luò)很好地將圖像的前景背景分割開,也是該文的一個亮點。
上述“幻覺化”[10]數(shù)據(jù)增強方法為基類數(shù)據(jù)幻化出新的樣本,生成的“幻覺”樣本豐富了訓練數(shù)據(jù)的多樣性,從而提高了神經(jīng)網(wǎng)絡(luò)識別新類別的性能。
2.1.3 基于合成多標簽樣本的數(shù)據(jù)增強
將多個單類別圖像的標簽融合來增加樣本標簽多樣性是常見的一種數(shù)據(jù)增強方法,但目前的融合標簽方法都是針對一張圖片只有一個標簽的情況,而自然圖像往往包含多個標簽。Alfassy[11]等人提出的一種新的合成樣本標簽的方法,成功將圖像的特征與標簽分離,生成訓練期間未出現(xiàn)過的標簽。該文提出的方法將訓練集標簽范圍擴充到已給標簽的交集、并集和去集中,大大提高了網(wǎng)絡(luò)分類圖像的泛化能力。
2.1.4 不同數(shù)據(jù)增強方法的比較
本節(jié)詳細介紹三種最新且效果顯著的數(shù)據(jù)增強方法,給出了相應(yīng)的模型結(jié)構(gòu)和實驗中取得的準確度。其中徑向變化在實驗中將MNIST數(shù)據(jù)集由原本的每類20張圖像擴充成每類2 000張,DAGAN中每類有5個樣本,LaSO實驗中的數(shù)據(jù)集包括64類已知樣本和16類未知樣本。
三種基于數(shù)據(jù)增強的少樣本學習方法對比如表1所示。
表1 基于數(shù)據(jù)增強的少樣本方法總結(jié)
不同數(shù)據(jù)增強方法各有優(yōu)勢。通過空間變換來增加樣本數(shù)的方法簡單快速易操作,卻未增加樣本種類。利用幻覺模型來增加樣本數(shù)和通過集合運算擴充數(shù)據(jù)標簽的方法在測試樣本和訓練樣本種類一致時,可以取得很好的結(jié)果。因此,數(shù)據(jù)增強方法主要面臨樣本數(shù)非常少的情況下效果并不好的問題,以及測試樣本和訓練樣本類型完全不一樣的問題。
在少樣本研究中有很多利用非參數(shù)化估計(如最近鄰算法、K-近鄰算法、K均值聚類算法)的度量學習,對樣本間距離分布進行建模,使得同類樣本靠近異類樣本遠離。一般通過構(gòu)造支持集和測試集的距離來分類,重點在距離的構(gòu)造上,如要分類四張不同的動物圖像,并分辨出一張新圖像屬于前面四張圖像中的哪一個動物,這時可以比較新圖像和之前四張圖像的特征向量距離,距離越近代表特征越像,屬于同一類的概率就越大。
2.2.1 基于固定距離的度量學習
孿生網(wǎng)絡(luò)[12]是雙路神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)有兩個輸入,通過學習樣本的特征距離來判斷兩個樣本是否屬于同一個類,輸出圖像相似度的概率排名。
匹配網(wǎng)絡(luò)[13](Match Network)和原型網(wǎng)絡(luò)[14](Protoype network)的網(wǎng)絡(luò)結(jié)構(gòu)類似。匹配網(wǎng)絡(luò)為支撐集構(gòu)建靈活的編碼器,最終分類器的輸出是支持集樣本和詢問集樣本之間預測值的加權(quán)求和。原型網(wǎng)絡(luò)提出每個類都存在一個原型表達,該類的原型是支持集在嵌入空間中的均值。
上述三個網(wǎng)絡(luò)在最終的距離度量上都使用了固定的度量方式,如余弦距離、歐式距離等,這種模型結(jié)構(gòu)下所有的學習過程都發(fā)生在樣本的嵌入階段。
2.2.2 基于可學習距離的度量學習
一些研究人員提出,在度量學習中,度量方式也是網(wǎng)絡(luò)中非常重要的一環(huán),人為規(guī)定的度量方式在學習過程中會限制網(wǎng)絡(luò)的性能。因此,文獻[15]提出訓練一個相關(guān)網(wǎng)絡(luò)來學習度量距離,最終網(wǎng)絡(luò)輸出一個0~1的值,表示支持集和詢問集的相似程度。同時,網(wǎng)絡(luò)的損失也應(yīng)該針對不同的任務(wù)而改變,在相關(guān)網(wǎng)絡(luò)中解決的是回歸問題,而非分類問題,所以使用均方誤差(Mean Square Error,MSE)代替交叉熵(Cross Entropy)[16]。
圖1 相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)圖[15]
2.2.3 度量學習方法總結(jié)
本節(jié)介紹兩種基于度量學習的少樣本方法,下面對比了每種方法使用的網(wǎng)絡(luò)模型,給出每一個網(wǎng)絡(luò)所使用的數(shù)據(jù)集,以及在Mini-ImageNet數(shù)據(jù)集上部分網(wǎng)絡(luò)取得的準確度。其中原型網(wǎng)絡(luò)和匹配網(wǎng)絡(luò)是由4個卷積塊組成,相關(guān)網(wǎng)絡(luò)由6個卷積塊加2個全連接層組成。
兩種基于度量學習的少樣本學習方法對比如表2所示。與其他方法相比,第一種使用歐式距離或余弦距離等固定距離的度量方法在單樣本學習(one-shot learning)中可以取得非常好的結(jié)果,但這種人為設(shè)計的度量方式存在一定局限性。因此,研究人員提出使用深度神經(jīng)網(wǎng)絡(luò)來學習樣本之間的特征距離的方法,同時也使用了不同的損失函數(shù)來訓練網(wǎng)絡(luò)。從實驗結(jié)果可知,可學習的度量方式優(yōu)于固定距離的度量方式。
表2 基于度量學習的少樣本方法總結(jié)
元學習是一種利用以往經(jīng)驗來處理新任務(wù),讓網(wǎng)絡(luò)學會如何學習的方法。元學習的目標是讓網(wǎng)絡(luò)在每個任務(wù)中快速學習這個任務(wù)最優(yōu)解,在不同任務(wù)之間學習跨任務(wù)的學習能力。文獻[17]對元學習進行簡單定義,指出元學習是通過選擇參數(shù)來降低網(wǎng)絡(luò)在整個數(shù)據(jù)集的損失函數(shù)。
2.3.1 基于優(yōu)化方式的元學習
基于優(yōu)化方式的元學習使網(wǎng)絡(luò)不再從樣本中學習而是從任務(wù)中學習,最大化網(wǎng)絡(luò)的泛化能力[18]。Andrychowicz等人[19]提出一種讓網(wǎng)絡(luò)學習如何學習的方法,利用長短時記憶(Long Short-Term Memory)優(yōu)化器實現(xiàn)元學習過程。同樣,在Rav等人[20]提出的方法中也使用了LSTM結(jié)構(gòu)。Rav等人發(fā)現(xiàn),在少量數(shù)據(jù)下,使用的一般梯度算法,如momentum、adagrad、adadelta、Adam[21]等,需要經(jīng)過多次迭代才能完成優(yōu)化,無法應(yīng)用于需要快速學習不同任務(wù)的元學習中[22-23]。因此需要一個通用的初始化參數(shù),可以讓模型從一個很好的初始參數(shù)開始訓練,在面對不同的任務(wù)時模型能實現(xiàn)快速學習[24]。
Finn等人[25]提出與模型無關(guān)的元學習方法(Model-agnostic Meta Learning,MAML),既與模型結(jié)構(gòu)無關(guān)也不增加新的參數(shù),且可以和任何使用梯度下降訓練的模型兼容。同時,MAML不僅可以用于圖像分類問題,在回歸和強化學習上也取得了很好的結(jié)果,因此MAML在元學習領(lǐng)域被廣泛應(yīng)用。
Nichol等人[26]提出把MAML中對參數(shù)求二次導改為求一階導可簡化計算,從而提高網(wǎng)絡(luò)速度。同時,作者還對MAML算法中初始化參數(shù)的更新規(guī)則進行修改,提出了Reptile算法。
基于優(yōu)化方式的各種元學習方法將深度學習的研究從網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化變?yōu)閰?shù)優(yōu)化,未來應(yīng)進一步探索如何取得更有利的參數(shù)。
2.3.2 基于參數(shù)的跨任務(wù)元學習
文獻[27]提出一種與任務(wù)無關(guān)的元學習(Tast-agnostic Meta Learning,TAML)算法,通過加入正則化項提高網(wǎng)絡(luò)的通用性。具體而言,作者提出兩種新穎的TAML算法范式,一種使用基于熵的TAML度量,防止模型預測過程中偏向某一具體任務(wù);另一種使用基于不平等最小化的TAML度量,對初始模型進行元訓練,使模型在面對不同任務(wù)時的差異更小。
2.3.3 基于模型權(quán)值的元學習
Sun等人[28]提出了一種元遷移學習方法,針對目前的元學習進行改進,將遷移學習和元學習結(jié)合,得到更優(yōu)的性能,證明MAML具有很強的適用性,也為下一階段如何將元學習算法和遷移學習等其他方法結(jié)合提供了可能。
2.3.4 對比
本節(jié)歸納三種元學習方法的不同,并給出在Mini-ImageNet數(shù)據(jù)集上的準確度,其中數(shù)據(jù)集設(shè)置為1-shot 5-way。
三種基于元學習的少樣本學習方法對比結(jié)果如表3所示。基于優(yōu)化方式的元學習適用性很強,可以和許多神經(jīng)網(wǎng)絡(luò)模型結(jié)合使用,但是這種方法計算量大,因此要求網(wǎng)絡(luò)結(jié)構(gòu)不能太復雜,否則會出現(xiàn)梯度爆炸或梯度消失的情況。從實驗結(jié)果可看出,Reptile算法在圖像分類任務(wù)的準確度上略差于MAML算法?;趨?shù)的跨任務(wù)元學習效果雖好,但考慮到基于熵的方法的輸出取決于模型的輸出函數(shù),因此它更適合特定的分類或回歸任務(wù)。
表3 基于元學習的少樣本方法總結(jié)
在未來的研究中,可以思考能否將元學習與數(shù)據(jù)增強或度量學習等方法相結(jié)合。并且元學習還面臨一個重要問題,即如何在保證計算量的同時提高模型復雜性。
隨著深度學習的應(yīng)用越來越廣泛,少樣本學習問題也引起了重視,現(xiàn)有的少樣本學習方法雖然已經(jīng)取得了很大的進展,但仍有很大的進步空間,在此提出幾點未來的研究方向:
(1)提高訓練樣本的復雜度
少樣本學習最終目的是能廣泛應(yīng)用于實際生活中,然而在上述方法的實驗中,目前大部分少樣本學習模型訓練使用的數(shù)據(jù)集為Omniglot 和 ImageNet,這兩個數(shù)據(jù)集樣本的種類與復雜的現(xiàn)實生活相比過于簡單,雖在實驗中可以取得不錯的準確率,卻無法反映模型在實際應(yīng)用中的效果,在未來的研究中應(yīng)著重研究困難樣本的少樣本學習。
(2)無監(jiān)督學習
監(jiān)督學習是目前深度學習中最熱門的領(lǐng)域,但是許多情況下無標簽的數(shù)據(jù)集遠比有標簽數(shù)據(jù)更容易獲得。例如,在通過特征向量的距離來分類的度量學習中,是否可以使用無標簽的數(shù)據(jù)來訓練。借助大量無標簽的數(shù)據(jù)來幫助少量有標簽的數(shù)據(jù)進行學習,是未來研究的一個方向。
(3)神經(jīng)網(wǎng)絡(luò)的深入
少樣本學習面臨的最大問題之一是過擬合現(xiàn)象,神經(jīng)網(wǎng)絡(luò)中成千上萬的神經(jīng)元會因為樣本數(shù)太少而過于偏向訓練樣本。許多元學習方法往往受限于過于簡單的網(wǎng)絡(luò)結(jié)構(gòu),因此優(yōu)化神經(jīng)網(wǎng)絡(luò)內(nèi)部的神經(jīng)元,使其具有更強的泛化性能,將對少樣本學習有更大的提升。
(4)其他領(lǐng)域的少樣本學習
現(xiàn)階段少樣本學習主要解決的是分類問題,然而如何利用元學習跨任務(wù)學習的能力,將少樣本學習擴展到目標檢測任務(wù)和圖像分割任務(wù)中也是非常重要的。
本文通過對比少樣本學習在圖像處理領(lǐng)域的最新研究,從不同角度總結(jié)并分析了當前少樣本學習的最新成果。三種典型的數(shù)據(jù)增強方法能成功擴充樣本數(shù)據(jù)量,雖行之有效,卻未從根本上解決少樣本問題。度量學習的少樣本學習,當樣本數(shù)過于少時,度量學習往往會發(fā)生過擬合現(xiàn)象,具有一定局限性。經(jīng)典的元學習方法,優(yōu)點在于可以快速處理訓練集中從未出現(xiàn)過的新樣本,但是元學習復雜的訓練過程和過于簡單的網(wǎng)絡(luò)結(jié)構(gòu)使其無法達到更高的精度。