国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

小樣本目標檢測研究綜述

2023-01-17 09:31劉春磊陳天恩姜舒文
計算機與生活 2023年1期
關鍵詞:范式類別樣本

劉春磊,陳天恩,王 聰,姜舒文,陳 棟+

1.廣西大學計算機與電子信息學院,南寧530004

2.北京市農(nóng)林科學院信息技術研究中心,北京100097

3.國家農(nóng)業(yè)信息化工程技術研究中心,北京100097

目標檢測是計算機視覺方向的熱點領域,其任務是將圖像中任意數(shù)目的感興趣對象用外接矩形框選出來并識別出對象類別。作為計算機視覺的基本任務之一,目標檢測應用廣泛,其已經(jīng)在缺陷檢測[1-3]、農(nóng)業(yè)病蟲害識別[4]和自動駕駛[5]等領域發(fā)揮著重要的作用。

2014 年,Girshick 等[6]提出了用于解決目標檢測任務的R-CNN(region-based convolutional neural networks)算法并取得了極大的性能提升,目標檢測研究從此進入深度學習時代。Girshick 等[7]又在2016 年提出了經(jīng)典的Faster R-CNN 兩階段算法,首先在圖像上生成大量可能是對象的候選區(qū),然后對這些候選區(qū)進行篩選,對篩選得到的候選區(qū)進行分類和回歸得到想要的結果。由于兩階段算法會基于生成的大量候選區(qū)做進一步處理,雖然檢測精度較高,但檢測速度相對不是很理想。一階段算法不需要事先通過專門的算法模塊生成大量候選區(qū),而只是在圖像上預先定義了不同大小和比例的錨框,用這些錨框代替了兩階段算法的候選區(qū),不再需要復雜的候選區(qū)操作,只需對圖像進行一次卷積處理就可以完成對象的定位和分類,經(jīng)典的一階段網(wǎng)絡有YOLO(you only look once)系列[8-10]、SSD(single shot multibox detector)[11]、RetinaNet[12]等。近些年,在自然語言處理領域大放異彩的Transformer[13]技術也被成功應用到目標檢測中,DETR(detection transformer)[14]是其中的代表之作,其不再需要錨框、候選區(qū)和非極大值抑制等人為設計的知識,而是將目標檢測看作直接的集合預測問題,真正地實現(xiàn)了端到端檢測。

上述的目標檢測方法都需要使用大量實例級別的標注信息來實現(xiàn),這可能會出現(xiàn)以下一些問題:(1)由于現(xiàn)實世界中固有的長尾分布,有些類別本身就很難獲得大量的標注信息,比如珍稀動植物、罕見病癥等;(2)圖像的標注通常需要消耗大量的人力去完成,而且,標注的準確率也不穩(wěn)定,漏標和誤標的情況常有發(fā)生,尤其是某些難以標注的對象,比如病蟲害、腫瘤等;(3)模型的訓練需要消耗大量的資源,如昂貴的GPU 設備和專業(yè)的領域知識等。當只有很少的標注信息時,現(xiàn)有主流的目標檢測方法很難達到令人滿意的效果。然而,現(xiàn)實生活中,即便一個孩童,也能夠通過僅僅觀察幾張圖像就完成對新類別的學習。因此,通過很少的樣本數(shù)量進行目標檢測是一個極具現(xiàn)實意義的問題,受到了越來越多的關注。

小樣本學習只使用很少的訓練樣本就能夠得到想要的結果。現(xiàn)在,小樣本學習在圖像分類、語義分割和目標檢測這三大計算機視覺任務上都有應用,但迄今為止研究的重點主要集中在圖像分類。相比分類,小樣本目標檢測問題更加復雜,其不僅僅需要分類目標的類別,還需要定位出目標的具體位置。小樣本目標檢測問題的提出是為了解決實際生產(chǎn)生活中樣本數(shù)據(jù)標注量少的問題,是非常有現(xiàn)實意義的研究方向。目前,已有一些關于小樣本目標檢測的綜述,潘興甲等[15]將小樣本目標檢測方法分為基于微調、基于模型結構和基于度量學習三種,并對這些分類方法進行了分析。劉浩宇等[16]將其分成基于數(shù)據(jù)、模型和算法三個類別,并對每個類別進行了歸納總結,探討了小樣本目標檢測的現(xiàn)狀和未來趨勢。張振偉等[17]也從六方面對小樣本目標檢測方法進行了分析,比較了不同方法的優(yōu)缺點。與這些綜述[15-17]不同,本文首先將這些方法歸納為兩種范式,再按照改進策略的不同,從基于注意力機制、圖卷積神經(jīng)網(wǎng)絡、度量學習和數(shù)據(jù)增強的角度進行歸納總結,對比分析了不同分類的優(yōu)缺點和適用場景。同時,收錄了近兩年提出的許多新的小樣本目標檢測方法,對比分析了這些方法的性能表現(xiàn)。

1 小樣本目標檢測概述

1.1 小樣本目標檢測定義和訓練過程

小樣本目標檢測(few-shot object detection,F(xiàn)SOD)相對于通用目標檢測最大的不同,是其數(shù)據(jù)輸入的不同,F(xiàn)SOD 將數(shù)據(jù)集分為基類數(shù)據(jù)集Db和新類數(shù)據(jù)集Dn?;悢?shù)據(jù)集Db由擁有大量標注圖像的基類Cb組成,新類數(shù)據(jù)集Dn由只有少量標注圖像的新類Cn組成,其中,基類類別和新類類別不存在交集,即Cb?Cn=?。小樣本目標檢測方法的目標是通過在基類和新類數(shù)據(jù)集上訓練得到一個模型,期待該模型可以檢測出任意給定測試圖像中的新類和基類對象,小樣本目標檢測定義如圖1 所示。

小樣本目標檢測算法的訓練過程一般分為兩個階段:第一階段使用大量的基類數(shù)據(jù)Dbase進行模型的訓練,從初始化模型Minit得到基模型Mbase,稱之為基訓練階段;第二階段使用由少量的基類數(shù)據(jù)Dbase和新類數(shù)據(jù)Dnovel組成的平衡數(shù)據(jù)集Dfinetune對基模型Mbase進行模型微調,得到最終模型Mf,稱之為微調階段。整個訓練過程如圖2 所示。

圖2 模型訓練過程Fig.2 Model training process

1.2 小樣本目標檢測的相關領域研究

在通用目標檢測的基礎上,有一些其他新穎的研究方向,這些研究方向與小樣本目標檢測有相似之處,容易造成混淆,本節(jié)對這些研究方向進行簡易的區(qū)分解釋。

零樣本目標檢測[18]在算法模型的訓練階段只使用可見類別,不可見類別的視覺信息不會被使用到,而用其語義等輔助信息參與訓練,這些輔助信息正是零樣本目標檢測的研究重點。小樣本目標檢測可以使用少量的新類圖像作為視覺方面的信息,同時借鑒零樣本中不可見類別中輔助信息的使用;單例目標檢測[19]是小樣本目標檢測的一個特例,其中每個新類只有一個標注對象信息;任意樣本目標檢測[20]將零樣本或者小樣本的情況同時考慮,即一個算法模型既可以解決零樣本問題又可以處理小樣本問題。

還有一些其他的研究在小樣本目標檢測的基礎上,新增加一些新的領域限定條件。為了避免災難性遺忘,同時可以持續(xù)檢測不斷增加的新類別,提出了類增量小樣本目標檢測[21];半監(jiān)督小樣本目標檢測[22]在不增加新類標注的情況下,將基類數(shù)據(jù)的來源修改為有標注的圖像和沒有標注的圖像;弱監(jiān)督小樣本目標檢測[23]相對于小樣本目標檢測的區(qū)別在于其數(shù)據(jù)集中新類標注不是實例級的,而是由圖像級標注構成的。

圖3 從數(shù)據(jù)流向的角度展示了小樣本目標檢測及其相似任務之間的區(qū)別與聯(lián)系。這些研究領域的數(shù)據(jù)集構成都由基類和新類組成,為了避免混淆,更加明確本綜述的研究范圍,本文對這些相似概念做了簡單的區(qū)分說明。同時,可以從這些領域尋找問題解決的靈感,將其應用到小樣本目標檢測方法。

圖3 小樣本目標檢測及其相似任務的區(qū)別與聯(lián)系Fig.3 Differences and connections between few-shot object detection and its similar tasks

2 小樣本目標檢測的兩類經(jīng)典范式

目前的小樣本目標檢測方法可以概括為兩種范式,基于遷移學習的范式和基于元學習的范式。基于遷移學習的范式是將從已知類中學習到的知識遷移到未知類的檢測任務中。基于元學習的范式是利用元學習器從不同的任務中學習元知識,然后對包含有新類的任務通過元知識的調整完成對新類的檢測。本章將對這兩種范式的典型方法進行簡述。

2.1 基于遷移學習的范式

兩階段微調方法(two-stage fine-tuning approach,TFA)[24]是遷移學習范式的基線方法,基于Faster RCNN 算法進行改進。TFA 認為Faster R-CNN 主干網(wǎng)絡是類無關的,特征信息可以很自然地從基類遷移到新類上,僅僅只需要微調檢測器的最后一層(包含類別分類和邊界框回歸),就可以達到遠遠超過之前方法的性能表現(xiàn)。整個方法分為基訓練和微調兩個階段,如圖4 所示。在基訓練階段,整個模型在有著大量標注的基類上訓練;在微調階段,凍結網(wǎng)絡前期的參數(shù)權重,由基類和新類組成的平衡子集對頂層的分類器和回歸器進行微調。另外,TFA 在微調階段的分類器上采用余弦相似性測量候選框和真實類別邊界框之間的相似性。

圖4 遷移學習基線方法TFA 算法架構圖Fig.4 Model architecture diagram of transfer learning baseline method TFA

由于小樣本中每個新類別的樣本量非常少,其高方差可能會導致檢測結果的不可靠,TFA 通過抽樣多組訓練樣本進行評估,并且在不同組進行多次實驗得到平均值。由于統(tǒng)計上的偏差,之前的評估標準無法完成不同算法的統(tǒng)一比較,TFA 修改了原先的數(shù)據(jù)基準,在VOC[25]、COCO[26]和LVIS[27]三個數(shù)據(jù)集上建立了新的基準,檢測基類、新類和全部數(shù)據(jù)集上的性能表現(xiàn),提出了廣義小樣本目標檢測基準。

2.2 基于元學習的范式

圖5 元學習基線方法FSRW 算法架構圖Fig.5 Model architecture diagram of meta-learning baseline method FSRW

FSRW[28]整個網(wǎng)絡模型是基于一階段網(wǎng)絡YOLOv2[9]進行改進的,在一階段網(wǎng)絡中新增了元特征學習器和元學習器模塊,元特征學習器以查詢圖像為輸入,使用YOLOv2 的骨干實現(xiàn),從有充足樣本的基類圖像中提取具有泛化性的元特征,用于之后檢測新類。元學習器模塊以支持集為輸入,將新類的某一類別實例轉換為一個全局向量,該向量用來檢測特定類別的對象實例。網(wǎng)絡的訓練過程同樣分兩階段完成,首先使用基類數(shù)據(jù)訓練連同元學習器模塊在內(nèi)的整個網(wǎng)絡模型,然后由少量標注的新類和基類組成的平衡數(shù)據(jù)集微調模型以適應新類。

2.3 兩種范式的對比分析

(1)遷移學習和元學習的相同點:

①兩種范式都是為了解決小樣本目標檢測任務而提出的,都希望通過少量的新類圖像就可以完成對新類別的檢測。

②兩種范式的數(shù)據(jù)集都分為有大量標注的基類數(shù)據(jù)和只有少量標注的新類數(shù)據(jù)。

③兩種范式的訓練過程都分為兩階段進行,分別是基訓練階段和微調階段,算法模型在基訓練階段學習到基類數(shù)據(jù)具有泛化性的知識,然后在新類數(shù)據(jù)上對模型進行微調,達到檢測新類的目的。

④兩種范式的評價指標相同,不論是VOC 數(shù)據(jù)集、COCO 數(shù)據(jù)集,還是FSOD 數(shù)據(jù)集[29],兩種范式的評價指標都是相同的。

(2)遷移學習和元學習的不同點:

①數(shù)據(jù)的輸入方式不同,元學習范式是以任務(episode)為輸入單元,每個任務由支持集圖像和查詢集圖像組成,目的是找到查詢集圖像中屬于支持集類別的目標對象,而遷移學習范式通常不需要分為支持集和查詢集兩部分。

②元學習范式隨著支持集中類別數(shù)量的增加,內(nèi)存利用率會降低,而遷移學習范式不會隨著類別數(shù)量的增加而使內(nèi)存利用率降低。

③元學習范式除了通用目標檢測模型外,還有一個需要獲得類別級元知識的元學習器,而遷移學習范式只需要在通用目標檢測模型上改進即可。

3 小樣本目標檢測算法研究現(xiàn)狀

上一章中,將小樣本目標檢測分為基于元學習和基于遷移學習兩種范式,在這兩種范式中,存在著一些共性的解決方法,依據(jù)這些方法改進策略的不同,將小樣本目標檢測分類為基于注意力機制、基于圖卷積神經(jīng)網(wǎng)絡、基于度量學習和基于數(shù)據(jù)增強四種實現(xiàn)方式,分類概況如圖6 所示。在本章中,將對這些分類方法進行詳細分析和總結。

圖6 分類圖Fig.6 Classification graph

3.1 基于注意力機制

對于小樣本目標檢測來說,難以從少量的新類樣本中準確學習到感興趣對象的特征信息,而通過注意力機制可以較為準確地找到圖像中的感興趣區(qū)域,目前已有一些關于注意力機制的研究[30],注意力機制可以看作一個動態(tài)選擇的過程,通過輸入的重要性對特征進行自適應特征加權。本節(jié)將其分為通道注意力、空間注意力和Transformer自注意力方法。

3.1.1 通道注意力

2018 年Hu 等[31]首次提出了使用SENet 的通道注意力,如圖7 所示,不同特征圖的不同通道可能代表著不同的對象,當需要選擇什么對象時,通道注意力使用自適應的方法重新校準每個通道的權重來關注該對象。

圖7 SE 模塊Fig.7 SE block

在遷移學習范式上,Zhang 等[32]使用二階池化和冪正則化計算支持特征和查詢特征之間的互相關性,二階池化提取支持特征數(shù)據(jù)的二階統(tǒng)計,形成注意力調制圖,通過添加冪正則化可以減少二階池化帶來的可變性。Wu 等[33]提出了FSOD-UP(universalprototype augmentation for few-shot object detection)方法,使用了通用原型的知識,在條件性通用原型和候選框上施加通道注意力機制,提高了候選框的生成質量,以此提高方法對新類的檢測性能。

在元學習范式上,Yan 等[34]針對一張圖像有多個目標的問題提出了Meta R-CNN 方法,該方法不是對整張圖像而是在感興趣區(qū)域上使用元學習范式。Meta R-CNN 新增加了預測頭重塑網(wǎng)絡分支,該分支用有標注的支持圖像獲取每個類別的注意向量,對模型生成的感興趣區(qū)域特征應用該向量進行通道注意力關注,以檢測出查詢圖像中與這些向量表示的類別相同的對象。Wu 等[35]在Meta-RCNN 中將由支持集得到的類原型與查詢集的特征圖通過類別注意力結合起來,獲得每個特定類的特征圖,然后將這些特征圖結合起來使用隨后的區(qū)域候選網(wǎng)絡和檢測頭對查詢集進行分類和定位。Fan 等[29]在提出的Attention-RPN 方法前期階段使用深度互相關注意力區(qū)域候選網(wǎng)絡,通過通道注意力機制利用支持集和查詢集之間的關系提高候選框的生成質量。Liu 等[36]認為檢測中分類和定位子任務對特征嵌入的喜好不同,提出了AFD-Net(adaptive fully-dual network)方法,分開處理分類和定位問題,對支持集分支使用注意力機制產(chǎn)生分類和回歸兩個通道注意力分支,之后將這兩個分支與查詢集的感興趣區(qū)域的分類和定位特征進行聚合處理,最終得到增強的特征表示。

3.1.2 空間注意力

當人們看到一張圖像時,他們總是會將視線聚焦于圖像中的某一區(qū)域,空間注意力受此啟發(fā),對特征圖上的每個位置進行注意力調整,可以自適應地關注圖像中的某重點區(qū)域,這些重點區(qū)域往往是人們所感興趣的對象。

Chen 等[37]基于遷移學習范式提出了AttFDNet 方法,將自底向上的空間注意力和自頂向下的通道注意力結合起來,自底向上注意力由顯著性注意(saliency attentive model,SAM)模塊實現(xiàn),由于其類別無關性,能夠自然檢測圖像中的顯著區(qū)域。Yang等[38]為解決訓練集數(shù)據(jù)多樣性少的問題,提出了CTNet方法,使用親和矩陣在不同尺度、位置和空間關系三方面識別每個候選框上下文字段的重要性,再用上下文聚合將這些關系與候選框聚合起來,利于新類別分類的同時,避免了大量的誤分類。Li 等[39]提出了LSCN(low-shot classification correction network)方法,用從基類檢測器中得到的誤檢候選框作為方法校正網(wǎng)絡分支的輸入,使用空間注意力機制通過跨通道的任意兩個位置間的成對關系獲得全局感受野,通過捕捉整張圖像的信息,解決候選框復雜的對象外觀問題。Xu 等[40]在FSSP(few-shot object detection via sample processing)方法中使用了自我注意力模塊(self-attention module,SAM),該空間注意力模塊可以突出顯示目標對象的物理特征而忽略其他的噪聲信息,更好地提取復雜樣本的特征信息。Agarwal 等[41]提出了AGCM(attention guided cosine margin)方法解決小樣本下的災難性遺忘和類別混淆問題,構建了注意力候選框融合模塊,通過空間注意力關注不同候選框之間的相似性,用于減少類內(nèi)的方差,從而在檢測器的分類頭中創(chuàng)建類內(nèi)更加緊密、類間良好分離的特征簇。

基于元學習范式,Chen 等[42]為解決小樣本任務中的空間錯位和特征表示模糊問題,提出了包含跨圖像空間注意的DAnA(dual-awareness attention)方法,通過跨圖像空間注意自適應地將支持圖像轉化為查詢位置感知向量,通過測量該感知向量和查詢區(qū)域的相關性,確定查詢區(qū)域是否為想要的目標對象。Meta Faster R-CNN[43]將檢測頭分為基類檢測和新類檢測兩種,基類檢測沿用原有的Faster R-CNN部分,新類檢測頭提出了Meta-Classifier模塊,使用注意力機制進行特征對齊,解決空間錯位問題,在查詢圖像的候選框特征和支持集類原型的每個空間位置通過親和矩陣計算對應關系,基于對應關系,獲得想要的前景對象。Quan 等[44]認為在支持集中使用互相關技術會給查詢特征引入噪聲,提出了CAReD(cross attention redistribution)方法,專注挖掘有助于候選框生成的支持特征,去除有害的支持噪聲。不再對支持集特征作平均處理,而是通過空間注意力計算同一類別不同實例之間的相關性,對每個支持特征重加權,從而得到最終的支持特征。彭豪等[45]在由多尺度空間金字塔池算法生成的不同層次上產(chǎn)生注意力圖,強化了特定尺度物體的線索,可以提高小目標的檢測能力。Zhang 等[46]提出了KFSOD(kernelized few-shot object detector)方法,針對PNSD(power normalizing second-order detector)中核化仍然是線性相關的問題,使用核化自相關單元從支持圖像中提取特征形成線性、多項式和RBF(radial basis function)核化表示。然后將這些特征表示與查詢圖像的特征進行交叉相關以獲得注意力權重,并通過注意力區(qū)域提議網(wǎng)絡生成查詢提議區(qū)域。

3.1.3 Transformer自注意力機制

Transformer 注意力機制在自然語言處理已經(jīng)取得了巨大成功[47]。DETR 成功地將其應用到目標檢測領域,將檢測問題看作集合預測問題。其中的核心內(nèi)容是多頭注意力機制,其將模型分為多個頭,形成多個特征子空間,可以讓模型關注圖像不同方面的信息,通過圖像的內(nèi)在關系來獲取圖像中重要的信息,如圖8 所示。

圖8 多頭注意力模塊Fig.8 Multi-head attention block

Transformer自注意力機制全部遵從元學習的范式,Zhang 等[48]借鑒DETR 的思想,提出了Meta-DETR 方法,去除了在小樣本中表現(xiàn)不佳的候選框預測,改為直接的端到端檢測。Meta-DETR 由查詢編碼分支、支持編碼分支和解碼分支三部分組成。查詢編碼分支以查詢圖像為輸入,通過特征提取器和Transformer編碼器生成其查詢特征,支持編碼分支從支持圖像中提取支持類原型,解碼分支將帶有支持類原型的查詢特征聚合為特定類的特征,然后應用與類別無關的Transformer 解碼器預測該支持類的檢測結果。Hu 等[49]提出了DCNet 方法,提出稠密關系蒸餾解決外觀改變和遮擋問題,稠密關系蒸餾模塊通過編碼器將支持集和查詢集提取出的特征信息編碼成原生Transformer 中的Key-Value 特征圖對,使用改進的Transformer 注意力機制關注查詢集和支持集之間的像素級關系,用以增強查詢集的特征表示。APSPNet(attending to per-sample-prototype networks)[50]在經(jīng)典的元學習方法Attention-RPN 和FsDetView(few-shot object detection and viewpoint estimation)基礎上,新增了兩個使用Transformer技術的注意力模塊,一個是支持集數(shù)據(jù)內(nèi)部注意(intra-support attention module,ISAM),另一個是查詢-支持集間注意(query-support attention module,QSAM),ISAM 在同一個類的支持集內(nèi)使用注意力機制,去除可能是噪聲的信息,QSAM 通過支持集的每個樣本原型聚合查詢特征和支持特征,達到了遠超基線方法的性能。Han 等[51]認為之前在查詢和支持分支上進行特征對齊的方法過于簡單,提出了FCT(fully cross-transformer)方法,在特征提取器部分使用了多層Cross-Transformer 進行兩分支的特征對齊,并提出了非對稱分批交叉注意用來聚合兩分支的關鍵信息,用聚合到的關鍵信息對兩分支特征進行增強。在檢測頭上,提出基于Cross-Transformer 的感興趣區(qū)特征提取器,兩分支聯(lián)合提取查詢建議框和支持圖像感興趣區(qū),進行多級交互處理。

綜上所述,基于注意力機制的方法在小樣本目標檢測中應用廣泛,注意力機制可以找到圖像中的感興趣區(qū)域,抑制其他的無用噪聲信息。最近隨著Transformer 自注意力的提出,其在小樣本目標檢測中取得了遠超其他注意力的性能表現(xiàn),目前已有關于這方面的研究[52],基于Transformer 自注意力機制的小樣本目標檢測有著極大的前景,將會得到進一步的發(fā)展。但是,Transformer 的模型訓練需要花費較長的時間,且模型參數(shù)過大,不利于工程部署,未來的研究方向可以向著輕量化發(fā)展。

3.2 基于圖卷積神經(jīng)網(wǎng)絡

小樣本條件下的新類樣本數(shù)量少,可以通過深入挖掘不同類別之間的內(nèi)在關系來實現(xiàn)對新類的檢測,卷積神經(jīng)網(wǎng)絡存在平移不變性,即一張圖像可以共享卷積算子的參數(shù),圖結構則沒有這種平移不變性,每一個圖節(jié)點的周圍結構都可能是不同的,因此,圖可以處理實體之間的復雜關系。圖由節(jié)點和邊組成,每個節(jié)點都有自己的特征,節(jié)點與節(jié)點之間通過邊進行關聯(lián),圖卷積就是利用節(jié)點間的邊關系對節(jié)點信息進行推理更新,從而增強節(jié)點的特征表示。

Kim 等[53]認為圖像中各種物體的存在有所關聯(lián),比如一張圖像中某個對象周圍有鍵盤和顯示器,那它更可能是鼠標而不是球,基于此提出了基于遷移學習范式的FSOD-SR(spatial reasoning for few-shot object detection)方法,通過圖卷積技術考慮圖像中對象間的全局上下文關系,而不僅是通過單個感興趣區(qū)域特征預測新類,將感興趣區(qū)域特征作為圖節(jié)點,邊的構成由感興趣區(qū)域特征表示的視覺信息和幾何坐標信息兩者結合得到,如圖9 所示。Zhu 等[54]提出SRR-FSD(semantic relation reasoning for few-shot object detection)方法,利用基類與新類之間存在的恒定語義關系,由所有的詞嵌入特征組成嵌入語義空間,應用圖卷積進行顯式關系推理,將從大量文本中學習到的語義信息嵌入到每個類概念中,并與分類的視覺特征進行結合。

圖9 FSOD-SR 架構圖Fig.9 FSOD-SR architecture diagram

在元學習范式上,Kim等[55]提出了FSOD-KT(fewshot object detection via knowledge transfer)方法,其支持集分支使用圖卷積技術對查詢圖像感興趣區(qū)的特征向量進行特征增強。圖的頂點為每個類的原型,圖的邊關系使用類別之間的文本相似性度量(由GloVe[56]計算),通過圖卷積神經(jīng)網(wǎng)絡使這些類原型間產(chǎn)生關聯(lián),然后通過增強后的原型對查詢圖像的感興趣區(qū)域特征進行度量,檢測出與該原型一致的類別。Liu等[57]提出了基于Meta R-CNN的DRL-for-FSOD(dynamic relevance learning for few-shot object detection)方法,考慮到不同類之間存在著聯(lián)系,將支持集圖像和查詢集的感興趣區(qū)域特征放入同一個特征空間,使用皮爾遜相關系數(shù)去度量支持集類別和查詢集感興趣區(qū)域間的相似性作為圖的關系,構造了一個動態(tài)圖卷積網(wǎng)絡,對其進行推理,使得相同類彼此靠近,不同類之間遠離,減少了誤分類的情況。Han等[58]基于異構圖卷積網(wǎng)絡提出了QA-FewDet(query adaptive few-shot object detection)方法,存在類間和類內(nèi)兩種子圖,前者推理新類和基類的類間的關系,后者推理不同新類的候選框之間的關系以及新類節(jié)點與候選框之間的關系。使用類間子圖增強新類原型表示,類內(nèi)子圖提供查詢自適應類原型和上下文感知原型特征。

綜上所述,基于圖卷積神經(jīng)網(wǎng)絡的小樣本目標檢測方法大多選擇將候選框作為圖的節(jié)點,通過圖卷積來自動推理不同候選框之間的關系,以此學習到新類同基類間的內(nèi)在聯(lián)系,達到對新類對象的檢測。但是當圖節(jié)點過多時,節(jié)點之間的邊關系也會變得異常復雜,可能會面臨模型過擬合的問題。同時,新類的樣本量較少也可能導致模型在新類檢測上產(chǎn)生過擬合現(xiàn)象。

3.3 基于度量學習

通過度量基類和小樣本的新類之間的相似性,使得不同類別彼此遠離,相同類別之間靠近,可以很好地區(qū)分出新類數(shù)據(jù)。度量學習又可分為改進度量損失函數(shù)、原型學習和對比學習。度量損失函數(shù)在不同類別之間設計距離公式;原型學習為每個類別生成線性分類器,衡量類別與原型之間的距離;對比學習是將目標圖像與某幾個圖像對比進行檢測。

3.3.1 改進度量損失函數(shù)

在遷移學習范式上,Cao 等[59]提出了FADI(fewshot object detection via association and discrimination)方法,將遷移學習的微調階段分為關聯(lián)、鑒別兩步,關聯(lián)加強類內(nèi)相關性,鑒別擴大類間差異。在關聯(lián)中,使用偽標簽顯式地將新類轉變?yōu)樽钕嗨频幕愄卣鞅硎?,新類的特征會相對聚集,但可能會與基類特征空間混淆,為了擴大不同類間的距離,在分類分支引入了專門的邊際損失,擴大了所有類別的差異性。Wu 等[60]提出了SVD(singular value decomposition)的方法,新引入了對象注意損失和背景注意損失兩個損失函數(shù),用于更好地分類正負錨框,將屬于同一類的正錨框聚集起來,將背景和負錨框兩者盡可能地區(qū)分開。

在元學習范式上,Karlinsky 等[61]在RepMet(representative-based metric learning)方法中提出一個距離度量學習(distance metric learning,DML)模塊,代替了Faster R-CNN 中的檢測頭,假定特征嵌入空間中每個類有K個模型,DML 計算感興趣區(qū)域在每個類別中每個模型的概率,新增加了嵌入損失函數(shù),減小嵌入向量E和最接近表征的距離,擴大嵌入向量E和一個錯誤類的最接近表征的距離。Li 等[62]為了減輕新類的特征表示和分類之間存在的矛盾,提出了CME(class margin equilibrium)方法。為了準確實現(xiàn)新類的類別分類,任意兩個基類應該彼此遠離,為了準確表示新類特征,基類的分布應該彼此接近。CME 首先通過解耦定位分支將檢測轉換為分類問題,在特征學習過程中,通過類邊際損失為新類保留充足的邊界距離,在追求類邊界平衡中保證新類的檢測性能。Zhang 等[63]提出了PNPDet(plug-and-play detector)方法,將基類和新類檢測分開,防止在學習新概念的時候影響基類的檢測性能,以CenterNet[64]為基礎架構,新增了一個用于新類別檢測的熱圖預測并行分支,將最后一層熱圖子網(wǎng)絡替換為余弦相似對比頭和自適應余弦相似對比頭,將距離度量學習的損失函數(shù)引入類別預測中,極大提升了新類的檢測性能。彭豪等[45]在隱藏層的特征空間上應用正交損失函數(shù),使得模型在分類過程中保持不同類別彼此分離,相同類別彼此聚合。

3.3.2 對比學習

對比學習是將目標圖像與某幾個圖像進行對比檢測,在最小化類內(nèi)距離的同時最大化類間距離,提高相同或相似類之間的緊湊性和加大不同類之間的差異性,可以有效提高邊界框的分類精度。

在遷移學習范式上,Sun 等[65]在原有分類和定位分支外,新增加一個對比分支,通過對比候選框編碼損失函數(shù),利用余弦相似性函數(shù)度量感興趣區(qū)域特征和特定類權重的語義相似性。

在元學習范式上,F(xiàn)an 等[29]在Attention-RPN 方法中采用了三元組對比訓練策略,即一張支持集圖像與查詢集相同類別的一個正例和不同類別的一個負例組成一個三元組。Quan 等[44]在分類對比學習InfoNCE[66]的啟發(fā)下,將無監(jiān)督的對比學習轉換為有監(jiān)督的對比學習,對支持和查詢兩分支的最終特征施加對比學習策略。

3.3.3 原型學習

基于遷移學習范式,Qiao 等[67]提出了一個解耦的Faster R-CNN 方法DeFRCN(decoupled faster R-CNN),通過在分類分支中使用原型校準模塊解決多任務的耦合。使用一個離線的原型與感興趣區(qū)特征計算相似度,然后用得到的相似度微調模型進行類別預測,可以分類出與原型相似的感興趣區(qū)域特征。Wu 等[33]提出了通用原型的方法FSOD-UP,通用原型是在所有的對象類別中學習的,而不是某一個特定類。不同類別間存在著內(nèi)在不變的特征,可以利用這點來增強新類對象特征。

基于元學習范式,Li等[68]提出了基于元學習和度量學習的MM-FSOD(meta and metric integrated fewshot object detection)方法,將元學習訓練方法從分類轉移到特征重構。新的元表示方法對類內(nèi)平均原型進行分類,區(qū)分不同類別的聚類中心,然后重建低級特征。Han 等[43]針對候選框生成提出了Meta Faster R-CNN 方法,采用基于輕量化度量學習的原型匹配網(wǎng)絡。Meta Faster R-CNN 中Meta-RPN 是一個錨框級輕量化粗粒度原型匹配網(wǎng)絡,Meta-Classifier 是一個像素級細粒度原型匹配網(wǎng)絡,整個檢測網(wǎng)絡是從粗粒度到細粒度優(yōu)化的過程,用來產(chǎn)生特定新類的候選框??紤]到FSRW[28]方法只是簡單地平均支持樣本信息生成每個類別的原型,這樣的做法泛化性較差,APSPNet[50]將每個支持樣本看作一個原型,稱之為逐樣本原型,這樣可以更好地將不同的支持信息與查詢圖像結合。

綜上所述,度量學習主要通過令相同類別之間彼此靠近、不同類別之間彼此遠離來完成。其思路簡單好用,被大量應用到小樣本目標檢測中,但度量學習過于依賴于采樣的策略,如果采集的樣本過于復雜,可能會發(fā)生不收斂、過擬合的問題;如果采集的樣本過于簡單,又可能不會學習對類別檢測有用的信息。

3.4 基于數(shù)據(jù)增強

小樣本的核心問題是其數(shù)據(jù)量少,最簡單直接的想法就是擴充數(shù)據(jù)樣本。郭永坤等[69]就圖像在空頻域上的圖像增強方法作了研究綜述,數(shù)據(jù)增強技術可以通過直接增加訓練的圖像數(shù)量或者間接對特征進行增強,使得網(wǎng)絡的輸入信息增加,從而最大程度地增加模型能夠處理的圖像信息,減少模型的過擬合。

3.4.1 多特征融合

在遷移學習范式上,Zhang 等[32]提出了PNSD 方法,使用多特征融合得到細節(jié)更豐富的特征圖,多特征融合采用雙線性插值上采樣和1×1 卷積下采樣將所有特征映射到相同的尺度,將尺度信息顯式混合到特征圖中。另外,通過注意力候選區(qū)網(wǎng)絡生成候選框,經(jīng)過相似網(wǎng)絡的全局、局部和塊狀關系頭三種關系進行分類和定位。Vu 等[70]對通過主干網(wǎng)絡得到的特征圖使用了多感受野的嬰兒學習,使用多感受野可以得到該對象的更多空間信息,通過微調多感受野模塊有效地將先驗空間知識轉移到新域。

基于元學習范式,Xiao 等[71]提出FsDetView 方法,將查詢圖像的候選框和支持集特征進行三種方式特征融合,三種融合方式分別是通道連接、簡單相減和查詢特征自身,這樣可以更好地利用特征之間的內(nèi)在關系。Fan 等[29]在提出的Attention-RPN 方法中使用了多關系檢測器,通過支持集的候選框和查詢集感興趣區(qū)域特征進行全局、局部和塊狀的關系結合,避免了背景中的錯檢。Hu 等[49]認為當對象發(fā)生遮擋時,局部的細節(jié)信息往往起絕對性作用,提出了DCNet 方法,在感興趣區(qū)域上使用三種不同的池化層捕捉上下文信息要遠好于單一池化的效果。彭豪等[45]對感興趣區(qū)域分別施加最大池化和平均池化技術,進行多種特征融合,可以提升模型對新類參數(shù)的敏感度。

3.4.2 增加樣本數(shù)量的方法

在遷移學習范式上,Wu 等[72]為解決小樣本中的尺度問題,提出了MPSR(multi-scale positive sample refinement)方法,將對象金字塔作為一個輔助分支加入到主體的Faster R-CNN 和特征金字塔網(wǎng)絡(feature pyramid networks,F(xiàn)PN),手動地將處理過的不同尺度對象方形框與FPN 的不同級別進行對應,使模型捕捉到不同尺度的對象。為解決訓練數(shù)據(jù)變化的缺乏,Zhang 等[73]在感興趣區(qū)域特征空間上通過幻覺網(wǎng)絡(hallucination)產(chǎn)生額外的訓練樣本,將從基類中學習到的類內(nèi)樣本變化轉移到新類上。Kim 等[53]為了不破壞圖像中的空間關系,選擇在圖像中隨機調整每個對象的尺寸若干次,這樣既增加了感興趣區(qū)域的數(shù)量,又適應了不同大小的對象尺度。Sun等[65]認為具有不同交并比(intersection over union,IoU)分數(shù)的候選框類似于類內(nèi)數(shù)據(jù)增強,在TFA 的基礎上提出了更優(yōu)的FSCE(few-shot object detection via contrastive proposals encoding)方法,即在微調階段,將NMS(non maximum suppression)處理后的候選框的最大數(shù)量翻倍和將感興趣區(qū)域特征中用于損失計算的候選框數(shù)量減半。Xu 等[40]認為圖像金字塔技術在增加正樣本數(shù)量的同時也引入了大量的負樣本,沒有充分發(fā)揮正樣本數(shù)量增強的優(yōu)勢,提出了正樣本增強技術,包括背景稀疏化、多尺度復制和隨機裁剪技術,通過去除一些負樣本實例,大大減少了負樣本的占比。Kaul 等[74]提出了Pseudo-Labelling 方法,采用偽標記的方法增加新類別的樣本數(shù)量,首先在訓練集上產(chǎn)生新類的偽標記,通過自監(jiān)督訓練的驗證刪除標簽不正確的大量邊界框,之后由類似Cascade R-CNN[75]的逐步優(yōu)化方法糾正質量差的邊界框,大大減少類別不平衡性。Guirguis 等[76]利用連續(xù)學習中的重放方法存儲以前的任務中的基類樣本,以便在學習新任務時進行重放,實現(xiàn)基類和新類之間的知識轉移。提出了一個新的梯度更新規(guī)則,將基類的梯度添加到新類梯度更新中,它還會自適應地重新加權它們,以防新梯度指向可能導致遺忘的方向。作為一個即插即用的模塊,可以很方便地與任意FSOD模型結合。多尺度正樣本特征提取如圖10所示。

圖10 多尺度正樣本特征提取Fig.10 Multi-scale positive sample feature extraction

在元學習范式上,Yang 等[77]以RepMet 為基礎,提出了NP-RepMet 方法,將其他方法丟棄的負樣本納入模型訓練中,可以得到更加魯棒的嵌入空間。Li等[22]除了使用簡單的數(shù)據(jù)增強技術外,還將變換不變性(transformation invariant principle,TIP)引入到小樣本檢測中。具體地,在查詢分支上,用從查詢變換圖像中得到的候選框檢測原始查詢圖像對象邊界框,在支持分支上,在原始支持圖像和支持變換圖像間施加一致性損失,最后對兩分支結果做聚合處理。Zhang 等[78]認為不應該對支持樣本只進行簡單的平均操作,提出了SQMG(support-query mutual guidance)方法。在基訓練階段,支持引導的查詢增強通過核生成器對查詢特征進行增強,通過支持查詢相互引導模塊生成更多與支持相關的候選框。另外,候選框和聚合支持特征之間進行多種特征比較,得到更高質量的候選框。

3.4.3 增加候選框數(shù)量的方法

基于遷移學習范式,Zhang 等[79]提出了同時使用多個區(qū)域候選網(wǎng)絡結構的CoRPNs 方法,用以解決因為樣本少而產(chǎn)生較少的候選框的問題,如果某一個區(qū)域候選網(wǎng)絡遺漏了具有高IoU 值的候選框,那么其他的區(qū)域候選網(wǎng)絡能夠檢出該候選框。在模型訓練時,只有最確定的那個區(qū)域候選網(wǎng)絡模塊才能獲得梯度,在測試時,也只從最確定的那個區(qū)域候選網(wǎng)絡中獲取候選框。

為了解決模型不遺忘的問題,F(xiàn)an 等[80]提出了基于元學習范式的Retentive R-CNN 模型,新增了Bias-Balanced RPN 和Re-Detector 模塊。區(qū)域候選網(wǎng)絡不是完全的類無關的,而更偏向于可見類別的檢測,因此,基類檢測器不能很好檢測出新類,產(chǎn)生了很多誤報。在Bias-Balanced RPN 中引入了新的分支,同時檢測新類和基類對象,原有的檢測頭只用來檢測基類。在Re-Detector 中,原有分支只檢測基類,新分支同時檢測基類和新類,在兩個分支基類檢測上施加一致性損失可以更好地完成檢測。

綜上所述,可以直接或間接的多種方式完成對新類別數(shù)據(jù)樣本的擴充,增加新類別樣本數(shù)據(jù)的方法是最直接有效的解決類別樣本數(shù)量不足的方法,同時也能帶來更加豐富的樣本特征,減少模型過擬合的產(chǎn)生,但如果使用了過多的數(shù)據(jù)增強策略,可能會在增加樣本信息的同時,引入一些無關的噪聲信息。

4 算法數(shù)據(jù)集、評估指標和性能分析

小樣本目標檢測方法中常用的公開數(shù)據(jù)集有Pascal VOC[25]、MS-COCO[26]和FSOD[29]數(shù)據(jù)集,在個別方法中使用到的其他數(shù)據(jù)集有LVIS[27]、iNatureList[81]、ImageNet-Loc[82]等。數(shù)據(jù)集的概況如表1 所示。

表1 小樣本目標檢測常用數(shù)據(jù)集及其劃分方式Table 1 Typical datasets for few-shot object detection and their divisions

4.1 小樣本目標檢測公開數(shù)據(jù)集介紹

4.1.1 Pascal VOC 數(shù)據(jù)集

小樣本目標檢測實驗使用的Pascal VOC 數(shù)據(jù)集由Pascal VOC2007[25]和Pascal VOC2012[83]共同組成,整個VOC 數(shù)據(jù)集一共有21 503 張圖像,其中,VOC07有9 963 張圖像,VOC12 有11 540 張圖像。VOC07 和VOC12 的train 和val 集合數(shù)據(jù)用模型訓練,VOC07的test 集合數(shù)據(jù)用于模型測試。VOC 數(shù)據(jù)集一共有20 個類別,隨機選擇其中的5 類作為新類,剩余的15類作為基類,為了盡量減少由隨機性帶來的影響,分成多組不同的數(shù)據(jù)進行訓練,常見的做法是分為3 組進行,即分組1、分組2 和分組3,每個分組中新類的類別均不同,關于3 組劃分的具體細節(jié)如下:分組1的新類類別為鳥類、公交車、牛、摩托車和沙發(fā);分組2 的新類類別為飛機、瓶子、牛、馬和沙發(fā);分組3 的新類類別為船、貓、自行車、羊和沙發(fā)。分組中每個新類的對象都應當有K個標注邊界框,VOC 數(shù)據(jù)集中K的取值常為1、2、3、5、10。由于新類的樣本數(shù)量非常少,其選擇會非常影響模型的性能表現(xiàn),采用多次實驗來消除隨機性的影響,TFA 提出通過30 次重復實驗并取平均值得到公平的實驗結果,之后的一些論文提出只進行10 次實驗也可以公平比較實驗結果。

4.1.2 Microsoft COCO 數(shù)據(jù)集

COCO2014[26]數(shù)據(jù)集相比VOC 數(shù)據(jù)集有更多的類別和更多的圖像,包含123 287 張圖像,其中,訓練集有82 783張圖像,驗證集有40 504張圖像。從COCO數(shù)據(jù)集的train 和val 集合中選取5 000 張圖像用作測試數(shù)據(jù)集,其余的圖像用于訓練階段。選取COCO數(shù)據(jù)集中與VOC 重疊的20 個類別作為新類,剩余的60 類作為基類數(shù)據(jù),同時K的取值通常為10、30,即一個類別選擇10 個或者30 個目標樣本用來訓練。

4.1.3 FSOD 數(shù)據(jù)集

FSOD 數(shù)據(jù)集[29]是專門針對小樣本目標檢測而設計的數(shù)據(jù)集,對于小樣本目標檢測任務來說,類別數(shù)量越多檢測效果越好。FSOD 數(shù)據(jù)集的類別數(shù)很多,總共有1 000 類,每個類別的標注數(shù)量較少,超過90%類別的圖像數(shù)量在22~108 張之間,即使最常見的類別也沒有超過208 張圖像,總的圖像數(shù)量也并不多。FSOD 數(shù)據(jù)集包含大約66 000 張圖像和182 000個邊界框,其中訓練集800 類,測試集200 類,有531類來自ImageNet 數(shù)據(jù)集,有469 類來自OpenImage 數(shù)據(jù)集。此外,F(xiàn)SOD 數(shù)據(jù)集還合并了有相同語義的類別,移除了標注質量差的數(shù)據(jù)。

4.1.4 其他數(shù)據(jù)集

ImageNet-Loc數(shù)據(jù)集[82]在RepMet[61]和Meta-RCNN[35]中使用,固定地使用500 個隨機的任務,每個類別的邊界框的數(shù)量取不同的1、5 和10。

iNatureList 數(shù)據(jù)集[81]是一個長尾分布的物種數(shù)據(jù)集,包含2 854 個類別,可以檢測在所有類上的AP指標(具體有AP、AP50 和AP75)和AR 指標(AR1 和AR10)。

LVIS 數(shù)據(jù)集[27]在TFA 中有被使用,其有著天然的長尾分布,整個數(shù)據(jù)集的類別分布為類別圖像數(shù)量小于10 個的稀有類、圖像數(shù)量為10~100 的普通類和圖像數(shù)量大于100 的頻繁類。將頻繁類和普通類看作基類,稀有類看作新類進行訓練。在模型的微調階段,手動創(chuàng)建一個平衡的數(shù)據(jù)子集,其中每個類別擁有10 個實例。

Zhu 等[54]提出了一個更加現(xiàn)實的FSOD 數(shù)據(jù)集基準,即刪除預訓練分類模型中有關的新類圖像的隱式樣本(implicit shot)。在CoRPNs[79]中,也提到了移除預訓練數(shù)據(jù)集中有關的基類和新類數(shù)據(jù),包含275類,超過30 萬張圖像。Huang 等[84]指出,這樣的做法可能會使預訓練模型得不到最優(yōu)解。因此,只刪除對應VOC 數(shù)據(jù)集中新類的數(shù)據(jù)即可,對于COCO 數(shù)據(jù)集,它的新類類別是很常見的,應該按照長尾分布,選取樣本量少的作為新類。

4.2 評估指標

通用目標檢測方法常用的評估指標有平均準確率(average precision,AP)[85]和平均召回率(average recall,AR)。

AP 表示檢測所得正樣本數(shù)占所有檢測樣本的比例,其表達式為:

式中,TP表示被正確檢測為正例的實例數(shù),F(xiàn)P表示被錯誤檢測為正例的實例數(shù)。AP 表示類別的平均檢測精度,mAP(mean average precision)是平均AP值,是多個目標類別的檢測精度,即將每個類別的AP值取平均得到mAP 值。

AR 表示檢測所得正樣本數(shù)占所有正樣本的比例,其表達式為:

式中,TP表示被正確檢測為正例的實例數(shù),F(xiàn)P表示被錯誤檢測為負例的實例數(shù)。

小樣本目標檢測的評估指標和通用目標檢測有一些細微的差別,VOC 數(shù)據(jù)集根據(jù)所選新類類別的不同分為3 組實驗,在每組中,新類樣本數(shù)量K的取值均為1、2、3、5 和10。一般地,只需檢測新類類別的AP 值(novel AP,nAP)即可,一些算法也會關注模型體現(xiàn)在基類上的不遺忘特性,測試所得模型在基類的性能,指標為bAP(base AP),這里所提到的AP 值都是在交并比值為0.5 的mAP 值。

在COCO 數(shù)據(jù)集中,新類樣本數(shù)量K的取值為10 和30,模型會檢測在新類數(shù)據(jù)集上的不同IoU 閾值、不同對象尺度的AP 值以及不同的AR 值。采用COCO 風格的評價指標,具體指標項有mAP、AP50、AP75、APs、APm 和APl。這里的mAP 指的是在10 個IoU 閾值(0.50:0.05:0.95)的指標,AP50、AP75 則是只計算單個IoU 閾值(0.50 和0.75)的指標。APs、APm 和APl 表示在不同的標注邊界框面積的指標,APs 是面積小于32 像素×32 像素,APm 是面積在32像素×32 像素到96 像素×96 像素之間,APl 是面積大于96 像素×96 像素。AR 有AR1、AR10 和AR100(AR1 是指每張圖片中,在給定1 個檢測結果中的指標,其他同理)。

由于隨機性的影響,以上檢測值都會通過多次實驗取平均值當作最后的結果。一般地,VOC 的重復實驗次數(shù)為10 次或者30 次,COCO 數(shù)據(jù)集的重復次數(shù)為10 次。另外,F(xiàn)SOD 數(shù)據(jù)集中K的取值常為1、5,具體指標項為AP50 和AP75。

跨數(shù)據(jù)集問題:從COCO 到VOC,使用VOC 和COCO 重合的20 個類別作為新類,使用COCO 中剩余的60 類作為基類數(shù)據(jù),K的取值為10,具體評估指標項為mAP。

4.3 算法性能分析

表2 根據(jù)不同的改進策略,對現(xiàn)有方法分類的機制、優(yōu)勢、局限性和適用場景這四方面進行了詳細比較。本節(jié)使用在4.2 節(jié)中提到的數(shù)據(jù)評估策略在VOC、COCO 和FSOD 數(shù)據(jù)集上對各個方法進行性能評估,而像iNaturaList、ImageNet-LOC 等數(shù)據(jù)集由于被使用次數(shù)較少,說服力差,不具有可比性,故不做性能對比分析,具體結果可見表3~表7,表中加粗為最優(yōu)性能結果,下劃線為次優(yōu)性能結果。

表2 小樣本目標檢測方法優(yōu)缺點對比Table 2 Comparison of advantages and disadvantages of few-shot object detection methods

表3 遷移學習方法在VOC 數(shù)據(jù)集上的mAP 對比Table 3 mAP comparison of transfer learning methods on VOC dataset 單位:%

表4 元學習方法在VOC 數(shù)據(jù)集上的mAP 對比Table 4 mAP comparison of meta-learning methods on VOC dataset 單位:%

表5 遷移學習方法在COCO 數(shù)據(jù)集上的AP 對比Table 5 AP comparison of transfer learning methods on COCO dataset 單位:%

表6 元學習方法在COCO 數(shù)據(jù)集上的AP 對比Table 6 AP comparison of meta-learning methods on COCO dataset 單位:%

表7 FSOD 數(shù)據(jù)集上的性能對比Table 7 Performance comparison on FSOD dataset 單位:%

從表中可得:(1)無論是采用遷移學習范式還是元學習范式在檢測性能上并沒有太大的差異,由前述對兩種范式的分析可選擇適合的范式進行改進增強。(2)隨著shot 數(shù)的增多,檢測性能有較大的提升,說明圖像信息越多,學習到的特征信息越充分,樣本數(shù)據(jù)增強可能是小樣本問題解決的關鍵,最新的方法Pseudo-Labelling[74]和CFA-DeFRCN[76]都在探索數(shù)據(jù)增強的方法,也說明了數(shù)據(jù)增強的重要性。(3)在不同的數(shù)據(jù)集上檢測結果也不相同,VOC 的檢測結果總體要大于COCO 的檢測結果,在VOC 和COCO數(shù)據(jù)集上表現(xiàn)最好的都是基于遷移學習范式的CFADeFRCN,其除了使用數(shù)據(jù)增強外,將其結合基于度量學習DeFRCN 方法使用,得到了最優(yōu)秀的檢測結果。可見使用較為簡單直接的技術方法可以成功減少模型過擬合的程度,從而達到較優(yōu)的效果。(4)其他的使用注意力機制方法的Meta-DETR 和AFD-Net以及使用數(shù)據(jù)增強的SQMG方法也表現(xiàn)出了不錯的性能。

5 小樣本目標檢測在各領域的應用研究

小樣本目標檢測算法由于只需要少量的新類標注就可以完成對目標類別的檢測,目前在自動駕駛、遙感圖像檢測、農(nóng)業(yè)病蟲害檢測等領域都有應用。

5.1 自動駕駛

自動駕駛是目前計算機視覺應用較為成功的一個領域,車輛行駛會面臨非常多的場景,遇見各種各樣的類別,不可能對全部的類別收集到大量標注的圖像,自動駕駛需要確保駕駛的絕對安全,在很短的時間里做出反應,這些特性通用目標檢測都無法滿足。Majee 等[86]新提出了IDD[87]數(shù)據(jù)集,并驗證了TFA 方法和FSRW 方法在該數(shù)據(jù)集上的性能表現(xiàn);Agarwal 等[41]提出了AGCM 方法,有助于在檢測器的分類頭中創(chuàng)建更加緊密且良好分離的特征簇,在IDD自動駕駛數(shù)據(jù)集上取得了當時的最好效果。

5.2 遙感目標檢測

另外一個常見的應用領域是遙感目標檢測,遙感圖像有助于救援行動援助、災害預測和城市規(guī)劃等,對于一些偏遠地區(qū)或者無人區(qū)遙感數(shù)據(jù)的獲取同樣非常困難,且其中出現(xiàn)的目標種類眾多,這對于通用目標檢測是極大的挑戰(zhàn)。Xiao 等[88]提出了SAAN(self-adaptive attention network)方法,在目標對象上使用注意力,而不是整張圖像,避免一些無用的甚至是有害的特征干擾,在RSOD[89]數(shù)據(jù)集上取得了最好的效果。另外,李成范等[90]在自建的HSI 遙感圖像上應用K 近鄰(K-nearest neighbor,KNN)得到了圖像局部特征,并與改進的CNN 算法結合,使用TripletLoss 損失令同類更加緊密,不同類別更加分離,得到了良好的檢測效果。

5.3 農(nóng)業(yè)病蟲害檢測

對于農(nóng)業(yè)病蟲害檢測,需要專業(yè)的領域知識才能識別不同作物、不同生長環(huán)境下的病蟲害,完成標注工作,而要求農(nóng)業(yè)專家進行大量的標注工作是費時費力的,且害蟲可以處在不同的發(fā)育期,要獲取大量這種圖像數(shù)據(jù)同樣較為困難,現(xiàn)階段只有很少的一些工作涉及到小樣本病蟲害檢測。劉凱旋[91]建立了基于不同樣本數(shù)量的水稻害蟲檢測算法。在樣本數(shù)據(jù)多的時候,使用Cascade R-CNN[75]模型進行害蟲檢測,當樣本數(shù)量進一步減少時,再通過條件判斷切換成小樣本目標檢測算法,為后續(xù)農(nóng)業(yè)害蟲的智能化檢測研究提供了理論支撐。桂江生等[92]針對大豆食心蟲蟲害進行了小樣本檢測,通過卷積學習一個非線性度量函數(shù),而不是使用線性度量公式衡量查詢集和支持集之間的關系,最終5-shot 的條件下可以達到82%的檢測率。

5.4 其他潛在應用領域

另外,還有一些其他可以探索的應用領域,比如,自然界的生物種類眾多,對于生物保護來說,辨認物種類別尤為關鍵,其類別符合長尾分布,大部分的類別都只有很少的數(shù)量且不易獲取到其圖像,可以將其應用到不常見的生物物種檢測;零售商品的自動售賣技術很方便地為顧客提供24 h 服務,零售商品的種類成千上萬,目標檢測所需的標注成本巨大,如果只標注很少圖像就可以完成檢測的話,可以大大縮減成本;在工業(yè)檢測領域,缺陷檢測的自動化工作可以節(jié)約大量的人力且提高效率,比如雞蛋裂紋檢測,可以提高產(chǎn)品質量,但實際的工廠作業(yè)很難收集到大量的樣本數(shù)據(jù),小樣本目標檢測可以利用少量的樣本完成缺陷檢測。

6 小樣本目標檢測的未來研究趨勢

小樣本目標檢測的創(chuàng)建初衷是用來解決實際問題的,可現(xiàn)階段的效果仍然不太理想。譬如小樣本目標檢測方法在COCO 數(shù)據(jù)集10-shot 的條件下最好的mAP 檢測效果僅有19.1%,這距離實用性仍有較大的差距。除了需要提高檢測精度外,未來小樣本目標檢測方法在以下方面值得進一步的研究:

(1)自適應領域遷移:從不同領域學習到的通用概念往往并不相同,將從一個領域中學習到的知識遷移到另一個領域的方法,叫作自適應域遷移。小樣本目標檢測方法也是將從基類學習到的知識遷移到新類中,可以將自適應領域遷移的方法應用到小樣本目標檢測方法中。

(2)數(shù)據(jù)增強方面:小樣本對于模型過擬合問題尤為敏感,而圖像數(shù)據(jù)增強技術恰恰是最直接簡便的用于減少過擬合的方法,比如使用半監(jiān)督和自監(jiān)督等方法可以減少模型的過擬合。

(3)圖卷積神經(jīng)網(wǎng)絡:現(xiàn)在有一些工作是基于圖卷積神經(jīng)網(wǎng)絡完成的,但圖卷積神經(jīng)網(wǎng)絡是一個仍在不斷探索的領域,研究如何在小樣本條件下通過圖卷積神經(jīng)網(wǎng)絡更好推理學習是很有前景的方向。

(4)多模態(tài)的方向:Transformer 作為注意力機制方法,有著天然的處理多種模態(tài)的數(shù)據(jù),將文字和圖像等結合起來共同考慮,這對于缺乏圖像樣本數(shù)量的小樣本檢測任務是巨大的增強。

7 總結

本文對小樣本目標檢測做了詳細的分析總結。首先,介紹了小樣本目標檢測任務的定義及相關概念,敘述了小樣本目標檢測基于元學習和基于遷移學習的兩種經(jīng)典范式,重點闡述了從注意力機制、圖卷積神經(jīng)網(wǎng)絡、度量學習和數(shù)據(jù)增強方面提升小樣本目標檢測性能的方法。之后,對常用數(shù)據(jù)集和評估指標進行了介紹,對各個方法的性能進行了比較和分析。最后,提出了小樣本目標檢測應用的一些領域并對未來的研究方向進行了展望。

猜你喜歡
范式類別樣本
以寫促讀:構建群文閱讀教學范式
范式空白:《莫失莫忘》的否定之維
用樣本估計總體復習點撥
孫惠芬鄉(xiāng)土寫作批評的六個范式
推動醫(yī)改的“直銷樣本”
管窺西方“詩辯”發(fā)展史的四次范式轉換
壯字喃字同形字的三種類別及簡要分析
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
服務類別
米泉市| 鄄城县| 江安县| 贵定县| 平乐县| 宝应县| 水城县| 石狮市| 舟曲县| 新和县| 河西区| 滨州市| 金沙县| 建德市| 庆阳市| 柏乡县| 延寿县| 长兴县| 五华县| 富民县| 桃园县| 台湾省| 麟游县| 丘北县| 平南县| 孝昌县| 佳木斯市| 沁源县| 敦煌市| 卫辉市| 黔东| 龙里县| 宜昌市| 民丰县| 汉源县| 北票市| 大新县| 苗栗市| 岳普湖县| 呼图壁县| 前郭尔|