国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CNN和Transformer在細(xì)粒度圖像識(shí)別中的應(yīng)用綜述

2022-10-18 01:03殷雁君
關(guān)鍵詞:圖像識(shí)別卷積準(zhǔn)確率

馬 瑤,智 敏,殷雁君,萍 萍

內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022

近年,細(xì)粒度圖像識(shí)別在計(jì)算機(jī)視覺、模式識(shí)別等領(lǐng)域掀起了一陣熱潮,其在學(xué)術(shù)界和工業(yè)界都獲得了極大的關(guān)注度,在智能零售系統(tǒng)[1-2]、生物多樣性監(jiān)測[3]等領(lǐng)域具有廣泛的應(yīng)用價(jià)值。而傳統(tǒng)的計(jì)算機(jī)視覺研究方法不能夠勝任復(fù)雜的細(xì)粒度圖像識(shí)別任務(wù),因此許多研究將深度學(xué)習(xí)技術(shù)[4]應(yīng)用于細(xì)粒度圖像識(shí)別領(lǐng)域,其在定位局部、特征表示,分類等方面都取得了良好的效果。由于人類視覺系統(tǒng)本質(zhì)上對(duì)細(xì)粒度圖像[5]具有推理能力,不僅能識(shí)別出狗類和鳥類,還能區(qū)分出具有細(xì)微差異的美國金翅雀和歐洲金翅雀等。因此,計(jì)算機(jī)視覺一直致力學(xué)習(xí)人類視覺系統(tǒng)的識(shí)別推理能力,但對(duì)于細(xì)粒度圖像識(shí)別任務(wù)的準(zhǔn)確度仍有待提升。尤其是在細(xì)粒度圖像的類間相似和類內(nèi)差異[6]問題上,仍有待提高準(zhǔn)確率和計(jì)算復(fù)雜度。為解決上述問題,研究者基于CNN 框架[7-8]進(jìn)行改進(jìn),提升定位局部和特征表示能力。近年,研究者將Transformer[9]也引入到細(xì)粒度圖像識(shí)別任務(wù)中,以提高識(shí)別準(zhǔn)確率。

本文首先概括了細(xì)粒度圖像識(shí)別研究意義及常用數(shù)據(jù)集;其次介紹了近年來基于CNN 和Transformer 的細(xì)粒度圖像識(shí)別研究方法;最后對(duì)研究現(xiàn)狀進(jìn)行了總結(jié),對(duì)未來可能的研究方向進(jìn)行了展望。

1 細(xì)粒度圖像識(shí)別概述

圖像識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的研究重點(diǎn)之一,深度學(xué)習(xí)技術(shù)的出現(xiàn)為其開辟了新篇章。傳統(tǒng)圖像識(shí)別包括語義級(jí)識(shí)別和實(shí)例級(jí)識(shí)別兩類:第一類包括場景識(shí)別和對(duì)象識(shí)別等語義級(jí)任務(wù),目的是識(shí)別不同類別的目標(biāo),如鳥、汽車等;第二類包括人臉識(shí)別和掌紋識(shí)別等實(shí)例級(jí)任務(wù),其目的是對(duì)不同的個(gè)體進(jìn)行分類。

細(xì)粒度圖像識(shí)別是圖像識(shí)別的子領(lǐng)域,其介于語義級(jí)和實(shí)例級(jí)任務(wù)之間。與兩者相比,細(xì)粒度圖像子類別間僅有局部的細(xì)微差異,而同類別間外觀差異大,并且容易受姿態(tài)、遮擋等不確定因素影響。因此,細(xì)粒度圖像識(shí)別有極大的挑戰(zhàn)性。細(xì)粒度圖像與通用圖像識(shí)別的差異如圖1所示。

圖1 通用圖像與細(xì)粒度圖像識(shí)別Fig.1 General image and fine-grained image recognition

細(xì)粒度圖像識(shí)別任務(wù)具體來說是從同一大類別中識(shí)別出子類別,例如:鳥的種類[10-11]、狗的種類[12]、車的品牌[13]以及飛機(jī)的模型[14]等,其具體步驟為:定位圖像所含目標(biāo),選中目標(biāo)局部區(qū)域提取特征,處理與識(shí)別特征。該任務(wù)的關(guān)鍵在于辨認(rèn)子類別,因此找到關(guān)鍵的細(xì)微部分是研究重點(diǎn)。

在傳統(tǒng)的細(xì)粒度圖像識(shí)別任務(wù)中,圖像中的背景噪聲通過標(biāo)注框來消除,以定位目標(biāo);局部區(qū)域特征提取通過位置標(biāo)注來實(shí)現(xiàn),這些算法過度依賴于人工標(biāo)注[15]。人工標(biāo)注信息獲取難度很高,十分耗費(fèi)人力,并且依賴于人工標(biāo)注的方法提取特征的能力和特征表示效果均較弱,有一定的局限性。因此,現(xiàn)在越來越多的算法傾向于僅使用類別標(biāo)簽等來完成識(shí)別任務(wù)。

近幾年基于CNN 的細(xì)粒度圖像識(shí)別方法[16-17]越來越成熟,其提取的特征擁有更強(qiáng)大的表達(dá)能力,在細(xì)粒度圖像識(shí)別任務(wù)中通常能夠取得良好的結(jié)果。但關(guān)鍵部分過于細(xì)微,無法通過傳統(tǒng)CNN獲取全部關(guān)鍵信息,研究者開始致力于在框架內(nèi)部進(jìn)行改進(jìn),以進(jìn)一步定位關(guān)鍵部位和豐富特征表示。一些學(xué)者認(rèn)為,基于CNN的細(xì)粒度圖像識(shí)別方法對(duì)全局信息的掌握仍有漏洞,于是其將視覺Transformer 引入到細(xì)粒度圖像識(shí)別,均取得不錯(cuò)成果。證明了在細(xì)粒度視覺識(shí)別領(lǐng)域,雖然學(xué)習(xí)局部區(qū)域特征起著至關(guān)重要的作用,但是,全局信息的補(bǔ)充會(huì)進(jìn)一步提高識(shí)別的準(zhǔn)確率。

2 細(xì)粒度圖像數(shù)據(jù)集

細(xì)粒度圖像與通用圖像[18]數(shù)據(jù)集不同,其需要專業(yè)領(lǐng)域的研究者收集并標(biāo)注數(shù)據(jù),因此,數(shù)據(jù)集的獲取難度相對(duì)較大。近年來,細(xì)粒度圖像的數(shù)據(jù)集越來越多,例如花卉[19]、鳥類[10]、狗[12]、汽車[13]、飛機(jī)[14]等,可見該領(lǐng)域的研究越來越廣泛。本文按時(shí)間順序總結(jié)了部分細(xì)粒度圖像數(shù)據(jù)集,并指出了元類別、圖像數(shù)量和類別數(shù)量,如表1所示。細(xì)粒度圖像數(shù)據(jù)集類間相似且類內(nèi)差異大,如圖2所示。

圖2 細(xì)粒度圖像的類間相似與類內(nèi)差異Fig.2 Inter class similarity and intra class difference of fine-grained images

表1 細(xì)粒度圖像數(shù)據(jù)集Table 1 Fine-grained image datasets

下面重點(diǎn)介紹5 個(gè)最常用的主流數(shù)據(jù)集,其中鳥、狗及花卉是非剛性數(shù)據(jù)集,車和飛機(jī)是剛性數(shù)據(jù)集。

Oxford Flowers[19]數(shù)據(jù)集:該數(shù)據(jù)集是在2008 年被提出的細(xì)粒度圖像數(shù)據(jù)集,早期的細(xì)粒度圖像識(shí)別方法均基于該數(shù)據(jù)集來證明實(shí)驗(yàn)性能,總共有8 189張圖像,有102種類別,且不包含額外標(biāo)注信息。

CUB-200-2011[10]數(shù)據(jù)集:該數(shù)據(jù)集是最流行的細(xì)粒度圖像數(shù)據(jù)集之一,于2011 年加利福尼亞理工學(xué)院推出的鳥類細(xì)粒度圖像數(shù)據(jù)集。目前大多數(shù)細(xì)粒度圖像識(shí)別方法選擇它與新技術(shù)進(jìn)行比較。該數(shù)據(jù)集總共有11 788張圖像,有200種類別,且提供了邊界框信息。

Stanford Dogs[12]數(shù)據(jù)集:該數(shù)據(jù)集是由Stanford University 2011年從ImageNet數(shù)據(jù)集中提取的,總共有20 580張圖像,有120種類別,且提供了邊界框信息。

Stanford Cars[13]數(shù)據(jù)集:該數(shù)據(jù)集是2013年Stanford University 在ICCV 會(huì)議上公布的汽車類細(xì)粒度圖像數(shù)據(jù)集,總共有16 185張圖像,根據(jù)車的品牌、型號(hào)以及年份將數(shù)據(jù)集劃分為196類,且提供了邊界框信息。

FGVC-Aircraft[14]數(shù)據(jù)集:該數(shù)據(jù)集是2013 年推出的飛機(jī)類細(xì)粒度圖像數(shù)據(jù)集,總共包含10 000 張圖片,有100類飛機(jī)照片,且提供了邊界框信息。

3 基于CNN的細(xì)粒度圖像識(shí)別

隨著深度學(xué)習(xí)技術(shù)的不斷改進(jìn),CNN 得到了快速發(fā)展,并被應(yīng)用于計(jì)算機(jī)視覺[32]、自然語言處理[33]等領(lǐng)域。CNN 來源于研究者對(duì)動(dòng)物神經(jīng)元的研究,其本質(zhì)是多層感知機(jī)的變型,通過局部連接和共享權(quán)值的方式,降低了網(wǎng)絡(luò)過擬合的風(fēng)險(xiǎn)。在計(jì)算機(jī)視覺領(lǐng)域之一的細(xì)粒度圖像識(shí)別中,常用的CNN結(jié)構(gòu)是VGGNet[34]和ResNet[35]。CNN除標(biāo)準(zhǔn)卷積外還有許多類型,如空洞卷積又名膨脹卷積,其可以增加感受野,保持輸入特征的寬和高;深度可分離卷積是先逐通道再逐點(diǎn)卷積,其參數(shù)數(shù)量、運(yùn)算成本均較低;3D 卷積則應(yīng)用于視頻上,其引入了時(shí)間維度,輸出的結(jié)構(gòu)也是3D的。

鑒于CNN 具有強(qiáng)大的提取特征能力,許多學(xué)者將其應(yīng)用于細(xì)粒度圖像識(shí)別任務(wù)中。近年,細(xì)粒度圖像識(shí)別僅使用類別標(biāo)簽[36-38]的方法大體分為兩種:基于單張和多張圖片的輸入方法。

3.1 基于單張圖片輸入方法

當(dāng)前基于單張圖片輸入的細(xì)粒度圖像識(shí)別方法主要分為局部定位和特征表示。局部定位方法旨在目標(biāo)圖像上定位關(guān)鍵區(qū)域以進(jìn)一步識(shí)別,其難點(diǎn)在于難以準(zhǔn)確定位局部區(qū)域信息。特征表示的方法是在圖像局部區(qū)域提取有意義的表示,其難點(diǎn)在于判別區(qū)域是細(xì)微的,難以詳細(xì)地表示。為克服這兩個(gè)難題,研究者提出許多方法,下面對(duì)這兩個(gè)方案的研究進(jìn)行詳細(xì)介紹。

3.1.1 區(qū)域定位方法

細(xì)粒度圖像子類別間是相似的且判別區(qū)域特征差異細(xì)微,因此,定位關(guān)鍵信息是一個(gè)具有挑戰(zhàn)性的問題。針對(duì)鳥類來說,細(xì)微的判別部分在于鳥的嘴巴或眼睛。研究者針對(duì)這一難點(diǎn)將注意力模型引入到細(xì)粒度圖像識(shí)別中,通過注意力機(jī)制尋找感興趣區(qū)域,讓深度學(xué)習(xí)模型更加關(guān)注某個(gè)局部的信息。

(1)注意力模型

注意力模型在細(xì)粒度圖像識(shí)別任務(wù)中取得了顯著成果。例如,F(xiàn)u等人[39]首次提出了遞歸注意力卷積神經(jīng)網(wǎng)絡(luò)(recurrent attention convolutional neural network,RA-CNN)結(jié)構(gòu),該方法以多尺度遞歸地學(xué)習(xí)判別區(qū)域注意力和區(qū)域特征表示。具體來說,區(qū)域建議網(wǎng)絡(luò)從全局圖像開始,以循環(huán)的方式將大尺度定位的區(qū)域放大輸入到小尺度中,以此迭代生成區(qū)域注意力圖,進(jìn)一步提高識(shí)別效率。但該方法仍有不足,其不能整合多個(gè)區(qū)域的注意力,因此,Zheng等人[40]提出多注意力卷積神經(jīng)網(wǎng)絡(luò)(multi-attention convolutional neural network,MA-CNN)學(xué)習(xí)方案,生成多個(gè)區(qū)域注意力部分,且對(duì)每一個(gè)單獨(dú)的局部進(jìn)行分類,以學(xué)習(xí)到更具代表性的特征表示。與RA-CNN 相比,MA-CNN 展示了多重注意力的力量,獲得了更好的識(shí)別性能。為了更好地適應(yīng)細(xì)粒度識(shí)別任務(wù),Zheng 等人[41]進(jìn)一步提出了漸進(jìn)式注意力卷積神經(jīng)網(wǎng)絡(luò)(progressive attention convolutional neural network,PA-CNN),PA-CNN 分兩步定位部分,其中部分建議網(wǎng)絡(luò)(PPN)生成多個(gè)局部注意力圖,部分糾正網(wǎng)絡(luò)(PRN)從每個(gè)建議中學(xué)習(xí)特定特征,并為PPN提供精確的部分位置。PPN 和PRN 的這種耦合使它們能夠以相互加強(qiáng)的方式進(jìn)行優(yōu)化,從而改進(jìn)細(xì)粒度的精確定位,該方法在CUB-200-2011數(shù)據(jù)集上達(dá)到了87.8%的準(zhǔn)確率。

許多注意力方法可以定位區(qū)域且放大,學(xué)習(xí)細(xì)節(jié),但這些方法大多受困于部件數(shù)量和計(jì)算復(fù)雜的問題。為此Zheng等人[42]開發(fā)了三線性注意力采樣網(wǎng)絡(luò)(trilinear attention sampling network,TASN),以高效的師生方式從數(shù)百個(gè)部分建議中學(xué)習(xí)細(xì)粒度特征,并有效地將學(xué)習(xí)到的特征提取到單個(gè)CNN中,以提高識(shí)別效率,該方案雖解決了部件數(shù)量有限和計(jì)算開銷較大的影響,但仍有不足,其是對(duì)卷積特征進(jìn)行基于注意力的采樣,而不是僅對(duì)圖像進(jìn)行采樣。針對(duì)上述問題且受神經(jīng)樹的啟發(fā),Ji 等人[43]提出了注意力卷積二叉神經(jīng)樹(attention convolutional binary neural tree,ACNeT)學(xué)習(xí)方案,該方案將注意力機(jī)制與樹結(jié)構(gòu)結(jié)合,促進(jìn)從粗到細(xì)的分層細(xì)粒度特征學(xué)習(xí),其中深度卷積運(yùn)算學(xué)習(xí)捕獲對(duì)象表示,樹結(jié)構(gòu)描述由粗到細(xì)的分層特征學(xué)習(xí)過程,最終通過對(duì)葉節(jié)點(diǎn)的預(yù)測進(jìn)行決策,該方法在3個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上證明了有效性且在CUB-200-2011數(shù)據(jù)集上達(dá)到了88.1%的準(zhǔn)確率。

從簡單高效的網(wǎng)絡(luò)設(shè)計(jì)目的出發(fā),當(dāng)前基于注意力模型的方法尋找的感興趣區(qū)域的數(shù)量可能不是固定的。為此,Wei 等人[44]提出了兩級(jí)漸進(jìn)式注意力卷積網(wǎng)絡(luò)(TPA-CNN),其不僅可以直接獲得辨別區(qū)域,還可以動(dòng)態(tài)選擇辨別區(qū)域的數(shù)量。該模型包括多通道注意力融合(multi-channel attention-fusion,MCAF)和跨層元素注意力(cross-layer element-attention,CEA)兩個(gè)模塊,MCAF模塊用于發(fā)現(xiàn)顯著特定區(qū)域特征圖通道;CEA模塊為特征圖元素分配權(quán)重值。從注意力可視化圖角度看,MCAF 模塊可聚焦于一個(gè)或多個(gè)積極區(qū)域;CEA 模塊通過特征圖元素之間的交互作用進(jìn)一步定位最具辨別力的區(qū)域。該方法在3 個(gè)主流數(shù)據(jù)集上均取得了良好的效果,但其只考慮了特征圖的通道和元素兩個(gè)維度,未來還應(yīng)對(duì)其余信息進(jìn)行挖掘。該方案的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 兩級(jí)漸進(jìn)式注意力卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Architecture of two-level progressive attention convolutional network

(2)其他方法

Yang等人[45]提出了一種自監(jiān)督團(tuán)結(jié)協(xié)作學(xué)習(xí)模型,以有效地定位信息區(qū)域。該模型為導(dǎo)航員-教師-審查者網(wǎng)絡(luò)(navigator-teacher-scrutinizer network,NTS-Net),其由導(dǎo)航者、教師和審查者3 個(gè)子網(wǎng)絡(luò)組成。具體來說,首先使導(dǎo)航者在教師的指導(dǎo)下檢測出大部分信息區(qū)域,然后,審查者從導(dǎo)航器中仔細(xì)檢查定位的區(qū)域并做出預(yù)測,三者相互合作,相互加強(qiáng)。該方法在CUB 200-2011 數(shù)據(jù)集上達(dá)到了87.5%的準(zhǔn)確率。但該方法所選區(qū)域可能包含噪聲信息干擾,為此,Yan等人[46]提出了漸進(jìn)式定位模塊(progressive patch localization module,PPL),以更準(zhǔn)確地定位有判別性的區(qū)域塊。具體地說,其利用分類模型找到最具區(qū)分性的塊,然后去除最顯著的區(qū)域,以幫助定位下一個(gè)最具區(qū)別性的塊,重復(fù)此過程即可找到TOP-K 區(qū)分塊。此外,為了進(jìn)一步提高塊級(jí)特征的表示能力,提出了特征校準(zhǔn)模塊(feature calibration module,F(xiàn)CM),利用全局信息選擇性地突出判別性特征并抑制無用信息,進(jìn)而幫助分類網(wǎng)絡(luò)獲得更好的性能

現(xiàn)有注意力方法對(duì)區(qū)域特征學(xué)習(xí)存在局限性,例如,鑒別區(qū)域主要位于圖像上的過濾響應(yīng),不能直接用性能指標(biāo)進(jìn)行優(yōu)化。針對(duì)上述問題,Liu 等人[47]提出了過濾蒸餾學(xué)習(xí)(filtration and distillation learning,F(xiàn)DL)模型。首先,基于提出和預(yù)測的匹配性,提出了一種用于區(qū)分部件區(qū)域的過濾學(xué)習(xí)(FL)方法,利用建議預(yù)測匹配性作為區(qū)域建議網(wǎng)絡(luò)(RPN)的性能指標(biāo),從而實(shí)現(xiàn)RPN的直接優(yōu)化,以篩選出最具鑒別能力的區(qū)域。具體來說,將基于對(duì)象的特征學(xué)習(xí)和基于區(qū)域的特征學(xué)習(xí)分別表述為“教師”和“學(xué)生”,并將學(xué)習(xí)到的知識(shí)從對(duì)象轉(zhuǎn)移到基于區(qū)域的特征學(xué)習(xí)。值得一提的是,提取知識(shí)的動(dòng)機(jī)與TASN完全不同。TASN將細(xì)粒度知識(shí)轉(zhuǎn)化為基于對(duì)象的特征學(xué)習(xí),而FDL旨在將整個(gè)對(duì)象的知識(shí)融合到基于區(qū)域的特征學(xué)習(xí)中。FDL 方法有效地增強(qiáng)了區(qū)域注意力,且在CUB 200-2011數(shù)據(jù)集上達(dá)到了89.09%的準(zhǔn)確率,但其參數(shù)量較大。

現(xiàn)有方法通常直接從高層特征圖中提取有鑒別能力的區(qū)域,然而卷積神經(jīng)網(wǎng)絡(luò)由于疊加局部感受域的操作,導(dǎo)致高層次特征圖中的鑒別區(qū)域擴(kuò)散,使選擇的區(qū)域含有大量的噪聲或背景信息,從而降低了算法的性能。為了解決上述問題,Wang 等人[48]提出了一種端到端的面向鑒別特征的高斯混合模型(DF-GMM)。具體而言,DF-GMM包括低秩表示機(jī)制,該機(jī)制通過高斯混合模型(GMM)學(xué)習(xí)一組低秩判別基,以準(zhǔn)確地選擇判別細(xì)節(jié)并過濾高層語義特征圖中更多的無關(guān)信息;低秩表示重組機(jī)制,恢復(fù)低秩判別基的空間信息,重建低秩特征圖,通過將低階判別基恢復(fù)到高階特征圖的相同嵌入空間中。實(shí)驗(yàn)表明,該方法緩解了高階特征圖中的判別區(qū)域擴(kuò)散問題,更精確地定位了判別區(qū)域。

表2對(duì)基于區(qū)域定位方法進(jìn)行了總結(jié),可以看到利用注意力模型可以提高定位的準(zhǔn)確性,但僅通過定位區(qū)域再放大來學(xué)習(xí)細(xì)節(jié),并不理想。TASN為了解決這個(gè)問題就設(shè)計(jì)從數(shù)百個(gè)建議中學(xué)習(xí),以準(zhǔn)確定位區(qū)域。從表2 可以看出基于區(qū)域定位方法的細(xì)粒度圖像識(shí)別方法仍有很大的上升空間。

表2 CUB-200-2011數(shù)據(jù)集上不同方法的創(chuàng)新點(diǎn)及準(zhǔn)確率Table 2 Accuracy and innovation points of different methods on CUB-200-2011 dataset

3.1.2 特征表示方法

細(xì)粒度圖像識(shí)別任務(wù)側(cè)重于豐富特征表示可以獲得良好的分類結(jié)果,然而子類別之間的差異通常是細(xì)微的局部區(qū)域,僅依靠全局的語義信息會(huì)限制表示能力,進(jìn)而限制識(shí)別的有效性。研究者為解決這一缺點(diǎn),提出了從語義相關(guān)性、部分特征交互等方向開展豐富特征表示的工作,下面將對(duì)這些研究方法進(jìn)行介紹。

(1)語義相關(guān)性

語義信息是信息的表現(xiàn)形式之一,指能夠消除事物不確定性的有一定意義的信息。但細(xì)粒度圖像識(shí)別任務(wù)往往會(huì)忽略部分之間的語義信息關(guān)系。針對(duì)上述問題,Wang 等人[49]提出一個(gè)端到端的基于圖傳播的相關(guān)學(xué)習(xí)方案,通過設(shè)計(jì)圖傳播子網(wǎng)絡(luò),學(xué)習(xí)全局和空間相關(guān)性。同時(shí),構(gòu)建了一個(gè)特征向量相關(guān)特征加強(qiáng)子網(wǎng)絡(luò),增強(qiáng)從所選塊中提取的特征。實(shí)驗(yàn)表明,此模型是有效的且在CUB-200-2011 數(shù)據(jù)集上達(dá)到了88.3%的準(zhǔn)確率,但其未考慮特征之間的語義相關(guān)性。為此,Zheng等人[50]提出了一種新的深度雙線性變換塊,其利用語義信息,通過計(jì)算語義組內(nèi)的成對(duì)交互,獲得有效的雙線性特征,以提高識(shí)別準(zhǔn)確率。

大多數(shù)方法忽略了細(xì)粒度對(duì)象的語義結(jié)構(gòu),且沒有利用傳統(tǒng)的細(xì)粒度識(shí)別技術(shù),如粗到細(xì)分類。Li等人[51]提出一種兩分支網(wǎng)絡(luò)框架,即語義雙線性池化,用分層標(biāo)簽樹進(jìn)行細(xì)粒度識(shí)別。該框架可以從層次級(jí)別自適應(yīng)地學(xué)習(xí)語義信息。此外,在測試時(shí)僅利用細(xì)分支,因此,不會(huì)增加計(jì)算量。實(shí)驗(yàn)結(jié)果表明,提出的方法在四個(gè)主流數(shù)據(jù)集上實(shí)現(xiàn)了先進(jìn)的性能,且在CUB-200-2011數(shù)據(jù)集上達(dá)到了88.9%的準(zhǔn)確率。

雖然以上方法均取得良好效果,但是語義信息只能在高層特征中獲得,因此,往往會(huì)忽略底層特征,未來研究方向可能在底層特征上運(yùn)用深度雙線性變換,進(jìn)一步豐富底層特征的表示,提高識(shí)別的準(zhǔn)確性。

(2)特征交互

研究顯示,雙線性池化模型是有效的,但往往會(huì)忽略層間部分交互和特征學(xué)習(xí)之間的關(guān)聯(lián)性。針對(duì)這一問題,Yu 等人[52]提出一種跨層雙線性池化技術(shù),用于捕獲層間部分特征關(guān)系。而且在跨層雙線性池的基礎(chǔ)上,還提出了一種分層雙線性池框架,集成了多個(gè)跨層雙線性模塊,從中間卷積層獲取互補(bǔ)信息,從而提高性能,但該方法對(duì)于融合更多層特征以獲得多尺度的部分表示仍有欠缺。對(duì)此,Luo等人[53]提出交叉X學(xué)習(xí)方案,通過利用不同圖像和不同網(wǎng)絡(luò)層特征之間的關(guān)系來學(xué)習(xí)細(xì)粒度特征。首先,通過跨層正則化解決多尺度特征學(xué)習(xí)問題,再通過跨層匹配預(yù)測分布,提高特征在不同層中的表示,實(shí)驗(yàn)表明,在CUB-200-2011 數(shù)據(jù)集上Luo 等人[53]的方法優(yōu)于Yu等人[52]的方法。

為進(jìn)一步提高細(xì)粒度圖像識(shí)別任務(wù)的效率且考慮到CNN 本身薄弱。Cui 等人[54]提出了一種通用的池化框架,以核函數(shù)的形式捕捉特征之間的高階信息,該框架以無參數(shù)的方式使用緊湊的顯式特征映射將高斯RBF等核函數(shù)逼近到給定的階數(shù),且與CNN相結(jié)合,內(nèi)核的組成可以通過誤差反向傳播以端到端的方式從數(shù)據(jù)中學(xué)習(xí)。該方法通過特征映射捕獲高階和非線性的特征交互,大量實(shí)驗(yàn)表明,該方法對(duì)細(xì)粒度圖像識(shí)別效率有所改進(jìn)。Cai等人[55]提出了一種新的分層卷積高階集成框架,以獲得特征的豐富表示?;诤擞成浞桨?,提出了一種利用高階部件關(guān)系的多項(xiàng)式預(yù)測器,并給出了可訓(xùn)練的多項(xiàng)式模塊。此外,高階集成框架可以自然地?cái)U(kuò)展,以挖掘?qū)哟谓Y(jié)構(gòu)中的多尺度零件關(guān)系。上述兩種方法均改進(jìn)了CNN框架,提高了識(shí)別效率。

(3)損失函數(shù)方法

損失函數(shù)在深度網(wǎng)絡(luò)的構(gòu)建中起著重要作用,其可以直接影響學(xué)習(xí)的分類器和特征。因此,設(shè)計(jì)細(xì)粒度定制損失函數(shù)是細(xì)粒度圖像識(shí)別的一個(gè)重要方向。

文獻(xiàn)中還探討了設(shè)計(jì)用于定位部分級(jí)模式和進(jìn)一步聚合圖像級(jí)表示的單一損失函數(shù)。Sun等人[38]開發(fā)了一個(gè)梯度增強(qiáng)損失函數(shù),以及一個(gè)多樣化塊,以迫使網(wǎng)絡(luò)快速移動(dòng),以區(qū)分硬類。具體而言,梯度增強(qiáng)損失通過適當(dāng)放大梯度更新來解決密切相關(guān)類之間的歧義;多樣化塊抑制類激活圖的區(qū)分區(qū)域,從而迫使網(wǎng)絡(luò)尋找替代的信息特征。雖該方法取得了良好的實(shí)驗(yàn)結(jié)果,但訓(xùn)練機(jī)制過于復(fù)雜,為此,Chang等人[56]提出了互通道損失(mutual-channel Loss,MC-Loss),對(duì)于細(xì)粒度對(duì)象的部分定位不需要任何特定的網(wǎng)絡(luò)修改。MC-Loss 由兩個(gè)特定于通道的判別性組件和辨別性組件組成,辨別性組件通過通道注意力機(jī)制強(qiáng)制同一類別的所有特征通道具有辨別性;多樣性組件限制通道,使其在空間維度上相互排斥;最終得到一組特征通道,每個(gè)通道反映特定類別的不同局部區(qū)分區(qū)域,以此改進(jìn)細(xì)粒度識(shí)別效率。該方法在CUB-200-2011 數(shù)據(jù)集上獲得了87.3%的準(zhǔn)確率,且僅需要一次損失。上述基于損失函數(shù)的細(xì)粒度識(shí)別方法與主干網(wǎng)絡(luò)無關(guān),通常可以通過使用更強(qiáng)大的主干網(wǎng)絡(luò)架構(gòu)來提高其性能。

(4)其他方法

針對(duì)關(guān)鍵區(qū)域之外的額外區(qū)域可能會(huì)影響判別效果,Zhang等人[57]提出了專家混合方案,通過學(xué)習(xí)前一位專家的先驗(yàn)信息,將細(xì)粒度問題劃分為子空間,通過結(jié)合逐步增強(qiáng)的策略和基于KL 差異的約束來學(xué)習(xí),專家做出不同的預(yù)測,最后對(duì)所有專家的預(yù)測進(jìn)行加權(quán)組合,補(bǔ)足額外區(qū)域信息的缺失。Chen 等人[58]則提出“破壞和構(gòu)造學(xué)習(xí)”方法。具體來說,首先將輸入圖像劃分為局部區(qū)域,然后通過區(qū)域混淆機(jī)制對(duì)其進(jìn)行洗牌。在“構(gòu)建”中,區(qū)域?qū)R網(wǎng)絡(luò)用于模擬區(qū)域之間的語義關(guān)聯(lián),然后恢復(fù)局部區(qū)域的原始空間布局。DCL中的破壞性學(xué)習(xí)提高了識(shí)別的難度,指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)專家知識(shí)進(jìn)行細(xì)粒度識(shí)別;而構(gòu)建學(xué)習(xí)可以對(duì)對(duì)象各部分之間的語義關(guān)聯(lián)進(jìn)行建模。上述兩種方法進(jìn)一步捕獲了容易被忽略的額外信息,為細(xì)粒度圖像識(shí)別提供了新的思路。

為提高注意力性能,Rao 等人[59]提出了基于因果推理的反事實(shí)注意力學(xué)習(xí)方法。該方法通過比較事實(shí)和反事實(shí),通過影響最終的預(yù)測來量化注意力質(zhì)量。該方法在訓(xùn)練過程中可以忽略額外成本。在3 個(gè)基準(zhǔn)細(xì)粒度數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),達(dá)到了先進(jìn)的性能,在CUB-200-2011數(shù)據(jù)集上達(dá)到了90.6%的準(zhǔn)確率。

表3 對(duì)基于特征表示的方法進(jìn)行了總結(jié),可以發(fā)現(xiàn),現(xiàn)對(duì)于豐富特征表示的研究有很多,如利用語義信息、特征交互信息、損失函數(shù)等方法來豐富特征表示以提高識(shí)別效率。

表3 CUB-200-2011數(shù)據(jù)集上不同方法的創(chuàng)新點(diǎn)及準(zhǔn)確率Table 3 Accuracy and innovation points of different methods on CUB-200-2011 dataset

3.2 基于多張圖片輸入方法

基于多張圖片輸入方法有分類別輸入和同類別輸入,多張圖片輸入重點(diǎn)捕捉不同圖像之間的關(guān)聯(lián)信息,從而獲得對(duì)比線索信息,以提高識(shí)別的性能。當(dāng)前基于多張圖像輸入識(shí)別方法有三類缺點(diǎn),首先,大多數(shù)方法單獨(dú)處理對(duì)象的各個(gè)部分,忽略目標(biāo)部分之間和部分之間存在空間關(guān)系;其次,高維特征不適合大規(guī)模應(yīng)用,并可能導(dǎo)致過擬合;最后,不同語義特征之間的內(nèi)在聯(lián)系很少被研究。針對(duì)以上問題不同研究者提出了解決方法,例如,Peng等人[60]提出了目標(biāo)部分注意力模型,該模型集成了兩個(gè)級(jí)別的注意力,目標(biāo)級(jí)別的定位圖像中的目標(biāo),部分級(jí)別的選擇判別區(qū)域。目標(biāo)部分空間約束模型結(jié)合了兩個(gè)空間約束,目標(biāo)空間約束確保選中具有代表性的部分,部分空間約束消除冗余,增強(qiáng)所選部分的識(shí)別性。此方法雖然提高了細(xì)粒度圖像識(shí)別的效率,但其孤立地處理每個(gè)對(duì)象部分,忽略了它們之間的相關(guān)性。針對(duì)這一問題,Sun 等人[26]提出了一種多注意力多約束卷積神經(jīng)網(wǎng)絡(luò)。首先,學(xué)習(xí)了多個(gè)部分對(duì)應(yīng)的注意力區(qū)域,然后利用度量學(xué)習(xí)來拉近同一注意力同一類特征,同時(shí)將不同注意力或不同類特征推離。而且相比RA-CNN[39]通過多個(gè)可選階段進(jìn)行訓(xùn)練,此方法只通過一個(gè)階段進(jìn)行訓(xùn)練來獲得所有需要的特征,加強(qiáng)了不同區(qū)域部分的相關(guān)性。在鳥類、狗和汽車的數(shù)據(jù)集上表現(xiàn)出了優(yōu)越的性能,且在CUB-200-2011 數(shù)據(jù)集上達(dá)到了86.5%的準(zhǔn)確率。

上述兩種方法均通過注意力機(jī)制來放大辨別部分區(qū)域,這樣會(huì)使在復(fù)雜背景下表現(xiàn)不穩(wěn)定且不同語義特征之間內(nèi)在的相互關(guān)系很少被探索。針對(duì)這一問題,Zhao 等人[61]提出了一種基于圖的關(guān)系發(fā)現(xiàn)方法來建立對(duì)高階關(guān)系的上下文理解。具體步驟,通過一個(gè)有效的關(guān)系發(fā)現(xiàn)模塊來學(xué)習(xí)位置和語義特征關(guān)系,并學(xué)習(xí)語義分組規(guī)則來聚類高階關(guān)系;通過一種簡單而有效的基于分組的學(xué)習(xí)策略,利用聚類中心更新梯度,緩解硬樣本導(dǎo)致的過擬合和異常。因此,該方案掌握了細(xì)粒度對(duì)象關(guān)鍵的上下文細(xì)節(jié)且提高了識(shí)別效率。

受人類通過比較圖像對(duì)可以有效地識(shí)別出對(duì)比線索的啟發(fā)。Zhuang 等人[62]在度量學(xué)習(xí)框架之上建立了一個(gè)成對(duì)交互網(wǎng)絡(luò)(attentive pairwise interaction network,API-Net),其能自適應(yīng)地從一對(duì)圖像中發(fā)現(xiàn)對(duì)比線索,并通過成對(duì)注意力交互區(qū)分。雖然該方法取得了良好的效果,但該方法沒有利用通道之間豐富的關(guān)系捕捉這種差異。對(duì)此,Gao等人[63]提出了一個(gè)通道交互網(wǎng)絡(luò)(CIN),對(duì)圖像內(nèi)部和圖像之間的通道交互進(jìn)行建模。具體通過對(duì)比通道交互模塊拉近正對(duì),同時(shí)推開負(fù)對(duì),以達(dá)到期望的效果。此方法在獲取到對(duì)比線索的同時(shí),往往會(huì)忽略細(xì)小的補(bǔ)充信息,因此,Zhang 等人[64]提出了一種漸進(jìn)式協(xié)同注意力學(xué)習(xí)方案。其中,協(xié)同注意力模塊通過比較圖像對(duì)來學(xué)習(xí)判別性特征;注意力擦除模塊通過擦除最顯著區(qū)域來學(xué)習(xí)圖像的細(xì)微互補(bǔ)特征。實(shí)驗(yàn)表明,該方法有效且成功提高了識(shí)別的準(zhǔn)確率。

雙線性池模型利用嵌入特征的外積增強(qiáng)了表示能力,取得了良好的分類性能。然而,這些模型導(dǎo)致了特征的高維,這使其不適合大規(guī)模應(yīng)用,并可能導(dǎo)致過擬合。針對(duì)這一問題,Xu 等人[65]提出一種特征相關(guān)殘差方法,在不增加特征維數(shù)的情況下挖掘嵌入特征的通道和空間相關(guān)性。然后,利用相關(guān)殘差特征對(duì)原始特征進(jìn)行補(bǔ)充。除了交叉熵?fù)p失之外,該方法還加入了提取特征的核范數(shù)和三重態(tài)損失函數(shù)進(jìn)行正則化操作,以減輕過擬合、增強(qiáng)類間變化和減少類內(nèi)變化。

表4對(duì)基于多張圖片輸入的方法進(jìn)行了總結(jié),可以發(fā)現(xiàn)從圖像對(duì)中獲取對(duì)比線索可以提高識(shí)別的準(zhǔn)確率。相比之下,Zhao[61]提出的基于圖關(guān)系的發(fā)現(xiàn)方法,在CUB-200-2011 數(shù)據(jù)集下的準(zhǔn)確率最高,由此可見高階關(guān)系的上下文理解可以有效的提高識(shí)別效率,未來可以考慮聯(lián)合低階和高階的信息。

表4 CUB-200-2011數(shù)據(jù)集上不同方法的創(chuàng)新點(diǎn)及準(zhǔn)確率Table 4 Accuracy and innovation points of different methods on CUB-200-2011 dataset

4 基于Transformer的細(xì)粒度圖像識(shí)別

基于CNN的細(xì)粒度圖像識(shí)別方法大多通過重復(fù)利用骨干網(wǎng)絡(luò)來提取區(qū)域特征,且通過定位最具辨別力的局部區(qū)域來提高網(wǎng)絡(luò)捕獲細(xì)微差異的能力。這些方法不可避免地使識(shí)別通道復(fù)雜化,定位的局部區(qū)域有大量的冗余。針對(duì)這些問題,研究者提出基于Transformer完成細(xì)粒度圖像識(shí)別任務(wù)。Transformer是Google團(tuán)隊(duì)在2017 年提出的一種關(guān)于自然語言處理的經(jīng)典模型,其結(jié)合了自注意力(self-attention)機(jī)制,并且沒有采用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的順序結(jié)構(gòu),使得模型可以并行化訓(xùn)練,能夠捕捉全局信息。近年,視覺Transformer(vision transformers,ViT)在傳統(tǒng)的識(shí)別任務(wù)中已經(jīng)有所突破,而且在目標(biāo)檢測[66]、語義分割[67]等領(lǐng)域也展示了其捕捉全局和局部特征的能力。與CNN 相比,Transformer 的圖像序列化是一種全新的形式。

He等人[68]提出基于Transformer的細(xì)粒度圖像識(shí)別網(wǎng)絡(luò)框架。該框架將Transformer最后一層前的原始注意力權(quán)值匯集到了一個(gè)注意力圖中,以指導(dǎo)網(wǎng)絡(luò)選擇準(zhǔn)確的判別區(qū)域圖像塊。具體來說,該方法利用自注意力機(jī)制捕獲最具辨別力的區(qū)域,用圖像塊處理區(qū)域之間的內(nèi)部關(guān)系,還利用對(duì)比損失函數(shù)擴(kuò)大相似子類特征表示之間的距離。該方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。雖然該方案輸入的圖像塊間有重疊,可避免對(duì)局部鄰域結(jié)構(gòu)造成損害,但計(jì)算成本仍然較高且在背景簡單需要較少定位判別區(qū)域的Stanford Cars 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率較低。

圖4 細(xì)粒度Transformer網(wǎng)絡(luò)框架Fig.4 Transformer architecture for fine-grained

雖然He 等人[68]提高了細(xì)粒度圖像識(shí)別的效率,但其方法中圖像塊大小固定,深層類token 集中在全局感受野,不能生成多尺度細(xì)粒度識(shí)別特征。對(duì)此,Zhang等人[69]提出了一種新的自適應(yīng)注意力多尺度融合Transformer 方法。該方法中選擇注意力收集模塊利用注意力權(quán)重,自適應(yīng)地篩選出相對(duì)重要的輸入塊,而且多尺度(全局和局部)通道是由權(quán)重共享編碼器監(jiān)督的,可端到端訓(xùn)練。

細(xì)粒度圖像識(shí)別方法的鑒別線索通常是零碎且會(huì)忽略額外區(qū)域的細(xì)節(jié)信息,對(duì)其他相關(guān)圖像線索缺乏考慮。為了解決上述問題,Liu 等人[70]提出了一種帶有峰值抑制模塊和知識(shí)引導(dǎo)模塊的Transformer結(jié)構(gòu)。峰值抑制模塊根據(jù)注意力權(quán)重值去除最具辨別力的標(biāo)記,強(qiáng)制網(wǎng)絡(luò)關(guān)注額外被忽略的信息區(qū)域,保證細(xì)粒度表示的多樣性;知識(shí)引導(dǎo)模塊將峰值抑制模塊生成的圖像表示與可學(xué)習(xí)的知識(shí)嵌入進(jìn)行比較,獲得知識(shí)響應(yīng)系數(shù),響應(yīng)系數(shù)表示分類分?jǐn)?shù),知識(shí)學(xué)習(xí)形式化表示分類問題。該方案在訓(xùn)練過程中,同時(shí)更新知識(shí)嵌入和圖像表示,使知識(shí)嵌入大量同一類別不同圖像的鑒別線索,將獲得的知識(shí)嵌入到圖像表示中作為綜合表示,從而顯著提高識(shí)別性能。

針對(duì)自注意力機(jī)制將所有圖像塊的信息聚合加權(quán)到分類token上,使深層的分類token更多地聚焦全局信息,缺乏局部和底層特征的問題,Wang 等人[71]提出了一種特征融合視覺Transformer(feature fusion vision transformer,F(xiàn)FVT)框架,匯集了每個(gè)Transformer 層的重要token,以補(bǔ)全局部、底層和中層信息。具體來說,通過一種token 選擇方法,選擇出每一層具有代表性的token 作為最后一層的輸入。實(shí)驗(yàn)表明,該方法提高了細(xì)粒度圖像識(shí)別的準(zhǔn)確率。Conde等人[72]提出了一種多階段ViT的細(xì)粒度圖像識(shí)別框架,該框架利用固有的多頭自注意力機(jī)制從多個(gè)不同的局部區(qū)域捕獲有區(qū)別的圖像特征。同時(shí)采用不同的注意力引導(dǎo)增強(qiáng),通過增強(qiáng)模型來學(xué)習(xí)更多不同的鑒別特征,從而提高了模型的泛化能力。但該方法仍有不足,其不能完全端到端訓(xùn)練,需要以順序(多階段)的方式訓(xùn)練;對(duì)計(jì)算能力要求高。未來目標(biāo)是使框架可端到端訓(xùn)練。

表5 對(duì)基于Transformer 方法進(jìn)行了總結(jié),可見Transformer 在細(xì)粒度圖像識(shí)別任務(wù)中獲得了很高的準(zhǔn)確率。首先提出Transformer 的He[68]方法雖然精度很高,但由于輸入圖像塊大小是固定的,從而適用性較差。Transformer 作為新引進(jìn)的技術(shù),其現(xiàn)有缺點(diǎn)是參數(shù)量大,計(jì)算時(shí)間長。未來可以考慮計(jì)算時(shí)間長短上進(jìn)行探索。

表5 CUB-200-2011數(shù)據(jù)集上不同方法的創(chuàng)新點(diǎn)及準(zhǔn)確率Table 5 Accuracy and innovation points of different methods on CUB-200-2011 dataset

5 未來研究方向

綜上,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,細(xì)粒度識(shí)別已經(jīng)有了良好的發(fā)展前景。本文從卷積神經(jīng)網(wǎng)絡(luò)和Transformer兩個(gè)角度,詳細(xì)介紹了僅使用類別標(biāo)簽的細(xì)粒度圖像方法研究現(xiàn)狀。雖然此領(lǐng)域得到了一定突破,但仍有局限性。在未來,研究者可以繼續(xù)探索細(xì)粒度領(lǐng)域的可能性。

5.1 CNN和Transformer結(jié)合方法

卷積神經(jīng)網(wǎng)絡(luò)和Transformer 兩種方法對(duì)細(xì)粒度圖像識(shí)別任務(wù)的發(fā)展進(jìn)程都有促進(jìn)作用。其中卷積神經(jīng)網(wǎng)絡(luò)側(cè)重于局部信息的獲取,而Transformer 側(cè)重于全局信息的獲取。細(xì)粒度圖像識(shí)別任務(wù)中局部信息和全局信息均有重要作用,因此,未來可以考慮將兩者結(jié)合使用,以進(jìn)一步研究。

5.2 BERT模型方法

BERT 模型是一種語言表征模型,它用Transformer的雙向編碼器表示。與其他語言模型不同,BERT 旨在通過聯(lián)合調(diào)節(jié)所有層中的上下文來預(yù)先訓(xùn)練深度雙向表示。因此,預(yù)訓(xùn)練的BERT表示可以通過一個(gè)額外的輸出層進(jìn)行微調(diào),適用于廣泛任務(wù)的先進(jìn)模型的構(gòu)建,無需針對(duì)具體任務(wù)做大幅架構(gòu)修改。由于Transformer可以提高細(xì)粒度圖像識(shí)別的準(zhǔn)確率,因此,未來可以考慮將BERT模型引入到細(xì)粒度領(lǐng)域加以研究。

5.3 寬度學(xué)習(xí)方法

針對(duì)深度學(xué)習(xí)計(jì)算量太大,計(jì)算成本太高,所以提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)寬度學(xué)習(xí)。相對(duì)于“深度”結(jié)構(gòu)來說,“寬度”結(jié)構(gòu)由于沒有層與層之間的耦合而非常簡潔。同樣,由于沒有多層連接,寬度網(wǎng)絡(luò)亦不需要利用梯度下降來更新權(quán)值,所以計(jì)算速度大大優(yōu)于深度學(xué)習(xí)。在網(wǎng)絡(luò)精度達(dá)不到要求時(shí),可以通過增加網(wǎng)絡(luò)的“寬度”來提升精度,而增加寬度所增加的計(jì)算量和深度網(wǎng)絡(luò)增加層數(shù)相比,可以說是微乎其微。因此,未來可以考慮將寬度學(xué)習(xí)應(yīng)用到細(xì)粒度圖像領(lǐng)域嘗試提高計(jì)算速度。

6 結(jié)束語

細(xì)粒度圖像識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門研究領(lǐng)域。深度卷積特征的出現(xiàn)為其帶來了新的發(fā)展機(jī)遇,視覺Transformer 的出現(xiàn)為細(xì)粒度圖像識(shí)別帶來了新的思路,兩者結(jié)合將會(huì)引領(lǐng)細(xì)粒度圖像識(shí)別達(dá)到一個(gè)新的高度。本文從卷積神經(jīng)網(wǎng)絡(luò)、視覺Transformer 兩類方法上對(duì)細(xì)粒度圖像識(shí)別的發(fā)展?fàn)顩r給予介紹;對(duì)細(xì)粒度識(shí)別的未來研究方向作了深入的討論,總結(jié)了該領(lǐng)域未來可能的發(fā)展機(jī)遇。

猜你喜歡
圖像識(shí)別卷積準(zhǔn)確率
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
基于FPGA的卷積神經(jīng)網(wǎng)絡(luò)加速優(yōu)化方法
支持向量機(jī)的艦船圖像識(shí)別與分類技術(shù)
基于計(jì)算機(jī)視覺的圖像識(shí)別技術(shù)研究
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)