国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于改進(jìn)U-Net的蘋果表皮缺陷無損檢測方法探討

2024-08-14 00:00:00黃旭李澤曾孟佳
南方農(nóng)業(yè)·上旬 2024年6期
關(guān)鍵詞:注意力機(jī)制

摘 要 針對目前蘋果外觀品質(zhì)通過人工篩選成本高昂且效率低下,而傳統(tǒng)機(jī)器視覺方法準(zhǔn)確率較低、魯棒性較差等問題,提出了一種運(yùn)用語義分割技術(shù)自動識別蘋果及其表皮缺陷的方法。該方法以U-Net網(wǎng)絡(luò)為基礎(chǔ),首先在編碼器的CNN分支使用resnet50作為網(wǎng)絡(luò)backbone,同時(shí)加入Transformer分支,用于兼顧局部信息與全局信息的特征提取能力;使用Patch Merging模塊替換原始網(wǎng)絡(luò)中的最大池化下采樣操作,避免空間信息丟失;在解碼器部分,使用dual up-sample提升網(wǎng)絡(luò)的分割精度。改進(jìn)后的網(wǎng)絡(luò)平均像素準(zhǔn)確率(MPA)達(dá)到98.14%,相比于原網(wǎng)絡(luò)提高了7.33%,平均交并比(MIoU)95.57% ,提高了14.14%。與原網(wǎng)絡(luò)相比,改進(jìn)后的網(wǎng)絡(luò)有更好的特征提取能力與分割精度,針對不規(guī)則的缺陷特征也有更好的分割效果。

關(guān)鍵詞 表面缺陷;語義分割;U-Net網(wǎng)絡(luò);蘋果缺陷;注意力機(jī)制

中圖分類號:S661.1 文獻(xiàn)標(biāo)志碼:A DOI:10.19415/j.cnki.1673-890x.2024.11.056

科技創(chuàng)新是農(nóng)業(yè)發(fā)展的動力源泉,習(xí)近平總書記曾指出:“農(nóng)業(yè)現(xiàn)代化,關(guān)鍵是農(nóng)業(yè)科技現(xiàn)代化。要加強(qiáng)農(nóng)業(yè)與科技融合,加強(qiáng)農(nóng)業(yè)科技創(chuàng)新”。在農(nóng)產(chǎn)品的售前檢測中,依靠人工進(jìn)行品質(zhì)的分級篩選一直是個(gè)費(fèi)時(shí)費(fèi)力、效率低下的檢測方法。近年來,有許多研究者將計(jì)算機(jī)視覺技術(shù)應(yīng)用于水果品質(zhì)檢測中,使用計(jì)算機(jī)代替人眼進(jìn)行觀察,這種方法擁有更加客觀的標(biāo)準(zhǔn)、更高的準(zhǔn)確率與效率。水果的外觀代表著它的品質(zhì),對其銷售價(jià)格有著關(guān)鍵性影響。因此,在對水果進(jìn)行售前品質(zhì)檢測有利于改善消費(fèi)者口碑、提高農(nóng)產(chǎn)品經(jīng)濟(jì)效益,具有十分重大的意義。

隨著計(jì)算機(jī)視覺與數(shù)字圖像處理技術(shù)的高速發(fā)展,以圖像處理理論為基礎(chǔ)的傳統(tǒng)方法被廣泛應(yīng)用于水果缺陷檢測中。邱光應(yīng)使用傳統(tǒng)的Canny邊緣檢測算法來提取蘋果邊緣和缺陷區(qū)域邊緣,將提取的顏色、紋理、形狀等特征輸入到SVM進(jìn)行分類來確定是缺陷果還是正常果[1]。項(xiàng)輝宇等基于圖像處理方法使用蘋果形狀、邊緣、紋理等普通特征來定位缺陷目標(biāo)[2]。林海波等提出了基于圖像處理與改進(jìn)SVM(支持向量機(jī))的蘋果多特征融合分級方法,實(shí)現(xiàn)了對蘋果的高精度自動化分級[3]。傳統(tǒng)圖像處理方法通?;谔囟ǖ膱D像處理算法和規(guī)則,缺乏魯棒性,無法處理復(fù)雜缺陷和變化環(huán)境;特征提取過程繁瑣,對于復(fù)雜缺陷手動設(shè)計(jì)的特征提取器可能無法捕捉到所有的關(guān)鍵信息,導(dǎo)致檢測精度下降;面對新的缺陷類型以及不同應(yīng)用場景時(shí),調(diào)整特征工程費(fèi)時(shí)費(fèi)力且無法保證良好檢測性能。

盡管傳統(tǒng)圖像處理方法在某些簡單場景和特定應(yīng)用中仍然行之有效,但隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺的發(fā)展,深度學(xué)習(xí)無需人工設(shè)計(jì)特征,能夠從海量數(shù)據(jù)中自動學(xué)習(xí),提取出更深層次的特征。深度學(xué)習(xí)憑借其更強(qiáng)的學(xué)習(xí)能力、更高的檢測精度及更好的魯棒性,逐漸取代了傳統(tǒng)圖像處理方法,并在許多缺陷檢測任務(wù)中取得了更好的性能。薛勇等利用GoogleNet深度遷移模型對蘋果缺陷進(jìn)行檢測,對測試樣本的識別準(zhǔn)確率為91.91%[4]。何進(jìn)榮等提出多卷積神經(jīng)網(wǎng)絡(luò)融合DXNet模型,采用模型融合的方式抽取經(jīng)典模型卷積部分進(jìn)行融合,作為特征提取器,對蘋果外部品質(zhì)分級展開研究,分級準(zhǔn)確率達(dá)到97.84%[5]。周雨帆等通過改進(jìn)AlexNet提出了一種基于輕量級卷積神經(jīng)網(wǎng)絡(luò)的蘋果表面缺陷的檢測方法,對蘋果缺陷識別精度達(dá)到了98.57%[6]。

近年來,深度學(xué)習(xí)語義分割得到快速的發(fā)展。Long等通過將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)的全連接層替換為卷積層,設(shè)計(jì)提出了一個(gè)全新網(wǎng)絡(luò)——全卷積神經(jīng)網(wǎng)絡(luò)(FCN)。FCN實(shí)現(xiàn)了一個(gè)端到端的全卷積網(wǎng)絡(luò),將編碼器-解碼器結(jié)構(gòu)引入了圖像分割領(lǐng)域[7]。Ronneberger等通過改進(jìn)全卷積神經(jīng)網(wǎng)絡(luò)(FCN),提出了提出了語義分割網(wǎng)絡(luò)U-Net,該模型引入了跳躍連接,它將編碼階段與解碼階段的特征圖在通道上進(jìn)行融合,有利于分割細(xì)節(jié)的恢復(fù)[8]。Zhao等提出了PSPNet,該模型引入了金字塔池化模塊(pyramid pooling module),通過在不同尺度的特征圖上執(zhí)行池化操作,捕獲多尺度的上下文信息以提高分割性能[9]。Vaswani等首次提出了Transformer自注意力機(jī)制(self-attention mechanism)模型,該模型最初應(yīng)用于自然語言處理領(lǐng)域[10]。受Transformer強(qiáng)大的表示能力的啟發(fā),研究人員提出將Transformer擴(kuò)展到計(jì)算機(jī)視覺任務(wù)中,著重提取我們所關(guān)注的關(guān)鍵信息,減少無用的特征信息,提高特征提取效率。Dosovitskiy等將注意力機(jī)制的思想應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,提出了Vision Transformer(ViT)模塊[11]。

無論CNN還是Transformer,它們都存在一定局限性。CNN卷積運(yùn)算擅長提取局部特征,由于有限的感受致使其難以捕獲全局上下文信息,故在捕獲全局特征表示方面有一定的局限性;Transformer的級聯(lián)自注意力模塊可以捕獲特征的長距離表示,但會忽視局部的特征細(xì)節(jié)。因此,不少研究者將CNN與Transformer進(jìn)行結(jié)合,Peng等提出的Conformer模型設(shè)計(jì)了并行的CNN和Transformer分支,采用橋接模塊實(shí)現(xiàn)特征融合[12]。Chen等提出了TransUnet,將U-Net網(wǎng)絡(luò)與Transformer相結(jié)合,先使用CNN提取的局部特征,再通過Transformer獲得全局特征,以此來彌補(bǔ)兩者的局限性[13]。

本文采用深度學(xué)習(xí)語義分割的缺陷檢測方法可以將蘋果表面缺陷檢測任務(wù)轉(zhuǎn)化為缺陷區(qū)域與非缺陷區(qū)域的語義分割問題,針對蘋果表面復(fù)雜多變的缺陷類型,本文提出一種改進(jìn)U-Net蘋果表皮缺陷語義分割網(wǎng)絡(luò),以U-Net網(wǎng)絡(luò)為基礎(chǔ),在編碼階段提出CNN-Transformer并行結(jié)構(gòu),將CNN與Swim Transformer相結(jié)合,兼顧局部特征與全局特征,在解碼階段使用dual up-sample模塊替代原始的上采樣模塊,避免轉(zhuǎn)置卷積容易出現(xiàn)棋盤效應(yīng)的情況,提高分割精度。

1" U-Net網(wǎng)絡(luò)

U-Net是在FCN的基礎(chǔ)上進(jìn)行構(gòu)建的,它U型的網(wǎng)絡(luò)結(jié)構(gòu)解決了FCN無法捕捉上下文的信息和位置信息的弊端,作為語義分割的經(jīng)典網(wǎng)絡(luò),已經(jīng)在醫(yī)學(xué)等領(lǐng)域得到廣泛應(yīng)用。U-Net擁有獨(dú)特的U型編碼器—解碼器結(jié)構(gòu),U-Net網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其左邊部分為特征提取網(wǎng)絡(luò),通過兩次卷積和最大池化組成下采樣模塊,以獲取不同尺度特征圖;右邊部分是特征融合網(wǎng)絡(luò),由一次反卷積、特征拼接以及兩次卷積構(gòu)成上采樣模塊,利用編碼部分得到的不同尺度特征圖通過跳躍連接送到解碼部分,使得高層語義信息和底層信息進(jìn)行融合,并逐步恢復(fù)回原圖大小,最終得到分割結(jié)果。

2" 改進(jìn)的U-Net網(wǎng)絡(luò)

改進(jìn)后的U-Net其網(wǎng)絡(luò)結(jié)構(gòu)依然保持U型編碼器—解碼器結(jié)構(gòu),首先在編碼器設(shè)計(jì)了一個(gè)CNN-Transformer的并行結(jié)構(gòu),在CNN分支中選用Resnet50作為特征提取網(wǎng)絡(luò)來代替原始網(wǎng)絡(luò)中普通CBR模塊(Conv、BN、Relu),并加入一條并行的Transformer分支,使用Swim Transformer模塊來捕獲全局特征表示;在解碼器部分使用dual up-sample模塊作為上采樣模塊,以及hard-swish激活函數(shù)并使用交叉熵dice損失函數(shù),改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

2.1" CNN-Transformer并行結(jié)構(gòu)

傳統(tǒng)的CNN擁有良好的性能,很大程度上歸因于卷積運(yùn)算,卷積更加擅長于局部特征的提取,它以層級的方式一層層地捕獲局部特征以獲得更好的圖像表示,但對于全局特征的捕獲能力卻有所欠缺;Transformer則由于它的自注意力機(jī)制(self-attention)和多層感知機(jī)(MLP)結(jié)構(gòu),能夠反映復(fù)雜的空間變換和長距離特征依賴性,從而獲得全局特征表示。本文提出了一種CNN-Transformer的并行結(jié)構(gòu)作為網(wǎng)絡(luò)的特征提取器,分為CNN分支與Transformer分支,融合不同分辨率下CNN的局部特征和Transformer的全局特征,這樣的并發(fā)結(jié)構(gòu)可以最大程度地保留局部特征和全局表示,并兼顧C(jī)NN與Transformer兩者的優(yōu)點(diǎn)。

首先將原圖分別傳入CNN分支與Transformer分支進(jìn)行特征提取,CNN分支使用resnet50作為特征提取器,總共進(jìn)行4個(gè)階段的特征提取,提取到原圖1/4、1/8、1/16、1/32的特征圖,Transformer分支由不同數(shù)量的Swim Transformer模塊堆疊組成,同樣得到4個(gè)尺度的特征圖,最后再將兩分支多尺度的特征進(jìn)行融合,以獲得更好的特征表示。

2.2" CNN分支

本研究使用Resnet50(Resdiual network 50)替換原始網(wǎng)絡(luò)中的CBR模塊作為局部特征提取模塊,該網(wǎng)絡(luò)是He等[14]于2015年提出的殘差結(jié)構(gòu)網(wǎng)絡(luò)模型,Resnet使得模型更加容易訓(xùn)練,既能防止模型退化,又能防止梯度消失,能夠增強(qiáng)各層之間的特征融合,更好地保留缺陷區(qū)域的特征信息。其次,Resnet可以加載在大數(shù)據(jù)數(shù)據(jù)集(如ImageNet)上的預(yù)訓(xùn)練權(quán)重,可以幫助我們在U-Net的訓(xùn)練中使用更好的初始化權(quán)重,加快網(wǎng)絡(luò)的收斂速度并提高網(wǎng)絡(luò)的泛化能力。

Resnet50的殘差塊由1×1、3×3、1×1的3個(gè)卷積層以及線性單元Relu和線性映射Identity組成,第二層殘差塊的內(nèi)部結(jié)構(gòu)如圖3所示。

在殘差結(jié)構(gòu)中,通過線性映射identity可以將此前的輸入信息與輸出疊加后再通過激活函數(shù)得到輸出,這個(gè)簡單的加法并不會給網(wǎng)絡(luò)增加額外的參數(shù)和計(jì)算量,同時(shí)卻可以大大增加模型的訓(xùn)練速度、提高訓(xùn)練效果,并且當(dāng)模型的層數(shù)加深時(shí),這個(gè)簡單的結(jié)構(gòu)能夠很好的解決退化問題。殘差的表述如下。

F(x)=H(x)?x (1)

Resnet50的特征提取部分通過1個(gè)初始化stem層與4個(gè)由殘差塊疊加構(gòu)成的stage層,每層殘差塊疊加的數(shù)量依次為3、4、6、3,如表1所示。

2.3" Swim Transformer

Swim Transformer的窗口自注意力(Window Multi-heads Self-Attention,W-MSA)相比于基于全局的自注意力(Multi-heads Self-Attention,MSA)方法的方式r[15],減少了計(jì)算復(fù)雜度;移動窗口(Shifted Window Multi-heads Self-Attention,SW-MSA)的方法,使相鄰兩個(gè)窗口之間的信息有了交互,變相的達(dá)到了全局建模的能力,層級結(jié)構(gòu)使Transformer擁有了像CNN一樣的分層結(jié)構(gòu),多尺度的特征信息可以更好的應(yīng)用在下游任務(wù)上。

2.4" Patch Merging模塊

原始的U-Net網(wǎng)絡(luò)在編碼階段,首先通過卷積提取特征,再通過最大池化層來降低特征圖的分辨率以此來獲得不同尺度的特征信息。在Swim Transformer分支中,為了讓圖像有層級式的概念,就需要類似池化的操Patch Merging模塊所做的是類似于池化的操作,作用是進(jìn)行降采樣,用于縮小分辨率,調(diào)整通道數(shù),使用池化層進(jìn)行下采樣會損失空間信息,但Patch Merging不會。Patch Merging的作用就是將圖像的高和寬縮小至原來的1/2,將通道數(shù)升為原來的2倍,具體操作過程如圖4所示。假設(shè)傳入的圖像尺寸為[(H,W,C)],如果降采樣率是2,首先在行方向和列方向上按位置間隔2選取元素,分隔出新的patch寬高都變?yōu)樵瓉淼囊话耄又侔阉衟atch在進(jìn)行通道上融合則得到[(H2,W2,4C)],然后經(jīng)過展平、歸一化再通過線性層調(diào)整通道數(shù)最總得到特征圖的尺寸為[(H2,W2,2C)]。

2.5" dual up-sample

U-Net網(wǎng)絡(luò)中通過編碼階段提取到不同尺度的特征圖,在解碼階段需要進(jìn)行上采樣來逐步恢復(fù)至原圖大小,因此上采樣方法的選擇對于最終分割結(jié)果有很大的影響。普通的反卷積容易產(chǎn)生棋盤效應(yīng);插值法無可學(xué)習(xí)的參數(shù),網(wǎng)絡(luò)無法學(xué)習(xí)如何更好地進(jìn)行插值,因此還原效果較差;文獻(xiàn)[16]提出了一種dual up-sample模塊,該模塊融合了Pixel Shuffle及雙線性插值兩種上采樣方法,Pixel shuffle將低分辨率特征圖像[17],通過重排列與重組來獲得高分辨率的特征圖,能有效改善棋盤效應(yīng);雙線性插值上采樣通過對鄰近像素進(jìn)行加權(quán)平均來生成新的像素值,能夠在一定程度上保持圖像的平滑性和細(xì)節(jié),且速度快,計(jì)算量小。本研究將dual up-sample代替U-Net網(wǎng)絡(luò)中原有地上采樣方案,增強(qiáng)上采樣時(shí)特征信息恢復(fù)能力以及提高邊緣信息的分割精度,以此來改善棋盤效益。本文的dual up-sample模塊如圖5所示,分為Pixel Shuffle通道與Bilinear通道,每個(gè)通道內(nèi)包含2個(gè)卷積層及Hard-Swish[18]層。

3" 實(shí)驗(yàn)與分析

3.1" 實(shí)驗(yàn)數(shù)據(jù)

本文試驗(yàn)采用的蘋果表面缺陷數(shù)據(jù)集通過網(wǎng)絡(luò)采集、實(shí)地拍攝等方法進(jìn)行建立,數(shù)據(jù)集包含蘋果圖像共有1 930張,其中無缺陷的蘋果圖像700張,含缺陷的蘋果圖像1 230張,缺陷包括腐爛、病蟲害、外觀損傷、褶皺四種類型。將圖片分辨率統(tǒng)一縮放至512×512后進(jìn)行人工標(biāo)注,數(shù)據(jù)集類別劃分為蘋果、缺陷、背景3種類別,最后將1 700張圖片數(shù)據(jù)用于訓(xùn)練,300張圖片數(shù)據(jù)用于測試。

3.2" 評價(jià)指標(biāo)

3.3" 實(shí)驗(yàn)過程及結(jié)果

為了確保實(shí)驗(yàn)結(jié)果的準(zhǔn)確性與有效性,本文實(shí)驗(yàn)都在相同的環(huán)境配置下進(jìn)行,具體實(shí)驗(yàn)環(huán)境如表2所示。

為了衡量實(shí)驗(yàn)的有效性,本文實(shí)驗(yàn)統(tǒng)一將實(shí)驗(yàn)每批次樣本數(shù)(batch size)設(shè)定為8,初始學(xué)習(xí)速率設(shè)置為0.01,迭代次數(shù)(epoch)設(shè)置為120次,使用Adam作為優(yōu)化器。

本文以U-Net為基礎(chǔ)網(wǎng)絡(luò)模型,為了驗(yàn)證本文所提出改進(jìn)方案的可行性與有效性,在確保實(shí)驗(yàn)環(huán)境相同的情況下,進(jìn)行了4組消融實(shí)驗(yàn)進(jìn)行對比,如表3所示,具體實(shí)驗(yàn)方案為:1)原始U-Net網(wǎng)絡(luò);2)在方案1中加入dual up-sample(DU)模塊;3)在方案2中加入并行Transformer分支;4)在方案3基礎(chǔ)上在CNN分支中使用Resnet50網(wǎng)絡(luò)進(jìn)行替換。

在上述的消融實(shí)驗(yàn)中,比較方案2與方案1可知,在使用dual up-sample模塊替換原始的雙線性插值上采樣模塊后,平均像素準(zhǔn)確率上升了1.35%,平均交并比提高了3.93%;比較方案3在方案2的基礎(chǔ)上再加入Transformer并行分支,對模型的平均像素準(zhǔn)確率和平均交并比也有一定的提升,分別提升了3.42%和5.56%;方案4在方案3的基礎(chǔ)上使用Resnet50作為CNN分支的特征提取器,并載入Imagenet上的預(yù)訓(xùn)練權(quán)重,模型的性能更進(jìn)一步得到提升,平均像素準(zhǔn)確率達(dá)到98.14%,平均交并比95.57%,相較原始的U-Net模型有了大幅的提高,由此可知,本文的模型改進(jìn)方案是切實(shí)可行的,能夠大幅的提高模型的性能與精度。

為了更進(jìn)一步驗(yàn)證本文模型的性能與檢測效果,本研究同時(shí)還復(fù)現(xiàn)了多個(gè)經(jīng)典語義分割模型進(jìn)行對比實(shí)驗(yàn):PspNet、Deeplabv3[19]、SegNet[20]。SegNet采用VGG16[21]作為特征提取網(wǎng)絡(luò),PspNet、Depplabv3與本文的改進(jìn)型U-Net都采用Resnet50作為特征提取網(wǎng)絡(luò),各模型在相同的實(shí)驗(yàn)配置環(huán)境下對本研究的紅蘋果表面缺陷數(shù)據(jù)集進(jìn)行訓(xùn)練。

由表4可知,本文改進(jìn)的U-Net模型各項(xiàng)指標(biāo)均優(yōu)于PspNet、Deeplabv3、SegNet,其中Deeplabv3的效果較差,準(zhǔn)確率較低,在本研究的數(shù)據(jù)集上的分割效果不理想;PspNet則有較好的效果。

不同模型的分割效果如圖6所示,由圖可知,PspNet與SegNet的分割效果尚可,均能大致的分割出缺陷區(qū)域,但對于與正常果實(shí)顏色相近的缺陷類型SegNet無法正確分割,PspNet也存在小部分邊緣區(qū)域分割不精確的問題;Deeplabv3對于簡單明顯的缺陷區(qū)域可以正確識別,但在復(fù)雜多變的區(qū)域分割效果并不理想。本文在U-Net網(wǎng)絡(luò)中引入CNN-Transformer并行結(jié)構(gòu)與dual up-sample上采樣等模塊對模型進(jìn)行改進(jìn),不僅能正確識別各種類型的缺陷,而且改善了邊緣區(qū)域識別不準(zhǔn)確的問題,提升分割精度,能夠有效地應(yīng)用于蘋果表皮缺陷檢測中。

4" 結(jié)論

本研究基于U-Net語義分割網(wǎng)絡(luò),首先對編碼模塊進(jìn)行改進(jìn),引入了CNN-Transformer并行結(jié)構(gòu),并使用Resnet50作為CNN分支的特征提取網(wǎng)絡(luò),使得模型能夠兼具局部特征與全局特征的能力,然后在解碼模塊中使用dual up-sample作為上采樣模塊,得到改進(jìn)的U-Net蘋果表皮缺陷檢測模型。

通過消融實(shí)驗(yàn)進(jìn)行對比實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明各種單獨(dú)改進(jìn)方案均能不同程度的提升模型性能,最終結(jié)合所有改進(jìn)方案的模型擁有最佳的檢測效果與精度。采用3種主流語義分割模型及本文改進(jìn)模型進(jìn)一步進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明本文模型在CPA、MPA及MIoU指標(biāo)上均優(yōu)于其他3種語義分割模型,擁有更好的分割效果與準(zhǔn)確率。

參考文獻(xiàn):

[1]" 邱光應(yīng).基于機(jī)器視覺的蘋果果梗/花萼與缺陷識別[D].重慶:西南大學(xué),2017.

[2]" 項(xiàng)輝宇,黃恩浩,冷崇杰,等.基于圖像處理與深度學(xué)習(xí)的蘋果檢測分級[J].食品安全導(dǎo)刊,2022(22):48-53.

[3]" 林海波,盧元棟,丁榮誠,等.基于圖像處理與改進(jìn)SVM的蘋果多特征融合分級方法[J].山東農(nóng)業(yè)科學(xué),2022,54(6):141-149.

[4]" 薛勇,王立揚(yáng),張瑜,等.基于GoogLeNet深度遷移學(xué)習(xí)的蘋果缺陷檢測方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(7):30-35.

[5]" 何進(jìn)榮,石延新,劉斌,等.基于DXNet模型的富士蘋果外部品質(zhì)分級方法研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(7):379-385.

[6]" 周雨帆,李勝旺,楊奎河,等.基于輕量級卷積神經(jīng)網(wǎng)絡(luò)的蘋果表面缺陷檢測方法[J].河北工業(yè)科技,2021,38(5):388-394.

[7]" Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015:3431-3440.

[8] Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]. Medical Image Computing and Computer Assisted Intervention, Munich, Germany, 2015:234-241.

[9]" Zhao H S, Shi J P, Qi X J, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017:6230–6239.

[10] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017:6000-6010.

[11] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[J]. arXiv, 2010.11929,2020.

[12] Peng Z, Huang W, Gu S, et al. Conformer: Local features coupling global representations for visual recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision,2021:367-376.

[13] Chen J n, Lu Y y, Yu Q h, et al. Transunet: Transformers make strong encoders for medical image segmentation[J]. arXiv,2102.04306,2021.

[14] He K m, Zhang X y, Ren S q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016:770-778.

[15] Liu Z, Lin Y t, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021:10012-10022.

[16] Fan C M, Liu T J, Liu K H. SUNet: swin transformer UNet for image denoising[C]//Proceedings of the 2022 IEEE International Symposium on Circuits and Systems, 2022:2333-2337.

[17] Shi W z, Caballero J, Huszár F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:1874-1883.

[18] Howard A, Sandler M, Chen B, et al. Searching for MobileNetV3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019:1314-1324.

[19] Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv:1706.05587,2017.

[20] Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017,39(12):2481-2495.

[21] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv:1409.1556,2015.

(責(zé)任編輯:敬廷桃)

猜你喜歡
注意力機(jī)制
基于注意力機(jī)制的行人軌跡預(yù)測生成模型
基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
多特征融合的中文實(shí)體關(guān)系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度學(xué)習(xí)的手分割算法研究
從餐館評論中提取方面術(shù)語
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
门头沟区| 邵武市| 威海市| 修武县| 临泉县| 房产| 麻栗坡县| 翼城县| 祁阳县| 维西| 海盐县| 孝昌县| 宁晋县| 商水县| 武鸣县| 北辰区| 青龙| 视频| 阿瓦提县| 延吉市| 随州市| 阜南县| 房产| 屏山县| 莆田市| 尉犁县| 新宁县| 哈巴河县| 炉霍县| 阳谷县| 松原市| 黄陵县| 新宁县| 镇远县| 新巴尔虎左旗| 福海县| 临汾市| 巢湖市| 翼城县| 尖扎县| 江门市|