国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遷移學(xué)習(xí)的自然環(huán)境下香梨目標(biāo)識別研究?

2019-12-04 07:05孟欣欣阿里甫庫爾班呂情深周雷
關(guān)鍵詞:香梨水果噪聲

孟欣欣,阿里甫·庫爾班,呂情深,周雷

(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.中國科學(xué)院軟件學(xué)院,新疆 烏魯木齊 830008)

0 引言

新疆是香梨的故鄉(xiāng)[1].截至到2014年,僅巴州地區(qū)香梨的種植面積已經(jīng)達(dá)到4.711萬hm2,其中年產(chǎn)量為48.3萬噸[2],這給香梨的采摘工作帶來了巨大的挑戰(zhàn):人工采摘高額的成本、采摘工作中安全隱患及采摘工作時間成本高等.現(xiàn)在國內(nèi)外還沒有專門的香梨采摘機(jī)器,在人工智能迅速發(fā)展的今天,香梨采摘機(jī)器人的研究也將逐步提上議事日程.相信農(nóng)業(yè)機(jī)器化的普及,對于新疆農(nóng)業(yè)的發(fā)展有著重要的意義,它不僅解放了農(nóng)民的雙手、提高了農(nóng)產(chǎn)品的生產(chǎn)效率,對增強(qiáng)農(nóng)業(yè)的抗風(fēng)險能力也有著至關(guān)重要的作用.

近年來,對于自然環(huán)境下果實的識別,國內(nèi)外的學(xué)者都做了大量的工作,其中丁亞蘭等[2]基于R-B顏色因子分割圖像[4]對于果實識別來講具有局限性,對于高強(qiáng)光以及陰影區(qū)的果實識別效果不是很好;宋懷波等[5]利用凸殼理論[6]對蘋果識別有著非常好的效果,其通過L*a*b顏色空間下的K-means聚類算法[7]得到目標(biāo)邊緣,然后利用目標(biāo)邊緣的凸殼提取光滑的輪廓曲線,此模型對于近似于圓形的蘋果識別效果非常好,但是對于其他水果的識別則具有較大的局限性.傅隆生等[8]基于卷積神經(jīng)網(wǎng)絡(luò)模型識別方法大大提高了果實的識別準(zhǔn)確率,但是卻丟失了果實的邊緣輪廓信息.

與傳統(tǒng)方法不同,期望能得到一個識別自然環(huán)境下[9]成熟香梨果實的深度卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測模型[10],通過給該模型輸入不同樣本下的香梨圖像,模型總能輸出準(zhǔn)確的檢測結(jié)果,給出圖片中目標(biāo)的位置和輪廓.綜上所述,提出了基于Mask R-CNN[11]的深度網(wǎng)絡(luò)模型,若僅使用COCO數(shù)據(jù)集預(yù)訓(xùn)練的模型識別水果,對于遮擋水果的識別效果不是很好.因此,本文提出使用大量的水果圖片數(shù)據(jù)集先對Resnet[12]神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,得到水果圖片特征提取器,然后在預(yù)訓(xùn)練的基礎(chǔ)上訓(xùn)練香梨圖片數(shù)據(jù)集,最終得到香梨目標(biāo)檢測模型.

1 模型與方法

1.1 用于香梨檢測的Mask R-CNN主要過程

為了訓(xùn)練出有效的香梨檢測模型,本文將工作分為三個階段,即預(yù)訓(xùn)練階段、遷移學(xué)習(xí)訓(xùn)練階段和測試階段.如圖1所示.首先在Kaggle數(shù)據(jù)集中以及網(wǎng)絡(luò)上爬取并篩選出大量的水果圖片(9 600張)對Resnet進(jìn)行預(yù)訓(xùn)練,獲得能識別水果圖片的神經(jīng)網(wǎng)絡(luò)模型,然后在預(yù)訓(xùn)練模型的基礎(chǔ)上加上Mask分支以及classifier分支來對自然環(huán)境下獲得的香梨圖片進(jìn)行再次訓(xùn)練,從而獲得識別自然環(huán)境下[13]成熟香梨的目標(biāo)檢測模型,最后對目標(biāo)檢測模型輸入新樣本數(shù)據(jù)從而得到目標(biāo)檢測結(jié)果.

圖1 基于Mask R-CNN的香梨目標(biāo)檢測流程Fig 1 Target detection flow of fragrant pear based on Mask R-CNN

1.2 Mask R-CNN模型

Mask R-CNN同F(xiàn)aster R-CNN[14]具有同樣的原理,相比于Faster R-CNN,Mask R-CNN是在Faster R-CNN的基礎(chǔ)之上融合了FCN[15](全卷積網(wǎng)絡(luò))和FPN[16](特征金字塔網(wǎng)絡(luò))的多任務(wù)深度神經(jīng)網(wǎng)絡(luò).相比于Faster RCNN中的ROI Pooling操作,Mask R-CNN提出了ROI Allign操作,對于目標(biāo)的分類沒有多大區(qū)別,但是在預(yù)測目標(biāo)Mask的值時將會更加準(zhǔn)確.如圖2所示,Mask R-CNN分為三部分:1、Resnet特征提取部分;2、RPN部分;3、classifier分類網(wǎng)絡(luò)部分.首先使用Resnet卷積網(wǎng)絡(luò)提取圖片的特征得到特征圖(feature maps),將特征圖送入RPN(區(qū)域建議網(wǎng)絡(luò))產(chǎn)生ROIs(感興趣區(qū)),RPN首先對每個特征點產(chǎn)生anchor(錨點),然后通過softmaxloss訓(xùn)練判斷每個anchor是否覆蓋目標(biāo),通過smoothL1loss訓(xùn)練計算包含目標(biāo)對象的anchor并對包含目標(biāo)對象的anchor進(jìn)行第一次邊框修正.然后將RoIs和特征圖送入ROI Allign layer,通過ROI Allign操作對每個RoI提取對應(yīng)的特征并將特征的維度轉(zhuǎn)化為特定的值.所有的特征將全部輸入到全連接層進(jìn)行結(jié)果共享,產(chǎn)生兩個支路和一個掩模分支,同RPN原理一樣,一條支路通過softmax回歸計算目標(biāo)屬于K+1(背景)類的概率估算值;一條支路輸出每個圖像中K類目標(biāo)檢測框中的4個坐標(biāo)值并對含K類目標(biāo)的邊框值進(jìn)行第二次修正;掩模分支則以像素到像素的方式來對分割掩模進(jìn)行預(yù)測,該Mask分支是卷積網(wǎng)絡(luò),它只對ROI分類器選擇的正區(qū)域生成Mask.

圖2 Mask R-CNN原理結(jié)構(gòu)圖Fig 2 Mask R-CNN schematic diagram

1.3 輸出層回歸計算

Mask R-CNN的最終目標(biāo)是得到三個輸出結(jié)果:目標(biāo)的種類、目標(biāo)的檢測框坐標(biāo)以及目標(biāo)的掩模.由于本文只對目標(biāo)進(jìn)行識別,不做分類,所以對于目標(biāo)種類的函數(shù)損失相應(yīng)的調(diào)小其權(quán)重值.Mask R-CNN是通過多任務(wù)的損失函數(shù)來計算感興趣區(qū)域的輸出結(jié)果,所以在RPN層中定義損失函數(shù)為:

式(1)中λ 表示權(quán)衡分類和回歸的損失,λ值越大表示越重視回歸的損失,λ越小表示越重視分類的損失.Lcls為分類損失函數(shù),它是兩個類別的對數(shù)損失函數(shù),公式表示為

式(2)中i表示候選框的索引,pi表示候選框被預(yù)測為含有目標(biāo)的概率,當(dāng)候選框表示為正例時pi為1,反之則為0.Lreg為邊框回歸損失函數(shù),公式表示為:

式(3)中ti是預(yù)測出邊框的四個參數(shù)化構(gòu)成的坐標(biāo)向量,表示與正例相關(guān)的真實值邊框.對于邊框損失來說,四個坐標(biāo)參數(shù)化表示公式為:

式(4)中x,y,w,h分別代表標(biāo)記框的中心點坐標(biāo)和寬高,x,xa,x?分別代表預(yù)測框、anchor框、和真實框的x坐標(biāo)(y,w,h同樣).式(5)是式(3)中的R,R為魯棒損失函數(shù),公式為:

由于在ROI區(qū)域上加上Mask層,所以classifier分類網(wǎng)絡(luò)部分的損失函數(shù)表示為:

在式(6)中Lcls和Lbox同RPN原理近似,其中Lbox和Lmask都是對含有目標(biāo)的ROI起作用.Lmask為掩碼誤差,公式表示為:

式(7)中m2表示掩碼分支對每個正例的ROIs產(chǎn)生的m?m大小掩模,i表示當(dāng)前ROIs的種類,K則表示物體的種類數(shù)目.在Mask R-CNN模型中,總的訓(xùn)練損失函數(shù)Lfinal可以描述為:

2 實驗準(zhǔn)備

2.1 數(shù)據(jù)獲取

遷移學(xué)習(xí)[17,18]是訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型常用方法,它通過在別人模型訓(xùn)練的基礎(chǔ)上獲得相應(yīng)的權(quán)重,然后將這些權(quán)重應(yīng)用到自己的模型中,從而在數(shù)據(jù)量較小的情況下,獲得更準(zhǔn)確的模型.COCO數(shù)據(jù)集中的水果圖片數(shù)量較少,為了在預(yù)訓(xùn)練環(huán)節(jié)中獲得更多的水果特征,使香梨檢測模型在遷移學(xué)習(xí)中獲得更多的香梨圖片特征,因此通過選取水果圖片對模型進(jìn)行預(yù)訓(xùn)練的方式來實現(xiàn).

為了得到大量的水果圖片數(shù)據(jù)集,通過選取Kaggle數(shù)據(jù)集以及在網(wǎng)絡(luò)上爬取水果圖片把模糊的不符合要求的圖片進(jìn)行篩選共獲得9 600張與香梨外形相似的水果圖片,主要有蘋果、柑橘、桃、山楂、草莓、獼猴桃等21類.

由于網(wǎng)上沒有公開的香梨數(shù)據(jù)集,為了增加香梨識別模型的準(zhǔn)確性,使模型更好的應(yīng)用到實際中,通過實景拍攝進(jìn)行數(shù)據(jù)采集,試驗供試場地為庫爾勒村民梨園,通過Canon EOS 70D相機(jī)在庫爾勒梨園中對不同角度、互相遮擋的香梨進(jìn)行拍攝,其中天氣晴朗時的照片有1 000張,雨天和陰天時的照片共有1 000張,圖片為JPEG格式,分辨率為2 736×1 824像素.為了測試模型的性能,又在網(wǎng)上爬取了200張香梨圖片作為測試集.

2.2 數(shù)據(jù)增強(qiáng)

在現(xiàn)實中獲得數(shù)據(jù)常常需要很高的代價,為此需要對數(shù)據(jù)集進(jìn)行擴(kuò)展[18],通過對照片的翻轉(zhuǎn)、旋轉(zhuǎn)、添加噪聲等方法來擴(kuò)展訓(xùn)練數(shù)據(jù)集.這些方法不僅可以增加數(shù)據(jù)量,同時可以模擬現(xiàn)實中的真實變化,提升模型的準(zhǔn)確性以及泛化能力.通過對數(shù)據(jù)集進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)、添加椒鹽噪聲、添加高斯噪聲等手段,最終得到4 500張香梨圖片,其中訓(xùn)練集3 500張,測試集1 500張,而網(wǎng)上下載的圖片全部用于測試集中.每張圖片不小于2 736×1 824像素.

3 實驗結(jié)果和分析

3.1 實驗平臺

實驗基于tensorflow (版本為:1.10.0)深度學(xué)習(xí)框架,Python版本為3.5.2,實驗硬件環(huán)境為:Intel(R)Core(TM) i5-4210U CPU @2.40GHz四核CPU,8GB內(nèi)存,NVIDIA GeForce GT 820M 2GB顯卡.Resnet網(wǎng)絡(luò)的層數(shù)不同,其最終訓(xùn)練出的識別模型優(yōu)劣性也不同,為此,分別選取了Resnet50、Resnet101和Resnet152來進(jìn)行對比.

3.2 實驗對比

如圖3所示.在訓(xùn)練30批次后,a圖中的resnet152網(wǎng)絡(luò)結(jié)構(gòu)總的損失函數(shù)值相比于resnet50網(wǎng)絡(luò)和resnet101網(wǎng)絡(luò)要小,同比于b圖中的驗證損失函數(shù)值,最終選擇Resnet152作為Mask R-CNN的特征提取網(wǎng)絡(luò).圖4為Mask R-CNN模型的檢測效果圖.

圖3 Resnet卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練30批次后損失函數(shù)圖Fig 3 Loss function diagram of Resnet convolution neural network after 30 batches of training

圖4 Mask R-CNN模型的檢測效果圖Fig 4 Detection effect of Mask R-CNN model

為了驗證本文提出的方法在香梨識別分割中的穩(wěn)定性和有效性,通過分割精度[19]來評價Mask R-CNN模型對香梨圖片分割的效果,公式為:

其中RS表示圖像中目標(biāo)的面積(像素個數(shù)),TS表示算法分割得到的圖像面積,|RS?TS| 表示錯誤分割的像素點個數(shù).如表1所示,選取部分果實目標(biāo)像素進(jìn)行統(tǒng)計,未添加噪聲的圖像平均分割精度值為98.02%,添加噪聲的平均精度值為97.49%.其中表1目標(biāo)8為被遮擋香梨所測出的像素值,由于被遮擋水果的數(shù)目眾多,所以對被遮擋的香梨分割精度進(jìn)行了統(tǒng)計.在未添加噪聲的情況下,被遮擋水果的平均精度誤差為95.28%,同未被遮擋的香梨誤差不是很大,由此可以看出預(yù)訓(xùn)練的Mask R-CNN模型對于遮擋水果也有著較好的識別效果.

表1 不同參數(shù)下分割精度誤差對比Tab 1 Comparison of human evaluation scores

圖5 水果圖片數(shù)據(jù)集預(yù)訓(xùn)練模型與COCO數(shù)據(jù)集預(yù)訓(xùn)練模型對比效果圖Fig 5 Comparison of fruit image data set pre-training model and COCO data set pre-training model

圖5為與用COCO數(shù)據(jù)集預(yù)訓(xùn)練模型做比較的結(jié)果,其中圖5中的(c)(e)為分割后的二值圖像,可以看出使用水果圖片數(shù)據(jù)集預(yù)訓(xùn)練出的Mask R-CNN模型的分割結(jié)果要高于用COCO數(shù)據(jù)集作為預(yù)訓(xùn)練的結(jié)果.在無噪聲的情況下用遺傳算法+otsu分割算法和用COCO數(shù)據(jù)集預(yù)訓(xùn)練模型訓(xùn)練出的結(jié)果與本文方法做對比,從表2可以看出使用水果圖片數(shù)據(jù)集預(yù)訓(xùn)練的Mask R-CNN模型在未添加噪聲的情況下,平均分割精度為98.02%,添加噪聲后為97.49%,精度誤差僅增加了0.53%.用COCO數(shù)據(jù)集作為預(yù)訓(xùn)練的Mask R-CNN模型在未添加噪聲的情況下,平均分割精度為93.72%,添加噪聲后為92.28%,精度誤差增加了1.44%.而遺產(chǎn)算法+otsu分割算法在未添加噪聲的情況下,平均分割精度為85.23%,添加噪聲后為79.55%,精度誤差增加了5.68%.因此使用水果圖片數(shù)據(jù)集預(yù)訓(xùn)練出的Mask R-CNN模型在香梨目標(biāo)檢測中取得較好的結(jié)果.

表2 不同方法下分割精度誤差對比Tab 2 Error comparison of segmentation accuracy under different methods

4 結(jié)論

在目標(biāo)分割上,提出了使用水果圖片數(shù)據(jù)集對Mask R-CNN進(jìn)行預(yù)訓(xùn)練,通過預(yù)訓(xùn)練后的分割模型對香梨目標(biāo)進(jìn)行分割,從而實現(xiàn)對香梨目標(biāo)的準(zhǔn)確識別.為了檢測該模型的穩(wěn)定性,通過對數(shù)據(jù)集增加噪聲的方法來對模型進(jìn)行測試,其中添加噪聲的平均精度為98.02%,這與沒有增加噪聲的數(shù)據(jù)(97.49%)相比,誤差僅增加0.53%,因此該模型具有很好的魯棒性.

由于本文方法只對圖片進(jìn)行了研究與測試,獲得了相對不錯的結(jié)果,但是對于機(jī)器采摘來講,實時準(zhǔn)確的對目標(biāo)進(jìn)行定位和追蹤才是最終的目標(biāo),所以下一步的研究目標(biāo)是怎樣實現(xiàn)實時的香梨目標(biāo)檢測與定位[20].

猜你喜歡
香梨水果噪聲
玉露香梨“賽美人”
“隰縣玉露香梨”品牌建設(shè)
噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
控制噪聲有妙法
四月里該吃什么水果
香梨:瀚海的果實
水果篇之Cherry
一種基于白噪聲響應(yīng)的隨機(jī)載荷譜識別方法
水果暢想曲
延遲采收對庫爾勒香梨落果與果實品質(zhì)的影響
康乐县| 农安县| 英山县| 扶风县| 阿合奇县| 玉林市| 科技| 凭祥市| 长宁区| 通渭县| 磴口县| 南阳市| 康定县| 巴青县| 灵武市| 图片| 读书| 体育| 苗栗县| 大名县| 黑水县| 海南省| 屏南县| 平陆县| 金沙县| 筠连县| 新余市| 深州市| 拉孜县| 齐河县| 无极县| 肥东县| 鹤庆县| 清流县| 陇川县| 津南区| 桂东县| 资阳市| 旺苍县| 隆昌县| 平邑县|