基于深度學(xué)習(xí)的大米堊白分割算法研究

2021-05-26 08:41尚玉婷

中國(guó)糧油學(xué)報(bào) 2021年4期

鄧楊王粵尚玉婷

(浙江工商大學(xué)信息與電子工程學(xué)院，杭州 310018)

大米的外觀是關(guān)乎大米品質(zhì)的一項(xiàng)非常重要的指標(biāo)。正常大米呈白色透明狀，堊白區(qū)域因大米含水分過(guò)高或水稻收割時(shí)未成熟而造成，呈白色不透明狀，邊界不清晰，通常位于大米的腹部。含有堊白區(qū)域的大米因?yàn)槿鄙儆兄谌梭w代謝的磷酸烯醇式丙酮酸，營(yíng)養(yǎng)價(jià)值低。大米質(zhì)量安全關(guān)系到國(guó)人的生命健康，如何更加準(zhǔn)確、快速的檢測(cè)出大米是否有堊白，堊白度為多少就顯得尤為重要。

基于機(jī)器視覺(jué)的大米外觀質(zhì)量檢測(cè)是農(nóng)作物外觀檢測(cè)的熱點(diǎn)問(wèn)題，傳統(tǒng)方法主要為基于閾值分割及支持向量機(jī)的算法。Cardarelli等[1]通過(guò)SVM算法，以大米圖像的R、G、B平均分量值作為特征數(shù)據(jù)，對(duì)正常米粒和堊白米粒進(jìn)行識(shí)別。侯彩云等[2]開發(fā)了一套用于稻谷堊白檢測(cè)的圖像處理系統(tǒng)，通過(guò)閾值的設(shè)定提取稻谷中的堊白區(qū)域，并計(jì)算堊白度和堊白粒率，但基于經(jīng)驗(yàn)設(shè)定的閾值給檢測(cè)結(jié)果帶來(lái)了較大的誤差。Sun等[3]根據(jù)灰度值的差異提取堊白區(qū)域和普通米粒，再采用SVM算法對(duì)大米堊白區(qū)域進(jìn)行分類。王粵等[4]用直方圖不同的分布區(qū)分普通米和堊白米，采用改進(jìn)的最大類間方差進(jìn)一步分析米粒的堊白度、堊白率等信息?；趥鹘y(tǒng)的機(jī)器視覺(jué)或機(jī)器學(xué)習(xí)的堊白米識(shí)別方法對(duì)光照條件，米粒上的劃痕，以及胚芽部分的干擾等因素比較敏感，從而造成識(shí)別精度受到較大的影響。

近年來(lái)，隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域獲得的巨大成功，基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割也成為計(jì)算機(jī)視覺(jué)領(lǐng)域中另一個(gè)重要的研究熱點(diǎn)。由Long等[5]在2015年提出的全卷積網(wǎng)絡(luò)(Fully Convolution Networks,FCN)正式將卷積神經(jīng)網(wǎng)絡(luò)引入語(yǔ)義分割領(lǐng)域。隨后的SegNet[6]、U-net[7]、DeeplabV3+[8]均取得了較好的分割結(jié)果。雖然這些網(wǎng)絡(luò)有很好的分割效果，但大量的計(jì)算也還是限制了其在移動(dòng)設(shè)備上的部署。Howard等[9]提出了輕量級(jí)網(wǎng)絡(luò)MobilenetV2，使用深度可分離卷積(Depthwise Separable Convolution)代替普通卷積，極大地減少了網(wǎng)絡(luò)參數(shù)量。PASZKE等[10]使用輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)ENet，實(shí)現(xiàn)嵌入式端的語(yǔ)義分割，且分割精度優(yōu)于SegNet。Wang等[11]提出了實(shí)時(shí)語(yǔ)義分割(Real-time Semantic Segmentation)網(wǎng)絡(luò)LEDNet，編碼結(jié)構(gòu)中通過(guò)channel split and shuffle降低計(jì)算成本，同時(shí)保證分割準(zhǔn)確度，解碼器加入注意力金字塔網(wǎng)絡(luò)(APN，attention pyramid network)，減輕網(wǎng)絡(luò)的復(fù)雜度。

雖然語(yǔ)義分割在很多領(lǐng)域獲得了較大的成功，但將其應(yīng)用到農(nóng)作物大米的外觀質(zhì)量檢測(cè)中的研究并不太多。孫志恒[12]采用改進(jìn)的全卷積神經(jīng)網(wǎng)絡(luò)FCN-8s，并結(jié)合超像素分割技術(shù)，對(duì)大米、大米堊白、大米胚芽進(jìn)行分類識(shí)別，將深度學(xué)習(xí)應(yīng)用到了大米堊白區(qū)域的智能檢測(cè)中，但FCN-8s網(wǎng)絡(luò)參數(shù)量較大，實(shí)時(shí)操作有難度。本研究提出了一個(gè)輕量級(jí)大米堊白米堊白區(qū)域識(shí)別網(wǎng)絡(luò)IMUN，該網(wǎng)絡(luò)不僅能實(shí)現(xiàn)對(duì)大米上的堊白區(qū)域進(jìn)行精確像素級(jí)分割，同時(shí)網(wǎng)絡(luò)模型小，適合于集成到嵌入式可移動(dòng)設(shè)備中。

1 IMUN網(wǎng)絡(luò)的構(gòu)建

語(yǔ)義分割網(wǎng)絡(luò)通常由編碼結(jié)構(gòu)和解碼結(jié)構(gòu)組成，解碼部分將編碼結(jié)構(gòu)中學(xué)習(xí)到的特征從語(yǔ)義映射到像素空間，從而獲得每個(gè)像素的類別。為了獲得較好的分類效果，通常采用VGGNet、ResNet、GoogleNet等網(wǎng)絡(luò)，這些網(wǎng)絡(luò)雖然有較好的分類性能，但參數(shù)量大、運(yùn)算時(shí)間長(zhǎng)，嚴(yán)重限制了語(yǔ)義分割在移動(dòng)設(shè)備和嵌入式設(shè)備端的應(yīng)用?？紤]到農(nóng)作物外觀質(zhì)量的檢測(cè)通常都需要到現(xiàn)場(chǎng)實(shí)地檢測(cè)，那么面向移動(dòng)及嵌入式設(shè)備的輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)就是很好的選擇。因此，本研究編碼結(jié)構(gòu)采用了MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)，并做了以下改進(jìn)：在倒殘差冗余塊的深度可分離卷積中注入空洞卷積，加大視覺(jué)感受野，獲取更多特征信息，同時(shí)，線性瓶頸結(jié)構(gòu)(Linear bottlenecks)使信息的輸出不經(jīng)過(guò)Relu6層，從而更好地保留了特征信息。解碼部分基于UNet的解碼結(jié)構(gòu)，上采樣過(guò)程中獲取的高層特征信息較為抽象，將上采樣過(guò)程中恢復(fù)的特征，與同層編碼結(jié)構(gòu)進(jìn)行特征連接，有助于恢復(fù)信息損失，并且能保留更多細(xì)節(jié)信息。模型整體設(shè)計(jì)呈非對(duì)稱結(jié)構(gòu)，極大地減少了網(wǎng)絡(luò)參數(shù)，提高了訓(xùn)練效率。目前，大部分在移動(dòng)端的深度學(xué)習(xí)任務(wù)都是依賴云服務(wù)器完成計(jì)算的，本研究模型的提出使得網(wǎng)絡(luò)訓(xùn)練可以不通過(guò)云端，直接在移動(dòng)設(shè)備本地完成，避免了系統(tǒng)延時(shí)和額外數(shù)據(jù)開銷等問(wèn)題。IMUN的整體網(wǎng)絡(luò)框架如圖1a所示，編碼結(jié)構(gòu)如表1所示。

表1 編碼結(jié)構(gòu)

1.1 編碼結(jié)構(gòu)

如圖1所示，網(wǎng)絡(luò)的編碼結(jié)構(gòu)由11個(gè)塊(Block)組成，網(wǎng)絡(luò)的輸入圖像為256×256×3的米粒圖像。首先經(jīng)過(guò)1次3×3的普通卷積，并對(duì)其做標(biāo)準(zhǔn)化(BatchNormalization,BN)，激活函數(shù)采用Relu6函數(shù)；接著通過(guò)5次深度可分離卷積，表1中的Conv dw即為深度卷積(Dwpthwise Convolution,DW)；當(dāng)DW卷積完成后，再利用1×1的PW卷積(Pointwise Convolution,PW)做通道調(diào)整，對(duì)其做標(biāo)準(zhǔn)化(BatchNormalization,BN)，激活函數(shù)采用Relu6函數(shù)。接著，進(jìn)入5個(gè)倒殘差空洞卷積冗余塊，結(jié)構(gòu)如圖1b所示。

圖1 IMUN網(wǎng)絡(luò)結(jié)構(gòu)和倒殘差空洞卷積冗余塊

MobileNetV2延用了MobileNetV1的深度可分離卷積，并加入了倒殘差冗余塊，先對(duì)輸入信息做1×1卷積升維，再通過(guò)DW卷積和PW卷積。倒殘差冗余塊的引入增強(qiáng)了梯度信息的傳播，同時(shí)減少了推理所需內(nèi)存。此外，加入線性瓶頸結(jié)構(gòu)直接對(duì)結(jié)果進(jìn)行線性輸出，防止Relu6層帶來(lái)的信息丟失，保留了特征的多樣性，提高了網(wǎng)絡(luò)的魯棒性。網(wǎng)絡(luò)中在第一個(gè)倒殘差結(jié)構(gòu)中不對(duì)結(jié)果做加法輸出。

實(shí)際檢測(cè)中，米粒圖像的像素分辨率較低，大量的卷積會(huì)導(dǎo)致小物體的特征信息無(wú)法重建，也會(huì)導(dǎo)致空間級(jí)化信息丟失，對(duì)分割的準(zhǔn)確度有一定的影響。而空洞卷積則可以在不損失空間信息的情況下，很好的保留全局信息，使得每個(gè)卷積輸出都包含較大范圍的信息。因此，本研究在f3之后均采用了倒殘差空洞卷積冗余塊，改用膨脹系數(shù)為2深度可分離空洞卷積，從而使網(wǎng)絡(luò)在擴(kuò)大感受野的同時(shí)，能捕獲到更多的特征信息。

1.2 解碼網(wǎng)絡(luò)

本研究的解碼結(jié)構(gòu)如表2所示，與編碼結(jié)構(gòu)呈非對(duì)稱，在一定程度上減少了網(wǎng)絡(luò)參數(shù)量，加速了推理過(guò)程。首先將編碼網(wǎng)絡(luò)的f3、f4特征層連接，作為解碼網(wǎng)絡(luò)的輸入，經(jīng)過(guò)卷積和上采樣操作，與f2特征層的信息進(jìn)行連接，再通過(guò)卷積和上采樣與f1特征層連接，最后做卷積和上采樣操作，輸出與輸入圖像尺度相同的圖像。

表2 解碼結(jié)構(gòu)

1.3 損失函數(shù)的優(yōu)化

為了得到更準(zhǔn)確的分割結(jié)果，需要選擇合適的損失函數(shù)減少預(yù)測(cè)值和真實(shí)值之間的差距。交叉熵?fù)p失函數(shù)是語(yǔ)義分割多分類問(wèn)題中最常用的損失函數(shù)，但是這種方法在樣本不均衡的情況下表現(xiàn)得并不好。在一些語(yǔ)義分割場(chǎng)景中，往往一幅圖像中的目標(biāo)像素比例較小，加劇了網(wǎng)絡(luò)訓(xùn)練的難度。在本研究中，堊白和胚芽部分的像素點(diǎn)相對(duì)較少，僅僅選擇交叉熵作為損失函數(shù)無(wú)法進(jìn)行準(zhǔn)確的分割。Tversky loss可以用來(lái)描述真實(shí)區(qū)域和預(yù)測(cè)區(qū)域的相似程度，在目標(biāo)不均衡的場(chǎng)景下有較好的表現(xiàn)。針對(duì)語(yǔ)義分割多分類任務(wù)，本研究提出一種融合了交叉熵?fù)p失函數(shù)和Tversky系數(shù)損失函數(shù)的方式，通過(guò)交叉熵計(jì)算全部類別的損失值，再通過(guò)Tversky loss計(jì)算米粒和堊白區(qū)域的損失值，這兩個(gè)損失值的加權(quán)作為整個(gè)網(wǎng)絡(luò)的損失值。具體定義如下：

MLoss=-λ∑p(x)logq(x)+(1-λ)

(1)

式中：p(x)為預(yù)測(cè)值，q(x)為對(duì)應(yīng)的真值，TP(True Positive)表示實(shí)際為正樣本預(yù)測(cè)正確的樣本，TN(True Negative)表示實(shí)際為負(fù)樣本預(yù)測(cè)正確的樣本，F(xiàn)P(False Positive)表示實(shí)際為負(fù)樣本預(yù)測(cè)錯(cuò)誤的樣本，F(xiàn)N(False Negative)表示實(shí)際為正樣本預(yù)測(cè)錯(cuò)誤的樣本，α是控制FP和FN的權(quán)重因子，λ為控制交叉熵?fù)p失函數(shù)和Tversky系數(shù)損失函數(shù)權(quán)重因子。

2 材料與環(huán)境

2.1 數(shù)據(jù)集采集

本研究選取了市面上比較常見(jiàn)的米粒作為樣本，分別選擇正常粳米、秈米(無(wú)堊白區(qū)域的透明完整米)，堊白粳米、秈米(帶堊白區(qū)域完整米)以及碎米(由于加工、運(yùn)輸?shù)仍蛟斐傻拿琢Ｆ茡p)。使用大恒HV1341UC相機(jī)，25 mm真彩色高清攝像鏡頭，俯視角度拍攝，配合環(huán)形光源，盡可能保證采集樣本不失真，背景托盤采用了黑色無(wú)紋路面板，方便后續(xù)對(duì)采集到的樣本進(jìn)行一系列預(yù)處理。采集樣本在圖像分辨率為1 024×768，共采集300幅米粒圖像，每幅圖像約含15粒米，拍攝樣例如圖2所示。

圖2 米粒拍攝樣本

圖3 米粒原圖及標(biāo)注圖像

2.2 數(shù)據(jù)集制作

考慮到用于深度學(xué)習(xí)的米粒數(shù)據(jù)集中最好是多幅單個(gè)米粒的圖像，因此，上節(jié)獲得的米粒圖像需要做預(yù)處理，對(duì)其進(jìn)行自動(dòng)切割，由于樣本是隨意放置在拍攝臺(tái)上的，米粒之間可能會(huì)出現(xiàn)粘連，必須要通過(guò)一定的切割算法，讓其自動(dòng)形成單個(gè)米粒的多幅圖像。本研究根據(jù)王粵等[13]提出的粘連米粒的分割算法，首先獲取米粒的輪廓線，然后，根據(jù)輪廓線上的各像素點(diǎn)的曲率方向判斷米粒是否有粘連，若有，則尋找并計(jì)算最佳粘連點(diǎn)對(duì)，實(shí)現(xiàn)米粒的粘連分割，由此可以獲得每顆米粒的完整輪廓線。之后就可依據(jù)每顆米粒的輪廓線信息，獲取對(duì)應(yīng)的米粒的圖像信息，這樣，上節(jié)采集到的圖像中的每粒米都可對(duì)應(yīng)生成一副新的背景為黑色的圖像。

通過(guò)對(duì)粘連米粒的分割，得到2 000幅單個(gè)米粒樣本，其中包括936粒正常米，1 049粒堊白米，15粒碎米。為了防止樣本數(shù)據(jù)太少造成的訓(xùn)練結(jié)果過(guò)擬合，對(duì)分割后的的2 000個(gè)米粒樣本進(jìn)行數(shù)據(jù)增強(qiáng)，分別進(jìn)行鏡像、旋轉(zhuǎn)等操作，并隨機(jī)選取樣本進(jìn)行顏色抖動(dòng)，最終得到10 000幅訓(xùn)練樣本，其中8 000幅為訓(xùn)練集，1 000幅為驗(yàn)證集，1 000幅為測(cè)試集。使用開源工具Labelme，對(duì)采集到的大米圖像中的無(wú)堊白區(qū)域米粒、堊白區(qū)域及胚芽3個(gè)部分進(jìn)行標(biāo)注，數(shù)據(jù)集中共有米粒、堊白、胚芽、背景4類。圖3為分割后的米粒樣本與其對(duì)應(yīng)的標(biāo)簽。

2.3 實(shí)驗(yàn)環(huán)境

本研究基于Ubuntu 16.04操作系統(tǒng)，處理器為2顆8核Inter E5-2620V42.0Ghz，128G內(nèi)存，2 400 MHz，GPU為2塊NVIDIA TITAN XPPASAL。模型的搭建與訓(xùn)練驗(yàn)證通過(guò)Python語(yǔ)言實(shí)現(xiàn)，基于Keras2.1.5深度學(xué)習(xí)框架，并行計(jì)算框架使用CUDA 9.10版本。Batch_size設(shè)置為16，初始學(xué)習(xí)率(Learning Rate)設(shè)置為0.0001，訓(xùn)練40代(Epoch)，通過(guò)ReduceLROnPlateau調(diào)整學(xué)習(xí)率，當(dāng)評(píng)價(jià)指標(biāo)不再提升時(shí)，減少學(xué)習(xí)率。

3 結(jié)果與分析

3.1 不同權(quán)重因子對(duì)分割結(jié)果的影響

為了驗(yàn)證損失函數(shù)的有效性，尋找更合適的權(quán)重因子，得到更高準(zhǔn)確度的分割結(jié)果，本研究做了九組對(duì)比實(shí)驗(yàn)，如表3所示。從實(shí)驗(yàn)結(jié)果可以看出，當(dāng)控制Tversky loss的權(quán)重因子α=0.9，控制MLoss的權(quán)重因子λ=0.7時(shí)，堊白區(qū)域的Intersection Over Union(IOU,交并比)值最高，達(dá)到94.11%，同時(shí)Mean Intersection Over Union(MIOU,平均交并比)達(dá)到92%，Pixel Accuracy(PA,像素準(zhǔn)確精度)和Mean Pixel Accuracy(MPA,平均像素精度)分別為98.61%和96.34%。當(dāng)α=0.9，λ=0.7時(shí)，網(wǎng)絡(luò)在迭代30代之后，訓(xùn)練集的訓(xùn)練精度呈穩(wěn)定狀態(tài)，接近99.5%，驗(yàn)證集的訓(xùn)練精度在98%～99%之間波動(dòng)；訓(xùn)練集的損失值最后穩(wěn)定在5.41～5.92，驗(yàn)證集的損失值在迭代了35代之后逐漸穩(wěn)定。

表3 不同權(quán)重因子下的評(píng)價(jià)指標(biāo)

3.2 與其他語(yǔ)義分割網(wǎng)絡(luò)的結(jié)果對(duì)比

本研究模型旨在盡可能保證準(zhǔn)確度的同時(shí)，降低模型參數(shù)量。本研究的IMUN與其他各種網(wǎng)絡(luò)結(jié)構(gòu)的比較結(jié)果如表4所示，可視化結(jié)果如圖4所示?；贛obilenetV2網(wǎng)絡(luò)和基于VGG16網(wǎng)絡(luò)的解碼結(jié)構(gòu)與本研究模型均選擇了Unet，由表4可以看出：二者的參數(shù)量分別為本研究模型的3倍和14.8倍，即便是參數(shù)量較少的MobilenetV2-Unet模型，IOU和MIOU也比本研究模型低了2.65%和2.55%。而LEDnet和Enet作為經(jīng)典的輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)，參數(shù)量雖然比本研究模型少，但I(xiàn)OU比本研究模型低了3.55%和6.37%，MIOU低了3.82%和5.16%；Segnet和基于Xception的DeeplabV3+有較好的分割效果，堊白區(qū)域的IOU分別達(dá)到95.97%和97.45%，但參數(shù)量分別為本研究模型的4.9倍和19.7倍，雖然獲得了較高準(zhǔn)確率，但參數(shù)量較大。

表4 不同模型下的評(píng)價(jià)指標(biāo)

圖4 不同分割方法的可視化結(jié)果

4 結(jié)論

本研究提出了一個(gè)輕量級(jí)的語(yǔ)義分割網(wǎng)絡(luò)IMUN，與參數(shù)量較大的經(jīng)典語(yǔ)義分割網(wǎng)絡(luò)相比，在幾乎不損失準(zhǔn)確度的情況下減少了網(wǎng)絡(luò)參數(shù)量；與輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)相比，參數(shù)量在同一量級(jí)，但對(duì)堊白區(qū)域的分割能力更為突出。接下來(lái)的研究將對(duì)網(wǎng)絡(luò)進(jìn)一步優(yōu)化，提升大米堊白區(qū)域的分割準(zhǔn)確度；并以本網(wǎng)絡(luò)結(jié)構(gòu)為核心，添加圖像采集、圖像預(yù)處理、圖像粘連分割等模塊，從而能實(shí)時(shí)在線檢測(cè)包括堊白度和堊白率在內(nèi)的各種大米外觀信息。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡