鄧 楊 王 粵 尚玉婷
(浙江工商大學(xué)信息與電子工程學(xué)院,杭州 310018)
大米的外觀是關(guān)乎大米品質(zhì)的一項(xiàng)非常重要的指標(biāo)。正常大米呈白色透明狀,堊白區(qū)域因大米含水分過(guò)高或水稻收割時(shí)未成熟而造成,呈白色不透明狀,邊界不清晰,通常位于大米的腹部。含有堊白區(qū)域的大米因?yàn)槿鄙儆兄谌梭w代謝的磷酸烯醇式丙酮酸,營(yíng)養(yǎng)價(jià)值低。大米質(zhì)量安全關(guān)系到國(guó)人的生命健康,如何更加準(zhǔn)確、快速的檢測(cè)出大米是否有堊白,堊白度為多少就顯得尤為重要。
基于機(jī)器視覺(jué)的大米外觀質(zhì)量檢測(cè)是農(nóng)作物外觀檢測(cè)的熱點(diǎn)問(wèn)題,傳統(tǒng)方法主要為基于閾值分割及支持向量機(jī)的算法。Cardarelli等[1]通過(guò)SVM算法,以大米圖像的R、G、B平均分量值作為特征數(shù)據(jù),對(duì)正常米粒和堊白米粒進(jìn)行識(shí)別。侯彩云等[2]開發(fā)了一套用于稻谷堊白檢測(cè)的圖像處理系統(tǒng),通過(guò)閾值的設(shè)定提取稻谷中的堊白區(qū)域,并計(jì)算堊白度和堊白粒率,但基于經(jīng)驗(yàn)設(shè)定的閾值給檢測(cè)結(jié)果帶來(lái)了較大的誤差。Sun等[3]根據(jù)灰度值的差異提取堊白區(qū)域和普通米粒,再采用SVM算法對(duì)大米堊白區(qū)域進(jìn)行分類。王粵等[4]用直方圖不同的分布區(qū)分普通米和堊白米,采用改進(jìn)的最大類間方差進(jìn)一步分析米粒的堊白度、堊白率等信息?;趥鹘y(tǒng)的機(jī)器視覺(jué)或機(jī)器學(xué)習(xí)的堊白米識(shí)別方法對(duì)光照條件,米粒上的劃痕,以及胚芽部分的干擾等因素比較敏感,從而造成識(shí)別精度受到較大的影響。
近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域獲得的巨大成功,基于卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割也成為計(jì)算機(jī)視覺(jué)領(lǐng)域中另一個(gè)重要的研究熱點(diǎn)。由Long等[5]在2015年提出的全卷積網(wǎng)絡(luò)(Fully Convolution Networks,FCN)正式將卷積神經(jīng)網(wǎng)絡(luò)引入語(yǔ)義分割領(lǐng)域。隨后的SegNet[6]、U-net[7]、DeeplabV3+[8]均取得了較好的分割結(jié)果。雖然這些網(wǎng)絡(luò)有很好的分割效果,但大量的計(jì)算也還是限制了其在移動(dòng)設(shè)備上的部署。Howard等[9]提出了輕量級(jí)網(wǎng)絡(luò)MobilenetV2,使用深度可分離卷積(Depthwise Separable Convolution)代替普通卷積,極大地減少了網(wǎng)絡(luò)參數(shù)量。PASZKE等[10]使用輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)ENet,實(shí)現(xiàn)嵌入式端的語(yǔ)義分割,且分割精度優(yōu)于SegNet。Wang等[11]提出了實(shí)時(shí)語(yǔ)義分割(Real-time Semantic Segmentation)網(wǎng)絡(luò)LEDNet,編碼結(jié)構(gòu)中通過(guò)channel split and shuffle降低計(jì)算成本,同時(shí)保證分割準(zhǔn)確度,解碼器加入注意力金字塔網(wǎng)絡(luò)(APN,attention pyramid network),減輕網(wǎng)絡(luò)的復(fù)雜度。
雖然語(yǔ)義分割在很多領(lǐng)域獲得了較大的成功,但將其應(yīng)用到農(nóng)作物大米的外觀質(zhì)量檢測(cè)中的研究并不太多。孫志恒[12]采用改進(jìn)的全卷積神經(jīng)網(wǎng)絡(luò)FCN-8s,并結(jié)合超像素分割技術(shù),對(duì)大米、大米堊白、大米胚芽進(jìn)行分類識(shí)別,將深度學(xué)習(xí)應(yīng)用到了大米堊白區(qū)域的智能檢測(cè)中,但FCN-8s網(wǎng)絡(luò)參數(shù)量較大,實(shí)時(shí)操作有難度。本研究提出了一個(gè)輕量級(jí)大米堊白米堊白區(qū)域識(shí)別網(wǎng)絡(luò)IMUN,該網(wǎng)絡(luò)不僅能實(shí)現(xiàn)對(duì)大米上的堊白區(qū)域進(jìn)行精確像素級(jí)分割,同時(shí)網(wǎng)絡(luò)模型小,適合于集成到嵌入式可移動(dòng)設(shè)備中。
語(yǔ)義分割網(wǎng)絡(luò)通常由編碼結(jié)構(gòu)和解碼結(jié)構(gòu)組成,解碼部分將編碼結(jié)構(gòu)中學(xué)習(xí)到的特征從語(yǔ)義映射到像素空間,從而獲得每個(gè)像素的類別。為了獲得較好的分類效果,通常采用VGGNet、ResNet、GoogleNet等網(wǎng)絡(luò),這些網(wǎng)絡(luò)雖然有較好的分類性能,但參數(shù)量大、運(yùn)算時(shí)間長(zhǎng),嚴(yán)重限制了語(yǔ)義分割在移動(dòng)設(shè)備和嵌入式設(shè)備端的應(yīng)用??紤]到農(nóng)作物外觀質(zhì)量的檢測(cè)通常都需要到現(xiàn)場(chǎng)實(shí)地檢測(cè),那么面向移動(dòng)及嵌入式設(shè)備的輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)就是很好的選擇。因此,本研究編碼結(jié)構(gòu)采用了MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu),并做了以下改進(jìn):在倒殘差冗余塊的深度可分離卷積中注入空洞卷積,加大視覺(jué)感受野,獲取更多特征信息,同時(shí),線性瓶頸結(jié)構(gòu)(Linear bottlenecks)使信息的輸出不經(jīng)過(guò)Relu6層,從而更好地保留了特征信息。解碼部分基于UNet的解碼結(jié)構(gòu),上采樣過(guò)程中獲取的高層特征信息較為抽象,將上采樣過(guò)程中恢復(fù)的特征,與同層編碼結(jié)構(gòu)進(jìn)行特征連接,有助于恢復(fù)信息損失,并且能保留更多細(xì)節(jié)信息。模型整體設(shè)計(jì)呈非對(duì)稱結(jié)構(gòu),極大地減少了網(wǎng)絡(luò)參數(shù),提高了訓(xùn)練效率。目前,大部分在移動(dòng)端的深度學(xué)習(xí)任務(wù)都是依賴云服務(wù)器完成計(jì)算的,本研究模型的提出使得網(wǎng)絡(luò)訓(xùn)練可以不通過(guò)云端,直接在移動(dòng)設(shè)備本地完成,避免了系統(tǒng)延時(shí)和額外數(shù)據(jù)開銷等問(wèn)題。IMUN的整體網(wǎng)絡(luò)框架如圖1a所示,編碼結(jié)構(gòu)如表1所示。
表1 編碼結(jié)構(gòu)
如圖1所示,網(wǎng)絡(luò)的編碼結(jié)構(gòu)由11個(gè)塊(Block)組成,網(wǎng)絡(luò)的輸入圖像為256×256×3的米粒圖像。首先經(jīng)過(guò)1次3×3的普通卷積,并對(duì)其做標(biāo)準(zhǔn)化(BatchNormalization,BN),激活函數(shù)采用Relu6函數(shù);接著通過(guò)5次深度可分離卷積,表1中的Conv dw即為深度卷積(Dwpthwise Convolution,DW);當(dāng)DW卷積完成后,再利用1×1的PW卷積(Pointwise Convolution,PW)做通道調(diào)整,對(duì)其做標(biāo)準(zhǔn)化(BatchNormalization,BN),激活函數(shù)采用Relu6函數(shù)。接著,進(jìn)入5個(gè)倒殘差空洞卷積冗余塊,結(jié)構(gòu)如圖1b所示。
圖1 IMUN網(wǎng)絡(luò)結(jié)構(gòu)和倒殘差空洞卷積冗余塊
MobileNetV2延用了MobileNetV1的深度可分離卷積,并加入了倒殘差冗余塊,先對(duì)輸入信息做1×1卷積升維,再通過(guò)DW卷積和PW卷積。倒殘差冗余塊的引入增強(qiáng)了梯度信息的傳播,同時(shí)減少了推理所需內(nèi)存。此外,加入線性瓶頸結(jié)構(gòu)直接對(duì)結(jié)果進(jìn)行線性輸出,防止Relu6層帶來(lái)的信息丟失,保留了特征的多樣性,提高了網(wǎng)絡(luò)的魯棒性。網(wǎng)絡(luò)中在第一個(gè)倒殘差結(jié)構(gòu)中不對(duì)結(jié)果做加法輸出。
實(shí)際檢測(cè)中,米粒圖像的像素分辨率較低,大量的卷積會(huì)導(dǎo)致小物體的特征信息無(wú)法重建,也會(huì)導(dǎo)致空間級(jí)化信息丟失,對(duì)分割的準(zhǔn)確度有一定的影響。而空洞卷積則可以在不損失空間信息的情況下,很好的保留全局信息,使得每個(gè)卷積輸出都包含較大范圍的信息。因此,本研究在f3之后均采用了倒殘差空洞卷積冗余塊,改用膨脹系數(shù)為2深度可分離空洞卷積,從而使網(wǎng)絡(luò)在擴(kuò)大感受野的同時(shí),能捕獲到更多的特征信息。
本研究的解碼結(jié)構(gòu)如表2所示,與編碼結(jié)構(gòu)呈非對(duì)稱,在一定程度上減少了網(wǎng)絡(luò)參數(shù)量,加速了推理過(guò)程。首先將編碼網(wǎng)絡(luò)的f3、f4特征層連接,作為解碼網(wǎng)絡(luò)的輸入,經(jīng)過(guò)卷積和上采樣操作,與f2特征層的信息進(jìn)行連接,再通過(guò)卷積和上采樣與f1特征層連接,最后做卷積和上采樣操作,輸出與輸入圖像尺度相同的圖像。
表2 解碼結(jié)構(gòu)
為了得到更準(zhǔn)確的分割結(jié)果,需要選擇合適的損失函數(shù)減少預(yù)測(cè)值和真實(shí)值之間的差距。交叉熵?fù)p失函數(shù)是語(yǔ)義分割多分類問(wèn)題中最常用的損失函數(shù),但是這種方法在樣本不均衡的情況下表現(xiàn)得并不好。在一些語(yǔ)義分割場(chǎng)景中,往往一幅圖像中的目標(biāo)像素比例較小,加劇了網(wǎng)絡(luò)訓(xùn)練的難度。在本研究中,堊白和胚芽部分的像素點(diǎn)相對(duì)較少,僅僅選擇交叉熵作為損失函數(shù)無(wú)法進(jìn)行準(zhǔn)確的分割。Tversky loss可以用來(lái)描述真實(shí)區(qū)域和預(yù)測(cè)區(qū)域的相似程度,在目標(biāo)不均衡的場(chǎng)景下有較好的表現(xiàn)。針對(duì)語(yǔ)義分割多分類任務(wù),本研究提出一種融合了交叉熵?fù)p失函數(shù)和Tversky系數(shù)損失函數(shù)的方式,通過(guò)交叉熵計(jì)算全部類別的損失值,再通過(guò)Tversky loss計(jì)算米粒和堊白區(qū)域的損失值,這兩個(gè)損失值的加權(quán)作為整個(gè)網(wǎng)絡(luò)的損失值。具體定義如下:
MLoss=-λ∑p(x)logq(x)+(1-λ)
(1)
式中:p(x)為預(yù)測(cè)值,q(x)為對(duì)應(yīng)的真值,TP(True Positive)表示實(shí)際為正樣本預(yù)測(cè)正確的樣本,TN(True Negative)表示實(shí)際為負(fù)樣本預(yù)測(cè)正確的樣本,F(xiàn)P(False Positive)表示實(shí)際為負(fù)樣本預(yù)測(cè)錯(cuò)誤的樣本,F(xiàn)N(False Negative)表示實(shí)際為正樣本預(yù)測(cè)錯(cuò)誤的樣本,α是控制FP和FN的權(quán)重因子,λ為控制交叉熵?fù)p失函數(shù)和Tversky系數(shù)損失函數(shù)權(quán)重因子。
本研究選取了市面上比較常見(jiàn)的米粒作為樣本,分別選擇正常粳米、秈米(無(wú)堊白區(qū)域的透明完整米),堊白粳米、秈米(帶堊白區(qū)域完整米)以及碎米(由于加工、運(yùn)輸?shù)仍蛟斐傻拿琢F茡p)。使用大恒HV1341UC相機(jī),25 mm真彩色高清攝像鏡頭,俯視角度拍攝,配合環(huán)形光源,盡可能保證采集樣本不失真,背景托盤采用了黑色無(wú)紋路面板,方便后續(xù)對(duì)采集到的樣本進(jìn)行一系列預(yù)處理。采集樣本在圖像分辨率為1 024×768,共采集300幅米粒圖像,每幅圖像約含15粒米,拍攝樣例如圖2所示。
圖2 米粒拍攝樣本
圖3 米粒原圖及標(biāo)注圖像
考慮到用于深度學(xué)習(xí)的米粒數(shù)據(jù)集中最好是多幅單個(gè)米粒的圖像,因此,上節(jié)獲得的米粒圖像需要做預(yù)處理,對(duì)其進(jìn)行自動(dòng)切割,由于樣本是隨意放置在拍攝臺(tái)上的,米粒之間可能會(huì)出現(xiàn)粘連,必須要通過(guò)一定的切割算法,讓其自動(dòng)形成單個(gè)米粒的多幅圖像。本研究根據(jù)王粵等[13]提出的粘連米粒的分割算法,首先獲取米粒的輪廓線,然后,根據(jù)輪廓線上的各像素點(diǎn)的曲率方向判斷米粒是否有粘連,若有,則尋找并計(jì)算最佳粘連點(diǎn)對(duì),實(shí)現(xiàn)米粒的粘連分割,由此可以獲得每顆米粒的完整輪廓線。之后就可依據(jù)每顆米粒的輪廓線信息,獲取對(duì)應(yīng)的米粒的圖像信息,這樣,上節(jié)采集到的圖像中的每粒米都可對(duì)應(yīng)生成一副新的背景為黑色的圖像。
通過(guò)對(duì)粘連米粒的分割,得到2 000幅單個(gè)米粒樣本,其中包括936粒正常米,1 049粒堊白米,15粒碎米。為了防止樣本數(shù)據(jù)太少造成的訓(xùn)練結(jié)果過(guò)擬合,對(duì)分割后的的2 000個(gè)米粒樣本進(jìn)行數(shù)據(jù)增強(qiáng),分別進(jìn)行鏡像、旋轉(zhuǎn)等操作,并隨機(jī)選取樣本進(jìn)行顏色抖動(dòng),最終得到10 000幅訓(xùn)練樣本,其中8 000幅為訓(xùn)練集,1 000幅為驗(yàn)證集,1 000幅為測(cè)試集。使用開源工具Labelme,對(duì)采集到的大米圖像中的無(wú)堊白區(qū)域米粒、堊白區(qū)域及胚芽3個(gè)部分進(jìn)行標(biāo)注,數(shù)據(jù)集中共有米粒、堊白、胚芽、背景4類。圖3為分割后的米粒樣本與其對(duì)應(yīng)的標(biāo)簽。
本研究基于Ubuntu 16.04操作系統(tǒng),處理器為2顆8核Inter E5-2620V42.0Ghz,128G內(nèi)存,2 400 MHz,GPU為2塊NVIDIA TITAN XPPASAL。模型的搭建與訓(xùn)練驗(yàn)證通過(guò)Python語(yǔ)言實(shí)現(xiàn),基于Keras2.1.5深度學(xué)習(xí)框架,并行計(jì)算框架使用CUDA 9.10版本。Batch_size設(shè)置為16,初始學(xué)習(xí)率(Learning Rate)設(shè)置為0.0001,訓(xùn)練40代(Epoch),通過(guò)ReduceLROnPlateau調(diào)整學(xué)習(xí)率,當(dāng)評(píng)價(jià)指標(biāo)不再提升時(shí),減少學(xué)習(xí)率。
為了驗(yàn)證損失函數(shù)的有效性,尋找更合適的權(quán)重因子,得到更高準(zhǔn)確度的分割結(jié)果,本研究做了九組對(duì)比實(shí)驗(yàn),如表3所示。從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)控制Tversky loss的權(quán)重因子α=0.9,控制MLoss的權(quán)重因子λ=0.7時(shí),堊白區(qū)域的Intersection Over Union(IOU,交并比)值最高,達(dá)到94.11%,同時(shí)Mean Intersection Over Union(MIOU,平均交并比)達(dá)到92%,Pixel Accuracy(PA,像素準(zhǔn)確精度)和Mean Pixel Accuracy(MPA,平均像素精度)分別為98.61%和96.34%。當(dāng)α=0.9,λ=0.7時(shí),網(wǎng)絡(luò)在迭代30代之后,訓(xùn)練集的訓(xùn)練精度呈穩(wěn)定狀態(tài),接近99.5%,驗(yàn)證集的訓(xùn)練精度在98%~99%之間波動(dòng);訓(xùn)練集的損失值最后穩(wěn)定在5.41~5.92,驗(yàn)證集的損失值在迭代了35代之后逐漸穩(wěn)定。
表3 不同權(quán)重因子下的評(píng)價(jià)指標(biāo)
本研究模型旨在盡可能保證準(zhǔn)確度的同時(shí),降低模型參數(shù)量。本研究的IMUN與其他各種網(wǎng)絡(luò)結(jié)構(gòu)的比較結(jié)果如表4所示,可視化結(jié)果如圖4所示?;贛obilenetV2網(wǎng)絡(luò)和基于VGG16網(wǎng)絡(luò)的解碼結(jié)構(gòu)與本研究模型均選擇了Unet,由表4可以看出:二者的參數(shù)量分別為本研究模型的3倍和14.8倍,即便是參數(shù)量較少的MobilenetV2-Unet模型,IOU和MIOU也比本研究模型低了2.65%和2.55%。而LEDnet和Enet作為經(jīng)典的輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò),參數(shù)量雖然比本研究模型少,但I(xiàn)OU比本研究模型低了3.55%和6.37%,MIOU低了3.82%和5.16%;Segnet和基于Xception的DeeplabV3+有較好的分割效果,堊白區(qū)域的IOU分別達(dá)到95.97%和97.45%,但參數(shù)量分別為本研究模型的4.9倍和19.7倍,雖然獲得了較高準(zhǔn)確率,但參數(shù)量較大。
表4 不同模型下的評(píng)價(jià)指標(biāo)
圖4 不同分割方法的可視化結(jié)果
本研究提出了一個(gè)輕量級(jí)的語(yǔ)義分割網(wǎng)絡(luò)IMUN,與參數(shù)量較大的經(jīng)典語(yǔ)義分割網(wǎng)絡(luò)相比,在幾乎不損失準(zhǔn)確度的情況下減少了網(wǎng)絡(luò)參數(shù)量;與輕量級(jí)語(yǔ)義分割網(wǎng)絡(luò)相比,參數(shù)量在同一量級(jí),但對(duì)堊白區(qū)域的分割能力更為突出。接下來(lái)的研究將對(duì)網(wǎng)絡(luò)進(jìn)一步優(yōu)化,提升大米堊白區(qū)域的分割準(zhǔn)確度;并以本網(wǎng)絡(luò)結(jié)構(gòu)為核心,添加圖像采集、圖像預(yù)處理、圖像粘連分割等模塊,從而能實(shí)時(shí)在線檢測(cè)包括堊白度和堊白率在內(nèi)的各種大米外觀信息。