朱澤敏 張東波 張瑩 汪忠
摘? ?要:針對(duì)檳榔去核工序中檳榔內(nèi)核輪廓檢測問題,提出一種基于語義分割的檳榔內(nèi)核輪廓檢測方法。分割模型以VGG16為基礎(chǔ)網(wǎng)絡(luò),將全連接層替換為卷積層,增加了跳躍結(jié)構(gòu),將淺層特征經(jīng)過采樣后在同一尺度下與深層特征進(jìn)行融合,并將常規(guī)卷積替換成擴(kuò)張卷積,減少了學(xué)習(xí)參數(shù),提升了分割模型的實(shí)時(shí)性,得到最終的FCN-Dilated-VGG-8s分割模型。該模型對(duì)檳榔圖像分割的準(zhǔn)確率達(dá)到98.79%,單張圖像分割只需0.071 s,模型大小只有FCN-VGG-8s模型的37.5%。算法表現(xiàn)出良好的魯棒性,實(shí)現(xiàn)了檳榔圖像準(zhǔn)確、快速分割。通過對(duì)分割完后的圖像的邊界提取,即可得到完整平滑的檳榔內(nèi)核輪廓線。
關(guān)鍵詞:語義分割;邊緣檢測;深度學(xué)習(xí);全卷積網(wǎng)絡(luò);擴(kuò)張卷積
中圖分類號(hào):TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Betel Nut Stones Contour Detection Based on Semantic Segmentation
ZHU Ze-min1,ZHANG Dong-bo1,2?覮,ZHANG Ying1,2,WANG Zhong1
(1. College of Information Engineering ,Xiangtan University ,Xiangtan,Hunan 411105,China;
2. National Engineering Laboratory for Robot Visual Perception & Control Technology,Changsha,Hunan 410012,China)
Abstract:A method for the detection of betel nut stones contour based on semantic segmentation is proposed. The segmentation model is based on VGG16,among it the fully connected layer is replaced with convolution layer,moreover a jump structure is introduced,and the lower level features are merged with higher level deep features under the same scale,in addition we replace the conventional convolution with the dilated convolution,it results in reduced learning parameters,the real-time performance of the segmentation model is improved. By above process,the final FCN-Dilated-VGG-8s segmentation model is obtained. The accuracy of the model is 98.79% for betel nut image segmentation,and cost of single image segmentation is only 0.071s,and the model complexity is only 37.5% of the FCN-VGG-8s model. The algorithm shows good robustness and achieves accurate and quick segmentation of betel nut images. By extracting the boundary of the segmented image,a complete and smooth betel nut outline can be obtained.
Key words:semantic segmentation;edge detection;deep learning;full convolution network;dilated convolution
檳榔是一種快速消費(fèi)食品,目前國內(nèi)市場出售的檳榔通常屬于煙果檳榔,其加工工藝比較復(fù)雜,加工主要流程包括選籽→堿洗→水洗→泡制→烘烤→表皮加香→切籽→去核→點(diǎn)鹵→干燥→包裝→成品等十幾道工藝[1]。由于檳榔加工過程中經(jīng)過擠壓后形狀變得極不規(guī)則(圖1),因此其中三道關(guān)鍵工藝:切籽、去核和點(diǎn)鹵工序目前通常由人工操作,由于每天加工量巨大,因此檳榔廠在上述三道工序上耗費(fèi)的人工是很大的,由于人力成本逐年增加,而且生產(chǎn)環(huán)境有較強(qiáng)的刺激性氣味[2],因此對(duì)檳榔廠來說,招工的成本很高而且比較困難。為了降低人工成本,同時(shí)提高生產(chǎn)效率和產(chǎn)品品質(zhì),檳榔加工過程亟需提高自動(dòng)化程度。
本文只研究檳榔加工過程的去核問題,檳榔切籽后被一分為二,切開后的檳榔有果壁和果核兩部分,如圖2所示,其中果核需要去除,為了去除果核,我們的解決方案是通過控制機(jī)械臂沿檳榔內(nèi)核輪廓進(jìn)行去核操作,為了實(shí)現(xiàn)這一操作,需要檢測出檳榔的完整內(nèi)核區(qū)域輪廓曲線,從而給機(jī)械臂提供視覺引導(dǎo)。
傳統(tǒng)的輪廓檢測算法有基于邊緣檢測和基于區(qū)域分割的兩大類,基于邊緣檢測的算法主要利用局部邊緣的灰度突變,常用的有各種邊緣檢測算子,例如Sobel算子、Prewitt算子[3-5]、Canny算子等[6-7],優(yōu)點(diǎn)是算法簡單,實(shí)時(shí)性好,但是由于過于關(guān)注局部信息,其對(duì)弱邊緣的檢測不夠理想,而且邊緣平滑性差、魯棒性弱,很多時(shí)候難以形成比較完整和閉合的輪廓,實(shí)驗(yàn)表明,這種情況在檳榔圖像的輪廓檢測中出現(xiàn)的概率不低?;趨^(qū)域分割的方法中,早期比較出名的有區(qū)域生長算法,分水嶺算法[8]、主動(dòng)輪廓模型等[9],這一類算法的優(yōu)點(diǎn)是利用了區(qū)域信息,綜合考慮了多種因素,能夠產(chǎn)生比較平滑且封閉的輪廓,但是需要人工干預(yù),例如預(yù)設(shè)種子點(diǎn)或初始輪廓,另外算法比較復(fù)雜,通常達(dá)不到實(shí)時(shí)性要求,因此在工業(yè)圖像處理中很少采用。
由于檳榔個(gè)體形狀差異很大;不同批次檳榔的紋理,干濕度、內(nèi)核顏色、果肉顏色差異很大;現(xiàn)場成像時(shí)易受到光照強(qiáng)度、污漬、破損等不可控因素影響,經(jīng)前期實(shí)驗(yàn)驗(yàn)證出傳統(tǒng)邊緣檢測方法和區(qū)域分割方法都不能取得良好的輪廓檢測效果。
近年來,深度學(xué)習(xí)網(wǎng)絡(luò)模型在計(jì)算機(jī)視覺任務(wù)中得到廣泛應(yīng)用,借助復(fù)雜模型的強(qiáng)大學(xué)習(xí)能力和大量數(shù)據(jù)的訓(xùn)練,深度學(xué)習(xí)在目標(biāo)檢測與識(shí)別、輪廓檢測、語義分割等傳統(tǒng)計(jì)算機(jī)視覺領(lǐng)域取得了很大的突破,在實(shí)際應(yīng)用中達(dá)到了良好的性能。同時(shí)借助GPU和模型壓縮、優(yōu)化加速處理,速度得到很大提升,在實(shí)際部署中能夠達(dá)到實(shí)時(shí)性處理要求。針對(duì)檳榔的內(nèi)核輪廓檢測問題,采用基于深度網(wǎng)絡(luò)的輪廓檢測模型或語義分割模型都是可行的。經(jīng)典的輪廓檢測模型有:Holistically-Nested Edge Detection(HED)[10]、Deep Category-Aware Semantic Edge Detection(CASENet)[11]等,由于直接采用輪廓檢測模型不能生成單像素寬度的輪廓曲線,同時(shí)其關(guān)注的仍是局部邊緣,因此檢測結(jié)果并不能直接區(qū)分內(nèi)核輪廓和其它的邊緣?;谏鲜鲈颍覀冞x擇的方案是通過語義分割模型先將檳榔內(nèi)核區(qū)域完整的分割出來,分割得到的內(nèi)核區(qū)域的邊界曲線自然對(duì)應(yīng)內(nèi)核的輪廓曲線,這是很容易變換得到的。
研究了基于全卷積神經(jīng)網(wǎng)絡(luò)的語義分割檳榔內(nèi)核輪廓檢測方法。Shelhamer等將AlexNet[12]和VGG16等提出的分類網(wǎng)絡(luò)改造成全卷積網(wǎng)絡(luò)
FCN[13],并將分類網(wǎng)絡(luò)的學(xué)習(xí)參數(shù)遷移到語義分割任務(wù)中。本文基于語義分割全卷積網(wǎng)絡(luò)結(jié)構(gòu),將深度學(xué)習(xí)應(yīng)用于檳榔內(nèi)核輪廓檢測問題,我們將檳榔圖片分成背景、檳榔果壁、檳榔內(nèi)核三部分,然后對(duì)分割得到內(nèi)核區(qū)域部分進(jìn)行邊界提取即可得到檳榔內(nèi)核輪廓曲線上各點(diǎn)的坐標(biāo)。通過遷移學(xué)習(xí)后,F(xiàn)CN-VGG16-Net模型能很好地將輸入的檳榔圖像分割成背景、檳榔果壁、檳榔內(nèi)核三部分,從而幫助我們很好地解決了檳榔內(nèi)核輪廓檢測任務(wù)。
1? ?改進(jìn)的全卷積神經(jīng)網(wǎng)絡(luò)
FCN由CNN發(fā)展而來,CNN自2012年在ILSVRC奪冠以來,在圖像分類、目標(biāo)檢測與識(shí)別等方面取得了廣泛的應(yīng)用。CNN在進(jìn)行分類時(shí)主要由卷積層、池化層、全連接層和softmax層組成。圖像經(jīng)過一系列卷積池化處理后,再經(jīng)過全連接層輸出相同維度的特征向量,最后通過softmax層進(jìn)行分類。網(wǎng)絡(luò)每經(jīng)過一次池化操作后輸出特征尺寸變?yōu)檩斎胩卣鞒叽绲?/2,這對(duì)于分類任務(wù)沒影響,但對(duì)語義分割問題而言由于丟失像素點(diǎn)位置信息,最終無法實(shí)現(xiàn)像素級(jí)分類的目標(biāo)。因此FCN 以CNN 分類網(wǎng)絡(luò)為基礎(chǔ),將網(wǎng)絡(luò)最后的全連接層替換為卷積層,輸出結(jié)果由一維的特征向量變成二維特征圖,再對(duì)縮小的特征圖進(jìn)行若干次反卷積可恢復(fù)原始圖像大小,最后通過像素級(jí)分類,得到每個(gè)像素點(diǎn)的類別,從而得到語義分割結(jié)果。VGG16-Net是經(jīng)典的特征提取網(wǎng)絡(luò),本文以VGG16-Net作為特征提取的基礎(chǔ)網(wǎng)絡(luò)進(jìn)行檳榔圖像分割實(shí)驗(yàn)。最后在基于FCN-VGG16的基礎(chǔ)上增加跳躍結(jié)構(gòu)并將第一個(gè)反卷積單元中傳統(tǒng)卷積fc6層替換成Dilated-convolutiondilated-fc6層,從而得到我們的檳榔圖像分割網(wǎng)絡(luò),網(wǎng)絡(luò)架構(gòu)如圖3所示,表1給出了詳細(xì)的網(wǎng)絡(luò)架構(gòu)參數(shù)說明。
網(wǎng)絡(luò)的改進(jìn)主要包括三個(gè)方面:
1)FCN全連接層被替換為卷積層?,F(xiàn)有的FCN-VGG16-32s分割網(wǎng)絡(luò)在分類網(wǎng)絡(luò)VGG16-Net的基礎(chǔ)上將最后兩層全連接層改為卷積層,其中第一個(gè)替換的卷積層fc6對(duì)應(yīng)卷積核尺寸為4096*512*7*7,第二個(gè)替換的卷積層fc7對(duì)應(yīng)卷積核尺寸為4096*4096*1*1。由于FCN-VGG16的前五個(gè)卷積模塊分別包含一個(gè)池化層,每經(jīng)過一層池化得到的特征圖大小變?yōu)檩斎胩卣鲌D大小的1/2,五次池化后即得到一個(gè)尺寸為輸入1/32大小的特征圖,最后對(duì)所得特征圖進(jìn)行反卷積,恢復(fù)到原圖尺寸大小,從而實(shí)現(xiàn)像素級(jí)別的預(yù)測分類。
2)增加了跳躍結(jié)構(gòu)。CNN 通過淺層卷積提取圖像的細(xì)節(jié)特征,如邊緣、角點(diǎn)等,而深層卷積提取
注:表中scale_pool4層中的[512]*0.01和scale_pool3層中的[256]*0.001為特征融合時(shí)設(shè)置的可調(diào)節(jié)權(quán)重影響因子;dilated-fc6層為擴(kuò)張卷積層。
語義特征。直接對(duì)最后一層卷積特征score-fr進(jìn)行32倍上采樣得到FCN-VGG-32s模型,由于該模型只用了最后一層卷積特征,導(dǎo)致淺層輪廓、角點(diǎn)等細(xì)節(jié)信息丟失,使得分割結(jié)果粗糙、局部信息丟失嚴(yán)重。為融合淺層細(xì)節(jié)信息,F(xiàn)CN-VGG-8s在最初的FCN-VGG-32s基礎(chǔ)上添加了兩種跳躍結(jié)構(gòu):①FCN-VGG16-16s。在對(duì)scoer_fr層的輸出進(jìn)行反卷積的基礎(chǔ)上,融合pool_4層特征,然后對(duì)融合后的特征upscore_pool4層進(jìn)行stride為16,kernel_size為32的反卷積,從而將特征圖擴(kuò)大16倍,恢復(fù)到原圖尺寸。②FCN-VGG16-8s。在FCN-VGG16-16s對(duì)upscore_pool4層進(jìn)行反卷積的基礎(chǔ)上,再融合pool_3層的特征,并對(duì)融合后的特征進(jìn)行stride為8,kernel_size為16的反卷積,將特征圖擴(kuò)大8倍,再經(jīng)過Crop層裁剪即可恢復(fù)到原圖尺寸。
3)將常規(guī)卷積替換成擴(kuò)張卷積。dilated convolution最初是為了解決FCN在下采樣和上采樣特征圖縮小后再放大過程中造成信息損失這一問題提出來的,而在這里為了縮減模型大小,提升算法速度,本文從占據(jù)網(wǎng)絡(luò)數(shù)據(jù)超過90%的fc6層著手,將原有的4096*512*7*7的fc6卷積替換成4096*512*3*3的dilated-fc6,由于Dilated-Convolution卷積核大小為3*3,擴(kuò)張率為3時(shí)感受野為7*7,這使得保持相同感受野的同時(shí)大大減少了學(xué)習(xí)參數(shù),其中fc6層參數(shù)量為102764544個(gè),dilated-fc6層參數(shù)量為18878464個(gè),參數(shù)量對(duì)比如圖4所示。
當(dāng)卷積核尺寸為7*7,擴(kuò)張率為1時(shí)即為常規(guī)卷積,如圖5(a)所示,本文所用的擴(kuò)張卷積其卷積核尺寸為3*3,擴(kuò)張率為3,如圖5(b)所示,其感受野大小為7*7。
2? ?檳榔圖像分割實(shí)驗(yàn)
2.1? ?數(shù)據(jù)采集與數(shù)據(jù)集制作
原始圖像由200萬像素的彩色CCD相機(jī)采集,光源采用白色穹形光源,圖像初始尺寸為1600*1200的彩圖,綜合考慮處理速度和分割效果,實(shí)驗(yàn)中將圖像歸一化成500*375大小。標(biāo)簽制作時(shí)我們將背景標(biāo)注為黑色,檳榔內(nèi)核標(biāo)注為綠色,檳榔果壁標(biāo)注為紅色,標(biāo)簽示例如圖6(b)所示。原始數(shù)據(jù)一共818張,經(jīng)左右翻轉(zhuǎn),隨機(jī)旋轉(zhuǎn)一定角度,數(shù)據(jù)擴(kuò)增到2454張,并隨機(jī)選取90%即2208張作為訓(xùn)練樣本,剩下10%即246張作為測試樣本。
2.2? ?實(shí)驗(yàn)環(huán)境
本文算法基于開源深度學(xué)習(xí)Caffe框架,實(shí)驗(yàn)硬件配置為Intel i7-7700處理器,NVIDIA GeForce GTX 1080Ti顯卡,軟件環(huán)境為Ubuntu 16.04 LTS 操作系統(tǒng),CUDA9.0配套Cudnn7.0的加速訓(xùn)練環(huán)境。
2.3? ?評(píng)價(jià)指標(biāo)
使用圖像分割中使用最多的Pixel Accuracy標(biāo)準(zhǔn)來衡量算法的精度。
Pixel Accuracy:即標(biāo)記正確的像素占總像素的比例。
注:nij:即預(yù)測為類j類的i類像素?cái)?shù),ti:即ground truth segmentation中類別i的像素總數(shù)
2.4? ?模型訓(xùn)練
深度神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練時(shí)要求數(shù)據(jù)集的量非常大,對(duì)硬件要求也比較高,而且模型訓(xùn)練周期很長。而實(shí)際情況下我們數(shù)據(jù)集的量不夠,為了解決上述問題本文在模型訓(xùn)練過程中應(yīng)用遷移學(xué)習(xí)策略,將VGG16在Pascal VOC數(shù)據(jù)集上預(yù)訓(xùn)練好的模型對(duì)網(wǎng)絡(luò)的下采樣部分進(jìn)行初始化,這樣大大減少模型訓(xùn)練時(shí)參數(shù)學(xué)習(xí)帶來的振蕩,既可以縮短訓(xùn)練周期還能得到小數(shù)據(jù)集上訓(xùn)練無法比擬的效果。訓(xùn)練過程中交替調(diào)用前向(forward)算法和反向傳遞(backward)算法來更新參數(shù),最小化損失(loss),訓(xùn)練過程中關(guān)鍵參數(shù)如表2。
3? ?實(shí)驗(yàn)結(jié)果與分析
3.1? ?對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文算法檳榔內(nèi)核輪廓檢測的效果,以及實(shí)時(shí)性、魯棒性方面的優(yōu)勢,本文設(shè)計(jì)了兩部分實(shí)驗(yàn):第一部分為基于傳統(tǒng)方法的檳榔內(nèi)核輪廓檢測實(shí)驗(yàn),第二部分為基于深度學(xué)習(xí)的檳榔內(nèi)核輪廓檢測實(shí)驗(yàn)。
3.1.1? ?基于傳統(tǒng)方法的檳榔內(nèi)核輪廓檢測實(shí)驗(yàn)
我們分別對(duì)比了基于canny算子的檳榔內(nèi)核輪廓檢測方法,以及基于區(qū)域生長算法的檳榔內(nèi)核輪廓檢測方法?;赾anny算子的檳榔內(nèi)核輪廓檢測方法需要先對(duì)圖像進(jìn)行平滑,當(dāng)取閾值上下限分別為threshold1為20,threshold2為50時(shí)邊緣檢測效果相對(duì)最佳,最后通過閾值去除過短的線,剩下即為檢測出的輪廓線,試驗(yàn)結(jié)果示例如圖7所示。
圖7給出了部分示例實(shí)驗(yàn)結(jié)果,其中圖7 (a) (b) (c) (d) (e)是檢測效果相對(duì)比較好的示例,但從中我們?nèi)阅苡^察發(fā)現(xiàn),輪廓線并不平滑,容易產(chǎn)生毛刺。圖7 (f) (g) (h) (i) (j) 給出了一些檢測失敗的典型示例:圖7(f)由于檳榔內(nèi)核失水后,體積縮小,導(dǎo)致果壁與內(nèi)核分離形成空隙,由于難以區(qū)分內(nèi)核和果壁的邊緣,算法不能自動(dòng)確定內(nèi)核輪廓。圖7(g)由于檳榔下端果壁較薄,且檳榔端部顏色與內(nèi)核相近造成內(nèi)外輪廓線連在一起,不能形成準(zhǔn)確的封閉的內(nèi)核輪廓線。圖7(h)則因?yàn)闄壚苾?nèi)核部分紋理信息豐富,紋理產(chǎn)生的邊緣給內(nèi)核部分的邊界邊緣檢測造成極大干擾。圖7(i)檳榔果壁內(nèi)部紋理差異較大,同時(shí)果壁顏色與背景顏色相近,造成邊緣漏檢。圖7(j)則因?yàn)轭伾嘟膬?nèi)核與果壁粘連,導(dǎo)致檳榔內(nèi)核輪廓檢測失敗。
基于上述情況,我們得知基于邊緣檢測的方法存在的問題主要是:輪廓線易受紋理、噪聲干擾、檢測得到的輪廓線往往不夠光滑,很多時(shí)候不能形成封閉的內(nèi)核輪廓線。局部邊緣細(xì)節(jié)對(duì)內(nèi)核輪廓的判斷形成很大干擾。
基于區(qū)域生長的方法受噪聲邊緣干擾影響相對(duì)較少且能夠形成的輪廓線相對(duì)光滑,于是我們采用區(qū)域生長方法也做了檳榔內(nèi)核輪廓的檢測實(shí)驗(yàn)。基于區(qū)域生長的檳榔輪廓檢測先用中值濾波對(duì)圖像進(jìn)行平滑處理,然后對(duì)平滑處理后的圖像進(jìn)行開閉運(yùn)算,緊接著進(jìn)行生長,最后再次進(jìn)行開閉運(yùn)算得到檳榔輪廓圖,實(shí)驗(yàn)結(jié)果示例如圖8所示。
圖8給出了若干基于區(qū)域生長的檳榔內(nèi)核輪廓檢測示例結(jié)果。圖8 (a) (b) (c)為檢測效果比較理想的示例。圖8(d)中由于果壁和內(nèi)核部分灰度相近,在生長時(shí)誤將部分內(nèi)核分割成果壁。圖8(e)中由于檳榔上端果壁較薄加上灰度相近,造成生長后的連通區(qū)域不閉合。圖8(f)在統(tǒng)一閾值分割下,由于檳榔局部干濕度不同,圖像灰度差異較大,導(dǎo)致區(qū)域生長效果很差。
總的來說,以上兩種傳統(tǒng)算法不需要繁瑣的模型訓(xùn)練過程,且單張圖像處理時(shí)間很短,對(duì)硬件設(shè)備要求很低,但是它們存在的缺點(diǎn)也是致命的,算法很容易被噪聲邊緣干擾,當(dāng)檳榔各批次差異較大,檳榔形狀及不規(guī)則時(shí),檢測效果不理想,算法魯棒性很差。
4.1.2? ?基于深度語義分割的檳榔內(nèi)核輪廓檢測
本部分包含三個(gè)實(shí)驗(yàn),其中實(shí)驗(yàn)一用于驗(yàn)證語義分割深度神經(jīng)網(wǎng)絡(luò)中相對(duì)于輪廓檢測深度網(wǎng)絡(luò)方法的優(yōu)越性,輪廓檢測網(wǎng)絡(luò)采用的是HED。實(shí)驗(yàn)二用于驗(yàn)證FCN-VGG在融合低層信息后提升分割效果的有效性,主要對(duì)比的網(wǎng)絡(luò)是FCN-VGG-8s,F(xiàn)CN-VGG-16s與FCN-VGG-32s。實(shí)驗(yàn)三用于驗(yàn)證Dilated Convolution取代常規(guī)Convolution縮減模型大小后,在提升處理速度方面的有效性,對(duì)比的網(wǎng)絡(luò)是FCN-VGG-8s與FCN-Dilated-VGG-8s。
實(shí)驗(yàn)一、基于HED的深度神經(jīng)網(wǎng)絡(luò)輪廓檢測實(shí)驗(yàn)結(jié)果
圖9給出若干輪廓檢測示例,HED模型對(duì)大部分樣本檢測效果還不錯(cuò),但是存在以下問題:例如圖9(a)檳榔內(nèi)核失水體積縮小后,在果壁與內(nèi)核之間形成的縫隙對(duì)邊沿輪廓檢測造成嚴(yán)重干擾。圖9(b)由于內(nèi)核與果壁灰度變化不明顯,導(dǎo)致無法檢測到邊緣。圖9(c)在獲取圖像時(shí)由于拍攝角度有一定傾斜,導(dǎo)致檳榔果壁側(cè)面對(duì)輪廓檢測造成干擾。由于HED模型檢測的輪廓還只是響應(yīng)圖,不是單像素寬度的輪廓線,因此想獲得單像素寬度準(zhǔn)確的輪廓線還需要作后續(xù)處理,而且定位精度難以保證。
實(shí)驗(yàn)二、FCN-VGG-8s和FCN-VGG-16s分別是在FCN-VGG-32s網(wǎng)絡(luò)的基礎(chǔ)上融合pool_3和pool_4層特征后的模型,不同模型的分割結(jié)果示例如圖10所示。
為了體現(xiàn)算法優(yōu)勢我們給出了分割難度相對(duì)較大的示例結(jié)果(圖10),從分割結(jié)果來看,融合低層信息后的語義網(wǎng)絡(luò)分割效果明顯優(yōu)于沒有融合低層特征的網(wǎng)絡(luò),且FCN-VGG-8s,F(xiàn)CN-VGG-16s與FCN-VGG-32s三個(gè)網(wǎng)絡(luò)中FCN-VGG-8s分割效果在細(xì)節(jié)部分明顯優(yōu)于其他對(duì)比模型,這為后續(xù)輪廓邊緣提取提供了很好的初步結(jié)果。
實(shí)驗(yàn)三、Dilated Convolution取代Convolution,實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果如表3所示:
在測試時(shí)我們選取了246張圖像作為驗(yàn)證集,在測試五次后取平均值作為統(tǒng)計(jì)結(jié)果,從表3可知改進(jìn)后的FCN-Dilated-VGG-8s比FCN-VGG-8s分割準(zhǔn)確率高了0.47%,且訓(xùn)練得到的模型減小到
原模型的37.5%。在顯存占用率測試時(shí),我們將設(shè)置batch-size為1,分時(shí)輸入同一批圖像,測試五次后取平均值,最終得到相同環(huán)境下訓(xùn)練期間顯存占用率減小到原模型的76.1%。在單張耗時(shí)測試時(shí),我們?nèi)×?00張圖像進(jìn)行測試,也是分別測試五次取平均值作為統(tǒng)計(jì)結(jié)果,最終測得單張耗時(shí)縮減到原來模型的73%。綜上無論從分割效果,模型大小,顯存占用率,單張測試耗時(shí),本文算法都有明顯優(yōu)勢。
在得到語義分割的內(nèi)核區(qū)域后,其邊界自然就是內(nèi)核輪廓線,只要分割效果理想,輪廓線提取就很容易實(shí)現(xiàn),圖11中對(duì)應(yīng)示例圖所繪的綠色線部分即為該檳榔內(nèi)核區(qū)域的輪廓線。
從上圖可知,Dilated-VGG-8s模型在細(xì)節(jié)部分的檢測效果明顯優(yōu)于其它兩種模型,例如曲率變化較大的尖端(紅色箭頭表示處),其檢測得到的輪廓線和實(shí)際輪廓擬合的更好。同時(shí)Dilated-VGG-8s分割時(shí)單張檢測耗時(shí)只有VGG-8S的73%,顯存消耗減少了37.5%,所以無論從效率上還是硬件設(shè)備要求上,基于Dilated-VGG-8s語義分割的檳榔輪廓檢測具有明顯優(yōu)勢。
4? ?結(jié)? ?論
傳統(tǒng)的基于傳統(tǒng)邊緣檢測和區(qū)域生長的輪廓檢測方法在面對(duì)復(fù)雜的、不規(guī)則的檳榔圖像時(shí),算法魯棒性差,檢測成功率較低。為此,提出了基于語義分割的檳榔內(nèi)核輪廓檢測方法。通過將FCN全連接層替換為卷積層,增加跳躍結(jié)構(gòu),將常規(guī)卷積替換成擴(kuò)張卷積等改進(jìn)措施,提升了全卷積FCN網(wǎng)絡(luò)的分割性能,在FCN-VGG-32s、FCN-VGG-16s、FCN-VGG-8s實(shí)驗(yàn)對(duì)比中,本算法分割準(zhǔn)確率最高,達(dá)到98.79%,單張圖片分割耗時(shí)減少到原來網(wǎng)絡(luò)的73%,在模型大小、顯存占用上有明顯優(yōu)勢。
參考文獻(xiàn)
[1]? ? 孟繼勇. 食用檳榔自動(dòng)切籽機(jī)控制系統(tǒng)設(shè)計(jì)[D]. 西安:西安電子科技大學(xué),2014.
[2]? ? 高華北,張花玲,周湘暉,等. 檳榔加工業(yè)職業(yè)危害的調(diào)查[J]. 中國工業(yè)醫(yī)學(xué)雜志,2009(2):125—127.
[3]? ? JAIN N,KUMAR S,KUMAR A. Analysis of edge detection techniques using soft computing approaches[C]// Electrical,Electronics and Computer Science,IEEE,2016:1—4.
[4]? ? XIN G,KE C,HU X. An improved canny edge detection algorithm for color image[M]. IEEE,2012.
[5]? ? MANOORUBINI R,HARIPRIYA K,VIJAYARAGHAVAN R,et al. Comparison of edge detection techniques using traditional and soft computing approach[J]. International Journal of Applied Engineering Research,2014,9(2):161—166.
[6]? ? DONG Y,LI M,LI J. Image retrieval based on improved canny edge detection algorithm[C]// International Conference on Mechatronic Sciences,Electric Engineering and Computer, IEEE,2014:1453—1457.
[7]? ? RONG W,LI Z,ZHANG W,et al. An improved canny edge detection algorithm[C]// IEEE International Conference on Mechatronics and Automation,IEEE,2014:577—582.
[8]? ? GONZALEZ L C. Digital image processing solution manual (3rd edition)[J]. 北京:電子工業(yè)出版社,2017.
[9]? ? 秦倫明. 用于圖像分割的主動(dòng)輪廓模型研究[D].北京:北京交通大學(xué),2013.
[10]? XIE S,TU Z. Holistically-nested edge detection[C]// IEEE International Conference on Computer Vision,IEEE,2016:3—18.
[11]? YU Z,F(xiàn)ENG C,LIU M Y,et al. CASENet:deep category-aware semantic edge detection[C]// Computer Vision and Pattern Recognition,IEEE,2017:1761—1770.
[12]? KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097—1105.
[13]? LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2015:3431—3440.