謝龍珠,高 飛,張 蕾
(1.合肥學(xué)院,安徽 合肥 230000;2.安徽大學(xué),安徽 合肥 230000)
我國在2021年12月7號發(fā)布了關(guān)于食用菌的“十四五”規(guī)劃,推動此行業(yè)發(fā)展。目前已知在中國可食用的菌類有1020多種,具有藥用價值的有690多種,具有毒性的達到480多種。其中鵝膏科、鵝膏屬,是世界上毒性最強的大型真菌之一,在歐美國家有“毀滅天使”的名稱,具有淡淡的清香,具有很大的迷惑性,經(jīng)驗不足的情況下,很容易被誤食,并伴隨極高的中毒者死亡率(不同文獻記載高達50%~90%)[1]。在鵝膏菌屬中橙蓋鵝膏菌是最著名的食用菌之一,富含多種多糖成分,目前已經(jīng)成為研究新型腫瘤藥物的重要原料[2]。
目前傳統(tǒng)的菌菇類鑒別方法,其大致分為四大類,分別為形態(tài)特征識別的方法[3]、化學(xué)原理檢測的方法[4]、動物實驗檢驗法[5]和利用真菌法[6]來進行鑒別。但是這些方法應(yīng)具有很多缺陷,要不依靠大量的經(jīng)驗,要不實驗方法很復(fù)雜,需要消耗大量人力物力。
近年來,物理、化學(xué)、生物學(xué)和計算機的快速發(fā)展,各種學(xué)科交叉技術(shù)不斷創(chuàng)新。紫外、核磁共振、計算機圖像處理分析、各種電泳、X射線衍射技術(shù)、聚類分析法等均被運用到鑒別分析的方法中來,形成了以“四大鑒別”法為基礎(chǔ),理化分析為重點的科學(xué)與先進鑒別體系。鵝膏菌因幼時呈鵝蛋狀而得名,它的菌蓋多為黃桔色,表面很光滑,略帶粘液,其表面上有一層白色的外衣緊緊包住鵝蛋菌菌蓋,肉呈白色,內(nèi)部空心。從外表更容易鑒別橙蓋鵝膏菌,因此本文采用的是計算機圖像處理分析技術(shù)。
圖像處理技術(shù)發(fā)展迅速,也在各個領(lǐng)域更加廣泛的應(yīng)用,比如計算機視覺、虛擬現(xiàn)實、三維重建等等。本文采用的是深度學(xué)習模型法(Geoffrey Hinton,2006)[7]。它所具有的多隱層神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習能力,通過構(gòu)建多層網(wǎng)絡(luò),對目標采取多層表達的方式,提取高層次特征來表達樣本所具有的抽象語義信息。將深度學(xué)習與藥材鑒別相結(jié)合來提高效率是一種趨勢。比如2015年劉斌等人通過貝葉斯分類算法從蘑菇的特征屬性出發(fā)預(yù)測蘑菇的毒性,該方法對毒蘑菇識別準確率達到98%以上[8]。2020年王一丁等人提出了基于深度學(xué)習的小樣本中藥材粉末顯微圖像識別,與原始ResNet網(wǎng)絡(luò)相比,準確率提升了4.1個百分點[9]。2019年陳秋月等人搭建了Android平臺下基于深度學(xué)習的蘑菇識別APP,可以對8種不同種類的蘑菇進行識別,識別率可以達到95%[10]??梢钥闯錾疃葘W(xué)習模型已經(jīng)取得良好的檢測效果,依然存在檢測算法較為復(fù)雜,生成的模型運行較為緩慢,在實時檢測的效果上并不成熟等問題,檢測鑒別的成功率還能進一步提高。
YOLOv5包括YOLOv5m、YOLOv5l、YOLOv5x、YOLOv5s四個類別,其中YOLOv5s型號更小,反應(yīng)速度更靈敏。因此,本文以YOLOv5s為模型。然后對主干加入注意力機制進行優(yōu)化,然后在頭部進行多特征融合,并改進損失函數(shù)以保證檢測的精度和速度。YOLOv5s算法框架如圖1所示,其由輸入(Input)、主干網(wǎng)絡(luò)((Backbone)、頸部(NECK)以及預(yù)測(Prediction)四個部分組成。
圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
Input端包括Mosaic數(shù)據(jù)增強、自適應(yīng)錨框計算、自適應(yīng)圖片縮放三個部分[11]。Mosaic數(shù)據(jù)增強隨機采用4張圖片進行縮放、裁剪后拼接在一起,使背景圖片更充足。自適應(yīng)錨框計算,神經(jīng)網(wǎng)絡(luò)在初始錨框的基礎(chǔ)上輸出預(yù)測框和真實框進行對比,計算兩者之間的距離,最后反向更新網(wǎng)絡(luò)參數(shù)。自適應(yīng)圖片縮放,對原始圖像添加少量黑邊,統(tǒng)一把圖像縮放到640×640×3,最后送入到神經(jīng)網(wǎng)絡(luò)中。
Backbone主要包含了Focus模塊和CSP(BottleneckCSP)結(jié)構(gòu)[12]。CSP使得輸出圖保留了更多的網(wǎng)絡(luò)梯度信息,在降低計算量的同時保持了網(wǎng)絡(luò)的性能。在運算中,前一級的特征可以作為下一級的輸入進行上采樣或下采樣,同時與主體部分相同大小的特征圖進行合并。
Neck模塊采用了SPP、FPN+PAN的結(jié)構(gòu)[13],并且增加了CSP2模塊提升了特征融合的能力。SPP模塊增加了主干特征的接收范圍,分離出最重要的特征。FPN+PAN向下傳達強語義特征,向上傳達強定位特征。
Prediction模塊由分類損失函數(shù)(Classification Loss)和回歸損失函數(shù)(Regression loss function)兩部分構(gòu)成。Prediction模塊生成檢測框,通過將錨框應(yīng)用于來自Neck模塊的多尺度特征圖來生成類別、坐標和置信度。
注意力機制被用于各種計算機視覺任務(wù),如圖像的分類和分割等。SENet[14]是一個早期的注意力,它簡單地擠壓每個2D特征地圖,可以有效地建立通道之間的相互依賴關(guān)系。CBAM[15]是通過空間編碼信息引入大尺寸內(nèi)核的卷積,使通道域和空間域的相結(jié)合,進一步推進了這一思想。本文采用Coordinate Attention(CA)[16]方法如圖2所示,將全局池化分解為兩個一維編碼過程,是一種更有效的捕獲位置信息和信道關(guān)系的方式,以此來增強移動網(wǎng)絡(luò)的特征。
圖2 CA注意力網(wǎng)絡(luò)結(jié)構(gòu)
在結(jié)構(gòu)上,SE塊可以分解為兩個步驟:擠壓和激勵,這兩個步驟分別用于全局信息嵌入和通道關(guān)系的自適應(yīng)重新校準。給定輸入X,第c個通道的擠壓步驟可以用公式(1)表示。
(1)
對全局池化公式(1)進行因子分解。具體地,給定輸入X,我們使用兩個空間范圍的池核(H,1)或(1,W)來分別沿著水平坐標和垂直坐標編碼每個通道。因此,第c通道在高度h處的輸出可以表示為公式(2)。
(2)
第c通道在寬度w處的輸出可以寫成公式(3)。
(3)
f=δ(F1([zh,zw]))
(4)
將得到的圖像f放進卷積核為1×1的卷積得到了在原圖寬度和高度上通道數(shù)一樣的圖像Fh和Fw,在進行Sigmoid激活函數(shù)后得到在高度gh和寬度gw方向上的注意力權(quán)重。如公式(5)和公式(6)所示。
gh=σ(Fh(fh))
(5)
gw=σ(Fw(fw))
(6)
最后在原圖上進行乘法加權(quán)計算,得到在寬度和高度方向上都帶有注意力權(quán)重的圖像。如公式(7)所示。
(7)
在神經(jīng)網(wǎng)絡(luò)提取特征時,底層高分辨率特征圖包含目標的細節(jié)信息,如輪廓、顏色、紋理和形狀特征等這些特征,更方便對目標進行定位。但是,底層特征圖的卷積運算較少,高級特征的提取不充足,語義信息相對較少,造成目標和背景的區(qū)分模糊。高層低分辨特征圖有較多的卷積運算,語義信息提取相對較多,由于下采樣過多,會造成細節(jié)信息嚴重丟失。
本文將低層特征與高層特征進行特征融合,使用Concat特征融合的方法,Concat是通道數(shù)的增加,相較于add是特征圖相加,通道數(shù)不變,可以更有效的防止信息丟失。Concat層在不同尺度特征圖中對語義信息進行提取,通過增加通道的方式來提升性能。在YOLOv5網(wǎng)絡(luò)架構(gòu)的第24層和27層輸出特征圖為小型和中型的輸入特征圖,將原始模型中15與19層改為13與25層,在增加檢測層之后,17與22層進行特征融合。使其在特征提取時具有更豐富語義信息的同時對一些細微處也有較強的識別能力。改進后的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 改進后的YOLOv5網(wǎng)絡(luò)框架
YOLOv5算法采用的是GloU[17]作為邊界框回歸的損失函數(shù),GloU方法解決了IoU[18]中預(yù)測框和目標框不相交時IoU_1oss無法優(yōu)化的情況。也克服了當兩個預(yù)測框和IoU一樣時,兩者相交IoU_loss無法區(qū)分的情況。GIoU實現(xiàn)原理如公式(8),GIoUloss實現(xiàn)原理如公式(9)。
(8)
GIoUloss=1-GIoU
(9)
A為預(yù)測框,B為真實框,C表示為包含A與B的最小凸閉合框。
本文所采用的DIoU[19]將目標與檢測框之間的距離、重疊率以及尺度都考慮了進去,克服了IoU和GIoU在訓(xùn)練中出現(xiàn)發(fā)散的情況。DIoU_loss使兩個目標框之間的距離最小化,相較于GIoU_loss收斂速度更快。當兩個框處于水平方向和垂直方向上時,DIoU_loss的回歸更快,而GIoU_loss與IoU_loss水平相當。并且DIoU可以替IoU用在NMS中,使NMS得到的結(jié)果更準確。DIoU原理如公式(10)和公式(11)所示。
(10)
(11)
式(11)中,RDloU是兩個框中心點之間的距離,且ρ代表的是計算真實框b和預(yù)測框bgt的歐式距離。C是能夠包含預(yù)測框和真實框的最小對角線距離。
如圖4所示,當檢測框位于圖4(c)中心位置時,損失值都一樣,當檢測框位于圖4(a)圖4(b)位置時,GIoU和IoU的損失值一樣大,而DIOU的損失值較兩者都大,所以DIoU更能夠描述當前位置信息。
圖4 目標框不同位置IoU、GIoU與DIoU的損失值對比
非極大值抑制算法(Non-maximum suppression, NMS)[20]本質(zhì)上就是抑制非極大值的元素。在對目標檢測時,同一個物體可能有好幾個框,為了保留一個最優(yōu)的框,用非極大值抑制來抑制那些冗余的框。
DloU_NMS和原始的NMS不同,DloU_NMS不僅考慮了loU的值,還考慮了兩個Box中心點之間的距離,決定一個框是否被刪除。如公式(12)和(13)所示。
si=IoU-RDIoU(M,Bi)<ε
(12)
當si=0時
si=IoU-RDIoU(M,Bi)≥ε
(13)
M為得分最高的框,Bi為待處理的框,Bi和M的IOU越大,Bi的得分Si就下降的越厲害。
本文的深度學(xué)習框架為YOLOv5s,實驗環(huán)境是Python 3.6+Pytorch 1.7.1,GPU加速驅(qū)動為CUDA10.1和CUDNN7.6。處理器用的是Intel(R) Core(TM) i5-4200H CPU @ 2.80GHz 12G運行內(nèi)存,顯卡為GeForce GTX 950M。
3.2數(shù)據(jù)集
本文整理了一個關(guān)于橙蓋鵝膏菌的數(shù)據(jù)集,參考了Mushroom Classification和Secondary Mushroom Dataset兩個經(jīng)典的蘑菇分類數(shù)據(jù)集,網(wǎng)絡(luò)爬蟲了一些我們所需要的樣本和自己所采集的樣本制作了本文的數(shù)據(jù)集。最后使用軟件Make Sense對采集到的橙蓋鵝膏菌圖像進行標注,生成本文數(shù)據(jù)集。為了使模型更加精確對已有的數(shù)據(jù)集進行擴充處理。在已有的數(shù)據(jù)下采用了平移、旋轉(zhuǎn)、加噪和裁剪等方法把數(shù)據(jù)集擴充到783幅圖像。
目標框的中心點在圖中的位置坐標分布從圖5(a)可以看出,目標框大多居于圖像的中部位置,如圖5(b)所示,目標框的尺寸也不一樣,總體來看中等尺寸較多。
(a)目標框的位置
如圖6所示對圖像進行了Mosaic數(shù)據(jù)增強,隨機采用了四張圖像進行拼接,使背景圖片更豐富。減少對大物體的過度響應(yīng),增強模型檢測中小目標的能力。
圖6 Mosaic數(shù)據(jù)增強
本文所采用的評價指標有精確度(Precision, Pr)、召回率(Recall, Re)、平均精度(Average Precision, AP)、平均精度均值(mean Average Precision, mAP)和每秒計算的幀數(shù)(Frames Per Second, FPS),分別如式(14)、式(15)、式(16)、式(17)所示。
(14)
(15)
(16)
(17)
目前YOLOv5有四個版本,包括YOLOv5m、YOLOv5l、YOLOv5x和YOLOv5s,其中YOLOv5s模型更小,更容易快速部署。所以本文使用YOLOv5s代碼被用作基本框架,在PyTorch中實現(xiàn)了上述的所有修改。按照比例7∶3隨機劃分訓(xùn)練集和測試集。輸入圖片大小為640×640×3,Bath Size設(shè)置為4,學(xué)習率設(shè)置為0.01,訓(xùn)練次數(shù)為200次。訓(xùn)練模型如圖7所示。
圖7 評測結(jié)果
由圖7可知,從整體上看三幅圖的曲線都是趨向于穩(wěn)定,沒有太大的起伏變化,圖7(a)和圖7(b)的損失曲線都是前期快速下降,然后趨于平穩(wěn),當訓(xùn)練次數(shù)增加到180輪時,基本無波動,訓(xùn)練中沒有出現(xiàn)發(fā)散或過擬合的現(xiàn)象。同樣圖7(c)由精準率與召回率構(gòu)成的mAP值前期的上升值很快,訓(xùn)練次數(shù)在50左右mAP曲線逐漸的趨于平穩(wěn),當訓(xùn)練次數(shù)達到100時達到穩(wěn)定,模型收斂。
本文所采用的模型對橙蓋鵝膏菌的檢測效果如圖8—圖10所示,其中Y是橙蓋鵝膏蘇的簡稱,后面的數(shù)字表示的是正確檢測出橙蓋鵝膏菌的概率。從圖8—圖10中可以看出,該方法對小目標的檢測、亮度不同的環(huán)境和有遮擋物的情況下仍有較高的準確性。如圖8所示對圖8(a)大小目標混合和圖8(b)單獨小目標仍良好的檢測效果。如圖9所示在圖9(a)亮度高和圖9(b)亮度低下,檢測效果基本沒有影響。如圖10所示充分顯示了在圖10(a)和圖10(b)有遮擋物和環(huán)境復(fù)雜的情況下,仍有較高的準確率。
(a)大小目標混合檢測
(a)亮度高
(a)環(huán)境復(fù)雜和遮擋物下
實驗結(jié)果如表1所示。以YOLOv5為基礎(chǔ)逐步添加CA注意力機制、進行多特征融合和更改回歸損失函數(shù)為DIOU_NMS三個改進點,然后進行精確率、召回率、平均精確率和mAP@0.5:0.95(在IoU閾值從0.5到0.95,步長0.05)上的平均mAP數(shù)據(jù)對比。
表1 消融實驗
從表1可知,原始的YOLOv5模型的精確度為0.9469,召回率為0.9549,mAP為0.9822,mAP@0.5:0.95為0.7922。加入CA注意力機制后,召回率增加了1.31%,mAP提升了0.28%。在加入注意力的基礎(chǔ)上進行多特征融合后,精確率、召回率和mAP分別提升了0.11%,0.61%,0.78%。在前兩步的基礎(chǔ)上更改回歸損失函數(shù)為DIOU_NMS,精確率、mAP值、mAP@0.5:0.95分別都增加了0.51%,1.81%,0.98%,3.28%。從總體來看,增強了對橙蓋鵝膏菌的特征提取能力,對尺寸較小的橙蓋鵝膏菌也有較好檢測效果。
訓(xùn)練完成后,分別在將本文方法與、YOLOv3、YOLOv4、YOLOv5、Faster R-CNN和SSD主流檢測模型進行性能對比,分析本文方法性能。
使用相同的數(shù)據(jù)集和評估指標對它們進行比較。如表2所示,我們從mAP和FPS兩個方面對它們進行了比較。本文選擇的是YOLOv3、YOLOv4、YOLOv5、Faster RCNN和SSD模型。上表顯示了模型的實驗結(jié)果。在mAP的維度上,本文提出的模型具有最好的性能,它是0.992,比YOLOv3、YOLOv4、YOLOv5、Faster RCNN和SSD分別高0.028、0.039、0.035、0.010和0.1。同時,在速度方面方面,我們的模型也優(yōu)于其他模型。該模型的FPS為93.45,比YYOLOv3、YOLOv4、YOLOv5、Faster RCNN和SSD分別高38.45、23.11、11.24、2.4和25.57。
表2 主流模型對比
根據(jù)橙蓋鵝膏菌的特點,本文提出了一種深度學(xué)習模型法鑒別橙蓋鵝膏菌的方法。YOLOv5是目前最新的神經(jīng)網(wǎng)絡(luò)模型,具有收斂速度快、精度高、可控性強等優(yōu)點。它還具有強大的實時處理能力和較低的硬件計算要求,這意味著它可以很容易地移植到移動設(shè)備上。這些優(yōu)點對于保證圖像中目標的檢測精度非常有幫助。本文做了一些改進,在殘差塊中引入進了CA(Coordinate Attention)注意模塊,更有效的捕獲位置信息和信道關(guān)系的方式來增強移動網(wǎng)絡(luò)的特征。在檢測階段,為了更好地檢測中小目標,對多尺度特征檢測進行了改進。使用了Concat特征層融合法,提取不同尺度特征圖的語義信息,用增加通道的方式實現(xiàn)更好的性能。此外,對損失函數(shù)進行了改進,采用了損失函數(shù)DIOU_NMS,使其更適應(yīng)錨框的檢測。