劉璇昕 孫 鈺 崔 劍 蔣 琦 陳志泊 駱有慶
(1.北京林業(yè)大學(xué)信息學(xué)院 北京 100083; 2.北京航空航天大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 北京 100191; 3.北京林業(yè)大學(xué)林學(xué)院 北京 100083; 4.國(guó)家林業(yè)和草原局林業(yè)智能信息處理工程技術(shù)研究中心 北京 100083)
林業(yè)有害生物導(dǎo)致的林業(yè)生物災(zāi)害是威脅我國(guó)林業(yè)的重大自然災(zāi)害之一,其對(duì)森林資源和生態(tài)系統(tǒng)的破壞,每年均造成大量的直接或間接經(jīng)濟(jì)損失(李娟等, 2019)。在林業(yè)有害生物中,林木蛀干害蟲(chóng)生活隱蔽、防治困難,是生態(tài)安全的重大隱患。蛀干害蟲(chóng)大部分齡期均生活在寄主林木的木質(zhì)部或韌皮部,蛀食樹(shù)干,破壞樹(shù)木的分生組織和輸導(dǎo)組織,嚴(yán)重時(shí)危害樹(shù)勢(shì)甚至導(dǎo)致樹(shù)木死亡(黃志平等, 2013; 呂飛等, 2015)。蛀干害蟲(chóng)高隱蔽性的生活習(xí)性導(dǎo)致其在危害早期難以發(fā)現(xiàn),人工樣地觀察(Floweretal., 2013)、成蟲(chóng)誘集技術(shù)(Mcculloughetal., 2011)、遙感監(jiān)測(cè)(Zhangetal., 2014)等常用的監(jiān)測(cè)手段難以實(shí)現(xiàn)早期預(yù)警。隨著聲音監(jiān)測(cè)技術(shù)在害蟲(chóng)識(shí)別領(lǐng)域的應(yīng)用,林木蛀干害蟲(chóng)的早期預(yù)警有了新的研究方向(韋雪青等, 2010)。
聲學(xué)技術(shù)在害蟲(chóng)監(jiān)測(cè)領(lǐng)域的應(yīng)用始于20世紀(jì)20年代,但由于技術(shù)的局限性,未能取得有效成果,隨著計(jì)算機(jī)技術(shù)和微電子技術(shù)的進(jìn)步,害蟲(chóng)聲音監(jiān)測(cè)技術(shù)有了新的發(fā)展(韋雪青等, 2010)。害蟲(chóng)聲音監(jiān)測(cè)技術(shù)的研究對(duì)象主要包括倉(cāng)儲(chǔ)害蟲(chóng)(李玥等, 2018)、木材檢疫害蟲(chóng)(婁定風(fēng)等, 2013)、土壤害蟲(chóng)(Mankinetal., 2007)、林木鉆蛀害蟲(chóng)(Mankinetal., 2018)等。在害蟲(chóng)聲音監(jiān)測(cè)中,對(duì)于有發(fā)聲器官的成蟲(chóng)或隔音環(huán)境下的幼蟲(chóng),可采用麥克風(fēng)作為傳感器,偵聽(tīng)傳導(dǎo)至空氣中的振動(dòng)(羅茜等, 2011)。但麥克風(fēng)僅能接收空氣中的振動(dòng),且易受環(huán)境噪聲干擾,難以采集蛀干害蟲(chóng)在樹(shù)木內(nèi)部的活動(dòng)信號(hào)。對(duì)于土壤害蟲(chóng)和蛀干害蟲(chóng)的活動(dòng)信號(hào),通常利用壓電傳感器采集害蟲(chóng)在土壤或樹(shù)干內(nèi)爬行或蛀食時(shí)產(chǎn)生的振動(dòng)信號(hào),以提高監(jiān)測(cè)靈敏度并減少環(huán)境噪聲對(duì)信號(hào)的干擾(Mankinetal., 2003)。
害蟲(chóng)活動(dòng)信號(hào)識(shí)別的研究大致可分為2種。其一是對(duì)害蟲(chóng)活動(dòng)信號(hào)的時(shí)頻特性進(jìn)行人工分析,如統(tǒng)計(jì)脈沖信號(hào)數(shù)量和強(qiáng)度(趙源吉等, 2009; Dosunmuetal., 2014)、分析脈沖時(shí)域圖和功率譜密度(卜宇飛等, 2017; Jalinasetal., 2019)等。其二是利用算法對(duì)采集到的害蟲(chóng)聲信號(hào)進(jìn)行自動(dòng)識(shí)別。美國(guó)農(nóng)業(yè)部Mankin課題組利用Raven篩選出包含害蟲(chóng)聲音的音頻后利用DAVIS軟件進(jìn)行最小二乘匹配以區(qū)分蟲(chóng)聲和噪聲或不同蟲(chóng)聲(Inyangetal., 2019; Mankinetal., 2016); 國(guó)內(nèi)的研究學(xué)者大都借助語(yǔ)音識(shí)別的原理實(shí)現(xiàn)害蟲(chóng)聲信號(hào)的識(shí)別,首先提取信號(hào)的梅爾倒譜系數(shù),然后利用LBG(Linde, Buzo, Gray)矢量量化算法(竺樂(lè)慶等, 2010)、高斯混合模型(Gaussian mixture model,GMM)(竺樂(lè)慶等, 2012)或BP(Back propagation)神經(jīng)網(wǎng)絡(luò)(羅茜等, 2011)進(jìn)一步提取特征,最后通過(guò)最鄰近搜索(竺樂(lè)慶等, 2010)、概率統(tǒng)計(jì)(羅茜等, 2011; 竺樂(lè)慶等, 2012)等實(shí)現(xiàn)分類(lèi)。近年來(lái),也有研究學(xué)者利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端到端的害蟲(chóng)識(shí)別(孫鈺等, 2020)。
害蟲(chóng)的取食聲經(jīng)傳感器處理后通常轉(zhuǎn)化為音頻格式,與語(yǔ)音識(shí)別的數(shù)據(jù)格式及頻率范圍較為一致,因此,可借助語(yǔ)音識(shí)別領(lǐng)域的關(guān)鍵詞檢測(cè)技術(shù)實(shí)現(xiàn)取食聲音的識(shí)別。關(guān)鍵詞檢測(cè)用于語(yǔ)音信號(hào)中關(guān)鍵單詞或短語(yǔ)的識(shí)別(Warden, 2018)。早期的關(guān)鍵詞檢測(cè)通常采用隱馬爾科夫模型(hidden Markov model,HMM)(Wilponetal., 1991),隨著人工智能技術(shù)的發(fā)展,基于深度學(xué)習(xí)的關(guān)鍵詞檢測(cè)模型取得新的進(jìn)展(LeCunetal., 2015)。近年來(lái)的研究中,在關(guān)鍵詞檢測(cè)中應(yīng)用的深度學(xué)習(xí)模型主要有深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)模型(Chenetal., 2014)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型(Tangetal., 2018)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型(Heetal., 2017)、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network,CRNN)模型、時(shí)延神經(jīng)網(wǎng)絡(luò)(time delay neural network, TDNN)模型(Sunetal., 2017)等,為了強(qiáng)化模型的學(xué)習(xí)能力,部分模型中還引入了注意力機(jī)制(Shanetal., 2018)。
相較人工監(jiān)測(cè)、誘捕器監(jiān)測(cè)、遙感監(jiān)測(cè)等監(jiān)測(cè)技術(shù),聲音監(jiān)測(cè)技術(shù)具有在蟲(chóng)害發(fā)生早期及時(shí)預(yù)警的能力,近年來(lái),受到越來(lái)越多研究人員的關(guān)注。但是,國(guó)外的研究學(xué)者大都借助Raven和DAVIS軟件進(jìn)行半自動(dòng)的特征提取及蟲(chóng)害聲音匹配,識(shí)別結(jié)果依賴(lài)主觀分析,沒(méi)有數(shù)值化的精度評(píng)價(jià)。國(guó)內(nèi)的研究學(xué)者借助語(yǔ)音識(shí)別技術(shù)針對(duì)害蟲(chóng)活動(dòng)或取食聲設(shè)計(jì)模型,實(shí)現(xiàn)自動(dòng)化的害蟲(chóng)聲音識(shí)別,但研究所采用的數(shù)據(jù)均為隔音箱或室內(nèi)環(huán)境中采集的純凈蟲(chóng)聲數(shù)據(jù),缺乏對(duì)含噪蟲(chóng)聲數(shù)據(jù)的研究,難以實(shí)現(xiàn)鉆蛀性害蟲(chóng)聲音監(jiān)測(cè)的實(shí)際應(yīng)用。因此,本研究在校園、馬路邊等戶(hù)外開(kāi)放環(huán)境下采集噪聲音頻,一方面作為鉆蛀性害蟲(chóng)取食聲的負(fù)樣本,另一方面也作為噪聲數(shù)據(jù),通過(guò)和鉆蛀性害蟲(chóng)取食聲進(jìn)行混音,進(jìn)行噪聲強(qiáng)度可控的含噪取食聲識(shí)別研究。
本研究以雙條杉天牛(Semanotusbifasciatus)為研究對(duì)象。雙條杉天牛是危害柏科(Cupressaceae)樹(shù)木的蛀干害蟲(chóng),屬我國(guó)林業(yè)有害生物檢疫對(duì)象(耿涌鑫等, 2018)。本文利用壓電傳感器采集其咬食木段的聲音,同時(shí)采集噪聲數(shù)據(jù)作為干擾,參考基于深度學(xué)習(xí)的人工智能語(yǔ)音識(shí)別技術(shù),設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型識(shí)別雙條杉天牛的取食聲,同時(shí)對(duì)識(shí)別模型的抗噪性能進(jìn)行測(cè)試,驗(yàn)證模型在野外嘈雜環(huán)境下的可用性,為隱蔽蛀干害蟲(chóng)的早期預(yù)警提供抗噪技術(shù)支撐。
本研究主要采集了2類(lèi)數(shù)據(jù),一類(lèi)是雙條杉天牛取食聲,另一類(lèi)是在開(kāi)放環(huán)境下采集的噪聲音頻。
從林場(chǎng)采集直徑約為10 cm長(zhǎng)度約為30 cm的側(cè)柏(Platycladusorientalis)木段,并在木段中部鉆孔(孔深3 cm左右),于3月中下旬向木段中接入雙條杉天牛成蟲(chóng),等待成蟲(chóng)在木段中進(jìn)行交配、產(chǎn)卵。5月上旬開(kāi)始,每隔3~5 天使用SP-1 L探頭連接NI 9215電壓采集卡采集木段中雙條杉天牛幼蟲(chóng)的取食聲(圖 1),采集到的取食聲中基本無(wú)環(huán)境噪聲。同時(shí),利用相同的數(shù)據(jù)采集設(shè)備,在校園、馬路邊等戶(hù)外開(kāi)放環(huán)境下使用相同儀器錄制的噪聲音頻,其中包含行人腳步聲、人與人交談聲、鳥(niǎo)鳴聲、風(fēng)聲、汽車(chē)行駛聲、鳴笛聲等明顯環(huán)境噪聲,但不含雙條杉天牛的取食聲。
圖1 數(shù)據(jù)采集設(shè)備
選取130段雙條杉天牛取食聲和83段噪聲音頻用于后續(xù)試驗(yàn),單段音頻時(shí)長(zhǎng)為5 min,采樣率為44.1 kHz。利用SoX(Sound eXchange)音頻處理工具將音頻的采樣位數(shù)轉(zhuǎn)換為16 bit,同時(shí)將音頻的采樣率統(tǒng)一為16.0 kHz。
為了對(duì)模型的抗噪性能進(jìn)行測(cè)試,從采集到的83段噪聲音頻中隨機(jī)選擇加噪音頻,其中8段加入訓(xùn)練集和簡(jiǎn)單測(cè)試集,5段加入抗噪測(cè)試集,剩余70段作為噪聲類(lèi)用于識(shí)別模型的訓(xùn)練及簡(jiǎn)單測(cè)試; 同時(shí),從采集到的130段雙條杉天牛取食聲中隨機(jī)選取60段加入抗噪測(cè)試集,剩余70段加入訓(xùn)練集和簡(jiǎn)單測(cè)試集。數(shù)據(jù)集劃分情況如表 1所示。
表1 數(shù)據(jù)集劃分情況
為了訓(xùn)練識(shí)別模型,對(duì)數(shù)據(jù)進(jìn)行切分,切分方式如圖 2所示,切片長(zhǎng)度為1 s,每段音頻可得到300段切片。為了測(cè)試模型的訓(xùn)練效果,訓(xùn)練集/簡(jiǎn)單測(cè)試集中的音頻切分得到的各類(lèi)切片按7∶3的比例劃分為訓(xùn)練集和簡(jiǎn)單測(cè)試集。
圖2 數(shù)據(jù)切片方式
為了使模型適應(yīng)噪聲環(huán)境,從而增加模型的抗噪能力,訓(xùn)練階段,在保留一定量不混音的雙條杉天牛取食聲切片的基礎(chǔ)上,對(duì)雙條杉天牛取食聲切片和加噪音頻切片進(jìn)行混音(Ephratetal., 2018),混音前后的時(shí)域波形圖和頻域聲譜圖如圖 3所示?;煲魰r(shí)的噪聲強(qiáng)度通過(guò)信噪比(signal-noise ratio,SNR)(Barkeretal., 2013)衡量,信噪比的計(jì)算公式為:
圖3 不同信噪比下的波形和聲譜
(1)
式中,LS表示取食聲音頻,NS表示加噪音頻,P表示音頻能量,Ai表示音頻在第i個(gè)采樣點(diǎn)處的振幅,n表示音頻采樣點(diǎn)數(shù)。
在對(duì)訓(xùn)練集和簡(jiǎn)單測(cè)試集混音時(shí)為每段加噪音頻切片設(shè)置7種信噪比(-3~3 dB,間隔1 dB),將7種信噪比下的加噪音頻切片和不同雙條杉天牛取食聲切片混合,得到用于訓(xùn)練和測(cè)試的雙條杉天牛取食聲數(shù)據(jù)。訓(xùn)練集中共有取食聲切片14 700段,其中,7種信噪比的取食聲切片各有1 680段,不加噪的取食聲切片有2 940段; 簡(jiǎn)單測(cè)試集中共有取食聲切片6 300段,其中,7種信噪比的取食聲切片各有720段,不加噪的取食聲切片有1 260段。同時(shí),在訓(xùn)練集和簡(jiǎn)單測(cè)試集中加入與雙條杉天牛取食聲切片數(shù)量一致的噪聲切片作為負(fù)樣本。
為了測(cè)試模型的抗噪性能,利用抗噪測(cè)試集中的雙條杉天牛取食聲切片和加噪音頻切片生成獨(dú)立的雙條杉天牛取食聲混音數(shù)據(jù)作為抗噪測(cè)試集,抗噪測(cè)試集中不包含噪聲切片,但相較訓(xùn)練集和簡(jiǎn)單測(cè)試集,設(shè)置了更大的信噪比區(qū)間(-7~3 dB,間隔1 dB),在低信噪比上,擴(kuò)展了4 dB,每種信噪比的取食聲切片各有1 500段,同時(shí)包含相同數(shù)量的不加噪的取食聲切片。利用公式(1)可推知:
(2)
式中,NS表示加噪音頻,LS表示取食聲音頻,SNR表示信噪比。
將信噪比代入公式(2)可知,信噪比為-3 dB時(shí),噪聲音頻的音頻能量約為取食聲的音頻能量的2倍,信噪比為-7 dB時(shí),噪聲音頻的音頻能量約為取食聲的音頻能量的5倍。已有研究人員的測(cè)試表明,信噪比為9 dB時(shí),人的聽(tīng)覺(jué)對(duì)字母的識(shí)別準(zhǔn)確率約為97%,當(dāng)信噪比下降至-6 dB時(shí),人的聽(tīng)覺(jué)對(duì)字母的識(shí)別準(zhǔn)確率僅有83%左右(Barkeretal., 2013),可以看出,音頻的信噪比強(qiáng)度會(huì)對(duì)聲音識(shí)別的準(zhǔn)確率造成明顯影響。
提取平均對(duì)數(shù)譜(average log spectrum)作為音頻的特征用于取食聲識(shí)別。平均對(duì)數(shù)頻譜的計(jì)算主要包括短時(shí)傅里葉變換(short-time Fourier transform,STFT)、對(duì)數(shù)計(jì)算、平均池化(average pooling)3步。
為了增加音頻的復(fù)雜度,避免訓(xùn)練中的過(guò)擬合現(xiàn)象,在計(jì)算頻譜之前對(duì)音頻進(jìn)行-5 ms至5 ms的隨機(jī)平移,平移后用0填充至1 s時(shí)長(zhǎng)。對(duì)于平移后的音頻,以30 ms的窗長(zhǎng)及20 ms的重疊率進(jìn)行逐段的傅里葉變換,傅里葉變換的點(diǎn)數(shù)設(shè)置為512。通過(guò)短時(shí)傅里葉變換,每個(gè)1 s長(zhǎng)的音頻均可得到98×257的聲譜圖(圖4a)。為了放大頻譜特征的波動(dòng),增加區(qū)分度,對(duì)頻譜特征進(jìn)行對(duì)數(shù)計(jì)算(圖4b)。為了綜合頻譜特征,將對(duì)數(shù)計(jì)算后的頻譜特征進(jìn)行平均池化,平均池化的窗大小為1×6,2個(gè)方向的步長(zhǎng)分別為1和6。經(jīng)過(guò)平均池化,每個(gè)1 s長(zhǎng)的音頻可得到98×43的平均對(duì)數(shù)譜用于后續(xù)的卷積計(jì)算(圖4c)。
圖4 頻譜特征提取逐步結(jié)果
設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型進(jìn)行取食聲的識(shí)別,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)主要由2層二維卷積、一層最大池化和一層全連接構(gòu)成。卷積層包括權(quán)重和偏置2組參數(shù),其中權(quán)重通過(guò)標(biāo)準(zhǔn)差為0.01的截段正態(tài)分布隨機(jī)初始化,偏置初始化為0。為保證卷積操作前后特征圖大小的一致性,卷積操作前對(duì)特征圖進(jìn)行補(bǔ)0操作,2層卷積的卷積核個(gè)數(shù)均為64,卷積步長(zhǎng)均為1,卷積核大小分別為20×8和10×4,卷積操作后網(wǎng)絡(luò)利用ReLU(Rectified Linear Unit)激活函數(shù)提高模型的非線性映射能力,同時(shí)為了避免網(wǎng)絡(luò)過(guò)擬合,在激活函數(shù)后利用dropout層隨機(jī)忽略網(wǎng)絡(luò)層中50%的神經(jīng)元。在第1次卷積操作之后,網(wǎng)絡(luò)通過(guò)步長(zhǎng)為2的最大池化操作,在實(shí)現(xiàn)特征降維的同時(shí),更好地保留特征中的紋理信息。在第2次卷積操作之后,網(wǎng)絡(luò)通過(guò)特征展開(kāi)得到68 992維特征,然后利用全連接層綜合特征信息,并借助softmax函數(shù)實(shí)現(xiàn)各類(lèi)識(shí)別概率的計(jì)算。
基于卷積網(wǎng)絡(luò)的識(shí)別模型的實(shí)現(xiàn)基于TensorFlow深度學(xué)習(xí)框架,硬件平臺(tái)采用Intel Core i7-6700 CPU(64 GB內(nèi)存)和NVIDIA TITAN RTX GPU(24 GB顯存)。
模型訓(xùn)練階段批處理大小為128,損失函數(shù)為多分類(lèi)交叉熵?fù)p失。模型利用梯度下降算法(Gradient Descent Optimizer)進(jìn)行參數(shù)更新,一共迭代6 000次,前3 000次學(xué)習(xí)率為0.005,后3 000次學(xué)習(xí)率為0.001。
以音頻切片的識(shí)別準(zhǔn)確率作為模型性能的評(píng)價(jià)指標(biāo),試驗(yàn)的簡(jiǎn)單測(cè)試集包括雙條杉天牛取食聲、噪聲2類(lèi),各類(lèi)的切片數(shù)為6 300。基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型在簡(jiǎn)單測(cè)試集上的整體準(zhǔn)確率為98.80%。其中,雙條杉天牛取食聲切片的準(zhǔn)確率為98.95%,噪聲切片的識(shí)別準(zhǔn)確率為98.63%,簡(jiǎn)單測(cè)試集識(shí)別結(jié)果的混淆矩陣如圖 6a所示。為了對(duì)比基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型的識(shí)別效果,利用相同的訓(xùn)練集訓(xùn)練了昆蟲(chóng)聲音識(shí)別中常用的高斯混合模型(郭敏等, 2012; 竺樂(lè)慶等, 2012)并在簡(jiǎn)單測(cè)試集上進(jìn)行測(cè)試,高斯混合模型在簡(jiǎn)單測(cè)試集上的整體準(zhǔn)確率為99.68%,其中,雙條杉天牛取食聲切片的準(zhǔn)確率為99.49%,噪聲切片的識(shí)別準(zhǔn)確率為99.87%,識(shí)別結(jié)果的混淆矩陣如圖 6(b)所示。
圖6 基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型(a)高斯混合模型(b)在簡(jiǎn)單測(cè)試集的混淆矩陣
為了驗(yàn)證模型的抗噪性能,利用抗噪測(cè)試集測(cè)試2種模型在更多信噪比下對(duì)雙條杉天牛取食聲切片的識(shí)別效果,識(shí)別準(zhǔn)確率如圖 7所示。在測(cè)試集上,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型的平均準(zhǔn)確率為97.37%,高斯混合模型的平均準(zhǔn)確率為90.61%; 在信噪比為-6 dB時(shí),基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型的識(shí)別準(zhǔn)確率為92.1%,而高斯混合模型的識(shí)別準(zhǔn)確率只有86.5%。
圖7 抗噪測(cè)試集不同信噪比下雙條杉天牛取食聲的識(shí)別準(zhǔn)確率
對(duì)比基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型和高斯混合模型在簡(jiǎn)單測(cè)試集上的結(jié)果,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型的識(shí)別準(zhǔn)確率為98.80%,高斯混合模型的識(shí)別準(zhǔn)確率為99.68%,2種模型均能有效識(shí)別無(wú)噪及低噪雙條杉天牛取食聲,準(zhǔn)確率差距不足1%。對(duì)比基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型和高斯混合模型在抗噪測(cè)試集上的結(jié)果,對(duì)于不加噪的雙條杉天牛取食聲,2個(gè)模型的識(shí)別準(zhǔn)確率均為100%; 除此之外,在各信噪比下,高斯混合模型的識(shí)別準(zhǔn)確率均低于基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型。信噪比為-3 dB時(shí),高斯混合模型的識(shí)別準(zhǔn)確率已經(jīng)低于90%,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型的準(zhǔn)確率仍能達(dá)到98.1%; 信噪比為-4、-5 dB時(shí),高斯混合模型的識(shí)別準(zhǔn)確率已低于88%,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型的準(zhǔn)確率仍高于95%; 信噪比-6 dB時(shí),高斯混合模型的識(shí)別準(zhǔn)確率為86.5%,而基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型仍有92.1%的準(zhǔn)確率; 信噪比為-7 dB時(shí),2種模型的識(shí)別準(zhǔn)確率均低于90%,但基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型的準(zhǔn)確率仍比高斯混合模型高4.8%。
當(dāng)前國(guó)內(nèi)外對(duì)昆蟲(chóng)聲音識(shí)別的研究對(duì)象中,缺乏含噪蟲(chóng)聲數(shù)據(jù)。因此,本研究設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型,同時(shí)選擇昆蟲(chóng)聲音識(shí)別中常用的高斯混合模型作為對(duì)比模型,對(duì)含噪雙條杉天牛取食聲進(jìn)行識(shí)別并利用含較強(qiáng)噪聲干擾的雙條杉天牛取食聲對(duì)2種模型的抗噪能力進(jìn)行了測(cè)試。
高斯混合模型通過(guò)期望最大化實(shí)現(xiàn)對(duì)各類(lèi)數(shù)據(jù)的擬合。由試驗(yàn)結(jié)果可知,在與訓(xùn)練集數(shù)據(jù)相似度較高的簡(jiǎn)單測(cè)試集上,高斯混合模型的識(shí)別準(zhǔn)確率接近100%,但對(duì)于與訓(xùn)練集區(qū)別較大的抗噪測(cè)試集,隨著噪聲強(qiáng)度的增加,高斯混合模型的識(shí)別準(zhǔn)確率下降較為明顯。對(duì)比訓(xùn)練集和簡(jiǎn)單測(cè)試集,二者的雙條杉天牛取食聲和噪聲音頻的相似度較高且含噪雙條杉天牛取食聲的噪聲強(qiáng)度一致,高斯混合模型通過(guò)對(duì)訓(xùn)練集的迭代,有效提取訓(xùn)練集的數(shù)據(jù)特征,在簡(jiǎn)單測(cè)試集上的表現(xiàn)較好; 對(duì)比訓(xùn)練集和抗噪測(cè)試集,二者的雙條杉天牛取食聲和噪聲音頻是不同時(shí)間錄制的音頻段,數(shù)據(jù)存在較大差異,且抗噪測(cè)試集中的含噪雙條杉天牛取食聲具有更高的噪聲強(qiáng)度,高斯混合模型在數(shù)據(jù)差異較大的抗噪測(cè)試集上的識(shí)別結(jié)果下降明顯,表明模型的泛化能力較差,難以滿足應(yīng)用需求。
基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型通過(guò)卷積操作提取特征,池化操作放大局部特征,激活函數(shù)映射非線性特征,經(jīng)過(guò)訓(xùn)練,簡(jiǎn)單測(cè)試集識(shí)別準(zhǔn)確率接近100%。同時(shí),在與訓(xùn)練集區(qū)別較大的抗噪測(cè)試集上,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型仍能取得較好的識(shí)別準(zhǔn)確率,表明卷積神經(jīng)網(wǎng)絡(luò)具有更好的泛化能力。根據(jù)公式(2),信噪比為-6 dB時(shí),噪聲能量約為雙條杉天牛取食聲頻能量的4倍,在此噪聲干擾下,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型的識(shí)別準(zhǔn)確率為92.1%,表明卷積神經(jīng)網(wǎng)絡(luò)具有良好的抗噪性能,更能有效應(yīng)對(duì)實(shí)際應(yīng)用時(shí)可能出現(xiàn)的噪聲干擾。
本研究使用壓電傳感器采集雙條杉天牛咬食木段的取食聲,同時(shí)采集典型戶(hù)外環(huán)境下的噪聲音頻,設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型進(jìn)行雙條杉天牛取食聲的識(shí)別,對(duì)比研究卷積神經(jīng)網(wǎng)絡(luò)和高斯混合模型的抗噪識(shí)別能力。通過(guò)提取音頻的平均對(duì)數(shù)譜,設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取及分類(lèi),實(shí)現(xiàn)雙條杉天牛的取食聲識(shí)別。為了驗(yàn)證模型的抗噪性能,向雙條杉天牛取食聲中混入更廣信噪比的噪聲,測(cè)試模型對(duì)含噪雙條杉天牛取食聲的識(shí)別準(zhǔn)確率。研究結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型能有效綜合頻譜特征,準(zhǔn)確識(shí)別無(wú)噪及低噪的雙條杉天牛取食聲; 同時(shí),基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型還具有良好的泛化能力,在-6 dB信噪比下仍能保證雙條杉天牛取食聲92.1%的識(shí)別準(zhǔn)確率。因此,基于卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別模型能夠適應(yīng)林木蛀干害蟲(chóng)的野外監(jiān)測(cè)環(huán)境,為林木蛀干害蟲(chóng)的自動(dòng)化監(jiān)測(cè)和早期預(yù)警提供技術(shù)支撐。未來(lái)將從林區(qū)活立木上采集雙條杉天牛取食聲,進(jìn)一步驗(yàn)證人工智能識(shí)別模型的抗噪性和可行性。