林志瑋 丁啟祿 劉金福
(1. 福建農(nóng)林大學(xué)計(jì)算機(jī)與信息學(xué)院 福州 350002; 2. 福建農(nóng)林大學(xué)林學(xué)院 福州 350002; 3. 福建農(nóng)林大學(xué)林學(xué)博士后流動(dòng)站福州 350002; 4. 福建省高校生態(tài)與資源統(tǒng)計(jì)重點(diǎn)實(shí)驗(yàn)室 福州 350002; 5. 福建農(nóng)林大學(xué)海峽自然保護(hù)區(qū)研究中心 福州 350002;6. 中國(guó)人民銀行福州中心支行 福州 350003)
鳥類種群因其對(duì)森林與濕地生態(tài)系統(tǒng)評(píng)價(jià)與監(jiān)測(cè)起重要作用,故對(duì)其準(zhǔn)確分類一直為研究的熱點(diǎn)。傳統(tǒng)鳥類種群識(shí)別由于野外數(shù)據(jù)的難獲取性,主要人工依據(jù)經(jīng)驗(yàn)對(duì)鳥類進(jìn)行實(shí)體識(shí)別,該方法在一定程度可保證識(shí)別的精度,但需消耗大量人力與時(shí)間,僅適用于特殊鳥類的監(jiān)測(cè)識(shí)別,無(wú)法解決大范圍森林鳥類監(jiān)測(cè)的問(wèn)題。隨著硬件設(shè)施的升級(jí),獲取大量野外數(shù)據(jù)成為可能,而且隨著機(jī)器學(xué)習(xí)分類算法理論的發(fā)展,基于野外鳥類數(shù)據(jù),提取不同鳥類圖像特征,如Bag of Words特征(Xieetal., 2103; Zhangetal., 2012)、SIFT特征描述算子(Marinietal., 2015)、Histogram of Gradient特征(Farrelletal., 2011)及Pyramidal Histogram of Words特征(Zhangetal., 2012),或語(yǔ)音特征,如MFCC特征(Marinietal., 2015); 進(jìn)一步結(jié)合機(jī)器學(xué)習(xí)分類算法,如人工神經(jīng)網(wǎng)絡(luò)分類算法(Nadimpallietal., 2006)、Stacked Evidence Trees模型(Martinez-Munozetal., 2009)及支持向量機(jī)(Zhangetal., 2012; Marinietal., 2015)作等為分類器,建立鳥類種群分類模型。基于傳統(tǒng)機(jī)器學(xué)習(xí)分類算法建立鳥類種群識(shí)別模型具有一定的有效性。但傳統(tǒng)機(jī)器學(xué)習(xí)分類算法需根據(jù)分類影像的特征,設(shè)計(jì)適用的分類特征,才可保證較高分類精度。而設(shè)計(jì)分類特征,需依據(jù)個(gè)人經(jīng)驗(yàn)以及大量的試驗(yàn)而得,具有較大的不確定性和人工成本。
自動(dòng)提取特征可避免設(shè)計(jì)特征的難題,深度神經(jīng)網(wǎng)絡(luò)為自動(dòng)提取特征的有效算法,其通過(guò)網(wǎng)絡(luò)自身的不斷學(xué)習(xí),得到較為穩(wěn)健的特征向量,結(jié)合適當(dāng)?shù)姆诸惼?,可得到?yōu)異的分類效果,在眾多分類任務(wù)表現(xiàn)優(yōu)異?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)的鳥類種群識(shí)別,根據(jù)其模型訓(xùn)練是否采用鳥類部位信息可分為鳥類單影像的分類模型和基于鳥類部位的分類模型。對(duì)于鳥類單影像分類模型,其網(wǎng)絡(luò)輸入僅為鳥類原圖,通過(guò)設(shè)計(jì)不同的網(wǎng)絡(luò)框架,如雙線性卷積神經(jīng)網(wǎng)絡(luò)(Linetal., 2018)、OverFeat深度卷積神經(jīng)網(wǎng)絡(luò)(Sharif Razavianetal., 2014)、Inception-V3模型(Krauseetal., 2016)、雙跳躍網(wǎng)絡(luò)模型(Chengetal., 2018),構(gòu)建鳥類種群識(shí)別模型。雙線性卷積神經(jīng)網(wǎng)絡(luò)主要采用兩條平行的網(wǎng)絡(luò)框架,2個(gè)框架結(jié)構(gòu)可存在不同,為了使2個(gè)網(wǎng)絡(luò)所抽取的特征有效的結(jié)合,將2個(gè)網(wǎng)絡(luò)框架特征圖對(duì)應(yīng)位置計(jì)算其外積。OverFeat深度卷積神經(jīng)網(wǎng)絡(luò)提取的鳥類分類特征,采用支持向量機(jī)訓(xùn)練鳥類種群識(shí)別模型,其中訓(xùn)練與測(cè)試均采用鳥類部位框信息,驗(yàn)證深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)鳥類種群識(shí)別的有效性。Inception-V3模型結(jié)合通過(guò)網(wǎng)絡(luò)搜索的大量鳥類影像數(shù)據(jù)及CUB200-2011鳥類數(shù)據(jù),經(jīng)訓(xùn)練能使分類精度大幅度提高。雙跳躍網(wǎng)絡(luò)模型首先對(duì)鳥類標(biāo)簽做整理,將歸屬同類的鳥類標(biāo)記為同一標(biāo)簽,然后構(gòu)建2個(gè)相同的網(wǎng)絡(luò)框架同時(shí)訓(xùn)練鳥類原始標(biāo)簽和子類標(biāo)簽,子類分類網(wǎng)絡(luò)框架訓(xùn)練時(shí)指導(dǎo)原始標(biāo)簽網(wǎng)絡(luò)框架訓(xùn)練。基于鳥類單影像分類模型具有分類簡(jiǎn)單,僅需輸入鳥類原圖即可的優(yōu)勢(shì),但由于其未利用鳥類部位信息導(dǎo)致其對(duì)于相似鳥類種群識(shí)別效果不佳。故許多研究者基于鳥類部位信息,如R-CNN物體定位框架(Zhangetal., 2014)、關(guān)鍵點(diǎn)群檢測(cè)算法 (Bransonetal., 2014)或影像分割模型FCN(Longetal., 2015)等提取鳥類部位信息,通過(guò)不同深度卷積神經(jīng)網(wǎng)絡(luò)分別提取各部位圖像分類特征,將各部位圖像特征合并或疊加后,傳入支持向量機(jī)(Zhangetal., 2014; Bransonetal., 2014)、Softmax分類層(Weietal., 2018; Huangetal., 2016)進(jìn)行分類,建構(gòu)不同的鳥類種群識(shí)別模型。
鳥類種群識(shí)別因其具有組間差異小,組內(nèi)差異大的分類特性,導(dǎo)致鳥類種群識(shí)別成為一項(xiàng)高難度的分類任務(wù)。利用單影像鳥類影像數(shù)據(jù),設(shè)計(jì)鳥類種群識(shí)別模型的識(shí)別模式具有訓(xùn)練簡(jiǎn)單方便,分類效果較優(yōu)的優(yōu)勢(shì),但由于鳥類間差異一般集中于其特定部位,導(dǎo)致該識(shí)別模型具有一定的分類精度瓶頸,利用鳥類其他信息,如部位信息,已成為解決鳥類種群識(shí)別問(wèn)題的重要手段。故本文基于鳥類影像數(shù)據(jù)以及其部位標(biāo)注數(shù)據(jù),結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù),提出融合模塊(Fusion block)特征融合結(jié)構(gòu),構(gòu)建融合全域與局域特征的深度卷積網(wǎng)絡(luò)鳥類種群識(shí)別模型,以期為森林與濕地的監(jiān)控與治理提供新的手段,推進(jìn)我國(guó)生態(tài)文明建設(shè)。
研究表明人類識(shí)別物體的過(guò)程可分為2個(gè)步驟,首先識(shí)別物體的整體特征,其次識(shí)別物體的局部特征(Luetal., 2018)。依據(jù)人類識(shí)別物體的過(guò)程,筆者基于鳥類影像數(shù)據(jù),結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù),提出結(jié)合全域與局域部件的深度卷積網(wǎng)絡(luò)鳥類種群識(shí)別模型(圖1)。
圖1 鳥類種群識(shí)別模型框架Fig.1 Classification framework of bird species in Fujian
該模型由2個(gè)子網(wǎng)絡(luò)組成,局部和全局特征抽取模塊,分別抽取224×224像素原影像的局部和全局鳥類特征,將其全局池化后的特征進(jìn)行融合作為最終分類特征,并采用softmax分類層進(jìn)行預(yù)測(cè)類別。對(duì)于全局特征抽取模塊,其主要采用DenseNet(Huangetal., 2017)模型抽取鳥類的全局特征; 對(duì)于局部特征抽取模塊,采用鳥類局部影像作為模型的輸入,基于DenseNet模型抽取鳥類局部特征,為了進(jìn)一步抽取全局和局部融合后的分類特征,使得分類特征更加具有分類性,選擇全局及局部2個(gè)模塊所抽取的大小為14×14像素卷積特征,利用跳躍結(jié)構(gòu)進(jìn)行交互,提出融合模塊(Fusion block)結(jié)構(gòu),將全局與局部特征進(jìn)行有效融合。為了習(xí)得融合后的有效特征及網(wǎng)絡(luò)框架權(quán)重,在融合后使用稠密塊對(duì)融合后的特征圖進(jìn)行權(quán)重學(xué)習(xí)、更新與特征抽取
在模型建構(gòu)過(guò)程中,采用鳥類真實(shí)部位標(biāo)注影像訓(xùn)練分類模型。但由于現(xiàn)實(shí)測(cè)試時(shí),無(wú)法提供真實(shí)標(biāo)注影像數(shù)據(jù),故采用Faster R-CNN作為局部部位檢測(cè)模型。因此,對(duì)于模型的建構(gòu)過(guò)程,F(xiàn)aster R-CNN模型與分類模型的訓(xùn)練并未同時(shí)完成。首先預(yù)先訓(xùn)練Faster R-CNN模型用于測(cè)試時(shí)使用; 其次,采用鳥類真實(shí)部位標(biāo)注影像訓(xùn)練分類模型; 最后,將測(cè)試影像通過(guò)訓(xùn)練完成的檢測(cè)模型獲得部位信息,并與原影像一起傳入訓(xùn)練完成的分類模型,進(jìn)行影像的預(yù)測(cè)。
該模型主要存在以下優(yōu)勢(shì): 1)根據(jù)人類識(shí)別物體流程,結(jié)合鳥類整體和局部信息,設(shè)計(jì)多框架鳥類識(shí)別模型; 2)采用跳躍連接機(jī)制將全局和局部特征抽取模塊進(jìn)行交互,并提出融合模塊結(jié)構(gòu)進(jìn)行全局和局部特征融合。3)模型僅需訓(xùn)練階段提供鳥類部位信息,測(cè)試階段可自動(dòng)提取鳥類部位信息,可方便快捷地對(duì)現(xiàn)實(shí)場(chǎng)景中鳥類進(jìn)行識(shí)別。
筆者為了可有效地將全局和局部特征進(jìn)行有效融合,基于DenseNet模型框架,提出融合模塊(Fusion block)進(jìn)行特征融合。DenseNet模型主要由稠密塊(Dense block)和轉(zhuǎn)化層(Transition layer)組成(圖2)。稠密塊由多個(gè)殘差塊堆積組成,負(fù)責(zé)模型特征的抽取,每個(gè)殘差塊均與后面殘差塊之間建立跳躍結(jié)構(gòu)進(jìn)行特征融合,其中殘差塊為2層卷積組合,并將卷積輸入與卷積結(jié)果進(jìn)行融合的結(jié)構(gòu)。由于稠密塊將特征進(jìn)行累計(jì)融合,導(dǎo)致模型特征維度較高,故設(shè)置轉(zhuǎn)換層,其主要由卷積層和池化層組成,卷積層采用1×1的卷積核通過(guò)減少卷積核的個(gè)數(shù)降低特征圖的張數(shù); 池化層采用最大池化操作縮小特征圖的池化。通過(guò)2個(gè)維度的降維,大幅度減少模型的參數(shù)量。
圖2 稠密塊與轉(zhuǎn)換層Fig.2 Dense block and transition layer
融合模塊主要采用2種不同的特征融合方式,具體見圖3,操作為: 1)將全局和局部特征采用對(duì)應(yīng)元素加法計(jì)算,然后將融合的特征進(jìn)行1×1的卷積和操作池化,對(duì)特征圖進(jìn)行降維處理(圖3a)。2)將全局和局部對(duì)應(yīng)特征采用串聯(lián)的方式增加特征維度,先通過(guò)1×1的卷積層對(duì)其降維,降維比率為0.5,最后將融合的特征進(jìn)行1×1卷積和池化操作(圖3b)。
圖3 融合模塊結(jié)構(gòu)Fig.3 Structure of fusion block
對(duì)于融合模塊結(jié)構(gòu),假定xglobal和xlocal分別為輸入的全局和局部鳥類特征圖,其中xglobal和xlocal均為m×m的2D數(shù)組;P(x)為池化變換;F(x)為卷積核為1×1的卷積變換;y表示融合模塊的輸出結(jié)果。以第一種特征融合方式為例,則網(wǎng)絡(luò)的前向過(guò)程公式具體如下:
(1)
對(duì)于網(wǎng)絡(luò)的反向傳播過(guò)程,假定網(wǎng)絡(luò)訓(xùn)練過(guò)程中損失函數(shù)為L(zhǎng),則xglobal和xlocal梯度公式如下:
由上述網(wǎng)絡(luò)反向傳播求導(dǎo)公式中可知,融合模塊對(duì)梯度具有分流的效果,可將網(wǎng)絡(luò)中的梯度同時(shí)傳給全局和局部特征提取模塊,在一定程度上削減了梯度彌散的程度,保證網(wǎng)絡(luò)訓(xùn)練過(guò)程梯度的穩(wěn)定性。
數(shù)據(jù)是建立模型的基本要素之一,數(shù)據(jù)質(zhì)量的優(yōu)劣對(duì)模型分類的效果具有重要的作用。由于當(dāng)前尚未存在同時(shí)具有鳥類頭部、鳥類軀干及鳥類全身3部份標(biāo)注的數(shù)據(jù)集; 因此,以福建鳥類為對(duì)象,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)爬蟲技術(shù),從網(wǎng)上收集并整理鳥類影像數(shù)據(jù),建立福建鳥類數(shù)據(jù)集(IMLab-Birds100-2018),以期填補(bǔ)鳥類影像數(shù)據(jù)集在頭部及軀干部份數(shù)據(jù)的空白。
為了有效地節(jié)約時(shí)間和人力成本,利用計(jì)算機(jī)爬蟲搜索下載技術(shù),結(jié)合人工搜索作為輔助,收集福建鳥類數(shù)據(jù)。福建具有大面積的森林與濕地,濕地與林地鳥類占比大,且本研究旨在驗(yàn)證基于深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)福建鳥類種群識(shí)別的有效性,所以依據(jù)福建鳥類名錄,隨機(jī)選取100種福建濕地與林地鳥類作為研究對(duì)象(圖4),每類鳥類數(shù)據(jù)收集100張影像,共10 000張圖。以中國(guó)鳥類野外手冊(cè)(馬敬能等, 2000) 作為人工識(shí)別分類依據(jù),結(jié)合野外鳥類專家意見,采取多輪方式整理福建鳥類圖像數(shù)據(jù),每輪皆有多人參與,以眾數(shù)方式?jīng)Q定每張圖片歸屬。
通過(guò)福建鳥類影像數(shù)據(jù)的整理,已準(zhǔn)確標(biāo)記該數(shù)據(jù)庫(kù)單張影像數(shù)據(jù)標(biāo)簽。由利用鳥類部位信息建立鳥類種群識(shí)別模型可提高模型識(shí)別精度,故采用人工標(biāo)記的方式,參照CUB200-2011(Welinderetal., 2010)數(shù)據(jù)集標(biāo)注規(guī)則,對(duì)福建省鳥類數(shù)據(jù)庫(kù)進(jìn)行鳥類頭部、軀干以及全身標(biāo)定。
圖4 福建鳥類示例Fig.4 Sample images of bird species in Fujian
基于鳥類影像數(shù)據(jù),結(jié)合深度神經(jīng)網(wǎng)絡(luò)理論,設(shè)計(jì)鳥類種群分類網(wǎng)絡(luò)框架并訓(xùn)練模型。試驗(yàn)設(shè)置如下: 1)試驗(yàn)環(huán)境。本文采用Ubuntu16.04系統(tǒng),硬件規(guī)格為: 顯卡GTX1080Ti(11G),CPU(Core I7)、內(nèi)存(32G),并采用Google開源的TensorFlow1.9深度神經(jīng)網(wǎng)絡(luò)庫(kù)實(shí)現(xiàn)福建鳥類種群識(shí)別網(wǎng)絡(luò)模型構(gòu)建與訓(xùn)練。2)IMLab-Birds100-2018數(shù)據(jù)訓(xùn)練和測(cè)試集劃分。依據(jù)5∶5的劃分?jǐn)?shù)據(jù)比例,采用分層隨機(jī)抽樣的方式,首先對(duì)每一類數(shù)據(jù)隨機(jī)抽取50%的數(shù)據(jù)為訓(xùn)練數(shù)據(jù),其余劃分為測(cè)試數(shù)據(jù)。其次,將每一類所抽取的數(shù)據(jù)匯總形成鳥類數(shù)據(jù)的訓(xùn)練與測(cè)試集,其中訓(xùn)練集和測(cè)試集均包含5 000張鳥類影像。3)模型訓(xùn)練階段參數(shù)設(shè)置。由于模型訓(xùn)練過(guò)程Mini-batch設(shè)置過(guò)大將導(dǎo)致模型質(zhì)量下降(Keskaretal., 2017),且受顯存大小限制,故Mini-batch設(shè)置為16; Epoch設(shè)置為200; 損失函數(shù)采用交叉信息熵; 激活函數(shù)采用Relu函數(shù); 梯度下降算法采用SGD; 初始學(xué)習(xí)率設(shè)置為0.01,并采用學(xué)習(xí)率余弦衰減策略(Loshchilovetal., 2017),在訓(xùn)練過(guò)程對(duì)學(xué)習(xí)率進(jìn)行調(diào)整。此外,本文對(duì)于所涉及模型均采用遷移學(xué)習(xí)(Yosinskietal., 2014; Gaoetal., 2018; Tanetal., 2018),即利用在ImageNet訓(xùn)練完成的模型的權(quán)重作為訓(xùn)練新數(shù)據(jù)時(shí)模型的初始化權(quán)重,可有效提高模型收斂速度和分類精度。
模型評(píng)價(jià)指標(biāo)指基于真實(shí)值和預(yù)測(cè)值設(shè)計(jì)可反映其模型分類效果的指標(biāo)。對(duì)于分類模型主要采用總體分類精度(Overall accuracy)和Kappa值(Cohenetal., 1960),具體公式如下。
總體分類精度公式:
(4)
Kappa值公式:
(5)
式中:po表示每類正確分類的樣本數(shù)量之和除以總樣本數(shù),即分類正確率;pe主要采用以下公式計(jì)算:
(6)
式中:C表示樣本類別數(shù);n表示樣本總數(shù);ai表示第i類真實(shí)樣本數(shù)量;bi表示第i類預(yù)測(cè)樣本數(shù)量。Kappa系數(shù)位于[-1,1]之間,但一般Kappa系數(shù)僅位于[0,1]之間。隨著Kappa系數(shù)增高,其一致性越高,表明模型分類越優(yōu)。
基于鳥類3種部位以及原影像數(shù)據(jù),采用本文所提出鳥類種群識(shí)別模型,分別建立3種不同部位鳥類種群識(shí)別模型,其中選擇DenseNet-121作為其特征提取基本框架,特征融合方式采用串聯(lián)計(jì)算。對(duì)于模型訓(xùn)練時(shí)均采用鳥類部位標(biāo)記的真實(shí)標(biāo)簽,測(cè)試時(shí)采用2種方式進(jìn)行驗(yàn)證,一種為采用真實(shí)的鳥類部位標(biāo)簽作為輸入,另一種為采用Faster R-CNN模型檢測(cè)的結(jié)果作為測(cè)試輸入,驗(yàn)證模型的分類精度(表1)。對(duì)應(yīng)表1中的邊界框欄位,其中“Yes”表示為測(cè)試采用真實(shí)部位標(biāo)簽作為輸入,“No”則表示采用定位模型預(yù)測(cè)結(jié)果作為測(cè)試輸入。由于Faster R-CNN模型檢測(cè)存在一定的誤差,可能未成功或正確檢測(cè)出影像中鳥的部位信息,導(dǎo)致模型輸入影像缺失或錯(cuò)誤。針對(duì)影像缺失無(wú)法進(jìn)行預(yù)測(cè)的情況,規(guī)定如影像未檢測(cè)出鳥類部位影像,則將鳥類原影像作為模型輸入。另外,測(cè)試時(shí)不更新模型,對(duì)于檢測(cè)錯(cuò)誤的鳥類不信息,不會(huì)產(chǎn)生誤差傳播,適應(yīng)野外鳥類檢測(cè)需求。
由表1可知,基于鳥類不同部位的分類模型的正確率均達(dá)到90%以上,其中基于鳥類頭部數(shù)據(jù)的分類模型分類精度最高,基于鳥類軀干數(shù)據(jù)的分類模型識(shí)別率最低,表明鳥類頭部是鳥類相對(duì)明顯的分類特征。對(duì)比2種不同的測(cè)試方式可知,對(duì)于3種鳥類部位識(shí)別模型,測(cè)試階段采用部位真實(shí)標(biāo)簽的分類效果均高于采用Faster R-CNN模型定位的結(jié)果。造成2種測(cè)試方式分類精度差異主要因?yàn)镕aster R-CNN模型檢測(cè)結(jié)果存在一定的誤差,但該誤差對(duì)于鳥類的分類精度影響較小,基于不同鳥類部位數(shù)據(jù)的分類模型對(duì)于2種測(cè)試方式的分類精度僅相差0.36%~0.92%之間。對(duì)比3種鳥類種群識(shí)別模型的Kappa可知,基于鳥類頭部數(shù)據(jù)的分類模型Kappa值最高,基于鳥類軀干數(shù)據(jù)的分類模型Kappa最低,與3種鳥類種群分類模型的總體分類精度呈現(xiàn)一致現(xiàn)象。
綜上所述,采用2種測(cè)試方式對(duì)3種鳥類不同部位分類模型精度影響較小,且考慮現(xiàn)實(shí)環(huán)境識(shí)別無(wú)法提供測(cè)試影像真實(shí)部位信息,故后文僅對(duì)采用Faster R-CNN模型結(jié)果作為輸入的測(cè)試結(jié)果進(jìn)行分析。
表1 各部位鳥類種群分類模型結(jié)果Tab.1 Results of bird classification model for each part
為了分析3種鳥類部位分類模型對(duì)鳥類種群識(shí)別是否存在不同的偏好,即分類時(shí)所注重鳥類的特性是否一致,選擇3種鳥類部位分類模型識(shí)別率最高的前5種鳥示例(圖5)對(duì)其進(jìn)行比較。由圖5可知,3種鳥類部位分類模型識(shí)別率最高前5類既存在重疊的類別,也存在差異,其中三寶鳥(Eurystomusorientalis)為3種鳥類種群分類模型識(shí)別率最高的類別,該鳥類除頭部為黑色外,其余全部為藍(lán)色,具有明顯可區(qū)分特征。對(duì)于基于鳥類頭部數(shù)據(jù)的分類模型,其相對(duì)注重鳥類頭部的顏色和紋理特征,其模型識(shí)別率最高前5類均具有鮮明顏色和紋理特征。對(duì)于基于鳥類軀干數(shù)據(jù)的分類模型,其主要注重鳥類軀干的顏色分布特征,其模型識(shí)別率最高前5類中,每一類的軀干的主色調(diào)均不同,且存在明顯的可區(qū)分度。對(duì)于基于鳥類全身數(shù)據(jù)的識(shí)別模型,一定程度的融合其他2種模型所注重特征,即注重鳥類軀干特征顯著的鳥類,亦注重鳥類頭部特征明顯的鳥類,強(qiáng)化了單鳥類軀干特征,弱化了單鳥類頭部特征,導(dǎo)致其分類精度介于基于鳥類頭部和軀干分類模型之間。
為了分析不同的特征融合方式對(duì)鳥類分類模型的影響,且基于鳥類頭部數(shù)據(jù)的分類模型分類精度最高,故基于IMLab-Birds100-2018鳥類頭部數(shù)據(jù),采用DenseNet-121模型,根據(jù)不同的特征融合方式,分別建立鳥類分類模型,結(jié)果見表2。從特征融合方式分析,將2個(gè)模型框架特征圖直接采用加法運(yùn)算融合的特征圖分類效果較優(yōu),總體分類精度提高0.5%。
表2 不同特征融合方式的鳥類分類模型正確率比較
Tab.2 Comparison of accuracy of bird classification
using various fusion methods
特征融合方式Feature fusionTep1正確率Top1 accuracy(%)Δ(%)串聯(lián)Concat94.30相加Add94.800.5
考量后續(xù)欲分析的NABirds鳥類數(shù)據(jù)集缺乏分類精度較高的頭部標(biāo)注信息,因此采用全身特征進(jìn)行分析,結(jié)果見表3。從特征融合方式分析,將2個(gè)模型框架特征圖直接采用加法運(yùn)算產(chǎn)生的特征圖分類效果較優(yōu),總體分類正確率將近提高1%。
圖5 3種鳥類種群識(shí)別模型每類分類精度前5名鳥類影像Fig.5 Top five bird image for each type of classification accuracy of the three bird recognition models
表3 不同深度及特征融合方式模型正確率比較Tab.3 Comparison of correctness rates of different depth and feature fusion modes
在最優(yōu)特征融合方式下,為了驗(yàn)證全局和局部信息融合的有效性,基于IMLab-Birds100-2018,采用DenseNet-121模型,選擇鳥類原圖、鳥類全身、鳥類軀干以及鳥類頭部數(shù)據(jù)分別訓(xùn)練單框架鳥類分類模型,具體結(jié)果見表4。由表4可知,融合模型分類精度最高,分別高于僅基于原圖、鳥類頭部、鳥類軀干以及鳥類全身的分類模型6.92%、3.40%、7.40%、0.30%,表明將全域和局域信息融合具有一定的有效性。
表4 不同訓(xùn)練數(shù)據(jù)模型精度對(duì)比Tab.4 Comparison of models for different training data
為了分析3種鳥類種群識(shí)別模型(原圖+頭部,原圖+軀干,原圖+全身)對(duì)每類鳥類種群識(shí)別精度的分布情況,首先按識(shí)別精度將0~100%劃分為10等份,每一份間隔10%。其次,將3種鳥類部位模型,每類鳥類種群識(shí)別精度按其所在區(qū)間進(jìn)行累加,獲得3種模型鳥類種群識(shí)別率各區(qū)間分布數(shù)據(jù),并將其繪制成直方圖(圖6)。上述試驗(yàn),采用Densenet-121模型,原圖+頭部模型使用相加融合方式,其余模型采用串聯(lián)融合方式,具體實(shí)驗(yàn)結(jié)果見圖6。由圖6可知,3種鳥類部位分類模型類別分類精度區(qū)間數(shù)量最高的為90%~100%,且整個(gè)直方圖呈現(xiàn)右偏現(xiàn)象,其中基于鳥類頭部分類模型所達(dá)數(shù)量最高,為84%(即100類中84類分類精度達(dá)90%以上),基于軀干分類模型所達(dá)數(shù)量最低。對(duì)于基于鳥類頭部的分類模型,其分類效果是3種分類模型分類最優(yōu),最低類別分類精度達(dá)50%以上,且每類分類精度低于70%的僅占其總類數(shù)的5%。對(duì)于基于鳥類軀干的分類模型,其分類精度為3種分類模型最低,每類分類精度低于70%占其總類數(shù)的7%,且其每類分類精度90%~100%的比例,比基于鳥類頭部和全身數(shù)據(jù)的分類模型占比分別低了19%和11%; 每類分類精度80%~90%的比例,比基于鳥類頭部和全身數(shù)據(jù)的分類模型占比分別高了16%和8%。對(duì)于基于鳥類全身數(shù)據(jù)的分類模型,其分類精度介于其他2個(gè)模型之間,每類分類精度低于70%占其總類數(shù)量的比例與基于鳥類頭部數(shù)據(jù)模型一樣,均為5%,但其存在1%的類別數(shù)量分類精度低于50%。此外,其每類分類精度90%~100%的比例,比基于鳥類頭部數(shù)據(jù)的分類模型占比低了8%,每類分類精度80%~90%的比例,比基于鳥類頭部數(shù)據(jù)的分類模型占比分別高了8%。
圖6 3種鳥類種群分類模型每類分類精度Fig.6 Statistical classification chart for each type of classification of three bird classification models
為了分析3種鳥類種群分類模型錯(cuò)誤識(shí)別的類別是否具有相似以及錯(cuò)誤分類的原因,首先選擇每個(gè)模型類別分類精度最低的5類鳥類,其次,計(jì)算5類中每類被錯(cuò)分率最高的3類鳥類比例,并按降序排列將其繪制成條形圖(圖7),條形圖中綠色條形標(biāo)注該類鳥的真實(shí)標(biāo)簽,其他顏色按從上到下標(biāo)注的鳥類名稱分別表示該類鳥被錯(cuò)分鳥類的類別名稱,其中條形圖的橫向長(zhǎng)度表示該類鳥類被錯(cuò)分為條形所標(biāo)注鳥類的比例。由圖7可知,3種鳥類種群分類模型錯(cuò)分率最高的前5類鳥類存在較高的相似性,其中3種分類模型錯(cuò)分率最高的前5類鳥類中相同鳥類為: 大杓鷸(Numeniusmadagascariensis)、白腰杓鷸(Numeniusarquata)以及牛頭伯勞(Laniusbucephalus)。對(duì)于大杓鷸與白腰杓鷸,2種鳥相互為其各自被錯(cuò)分率最高的鳥類,主要由于2種鳥類體態(tài)未存在明顯可區(qū)分特征,最大差別僅為白腰杓鷸的腰及尾較白,而大杓鷸的嘴相對(duì)更長(zhǎng)以及下彎明顯,均較為不明顯(馬敬能等, 2000),導(dǎo)致模型對(duì)2種鳥類相互錯(cuò)誤識(shí)別。對(duì)于牛頭伯勞,該鳥被錯(cuò)分率最高的基本為其較為相近的紅尾伯勞(Laniuscristatus)和虎紋伯勞(Laniustigrinus),由于其均屬于伯勞科伯勞屬,故其鳥類間具有較高的相似性,造成模型的誤判。由上述可知,3種分類模型錯(cuò)分類別具有較高的相似性,對(duì)于錯(cuò)分的類別主要由于其類間具有較高的相似性,未存在明顯的可區(qū)分特征,導(dǎo)致模型識(shí)別錯(cuò)誤。
綜上所述,本文所提出的鳥類種群識(shí)別模型具有較高的分類精度,其中基于鳥類頭部數(shù)據(jù)的分類模型識(shí)別率最高,基于鳥類軀干數(shù)據(jù)的分類模型識(shí)別率最低。此外,通過(guò)對(duì)比3種鳥類種群分類模型的錯(cuò)誤分類情況,發(fā)現(xiàn)類間具有高相似性的鳥類集合,由于其鳥類本身未存在顯著分辨特征,導(dǎo)致模型對(duì)該集合鳥類種群分類精度下降。
為了驗(yàn)證筆者提出的鳥類種群分類模型的有效性,選擇Inception-V1(Szegedyetal., 2015)、Inception-V2(Ioffeetal., 2015)、Inception-V3(Szegedyetal., 2016)、ResNet-50、ResNet-101、ResNet-152、DenseNet-121、DenseNet-169以及Bilinear-CNN(Linetal., 2018)模型作為對(duì)比模型,其中所對(duì)比的模型均采用ImageNet預(yù)訓(xùn)練模型權(quán)重初始化網(wǎng)絡(luò)框架權(quán)重,所有輸入影像數(shù)據(jù)均放縮到224×224像素,具體結(jié)果見表5。
由表5可知,本文提出模型的總體正確率分類精度最高,達(dá)94.80%,高于Bilinear-CNN模型12.36%,DenseNet-169模型6.50%。對(duì)比各模型Kappa值可知,本文所提分類模型的Kappa最高,達(dá)0.95,具有較好的一致性。對(duì)比各模型的參數(shù)量可知,ResNet系列模型的參數(shù)量相對(duì)偏高,DenseNet系列模型參數(shù)量相對(duì)較低,ResNet系列模型的分類精度總體低于DenseNet模型,表明DenseNet模型對(duì)于鳥類種群識(shí)別模型更有效,且隨著DenseNet模型層數(shù)的上升,模型的分類精度有一定提升,相對(duì)于DenseNet-169模型參數(shù)量,本文所提模型參數(shù)量?jī)H高于1.46×106個(gè),但模型總體分類精度大幅度提高6.5%。由上述可知,本文所提出鳥類種群識(shí)別模型分類精度優(yōu)于其他模型,具有較高的分類精度,一定程度驗(yàn)證了本文所提模型的有效性。
表5 各模型分類精度匯總Tab.5 Summary of classification accuracy of each model
進(jìn)一步分析各模型的收斂速度(圖8),選擇各系列模型中總體分類精度高的模型作為分析對(duì)象,具體模型為Inception-V2、ResNet-152以及DenseNet-169等模型,并將所選模型訓(xùn)練過(guò)程損失函數(shù)的值繪制成曲線。由圖8可知,各模型的訓(xùn)練的損失函數(shù)趨勢(shì)基本一致,均于訓(xùn)練過(guò)程前25個(gè)epoch內(nèi)函數(shù)損失值相繼降到0~1之間,之后一直穩(wěn)定處于0.75左右,表明各模型訓(xùn)練平穩(wěn),訓(xùn)練所得參數(shù)具有可靠性。此外,對(duì)于筆者所提出模型,其損失函數(shù)收斂曲線較早穩(wěn)定,表明特征融合結(jié)構(gòu)對(duì)模型訓(xùn)練時(shí)梯度具有一定的分流左右,可提高模型收斂速度。
圖8 模型訓(xùn)練loss曲線Fig.8 The model training loss curve
為了驗(yàn)證本文所提鳥類種群分類模型對(duì)其他鳥類數(shù)據(jù)識(shí)別是否具有適用性,故本文基于NABirds(Yinetal., 2018)鳥類數(shù)據(jù)集,采用本文所提分類模型,建立鳥類種群分類模型,特征融合方式采用加法運(yùn)算融合。NABirds鳥類數(shù)據(jù)集包含555種鳥類,其中每一類鳥類最高樣本量為120張,最低樣本量為13張,總訓(xùn)練數(shù)據(jù)影像張數(shù)為23 929,總測(cè)試數(shù)據(jù)影像張數(shù)為24 633,共48 562張鳥類影像。各類數(shù)據(jù)分布統(tǒng)計(jì)見圖9,將每類鳥類的樣本數(shù)量,按區(qū)間[10,130]每隔20等份劃分6份。由圖9可知,NABirds數(shù)據(jù)集類別樣本數(shù)量分布較為分散,類別數(shù)據(jù)量間存在較大的不平衡,其中類別樣本數(shù)低于50張的占數(shù)據(jù)總類數(shù)的11%,且將近一半的類別樣本數(shù)量低于100張。因此,相對(duì)于本文所收集的IMLab-Birds100-2018數(shù)據(jù)集,NBirds數(shù)據(jù)集具有較大的分類難度。雖然NBirds數(shù)據(jù)集包含較多的鳥類種類及圖像張數(shù),但其只有原圖標(biāo)簽及全身標(biāo)注,缺乏頭部及軀干標(biāo)注。為驗(yàn)證本文所提鳥類種群分類模型的適用性,采用原圖及全身特征進(jìn)行特征融合。
1:[10,30); 2:[30,50); 3:[50,70); 4:[70,90); 5:[90,110); 6:[110,130)圖9 NABirds數(shù)據(jù)集各類數(shù)量分布統(tǒng)計(jì)Fig.9 Various types of distribution statistics for NABirds dataset
對(duì)比Van Horn等(Van Hornetal., 2015)、Bilinear CNN、Yin等(Yinetal., 2018)模型在NABirds數(shù)據(jù)集的總體分類精度(表6),本文所提模型具有較好的總體分類精度,基于DenseNet-169模型的總體分類精度高于其他模型,其中基于DenseNet-121模型的總體分類精度高于大部分對(duì)比模型,相比Dubey等(Dubeyetal., 2018)分類精度低了0.59%,這主要因?yàn)镹ABird數(shù)據(jù)集較為復(fù)雜,Dubey等模型采用了DenseNet-161模型,層數(shù)高于DenseNet-121,可抽取更具有效的分類特征??傮w而言,一定程度說(shuō)明DenseNet-169模型對(duì)于復(fù)雜的數(shù)據(jù),其擬合效果優(yōu)于其他模型。由上述可知,筆者所提鳥類模型對(duì)其他數(shù)據(jù)集具有一定的適用性。
表6 模型總體分類精度對(duì)比Tab.6 Comparison of overall classification accuracy
準(zhǔn)確的識(shí)別鳥類種群信息,對(duì)森林與濕地的質(zhì)量評(píng)價(jià)與監(jiān)測(cè)具有重要意義。本文以基于鳥類影像數(shù)據(jù),結(jié)合深度神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ),提出融合全域與局域特征的深度卷積網(wǎng)絡(luò)鳥類種群識(shí)別模型,該模型主要分為2個(gè)模塊,分別負(fù)責(zé)提取鳥類的全域及局域部件特征。通過(guò)在2個(gè)模塊間建立跳躍結(jié)構(gòu),提出融合模塊(Fusion block) 結(jié)構(gòu)進(jìn)行特征融合,使模型抽取的全局和局部特征進(jìn)行有效的傳遞; 最后,對(duì)比Inception、ResNet、DenseNet、 Bilinear-CNN等模型以及NABirds鳥類數(shù)據(jù)集,驗(yàn)證模型的有效性和適用性。研究結(jié)論如下: 1)基于本文所提出模型,采用不同鳥類部位影像建立鳥類種群分類模型均具有較高的分類精度,其中分類精度最高的為基于鳥類頭部影像數(shù)據(jù)的分類模型。2)通過(guò)對(duì)比Inception-V1、Inception-V2、Inception-V3、ResNet-50、ResNet-101、ResNet-152、DenseNet-121、DenseNet-169以及Bilinear-CNN模型分類精度,本文所提出鳥類種群分類模型識(shí)別精度均高于上述對(duì)比模型,驗(yàn)證了模型的有效性。3)通過(guò)將本文所提模型應(yīng)用于NABirds鳥類數(shù)據(jù)集,并對(duì)比其他模型的總體分類精度,本文所提鳥類種群分類模型總體分類精度表現(xiàn)較好,驗(yàn)證了模型在其他數(shù)據(jù)集的適用性。綜上所述,本文所提模型具有較高分類精度和一定的適用性可為森林與濕地的監(jiān)控提供有力的支持。