魏銘辰,劉立波*,王曉麗
1.寧夏大學(xué)信息工程學(xué)院,銀川 750021
2.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081
3.中國(guó)農(nóng)業(yè)科學(xué)院國(guó)家南繁研究院,海南三亞 572024
4.國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心,北京 100081
濕地屬于天然生態(tài)環(huán)境系統(tǒng)中至關(guān)重要的一部分,擁有較高的生態(tài)價(jià)值與經(jīng)濟(jì)價(jià)值,其中鳥(niǎo)類(lèi)數(shù)量對(duì)于濕地的自然生態(tài)體系能量流動(dòng),以及維持自然生態(tài)系統(tǒng)穩(wěn)定性等方面都起著決定性作用[1]。雖然寧夏土地面積較小,但全區(qū)已建成濕地類(lèi)型自然保護(hù)地4處、濕地24處。通過(guò)強(qiáng)化保護(hù)濕地生態(tài)等一系列有效措施,寧夏濕地質(zhì)量及功能得到有效提升,大幅改善了濕地植被品質(zhì)。濕地中生活及遷徙的鳥(niǎo)類(lèi)物種與數(shù)量也穩(wěn)步增長(zhǎng)。在生態(tài)保護(hù)中,有效識(shí)別不同種類(lèi)的生物是進(jìn)行生態(tài)研究的重要前提,為資源環(huán)境評(píng)價(jià)和相應(yīng)的保護(hù)措施提供基礎(chǔ)數(shù)據(jù)支撐。
在野生鳥(niǎo)類(lèi)的識(shí)別與分類(lèi)保護(hù)中,了解野生鳥(niǎo)類(lèi)所屬科種,實(shí)現(xiàn)同一鳥(niǎo)綱下不同科、屬的精細(xì)化自動(dòng)識(shí)別是一項(xiàng)非常重要的工作?,F(xiàn)有的寧夏野生鳥(niǎo)類(lèi)圖像資源大多以圖譜為表現(xiàn)形式[2],可完成日常通用的分類(lèi)與識(shí)別,但主要是以進(jìn)行科普展示和圖像對(duì)照為主,不能作為寧夏野生鳥(niǎo)類(lèi)分類(lèi)研究任務(wù)的細(xì)粒度圖像數(shù)據(jù)集。與一般的圖像資源相比,細(xì)粒度圖像數(shù)據(jù)集的獲取難度更大,需要很強(qiáng)的專(zhuān)業(yè)領(lǐng)域認(rèn)知能力來(lái)進(jìn)行數(shù)據(jù)收集與標(biāo)注。本研究以現(xiàn)有的鳥(niǎo)類(lèi)細(xì)粒度圖像數(shù)據(jù)集 CUB-200-2011和YUB-200-2017為研究對(duì)照,其中CUB-200-2011數(shù)據(jù)集包含200種北美鳥(niǎo)類(lèi)[3],YUB-200-2017數(shù)據(jù)集包含200種云南野生鳥(niǎo)類(lèi)[3]。由于地域、環(huán)境以及生態(tài)條件的差異,使得這兩個(gè)細(xì)粒度圖像數(shù)據(jù)集并不能對(duì)寧夏野生鳥(niǎo)類(lèi)的保護(hù)和研究形成有效支撐。作者在有關(guān)項(xiàng)目的支持下,通過(guò)圖像采集、數(shù)據(jù)整合、數(shù)據(jù)標(biāo)注,結(jié)合寧夏實(shí)際對(duì)現(xiàn)有野生候鳥(niǎo)樣本進(jìn)行妥善收集與處理,構(gòu)建了更高質(zhì)量、更具特色和針對(duì)性更強(qiáng)的寧夏野生鳥(niǎo)類(lèi)細(xì)粒度分類(lèi)研究圖像數(shù)據(jù)集,一共收集206種不同鳥(niǎo)類(lèi),平均每個(gè)類(lèi)別約60幅圖像,共12297幅鳥(niǎo)類(lèi)圖像。借助鳥(niǎo)類(lèi)部件特征篩選匹配,及時(shí)發(fā)現(xiàn)和甄別稀有鳥(niǎo)類(lèi),從而更加全面系統(tǒng)了解寧夏保護(hù)地野生鳥(niǎo)類(lèi)種類(lèi),為不同鳥(niǎo)類(lèi)采取有效保護(hù)措施提供強(qiáng)有力支撐依據(jù);同時(shí)為鳥(niǎo)類(lèi)生態(tài)、種群發(fā)展、生物多樣性以及城市資源環(huán)境監(jiān)測(cè)提供客觀可信的生物指標(biāo),對(duì)于生態(tài)環(huán)境建設(shè)具有非常重要的現(xiàn)實(shí)意義。
本數(shù)據(jù)集通過(guò)人工拍攝和網(wǎng)絡(luò)爬蟲(chóng)兩種方法實(shí)現(xiàn)圖像采集,占比分別為6:4。人工拍攝設(shè)備采用Canon EOS 1D X Mark III數(shù)碼單反相機(jī),拍攝地點(diǎn)為寧夏回族自治區(qū)沙湖自然保護(hù)地、銀川市鳴翠湖濕地保護(hù)地以及賀蘭山國(guó)家級(jí)自然保護(hù)地。主要拍攝不同地點(diǎn)、不同時(shí)間的靜態(tài)與動(dòng)態(tài)的野生鳥(niǎo)類(lèi)。爬蟲(chóng)技術(shù)采集數(shù)據(jù)要借助Scrapy網(wǎng)絡(luò)爬蟲(chóng)工具,在中國(guó)野鳥(niǎo)圖庫(kù)(http://www.cnbird.org.cn/)、鳥(niǎo)網(wǎng)(https://www.birdnet.cn/)、濕地中國(guó)(http://www.shidicn.com/)3個(gè)公開(kāi)網(wǎng)站完成圖片數(shù)據(jù)的收集,占比依次約為5:3:2。在利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)時(shí)需要查閱鳥(niǎo)類(lèi)圖譜圖書(shū)來(lái)確定本數(shù)據(jù)集所需要的鳥(niǎo)類(lèi)圖像數(shù)據(jù)。
在構(gòu)建寧夏野生鳥(niǎo)類(lèi)細(xì)粒度分類(lèi)研究圖像數(shù)據(jù)集的過(guò)程中,由于部分圖像數(shù)據(jù)是利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在互聯(lián)網(wǎng)中得到的,該類(lèi)圖像數(shù)據(jù)存在對(duì)比度偏低和分辨率過(guò)大的現(xiàn)象。為了減少后續(xù)研究中的誤差和錯(cuò)誤,作者對(duì)圖像數(shù)據(jù)進(jìn)行了圖像增強(qiáng)處理。首先對(duì)于低亮度的圖像數(shù)據(jù),利用保持圖像自然度的低亮度圖像增強(qiáng)方法進(jìn)行亮度增強(qiáng)。其次對(duì)于分辨率過(guò)大的圖像數(shù)據(jù),在圖像預(yù)處理的過(guò)程中利用圖像裁剪技術(shù)使得圖像數(shù)據(jù)保持在863*762分辨率范圍內(nèi)。
為使得圖像在深度學(xué)習(xí)中能夠更好地進(jìn)行分類(lèi)與識(shí)別任務(wù),構(gòu)建一個(gè)可為深度學(xué)習(xí)建模提供訓(xùn)練和測(cè)試的數(shù)據(jù)集是本次研究過(guò)程中的重點(diǎn)任務(wù)。因此本研究利用 LabelMe和精靈標(biāo)注助手(Colabeler)工具進(jìn)行裁剪和標(biāo)注,給寧夏野生鳥(niǎo)類(lèi)細(xì)粒度分類(lèi)研究圖像數(shù)據(jù)集提供豐富的人工標(biāo)注信息,其中針對(duì)每一張圖片將其裁剪出前景區(qū)域和部分背景區(qū)域,去除過(guò)于冗余的背景,凸顯出鳥(niǎo)在圖片中的主體位置。之后針對(duì)每一張圖片進(jìn)行鳥(niǎo)的整體包圍盒標(biāo)注、局部包圍盒標(biāo)注(頭部包圍盒、身體包圍盒)和15個(gè)關(guān)鍵點(diǎn)部位的標(biāo)注(喙、喉、后背、腹部、胸部、羽冠、前額、左眼、右眼、左腿、右腿、左翼、右翼、頸部和尾部)。本數(shù)據(jù)集部分圖像標(biāo)注示例如圖1所示。
圖1 人工標(biāo)注示意圖Figure 1 Schematic diagram of manual annotation
本數(shù)據(jù)集圖像文件夾中包含206種不同鳥(niǎo)類(lèi),每種鳥(niǎo)類(lèi)的圖像數(shù)據(jù)為一個(gè)文件夾,并且這些圖像數(shù)據(jù)都是從不同地點(diǎn)、不同環(huán)境、不同時(shí)間和不同姿態(tài)收集到的,平均每個(gè)類(lèi)別約60幅圖像,共有高質(zhì)量jpg圖像數(shù)據(jù)12297張。本數(shù)據(jù)集部分種類(lèi)鳥(niǎo)類(lèi)圖像示意圖如圖2所示,全部種類(lèi)鳥(niǎo)類(lèi)圖像示意圖如圖3所示。
圖2 部分種類(lèi)鳥(niǎo)類(lèi)圖像示意圖Figure 2 A schematic diagram comprising photos of many bird species
圖3 全部種類(lèi)鳥(niǎo)類(lèi)圖像示意圖Figure 3 Schematic diagram of photos for all bird species
本數(shù)據(jù)集文本數(shù)據(jù)來(lái)源主要為人工標(biāo)注信息,所包含的數(shù)據(jù)信息為:圖像中鳥(niǎo)類(lèi)整體邊界框的像素坐標(biāo)、圖像中鳥(niǎo)類(lèi)頭部和軀干部邊界框的像素坐標(biāo)、鳥(niǎo)類(lèi)圖像數(shù)據(jù)中15個(gè)部件(喙、喉、后背、腹部、胸部、羽冠、前額、左眼、右眼、左腿、右腿、左翼、右翼、頸部和尾部)的像素坐標(biāo),這些像素坐標(biāo)數(shù)據(jù)以txt格式的文件保存在本數(shù)據(jù)集當(dāng)中。
對(duì)于圖像數(shù)據(jù)的質(zhì)量,本研究中采集的寧夏野生鳥(niǎo)類(lèi)圖像來(lái)源主要有兩種方式:一種是人工拍攝,準(zhǔn)確記錄不同生態(tài)環(huán)境下不同鳥(niǎo)類(lèi)的不同姿態(tài),同時(shí)保證鳥(niǎo)類(lèi)圖像的分類(lèi)準(zhǔn)確度。另一種是收集來(lái)自互聯(lián)網(wǎng)的圖像,在鳥(niǎo)類(lèi)研究專(zhuān)家的嚴(yán)格監(jiān)控下進(jìn)行,并且后期對(duì)采集的圖像進(jìn)行了二次篩選,將不符合本研究的圖像文件剔除,保證數(shù)據(jù)的真實(shí)可靠[4]。
對(duì)于文本數(shù)據(jù)的質(zhì)量,首先文本數(shù)據(jù)是在已經(jīng)進(jìn)行質(zhì)量控制的圖像數(shù)據(jù)的基礎(chǔ)上進(jìn)行人工標(biāo)注后所提取的標(biāo)注點(diǎn)的坐標(biāo)數(shù)據(jù),所以標(biāo)注信息能夠保證數(shù)據(jù)的真實(shí)可靠。其次在人工標(biāo)注時(shí)是按照現(xiàn)有公開(kāi)數(shù)據(jù)集通用標(biāo)注方法完成的,進(jìn)而確保文本數(shù)據(jù)與其配對(duì)圖像的準(zhǔn)確性與可靠性。
本數(shù)據(jù)集與基礎(chǔ)的鳥(niǎo)類(lèi)圖譜數(shù)據(jù)集最主要的區(qū)別在于:寧夏野生鳥(niǎo)類(lèi)細(xì)粒度分類(lèi)研究圖像數(shù)據(jù)集中每種鳥(niǎo)類(lèi)圖像都涵蓋著該鳥(niǎo)類(lèi)的不同姿態(tài),同時(shí)又進(jìn)行了人工標(biāo)注,進(jìn)而形成與圖像標(biāo)注點(diǎn)一一對(duì)應(yīng)的文本數(shù)據(jù),為細(xì)粒度圖像研究方向提供了基礎(chǔ)數(shù)據(jù)資源。隨著深度學(xué)習(xí)的不斷發(fā)展,可以通過(guò)深度學(xué)習(xí)的方法在本數(shù)據(jù)集的基礎(chǔ)上建立寧夏野生鳥(niǎo)類(lèi)細(xì)粒度識(shí)別模型,為寧夏鳥(niǎo)類(lèi)研究人員提供可靠的分類(lèi)依據(jù),從而有效推動(dòng)寧夏野生鳥(niǎo)類(lèi)物種保護(hù)及棲息地修復(fù)工作,也可為濕地等保護(hù)地科學(xué)規(guī)范管理工作提供決策依據(jù)。
本數(shù)據(jù)集中包含了大量不同姿態(tài)的鳥(niǎo)類(lèi)圖像,因此在使用中可以根據(jù)需求來(lái)獲取所需要的圖像數(shù)據(jù)。同時(shí)又進(jìn)行了人工標(biāo)注工作,使得可以采用深度學(xué)習(xí)強(qiáng)監(jiān)督方法利用人工標(biāo)注的坐標(biāo)標(biāo)簽實(shí)現(xiàn)圖像主體位置定位。
致 謝
感謝中國(guó)野鳥(niǎo)圖庫(kù)、鳥(niǎo)網(wǎng)、濕地中國(guó)三個(gè)公開(kāi)數(shù)據(jù)網(wǎng)站,為本數(shù)據(jù)集的構(gòu)建提供了堅(jiān)實(shí)的幫助。
中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2022年3期