陳云霞 周婷媛 鄒智元
摘要:文章提出一種基于計(jì)算機(jī)視覺的象牙鑒定方法,通過(guò)專用圖像采集設(shè)備實(shí)現(xiàn)高清象牙紋理圖像拍攝,采用圖像增強(qiáng)方法對(duì)原始圖像進(jìn)行預(yù)處理并建立象牙紋理圖像數(shù)據(jù)集,基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練象牙識(shí)別模型對(duì)象牙紋理圖像進(jìn)行特征提取和分類,從而實(shí)現(xiàn)猛犸象牙與現(xiàn)生象牙鑒定。結(jié)果表明該方法能夠快速、有效地對(duì)象牙制品進(jìn)行鑒定與識(shí)別,解決目前的執(zhí)法難題。
關(guān)鍵詞:象牙鑒定;計(jì)算機(jī)視覺;深度神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào): TP391.4? 文獻(xiàn)標(biāo)志碼: A
0 引言
現(xiàn)生大象是珍貴的瀕危野生動(dòng)物,非洲象、亞洲象均已列入《瀕危野生動(dòng)植物種國(guó)際貿(mào)易公約》(Convention on International Trade in Endangered Species of Wild Fauna and Flora,CITES)名錄。其中,亞洲象主要分布于云南省南部以及南亞和東南亞地區(qū)。象牙及其制品的市場(chǎng)貿(mào)易持續(xù)得到國(guó)家決策層和學(xué)術(shù)界的關(guān)注,由于不法人員對(duì)大象的大規(guī)模獵殺,野生大象的數(shù)量急劇減少。因此,限制象牙制品貿(mào)易和抵制象牙及制品,對(duì)保護(hù)野生動(dòng)物資源具有重要意義。然而,在執(zhí)法過(guò)程中如何快速、有效地對(duì)類象牙制品進(jìn)行鑒定與識(shí)別,是目前亟待解決的問(wèn)題[1]。
目前,在野生動(dòng)物保護(hù)執(zhí)法過(guò)程中,象牙識(shí)別可以參照CITES提供的象牙及其仿制品鑒定方法。該方法為野生動(dòng)物保護(hù)執(zhí)法人員、科學(xué)家和管理人員提供了一種非破壞性的識(shí)別手段,以實(shí)現(xiàn)初步的真?zhèn)舞b定。通過(guò)肉眼觀察鑒別象牙主要依據(jù)牙紋,即施氏線(Schreger Line)以及施氏線相交形成的施氏角(Schreger Angle)。其中施氏角包括:(1)凹角,角頂點(diǎn)指向象牙外圍的牙骨質(zhì);(2)凸角,角頂點(diǎn)指向象牙中心。表1是對(duì)2類象牙施氏角的統(tǒng)計(jì)數(shù)據(jù),其中,現(xiàn)生象牙(亞洲象或非洲象)的施氏角(凹角和凸角)的平均角度大于110°;猛犸象牙的施氏角平均角度小于100°;而象牙仿制品的斷面則無(wú)明顯的施氏線。除施氏角外,還可以通過(guò)內(nèi)部象牙質(zhì)的退化狀態(tài)進(jìn)行輔助判斷,若未出現(xiàn)明顯的退化則為現(xiàn)生象牙,否則為猛犸象牙[2-3]。
通過(guò)化學(xué)、物理或分子方法鑒定象牙,主要依據(jù)象牙成份的化學(xué)性質(zhì)、物理性質(zhì)或基因序列,這種檢測(cè)方法通常會(huì)對(duì)象牙制品造成一定的損壞。通過(guò)文獻(xiàn)研究發(fā)現(xiàn),目前,尚沒有通過(guò)數(shù)字成像和計(jì)算機(jī)圖像識(shí)別算法進(jìn)行象牙鑒定與識(shí)別的技術(shù)或方法。
本文采用專用圖像采集設(shè)備實(shí)現(xiàn)高清象牙紋理圖像拍攝,通過(guò)圖像增強(qiáng)方法對(duì)原始圖像進(jìn)行預(yù)處理,建立象牙紋理圖像數(shù)據(jù)集,最后基于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練象牙識(shí)別模型進(jìn)行特征提取,從而實(shí)現(xiàn)基于象牙紋理圖像的猛犸象牙和現(xiàn)生象牙分類。
1 象牙鑒定方法
本文提出一種基于象牙紋理圖像和深度學(xué)習(xí)模型的計(jì)算機(jī)視覺象牙鑒定方法。首先,通過(guò)高清相機(jī)采集象牙表面紋理圖像;其次,對(duì)原始象牙圖像進(jìn)行圖像增強(qiáng),并建立高清象牙紋理圖像數(shù)據(jù)集;最后,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)構(gòu)建象牙分類模型,從而實(shí)現(xiàn)猛犸象牙和現(xiàn)生象牙識(shí)別。通過(guò)該方法能夠在不損傷象牙制品的條件下進(jìn)行鑒定,以下分為3個(gè)方面進(jìn)行詳細(xì)介紹。
1.1 象牙紋理圖像采集
針對(duì)象牙紋理圖像采集問(wèn)題,本文通過(guò)建立象牙圖像采集系統(tǒng)對(duì)象牙制品的表面紋理進(jìn)行拍攝。在采集大量象牙高清圖像的同時(shí),根據(jù)樣品屬性對(duì)所采集圖像標(biāo)注其具體類型,包括猛犸象牙和現(xiàn)生象牙,為建立象牙高清數(shù)據(jù)集提供基礎(chǔ)信息。
為實(shí)現(xiàn)上述象牙圖像采集效果,本文采用高清相機(jī)建立象牙圖像采集系統(tǒng),包括硬件和軟件部分。其中,硬件部分由高清CCD工業(yè)相機(jī)、LED光源、鏡頭、供電模塊、USB模塊等組成。建立高清圖像采集模塊,進(jìn)而設(shè)計(jì)并開發(fā)專用象牙圖像采集軟件。象牙圖像采集系統(tǒng)的硬件部分先通過(guò)USB方式與計(jì)算機(jī)連接,再與象牙圖像采集系統(tǒng)的軟件部分對(duì)接,從而實(shí)現(xiàn)實(shí)時(shí)的象牙圖像采集與存儲(chǔ)。
1.2 象牙紋理圖像數(shù)據(jù)集
建立象牙紋理圖像數(shù)據(jù)集主要包括3個(gè)環(huán)節(jié):圖像預(yù)處理、圖像標(biāo)注、圖像劃分。數(shù)據(jù)集主要依靠人工結(jié)合計(jì)算機(jī)批處理來(lái)完成。
首先,對(duì)原始象牙圖像進(jìn)行預(yù)處理,具體包括:(1)針對(duì)原始象牙圖像截取有效區(qū)域并進(jìn)行旋轉(zhuǎn)校正和畸變校正;(2)針對(duì)校正后的象牙圖像,采用基于滑動(dòng)窗口的圖像增強(qiáng)方法,批量截取不同區(qū)域的圖像塊(Patch),并記錄每個(gè)Patch的原始圖像信息;(3)針對(duì)截取所得的Patch進(jìn)行篩選,保留具有清晰象牙紋理的Patch,剔除其他非紋理區(qū)域的Patch,篩選過(guò)程可采用計(jì)算輔助人工來(lái)完成。
其次,對(duì)篩選所得具有清晰象牙紋理的Patch進(jìn)行類別標(biāo)注。本文主要對(duì)猛犸象牙和現(xiàn)生象牙進(jìn)行分類,因此,在對(duì)象牙圖像數(shù)據(jù)進(jìn)行標(biāo)注時(shí),其數(shù)據(jù)標(biāo)簽應(yīng)當(dāng)主要包含2種類別標(biāo)簽,其中,0表示猛犸象牙,1表示現(xiàn)生象牙。數(shù)據(jù)標(biāo)注采用計(jì)算機(jī)自動(dòng)處理,直接根據(jù)圖像采集時(shí)記錄的象牙制品類型獲得。
最后,對(duì)標(biāo)注后的象牙紋理圖像按照一定比例進(jìn)行劃分,建立訓(xùn)練集、驗(yàn)證集和測(cè)試集,劃分比例通常采用8∶1∶1,根據(jù)模型訓(xùn)練需求的不同,也可以采用其他比例。其中,訓(xùn)練集用于深度學(xué)習(xí)模型訓(xùn)練,驗(yàn)證集用于優(yōu)選模型訓(xùn)練的權(quán)重,測(cè)試集用于評(píng)價(jià)模型性能。
因此,本文建立的高清象牙紋理圖像數(shù)據(jù)集主要包括4個(gè)部分:訓(xùn)練集、驗(yàn)證集、測(cè)試集和額外測(cè)試集。該數(shù)據(jù)集可用于象牙識(shí)別算法的模型訓(xùn)練、權(quán)重優(yōu)選與性能評(píng)估。
1.3 象牙識(shí)別算法模型
針對(duì)野生動(dòng)物保護(hù)執(zhí)法過(guò)程中需快速、有效地對(duì)類象牙制品進(jìn)行鑒定與識(shí)別問(wèn)題,本文基于深度卷積神經(jīng)網(wǎng)絡(luò)建立象牙識(shí)別模型,通過(guò)高清象牙紋理圖像進(jìn)行模型訓(xùn)練,實(shí)現(xiàn)猛犸象牙和現(xiàn)生象牙的鑒定。
本文采用神經(jīng)網(wǎng)絡(luò)架構(gòu)自動(dòng)搜索技術(shù),由架構(gòu)搜索算法對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)、類型和配置參數(shù)進(jìn)行搜索,找到合適的網(wǎng)絡(luò)架構(gòu),從而對(duì)深度模型的大量試錯(cuò)訓(xùn)練過(guò)程進(jìn)行簡(jiǎn)化,進(jìn)而構(gòu)建基于神經(jīng)網(wǎng)絡(luò)單元的模型架構(gòu)。殘差模塊結(jié)構(gòu)如圖1所示。
本文通過(guò)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索得到的2種網(wǎng)絡(luò)架構(gòu)分別是基于殘差模塊的ResNet-8網(wǎng)絡(luò)架構(gòu)和基于Fire模塊的SqueezeNet-6網(wǎng)絡(luò)架構(gòu)。其中,殘差模塊的結(jié)構(gòu)如圖1所示。3個(gè)f1(x)和f2(x)實(shí)現(xiàn)特征提取,原始輸入x通過(guò)跳躍連接與學(xué)習(xí)殘差進(jìn)行加和從而實(shí)現(xiàn)殘差學(xué)習(xí)。ResNet-8網(wǎng)絡(luò)架構(gòu)則是依次堆疊8個(gè)殘差模塊建立。Fire模塊的結(jié)構(gòu)如圖2所示,包括一組由3個(gè)1×1卷積運(yùn)算組成的擠壓塊(Squeeze)和一組由3個(gè)1×1卷積運(yùn)算與3個(gè)3×3卷積運(yùn)算構(gòu)成的擴(kuò)展塊(Expand)。SqueezeNet-6網(wǎng)絡(luò)架構(gòu)則是依次堆疊6個(gè)Fire模塊,并且分別在第1個(gè)和最后1個(gè)Fire模塊之前與之后添加1個(gè)卷積層。
圖2 Fire模塊結(jié)構(gòu)
2 模型訓(xùn)練與評(píng)估
本文基于高清象牙紋理數(shù)據(jù)集中的訓(xùn)練集對(duì)2種架構(gòu)的象牙識(shí)別網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,基于驗(yàn)證集優(yōu)選擬合效果最優(yōu)的模型權(quán)重,基于測(cè)試集與額外測(cè)試集對(duì)模型的學(xué)習(xí)性能和泛化能力進(jìn)行評(píng)估。
2.1 實(shí)驗(yàn)設(shè)置
本文基于Ubuntu 16.04 LTS操作系統(tǒng),構(gòu)建模型訓(xùn)練和測(cè)試的實(shí)驗(yàn)環(huán)境。為提高模型訓(xùn)練速度,在硬件方面配備了2個(gè)型號(hào)為NVIDIA GeForce GTX TITAN X的GPU,其中,每個(gè)GPU包含12 GB顯存和3 072個(gè)CUDA并行計(jì)算核心。在實(shí)驗(yàn)算法程序運(yùn)行上,采用了NVIDIA提供的CUDA 9.0、cuDNN 9.0、NCCL 2.2等深度神經(jīng)網(wǎng)絡(luò)運(yùn)算加速技術(shù)及多卡并行計(jì)算技術(shù)。
實(shí)驗(yàn)數(shù)據(jù)方面,訓(xùn)練集、驗(yàn)證集、測(cè)試集采用數(shù)據(jù)量比例為8∶1∶1,原始象牙圖像的分辨率為1 000×1 000像素,共采集312張。進(jìn)而,采用多種分辨率截取Patch,具體包括768×768像素、512×512像素、384×384像素、256×256像素、128×128像素。同時(shí),考慮到Patch分辨率較高時(shí),實(shí)際截取的Patch數(shù)量會(huì)減少,采用水平鏡像的方式進(jìn)行圖像增強(qiáng),從而增加訓(xùn)練數(shù)據(jù)量。額外測(cè)試集共采集原始象牙圖像320張,在進(jìn)行象牙識(shí)別模型的泛化能力評(píng)估時(shí),會(huì)根據(jù)訓(xùn)練時(shí)采用Patch的分辨率對(duì)原始象牙圖像進(jìn)行截取。
2.2 實(shí)驗(yàn)結(jié)果
基于ResNet-8模型的象牙識(shí)別實(shí)驗(yàn)結(jié)果,如表2所示。表2依次列舉了訓(xùn)練所得象牙識(shí)別模型在驗(yàn)證集、測(cè)試集、額外測(cè)試集上的精度。其中,數(shù)據(jù)劃分依次為訓(xùn)練集、驗(yàn)證集、測(cè)試集所包含的象牙紋理圖像Patch數(shù)量,采用水平鏡像進(jìn)行圖像增強(qiáng)時(shí),Patch數(shù)量會(huì)增加1倍。
該實(shí)驗(yàn)結(jié)果可以得出,在Patch分辨率為512×512像素時(shí),ResNet-8模型對(duì)訓(xùn)練數(shù)據(jù)的擬合性能和泛化性能達(dá)到最優(yōu),精度分別為87.25%和85.04%。采用水平鏡像的方法可以有效提高模型的擬合性能,對(duì)提高模型的泛化能力也具有一定的作用。Patch分辨率為768×768像素時(shí)模型的擬合性能最低,但其在額外測(cè)試集上的泛化能力略優(yōu)于分辨率為384×384像素、256×256像素、128×128像素時(shí)的泛化性能。雖然,Patch分辨率為384×384像素、256×256像素、128×128像素時(shí),模型的擬合性能和泛化性能逐漸提高,但仍低于Patch分辨率為512×512像素的模型,特別是他們的泛化性能均遠(yuǎn)低于Patch分辨率為512×512像素的模型。
基于SqueezeNet-6模型的象牙識(shí)別實(shí)驗(yàn)結(jié)果如表3所示。從表3可以得出,在Patch分辨率為512×512像素時(shí),SqueezeNet-6模型對(duì)訓(xùn)練數(shù)據(jù)的泛化性能達(dá)到最優(yōu),精度為85.62%;在Patch分辨率為384×384像素時(shí),SqueezeNet-6模型對(duì)訓(xùn)練數(shù)據(jù)的擬合性能達(dá)到最優(yōu),精度為90.71%。水平鏡像的方法也可以有效提高該模型的擬合性能。該模型在Patch分辨率為256×256像素、128×128像素時(shí),也具有相對(duì)ResNet-8模型較高的擬合性能和泛化性能。
2.3 實(shí)驗(yàn)分析
對(duì)本文在所建立的高清象牙紋理圖像數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果進(jìn)行綜合分析,可以得出,在Patch分辨率為512×512像素時(shí),ResNet-8模型和SqueezeNet-6模型的泛化性能達(dá)到最優(yōu)。相對(duì)較大分辨率的Patch,模型對(duì)較小分辨率Patch的擬合性能更好,說(shuō)明在這些分辨率下,象牙紋理具有更強(qiáng)的表達(dá)能力,更容易通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征提取。
通過(guò)上述實(shí)驗(yàn)可以證明,本文所提出的基于象牙紋理圖像和深度卷積神經(jīng)網(wǎng)絡(luò)模型的計(jì)算機(jī)視覺
象牙鑒定方法,能夠有效解決猛犸象牙和現(xiàn)生象牙的識(shí)別問(wèn)題。根據(jù)在額外測(cè)試集上的實(shí)驗(yàn)結(jié)果可知,ResNet-8模型和SqueezeNet-6模型的泛化性能均已達(dá)到85%以上,基本達(dá)到實(shí)際應(yīng)用的需要。
3 結(jié)語(yǔ)
針對(duì)禁止現(xiàn)生象牙貿(mào)易中象牙品種鑒定的難題,本文提出一種基于計(jì)算機(jī)視覺的象牙鑒定方法,通過(guò)采集高清象牙紋理圖像并建立數(shù)據(jù)集,進(jìn)而基于ResNet和SqueezeNet 2種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練象牙識(shí)別算法模型,對(duì)猛犸象牙與現(xiàn)生象牙的紋理進(jìn)行特征學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)崿F(xiàn)肉眼難以分辨的象牙制品的識(shí)別,為禁貿(mào)執(zhí)法現(xiàn)場(chǎng)提供一種快速、有效的初篩手段。
由于采集象牙制品的紋理圖像數(shù)據(jù)量有限,本文訓(xùn)練所得ResNet-8和SqueezeNet-6 2種象牙識(shí)別模型的泛化性能還有較大提升空間,模型識(shí)別結(jié)果的穩(wěn)定性還有待提高,尚無(wú)法用于精準(zhǔn)鑒定象牙品種,在實(shí)際使用中還需要結(jié)合其他人工鑒定方法才能確保最終鑒定結(jié)果的正確性。在未來(lái)工作中,可以繼續(xù)采集象牙紋理圖像,對(duì)象牙識(shí)別模型進(jìn)行優(yōu)化訓(xùn)練,從而不斷提高模型的泛化性能和穩(wěn)定性,達(dá)到替代人工鑒定的效果。
參考文獻(xiàn)
[1]崔嘯峰.中國(guó)內(nèi)地象牙、穿山甲片等野生動(dòng)物及制品走私案件分析[D].哈爾濱:東北林業(yè)大學(xué),2020.
[2]胡紅.象牙及其制品鑒定技術(shù)標(biāo)準(zhǔn)的研究[D].哈爾濱:東北林業(yè)大學(xué),2010.
[3]中華人民共和國(guó)海關(guān)總署.象牙及其制品鑒定技術(shù)規(guī)范:SN/T5275—2019[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2019.
(編輯 姚 鑫編輯)
Computer vision-based identification method for mammoth and live ivory
Chen? Yunxia1, Zhou? Tingyuan2, Zou? Zhiyuan3
(1.School of Criminal Science and Technology, Nanjing Police University, Nanjing 210023, China;
2.The 15th Institute of China Electronics Technology Group Corporation, Beijing 100083, China;
3.Computer School, Beijing Information Science and Technology University, Beijing 100101, China)
Abstract:? In this study, a computer vision-based ivory identification method is proposed. A special image acquisition device is used to capture high-resolution ivory texture images, a dataset of ivory texture images is established, and deep neural networks are used to train ivory recognition models to extract and classify ivory texture images, so as to realize the identification of mammoth ivory and live ivory. The experimental results show that this method can quickly and effectively identify ivory products and solve the current law enforcement problems.
Key words: ivory identification; computer vision; deep neural network